JoySafety:京东开源的企业级大模型安全防护框架,全链路风险识别与精准拦截
一、JoySafety 是什么
JoySafety 是京东正式开源的企业级大模型安全防护框架,旨在解决生成式人工智能应用落地过程中的各类安全风险。该框架在京东内部已广泛应用于多个业务场景,包括 AI 导购、物流客服、销售助手、医疗问诊、商家工作台、法务咨询和安全问答等。
JoySafety 支持日均亿级调用,攻击拦截率达 95% 以上,展现了其在大规模生产环境中的稳定性和可靠性。
二、功能特色
JoySafety 具备以下核心功能特色:
1. 生产级别安全防护
企业级实战验证,保障多个生产级AI应用安全稳定运行
支持高并发处理,满足大规模业务需求
具备高可用性设计,确保服务持续稳定
2. 多维度风险检测
内容安全检测:识别涉政、涉黄、涉暴、涉恐等违规内容
数据泄露防护:防止敏感信息泄露
提示词攻击防护:抵御各类提示词注入和越狱攻击
多模态安全检测:支持文本、图像等多种内容类型的安全检测
3. 灵活的架构设计
模块化设计:各功能模块解耦,便于扩展和维护
可插拔机制:支持原子能力的灵活组合和替换
支持多种部署模式:独立部署或集中部署
4. 智能响应策略
多维响应策略矩阵:精准拦截高风险内容
知识库应答:针对特定领域提供安全合规的回答
自动引导:对边缘内容进行正向引导,而非简单拒绝
5. 高效性能优化
异步检测机制:提升响应速度,优化用户体验
窗口化检测策略:平衡性能与准确性
缓存机制:减少重复计算,提高处理效率
三、技术细节
架构设计
JoySafety 采用分层架构设计,主要包括:
接入层:提供标准化API接口,支持HTTP、WebSocket等多种通信方式
策略编排层:负责安全策略的管理和执行调度
检测引擎层:包含各类安全检测模型和算法
数据存储层:负责日志、策略、模型等数据的存储和管理
管理后台:提供可视化的策略配置和监控能力
核心模块
JoySafety 的核心模块包括:
safety-admin:Java实现的配置及数据管理后台服务
safety-api:Java实现的对外API服务,负责策略编排和流式检测
safety-basic:核心库,为其他模块提供基础功能支持
safety-skills:各类安全检测能力实现,包括:
safety-bert
:基于BERT模型的文本分类safety-fasttext
:基于FastText的文本分类safety-keywords
:敏感词检测safety-knowledge
:知识检索与多轮对话检测
部署方式
JoySafety 支持多种部署方式:
单机部署:适用于开发测试环境
集群部署:适用于生产环境,支持横向扩展
容器化部署:通过Docker和Docker Compose实现快速部署
检测能力
JoySafety 提供多种安全检测能力:
文本安全检测
敏感内容识别
违规信息检测
情感倾向分析
图像安全检测
涉黄、涉暴图像识别
政治敏感人物识别
广告及垃圾图像识别
多轮对话安全
上下文风险识别
对话一致性检测
恶意引导识别
提示词安全
提示词注入检测
越权指令识别
隐私信息保护
四、应用场景
JoySafety 适用于以下典型应用场景:
1. 智能客服系统
在电商、金融、物流等领域的智能客服中,JoySafety 可以:
实时检测用户输入和AI回复内容
防止不当言论和敏感信息泄露
确保客服对话合规、安全
2. 企业知识库问答
在企业内部知识库问答系统中,JoySafety 能够:
防止敏感内部信息泄露
确保回答符合企业合规要求
提供安全的知识检索服务
3. 内容生成与审核
在内容创作平台中,JoySafety 可以:
实时审核AI生成的内容
防止违规内容发布
提供内容安全建议
4. 医疗健康咨询
在医疗AI应用中,JoySafety 能够:
确保医疗建议的安全性和合规性
防止误诊或不当医疗建议
保护患者隐私信息
5. 教育培训领域
在AI教育产品中,JoySafety 可以:
过滤不当内容
确保教育内容的适宜性
保护未成年人使用安全
五、使用方法
环境准备
安装必要的依赖:
git
git-lfs(用于下载模型)
docker
docker compose
克隆项目代码:
git clone https://github.com/jd-opensource/JoySafety.git cd JoySafety export SAFETY_ROOT_PATH=`pwd`
快速启动
使用Docker Compose一键启动服务:
docker compose up -d
验证服务是否正常运行:
curl http://localhost:8080/api/v1/health
集成使用
JoySafety 提供了简单易用的API接口,方便与现有系统集成。以下是一个简单的调用示例:
import requests import json url = "http://localhost:8080/api/v1/detect" payload = { "text": "这是一段需要检测的文本", "user_id": "user123", "session_id": "session456" } headers = {"Content-Type": "application/json"} response = requests.post(url, data=json.dumps(payload), headers=headers) result = response.json() print(result)
策略配置
JoySafety 提供了可视化的管理后台,通过Web界面可以方便地配置安全策略:
登录管理后台(默认地址:http://localhost:8081)
创建或编辑安全策略
配置检测规则和响应策略
保存并应用策略
六、常见问题解答
Q: JoySafety 支持哪些类型的内容检测?
A: JoySafety 主要支持文本内容检测,同时也提供了基础的图像安全检测能力。未来版本将进一步增强多模态检测功能。
Q: 如何扩展 JoySafety 的检测能力?
A: JoySafety 采用模块化设计,你可以通过开发新的"skill"模块来扩展其检测能力。项目中提供了详细的扩展开发文档。
Q: JoySafety 的性能如何?
A: JoySafety 经过京东内部大规模业务验证,支持日均亿级调用,平均响应时间在毫秒级,能够满足大多数生产环境的性能要求。
Q: JoySafety 是否支持私有化部署?
A: 是的,JoySafety 完全支持私有化部署,可以在企业内部网络环境中部署和运行,确保数据安全。
Q: 如何处理误判情况?
A: JoySafety 提供了反馈机制,你可以将误判案例提交给系统,系统会根据反馈数据持续优化模型。同时,你也可以通过调整策略阈值来减少误判。
Q: JoySafety 是否支持多语言检测?
A: 当前版本主要针对中文内容进行了优化,同时也支持英文等其他语言的基础检测。未来版本将增强多语言支持能力。
七、相关链接
八、总结
JoySafety 作为京东开源的企业级大模型安全防护框架,为生成式AI应用提供了全面的安全保障。其模块化设计、灵活的部署方式和丰富的检测能力,使其能够适应不同场景的安全需求。无论是在电商客服、企业知识库,还是医疗咨询等领域,JoySafety 都能提供可靠的安全防护,帮助企业在享受AI带来便利的同时,有效规避安全风险。
版权及免责申明:本文由@人工智能研究所原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/joysafety.html