JoySafety:京东开源的企业级大模型安全防护框架,全链路风险识别与精准拦截

原创 发布日期:
2

一、JoySafety 是什么

JoySafety 是京东正式开源的企业级大模型安全防护框架,旨在解决生成式人工智能应用落地过程中的各类安全风险。该框架在京东内部已广泛应用于多个业务场景,包括 AI 导购、物流客服、销售助手、医疗问诊、商家工作台、法务咨询和安全问答等。

JoySafety 支持日均亿级调用,攻击拦截率达 95% 以上,展现了其在大规模生产环境中的稳定性和可靠性。

JoySafety:京东开源的企业级大模型安全防护框架,全链路风险识别与精准拦截

二、功能特色

JoySafety 具备以下核心功能特色:

1. 生产级别安全防护

  • 企业级实战验证,保障多个生产级AI应用安全稳定运行

  • 支持高并发处理,满足大规模业务需求

  • 具备高可用性设计,确保服务持续稳定

2. 多维度风险检测

  • 内容安全检测:识别涉政、涉黄、涉暴、涉恐等违规内容

  • 数据泄露防护:防止敏感信息泄露

  • 提示词攻击防护:抵御各类提示词注入和越狱攻击

  • 多模态安全检测:支持文本、图像等多种内容类型的安全检测

3. 灵活的架构设计

  • 模块化设计:各功能模块解耦,便于扩展和维护

  • 可插拔机制:支持原子能力的灵活组合和替换

  • 支持多种部署模式:独立部署或集中部署

4. 智能响应策略

  • 多维响应策略矩阵:精准拦截高风险内容

  • 知识库应答:针对特定领域提供安全合规的回答

  • 自动引导:对边缘内容进行正向引导,而非简单拒绝

5. 高效性能优化

  • 异步检测机制:提升响应速度,优化用户体验

  • 窗口化检测策略:平衡性能与准确性

  • 缓存机制:减少重复计算,提高处理效率

三、技术细节

架构设计

JoySafety 采用分层架构设计,主要包括:

  1. 接入层:提供标准化API接口,支持HTTP、WebSocket等多种通信方式

  2. 策略编排层:负责安全策略的管理和执行调度

  3. 检测引擎层:包含各类安全检测模型和算法

  4. 数据存储层:负责日志、策略、模型等数据的存储和管理

  5. 管理后台:提供可视化的策略配置和监控能力

核心模块

JoySafety 的核心模块包括:

  • safety-admin:Java实现的配置及数据管理后台服务

  • safety-api:Java实现的对外API服务,负责策略编排和流式检测

  • safety-basic:核心库,为其他模块提供基础功能支持

  • safety-skills:各类安全检测能力实现,包括:

  • safety-bert:基于BERT模型的文本分类

  • safety-fasttext:基于FastText的文本分类

  • safety-keywords:敏感词检测

  • safety-knowledge:知识检索与多轮对话检测

部署方式

JoySafety 支持多种部署方式:

  • 单机部署:适用于开发测试环境

  • 集群部署:适用于生产环境,支持横向扩展

  • 容器化部署:通过Docker和Docker Compose实现快速部署

检测能力

JoySafety 提供多种安全检测能力:

  1. 文本安全检测

  • 敏感内容识别

  • 违规信息检测

  • 情感倾向分析

  1. 图像安全检测

  • 涉黄、涉暴图像识别

  • 政治敏感人物识别

  • 广告及垃圾图像识别

  1. 多轮对话安全

  • 上下文风险识别

  • 对话一致性检测

  • 恶意引导识别

  1. 提示词安全

  • 提示词注入检测

  • 越权指令识别

  • 隐私信息保护

JoySafety:京东开源的企业级大模型安全防护框架,全链路风险识别与精准拦截

四、应用场景

JoySafety 适用于以下典型应用场景:

1. 智能客服系统

在电商、金融、物流等领域的智能客服中,JoySafety 可以:

  • 实时检测用户输入和AI回复内容

  • 防止不当言论和敏感信息泄露

  • 确保客服对话合规、安全

2. 企业知识库问答

在企业内部知识库问答系统中,JoySafety 能够:

  • 防止敏感内部信息泄露

  • 确保回答符合企业合规要求

  • 提供安全的知识检索服务

3. 内容生成与审核

在内容创作平台中,JoySafety 可以:

  • 实时审核AI生成的内容

  • 防止违规内容发布

  • 提供内容安全建议

4. 医疗健康咨询

在医疗AI应用中,JoySafety 能够:

  • 确保医疗建议的安全性和合规性

  • 防止误诊或不当医疗建议

  • 保护患者隐私信息

5. 教育培训领域

在AI教育产品中,JoySafety 可以:

  • 过滤不当内容

  • 确保教育内容的适宜性

  • 保护未成年人使用安全

JoySafety:京东开源的企业级大模型安全防护框架,全链路风险识别与精准拦截

五、使用方法

环境准备

  1. 安装必要的依赖:

  • git

  • git-lfs(用于下载模型)

  • docker

  • docker compose

  1. 克隆项目代码:

  git clone https://github.com/jd-opensource/JoySafety.git
  cd JoySafety
  export SAFETY_ROOT_PATH=`pwd`

快速启动

  1. 使用Docker Compose一键启动服务:

  docker compose up -d
  1. 验证服务是否正常运行:

  curl http://localhost:8080/api/v1/health

集成使用

JoySafety 提供了简单易用的API接口,方便与现有系统集成。以下是一个简单的调用示例:

import requests
import json

url = "http://localhost:8080/api/v1/detect"
payload = {
  "text": "这是一段需要检测的文本",
  "user_id": "user123",
  "session_id": "session456"
}
headers = {"Content-Type": "application/json"}

response = requests.post(url, data=json.dumps(payload), headers=headers)
result = response.json()

print(result)

策略配置

JoySafety 提供了可视化的管理后台,通过Web界面可以方便地配置安全策略:

  1. 登录管理后台(默认地址:http://localhost:8081)

  2. 创建或编辑安全策略

  3. 配置检测规则和响应策略

  4. 保存并应用策略

六、常见问题解答

Q: JoySafety 支持哪些类型的内容检测?

A: JoySafety 主要支持文本内容检测,同时也提供了基础的图像安全检测能力。未来版本将进一步增强多模态检测功能。

Q: 如何扩展 JoySafety 的检测能力?

A: JoySafety 采用模块化设计,你可以通过开发新的"skill"模块来扩展其检测能力。项目中提供了详细的扩展开发文档。

Q: JoySafety 的性能如何?

A: JoySafety 经过京东内部大规模业务验证,支持日均亿级调用,平均响应时间在毫秒级,能够满足大多数生产环境的性能要求。

Q: JoySafety 是否支持私有化部署?

A: 是的,JoySafety 完全支持私有化部署,可以在企业内部网络环境中部署和运行,确保数据安全。

Q: 如何处理误判情况?

A: JoySafety 提供了反馈机制,你可以将误判案例提交给系统,系统会根据反馈数据持续优化模型。同时,你也可以通过调整策略阈值来减少误判。

Q: JoySafety 是否支持多语言检测?

A: 当前版本主要针对中文内容进行了优化,同时也支持英文等其他语言的基础检测。未来版本将增强多语言支持能力。

七、相关链接

八、总结

JoySafety 作为京东开源的企业级大模型安全防护框架,为生成式AI应用提供了全面的安全保障。其模块化设计、灵活的部署方式和丰富的检测能力,使其能够适应不同场景的安全需求。无论是在电商客服、企业知识库,还是医疗咨询等领域,JoySafety 都能提供可靠的安全防护,帮助企业在享受AI带来便利的同时,有效规避安全风险。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!