大语言模型安全:构建安全的AI应用
书籍简介
《大语言模型安全:构建安全的AI应用》由全球LLM安全领域“奠基者”、OWASP大语言模型应用十大安全风险项目负责人Steve Wilson撰写,是LLM安全领域的“破局之作”。在生成式AI深度融入企业业务、安全漏洞升级为战略风险的背景下,书中以作者20年AI与网络安全实战经验为基石,首次构建“RAISE框架”(负责任的人工智能软件工程),形成覆盖LLM全生命周期的安全防护闭环。内容兼顾开发者技术落地、管理者战略决策、合规者风险把控需求,既拆解提示词注入、模型幻觉等核心风险,也前瞻性布局多模态、自主智能体等前沿场景防御,填补了同类书籍聚焦单一风险的市场空白,是企业规避数据泄露与法律纠纷的“安全手册”,更是AI时代平衡创新与风险的“战略蓝图”。
本书共12章,按“夯实基础→剖析风险→落地流程”的逻辑层层递进,构建完整的LLM安全知识体系。
1. 第一部分:夯实基础(第1-3章)——建立LLM安全认知框架
本部分为理解LLM应用安全奠定核心知识基础,解决“为何要重视LLM安全”“LLM应用架构有何特点”的问题。
第1章“聊天机器人之殇”:以微软Tay聊天机器人被黑客操纵、快速失控的真实案例为切入点,揭示LLM应用面临的安全挑战,让读者直观感受安全漏洞的破坏力。
第2章“OWASP大语言模型应用十大安全风险”:介绍作者2023年创立的OWASP LLM安全风险项目,包括项目执行过程、行业反响及成功关键,同时明确本书与十大风险榜单的关联,为后续风险拆解提供标准依据。
第3章“架构与信任边界”:厘清人工智能、神经网络与LLM的区别,解析Transformer架构对AI的影响,分类介绍LLM应用类型,并重点拆解LLM应用架构的核心模块(信任边界、模型、用户交互、训练数据、外部数据源访问等),强调数据流控制的重要性。
2. 第二部分:风险、漏洞和补救措施(第4-9章)——拆解核心风险并提供解决方案
本部分是全书的技术核心,覆盖LLM应用的六大核心风险,既有传统安全问题的延伸,也有AI系统特有的漏洞,每个风险均配套“案例分析+影响解读+缓解方案”。
第4章“提示词注入”:分析强势诱导、反向心理学等4类攻击案例,区分直接与间接注入的差异,提供速率限制、基于规则的输入过滤、对抗性训练等6种缓解方法。
第5章“你的大语言模型是否知道得太多了”:通过Lee Luda虚拟人物信息泄露、GitHub Copilot数据风险等案例,拆解模型训练、检索增强生成(RAG)、用户交互学习中的敏感信息泄露风险,给出数据访问与训练过程的安全管控建议。
第6章“语言模型会做电子羊的梦吗”:聚焦LLM特有的“幻觉”问题,分类介绍幻觉类型,结合虚构法律先例、加拿大航空聊天机器人诉讼等案例,明确责任界定,并提供扩展领域知识、思维链推理、用户反馈循环等缓解实践。
第7章“不要相信任何人”:解读零信任原则在LLM中的应用,强调“不轻易信任任何输出”,介绍实施零信任架构的关键(警惕过度授权、确保输出安全),并给出构建输出过滤器(正则表达式、毒性评估)的具体方法。
第8章“保护好你的钱包”:针对LLM应用的经济风险,拆解拒绝服务(DoS)、拒绝钱包(DoW)、模型克隆三类攻击,提供特定领域防护、输入验证、速率限制、财务阈值告警等缓解策略。
第9章“寻找最薄弱环节”:以Equifax数据泄露、SolarWinds黑客攻击、Log4Shell漏洞为案例,分析LLM软件供应链风险(开源模型、训练数据污染、不安全插件),介绍软件物料清单(SBOM)、模型卡片、数字签名等供应链安全工具。
3. 第三部分:构建安全流程,为未来做好准备(第10-12章)——落地安全实践并预判未来
本部分将前两部分的技术点转化为可落地的流程体系,同时预判LLM安全的未来方向。
第10章“从未来的历史中学习”:通过《独立日》《2001太空漫游》等科幻故事中的案例,警示“多个安全漏洞叠加”的灾难性后果,帮助读者建立“系统性风险防控”思维。
第11章“信任流程”:讲解如何将LLM安全融入软件开发全流程,包括LLM运维(LLMOps)与DevSecOps的结合、LLM专用安全测试工具、AI红队演练(区别于传统渗透测试)、应用监控(日志记录、用户行为分析)等实践。
第12章“负责任的人工智能安全实践框架”:预判LLM技术趋势(多模态、自主智能体),正式提出“RAISE框架”,并配套RAISE检查清单,为读者提供分类清晰、可直接复用的安全工作方法。
图书目录
前言
第1章 聊天机器人之殇
1.1 让我们谈谈Tay
1.2 Tay的光速堕落
1.3 为什么Tay会失控
1.4 这是一个棘手的问题
第2章 OWASP大语言模型应用十大安全风险
2.1 关于OWASP
2.2 大语言模型应用十大风险项目
2.2.1 项目执行
2.2.2 反响
2.2.3 成功的关键
2.3 本书与十大风险榜单
第3章 架构与信任边界
3.1 人工智能、神经网络和大语言模型:三者有何区别
3.2 Transformer革命:起源、影响及其与LLM的关系
3.2.1 Transformer的起源
3.2.2 Transformer架构对AI的影响
3.3 基于大语言模型的应用类型
3.4 大语言模型应用架构
3.4.1 信任边界
3.4.2 模型
3.4.3 用户交互
3.4.4 训练数据
3.4.5 访问实时外部数据源
3.4.6 访问内部服务
3.5 结论
第4章 提示词注入
4.1 提示词注入攻击案例
4.1.1 强势诱导
4.1.2 反向心理学
4.1.3 误导
4.1.4 通用和自动化对抗性提示
4.2 提示词注入的影响
4.3 直接与间接提示词注入
4.3.1 直接提示词注入
4.3.2 间接提示词注入
4.3.3 关键差异
4.4 缓解提示词注入风险
4.4.1 速率限制
4.4.2 基于规则的输入过滤
4.4.3 使用专用大语言模型进行过滤
4.4.4 添加提示结构
4.4.5 对抗性训练
4.4.6 悲观信任边界定义
4.5 结论
第5章 你的大语言模型是否知道得太多了
5.1 现实世界中的案例
5.1.1 Lee Luda案例
5.1.2 GitHub Copilot和OpenAI的Codex
5.2 知识获取方法
5.3 模型训练
5.3.1 基础模型训练
5.3.2 基础模型的安全考虑
5.3.3 模型微调
5.3.4 训练风险
5.4 检索增强生成
5.4.1 直接网络访问
5.4.2 访问数据库
5.5 从用户交互中学习
5.6 结论
第6章 语言模型会做电子羊的梦吗
6.1 为什么大语言模型会产生幻觉
6.2 幻觉的类型
6.3 实例分析
6.3.1 虚构的法律先例
6.3.2 航空公司聊天机器人诉讼案
6.3.3 无意的人格诋毁
6.3.4 开源包幻觉现象
6.4 谁该负责
6.5 缓解最佳实践
6.5.1 扩展领域特定知识
6.5.2 思维链推理:提高准确性的新路径
6.5.3 反馈循环:用户输入在降低风险中的作用
6.5.4 明确传达预期用途和局限性
6.5.5 用户教育:以知识赋能用户
6.6 结论
第7章 不要相信任何人
7.1 零信任解码
7.2 为什么要如此偏执
7.3 为大模型实施零信任架构
7.3.1 警惕过度授权
7.3.2 确保输出处理的安全性
7.4 构建输出过滤器
7.4.1 使用正则表达式查找个人信息
7.4.2 评估毒性
7.4.3 将过滤器链接到大模型
7.4.4 安全转义
7.5 结论
第8章 保护好你的钱包
8.1 拒绝服务攻击
8.1.1 基于流量的攻击
8.1.2 协议攻击
8.1.3 应用层攻击
8.1.4 史诗级拒绝服务攻击:Dyn事件
8.2 针对大模型的模型拒绝服务攻击
8.2.1 稀缺资源攻击
8.2.2 上下文窗口耗尽
8.2.3 不可预测的用户输入
8.3 拒绝钱包攻击
8.4 模型克隆
8.5 缓解策略
8.5.1 特定领域防护
8.5.2 输入验证和清理
8.5.3 严格的速率限制
8.5.4 资源使用上限
8.5.5 监控和告警
8.5.6 财务阈值和告警
8.6 结论
第9章 寻找最薄弱环节
9.1 供应链基础
9.1.1 软件供应链安全
9.1.2 Equifax数据泄露事件
9.1.3 SolarWinds黑客攻击
9.1.4 Log4Shell漏洞
9.2 理解大语言模型供应链
9.2.1 开源模型风险
9.2.2 训练数据污染
9.2.3 意外不安全的训练数据
9.2.4 不安全的插件
9.3 建立供应链追踪工件
9.3.1 软件物料清单的重要性
9.3.2 模型卡片
9.3.3 模型卡片与软件物料清单的比较
9.3.4 CycloneDX:SBOM标准
9.3.5 机器学习物料清单的兴起
9.3.6 构建机器学习物料清单示例
9.4 大语言模型供应链安全的未来
9.4.1 数字签名和水印技术
9.4.2 漏洞分类和数据库
9.5 结论
第10章 从未来的历史中学习
10.1 回顾OWASP大语言模型应用程序十大安全风险
10.2 案例研究
10.2.1《独立日》:一场备受瞩目的安全灾难
10.2.2《2001太空漫游》中的安全缺陷
10.3 结论
第11章 信任流程
11.1 DevSecOps的演进历程
11.1.1 机器学习运维
11.1.2 大模型运维
11.2 将安全性构建到大模型运维中
11.3 大模型开发过程中的安全性
11.3.1 保护你的持续集成和持续部署
11.3.2 大语言模型专用安全测试工具
11.3.3 管理你的供应链
11.4 运用防护机制保护应用程序
11.4.1 防护机制在大模型安全策略中的作用
11.4.2 开源与商业防护方案比较
11.4.3 自定义防护机制与成熟防护机制的融合应用
11.5 应用监控
11.5.1 记录每个提示和响应
11.5.2 日志和事件集中管理
11.5.3 用户与实体行为分析
11.6 建立你的AI红队
11.6.1 AI红队测试的优势
11.6.2 红队与渗透测试
11.6.3 工具和方法
11.7 持续改进
11.7.1 建立和调整防护机制
11.7.2 管理数据访问和质量
11.7.3 利用人类反馈强化学习实现对齐和安全
11.8 结论
第12章 负责任的人工智能安全实践框架
12.1 力量
12.1.1 图形处理器
12.1.2 云计算
12.1.3 开源
12.1.4 多模态
12.1.5 自主智能体
12.2 责任
12.2.1 RAISE框架
12.2.2 RAISE检查清单
12.3 结论
适合人群
核心人群:正在构建集成大语言模型技术的应用程序的开发团队,包括软件开发者(尤其是首次接触AI的“网页应用”技术开发者)、AI专家、应用安全专家、数据科学专家。
扩展人群:参与LLM项目的管理与风控角色,包括软件开发主管、首席信息安全官(CISO)、质量工程师、安全运营团队,以及希望了解LLM安全原理以降低技术采用风险的相关人员。
推荐理由
体系化优势显著:区别于同类书籍“单点风险拆解”的局限,本书以“RAISE框架”为核心,覆盖LLM从开发、部署到运维的全生命周期安全,形成“风险识别-方案落地-流程固化”的闭环,满足系统性安全需求。
实战性极强:每个风险点均配套真实案例(如三星数据泄露、加拿大航空诉讼、Log4Shell漏洞),同时提供可直接复用的技术方案(如提示词过滤方法、AI红队演练流程、SBOM构建示例),开发者可快速落地。
前瞻性布局未来:不仅解决当前LLM的核心风险(提示词注入、幻觉),还预判多模态、自主智能体等前沿场景的安全挑战,帮助团队提前建立防御体系,避免“技术迭代后安全滞后”的问题。
作者权威背书:作者Steve Wilson是Exabeam首席产品官,拥有25年软件平台搭建经验(任职过Citrix、Oracle等企业),同时是OWASP LLM安全风险项目负责人,兼具实战经验与行业标准制定视角,内容可信度高。
受众覆盖全面:兼顾技术、管理、合规三类角色需求——开发者可获取技术方案,管理者可参考战略决策逻辑,合规者可依据风险把控要点,实现“一书满足团队全链路需求”。
总结
《大语言模型安全:构建安全的AI应用》是LLM相关从业者的“必备典籍”。它以真实风险案例为切入点,用体系化的框架(RAISE)串联技术方案与流程实践,既解决当下LLM应用的安全痛点,也为未来技术演进提供防御方向。无论你是一线开发、团队管理者还是风控合规人员,都能从书中获取适配自身角色的安全知识,真正实现“在拥抱AI创新的同时,守住业务安全底线”。
购买此书
前往购买版权及免责申明:本文由@AI工具集原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-books/36.html

