图解大模型:生成式AI原理与实战
书籍简介
《图解大模型:生成式AI原理与实战》是一本面向大模型学习者的权威指南,以“全程图解”为核心特色,通过300幅全彩插图将复杂的大模型概念转化为直观易懂的视觉语言。全书涵盖大模型原理、应用开发与优化全流程,无需读者具备深度学习基础,只要掌握Python即可轻松上手。书中配备真实数据集、实用项目案例,所有示例均可一键在线运行,还附赠200道大模型面试题、大量线上拓展资料(文章+视频),以及18幅图深度解读DeepSeek底层原理的特色内容,让学习过程更高效、更轻松。
本书由行业顶尖专家联合打造,原作者Jay Alammar是Cohere总监兼工程研究员,知名大模型技术博客作者,其图解系列文章全网累积数百万专业读者;另一位原作者Maarten Grootendorst是荷兰综合癌症中心高级临床数据科学家,开源大模型软件包BERTopic作者(下载量超百万)。中文版由智能体初创公司PINE AI联合创始人、华为首批“天才少年”李博杰精心翻译,技术功底深厚,确保内容准确流畅。
全书结构清晰,分为三大部分,形成“基础认知—应用实践—进阶优化”的完整学习路径:
第一部分“理解语言模型”(第1-3章):解析语言模型核心概念,包括词元、嵌入向量、Transformer架构等基础内容,梳理LLM的发展历程、训练范式、应用场景及交互方式,帮助读者建立扎实的理论基础。
第二部分“使用预训练语言模型”(第4-9章):聚焦实际应用,涵盖文本分类、聚类与主题建模、提示工程、高级文本生成技术、语义搜索与RAG、多模态LLM等典型场景,提供从模型选择到落地实践的完整指导。
第三部分“训练和微调语言模型”(第10-12章):深入进阶技能,讲解嵌入模型构建、分类任务微调、生成模型全流程训练(含预训练、监督微调和偏好调优),包括QLoRA、DPO等前沿技术,帮助读者适应特定场景需求。
此外,本书得到吴恩达、微软亚洲研究院院长周礼栋、阿里巴巴Qwen算法负责人林俊旸等行业大咖倾力推荐,被赞誉为“探索大模型技术与行业实践应用的权威指南”“技术人的视觉化学习手册”。
图书目录
对本书的赞誉 xi
对本书中文版的赞誉 xiii
译者序 xv
中文版序 xxi
前言 xxiii
第一部分 理解语言模型
第1章 大语言模型简介 3
1.1 什么是语言人工智能 4
1.2 语言人工智能的近期发展史 4
1.2.1 将语言表示为词袋模型 5
1.2.2 用稠密向量嵌入获得更好的表示 7
1.2.3 嵌入的类型 9
1.2.4 使用注意力机制编解码上下文 10
1.2.5 “Attention Is All You Need” 13
1.2.6 表示模型:仅编码器模型 16
1.2.7 生成模型:仅解码器模型 18
1.2.8 生成式AI元年 20
1.3 “LLM”定义的演变 22
1.4 LLM的训练范式 22
1.5 LLM的应用 23
1.6 开发和使用负责任的LLM 24
1.7 有限的资源就够了 25
1.8 与LLM交互 25
1.8.1 专有模型 26
1.8.2 开源模型 26
1.8.3 开源框架 27
1.9 生成你的第一段文本 28
1.10 小结 30
第2章 词元和嵌入 31
2.1 LLM的分词 32
2.1.1 分词器如何处理语言模型的输入 32
2.1.2 下载和运行LLM 33
2.1.3 分词器如何分解文本 36
2.1.4 词级、子词级、字符级与字节级分词 37
2.1.5 比较训练好的LLM分词器 39
2.1.6 分词器属性 47
2.2 词元嵌入 48
2.2.1 语言模型为其分词器的词表保存嵌入 49
2.2.2 使用语言模型创建与上下文相关的词嵌入 49
2.3 文本嵌入(用于句子和整篇文档) 52
2.4 LLM之外的词嵌入 53
2.4.1 使用预训练词嵌入 53
2.4.2 word2vec算法与对比训练 54
2.5 推荐系统中的嵌入 57
2.5.1 基于嵌入的歌曲推荐 57
2.5.2 训练歌曲嵌入模型 58
2.6 小结 60
第3章 LLM的内部机制 61
3.1 Transformer模型概述 62
3.1.1 已训练Transformer LLM的输入和输出 62
3.1.2 前向传播的组成 64
3.1.3 从概率分布中选择单个词元(采样/解码) 66
3.1.4 并行词元处理和上下文长度 68
3.1.5 通过缓存键值加速生成过程 70
3.1.6 Transformer块的内部结构 71
3.2 Transformer架构的最新改进 79
3.2.1 更高效的注意力机制 79
3.2.2 Transformer块 83
3.2.3 位置嵌入:RoPE 85
3.2.4 其他架构实验和改进 87
3.3 小结 87
第二部分 使用预训练语言模型
第4章 文本分类 91
4.1 电影评论的情感分析 92
4.2 使用表示模型进行文本分类 93
4.3 模型选择 94
4.4 使用特定任务模型 96
4.5 利用嵌入向量的分类任务 99
4.5.1 监督分类 99
4.5.2 没有标注数据怎么办 102
4.6 使用生成模型进行文本分类 105
4.6.1 使用T5 106
4.6.2 使用ChatGPT进行分类 110
4.7 小结 113
第5章 文本聚类和主题建模 114
5.1 arXiv文章:计算与语言 115
5.2 文本聚类的通用流程 116
5.2.1 嵌入文档 116
5.2.2 嵌入向量降维 117
5.2.3 对降维后的嵌入向量进行聚类 119
5.2.4 检查生成的簇 120
5.3 从文本聚类到主题建模 122
5.3.1 BERTopic:一个模块化主题建模框架 124
5.3.2 添加特殊的“乐高积木块” 131
5.3.3 文本生成的“乐高积木块” 135
5.4 小结 138
第6章 提示工程 140
6.1 使用文本生成模型 140
6.1.1 选择文本生成模型 140
6.1.2 加载文本生成模型 141
6.1.3 控制模型输出 143
6.2 提示工程简介 145
6.2.1 提示词的基本要素 145
6.2.2 基于指令的提示词 147
6.3 高级提示工程 149
6.3.1 提示词的潜在复杂性 149
6.3.2 上下文学习:提供示例 152
6.3.3 链式提示:分解问题 153
6.4 使用生成模型进行推理 155
6.4.1 思维链:先思考再回答 156
6.4.2 自洽性:采样输出 159
6.4.3 思维树:探索中间步骤 160
6.5 输出验证 161
6.5.1 提供示例 162
6.5.2 语法:约束采样 164
6.6 小结 167
第7章 高级文本生成技术与工具 168
7.1 模型输入/输出:基于LangChain加载量化模型 169
7.2 链:扩展LLM的能力 171
7.2.1 链式架构的关键节点:提示词模板 172
7.2.2 多提示词链式架构 174
7.3 记忆:构建LLM的对话回溯能力 177
7.3.1 对话缓冲区 178
7.3.2 窗口式对话缓冲区 180
7.3.3 对话摘要 181
7.4 智能体:构建LLM系统 185
7.4.1 智能体的核心机制:递进式推理 186
7.4.2 LangChain中的ReAct实现 187
7.5 小结 190
第8章 语义搜索与RAG 191
8.1 语义搜索与RAG技术全景 191
8.2 语言模型驱动的语义搜索实践 193
8.2.1 稠密检索 193
8.2.2 重排序 204
8.2.3 检索评估指标体系 207
8.3 RAG 211
8.3.1 从搜索到RAG 212
8.3.2 示例:使用LLM API进行基于知识的生成 213
8.3.3 示例:使用本地模型的RAG 213
8.3.4 高级RAG技术 215
8.3.5 RAG效果评估 217
8.4 小结 218
第9章 多模态LLM 219
9.1 视觉Transformer 220
9.2 多模态嵌入模型 222
9.2.1 CLIP:构建跨模态桥梁 224
9.2.2 CLIP的跨模态嵌入生成机制 224
9.2.3 OpenCLIP 226
9.3 让文本生成模型具备多模态能力 231
9.3.1 BLIP-2:跨越模态鸿沟 231
9.3.2 多模态输入预处理 235
9.3.3 用例1:图像描述 237
9.3.4 用例2:基于聊天的多模态提示词 240
9.4 小结 242
第三部分 训练和微调语言模型
第10章 构建文本嵌入模型 247
10.1 嵌入模型 247
10.2 什么是对比学习 249
10.3 SBERT 251
10.4 构建嵌入模型 253
10.4.1 生成对比样本 253
10.4.2 训练模型 254
10.4.3 深入评估 257
10.4.4 损失函数 258
10.5 微调嵌入模型 265
10.5.1 监督学习 265
10.5.2 增强型SBERT 267
10.6 无监督学习 271
10.6.1 TSDAE 272
10.6.2 使用TSDAE进行领域适配 275
10.7 小结 276
第11章 为分类任务微调表示模型 277
11.1 监督分类 277
11.1.1 微调预训练的BERT模型 279
11.1.2 冻结层 281
11.2 少样本分类 286
11.2.1 SetFit:少样本场景下的高效微调方案 286
11.2.2 少样本分类的微调 290
11.3 基于掩码语言建模的继续预训练 292
11.4 命名实体识别 297
11.4.1 数据准备 298
11.4.2 命名实体识别的微调 303
11.5 小结 305
第12章 微调生成模型 306
12.1 LLM训练三步走:预训练、监督微调和偏好调优 306
12.2 监督微调 308
12.2.1 全量微调 308
12.2.2 参数高效微调 309
12.3 使用QLoRA进行指令微调 317
12.3.1 模板化指令数据 317
12.3.2 模型量化 318
12.3.3 LoRA配置 319
12.3.4 训练配置 320
12.3.5 训练 321
12.3.6 合并权重 322
12.4 评估生成模型 322
12.4.1 词级指标 323
12.4.2 基准测试 323
12.4.3 排行榜 324
12.4.4 自动评估 325
12.4.5 人工评估 325
12.5 偏好调优、对齐 326
12.6 使用奖励模型实现偏好评估自动化 327
12.6.1 奖励模型的输入和输出 328
12.6.2 训练奖励模型 329
12.6.3 训练无奖励模型 332
12.7 使用DPO进行偏好调优 333
12.7.1 对齐数据的模板化 333
12.7.2 模型量化 334
12.7.3 训练配置 335
12.7.4 训练 336
12.8 小结 337
附录 图解DeepSeek-R1 338
后记 349
适合人群
核心人群:对大模型感兴趣的开发者、研究人员和行业从业者。
基础要求:无需具备深度学习基础知识,只要会用Python即可。
延伸人群:大模型初学者、需要落地大模型应用的职场人、准备大模型相关面试的求职者,以及希望系统掌握大模型原理与实战技能的技术爱好者。
推荐理由
视觉化学习,降低理解门槛:300幅全彩插图直观拆解抽象概念,将复杂的大模型技术转化为可视化语言,告别枯燥学习,让初学者也能轻松理解。
内容全面系统,覆盖全流程:从基础原理(Transformer、嵌入向量)到应用开发(分类、RAG、多模态),再到进阶优化(模型微调、偏好调优),形成完整知识体系,一本书学透大模型核心技能。
实操性极强,上手无压力:配备真实数据集、实用项目案例,所有示例代码均可一键在线运行,无需复杂环境配置,帮助读者快速将理论转化为实践。
权威背书,品质保障:原作者是行业知名专家,译者为华为“天才少年”,吴恩达、周礼栋等大咖倾力推荐,内容专业性与准确性有保障。
附加价值丰富,性价比高:附赠200道大模型面试题、大量线上拓展资料(文章+视频),还特别补充DeepSeek底层原理图解,满足学习与求职双重需求。
总结
《图解大模型:生成式AI原理与实战》以“图解+实战”为核心,打破了大模型学习的技术壁垒,既适合零基础的Python开发者入门,也能为有经验的从业者提供系统的知识梳理与进阶指导。全书兼具理论深度与实践价值,权威的作者团队、全面的内容覆盖、直观的视觉呈现和丰富的配套资源,使其成为大模型学习领域的“必备指南”。无论是想了解大模型原理、落地实际应用,还是准备相关面试,这本书都能提供切实有效的帮助,助力读者在生成式AI时代抢占技术先机。
购买此书
前往购买版权及免责申明:本文由@AI工具箱原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-books/54.html

