
大规模语言模型:从理论到实践(第2版)
书籍简介
《大规模语言模型:从理论到实践》(第2版)是复旦大学NLP团队深耕大语言模型领域多年,于2025年推出的重磅升级著作,堪称连接大语言模型“学术研究”与“产业应用”的权威桥梁。本书在第1版基础上实现核心内容迭代,新增占比超50%的前沿技术章节,全面覆盖MOE(混合专家模型)、多模态融合、大模型智能体、RAG(检索增强生成)、大模型效率优化等当下关键技术方向,完美适配大语言模型领域快速发展的技术需求。
全书以“从理论原理到落地实践”为核心脉络,不仅系统解析大语言模型构建全流程——从基础架构设计到预训练、指令微调、强化学习,再到模型增强与应用开发,更针对每个技术阶段配套算法原理、数据来源、实操代码、难点解决方案,同时提供可直接复用的代码资源与PPT课件,大幅降低读者从“学”到“用”的门槛。此外,本书封底特别附赠“wispaper.ai科研助手智能体”邀请码(该智能体预计2025年6月正式上线),读者凭邀请码可免费下载使用,为理论学习、项目开发与科研工作提供多维度支持,兼具专业性、实用性与前瞻性。
图书目录
第1章 绪论
1.1 大语言模型的基本概念
1.2 大语言模型的发展历程
1.3 大语言模型的构建流程
1.4 本书的内容安排
第2章 大语言模型基础
2.1 Transformer结构
2.1.1 嵌入表示层
2.1.2 注意力层
2.1.3 前馈层
2.1.4 残差连接与层归一化
2.1.5 编码器和解码器结构
2.2 生成式预训练语言模型GPT
2.2.1 自监督预训练
2.2.2 有监督下游任务微调
2.2.3 预训练语言模型实践
2.3 大语言模型的结构
2.3.1 LLaMA的模型结构
2.3.2 注意力机制优化
2.4 混合专家模型
2.4.1 稀疏混合专家模型
2.4.2 稠密混合专家模型
2.4.3 软混合专家模型
2.5 实践思考
第3章 大语言模型预训练数据
3.1 数据来源
3.1.1 通用数据
3.1.2 领域数据
3.2 数据处理
3.2.1 质量过滤
3.2.2 冗余去除
3.2.3 隐私消除
3.2.4 词元切分
3.3 数据影响分析
3.3.1 数据规模
3.3.2 数据质量
3.3.3 数据多样性
3.4 开源数据集
3.4.1 Pile
3.4.2 ROOTS
3.4.3 RefinedWeb
3.4.4 CulturaX
3.4.5 SlimPajama
3.5 实践思考
第4章 分布式训练
4.1 分布式训练概述
4.2 分布式训练的并行策略
4.2.1 数据并行
4.2.2 模型并行
4.2.3 混合并行
4.2.4 计算设备内存优化
4.3 分布式训练的集群架构
4.3.1 高性能计算集群的典型硬件组成
4.3.2 参数服务器架构
4.3.3 去中心化架构
4.4 DeepSpeed实践
4.4.1 基础概念
4.4.2 LLaMA分布式训练实践
4.5 实践思考
第5章 指令微调
5.1 指令微调训练
5.1.1 指令微调数据
5.1.2 指令微调数据构建方法
5.1.3 指令微调数据评估与影响
5.1.4 指令微调训练策略
5.1.5 开源指令数据集
5.2 高效模型微调
5.2.1 LoRA
5.2.2 LoRA的变体
5.3 模型上下文窗口扩展
5.3.1 具有外推能力的位置编码
5.3.2 插值法
5.4 DeepSpeed-Chat SFT实践
5.4.1 代码结构
5.4.2 数据预处理
5.4.3 自定义模型
5.4.4 模型训练
5.4.5 模型推理
5.5 实践思考
第6章 强化学习
6.1 强化学习概述
6.1.1 强化学习基础概念
6.1.2 强化学习与有监督学习的区别
6.2 策略梯度方法
6.2.1 策略梯度
6.2.2 REINFORCE算法
6.2.3 广义优势估计
6.2.4 近端策略优化算法
6.2.5 RLOO算法
6.2.6 GRPO算法
6.3 推理模型的强化学习
6.3.1 DeepSeek-R1
6.3.2 Kimi k1.5
6.4 基于人类反馈的强化学习
6.4.1 基于人类反馈的强化学习流程
6.4.2 奖励模型
6.5 verl实践
6.6 实践思考
第7章 多模态大语言模型
7.1 多模态大语言模型基础
7.1.1 典型的多模态大语言模型
7.1.2 多模态大语言模型的挑战
7.2 大语言模型与多模态融合架构
7.2.1 视觉语言模型架构
7.2.2 语音语言模型架构
7.2.3 多模态大语言模型架构
7.3 多模态大语言模型训练策略
7.3.1 数据处理
7.3.2 视觉语义关联
7.3.3 多模态文本对齐
7.4 MiniGPT-4实践
7.4.1 MiniGPT-4模型架构
7.4.2 MiniGPT-4训练策略
7.5 实践思考
第8章 大模型智能体
8.1 智能体基础
8.1.1 智能体发展历史
8.1.2 大模型智能体应用范式
8.2 大模型智能体架构
8.2.1 感知模块
8.2.2 规划模块
8.2.3 记忆模块
8.2.4 工具使用模块
8.3 大模型智能体训练
8.3.1 工具学习
8.3.2 推理规划
8.3.3 长期记忆
8.4 大模型智能体实践
8.4.1 手工编写代码
8.4.2 LangChain框架
8.4.3 智能体平台Coze实践
8.5 实践思考
第9章 检索增强生成
9.1 检索增强生成基础
9.1.1 RAG系统的框架
9.1.2 RAG任务分级
9.1.3 RAG系统的难点
9.2 Modular RAG架构
9.2.1 索引模块
9.2.2 检索前优化模块
9.2.3 检索模块
9.2.4 检索后优化模块
9.2.5 生成模块
9.2.6 编排模块
9.3 RAG系统设计模式
9.3.1 线性模式
9.3.2 条件模式
9.3.3 分支模式
9.3.4 循环模式
9.4 RAG系统优化
9.4.1 文本嵌入模型微调
9.4.2 查询优化
9.4.3 幻觉感知的生成模型优化
9.4.4 重排模型优化
9.4.5 检索与生成联合优化
9.5 RAG系统评估
9.5.1 RAG系统评估的挑战
9.5.2 评估目标
9.5.3 评估数据集
9.5.4 评估指标
9.6 RAG实践
9.6.1 构建基础RAG系统
9.6.2 查询分解与检索结果融合的RAG系统
9.7 实践思考
第10章 大语言模型效率优化
10.1 效率优化基础
10.2 模型优化
10.2.1 Transformer代替架构
10.2.2 模型量化
10.2.3 模型稀疏化
10.2.4 知识蒸馏
10.3 低精度训练
10.3.1 FP8编码
10.3.2 FP8大语言模型训练
10.4 高效推理
10.4.1 算法级别的推理优化
10.4.2 系统级别的推理优化
10.5 vLLM推理框架实践
10.6 实践思考
第11章 大语言模型评估
11.1 模型评估概述
11.2 大语言模型评估体系
11.2.1 知识与能力
11.2.2 伦理与安全
11.2.3 垂直领域
11.3 大语言模型评估方法
11.3.1 评估指标
11.3.2 评估方法
11.4 大语言模型评估实践
11.4.1 基础模型评估
11.4.2 SFT模型和RL模型评估
11.5 实践思考
第12章 大语言模型应用开发
12.1 大语言模型典型应用场景
12.1.1 内容创作与生成
12.1.2 对话系统与聊天机器人
12.1.3 翻译与多语言处理
12.1.4 信息抽取与知识图谱
12.1.5 代码生成与编程辅助
12.1.6 智能搜索与推荐
12.1.7 教育与培训
12.1.8 企业管理与决策支持
12.1.9 法律与合规
12.2 大语言模型应用开发案例
12.2.1 浏览器智能插件
12.2.2 论文搜索助理
12.3 大语言模型本地部署实践
12.3.1 llama.cpp
12.3.2 Ollama
12.3.3 Open WebUI
12.4 实践思考
附录
参考文献
索引
适合人群
本书凭借“理论全面、实践落地性强”的特点,精准覆盖三类核心读者,满足不同场景下的学习与工作需求:
1. AI领域从业者
包括大语言模型研发工程师、算法工程师、NLP工程师及AI产品经理。本书可帮助技术从业者更新前沿技术认知(如MOE、多模态智能体),解决工程化落地难题(如分布式训练、效率优化),提供从“模型训练”到“应用部署”的全流程实操方案;产品经理则可通过本书理解技术边界与能力,更科学地规划AI产品路线。
2. 高校高年级本科生与研究生
尤其适合计算机科学与技术、人工智能、自然语言处理、数据科学等相关专业学生。本书可作为课程补充资料或科研入门参考,帮助学生构建“基础理论→核心技术→实践应用”的系统知识体系,通过配套代码实践提升动手能力,为毕业论文设计或科研项目(如大模型微调、RAG系统开发)提供指导。
3. 大模型领域兴趣爱好者与研究者
对大语言模型技术原理、发展趋势及应用场景感兴趣的非专业读者,可通过本书快速入门,理解领域核心概念;高校科研人员则可借助本书覆盖的前沿技术(如多模态融合、RLHF优化)与评估方法,获取研究思路,参考开源数据集与实践案例推进科研工作。
推荐理由
1. 权威团队编写,内容专业性有保障
本书由复旦大学NLP团队核心成员执笔,作者包括张奇(复旦大学教授、博导,主持国家重点研发计划课题)、黄萱菁(复旦大学特聘教授,中国计算机学会NLP专委会主任)等领域权威学者,以及曾任职字节跳动豆包大模型团队的郑锐等产业界专家。团队兼具深厚学术积累(发表顶会论文数百篇)与丰富实践经验,确保内容既符合学术严谨性,又贴合产业实际需求。
2. 内容迭代及时,覆盖前沿技术方向
作为2025年新作,本书新增超50%内容,重点补充当前大模型领域的核心热点技术——如混合专家模型(MOE)解决“规模与效率平衡”问题、多模态融合打破“文本单一模态限制”、大模型智能体实现“自主决策与工具调用”、RAG抑制“模型幻觉”等,避免传统书籍“内容滞后”的痛点,帮助读者紧跟技术前沿。
3. 理论与实践深度结合,落地性强
本书摒弃“纯理论堆砌”的模式,每个技术章节均遵循“原理讲解→案例分析→代码实践”的逻辑:不仅深入解析算法数学原理(如Transformer注意力机制、PPO算法推导),还提供具体实践方案(如DeepSpeed训练LLaMA、vLLM推理优化),配套可复用的代码与PPT课件;同时针对每个技术环节标注“难点与解决方案”(如数据隐私消除、模型训练梯度消失),让读者既能“理解原理”,又能“动手落地”。
4. 知识体系完整,适配不同学习阶段
全书12章按“基础理论→预训练→指令理解→模型增强→应用开发”的逻辑层层递进,从大语言模型的定义与发展历程,到Transformer基础结构,再到多模态、智能体等高级技术,最后到应用场景开发与本地部署,形成“从入门到精通”的完整知识链。无论是零基础入门者(可从第1-2章基础内容学起),还是有经验的从业者(可重点学习第7-12章前沿技术),都能找到适配的学习内容。
5. 附加权益实用,助力学习与科研
本书封底附赠“wispaper.ai科研助手智能体”邀请码,该智能体预计2025年6月上线,可辅助文献检索、论文分析、代码调试等科研工作,为读者提供额外工具支持;同时配套的代码资源与PPT课件,可直接用于个人学习、项目开发或教学备课,进一步提升书籍的实用价值。
总结
《大规模语言模型:从理论到实践》(第2版)是一本兼具“学术高度”与“产业温度”的大语言模型权威指南。它既由复旦NLP团队保障了内容的专业性与前沿性,又通过“原理+案例+代码”的模式降低了实践门槛,覆盖从“基础理论学习”到“工程化落地”的全流程需求。
无论你是想更新技术认知的AI从业者、寻求科研与学习指导的高校学生,还是对大模型感兴趣的入门者,都能从本书中获取价值——既可系统构建大语言模型知识体系,又能掌握解决实际问题的实操能力,甚至借助附赠的科研助手智能体推进工作。对于希望在大语言模型领域深耕的读者而言,本书无疑是一本“不可多得的工具书与参考书”,助力在技术快速迭代的浪潮中站稳脚跟,实现从“了解”到“精通”的跨越。
购买此书
前往购买版权及免责申明:本文由@AI工具箱原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-books/14.html