大模型应用开发:动手做AI Agent封面

大模型应用开发:动手做AI Agent

图书价格:43.80
发布时间: ISBN编号:9787115642172
出版社:人民邮电出版社

书籍简介

在人工智能时代,能理解自然语言、生成对应回复并执行具体行动的AI Agent技术正快速崛起。它不仅是内容生成工具,更是连接复杂任务的关键纽带。《大模型应用开发:动手做AI Agent》一书围绕Agent技术展开,从基础概念到技术框架,从开发工具到实操项目,再到前沿进展,通过带领读者动手完成7个功能强大的Agent实例,全方位解析Agent的设计与实现。书中还展望了Agent的发展前景和未来趋势,读者将跟随作者“咖哥”(黄佳)和“小雪”的脚步,零距离接触GPT-4模型、OpenAI Assistants API、LangChain、LlamaIndex和MetaGPT等尖端技术,见证Agent在办公自动化、智能调度、知识整合及检索增强生成(RAG)等领域的应用,开启人机协作时代的AI探索之旅。

本书以“从零开始、循序渐进、实战导向”为核心思路,兼顾理论深度与实践落地,通过多维度内容设计帮助读者掌握Agent技术。

1. 内容呈现方式:图解化降低学习门槛

全书采用图解形式拆解Agent技术的基础概念与复杂原理,避免传统技术书籍的晦涩感。从“Agent的大脑(大模型推理能力)”“感知力(语言与多模态能力)”“行动力(工具使用能力)”等核心维度切入,以启发式教学引导读者逐步深入,即使是零基础读者也能轻松理解Agent的核心逻辑。

2. 知识体系:理论与实践深度融合

  • 理论层面:系统讲解Agent的技术框架,包括四大要素(规划决策、记忆机制、工具调用、推理引擎)、ReAct框架及函数调用、思维链、思维树等认知框架,同时覆盖OpenAI API、LangChain、LlamaIndex等开发工具的原理与应用场景,构建完整的Agent知识体系。

  • 实践层面:聚焦7个高价值Agent实例,从“自动化办公PPT生成”“函数调用引擎”“自动定价系统”“智能库存调度”,到“RAG知识整合”“AutoGPT/BabyAGI实战”“多Agent框架(AutoGen/MetaGPT)开发”,覆盖从基础到前沿的核心应用场景,每个实例均提供完整开发流程,读者可边学边练,直接将技术落地。

3. 作者背景:专业经验保障内容质量

本书作者黄佳(笔名咖哥)是新加坡科技研究局人工智能研究员,在NLP、大模型、AI在医疗(MedTech)与金融(FinTech)领域积累了丰富项目经验。他不仅著有《GPT 图解 大模型是怎样构建的》《零基础学机器学习》等多本技术畅销书,还在极客时间、CSDN、深蓝学院开设“LangChain实战课”“大模型应用开发实战课”等课程,擅长以轻松幽默的语言传递复杂技术,确保读者在易懂的氛围中掌握核心知识。

4. 行业认可:权威专家推荐佐证价值

多位AI领域与学界权威对本书高度评价,进一步印证其专业性与实用性:

  • 中欧国际工商学院李秀娟教授(管理学教授、副教务长):认为本书能为技术人员和商业创新者带来启迪;

  • 清华大学李丹教授(长聘教授、国家青年长江学者):赞赏本书以“新奇视角”将AI概念与生命进化结合,通过生动场景与比喻让读者直观理解Agent核心功能;

  • 同济大学朱少民教授(特聘教授、AiDD峰会发起人):肯定本书通过7个实操项目,让读者亲身体验“从理论到实践的全过程”;

  • 宇树科技王兴兴(创始人兼CEO):指出本书为机器人企业应用大模型技术提供“切实可行的开发路径”,是企业AI创新的推荐读物。

图书目录

— — — 第1章 何谓Agent,为何Agent(001)
 1.1 大开脑洞的演讲:Life 3.0(001)
 1.2 那么,究竟何谓Agent(003)
 1.3 Agent的大脑:大模型的通用推理能力(006)
  1.3.1 人类的大脑了不起(006)
  1.3.2 大模型出现之前的Agent(007)
  1.3.3 大模型就是Agent的大脑(008)
  1.3.4 期望顶峰和失望低谷(010)
  1.3.5 知识、记忆、理解、表达、推理、反思、泛化和自我提升(012)
  1.3.6 基于大模型的推理能力构筑AI应用(015)
 1.4 Agent的感知力:语言交互能力和多模态能力(016)
  1.4.1 语言交互能力(016)
  1.4.2 多模态能力(016)
  1.4.3 结合语言交互能力和多模态能力(017)
 1.5 Agent的行动力:语言输出能力和工具使用能力(017)
  1.5.1 语言输出能力(017)
  1.5.2 工具使用能力(018)
  1.5.3 具身智能的实现(019)
 1.6 Agent对各行业的效能提升(019)
  1.6.1 自动办公好助手(020)
  1.6.2 客户服务革命(020)
  1.6.3 个性化推荐(020)
  1.6.4 流程的自动化与资源的优化(021)
  1.6.5 医疗保健的变革(021)
 1.7 Agent带来新的商业模式和变革(022)
  1.7.1 Gartner的8项重要预测(023)
  1.7.2 Agent即服务(024)
  1.7.3 多Agent协作(025)
  1.7.4 自我演进的AI(026)
  1.7.5 具身智能的发展(026)
 1.8 小结(027)

— — — 第2章 基于大模型的Agent技术框架(029)
 2.1 Agent的四大要素(029)
 2.2 Agent的规划和决策能力(031)
 2.3 Agent的各种记忆机制(032)
 2.4 Agent的核心技能:调用工具(033)
 2.5 Agent的推理引擎:ReAct框架(035)
  2.5.1 何谓ReAct(035)
  2.5.2 用ReAct框架实现简单Agent(038)
  2.5.3 基于ReAct框架的提示(040)
  2.5.4 创建大模型实例(043)
  2.5.5 定义搜索工具(044)
  2.5.6 构建ReAct Agent(044)
  2.5.7 执行ReAct Agent(045)
 2.6 其他Agent认知框架(047)
  2.6.1 函数调用(047)
  2.6.2 计划与执行(048)
  2.6.3 自问自答(048)
  2.6.4 批判修正(048)
  2.6.5 思维链(048)
  2.6.6 思维树(048)
 2.7 小结(049)

— — — 第3章 OpenAI API、LangChain和LlamaIndex(051)
 3.1 何谓OpenAI API(052)
  3.1.1 说说OpenAI这家公司(052)
  3.1.2 OpenAI API和Agent开发(055)
  3.1.3 OpenAI API的聊天程序示例(057)
  3.1.4 OpenAI API的图片生成示例(063)
  3.1.5 OpenAI API实践(065)
 3.2 何谓LangChain(067)
  3.2.1 说说LangChain(068)
  3.2.2 LangChain中的六大模块(073)
  3.2.3 LangChain和Agent开发(074)
  3.2.4 LangSmith的使用方法(075)
 3.3 何谓LlamaIndex(077)
  3.3.1 说说LlamaIndex(077)
  3.3.2 LlamaIndex和基于RAG的AI开发(078)
  3.3.3 简单的LlamaIndex开发示例(081)
 3.4 小结(084)

— — — 第4章 Agent 1:自动化办公的实现——通过Assistants API和DALL·E 3模型创作PPT(085)
 4.1 OpenAI公司的Assistants是什么(086)
 4.2 不写代码,在Playground中玩Assistants(086)
 4.3 Assistants API的简单示例(090)
  4.3.1 创建助手(091)
  4.3.2 创建线程(095)
  4.3.3 添加消息(097)
  4.3.4 运行助手(099)
  4.3.5 显示响应(103)
 4.4 创建一个简短的虚构PPT(105)
  4.4.1 数据的收集与整理(106)
  4.4.2 创建OpenAI助手(106)
  4.4.3 自主创建数据分析图表(108)
  4.4.4 自主创建数据洞察(112)
  4.4.5 自主创建页面标题(114)
  4.4.6 用DALL·E 3模型为PPT首页配图(115)
  4.4.7 自主创建PPT(116)
 4.5 小结(121)

— — — 第5章 Agent 2:多功能选择的引擎——通过Function Calling调用函数(122)
 5.1 OpenAI中的Functions(122)
  5.1.1 什么是Functions(123)
  5.1.2 Function的说明文字很重要(124)
  5.1.3 Function定义中的Sample是什么(124)
  5.1.4 什么是Function Calling(126)
 5.2 在Playground中定义Function(127)
 5.3 通过Assistants API实现Function Calling(130)
  5.3.1 创建能使用Function的助手(131)
  5.3.2 不调用Function,直接运行助手(133)
  5.3.3 在Run进入requiresaction状态之后跳出循环(140)   
5.3.4 拿到助手返回的元数据信息(141)   
5.3.5 通过助手的返回信息调用函数(141)   
5.3.6 通过submit
tool_outputs提交结果以完成任务(143)

 5.4 通过ChatCompletion API来实现Tool Calls(147)
  5.4.1 初始化对话和定义可用函数(148)
  5.4.2 第一次调用大模型,向模型发送对话及工具定义,并获取响应(149)
  5.4.3 调用模型选择的工具并构建新消息(151)
  5.4.4 第二次向大模型发送对话以获取最终响应(153)
 5.5 小结(154)

— — — 第6章 Agent 3:推理与行动的协同——通过LangChain中的ReAct框架实现自动定价(156)
 6.1 复习ReAct框架(156)
 6.2 LangChain中ReAct Agent 的实现(159)
 6.3 LangChain中的工具和工具包(160)
 6.4 通过createreactagent创建鲜花定价Agent(162)
 6.5 深挖AgentExecutor的运行机制(166)
  6.5.1 在AgentExecutor中设置断点(166)
  6.5.2 第一轮思考:模型决定搜索(169)
  6.5.3 第一轮行动:工具执行搜索(175)
  6.5.4 第二轮思考:模型决定计算(179)
  6.5.5 第二轮行动:工具执行计算(180)
  6.5.6 第三轮思考:模型完成任务(182)
 6.6 小结(185)

— — — 第7章 Agent 4:计划和执行的解耦——通过LangChain中的Plan-and-Execute实现智能调度库存(186)
 7.1 Plan-and-Solve策略的提出(186)
 7.2 LangChain中的Plan-and-Execute Agent(190)
 7.3 通过Plan-and-Execute Agent实现物流管理(192)
  7.3.1 为Agent定义一系列进行自动库存调度的工具(192)
  7.3.2 创建Plan-and-Execute Agent并尝试一个“不可能完成的任务”(193)
  7.3.3 完善请求,让Agent完成任务(200)
 7.4 从单Agent到多Agent(203)
 7.5 小结(204)

— — — 第8章 Agent 5:知识的提取与整合——通过LlamaIndex实现检索增强生成(205)
 8.1 何谓检索增强生成(206)
  8.1.1 提示工程、RAG与微调(206)
  8.1.2 从技术角度看检索部分的Pipeline(208)
  8.1.3 从用户角度看RAG流程(209)
 8.2 RAG和Agent(210)
 8.3 通过LlamaIndex的ReAct RAG Agent实现花语秘境财报检索(211)
  8.3.1 获取并加载电商的财报文件(211)
  8.3.2 将财报文件的数据转换为向量数据(211)
  8.3.3 构建查询引擎和工具(213)
  8.3.4 配置文本生成引擎大模型(214)
  8.3.5 创建 Agent以查询财务信息(214)
 8.4 小结(215)

— — — 第9章 Agent 6:GitHub的网红聚落——AutoGPT、BabyAGI和CAMEL(216)
 9.1 AutoGPT(217)
  9.1.1 AutoGPT简介(217)
  9.1.2 AutoGPT实战(218)
 9.2 BabyAGI(222)
  9.2.1 BabyAGI简介(222)
  9.2.2 BabyAGI实战(224)
 9.3 CAMEL(236)
  9.3.1 CAMEL简介(236)
  9.3.2 CAMEL论文中的股票交易场景(237)
  9.3.3 CAMEL实战(241)
 9.4 小结(248)

— — — 第10章 Agent 7:多Agent框架——AutoGen和MetaGPT(250)
 10.1 AutoGen(250)
  10.1.1 AutoGen简介(250)
  10.1.2 AutoGen实战(253)
 10.2 MetaGPT(256)
  10.2.1 MetaGPT简介(256)
  10.2.2 MetaGPT实战(257)
 10.3 小结(263)

— — — 附录A 下一代Agent的诞生地:科研论文中的新思路(264)
 A.1 两篇高质量的Agent综述论文(264)
 A.2 论文选读:Agent自主学习、多Agent合作、Agent可信度的评估、边缘系统部署以及具身智能落地(266)
 A.3 小结(267)

参考文献(269)

后记 创新与变革的交汇点(271)

适合人群

本书覆盖多类与Agent技术相关的人群,不同读者均可从中获取匹配需求的知识:

  1. 研究人员:从事AI、大模型或Agent技术研究,可通过本书了解技术框架、前沿进展及科研论文方向,拓宽研究思路;

  2. 开发人员:包括AI应用开发、大模型落地开发等岗位,能通过7个实战实例掌握Agent开发流程,直接将技术转化为实际项目能力;

  3. 企业负责人与产品经理:关注AI技术商业化落地,可了解Agent在办公自动化、客户服务、物流调度等领域的应用价值,为企业技术选型与业务创新提供参考;

  4. 高等院校相关专业师生:计算机、人工智能、数据科学等专业的学生与教师,可将本书作为教材或参考资料,补充课堂知识,提升实战能力。

推荐理由

  1. 学习门槛低,适配广泛读者:以图解+启发式教学拆解复杂概念,从“Agent基础认知”到“实战开发”逐步递进,无论是零基础入门者还是有一定经验的进阶者,都能轻松跟随学习;

  2. 实战性极强,落地价值高:聚焦7个真实应用场景的Agent实例,每个实例均提供完整开发步骤(从工具准备到代码实现),读者可边学边练,快速具备Agent开发能力;

  3. 技术覆盖全面,同步前沿动态:不仅涵盖OpenAI API、LangChain等主流开发工具,还包含RAG、多Agent协作、AutoGPT/MetaGPT等前沿技术,同时附录推荐科研论文,兼顾“实用开发”与“深度研究”;

  4. 作者权威,内容可信度高:作者黄佳具备多年AI研究与实战经验,且擅长通俗化讲解技术,避免“纸上谈兵”,确保内容的专业性与易懂性;

  5. 行业认可,价值有保障:多位学界与企业界权威专家推荐,印证本书在技术深度、实战价值上的优势,是Agent技术学习的可靠选择。

总结

《大模型应用开发:动手做AI Agent》是一本“理论扎实、实战导向、通俗易懂”的Agent技术指南。它既为零基础读者搭建了从认知到开发的完整学习路径,也为进阶读者提供了前沿技术与实战案例参考。无论是想入门Agent开发、提升大模型应用能力,还是探索AI技术商业化落地,本书都能成为重要助力,帮助读者在人工智能时代的Agent技术浪潮中,掌握核心能力,开启人机协作的创新可能。

购买此书

前往购买
打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。