《大模型应用开发 动手做AI Agent》黄佳【文字版_PDF电子书_】

| 书名:大模型应用开发 动手做AI Agent 作者:黄佳 出版社:人民邮电出版社 译者:无 出版日期:2024-5 页数:288 ISBN:9787115642172 | 7.0 豆瓣评分 | 孔网购买 | 点击喜欢 | 全网资源sm.nayona.cn |
内容简介:
人工智能时代一种全新的技术Agent正在崛起。这是一种能够理解自然语言并生成对应回复以及执行具体行动的人工智能体。它不仅是内容生成工具,而且是连接复杂任务的关键纽带。本书将探索Agent的奥秘,内容包括从技术框架到开发工具,从实操项目到前沿进展,通过带着读者动手做7个 功能强大的Agent,全方位解析Agent的设计与实现。本书最后展望了Agent的发展前景和未来趋势。
本书适合对Agent技术感兴趣或致力于投身该领域的研究人员、开发人员、企业负责人,以及高等院校相关专业师生等阅读。读者将跟随咖哥和小雪的脚步,踏上饶有趣味的Agent开发之旅,零距离接触GPT-4模型、OpenAI API和Assistants、LangChain、LlamaIndex和MetaGPT等尖端技术,见证Agent在办公自动化、智能调度、知识整合以及检索增强生成(RAG)等领域的非凡表现,携手开启人工智能时代的无限可能,在人机协作的星空中共同探寻那颗最闪亮的Agent之星!
作者简介:
黄佳
笔名咖哥,新加坡科技研究局人工智能研究员。他在NLP、大模型、Al in MedTech、Al in FinTech等领域积累了丰富的项目经验。着有《GPT图解 大模型是怎样构建的》《零基础学机器学习》《数据分析咖哥十话:从思维到实践促进运营增长》等图书。同时他还在极客时间、CSDN和深蓝学院开设专栏和课程,主要有“LangChain实战课”“零基础实战机器学习”“A 应用实战课”“大模型应用开发实战课’和“生成式预训练语言模型:理论与实战”等。他乐于保持好奇的心、拥抱变化、持续学习,希望借助AI的“慧眼”和“注意力”来观察世界,并以轻松幽默的方式分享知识,收获本真的快乐。
目 录:
第1章 何为Agent,为何Agent 1
1.1 大开脑洞的演讲:Life 3.0 2
1.2 那么,究竟何为Agent 5
1.3 Agent的大脑:大模型的通用推理能力 9
1.3.1 人类的大脑了不起 10
1.3.2 大模型出现之前的Agent 11
1.3.3 大模型就是Agent的大脑 12
1.3.4 期望之峰和失望之谷 14
1.3.5 知识、记忆、理解、表达、推理、反思、泛化和自我提升 18
1.3.6 基于大模型的推理能力构筑AI应用 22
1.4 Agent的感知力:语言交互和多模态 23
1.4.1 语言交互能力 23
1.4.2 多模态能力 24
1.4.3 结合语言交互和多模态能力 25
1.5 Agent的行动力:语言输出和工具使用 25
1.5.1 语言输出能力 25
1.5.2 工具使用能力 26
1.5.3 具身智能的实现 27
1.6 Agent对各行业的效能提升 28
1.6.1 自动办公好助手 29
1.6.2 客户服务革命 29
1.6.3 个性化产品推荐 30
1.6.4 流程的自动化与资源的优化 30
1.6.5 医疗保健的变革 31
1.7 Agent带来新的商业模式和变革 32
1.7.1 Gartner的8项重要预测 33
1.7.2 Agent即服务 34
1.7.3 多Agent协作 36
1.7.4 自我演进的AI 37
1.7.5 具身智能的发展 38
1.8 小结 39
第2章 基于大模型的Agent技术框架 41
2.1 Agent的四大要素 41
2.2 Agent的规划和决策能力 44
2.3 Agent的各种记忆机制 45
2.4 Agent的核心技能:调用工具 46
2.5 Agent的推理引擎:ReAct框架 49
2.5.1 何为ReAct 50
2.5.2 用ReAct框架实现简单Agent 53
2.5.3 基于ReAct框架的提示 56
2.5.4 创建大模型实例 60
2.5.5 定义搜索工具 61
2.5.6 构建ReAct Agent 62
2.5.7 执行ReActAgent 63
2.6 其他Agent认知框架 66
2.6.1 函数调用 66
2.6.2 计划与执行 66
2.6.3 自问自答 66
2.6.4 批判修正 66
2.6.5 思维链 67
2.6.6 思维树 67
2.7 小结 68
第3章 OpenAI API、LangChain和LlamaIndex 70
3.1 何为OpenAI API 71
3.1.1 说说OpenAI这家公司 71
3.1.2 OpenAI API和Agent开发 76
3.1.3 OpenAI API的聊天对话示例 78
3.1.4 OpenAI API的图片生成示例 85
3.1.5 OpenAI API实践 89
3.2 何为LangChain 91
3.2.1 说说LangChain 92
3.2.2 LangChain中的六大模块 98
3.2.3 LangChain和Agent开发 100
3.2.4 LangSmith的使用方法 102
3.3 何为LlamaIndex 105
3.3.1 说说LlamaIndex 105
3.3.2 LlamaIndex和基于RAG的AI开发 106
3.3.3 简单的LlamaIndex开发示例 110
3.4 小结 113
第4章 Agent 1:自动化办公的实现——使用Assistants API和DALL·E 3模型创作PPT 115
4.1 OpenAI公司的Assistants是什么 117
4.2 不写代码,在Playground中玩Assistants 118
4.3 Assistants API的简单示例 123
4.3.1 创建助手 124
4.3.2 创建线程 128
4.3.3 添加消息 130
4.3.4 运行助手 132
4.3.5 显示响应 138
4.4 创建一个简短的虚构PPT 141
4.4.1 数据的收集整理 142
4.4.2 创建OpenAI助手 142
4.4.3 自主创建数据分析图表 144
4.4.4 自主创建数据洞察 149
4.4.5 自主创建页面标题 152
4.4.6 用Dall-E为主题配图 152
4.4.7 自主创建PPT 154
4.5 小结 160
第5章 Agent 2:多功能选择的引擎——通过Functions Calling调用函数 161
5.1 OpenAI中的Functions 163
5.1.1 什么是Functions 163
5.1.2 Function的说明文字很重要 164
5.1.3 Function定义中的Sample是什么? 165
5.1.4 什么是Functions Calling 166
5.2 在OpenAI Playground中定义Function 168
5.3 用Assistants API来实现Functions Calling 173
5.3.1 创建能使用Functions的Assistant 175
5.3.2 不调用Function,直接运行Assistant 177
5.3.3 在Run进入requires_action状态之后跳出循环 185
5.3.4 拿到Assistant返回的元数据信息 186
5.3.5 利用Assistant的返回信息调用函数 187
5.3.6 通过submit_tool_outputs提交结果完成任务 190
5.4 用ChatCompletion API来实现Tool Calls 196
5.4.1 初始化对话和定义可用函数 197
5.4.2 第一次调用大模型,向模型发送对话及工具定义,并获取响应 198
5.4.3 调用模型选择的工具并构建新消息 201
5.4.4 第二次向模型发送对话以获取最终响应 204
5.5 小结 205
第6章 Agent 3:推理与行动的协同——使用LangChain中的ReAct框架实现自动定价 207
6.1 复习一下ReAct推理框架 208
6.2 LangChain中ReAct Agent 的实现 210
6.3 LangChain中的工具和工具包 212
6.4 通过create_react_agent创建鲜花定价Agent 215
6.5 深挖AgentExecutor的运行机制 221
6.5.1 在AgentExecutor中设置断点 221
6.5.2 第一轮思考:模型决定搜索 224
6.5.3 第一轮行动:工具执行搜索 233
6.5.4 第二轮思考:模型决定计算 239
6.5.5 第二轮行动:工具执行计算 241
6.5.6 第三轮思考:模型完成任务 245
6.6 小结 249
第7章 Agent 4:计划和执行的解耦——使用LangChain中的Plan-and-Execute智能调度库存 251
7.1 Plan-and-Solve策略的提出 252
7.2 LangChain中的Plan-and-Execute Agent 257
7.3 用Plan-and-Execute Agent实现物流管理 258
7.3.1 为Agent定义一系列进行自动库存调度的工具 258
7.3.2 创建Plan-and-Execute Agent并尝试一个“不可能完成”的任务 260
7.3.3 改动一下请求,Agent就会成功完成任务 268
7.4 从单Agent到多Agent 273
7.5 小结 273
第8章 Agent 5:知识的提取与整合——使用Llama Index实现检索增强生成Agent 275
8.1 何为检索增强生成 276
8.1.1 提示工程vs RAG vs 微调 278
8.1.2 技术角度的检索 Pipeline 280
8.1.3 用户视角的RAG流程 281
8.2 RAG和Agent 282
8.3 用LlamaIndex的ReAct Agent来实现花语秘境财报检索 284
8.3.1 获取并加载电商文档 284
8.3.2 将文档转换为嵌入向量 285
8.3.3 构建查询引擎和工具 287
8.3.4 配置文本生成引擎大模型 288
8.3.5 创建 Agent查询财务信息 288
8.4 小结 289
第9章 Agent 6:GitHub的网红聚落——AutoGPT、BabyAGI、CAMEL和Generative Agents 292
9.1 AutoGPT 293
9.1.1 AutoGPT简介 293
9.1.2 AutoGPT实战 294
9.2 BabyAGI 298
9.2.1 BabyAGI简介 299
9.2.2 BabyAGI实现 301
9.3 CAMEL 317
9.3.1 CAMEL简介 318
9.3.2 CAMEL论文中的股票交易场景 319
9.3.3 CAMEL实现 324
9.4 小结 333
第10章 Agent 7:多Agent系统框架——AutoGen和MetaGPT 335
10.1 AutoGen 336
10.1.1 AutoGen简介 336
10.1.2 AutoGen实战 340
10.2 MetaGPT 343
10.2.1 MetaGPT简介 343
10.2.2 MetaGPT实战 345
10.3 小结 353
第11章 下一代Agent的诞生地:科研论文中的新思路 355
11.1 两篇高质量的Agent综述 355
11.2 论文选读:Agent自主学习、多Agent合作、Agent可信度的评估、边缘系统部署以及具身智能落地 358
11.3 小结 359
参考文献 361
后记 创新与变革的交汇点 362
浏览器不支持脚本!
摘要:在人工智能技术迅速发展的今天,《大模型应用开发 动手做AI Agent》一书为读者提供了从理论到实践的完整指导。书中系统介绍了大模型的核心概念、开发方法以及在实际项目中的应用技巧,旨在帮助开发者和技术爱好者掌握构建AI Agent的能力。通过丰富的案例和操作演示,读者可以在实践中理解复杂算法的运作逻辑,从而提升技术水平和创新能力。同时,书中强调了模型优化、任务设计和数据处理等关键环节,为AI应用的落地提供了科学的方法论。整体来看,本书不仅适合有一定编程基础的技术人员,也能为初学者打开通向人工智能世界的大门,让读者在动手实践中收获实用技能和深刻认知。
1、大模型核心概念
《大模型应用开发 动手做AI Agent》首先对大模型的基本概念进行了系统阐述,明确了大模型与传统模型在规模、参数量以及应用场景上的差异。书中指出,大模型之所以能够处理复杂任务,是因为其庞大的参数量和丰富的训练数据使得模型具备强大的泛化能力。
作者详细分析了大模型的训练机制,包括预训练和微调两个阶段,并通过图示和案例展示了模型从数据输入到任务输出的整个流程。特别强调了大模型在理解自然语言、图像识别以及多模态任务中的优势,使读者能够对其潜力有清晰的认知。
书中还结合实际应用场景,如智能客服、内容生成和数据分析,说明了大模型在商业和科研领域的价值。通过这些案例,读者可以直观感受到理论知识在实际工作中的应用效果,为后续开发AI Agent打下坚实基础。
2、AI Agent开发方法
在开发方法方面,本书提供了从设计到实现的完整流程。首先,作者提出了AI Agent的基本架构,包括感知层、决策层和执行层,并详细说明每一层的功能与实现要点。这样的分层设计有助于开发者理清系统结构,提升开发效率。
书中对多种开发工具和框架进行了介绍,涵盖了深度学习库、自然语言处理工具以及任务调度系统。通过具体示例,读者可以快速上手,并在实践中掌握如何将大模型能力集成到AI Agent中,实现智能化任务处理。
此外,作者强调了迭代开发的重要性。通过不断调试模型、优化算法和改进交互策略,开发者能够逐步提升AI Agent的性能和用户体验。书中提供的实践指南和代码示例,为学习者提供了可操作的参考。
3、应用案例解析
书中通过丰富的应用案例,展示了大模型与AI Agent结合的实际效果。案例涵盖了客服机器人、智能推荐系统以及自动化办公助手等多种场景,每个案例都从问题分析、模型选择、系统设计到结果评估进行了详细讲解。
作者特别强调了案例中的问题解决思路,例如如何处理自然语言理解中的歧义、如何优化多任务处理效率以及如何保证系统的稳定性。通过这些实例,读者可以学习到实际项目中的常见问题和应对策略。
此外,书中还提供了案例的实验数据和性能分析,使读者能够直观地理解模型的能力和局限性。这种理论与实践相结合的方式,有助于读者在自己的项目中应用所学知识,提升开发质量和效率。
4、优化与实践技巧
在优化与实践方面,本书提供了针对模型性能提升的多种策略,包括参数调优、训练数据扩充和模型压缩技术。作者通过具体示例说明了如何在不同场景下选择合适的方法,从而提升AI Agent的响应速度和准确率。
书中还强调了系统性能监控和错误分析的重要性。通过对运行日志和用户反馈的分析,开发者可以发现潜在问题,并及时优化模型或调整策略,保证系统在实际应用中的稳定性和可靠性。
此外,作者分享了多种实用技巧,如任务优先级管理、资源调度优化和交互界面设计。这些技巧不仅提升了开发效率,也改善了用户体验,使AI Agent在实际环境中表现更加智能和灵活。
总结:
《大模型应用开发 动手做AI Agent》系统地展示了大模型理论、AI Agent开发方法、实际案例以及优化技巧的全景图。书中内容详实、案例丰富,能够帮助开发者从基础概念到实际应用全方位提升能力,使读者对AI系统的设计和实现有深刻理解。
通过本书的学习,读者不仅可以掌握构建AI Agent的实用技能,还能获得在真实项目中应对复杂问题的经验。无论是技术人员还是初学者,都能够在动手实践中不断成长,切实提高创新能力和开发水平。
本文由nayona.cn整理
联系我们

关注公众号

微信扫一扫
支付宝扫一扫 