图书地址:https://github.com/xindoo/agentic-design-patterns
模式
核心设计模式
- 提示链(顺序执行)
- 路由(智能选择)
- 并行(将任务拆分之后成没有前后依赖关系的任务同时进行,最后进行汇总)
- 反思(正向反馈调节)
- 工具使用(给静态模型增加动态数据操作的可能性,可以对一些内部数据进行安全保护)
- 规划(将复杂任务先拆分成多项简单任务,逐步执行)
- 多智能体协作(各组组合和交互方式)
高级设计模式
- 智能体的记忆管理(我认为它主要解决了上下文限制问题,通过外部数据库将之前的上下文内容进行总结保存。为后续的沟通提供一些前置信息。这里会分为临时记忆、短暂记忆和长期记忆)
- 学习和适应(根据新经验和数据不断自我修缮自身逻辑,从而达到进化)
- MCP-模型上下文协议(我认为它是接口的一种标准,来保证各个扩展组件方便进行对接使用,类似 USB 这种接口。开源标准)。
- 目标设定与监控(通过预设目标,并且指定方向来保证的 Agent 的正确。 通过监控来提高输出质量)
集成设计模式
- 异常处理和恢复(就是增加鲁棒性的方式)
- 人机协同(在需要人类进行确认的场景下使用,常见的高风险场景,比如医生开药,金融交易等)
- RAG-知识检索(通过知识数据库增强上下文内容,弥补 LLM 的静态数据的局限性,主要还是解决私有数据的安全问题)
生产设计模式
- A2A-agent 间通讯(通过自定义 AgentCard 描述自己,方便多个 Agent 之间互相调用。属于开源协议和 MCP 类似,不过 MCP 是给工具的通讯的协议)
- 资源感知优化(阅读文章内容之后,我个人初步认为这个是通过一个分类 agent 先对用户的问题进行分类,确定其需要使用的模型。因为不同模型使用的需要的时间、费用的不同,通过有效的分类降低运行时间及成本。类如里面的例子:用户问题复杂,需要让我大模型进行整体规划,让小模型根据规划执行对应操作。)
- 推理技术(这章主要是在各个阶段进行批判方式,来保证最终答案的准确性。需要额外注意“思考时间”,可以认为这是一种用思考时间来换取答案准确度的方式。就像之前使用谷歌的深度检索,他通过大批量的检索相关信息,并通过判断对应信息最终生成一份报告。目前不知道为什么这个产品已经消失了。)
- 安全模式(这个是对用户输入的提示词进行筛选,过滤掉一些不安全的、存在歧视等内容。也可以在最总呈现中添加过滤,增强用户的信任感。我个人理解为,对提示词进行筛选保证 LLM 不受到影响。输出时,对内容进行检测保证不出现一些不应该出现的观点等,规则是人自己定义的,合不合规都有自己说的算,所以,如果直接用 LLM 大模型的话,是否就没有安全模式了?换句话说,安全模式是否在 LLM 大模型中进行了内置?)
- 有答案了,这个分为内置和外置。内置就是在改内部的权重。再使用之前会投喂大量的有毒反馈,来实现内置的安全模式。
- 评估和监控(这一章没怎么读懂,根据 AI 的解读,我现在对它有了一定的了解。此章节主要想要说明:传统的监控是不够的(只对结果判断),应该对过程和结果同时进行监控。)
- 优先级排序(这章是在讲当大量有冲突的任务出现时,代理需要有合理执行顺序。这个优先级排序方式应该是动态实时调整的,我认为这个比较理想化。)
- 探索和发现(最终篇。这章主要想解决在新的知识范围内,探索出新的知识。)
AI 根据我的理解之后编写的总结
这是一份为你定制的**《Agentic Design Patterns》深度总结与复盘报告**。
这份总结不仅基于书中的理论,更结合了你之前的笔记和你需要纠偏的认知。我们将全书内容重构为**“五大系统”**,帮助你建立一个工程化的上帝视角。
核心视角转换
从 LLM 到 Agent 的本质跨越:
- LLM (大模型) 是“大脑”,它只负责概率预测,是静态的。
- Agent (智能体) 是“拥有大脑的员工”,它有手(工具)、有记事本(记忆)、有工牌(权限),是动态的。
第一系统:认知与决策系统(The Brain)
这是 Agent 的“思考方式”,决定了它够不够聪明。
1. 基础思考模式
- 提示链 (Prompt Chaining):线性思维。像做菜一样,先切菜再炒菜,步骤固定。
- 路由 (Routing):分流思维。像前台接待,“你是找财务还是找技术?”将任务分发给最适合的子路径。
- 并行 (Parallelization):效率思维。像在大扫除,你擦窗户我扫地,最后汇总结果。
2. 高级推理模式
- 反思 (Reflection):自我纠错。Agent 产出结果后,自己充当“检查员”审视一遍:“这代码能跑通吗?”如果不行,重新生成。
- 规划 (Planning):任务拆解。面对“开发一个网站”这种大任务,先拆解为“设计数据库、写后端、写前端”三个子任务,逐步击破。
- 推理 (Reasoning):深度思考。(纠偏点) 这不仅仅是搜索信息,而是指 System 2(慢思考)。例如通过“思维树 (Tree of Thoughts)”推演不同路径的后果,选择最优解,用“思考时间换取准确率”。
第二系统:能力扩展系统(The Body)
这是 Agent 的“手脚和海马体”,决定了它能干什么。
1. 记忆管理 (Memory)
- 核心功能:打破 Token 限制,维持长期对话。
- 学习与适应 (Learning):(重点纠偏) 这里的“学习”不是重新训练模型(改权重),而是 In-context Learning(上下文学习)。Agent 把犯错的经验存入记忆库,下次遇到同样问题先查库,从而“避坑”。它是“经验本”变厚了,而不是“脑子”变了。
- RAG (知识检索):外挂知识库。让 Agent 考试时可以“开卷”查阅企业私有数据。
2. 工具与接口
- 工具使用 (Tool Use):赋予 Agent 操作现实世界的能力(查天气、发邮件、写数据库)。
- MCP (模型上下文协议):USB 接口。
- 你的金句:像 USB 一样标准化连接。
- 价值:让开发者写一次工具代码,就能被 Claude、GPT 等各种模型插拔使用,实现“工具自由”。
第三系统:协作与交互系统(The Society)
这是 Agent 的“社交方式”,决定了它如何与世界共处。
1. 智能体协作
- 多智能体协作 (Multi-Agent):专家团队模式。一个产品经理 Agent、一个程序员 Agent、一个测试 Agent 组队干活。
- A2A 通讯:同事关系。
- 辨析:MCP 是“人机接口”(主从),A2A 是“人人接口”(平等)。重点在于协商(Negotiation),比如两个 Agent 互相讨价还价来达成目标。
2. 人机协同
- Human-in-the-loop:核按钮模式。在医疗、金融等高风险环节,Agent 给出建议,必须由人类点击“确认”才能执行。
第四系统:工程与优化系统(The Infrastructure)
这是 Agent 的“后勤保障”,决定了它能不能在生产环境活下去。
1. 效率优化
- 资源感知优化 (Resource Awareness):模型路由。
- 策略:简单问题(打招呼)扔给 Llama-3-8B(小/快/便宜),复杂推理扔给 GPT-4(大/慢/贵)。
- 优先级排序:调度中心。
- 纠偏:不能指望 Agent 自己“懂事”。需要引入一个不干活的 Dispatcher(调度员),像操作系统的进程调度一样,强制管理任务队列。
2. 安全与鲁棒性
- 安全模式 (Safety):双重防线。
- 内置:模型本身受过训练,不想做坏事(RLHF)。
- 外置:门口站个保安(护栏模型 Guardrails),专门过滤进出的敏感词和恶意攻击指令。
- 异常处理:容错机制。当 API 挂了或模型胡说八道时,有预案(比如重试、降级回答),而不是直接崩溃。
第五系统:质量控制系统(The Conscience)
这是 Agent 的“考官与仪表盘”,也就是你之前没读懂的那一章。
1. 评估 (Evaluation) —— 离线判卷
- 难题:Agent 的输出不确定,且过程复杂。
- 解法 (LLM-as-a-Judge):用更强的模型(GPT-4)去给小模型(GPT-3.5)的执行轨迹打分。
- 关注点:不仅看结果(订票成功没?),更看轨迹 (Trajectory)(有没有做多余的动作?思考逻辑对不对?)。
2. 监控 (Monitoring) —— 在线仪表盘
- 核心指标:
- Cost/Task:完成一个任务平均花多少钱?
- Loop Detection:死循环检测。Agent 像傻子一样重复搜索同一个词时,必须立刻熔断。
💡 总结性心智模型
读完这本书,你的脑海中应该浮现出这样一个 Agent 工厂:
- 大脑 (LLM):负责思考,通过 Prompt Engineering 激发推理能力。
- 手脚 (Tools/MCP):通过标准接口连接世界。
- 记事本 (Memory/RAG):记录用户偏好和私有知识,并通过 In-context Learning 积累经验。
- 保安与考官 (Safety & Eval):外置的审核系统,确保 Agent 不发疯、不干坏事。
- 调度室 (Routing/Prioritization):根据任务难度,把活儿派给不同成本的模型。
这就是Agentic Design Patterns 的全貌。
