本文仅包含简单介绍,更详细的描述可以搜索本人其他博客
- 参考链接:
Agentic AI 相关技术整体介绍
- 定义:LLM agentic 技术是指让 LLM 具备智能代理(Agent)能力的相关技术
- 常见的LLM agentic技术包括:记忆技术 ,工具使用技术 ,推理与计划技术 和 多智能体协作技术
记忆技术
- 通常包括短期记忆和长期记忆
- 短期记忆 :主要实现对当前会话历史的记忆,最直接的方法是使用模型的上下文窗口,将完整的对话历史作为输入提示的一部分。对于上下文窗口较小的模型,或者当对话历史较大时,可以改用另一个 LLM 来总结到目前为止发生的对话
- 长期记忆 :通常将所有之前的互动、行动和对话存储在一个外部向量数据库中,构建数据库之后,通过检索增强生成(RAG)方式检索相关信息
工具使用技术
- 模型调用工具实现一些 LLM 无法实现的功能,相关协议和工具如下
- Toolformer :是最早实现训练用于决定调用哪些 API 以及如何调用的模型,通过工具使用增强 LLM的 能力并弥补其不足
- 模型上下文协议(MCP) :为天气应用和 GitHub 等服务标准化了 API 访问,由以下三个组件组成:
- MCP 主机(LLM 应用,管理连接)
- MCP 客户端(与 MCP 服务器保持一对一连接)
- MCP 服务器(为 LLM 提供上下文、工具和能力)
Reasoning 与 Planning 技术(核心技术)
- 这个技术是最复杂的,相关论文和方法也最多,关键技术包括 ReAct、Self-Refine、Reflexion、Plan-and-Execute 和 Retroformer 等
ReAct (Reasoning + Acting)
- 论文参考:ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao, 2022 & ICLR 2023
- 算是 Agent 领域开创性的工作
- 基本思路:结合推理(Reasoning)和行动(Acting),通过动态生成推理步骤和交互动作(如调用工具、搜索)来完成任务
- 强调在推理过程中与环境互动以获取额外信息
- 一句话目标总结:通过动态推理与实时环境交互完成任务
- 方法流程简述:推理 -> 行动 -> 观察 -> 循环
- 接收任务(如“回答复杂问题”)
- 生成推理步骤(如“需先查证XX数据”)
- 执行动作(调用工具/搜索API)
- 观察结果(获取工具返回信息)
- 循环(结合新信息继续推理或终止)
- 最终输出 :最终答案或解决方案
Self-Refine
- 论文参考:Self-Refine: Iterative Refinement with Self-Feedback, NeurIPS 2023, NVIDIA & Google Deepmind
- 基本思路:模型通过自我反馈迭代优化输出。首先生成初始结果,然后自我批评(Self-Critique)并修正错误,无需外部监督
- 一句话目标总结:通过自我迭代优化单次输出质量
- 方法流程简述:生成 -> 批评 -> 修正 -> 循环
- 生成初始输出(如一段代码)
- 自我批评(检查语法/逻辑错误)
- 修正输出(基于批评重新生成)
- 重复 直至满足条件(如无错误或达到最大迭代次数)
- 最终输出 :优化后的文本/代码
Reflexion
- 论文参考:Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS 2023
- 基本思路:赋予模型“记忆”能力,通过保存历史交互的反思(Reflection)来指导未来决策,避免重复错误,帮助代理从之前的失败中学习,包含了行动者、评估者和自我反思三个 LLM 角色
- 一句话目标总结:通过记忆历史反思改进长期策略
- 方法流程简述:行动 -> 反馈 -> 反思 -> 存储 -> 未来检索
- 执行任务(如对话/游戏动作)
- 接收反馈(用户评分/任务成败)
- 生成反思(如“失败因未查询用户偏好”)
- 存储反思至记忆库
- 未来任务优先检索相关反思指导行动
- 最终输出 :持续优化的长期表现
Plan-and-Execute
- 代表方法 :Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models, 2023 和 HuggingGPT (利用LLM协调专家模型) 等
- 基本思路:将任务分解为规划(Plan)和执行(Execute)两阶段:首先生成高层次计划,再逐步执行子任务
- 一句话目标总结:通过分阶段规划与执行解决复杂任务
- 方法流程简述:规划 -> 执行子任务 -> 整合
- 任务分解 :生成高层次计划(如“写论文需:1.查资料 2.列大纲 3.写作”)
- 执行子任务 :按顺序完成各步骤
- 整合结果 :合并子任务输出
- 最终输出 :结构化任务结果
Retroformer
- 论文参考:Retroformer: Retrospective large language agents with policy gradient optimization, ICLR 2024, Salesforce AI Research
- 基本思路:通过逆向推理(Retrospective Reasoning)生成假设并验证,结合前向和后向推理提升逻辑一致性
- 一句话目标总结:通过逆向推理验证逻辑合理性
- 方法流程简述:正向假设 -> 逆向验证 -> 修正 -> 输出
- 生成假设(如数学证明的中间结论)
- 逆向验证 :从目标反推假设是否成立
- 修正假设 :若验证失败,调整推理路径
- 输出最终结论
- 最终输出 :逻辑严谨的结果
Reasoning 与 Planning 技术对比总结
| 方法 | 核心能力 | 交互性 | 适用场景 | 关键局限 |
|---|---|---|---|---|
| ReAct | 推理+环境交互 | 高 | 动态信息获取 | 依赖环境反馈 |
| Self-Refine | 自我迭代优化 | 无 | 生成任务优化 | 可能陷入错误循环 |
| Reflexion | 记忆与反思 | 中等 | 长期学习/对话 | 记忆管理复杂 |
| Plan-and-Execute | 分阶段任务分解 | 低 | 复杂任务规划 | 规划错误传导 |
| Retroformer | 双向推理验证 | 中等 | 逻辑严谨性要求高的任务 | 计算成本高 |
多智能体协作技术
- 这个技术是 AI Agent 没有的,Agentic AI 特有的
- 由专业化的 Agent 组成,每个 Agent 都配备了自己的一套工具,并由一个主管监督,主管管理 Agent 之间的通信,并为专业化的代理分配特定的任务,以解决单个Agent 存在的工具选择复杂、上下文复杂和任务专业化等问题