NLP——Agentic-AI相关技术简介

本文仅包含简单介绍，更详细的描述可以搜索本人其他博客

参考链接：
- 可参考：Generative to Agentic AI: Survey, Conceptualization, and Challenges，但我们可以简单了解一下

Agentic AI 相关技术整体介绍

定义：LLM agentic 技术是指让 LLM 具备智能代理（Agent）能力的相关技术
常见的LLM agentic技术包括：记忆技术 ，工具使用技术 ，推理与计划技术 和 多智能体协作技术

记忆技术

通常包括短期记忆和长期记忆
短期记忆 ：主要实现对当前会话历史的记忆，最直接的方法是使用模型的上下文窗口，将完整的对话历史作为输入提示的一部分。对于上下文窗口较小的模型，或者当对话历史较大时，可以改用另一个 LLM 来总结到目前为止发生的对话
长期记忆 ：通常将所有之前的互动、行动和对话存储在一个外部向量数据库中，构建数据库之后，通过检索增强生成（RAG）方式检索相关信息

工具使用技术

模型调用工具实现一些 LLM 无法实现的功能，相关协议和工具如下
Toolformer ：是最早实现训练用于决定调用哪些 API 以及如何调用的模型，通过工具使用增强 LLM的能力并弥补其不足
模型上下文协议（MCP） ：为天气应用和 GitHub 等服务标准化了 API 访问，由以下三个组件组成：
- MCP 主机（LLM 应用，管理连接）
- MCP 客户端（与 MCP 服务器保持一对一连接）
- MCP 服务器（为 LLM 提供上下文、工具和能力）

Reasoning 与 Planning 技术（核心技术）

这个技术是最复杂的，相关论文和方法也最多，关键技术包括 ReAct、Self-Refine、Reflexion、Plan-and-Execute 和 Retroformer 等

ReAct (Reasoning + Acting)

论文参考：ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao, 2022 & ICLR 2023
- 算是 Agent 领域开创性的工作
基本思路：结合Reasoning和行动（Acting），通过动态生成推理步骤和交互动作（如调用工具、搜索）来完成任务
- 强调在推理过程中与环境互动以获取额外信息
一句话目标总结：通过动态推理与实时环境交互完成任务
方法流程简述：推理 -> 行动 -> 观察 -> 循环
- 接收任务（如“回答复杂问题”）
- 生成推理步骤（如“需先查证XX数据”）
- 执行动作（调用工具/搜索API）
- 观察结果（获取工具返回信息）
- 循环（结合新信息继续推理或终止）
- 最终输出 ：最终答案或解决方案

Self-Refine

论文参考：Self-Refine: Iterative Refinement with Self-Feedback, NeurIPS 2023, NVIDIA & Google Deepmind
基本思路：模型通过自我反馈迭代优化输出。首先生成初始结果，然后自我批评（Self-Critique）并修正错误，无需外部监督
一句话目标总结：通过自我迭代优化单次输出质量
方法流程简述：生成 -> 批评 -> 修正 -> 循环
- 生成初始输出（如一段代码）
- 自我批评（检查语法/逻辑错误）
- 修正输出（基于批评重新生成）
- 重复直至满足条件（如无错误或达到最大迭代次数）
- 最终输出 ：优化后的文本/代码

Reflexion

论文参考：Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS 2023
基本思路：赋予模型“记忆”能力，通过保存历史交互的反思（Reflection）来指导未来决策，避免重复错误，帮助代理从之前的失败中学习，包含了行动者、评估者和自我反思三个 LLM 角色
一句话目标总结：通过记忆历史反思改进长期策略
方法流程简述：行动 -> 反馈 -> 反思 -> 存储 -> 未来检索
- 执行任务（如对话/游戏动作）
- 接收反馈（用户评分/任务成败）
- 生成反思（如“失败因未查询用户偏好”）
- 存储反思至记忆库
- 未来任务优先检索相关反思指导行动
- 最终输出 ：持续优化的长期表现

Plan-and-Execute

代表方法 ：Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models, 2023 和 HuggingGPT (利用LLM协调专家模型) 等
基本思路：将任务分解为规划（Plan）和执行（Execute）两阶段：首先生成高层次计划，再逐步执行子任务
一句话目标总结：通过分阶段规划与执行解决复杂任务
方法流程简述：规划 -> 执行子任务 -> 整合
- 任务分解 ：生成高层次计划（如“写论文需：1.查资料 2.列大纲 3.写作”）
- 执行子任务 ：按顺序完成各步骤
- 整合结果 ：合并子任务输出
- 最终输出 ：结构化任务结果

Retroformer

论文参考：Retroformer: Retrospective large language agents with policy gradient optimization, ICLR 2024, Salesforce AI Research
基本思路：通过逆向推理（Retrospective Reasoning）生成假设并验证，结合前向和后向推理提升逻辑一致性
一句话目标总结：通过逆向推理验证逻辑合理性
方法流程简述：正向假设 -> 逆向验证 -> 修正 -> 输出
- 生成假设（如数学证明的中间结论）
- 逆向验证 ：从目标反推假设是否成立
- 修正假设 ：若验证失败，调整推理路径
- 输出最终结论
- 最终输出 ：逻辑严谨的结果

Reasoning 与 Planning 技术对比总结

方法	核心能力	交互性	适用场景	关键局限
ReAct	推理+环境交互	高	动态信息获取	依赖环境反馈
Self-Refine	自我迭代优化	无	生成任务优化	可能陷入错误循环
Reflexion	记忆与反思	中等	长期学习/对话	记忆管理复杂
Plan-and-Execute	分阶段任务分解	低	复杂任务规划	规划错误传导
Retroformer	双向推理验证	中等	逻辑严谨性要求高的任务	计算成本高

多智能体协作技术

这个技术是 AI Agent 没有的，Agentic AI 特有的
由专业化的 Agent 组成，每个 Agent 都配备了自己的一套工具，并由一个主管监督，主管管理 Agent 之间的通信，并为专业化的代理分配特定的任务，以解决单个Agent 存在的工具选择复杂、上下文复杂和任务专业化等问题