NLP——Agentic-AI相关技术简介

本文仅包含简单介绍,更详细的描述可以搜索本人其他博客


Agentic AI 相关技术整体介绍

  • 定义:LLM agentic 技术是指让 LLM 具备智能代理(Agent)能力的相关技术
  • 常见的LLM agentic技术包括:记忆技术工具使用技术推理与计划技术多智能体协作技术

记忆技术

  • 通常包括短期记忆长期记忆
  • 短期记忆 :主要实现对当前会话历史的记忆,最直接的方法是使用模型的上下文窗口,将完整的对话历史作为输入提示的一部分。对于上下文窗口较小的模型,或者当对话历史较大时,可以改用另一个 LLM 来总结到目前为止发生的对话
  • 长期记忆 :通常将所有之前的互动、行动和对话存储在一个外部向量数据库中,构建数据库之后,通过检索增强生成(RAG)方式检索相关信息

工具使用技术

  • 模型调用工具实现一些 LLM 无法实现的功能,相关协议和工具如下
  • Toolformer :是最早实现训练用于决定调用哪些 API 以及如何调用的模型,通过工具使用增强 LLM的 能力并弥补其不足
  • 模型上下文协议(MCP) :为天气应用和 GitHub 等服务标准化了 API 访问,由以下三个组件组成:
    • MCP 主机(LLM 应用,管理连接)
    • MCP 客户端(与 MCP 服务器保持一对一连接)
    • MCP 服务器(为 LLM 提供上下文、工具和能力)

Reasoning 与 Planning 技术(核心技术)

  • 这个技术是最复杂的,相关论文和方法也最多,关键技术包括 ReActSelf-RefineReflexionPlan-and-ExecuteRetroformer

ReAct (Reasoning + Acting)

  • 论文参考:ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao, 2022 & ICLR 2023
    • 算是 Agent 领域开创性的工作
  • 基本思路:结合推理(Reasoning)和行动(Acting),通过动态生成推理步骤和交互动作(如调用工具、搜索)来完成任务
    • 强调在推理过程中与环境互动以获取额外信息
  • 一句话目标总结:通过动态推理与实时环境交互完成任务
  • 方法流程简述:推理 -> 行动 -> 观察 -> 循环
    • 接收任务(如“回答复杂问题”)
    • 生成推理步骤(如“需先查证XX数据”)
    • 执行动作(调用工具/搜索API)
    • 观察结果(获取工具返回信息)
    • 循环(结合新信息继续推理或终止)
    • 最终输出 :最终答案或解决方案

Self-Refine

  • 论文参考:Self-Refine: Iterative Refinement with Self-Feedback, NeurIPS 2023, NVIDIA & Google Deepmind
  • 基本思路:模型通过自我反馈迭代优化输出。首先生成初始结果,然后自我批评(Self-Critique)并修正错误,无需外部监督
  • 一句话目标总结:通过自我迭代优化单次输出质量
  • 方法流程简述:生成 -> 批评 -> 修正 -> 循环
    • 生成初始输出(如一段代码)
    • 自我批评(检查语法/逻辑错误)
    • 修正输出(基于批评重新生成)
    • 重复 直至满足条件(如无错误或达到最大迭代次数)
    • 最终输出 :优化后的文本/代码

Reflexion

  • 论文参考:Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS 2023
  • 基本思路:赋予模型“记忆”能力,通过保存历史交互的反思(Reflection)来指导未来决策,避免重复错误,帮助代理从之前的失败中学习,包含了行动者、评估者和自我反思三个 LLM 角色
  • 一句话目标总结:通过记忆历史反思改进长期策略
  • 方法流程简述:行动 -> 反馈 -> 反思 -> 存储 -> 未来检索
    • 执行任务(如对话/游戏动作)
    • 接收反馈(用户评分/任务成败)
    • 生成反思(如“失败因未查询用户偏好”)
    • 存储反思至记忆库
    • 未来任务优先检索相关反思指导行动
    • 最终输出 :持续优化的长期表现

Plan-and-Execute

  • 代表方法Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models, 2023HuggingGPT (利用LLM协调专家模型) 等
  • 基本思路:将任务分解为规划(Plan)和执行(Execute)两阶段:首先生成高层次计划,再逐步执行子任务
  • 一句话目标总结:通过分阶段规划与执行解决复杂任务
  • 方法流程简述:规划 -> 执行子任务 -> 整合
    • 任务分解 :生成高层次计划(如“写论文需:1.查资料 2.列大纲 3.写作”)
    • 执行子任务 :按顺序完成各步骤
    • 整合结果 :合并子任务输出
    • 最终输出 :结构化任务结果

Retroformer

  • 论文参考:Retroformer: Retrospective large language agents with policy gradient optimization, ICLR 2024, Salesforce AI Research
  • 基本思路:通过逆向推理(Retrospective Reasoning)生成假设并验证,结合前向和后向推理提升逻辑一致性
  • 一句话目标总结:通过逆向推理验证逻辑合理性
  • 方法流程简述:正向假设 -> 逆向验证 -> 修正 -> 输出
    • 生成假设(如数学证明的中间结论)
    • 逆向验证 :从目标反推假设是否成立
    • 修正假设 :若验证失败,调整推理路径
    • 输出最终结论
    • 最终输出 :逻辑严谨的结果

Reasoning 与 Planning 技术对比总结

方法 核心能力 交互性 适用场景 关键局限
ReAct 推理+环境交互 动态信息获取 依赖环境反馈
Self-Refine 自我迭代优化 生成任务优化 可能陷入错误循环
Reflexion 记忆反思 中等 长期学习/对话 记忆管理复杂
Plan-and-Execute 分阶段任务分解 复杂任务规划 规划错误传导
Retroformer 双向推理验证 中等 逻辑严谨性要求高的任务 计算成本高

多智能体协作技术

  • 这个技术是 AI Agent 没有的,Agentic AI 特有的
  • 由专业化的 Agent 组成,每个 Agent 都配备了自己的一套工具,并由一个主管监督,主管管理 Agent 之间的通信,并为专业化的代理分配特定的任务,以解决单个Agent 存在的工具选择复杂、上下文复杂和任务专业化等问题