AGI——林俊旸博客-From-Reasoning-Thinking2Agentic-Thinking

注:本文包含 AI 辅助创作


博客核心观点总结

从 Reasoning “Thinking” 到 Agentic “Thinking” 的范式转移

  • 本文的观点更像是回顾
    • 虽然本文核心观点在这个时间点已经不算是很新了,从 Claude 4 到 DeepSeek-V3.2 等来看,基本是大家的共识了
    • 但是本文带着 Qwen 团队当年的一些尝试和思考,仍然是值得一读的
  • 过去两年模型评估的重点正从 “让模型思考更长” 转向 “让模型为了行动而思考”
    • “让模型为了行动而思考” 即在与环境互动中持续更新计划、采取行动
  • 注:原文其实有点没有明确,这里的 Agentic “Thinking” 可能是指下面两种可能:
    • 目标视角:强调 让模型为了行动而思考(Thinking)这个目标
    • 过程视角:强调 在 Thinking 时进行 Agentic 行为(比如 工具调用)这个过程
    • 这两个方式并不耦合,本文的很多内容感觉是在聊 过程视角 ,但很多句子会给人在聊 目标视角 的感觉
      • 原文2:I believe the answer is agentic thinking: thinking in order to act, while interacting with an environment, and continuously updating plans based on feedback from the world.
        • 这里看,似乎也在强调目标是为了 Act
      • 原文1:Agentic thinking is a model that reasons through action
        • 这里看, Agentic thinking 强调的是 允许 LLM 在思考时调用工具
    • 个人理解:
      • 林俊旸的意思是:Agentic Thinking 的定义是为了做出正确的 Act 而 Thinking,同时允许 Thinking 过程中与环境交互(比如调用工具等 Act)
      • 实际上,个人理解在非 Agentic 场景(比如 Open Knowledge QA 场景)中,也可以让 LLM 在 Thinking 过程中与环境交互
        • 此时 LLM 已经具备 Agentic 能力,但目标并不是作出正确的 Act(除非把开放式问答的 Answer 也视作一个 Agentic Act)

推理模型的成功本质上是基础设施的成功

  • 25 年前后,OpenAI 的 o1 和 DeepSeek R1 先后证明了通过强化学习训练模型进行“思考前回答”是可行的,且这一方向可以在不同实验室复现和扩展
  • 推理模型的训练依赖于大规模 rollout、高吞吐验证、稳定策略更新等系统能力,其突破不仅是算法问题,更是基础设施问题

融合 “Thinking Mode” 与 “Instruct Mode” 的思考

  • 融合 “Thinking Mode” 与 “Instruct Mode” 比预期更困难
    • Qwen3 等模型尝试统一两种 Modes ,但两者的数据分布和行为目标存在根本冲突:
      • Instruct Mode 追求简洁、低延迟
      • Thinking Mode 追求深度推理与正确性,融合不当会导致两端表现都受损
  • 实践中“分离”比“融合”更符合商业需求
    • 在 Qwen 后续版本(如 2507 系列)中,团队选择将 Instruct 和 Thinking 作为独立产品线发布,因为大量企业用户仍需要高吞吐、低成本、可操控的纯 Instruct 行为
  • Anthropic 提供了另一种思路:可控预算的集成推理
    • Anthropic 的 Claude 3.7 和 Claude 4 主张将推理作为集成能力,允许用户设置 “Thinking Budgets” ,并在扩展思考中支持工具调用,强调思考应为真实任务(如编码、智能体工作流)服务

“ Agentic Thinking ” 的核心是 “通过行动进行思考”

  • 原文:Agentic thinking is a model that reasons through action
  • 与纯推理不同, Agentic Thinking 要求模型能够决定何时行动、调用哪些工具、处理环境反馈、在失败后修正计划,并在多轮交互中保持连贯性
  • 注:原文也有提到,即使是数学、代码等传统推理任务,更优的方式也不是让模型输出更长的内部独白,而是允许其搜索、模拟、执行、观察、验证

智能体 RL 的基础设施难度远高于推理 RL

  • 智能体训练涉及工具服务器、浏览器、模拟器等复杂环境,训练与推理必须解耦,否则 rollout 吞吐量会因工具延迟和环境状态而严重下降
  • 环境设计成为智能体时代的关键研究工件
    • 在智能体时代,环境的质量(稳定性、真实性、覆盖度、困难程度、状态多样性、反馈丰富度、Exploit Resistance、可扩展性)与模型本身同等重要,环境构建正在成为一个独立的创业方向
      • Exploit Resistance 主要是指 “抗利用性”,即防止模型 Reward Hacking 的能力
    • 原文:

      In the agent era, we should obsess over environment quality: stability, realism, coverage, difficulty, diversity of states, richness of feedback, exploit resistance, and scalability of rollout generation

  • Reward Hacking 在智能体时代更加危险
    • 当模型获得工具访问权限后,可能通过查答案、利用环境漏洞等方式作弊,因此环境设计、评估器鲁棒性和反作弊机制成为新的研究瓶颈

未来

  • Agentic thinking 将变成 thinking 的主流
    • Even on very difficult math or coding tasks, a genuinely advanced system should have the right to search, simulate, execute, inspect, verify, and revise. The objective is to solve problems robustly and productively.
  • 竞争焦点从“模型训练”转向“系统构建”
    • 未来的竞争优势不再仅来自更好的 RL 算法或训练数据,而是来自更好的环境、更紧密的训练-服务集成、更强的框架工程,以及多个智能体协同的系统能力

原文完整译文

From “Reasoning” Thinking to “Agentic” Thinking

  • 过去两年重塑了我们评估模型的方式以及对它们的期望
    • OpenAI 的 o1 表明,“思考”可以成为一种一等公民能力,一种可以为其进行训练并向用户展示的能力
      • DeepSeek-R1 证明了推理式的后训练可以被复现和扩展
    • OpenAI 将 o1 描述为一个通过强化学习训练的模型,能够“在回答之前思考”
      • DeepSeek 则将 R1 定位为一个与 o1 具有竞争力的开放推理模型
  • 2025 年上半年主要关注的是 “Reasoning Thinking”:
    • 如何让模型花费更多的推理时计算,如何用更强的奖励信号训练它们,以及如何展现或控制这种额外的推理努力
  • 现在的问题是,接下来是什么?
    • 作者相信答案是 “Agentic Thinking”:为了行动而思考,同时与环境互动,并根据来自世界的反馈持续更新计划

What the Rise of o1 and R1 Actually Taught Us,o1 和 R1 的兴起实际教会了我们什么

  • 第一波推理模型教会我们,如果想在语言模型中扩展强化学习,需要确定性的、稳定的、可扩展的反馈信号
    • 数学、代码、逻辑和其他可验证的领域变得核心,因为这些场景中的奖励远强于通用的偏好监督
    • 它们让 RL 能够优化正确性而非合理性
    • 基础设施变得至关重要
  • 一旦模型被训练成能够通过更长的轨迹进行推理,RL 就不再是监督式微调之上的一个轻量级附加项
    • RL 变成了一个系统性问题
    • 需要大规模的 rollout、高吞吐量的验证、稳定的策略更新、高效的采样
    • 推理模型的出现既是一个建模故事,也是一个基础设施故事
  • OpenAI 将 o1 描述为一个通过 RL 训练的推理系列
    • DeepSeek R1 后来通过展示基于推理的 RL 需要多么专注的算法和基础设施工作,进一步强化了这一方向
  • 第一个重大转变:从扩展预训练转向扩展后训练以进行推理

The Real Problem Was Never Just “Merge Thinking and Instruct”,真正的问题从来不仅仅是“融合 Thinking 与 Instruct”

  • 在 2025 年初,Qwen 团队中的许多人都怀有一个雄心勃勃的构想
    • 理想的系统将统一 Thinking Mode 和 Instruct Mode
  • 这个统一 Mode 将支持可调节的推理投入,类似于低/中/高推理设置的思路
    • 而且它会根据 Prompt 和上下文自动推断出适当的推理量 ,这样模型就可以决定何时立即回答,何时思考更长时间,以及何时在真正困难的问题上花费更多的计算资源
  • 从概念上讲,这是正确的方向
    • Qwen3 是最清晰的公开尝试之一
    • Qwen3 引入了“混合 Thinking Mode”
      • 在一个家族中同时支持 Thinking 和非 Thinking 行为,强调了可控的 Thinking 预算,并描述了一个四阶段的后训练流程,该流程在长链 Thinking 冷启动和推理 RL 之后明确包含了 “Thinking Mode 融合”
  • 融合说起来容易,做起来难
    • 难点在于数据
    • 当人们谈论融合 Thinking 和 Instruct 时,通常首先想到的是模型端的兼容性:
      • 一个 checkpoint 能否同时支持两种 Mode
      • 一个聊天模板能否在它们之间切换
      • 一个服务栈能否暴露正确的开关
    • 更深层的问题是,两种 Mode 的数据分布和行为目标是截然不同的
  • 在尝试平衡模型融合与提高后训练数据的质量和多样性时,Qwen 并未在所有方面都做到完美
    • 在那个修订过程中,Qwen 也密切关注用户实际如何使用 Thinking Mode 和 Instruct Mode
      • 一个强大的 Instruct 模型通常因其直接性、简洁性、格式符合度、在重复性、高并发的企业任务(如重写、标注、模板化支持、结构化提取和运营 QA)上的低延迟而受到青睐
      • 一个强大的 Thinking 模型则因其在难题上花费更多 token、保持连贯的中间结构、探索替代路径以及保留足够的内部计算以切实改进最终正确性而受到青睐
    • 这两种行为特征相互冲突
      • 如果融合后的数据没有经过精心整理,结果通常是两边都表现平庸:
        • “Thinking” 行为变得嘈杂、臃肿或不够果断
        • “Instruct” 行为则变得不那么清晰、不那么可靠,并且比商业用户实际想要的成本更高
  • 在实践中,分离仍然具有吸引力
    • 在 2025 年晚些时候,继 Qwen3 最初的混合框架之后,2507 系列发布了独立的 Instruct 和 Thinking 更新,包括单独的 30B 和 235B 变体
    • 在商业部署中,大量客户仍然希望为批处理操作提供高吞吐量、低成本、高度可操控的 Instruct 行为
      • 对于这些场景,融合显然不是一项优势
      • 分离这些产品线使得团队能够更清晰地专注于解决每种 Mode 的数据和训练问题
  • 其他实验室选择了相反的道路
    • Anthropic 公开主张一种集成的模型理念:Claude 3.7 Sonnet 被作为一个混合推理模型推出,用户可以选择普通响应或扩展思考,API 用户可以设置 Thinking Budgets
    • Anthropic 明确表示,他们认为推理应该是一种集成的能力,而不是一个独立的模型
    • GLM-4.5 也公开定位为一个具有 Thinking 和非 Thinking Mode 的混合推理模型,统一了推理、编码和智能体能力
    • DeepSeek 后来也通过 V3.1 的 “Think & Non-Think” 混合推理向类似方向发展
  • 关键问题在于融合是否是“有机的(organic)”
    • 如果 Thinking 和 Instruct 仅仅被共同放置在一个 checkpoint 内,但行为仍然像两个生硬拼凑的人格,那么产品体验仍然不自然
    • 一个真正成功的融合需要一个平滑的推理投入谱系
      • 模型应该能够表达多个层次的投入,并且理想情况下能够自适应地选择它们
      • 类似 GPT 的投入控制方式指向了这一点:一种基于计算量的策略,而不是一个二元开关

Why Anthropic’s Direction Was a Useful Corrective,有用的修正

  • Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述是克制的
    • 他们强调了集成推理、用户可控的 Thinking Budgets 、真实世界任务、编码质量,以及后来在扩展思考期间使用工具的能力
    • Claude 3.7 被作为一个具有可控预算的混合推理模型推出
    • Claude 4 则通过允许推理与工具使用交错进行扩展了这一特性,同时 Anthropic 强调编码、长期运行任务和智能体工作流是主要目标
  • 产生更长的推理轨迹并不会自动使模型更智能
    • 在许多情况下,过度的可见推理痕迹表明分配不当
    • 如果模型试图以同样的冗长方式对所有事情进行推理,它可能未能区分优先级、未能压缩信息、或者未能采取行动
    • Anthropic 的轨迹暗示了一种更严谨的观点:
      • 思考应该根据目标工作负载来塑造
      • 如果目标是编码,那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排
      • 如果目标是智能体工作流,那么思考应该提高长期执行的质量,而不是仅仅产生令人印象深刻的中间文本
  • 这种对目标效用的强调指向了更大的方向:
    • 我们正在从训练模型的时代转向训练智能体的时代
    • 作者他们在 Qwen3 的博客中明确指出了这一点,写道 “我们正在从一个专注于训练模型的时代过渡到一个以训练智能体为中心的时代”,并将未来的 RL 进展与环境反馈联系起来,以实现长程推理
      • 一个智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略并在长时间跨度内持续运行的系统
      • 它由与世界的闭环互动来定义

What “Agentic Thinking” Really Means

  • Agentic Thinking 是一个不同的优化目标
    • 推理 Thinking 通常通过最终答案前的内部推演质量来判断:模型能否解出定理、写出证明、生成正确的代码或通过基准测试
    • Agentic Thinking 关注的是模型在与环境互动时能否持续取得进展
      • 注:从这里看,作者似乎想将 Agentic Thinking 定义为 过程视角
  • 核心问题从“模型能思考足够久吗?”转变为“模型能以维持有效行动的方式思考吗?”
    • Agentic Thinking 必须处理几个纯推理模型大多可以避免的问题:
      • 决定何时停止思考并采取行动
      • 选择调用哪个工具以及按什么顺序
      • 整合来自环境的嘈杂或不完整的观察结果
      • 在失败后修正计划
      • 在多个回合和多次工具调用中保持连贯性
      • Agentic Thinking 是一个通过行动进行推理的模型

Why Agentic RL Infrastructure Is Harder,智能体 RL Infra 更难

  • 一旦目标从解决基准问题转向解决交互式任务,RL 技术栈就会发生变化
    • 用于经典推理 RL 的基础设施是不够的
    • 在推理 RL 中,通常可以将 rollout 视为大部分自包含的轨迹,并使用相对清晰的评估器
    • 在智能体 RL 中,策略被嵌入到一个更大的框架中:
      • 工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、内存系统和编排框架
      • 环境不再是一个静态验证器,它是训练系统的一部分
  • 这创造了一个新的系统需求:训练和推理必须更清晰地解耦
    • 没有这种解耦,rollout 吞吐量会崩溃
    • 考虑一个必须针对实时测试工具执行生成代码的编码智能体:
      • 推理端等待执行反馈时会停滞,训练端因缺少完整的轨迹而饥饿,整个 Pipeline 的 GPU 利用率远低于你对经典推理 RL 的预期
      • 添加工具延迟、部分可观测性和有状态环境会放大这些低效问题
        • 结果:实验速度会大幅变慢
  • 环境本身也成为一个一流的研究工件
    • 在 SFT 时代,我们痴迷于数据多样性
    • 在智能体时代,我们应该痴迷于环境质量:稳定性、真实性、覆盖率、难度、状态多样性、反馈丰富度、防利用性以及 rollout 生成的可扩展性
    • 环境构建已经开始成为一个真正的初创公司类别,而不是一个附带项目
    • 如果智能体被训练用于类似生产的环境,那么环境就是核心能力栈的一部分

The Next Frontier Is More Usable Thought,前沿思考

  • 作者预计 Agentic Thinking 将成为思考的主导形式
    • Agentic Thinking 最终可能会取代许多旧的静态独白式推理 Thinking :那些过长、孤立、试图通过输出更多文本来弥补缺乏互动的内部轨迹
    • 即使在非常困难的数学或编码任务上,一个真正先进的系统也应该有权进行搜索、模拟、执行、检查、验证和修订,目标是稳健且高效地解决问题
  • 训练此类系统最困难的挑战是 Reward Hacking
    • 一旦模型获得了有意义的工具访问权限, Reward Hacking 就会变得更加危险
      • 一个拥有搜索功能的模型可能学会在 RL 期间直接查找答案(问题:这没问题吧?)
      • 一个编码智能体可能利用仓库中的未来信息、滥用日志或发现使任务无效的捷径
      • 一个带有隐藏漏洞的环境可以让策略看起来超常,但实际上是在训练它作弊
    • 这就是智能体时代变得比推理时代更加微妙的地方
      • 更好的工具使模型更有用,但它们也扩大了虚假优化的攻击面
    • 我们应该预期,下一个严峻的研究瓶颈将来自环境设计、评估器鲁棒性、反作弊协议以及策略与世界之间更原则性的接口
      • 尽管如此,方向是明确的
      • 支持工具的思考就是比孤立的思考更有用,并且更有机会提高实际生产力
  • Agentic Thinking 也将意味着框架工程
    • 核心智能将越来越多地来自多个智能体如何组织:
      • 一个负责规划和分配工作的编排器,充当领域专家的专用智能体
      • 一些执行更狭窄任务的子智能体,同时帮助控制上下文、避免污染并保持不同推理层次之间的分离
      • 未来是从训练模型到训练智能体,以及从训练智能体到训练系统的转变

Conclusion

  • 推理浪潮的第一阶段确立了一件重要的事情:
    • 当反馈信号可靠且基础设施能够支持时,在语言模型之上进行 RL 可以产生质量上更强的认知能力
  • 更深层的转变是从推理 Thinking 到 Agentic Thinking :
    • 从思考更长时间到为了行动而思考
  • 训练的核心对象已经改变
    • 训练的核心是“模型加环境”系统(model-plus-environment system),或者更具体地说,是智能体及其周围的框架(Harness)
    • 这改变了之前关于 “哪些研究组件最重要(what research artifacts matter most)” 的认知:
      • 关键 Artifacts: 模型架构和训练数据、环境设计、rollout 基础设施、评估器鲁棒性以及多个智能体协调的接口
    • 这也改变了 “Good Thinking” 的含义:最有助于在现实世界约束下维持行动的轨迹,而不是最长或最显眼的轨迹
    • 这还将改变竞争优势的来源
      • 在推理时代,优势来自更好的 RL 算法、更强的反馈信号和更可扩展的训练 Pipeline
      • 在智能体时代,优势将来自更好的环境、更紧密的“训练-服务”集成、更强的框架工程,以及能够在模型的决策与其产生的后果之间形成闭环的能力