AGI——The-Second-Half

注：本文包含 AI 辅助创作

参考链接：
- 原始博客链接：The Second Half, 20250410, 姚顺雨

The Second Half 博客整体总结

TLDR：We’re at AI’s halftime.（我们正处于人工智能的中间休息时间）
几十年来，人工智能的发展主要集中在开发新的训练方法和模型上
- 这种方法行之有效：从击败国际象棋和围棋世界冠军，到在 SAT 和律师资格考试中超越大多数人类，再到赢得 IMO（国际数学奥林匹克）和 IOI（国际信息学奥林匹克）金牌
- 这些里程碑背后（如 DeepBlue、AlphaGo、GPT-4 以及o系列模型），是 AI 方法的根本性创新：
  - 搜索算法、深度强化学习（deep RL）、规模扩展（scaling）和推理能力，一切都在持续进步
那么，现在究竟发生了什么变化？
用三个词概括：RL finally works.（强化学习终于奏效了）
- 更准确地说：强化学习终于具备泛化能力了
经历了多次重大迂回和一系列里程碑式的突破后，我们终于找到了一种通用“配方”，能够利用语言和推理解决广泛多样的强化学习任务
- 就在一年前，如果你告诉大多数 AI 研究人员，存在一种单一的方法可以同时应对软件工程、创意写作、IMO 级别的数学题、鼠标键盘操作以及长篇问答，他们可能会嘲笑你是在幻想
- 毕竟，每一项任务都极其困难，许多研究者甚至要用整个博士生涯只专注于其中某一个狭窄领域
但这一切真的发生了
那么接下来会发生什么？
- AI的下半场（从现在开始），将重心从“解决问题”转向“定义问题”
- 在这个新时代，Evaluation比训练更重要
- 我们不再仅仅问：“我们能否训练一个模型来解决X？”而是要问：“我们应该训练 AI 去做什么？又该如何衡量真正的进展？” 要在这个下半场取得成功，我们需要及时转变思维方式和技能结构（或许更接近于一名产品经理的角色）

附录：我的个人见解和思考

其实我认为 AGI 还在上半场，特别是强化学习的发展还在上半场，多模态也还在上半场
作者认为强化学习的范式已经确定了，但是给的观点太大，细节上还有许多不同的落地方向
早在 23 年，我就认为真正的 AGI 很可能是在世界模型上进行反馈和交互得到的，随着世界模型的进化，智能体会越来越好
- 与作者评估的思路相似，但是我认为强化学习的算法仍然是重要的，如何让模型能记住之前与环境交互发生过什么（奖励，环境变化），算法可能还需要继续优化
从接触强化学习起，我基本上就确定 RL 是未来 AGI 的发展方向，但如今的大模型上 RL 用的还不够高明
- 比如简单的 SFT 就可以把数学分数刷的很高，不一定是 RL 带来的，RL 应该是与真实环境交互做决策
我认为 AGI 的核心：
- 让智能体在真实环境中成长，真的去感受，去交流，去沟通，记住这些遇到过的知识，最终实现 AGI

上半场（The first half）

要理解上半场，不妨看看它的“赢家”：你认为迄今为止最具影响力的 AI 论文有哪些？
作者在斯坦福CS224N课程中尝试过一个测验，答案并不令人意外：Transformer、AlexNet、GPT-3 等等
- 这些论文有什么共同点？它们都提出了某种根本性的突破，以训练出更好的模型
- 而且，它们通过在某些基准测试中表现出显著提升，成功发表了论文
但还有一个潜在的共性：这些“赢家”几乎都是训练方法或模型架构 ，而不是基准测试或任务本身
- 即便是堪称最有影响力的基准之一 ImageNet，其引用量也不到 AlexNet 的三分之一
- 这种“方法 vs 基准”的对比在其他地方更加悬殊
  - 例如，Transformer 论文本身的引用超过16万次，WMT’14 翻译任务（Transformer 的主要基准）对应的研讨会报告仅有约 1,300 次引用
这说明了上半场的游戏规则 ：重点在于构建新模型和新方法 ，评估与基准只是次要的（尽管必要，才能让论文体系运转起来）
为什么如此？一个重要原因是，在 AI 发展的上半场，方法比任务更难、也更激动人心
- 从零开始创造一种新算法或模型架构（比如反向传播算法、卷积神经网络（AlexNet），或是用于GPT-3的Transformer），需要非凡的洞察力和工程能力
- 相比之下，为 AI 定义任务往往显得简单得多：我们只需选取人类已有的任务（如翻译、图像识别或下棋），将其转化为可量化的基准测试即可（这并不需要太多创新或工程投入）
此外，方法通常比单个任务更具通用性和广泛适用性，因此价值更高
- 例如，Transformer 架构最终推动了计算机视觉（CV）、自然语言处理（NLP）、 RL 等多个领域的进步，远远超出了它最初验证的那个数据集（WMT’14翻译）
- 一个优秀的新方法可以“攀登”多个不同的基准，因为它足够简洁且通用，影响力远不止于单一任务
这套游戏机制运行了几十年，催生了改变世界的想法与突破，并体现在各个领域基准性能的不断提升上
- 为何这套机制会改变？因为这些思想和突破的累积已经带来了质的飞跃：我们终于找到了一套行之有效的“配方”来解决各类任务

这个“配方”是什么？（The recipe）

它的组成部分并不令人意外：大规模语言预训练、数据与算力的规模化、以及 “推理与行动（reasoning and acting）”的 idea
- 这些听起来像是你在旧金山每天都能听到的流行术语（buzzwords），但为何称之为“配方”？
我们可以通过RL 的视角来理解这一点
- RL 常被认为是 AI 的“终极目标”：理论上它能保证赢下游戏，经验上我们也很难想象任何超级智能系统（如AlphaGo）不依赖 RL 就能实现
在 RL 中，有三个关键要素：算法（algorithm）、环境（environment）和先验知识（priors）
- 长期以来，RL 研究者主要关注的是算法（如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等），这是智能体如何学习的核心智力部分
- 而将环境和先验视为固定或最小化的因素。例如，Sutton 和 Barto 的经典教材几乎全部聚焦于算法，对环境或先验几乎只字未提
然而，在深度强化学习时代，人们逐渐意识到环境在实践中至关重要 ：一个算法的表现往往高度依赖于它所设计和测试的具体环境
- 如果你忽视环境，就可能构建出一个在玩具环境中“最优”但在真实场景中完全失效的算法
- 那么，为什么不先明确我们真正想解决的环境，再寻找最适合它的算法呢？
这正是 OpenAI 最初的计划
- 他们创建了Gym，一个标准的RL环境平台，涵盖各种游戏；
- 接着推出了 World of Bits 和 Universe 项目，试图将互联网或整个计算机变成一个游戏环境
- 听起来是个好计划，不是吗？一旦我们将所有数字世界转化为可交互环境，再用聪明的 RL 算法去攻克它们，我们就拥有了数字世界的通用人工智能（AGI）
这个计划很好，但并未完全奏效
- OpenAI 沿着这条路径取得了巨大进展，用 RL 解决了 Dota、机械手控制等问题
- 但他们从未真正接近解决“电脑使用（computer use）”或“网页导航（web navigation）”这类任务，而且在一个领域有效的RL代理无法迁移到另一个领域
- Something is missing（缺了点什么？）
直到 GPT-2 或 GPT-3 出现，人们才意识到缺失的关键是先验知识（priors）
- 你需要强大的语言预训练，将常识和语言知识内化到模型中，然后在此基础上微调，使其成为 Web 代理（WebGPT）或聊天代理（ChatGPT），并由此改变世界
- 结果证明，RL 中最重要的一环可能根本不是 RL 算法或环境 ，而是先验知识 ，而这些先验知识的获取方式完全可以与 RL 无关
语言预训练为“聊天”创造了良好的先验，但对“控制电脑”或“玩视频游戏”却效果不佳
- 为什么？因为这些领域远离互联网文本的分布，如果直接在这些领域进行 SFT 或 RL ，泛化能力很差
我在 2019 年就注意到了这个问题，当时 GPT-2 刚发布，我尝试在其基础上做 SFT/RL 来解决文字冒险游戏（训练了 CALM）
- CALM 是世界上首个基于预训练语言模型构建的代理
- 但即便经过数百万步的 RL 训练，代理也只能勉强攻克一款游戏，且无法迁移到新游戏
  - 问题：RL 能做数百万步？即使模型很小也有点难吧？
- 虽然这对 RL 研究者来说并不奇怪（这正是 RL 的典型特征），但我感到困惑：人类却能轻松零样本地玩新游戏并表现良好
- 于是，我迎来了人生中第一次顿悟时刻（first eureka moment in my life）：
  - 顿悟：我们之所以能泛化，是因为我们不仅能选择“走到柜子2”或“用钥匙1打开箱子3”或“用剑杀死地牢怪兽”，我们还能选择思考：“地牢很危险，我需要武器。没有明显武器，也许得在锁着的箱子或柜子里找。柜子2里有箱子3，先去那里打开看看”
思考，或者说推理，是一种奇特的“动作” ，它不直接影响外部世界，但其思维空间是开放且组合爆炸的：
- 你可以思考一个词、一句话、一段话，甚至一万句随机英文单词，但周围的世界不会立即改变
- 在经典RL理论中，这简直是灾难，会让决策变得不可能
- 想象你要从两个盒子中选一个，其中一个有 100 万美元，另一个为空，你的期望收益是 50 万美元
  - 现在我再加无数个空盒子，你的期望收益就趋近于零
  - 问题：这个例子有点没太懂作者想表达的什么
- 但如果我们把“推理”加入任何 RL 环境的动作空间中，我们就能利用语言预训练带来的先验知识实现泛化，并根据不同决策灵活分配测试时的计算资源
- 这是一种非常神奇的现象，我在这里可能无法完全说清楚，也许需要另写一篇博客详细阐述
- 欢迎阅读 ReAct 论文了解“推理作为代理行为”的原始故事，以及我当时的心路历程
- 目前我的直观解释是：即使我加了无数空盒子，但你一生中见过各种游戏中的类似情况，选择这些“空盒子”的思考过程，反而让你在未来更有可能选中那个装钱的盒子
- 抽象地说：语言通过推理在代理中实现泛化（language generalizes through reasoning in agents）
一旦我们拥有了正确的 RL 先验（语言预训练）和 RL 环境（将语言推理作为动作之一），结果发现RL 算法本身反而可能是最不重要的部分
- 于是我们看到了o系列、R1、Deep Research、电脑使用代理……以及更多即将到来的成果
- 多么讽刺的转折！几十年来，RL 研究者极度重视算法，几乎无人关注环境，更没人关心先验
- 几乎所有 RL 实验都从零开始，但我们花了数十年的弯路才意识到，也许我们的优先级本该彻底颠倒
  - 问题：不对吧，在 RL 中一直都有先模仿学习再进行 RL 训练的先例，比如 AlphaGo 就先学习的专家决策
正如史蒂夫·乔布斯所说：“你无法向前连接点滴；你只能向后连接”（You can’t connect the dots looking forward; you can only connect them looking backward.）

“你无法在展望未来时串联起生命的点滴，只有在回顾过去时才能看清它们之间的联系”

下半场（The second half）

这套“配方”正在彻底改变游戏规则。回顾一下上半场的游戏：
- 1）我们开发新颖的训练方法或模型，以提升基准表现；
- 2）我们创建更难的基准，继续循环
但现在这个游戏正在被打破，原因如下：
- 这套“配方”已经基本标准化，并实现了工业化流水线式的基准刷分，不再需要太多新想法。你的某个特定任务上的创新方法可能带来5%的提升，而下一代o系列模型无需专门优化就能提升30%
- 即便我们创造出更难的基准，这套配方也会越来越快地将其攻克，我的同事Jason Wei制作了一张漂亮的图表，清晰地展示了这一趋势
- 图2
那么，在下半场我们还能做什么？
我认为我们必须从根本上重新思考Evaluation
- 这意味着不仅要创建新且更难的基准，更要从根本上质疑现有的评估框架，建立全新的评估体系，迫使我们发明超越当前“配方”的新方法
- 这很难，因为人类具有惯性，很少质疑基本假设，你往往把它们当作理所当然，而不意识到它们只是假设，而非自然法则
举个例子说明这种“惯性”：假设你在 2021 年发明了历史上最成功的评估之一，基于人类考试的评测
- 这在当时是个大胆创举，但三年后它已趋于饱和
- 你会怎么做？大概率是设计更难的考试
- 或者，假设你解决了简单的编程任务，下一步呢？很可能是寻找更难的编程题，直到达到 IOI 金牌水平
这种惯性是自然的，但问题在于：AI 已经击败了国际象棋和围棋冠军，在 SAT 和律师考试中超越大多数人，并在 IMO 和 IOI 中获得金牌
- 但世界似乎并没有因此发生太大变化（至少从经济和 GDP 来看是如此）
作者把这称为 “效用问题”（utility problem） ，并认为这是当前 AI 面临的最重要问题
也许我们很快就能解决这个问题，也许不会：但无论哪种情况，其根源可能出人意料地简单：我们的评估设置与真实世界存在诸多根本差异 ，举两个例子（原本机器学习或 RL 中大家比较确定的，但是现在需要改变的例子）：
- 评估“应该”自动化运行（Evaluation “should” run automatically） ：
  - 通常代理接收任务输入，自主完成，然后获得奖励
  - 但在现实中，代理必须在整个任务过程中与人类持续互动：你不会给客服发一条超长消息，等十分钟，然后指望对方一次性完美解决所有问题
  - 通过质疑这一设定，新的基准应运而生，例如引入真实人类参与（如 Chatbot Arena）或用户模拟（如 tau-bench）的闭环评估
- 评估“应该”独立同分布（i.i.d.）（Evaluation “should” run i.i.d.） ：
  - 如果你有一个包含 500 个任务的测试集，通常每个任务独立运行，取平均得分作为总体指标
  - 但在现实中，任务是顺序执行的
  - 一位谷歌软件工程师随着对代码库越来越熟悉，解决后续问题的能力会不断提升；而一个 AI 代理在同一代码库中解决多个问题时，却无法积累这种熟悉度
  - 我们显然需要长期记忆机制（已有相关研究（AGENT WORKFLOW MEMORY 和 Contextual Experience Replay for Continual Learning of Language Agents）），但学术界缺乏合适的基准来证明其必要性，甚至缺乏勇气去挑战机器学习的基础假设：i.i.d.
这些假设“一直如此”，在AI上半场是合理的，因为当智能水平较低时，提升智能通常能提升实用性
- 但现在，这套通用“配方”在这些假设下已被证明必然有效
因此，下半场的新游戏规则是：
- 1）我们开发面向真实世界效用的新型评估体系或任务；
- 2）我们用现有“配方”解决它们，或在此基础上加入创新组件；继续循环
这个游戏很难，因为它陌生，但它令人兴奋
- 上半场的玩家在解决电子游戏和考试，而下半场的玩家则有机会通过将智能转化为实际产品，打造出价值数十亿甚至上万亿美元的公司
- 上半场充满了渐进式的方法和模型，而下半场则会筛选出真正具有颠覆性意义的研究：通用“配方”会轻易碾压你的渐进式创新，除非你创造出能打破该“配方”的新假设
- 那时，你才能真正做出改变游戏规则的研究
Welcome to the second half!

其他说明

博客是基于作者在斯坦福 CS224N 和哥伦比亚大学的演讲内容撰写的
作者使用 OpenAI 的 Deep Research 功能读取了作者的幻灯片并生成了初稿