AGI——The-Second-Half

注:本文包含 AI 辅助创作


The Second Half 博客整体总结

  • TLDR:We’re at AI’s halftime.(我们正处于人工智能的中间休息时间)
  • 几十年来,人工智能的发展主要集中在开发新的训练方法和模型上
    • 这种方法行之有效:从击败国际象棋和围棋世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到赢得 IMO(国际数学奥林匹克)和 IOI(国际信息学奥林匹克)金牌
    • 这些里程碑背后(如 DeepBlue、AlphaGo、GPT-4 以及o系列模型),是 AI 方法的根本性创新:
      • 搜索算法、深度强化学习(deep RL)、规模扩展(scaling)和推理能力,一切都在持续进步
  • 那么,现在究竟发生了什么变化?
  • 用三个词概括:RL finally works.(强化学习终于奏效了)
    • 更准确地说:强化学习终于具备泛化能力了
  • 经历了多次重大迂回和一系列里程碑式的突破后,我们终于找到了一种通用“配方”,能够利用语言和推理解决广泛多样的强化学习任务
    • 就在一年前,如果你告诉大多数 AI 研究人员,存在一种单一的方法可以同时应对软件工程、创意写作、IMO 级别的数学题、鼠标键盘操作以及长篇问答,他们可能会嘲笑你是在幻想
    • 毕竟,每一项任务都极其困难,许多研究者甚至要用整个博士生涯只专注于其中某一个狭窄领域
  • 但这一切真的发生了
  • 那么接下来会发生什么?
    • AI的下半场(从现在开始),将重心从“解决问题”转向“定义问题”
    • 在这个新时代,Evaluation比训练更重要
    • 我们不再仅仅问:“我们能否训练一个模型来解决X?”而是要问:“我们应该训练 AI 去做什么?又该如何衡量真正的进展?” 要在这个下半场取得成功,我们需要及时转变思维方式和技能结构(或许更接近于一名产品经理的角色)

附录:我的个人见解和思考

  • 其实我认为 AGI 还在上半场,特别是强化学习的发展还在上半场,多模态也还在上半场
  • 作者认为强化学习的范式已经确定了,但是给的观点太大,细节上还有许多不同的落地方向
  • 早在 23 年,我就认为真正的 AGI 很可能是在世界模型上进行反馈和交互得到的,随着世界模型的进化,智能体会越来越好
    • 与作者评估的思路相似,但是我认为强化学习的算法仍然是重要的,如何让模型能记住之前与环境交互发生过什么(奖励,环境变化),算法可能还需要继续优化
  • 从接触强化学习起,我基本上就确定 RL 是未来 AGI 的发展方向,但如今的大模型上 RL 用的还不够高明
    • 比如简单的 SFT 就可以把数学分数刷的很高,不一定是 RL 带来的,RL 应该是与真实环境交互做决策
  • 我认为 AGI 的核心:
    • 让智能体在真实环境中成长,真的去感受,去交流,去沟通,记住这些遇到过的知识,最终实现 AGI

上半场(The first half)

  • 要理解上半场,不妨看看它的“赢家”:你认为迄今为止最具影响力的 AI 论文有哪些?
  • 作者在斯坦福CS224N课程中尝试过一个测验,答案并不令人意外:Transformer、AlexNet、GPT-3 等等
    • 这些论文有什么共同点?它们都提出了某种根本性的突破,以训练出更好的模型
    • 而且,它们通过在某些基准测试中表现出显著提升,成功发表了论文
  • 但还有一个潜在的共性:这些“赢家”几乎都是训练方法或模型架构 ,而不是基准测试或任务本身
    • 即便是堪称最有影响力的基准之一 ImageNet,其引用量也不到 AlexNet 的三分之一
    • 这种“方法 vs 基准”的对比在其他地方更加悬殊
      • 例如,Transformer 论文本身的引用超过16万次,WMT’14 翻译任务(Transformer 的主要基准)对应的研讨会报告仅有约 1,300 次引用
  • 这说明了上半场的游戏规则重点在于构建新模型和新方法评估与基准只是次要的(尽管必要,才能让论文体系运转起来)
  • 为什么如此?一个重要原因是,在 AI 发展的上半场,方法比任务更难、也更激动人心
    • 从零开始创造一种新算法或模型架构(比如反向传播算法、卷积神经网络(AlexNet),或是用于GPT-3的Transformer),需要非凡的洞察力和工程能力
    • 相比之下,为 AI 定义任务往往显得简单得多:我们只需选取人类已有的任务(如翻译、图像识别或下棋),将其转化为可量化的基准测试即可(这并不需要太多创新或工程投入)
  • 此外,方法通常比单个任务更具通用性和广泛适用性,因此价值更高
    • 例如,Transformer 架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、 RL 等多个领域的进步,远远超出了它最初验证的那个数据集(WMT’14翻译)
    • 一个优秀的新方法可以“攀登”多个不同的基准,因为它足够简洁且通用,影响力远不止于单一任务
  • 这套游戏机制运行了几十年,催生了改变世界的想法与突破,并体现在各个领域基准性能的不断提升上
    • 为何这套机制会改变?因为这些思想和突破的累积已经带来了质的飞跃:我们终于找到了一套行之有效的“配方”来解决各类任务

这个“配方”是什么?(The recipe)

  • 它的组成部分并不令人意外:大规模语言预训练数据与算力的规模化、以及 “推理与行动(reasoning and acting)”的 idea
    • 这些听起来像是你在旧金山每天都能听到的流行术语(buzzwords),但为何称之为“配方”?
  • 我们可以通过强化学习(Reinforcement Learning, RL) 的视角来理解这一点
    • RL 常被认为是 AI 的“终极目标”:理论上它能保证赢下游戏,经验上我们也很难想象任何超级智能系统(如AlphaGo)不依赖 RL 就能实现
  • 在 RL 中,有三个关键要素:算法(algorithm)、环境(environment)和先验知识(priors)
    • 长期以来,RL 研究者主要关注的是算法(如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等),这是智能体如何学习的核心智力部分
    • 而将环境和先验视为固定或最小化的因素。例如,Sutton 和 Barto 的经典教材几乎全部聚焦于算法,对环境或先验几乎只字未提
  • 然而,在深度强化学习时代,人们逐渐意识到环境在实践中至关重要 :一个算法的表现往往高度依赖于它所设计和测试的具体环境
    • 如果你忽视环境,就可能构建出一个在玩具环境中“最优”但在真实场景中完全失效的算法
    • 那么,为什么不先明确我们真正想解决的环境,再寻找最适合它的算法呢?
  • 这正是 OpenAI 最初的计划
    • 他们创建了Gym,一个标准的RL环境平台,涵盖各种游戏;
    • 接着推出了 World of Bits 和 Universe 项目,试图将互联网或整个计算机变成一个游戏环境
    • 听起来是个好计划,不是吗?一旦我们将所有数字世界转化为可交互环境,再用聪明的 RL 算法去攻克它们,我们就拥有了数字世界的通用人工智能(AGI)
  • 这个计划很好,但并未完全奏效
    • OpenAI 沿着这条路径取得了巨大进展,用 RL 解决了 Dota、机械手控制等问题
    • 但他们从未真正接近解决“电脑使用(computer use)”或“网页导航(web navigation)”这类任务,而且在一个领域有效的RL代理无法迁移到另一个领域
    • Something is missing(缺了点什么?)
  • 直到 GPT-2 或 GPT-3 出现,人们才意识到缺失的关键是先验知识(priors)
    • 你需要强大的语言预训练,将常识和语言知识内化到模型中,然后在此基础上微调,使其成为 Web 代理(WebGPT)或聊天代理(ChatGPT),并由此改变世界
    • 结果证明,RL 中最重要的一环可能根本不是 RL 算法或环境 ,而是先验知识 ,而这些先验知识的获取方式完全可以与 RL 无关
  • 语言预训练为“聊天”创造了良好的先验,但对“控制电脑”或“玩视频游戏”却效果不佳
    • 为什么?因为这些领域远离互联网文本的分布,如果直接在这些领域进行 SFT 或 RL ,泛化能力很差
  • 我在 2019 年就注意到了这个问题,当时 GPT-2 刚发布,我尝试在其基础上做 SFT/RL 来解决文字冒险游戏(训练了 CALM)
    • CALM 是世界上首个基于预训练语言模型构建的代理
    • 但即便经过数百万步的 RL 训练,代理也只能勉强攻克一款游戏,且无法迁移到新游戏
      • 问题:RL 能做数百万步?即使模型很小也有点难吧?
    • 虽然这对 RL 研究者来说并不奇怪(这正是 RL 的典型特征),但我感到困惑:人类却能轻松零样本地玩新游戏并表现良好
    • 于是,我迎来了人生中第一次顿悟时刻(first eureka moment in my life):
      • 顿悟:我们之所以能泛化,是因为我们不仅能选择“走到柜子2”或“用钥匙1打开箱子3”或“用剑杀死地牢怪兽”,我们还能选择思考 :“地牢很危险,我需要武器。没有明显武器,也许得在锁着的箱子或柜子里找。柜子2里有箱子3,先去那里打开看看”
  • 思考,或者说推理,是一种奇特的“动作” ,它不直接影响外部世界,但其思维空间是开放且组合爆炸的:
    • 你可以思考一个词、一句话、一段话,甚至一万句随机英文单词,但周围的世界不会立即改变
    • 在经典RL理论中,这简直是灾难,会让决策变得不可能
    • 想象你要从两个盒子中选一个,其中一个有 100 万美元,另一个为空,你的期望收益是 50 万美元
      • 现在我再加无数个空盒子,你的期望收益就趋近于零
      • 问题:这个例子有点没太懂作者想表达的什么
    • 但如果我们把“推理”加入任何 RL 环境的动作空间中,我们就能利用语言预训练带来的先验知识实现泛化,并根据不同决策灵活分配测试时的计算资源
    • 这是一种非常神奇的现象,我在这里可能无法完全说清楚,也许需要另写一篇博客详细阐述
    • 欢迎阅读 ReAct 论文了解“推理作为代理行为”的原始故事,以及我当时的心路历程
    • 目前我的直观解释是:即使我加了无数空盒子,但你一生中见过各种游戏中的类似情况,选择这些“空盒子”的思考过程,反而让你在未来更有可能选中那个装钱的盒子
    • 抽象地说:语言通过推理在代理中实现泛化(language generalizes through reasoning in agents)
  • 一旦我们拥有了正确的 RL 先验(语言预训练)和 RL 环境(将语言推理作为动作之一),结果发现RL 算法本身反而可能是最不重要的部分
    • 于是我们看到了o系列、R1、Deep Research、电脑使用代理……以及更多即将到来的成果
    • 多么讽刺的转折!几十年来,RL 研究者极度重视算法,几乎无人关注环境,更没人关心先验
    • 几乎所有 RL 实验都从零开始,但我们花了数十年的弯路才意识到,也许我们的优先级本该彻底颠倒
      • 问题:不对吧,在 RL 中一直都有先模仿学习再进行 RL 训练的先例,比如 AlphaGo 就先学习的专家决策
  • 正如史蒂夫·乔布斯所说:“你无法向前连接点滴;你只能向后连接”(You can’t connect the dots looking forward; you can only connect them looking backward.)

    “你无法在展望未来时串联起生命的点滴,只有在回顾过去时才能看清它们之间的联系”


下半场(The second half)

  • 这套“配方”正在彻底改变游戏规则。回顾一下上半场的游戏:
    • 1)我们开发新颖的训练方法或模型,以提升基准表现;
    • 2)我们创建更难的基准,继续循环
  • 但现在这个游戏正在被打破,原因如下:
    • 这套“配方”已经基本标准化,并实现了工业化流水线式的基准刷分,不再需要太多新想法。你的某个特定任务上的创新方法可能带来5%的提升,而下一代o系列模型无需专门优化就能提升30%
    • 即便我们创造出更难的基准,这套配方也会越来越快地将其攻克,我的同事Jason Wei制作了一张漂亮的图表,清晰地展示了这一趋势
    • 图2
  • 那么,在下半场我们还能做什么?
  • 我认为我们必须从根本上重新思考Evaluation
    • 这意味着不仅要创建新且更难的基准,更要从根本上质疑现有的评估框架,建立全新的评估体系,迫使我们发明超越当前“配方”的新方法
    • 这很难,因为人类具有惯性,很少质疑基本假设,你往往把它们当作理所当然,而不意识到它们只是假设,而非自然法则
  • 举个例子说明这种“惯性”:假设你在 2021 年发明了历史上最成功的评估之一,基于人类考试的评测
    • 这在当时是个大胆创举,但三年后它已趋于饱和
    • 你会怎么做?大概率是设计更难的考试
    • 或者,假设你解决了简单的编程任务,下一步呢?很可能是寻找更难的编程题,直到达到 IOI 金牌水平
  • 这种惯性是自然的,但问题在于:AI 已经击败了国际象棋和围棋冠军,在 SAT 和律师考试中超越大多数人,并在 IMO 和 IOI 中获得金牌
    • 但世界似乎并没有因此发生太大变化(至少从经济和 GDP 来看是如此)
  • 作者把这称为 “效用问题”(utility problem) ,并认为这是当前 AI 面临的最重要问题
  • 也许我们很快就能解决这个问题,也许不会:但无论哪种情况,其根源可能出人意料地简单:我们的评估设置与真实世界存在诸多根本差异 ,举两个例子(原本机器学习或 RL 中大家比较确定的,但是现在需要改变的例子):
    • 评估“应该”自动化运行(Evaluation “should” run automatically)
      • 通常代理接收任务输入,自主完成,然后获得奖励
      • 但在现实中,代理必须在整个任务过程中与人类持续互动:你不会给客服发一条超长消息,等十分钟,然后指望对方一次性完美解决所有问题
      • 通过质疑这一设定,新的基准应运而生,例如引入真实人类参与(如 Chatbot Arena)或用户模拟(如 tau-bench)的闭环评估
    • 评估“应该”独立同分布(i.i.d.)(Evaluation “should” run i.i.d.)
      • 如果你有一个包含 500 个任务的测试集,通常每个任务独立运行,取平均得分作为总体指标
      • 但在现实中,任务是顺序执行
      • 一位谷歌软件工程师随着对代码库越来越熟悉,解决后续问题的能力会不断提升;而一个 AI 代理在同一代码库中解决多个问题时,却无法积累这种熟悉度
      • 我们显然需要长期记忆机制(已有相关研究(AGENT WORKFLOW MEMORYContextual Experience Replay for Continual Learning of Language Agents)),但学术界缺乏合适的基准来证明其必要性,甚至缺乏勇气去挑战机器学习的基础假设:i.i.d.
  • 这些假设“一直如此”,在AI上半场是合理的,因为当智能水平较低时,提升智能通常能提升实用性
    • 但现在,这套通用“配方”在这些假设下已被证明必然有效
  • 因此,下半场的新游戏规则是:
    • 1)我们开发面向真实世界效用的新型评估体系或任务;
    • 2)我们用现有“配方”解决它们,或在此基础上加入创新组件;继续循环
  • 这个游戏很难,因为它陌生,但它令人兴奋
    • 上半场的玩家在解决电子游戏和考试,而下半场的玩家则有机会通过将智能转化为实际产品,打造出价值数十亿甚至上万亿美元的公司
    • 上半场充满了渐进式的方法和模型,而下半场则会筛选出真正具有颠覆性意义的研究:通用“配方”会轻易碾压你的渐进式创新,除非你创造出能打破该“配方”的新假设
    • 那时,你才能真正做出改变游戏规则的研究
  • Welcome to the second half!

其他说明

  • 博客是基于作者在斯坦福 CS224N 和哥伦比亚大学的演讲内容撰写的
  • 作者使用 OpenAI 的 Deep Research 功能读取了作者的幻灯片并生成了初稿