AGI——RechardSutton-LLMs-are-a-Dead-End

参考链接：
- 原始博客链接：Richard Sutton – Father of RL thinks LLMs are a dead end, 20250926

整体总结

Richard Sutton 对当前热门的 LLMs 路线持明确批判态度，认为其并非实现真正智能的正确路径

LLMs 是“错误起点”“死胡同”， RL 才是真正的基础 AI

Sutton 明确否定 LLM 作为智能发展起点的合理性，认为 RL 才是探索智能本质的核心方向
LLM 和 RL 二者的根本差异在于：
- 智能的本质是“理解世界、达成目标” ：Sutton 认为，智能的核心是对所处世界的理解，以及通过行动实现目标的能力
  - RL 的核心逻辑正是“通过行动-观察-反馈”持续修正行为，最终理解世界、达成目标，完全贴合智能的本质
- LLMs 仅停留在“模仿人类”，未触及智能核心 ：LLMs 的核心是“Next Token Prediction”，本质是模仿人类语言表达模式，而非主动理解世界
  - LLMs 只是按照人类已有文本的逻辑生成内容，没有独立思考“应该做什么”的能力，更无法通过与世界的交互形成对世界的认知
批判 LLM 的核心理由：四大关键缺陷使其无法成为真正的智能系统
- Sutton 从“世界建模、目标、反馈（ground truth）、可扩展性”四个维度，指出 LLM 的根本性缺陷：
个人理解：不完全同意，虽然 LLMs 确实是从模仿出发的，但 LLM 作为 RL 的一个基础工具没问题，相当于给了 RL 一个很强的 Base 基线，正如小孩子从模仿人说话到有自己的思想一样，智能是可以慢慢加入的

第一：LLM 没有真正的“世界模型”，无法预测真实世界

LLM 的“建模”是“模仿人类的世界模型”，而非“建立自己的世界模型” ：
- 目前大家认为 LLM 能通过学习海量文本建立世界模型，但 Sutton 反驳称，LLM 只是模仿“拥有世界模型的人类”的语言表达，并非自己建立对世界的认知
真正的世界模型需“预测真实世界的发生”，LLM 仅能“预测人类会说什么” ：
- 一个有效的世界模型应能预测“未来世界会发生什么”，但 LLM 只能预测“给定情境下人类会说什么”，无法关联真实世界的因果与变化
- 问题：人类的回答就是人类对世界因果的一个观测吧

第二：LLM 没有“实质性目标”，而“有目标”是智能的前提

Sutton 引用 John McCarthy 对智能的定义：“智能是达成目标的计算能力”，并据此否定 LLM 的智能属性：
LLM 的“Next Token Prediction”不是“实质性目标” ：
- 外界认为“Next Token Prediction”是 LLM 的目标，但 Sutton 指出，这个“目标”无法改变世界；预测 token 的过程不会对真实世界产生任何影响，也不会因预测结果的对错调整自身（例如预测用户回应后，即使实际回应与预测不符，LLM 也不会“惊讶”或修正）
无目标则无“对错/优劣”判断 ：
- 目标是判断行为“正确与否”的前提（如 RL 中“获得奖励的行为是正确的”），但 LLM 没有目标，因此其生成的文本没有“对错之分”
- 一句话和另一句话仅存在“是否符合人类语言模式”的差异，不存在“是否对世界有意义”的判断

第三：LLM 缺乏“反馈依据（ground truth）”，无法实现持续学习

持续学习需要“ground truth 验证”，LLM 无此基础 ：
- 智能的核心是“持续学习”，而持续学习依赖“行动-反馈”闭环，通过 ground truth（真实反馈）验证行为对错，进而修正认知
- 例如 RL 中，“奖励”就是 ground truth，能判断“这个动作是否正确”；但 LLM 生成文本后，没有任何客观标准（ground truth）判断“这句话是否正确”，因为“正确的言论”本身没有定义（世间无绝对正确的语言表达）
无 ground truth 则无“先验知识” ：
- 外界认为 LLM 可提供“先验知识”，为后续经验学习打基础，但 Sutton 反驳称，先验知识必须基于“实际知识”（有 ground truth 验证的知识），而 LLM 中没有“实际知识”的定义（无法判断什么是“对的知识”），因此其所谓的“先验”只是无依据的模仿，无法支撑后续学习
- 问题：人类的语言中包含大量的知识吧？

第四：LLM 不符合“The Bitter Lesson”，缺乏长期可扩展性

Sutton 在 2019 年提出的“The Bitter Lesson”是 AI 领域的核心观点：
- 长期来看，“利用大规模计算+经验学习”的方法，终将超越“依赖人类知识”的方法
- 但此刻的 Sutton 认为 LLM 虽看似符合“大规模计算”，但本质仍依赖“人类知识”，最终会因“困于人类知识”失去可扩展性
LLM 是“人类知识驱动”，而非“经验驱动” ：
- LLM 的核心是学习互联网中的人类已有知识（文本），性能提升依赖“注入更多人类知识”；
- 真正可扩展的智能系统应是“经验驱动”，无需人类知识灌输，通过与世界的交互自主获取经验
“人类知识驱动”终将被“经验驱动”超越 ：
- Sutton 指出，历史上所有依赖人类知识的 AI 方法（如早期专家系统），最终都会被“不依赖人类知识、仅靠经验+计算”的方法超越（即“The Bitter Lesson”）
- LLM 虽当前表现出色 ，但长期会因“受限于人类知识的边界”，被能自主从经验中学习的 RL 系统取代；且实践中，人们容易困于 LLM 的短期效果，难以转向更可扩展的经验学习路径

其他：关于 LLM 在数学上为什么能成功

外界认为 LLM 可通过 RL 赋予目标（如“正确解数学题”，甚至能获 IMO 金牌），可扩展到其他领域，但 Sutton 区分了“数学问题”与“真实世界问题”的差异
数学问题是“封闭的计算/规划任务”，目标清晰且无需与真实世界交互 ：
- 解数学题的核心是“演绎推理、找到证明”，目标（“得出正确答案”）明确，且过程无需接触真实世界，仅需文本层面的逻辑计算；
理解：Sutton 认为真实世界问题是“开放的经验学习任务”，需与世界交互获取反馈，即使 LLM 在数学上成功，也不能代表在开放世界问题上也能成功

Sutton 的结论：真正可扩展的智能路径——从“经验学习”出发，而非依赖 LLM

Sutton 最终强调，实现真正可扩展的智能，必须回归“经验学习”的核心逻辑：
第一：有目标
- 给智能体一个目标（类似强化学习的奖励）
第二：从经验中学习：
- 不断尝试，不断观察，积累经验
LLM 试图在没有目标或优劣判断的情况下运作，是一个死胡同
问题：LLM 也可以被赋予目标啊，只是预训练和 SFT 时没有而已，RL 时是有目标的

附录：The Bitter Lesson

原始链接：The Bitter Lesson, Rich Sutton, 20190313
核心：不应该让模型学到人类知识，而应该让模型学到学习知识的元技能

The Bitter Lesson 原文翻译

从70年的人工智能研究中可以汲取的最大教训是：利用计算能力的一般方法最终是最有效的，而且优势巨大
- 其根本原因在于摩尔定律，或者更概括地说，在于每单位计算成本持续指数级下降的趋势
- 大多数人工智能研究都是在假设智能体可用的计算能力恒定不变的前提下进行的（在这种情况下，利用人类知识将是提高性能的唯一途径之一）
  - 但是，略长于一个典型研究项目的时间跨度内，大规模的计算能力不可避免地会变得可用
为了寻求在短期内能产生效果的改进，研究人员试图利用他们对该领域的人类知识，但从长远来看，唯一重要的是对计算能力的利用
- 这两者未必相互对立，但在实践中往往如此：花在一种方法上的时间，就不能用于另一种方法
- 研究人员会对某种方法产生心理上的投入和承诺
  - 而基于人类知识的方法往往会使方法变得复杂，从而使其不太适合利用那些依赖计算能力的一般方法
  - 人工智能研究者们迟迟才认识到这个苦涩教训的例子有很多，回顾其中一些最突出的例子是具有启发意义的
在计算机国际象棋领域，1997年击败世界冠军卡斯帕罗夫的方法是基于大规模、深度的搜索
- 当时，大多数计算机国际象棋研究者对此感到沮丧，他们一直致力于利用人类对国际象棋特殊结构的理解的方法
- 当一种更简单、基于搜索并配有特殊硬件和软件的方法被证明远比前者更有效时，这些基于人类知识的国际象棋研究者们表现得不够有风度
- 他们说”暴力”搜索这次可能赢了，但这不是一个通用策略，而且这也不是人类下棋的方式
- 这些研究者希望基于人类输入的方法获胜，当结果不如愿时，他们感到失望
在计算机围棋领域，也出现了类似的研究进展模式，只是推迟了大约20年
- 最初的大量努力都投入到通过利用人类知识或游戏的特性来避免搜索，但一旦搜索被有效地大规模应用，所有这些努力都被证明是无关紧要的，甚至适得其反
  - 同样重要的是，通过自我对弈学习来学习价值函数（这在许多其他游戏中也是如此，甚至在国际象棋中也不例外，尽管学习在1997年首次击败世界冠军的程序中并未扮演重要角色）
- 自我对弈学习，以及广义的学习，就像搜索一样，使得大规模计算能够被应用
  - 搜索和学习是在人工智能研究中利用海量计算的两个最重要的技术类别
- 在计算机围棋中，与计算机国际象棋一样，研究人员最初的努力方向是利用人类理解（以便减少搜索需求），直到很久以后，通过拥抱搜索和学习才取得了更大的成功
在语音识别领域，1970 年代 DARPA 赞助了一场早期竞赛
- 参赛者使用了大量利用人类知识的特殊方法（关于词汇、音素、人类声道等的知识）
  - 另一种方法是更新的方法，这些方法本质上是更基于统计的，并且进行了更多的计算，基于隐马尔可夫模型
  - 结果，统计方法再次战胜了基于人类知识的方法
- 这导致整个自然语言处理领域发生了重大转变，在几十年的时间里逐渐演变，统计和计算开始主导该领域
  - 近期深度学习在语音识别中的崛起是沿着这一致方向的最新一步
  - 深度学习方法更少地依赖人类知识，并使用更多的计算，结合在巨大训练集上的学习，产生了显著更好的语音识别系统
- 如同在游戏中一样，研究人员总是试图让系统按照他们认为自己思维方式工作（他们试图将那些知识放入系统中），但最终证明这是适得其反的，并且是研究人员时间的巨大浪费，因为当通过摩尔定律，大规模计算变得可用，并且找到了有效利用它的方法时
在计算机视觉领域，也存在类似的模式
- 早期的方法将视觉构想为搜索边缘、广义圆柱体，或是基于 SIFT 特征
- 但今天，所有这些都被抛弃了，现代的深度学习神经网络仅使用卷积和某些不变性的概念，并且表现要好得多
这是一个重大的教训
- 作为一个领域，我们仍未彻底吸取这个教训，因为我们仍在继续犯同类型的错误
- 要认识到这一点并有效抵制它，我们必须理解这些错误的吸引力所在
- 我们必须吸取这个The Bitter Lesson：将我们自认为的思维方式构建到系统中，从长远来看是行不通的
- 这个The Bitter Lesson基于历史观察：
  - 1）人工智能研究者常常试图将知识构建到他们的智能体中；
  - 2）这在短期内总是有效的，并且能让研究者个人感到满足；
  - 3）但从长远来看，它会停滞不前，甚至阻碍进一步的发展；
  - 4）突破性的进展最终来自一种相反的方法，该方法基于通过搜索和学习来扩展计算规模
  - 最终的成功带有一丝苦涩，并且常常未被完全理解消化，因为这是对备受青睐的、以人类为中心的方法的胜利
从 The Bitter Lesson 中应该学到的一点是通用方法的巨大力量，是那些即使可用计算量变得非常巨大时，仍能随着计算量增加而持续扩展的方法
- 似乎能以这种方式无限扩展的两种方法是搜索和学习
从 The Bitter Lesson 中应该学到的第二个普遍要点是：思维的实际内容是极其复杂、无法简化的；
- 我们应该停止试图寻找思考思维内容的简单方法，例如思考空间、物体、多智能体或对称性的简单方式
  - 所有这些都是任意的、内在复杂的外部世界的一部分
  - 它们不应该是被内置的东西，因为它们的复杂性是无穷无尽的；
- 相反，我们应该只内置那些能够发现并捕捉这种任意复杂性的元方法
- 这些方法的关键在于它们能够找到良好的近似解，但对这些近似解的搜索应该由我们的方法来完成，而不是由我们亲自完成
- 我们需要的是能够像我们一样进行发现的人工智能体，而不是包含了我们已经发现的知识的智能体
- 将我们的发现内置其中，只会让我们更难看清发现过程本身是如何实现的