NLP——MemRL

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory, 20260106, SJTU & Xidian University & NUS & Shanghai Innovation Institute & MemTensor(Shanghai)

Paper Summary

解读说明：
- 论文是实验室师兄的论文，提出了一种很 makesense 的方案，将传统 RL 中的 Q-Learning 思路放到了 LLM 的记忆上来
- 论文使用了类似 Q-Learning 的方案，且使用非参数的方式建模 Q 值（类似于动态 Q 值表格的概念）
- Q 值的更新方式重点看 4.3 节
- 整体流程可见 4.5.1，图 4
背景介绍：
- 人类智能的标志在于通过 建构式情景模拟(Constructive Episodic Simulation)
- 即检索过去经验以合成新任务解决方案，来掌握新技能的能力
问题提出：
- 虽然LLM 具备强大的推理能力，但它们难以模仿这种自我演化（emulate this self-evolution）
- 微调计算成本高昂且容易导致灾难性遗忘，而现有的基于记忆的方法（memory-based methods）依赖被动的语义匹配（passive semantic matching），常常检索到噪声
论文提出了一个能够让智能体通过在情景记忆上进行非参数强化学习来实现自我演化的框架：MemRL
- MemRL 明确地将冻结大语言模型（frozen LLM）的稳定推理与可塑的、演化的记忆分离开来
- 与传统方法不同， MemRL 采用一种两阶段检索机制(Two-Phase Retrieval)
  - 先通过语义相关性筛选候选记忆，然后基于学习到的 Q 值（效用）进行选择
- 这些效用值通过试错方式从环境反馈中持续优化，使得智能体能够区分高价值策略与相似噪声
在 HLE、BigCodeBench、ALFWorld 和 Lifelong Agent Bench 上的大量实验表明， MemRL 显著优于现有最先进的基线方法
论文的分析实验证实， MemRL 有效调和了 稳定性-可塑性困境(stability-plasticity dilemma) ，实现了无需权重更新的持续运行时改进
图 1： MemRL 的基准运行时学习性能
- 论文将 MemRL 与最先进的记忆基线方法 (MemP) 和标准检索方法 (RAG) 进行对比
- MemRL 持续优于各种基线，证明了运行时效用驱动更新的有效性

Introduction and Discussion

人类智能的标志在于认知推理的稳定性(stability) 与情景记忆的可塑性(plasticity) 之间的微妙平衡 (Grossberg, 2013; 1995; 2016)
- 这是一种被称为建构式情景模拟(Constructive Episodic Simulation) 的机制
- 它允许在不重新连接神经回路的情况下进行适应 (2007; 2007; 2012; 1980)
虽然 LLM 展现出令人印象深刻的推理能力，但现有范式难以模仿这种动态的、解耦的自我演化 (2022; 2022; 2023; 2023)
- 一方面，微调方法试图通过修改模型权重来内化经验 (2022; 2020; 2023; 2024)，但通常容易遭受灾难性遗忘和高昂的计算成本 (2017; 2024; 2024)
- 另一方面，检索增强生成(Retrieval-Augmented Generation, RAG) (2020) 提供了一种非参数的替代方案，但其根本上是被动的；
  - RAG 仅基于语义相似性检索信息，而不评估其实际效用 (2020; 2023)
- 由于缺乏一种机制来区分高价值的过去策略与相似噪声，当前的 RAG 智能体难以有效地从运行时反馈中学习以随时间优化其性能
这一限制突显了一个关键的研究问题：
- 如何能让一个智能体在部署后持续改进其性能，同时不损害其预训练 Backbone Model 的稳定性？
- 论文的目标是实现一个能随着持续使用而演化，并在部署后快速适应新任务的智能体，这被称为运行时持续学习(Runtime Continuous Learning) (2023; 2025; 2019; 2024)，同时保持 Backbone Model 冻结以防止灾难性遗忘 (2017; 2025)
为应对这一挑战，受人类建构式模拟认知机制的启发，论文提出了 MemRL
- 这是一个通过显式解耦模型稳定的认知推理与动态的情景记忆来促进自我演化智能体的框架
图 2 展示了论文提出的 MemRL 的概念框架
- 借鉴强化学习 (Reinforcement Learning, RL) 中估计预期经验效用的值迭代方法 (2018)，论文将冻结大语言模型与外部记忆之间的交互形式化为一个马尔可夫决策过程(Markov Decision Process, MDP) (Puterman, 2014)
- 与优化 Backbone Model 权重的方法不同， MemRL 优化记忆使用策略以最大化预期效用
MemRL 将记忆组织成结构化的意图-经验-效用三元组(Intent-Experience-Utility triplet)
- 这种结构将检索从一个被动的语义匹配任务转变为一个主动的决策过程：
  - 值感知检索(Value-Aware Retrieval) 根据学习到的 Q 值选择经验，反映预期效用而非仅仅语义相似性 (1992)；
  - 效用驱动更新(Utility-Driven Update) 通过环境反馈和贝尔曼备份 (Bellman backup) (Bellman, 1966) 来优化这些 Q 值
- 这个闭环循环使智能体能够区分高价值策略与相似噪声，有效地从成功和失败中学习，而无需承担与权重更新相关的计算成本或灾难性遗忘风险
论文在四个不同的基准测试上验证了 MemRL
- 包括 HLE、BigCodeBench、ALFWorld 和 Lifelong Agent Bench
论文的结果表明其始终优于基线方法，在探索密集的环境中实现了相对改进
- 论文的深入分析揭示了学习到的效用与任务成功之间存在强相关性，进一步证实了 MemRL 的有效性
In Summary，论文的贡献有三方面：
- 论文提出了一种基于模型-记忆解耦(Model-Memory decoupling) 和意图-经验-效用三元组(Intent-Experience-Utility triplet) 的运行时学习框架
  - 它通过使智能体无需参数更新即可学习，从而调和了 Stability-plasticity 困境
- 论文引入了 MemRL ，一种实现值感知检索(Value-Aware Retrieval) 和效用驱动记忆管理(Utility-Driven Memory Curation) 的非参数强化学习算法
  - 这使得智能体能够通过优化记忆效用来自我演化，建立了一种增强智能体能力的新范式
- 论文进行了广泛的评估，并提供了对 MemRL 工作机制的深入洞察
  - 论文分析了它如何确保复杂任务中的结构完整性，并通过贝尔曼收缩 (Bellman contraction) 从理论上证实了其稳定性，探索了效用驱动更新如何最小化灾难性遗忘同时最大化正向迁移 (positive transfer)

Problem Formulation

在本节中，论文正式定义记忆增强生成的问题，并建立智能体策略与记忆检索之间的理论联系
论文采用基于记忆的马尔可夫决策过程(Memory-Based Markov Decision Process, M-MDP) (2025) 的形式化定义，并用论文的非参数强化学习框架来解决它
图 3 提供了一个记忆增强决策过程的示例，展示了检索结果和记忆演化如何随时间步骤展开
图 3：马尔可夫决策过程中记忆增强决策的示例
- 在时间步 $t$：智能体以初始记忆集 $\mathcal{M}_t$ 开始
- 在时间步 $t + 1$
  - 意图 A 检索相关的过去经验，但最初导致生成失败
  - 意图 B 成功，其相关经验被添加到记忆中
- 在时间步 $t + 2$ ，意图 A 从意图 B 检索新存储的成功经验，resulting in 成功的结果
- 这个例子展示了记忆检索如何实现跨意图的知识重用，通过共享经验隐式支持跨任务迁移

Memory-Augmented Agent Policy

为了使智能体能够自我演化，论文继承 M-MDP 作为问题形式化 (2025)
M-MDP 被正式定义为一个元组
$$ \langle S, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma , \mathcal{M} \rangle$$
- 其中：
  - $S$ 表示状态空间
  - $\mathcal{A}$ 表示 Action 空间
  - $\mathcal{P}: S \times \mathcal{A} \to \mathbb{R}$ 表示转移动态
  - $\mathcal{R}: S \times \mathcal{A} \to \mathbb{R}$ 表示奖励函数
  - $\gamma \in [0, 1)$ 表示折扣因子
  - $\mathcal{M} = (S \times \mathcal{A} \times \mathbb{R})^*$ 表示包含过去经验的演化记忆空间 (2025)
- 在此 Setting 中，策略 $\pi$ 不仅生成 token，而且首先根据检索分布 $\mu (\cdot |s,M)$ 选择一个记忆上下文 $m$ ，允许智能体利用历史数据在下游任务中获得更好的性能
论文考虑一个通用智能体在离散时间步上与环境或用户交互
- 在每个时间步 $t$ ，智能体接收一个状态 $s_t$ （例如用户 Query 或任务描述），并可以访问外部 Memory Bank $\mathcal{M}$
- 智能体的目标是生成一个响应 $y_t$ 以最大化奖励信号
- 遵循此形式化，记忆增强智能体的行为可以分为两个不同的阶段：检索(Retrieve) 和生成(Generation)
联合策略 $\pi (y_t|s_t,\mathcal{M}_t)$ 被定义为所有可能检索到的记忆项上的边际概率(marginal probability) (2025)：
$$\pi (y_t|s_t,\mathcal{M}_t) = \sum_{m\in \mathcal{M}_t}\underbrace{\mu(m|s_t,\mathcal{M}_t)}_{\text{Retrieval Policy} }\cdot \underbrace{p_{\text{LLM} }(y_t|s_t,m)}_{\text{Inference Policy} } \tag{1}$$
- 注：这里的 $\mathcal{M}_t$ 指的是时间步 $t$ 时的 Memory Bank
- $\mu (m|s_t,\mathcal{M}_t)$ 表示检索策略(Retrieval Policy) ，它根据当前状态 $s_t$ 从 Memory Bank $\mathcal{M}_t$ 中为选择特定记忆上下文 $m$ （由过去的意图和经验组成）分配概率
- $p_{\text{LLM} }(y_t|s_t,m)$ 表示推理策略(Inference Policy) ，通常由一个冻结的大语言模型参数化。它模拟了在给定 Query $s_t$ 和检索到的上下文 $m$ 的条件下生成输出 $y_t$ 的可能性
在之前的 RAG 或基于记忆的智能体范式中，检索策略 $\mu$ 通常由固定的向量相似性度量决定，例如嵌入向量的余弦相似度
- 虽然对于语义匹配有效，但此类策略未能考虑记忆的效用，即检索(retrieving) $m$ 是否真正导致成功的结果 $y_t$

Non-Parametric RL

为了克服静态 Similarity-based 检索的局限性，论文通过将记忆检索形式化为一个 Value-based 决策过程来操作 M-MDP 框架
与通过权重更新优化 $\pi_{\text{LLM} }$ 的参数化方法不同，论文的目标是直接在记忆空间内优化检索策略 $\mu (m|s,M)$
论文将抽象的 M-MDP 组件映射到一个特定的意图-经验-效用结构：

From Semantic Matching to Decision Making

论文将状态 $s$ 实例化为用户意图(User Intent) ，由当前 Query 的嵌入表示封装（encapsulated by the embedding of the current query） (2020)
因此， Action 空间 $\mathcal{A}_t$ 变得动态且离散，对应于从当前 Memory Bank $\mathcal{M}_t$ 中选择特定的 $m$
- 注意：这里说的是 Action 空间是离散的（且动态变化的），状态空间是 Embedding，理论上是连续的，空间无限
- 问题：Embedding 是连续的吧？状态空间是否过大了？
在此形式化下，从记忆中检索不再是一个被动的匹配任务，而是一个主动的 Action $a_t = m$ ，用于增强生成器 (2025)

Defining Utility via Q-Values

论文框架的核心是从估计语义相关性转向估计功能效用
论文将 State-Action 值函数 $Q(s,m)$ 定义为对与 $s$ 相似的意图应用检索到的上下文 $m$ 的预期效用
- MemRL 的目标是学习一个最优的检索策略 $\mu^*$ ，该策略选择最大化此预期效用的上下文：
  $$\mu^{*}(m|s,M) = \arg \max_{m\in \mathcal{M} }Q(s,m) \tag{2}$$
- 这个 Q 值充当一个 Critic ，区分高价值策略与可能具有高语义相似性的不相关噪声

Non-Parametric Learning

由于在论文的 Setting 中，检索策略 $\mu$ 的 Action 空间与大语言模型的生成空间解耦，我们可以在不修改大语言模型权重的情况下进行学习
在接收到环境反馈 $r$ （例如执行成功）后，我们可以使用时序差分 (Temporal-Difference, TD) 误差 (Sutton, 1988) 来更新检索到的记忆上下文的 Q 值：
$$Q(s,m)\gets Q(s,m) + \alpha [r + \gamma \max Q(s’,m’) - Q(s,m)] \tag{3}$$
- 其中 $\alpha$ 是学习率
- 这种贝尔曼式 (Bellman-style) 备份允许效用估计随时间收敛到真实的预期回报 (Bellman, 1966)
- 通过在记忆结构中显式地维护和更新这些 Q 值， MemRL 提供了一种具有理论保证的非参数学习方式，使智能体能够通过交互自我演化其能力
- 问题：状态空间无穷大的情况下，不能使用 TD-Error 更新吧

MemRL

基于第 3 节定义的 M-MDP 公式，论文提出了 MemRL，一个使冻结的 LLM 能够通过非参数强化学习进行自我演进的框架
MemRL 不修改模型权重 $\theta$，而是在演进的记忆空间内优化检索策略 $\mu (m|s, \mathcal{M})$
如图 4 所示，该框架由三个核心组件组成：
- (i) 一个结构化的意图-经验-效用 Memory Bank
- (ii) 一个将语义召回与价值感知选择解耦的两阶段检索机制
- (iii) 一个稳定 Q 值估计的运行时效用更新规则
图 4：MemRL 框架概览
- （Top）端到端学习循环：给定 Query $s$，智能体从记忆 $\mathcal{M}$ 中检索上下文 $\mathbf{m}_{c t x}$ ，生成输出 $y$，并基于奖励 $R$ 更新记忆值 $Q$
- （Bottom Left）两阶段检索：候选者通过相似性被召回，然后使用学习到的 Q 值重新排序
- （Bottom Right）效用更新：记忆值 $Q$ 使用环境奖励进行更新，以区分功能效用和语义相似性

Memory Structure: The Intent-Experience-Utility Triplet

为了支持 Value-based 决策，论文将外部记忆 $\mathcal{M}$ 结构化为不仅仅是键值对，而是一组三元组：
$$
\mathcal{M} = \{(z_i,e_i,Q_i)\}_{i = 1}^{|\mathcal{M}|}, \tag{4}
$$
- $z_{i}$ 代表意图嵌入（Intent Embedding）（例如， Query 或任务描述的向量表示）
- $e_{i}$ 存储原始经验（Experience）（例如，成功的解决方案轨迹）
- $Q_{i} \equiv Q(z_{i}, e_{i})$ 表示习得的效用（Utility）
- $Q_{i}$ 近似于将经验 $e_{i}$ 应用于与 $z_{i}$ 相似的意图的预期回报，在 RL 公式中充当 Critic
  - 理解：这里强调是相似意图，不是意图本身，蕴含了后续是基于相似度来检索意图的（类似 RAG）

Two-Phase Retrieval: From Semantic Recall to Value-Aware Seletion

标准的 RAG 或记忆系统仅依赖于语义相似性，隐含地假设“相似意味着有用”
- 但在智能体任务中，语义相关的上下文可能编码了脆弱、特定于环境的例程，无法泛化 (2025; 2024; 2024; 2024)
为了解决这个问题，MemRL 实施了一种两阶段检索策略，首先通过相关性过滤候选，然后再通过效用过滤

Phase A: Similarity-Based Recall

给定当前 Query 状态 $s$，论文首先隔离(isolate)一个语义一致的经验候选池 $C(s)$，以确保检索在上下文上是相关的
具体方法是计算余弦相似度 $sim(s,z_i)$ 并过滤 Memory Bank ：
$$
\mathcal{C}(s) = \text{TopK}_{k_1}(\{i|sim(s,z_i) > \delta \} ,\text{by}sim) \tag{5}
$$
- 其中 $\delta$ 是一个稀疏度阈值
- 此阶段充当粗过滤器，将搜索空间从整个记忆 $\mathcal{M}$ 缩小到相关子集 $\mathcal{C}(s)$
- 值得注意的是，如果 $\mathcal{C}(s) = \emptyset$， MemRL 不注入任何记忆，仅依赖冻结的 LLM 进行更广泛的探索

Phase B: Value-Aware Selection

为了从 $\mathcal{C}(s)$ 中选择最优上下文，论文纳入了习得的效用 $Q$
论文定义了一个复合评分函数，以平衡探索（通过语义匹配）和利用（通过高效用历史）：
$$
\text{score}(s,z_i,e_i) = (1 - \lambda)\cdot \hat{sim}(s,z_i) + \lambda \cdot \hat{Q}(z_i,e_i) \tag{6}
$$
- Remind：
  - $z_{i}$ 代表 Intent Embedding ，即之前已经存储下来的意图
  - $e_{i}$ 存储原始 Experience ，即待检索的候选 Memory
- 其中 $\hat{\cdot}$ 表示在候选池内进行 z-score 归一化，$\lambda \in [0,1]$ 调节权衡
  - 当 $\lambda \rightarrow 1$ 时，策略优先考虑已验证的效用；
  - 当 $\lambda \rightarrow 0$ 时，它恢复到标准的 Similarity-based 检索
- 最终的上下文 $\mathcal{M}_{ctx}(s)$ 由最大化此分数的前 $k_{2}$ 项组成：
  $$
  \mathcal{M}_{ctx}(s) = \text{TopK}_{k_2}(\mathcal{C}(s),\text{by score}). \tag{7}
  $$
- 这种机制有效地过滤掉了“干扰性”记忆，那些语义相似但历史上产生低回报（低 Q 值）的记忆
论文将在第 5.3.3 节进一步验证归一化和相似度阈值的必要性，证明 z-score 归一化和严格的相似度阈值对于过滤噪声和在自我演进过程中保持低遗忘率至关重要

Runtime Learning： Non-Parametric RL on Memory

MemRL 的核心是基于环境反馈持续改进 Q 值，使智能体能够“记住”有效的方法
在运行时， MemRL 完全在记忆空间中进行学习
重点1：奖励信号获取：
- 完成一项任务后，智能体收到 环境奖励信号 $r$（例如，执行成功、用户反馈或标量任务分数）
重点2：对于已有记忆的价值更新：
- 对于实际注入到上下文 $\mathcal{M}_{ctx}(s)$ 中的记忆 ，论文使用蒙特卡洛风格的规则更新其三元组中的效用：
  $$
  Q_{\text{new} }\leftarrow Q_{\text{old} } + \alpha \big(r - Q_{\text{old} }\big). \tag{8}
  $$
  - 理解：上面式子的更新是针对已有（被检索出来）的 Memory 的
  - 通过将 $s’$ 设为终止状态，公式 8 作为公式 3 的自然简化版本，与 (2025) 共享相似的单步 MDP 公式
  - 此更新驱动 $Q_{\text{new} }$ 趋近于在相似意图下使用经验 $e_i$ 的经验预期回报
重点3：对于新采样轨迹的添加：
- 对于每个采样的轨迹，论文使用 LLM 来总结经验 （理解：经验是通过 LLM 总结出来的，不是原始的 Rollout）
- 将其作为新的三元组 $(z(s),e_{\text{new} },Q_{\text{init} })$ 写回 Memory Bank ，从而在不断扩展经验的同时保持 LLM 参数不变
  - 注：这里的 $z(s)$ 表示从 $s$ 中提出取来的意图

Cognitive Interpretation

MemRL 提供了建构性情景模拟的算法类比 (2007)
- 阶段 A 通过回忆语义相似的过去事件来实施类比迁移 (1983)
- 阶段 B 类似于心理预演 (2004)，通过使用习得的效用估计在回忆的候选中进行选择，有效地倾向于预期带来更高回报的策略
最后，公式 8 实现了一种记忆再巩固形式 (2016)：
- 一旦记忆被检索和应用，其效用会根据后续结果得到强化或减弱
这些组件共同实现了 Stability-plasticity 平衡：
- 冻结的 LLM 保持稳定的认知推理，而演进的记忆效用则为持续适应提供了可塑性的渠道

Stability Analysis

论文从强化学习的角度分析 MemRL 的稳定性，重点关注存储在记忆中的效用估计的收敛行为
与经典的值迭代不同， MemRL 使用恒定步长更新进行非参数运行时学习
论文表明，在温和且现实的假设下，习得的效用值在期望上收敛于记忆有效性的稳定估计，且方差有界

Setup

在每个时间步 $t$，智能体观察一个意图状态 $s_{t}$，检索一个记忆项 $m_{t} \in \mathcal{M}_{t}$，生成一个输出 $y_{t}$，并接收一个标量奖励 $r_{t} \in [- 1,1]$ 指示任务成功或失败
- 生成策略遵循公式 1 中定义的分解，其中 $\mu$ 表示检索策略，$p_{\text{LLM} }$ 是冻结的推理策略
对于每个检索到的记忆， MemRL 使用公式 8 中表述的指数移动平均规则更新其效用，学习率为 $\alpha \in (0,1]$
为了分析清晰，论文考虑一个固定的状态-记忆对 $(s,m)$ 并记 $Q_{t} \equiv Q_{t}(s,m)$

Stationary Reward Assumption

论文在固定数据集上分析学习过程，并提出两个确保环境稳定性的关键条件：
- 1）冻结推理策略（Frozen Inference Policy） ：$p_{\text{LLM} }(y|s,m)$ 的参数和评估器的标准是固定的
- 2）固定任务分布（Fixed Task Distribution） ：任务 $s$ 是从一个固定数据集的平稳分布中抽取的
这些假设保证了学习目标是明确定义的：任何特定任务-记忆对（specific task-memory pair）的预期奖励是时不变的（time-invariant）
因此，论文有：
$$
\mathbb{E}{[r_t|s_t = s,\mathcal{M}_t = m]} = \beta (s,m). \tag{9}
$$

Expected Convergence of Utility Estimates

Theorem 1

令 $\{Q_{t}\}$ 根据公式 8 中的规则更新，恒定步长 $\alpha \in (0,1]$
如果公式 9 成立且对 $(s,m)$ 无限次更新，则：
$$
\lim_{t\to \infty}\mathbb{E}{[Q_t]} = \mathbb{E}{[r_t|s_t = s,\mathcal{M}_t = m]} = \beta (s,m). \tag{10}
$$
此外，收敛速率是指数级的：
$$
\mathbb{E}{[Q_t]} - \beta (s,m) = (1 - \alpha)^t (Q_0 - \beta (s,m)). \tag{11}
$$

Proof of Theorem 1

定义估计误差
$$ e_{t} \triangleq Q_{t} - \beta (s,m) $$
基于公式 8 的更新规则，误差递推关系为：
$$
e_{t + 1} = (1 - \alpha)e_{t} + \alpha (r_{t} - \beta (s,m)).
$$
给定 历史 $\mathcal{F}_{t}$ 的条件期望并利用公式 9，论文得到：
$$
\mathbb{E}{[e_{t + 1}|\mathcal{F}_t]} = (1 - \alpha)e_t.
$$
- 注：附录 A.1 中会提到，其中 $\mathcal{F}_{t}$ 定义为截至时间 $t$ 的 filtration (history)
取完全期望（full expectation）得：
$$
\mathbb{E}{[e_{t + 1}]} = (1 - \alpha)\mathbb{E}{[e_t]}.
$$
迭代递归得 $\mathbb{E}{[e_t]} = (1 - \alpha)^t e_0$，当 $t \to \infty$ 时收敛于零
论文在附录 A.1 中提供了收敛证明的详细推导

Bounded Variance and Stability

如果奖励方差 $\text{Var}(r_t|s,m) < \infty$，则 $Q_{t}$ 的方差保持有界：
$$
\lim_{t\to \infty}\text{Var}(Q_t)\leq \frac{\alpha}{2 - \alpha}\text{Var}(r_t|s,m). \tag{12}
$$
因此，恒定步长更新不会引起无界振荡；
- 相反，它们产生稳定的效用估计，这些估计跟踪预期的记忆有效性，同时过滤高频噪声
论文在附录 A.2 中明确推导了方差界限，以证明在任务聚类下估计量的全局稳定性

Global Stability via EM Convergence

局部估计（定理 1）的稳定性扩展到全局记忆效用 $Q(m)$。根据期望的线性性质，$Q(m)$ 充当蒙特卡洛积分器，力图收敛于：
$$
\lim_{t\to \infty}\mathbb{E}{[Q_t(m)]} = \mathbb{E}{[r|m]} = \sum_{s\in \mathcal{S}(m)}\frac{\mathbb{E}{[r|s,m]}}{\text{Stationary} }\frac{\text{Pr}(s|m)}{\text{Retr}\text{ive}\text{-}\text{Dep}\text{end}\text{ent} }. \tag{13}
$$
- 其中 $\mathcal{S}(m) \triangleq \{s \in \mathcal{S} | \text{sim}(s, z_m) \geq \tau_A \}$ 表示记忆 $m$ 的有效支持集，包含所有与记忆意图嵌入 $z_m$ 足够相似以满足阶段 A 检索准则的任务意图 $s$
这里出现了一个理论挑战：权重项 $\text{Pr}(s|m)$ 是一个由检索策略 $\mu (m|s; \mathcal{M})$ 支配的潜在变量，而该策略本身随着 $Q$ 值的演变而变化
- 为了证明尽管存在这种依赖关系仍然收敛，论文将 MemRL 分析为一个广义期望最大化过程 (1977; 1998)
- 从变分的角度来看，该系统在全局目标函数 $\mathcal{J}(Q, \mu)$（预期奖励的变分下界）上执行坐标上升：
  - (i) E 步（策略改进） ：阶段 B 的排序更新检索策略 $\mu$ 以与当前估计保持一致，相对于 $\mu$ 单调增加 $\mathcal{J}$；
  - (ii) M 步（值更新） ：效用更新（公式 8）相对于 $Q$ 增加 $\mathcal{J}$
- 根据单调改进定理 (1998)，这种交替优化保证了系统收敛到一个平稳点，在该点检索策略稳定 $(\mu_{t + 1} \approx \mu_t)$
  - 因此，诱导的分布 $\text{Pr}(s|m)$ 变得时不变，确保公式 13 成立，并通过将更新锚定在稳定策略上来有效防止灾难性遗忘
  - 更多细节可在附录 B 中找到

Experiments

Experimental Setup

Baselines

论文在统一的冻结主干模型设置（a unified frozen-backbone setting）下，将 MemRL 与一套全面的记忆增强基线方法进行比较，以分离出记忆机制的贡献：
- 1）RAG-based Approaches ：RAG (2020) 和 Self-RAG (2023)，分别代表标准的语义检索和基于批判的过滤
- 2）智能体记忆（Agentic Memory） ：MemO (2025) 和 MemP (2025)，它们引入了结构化的读/写操作或过程性记忆蒸馏
- 3）Test-Time Scaling： ：Pass@k 和 Reflexion (2023)，后者在 $ k $ 轮内应用迭代式的自我精炼

Benchmarks

论文在四个多样化的基准测试上评估 MemRL 和基线方法：
- 用于代码生成的 BigCodeBench (2025)
- 用于具身导航的 ALFWorld (2021)
- 用于操作系统/数据库交互的 Lifelong Agent Bench (2025)
- 用于多学科复杂推理的 Humanity’s Last Exam (HLE) (2025)
论文在两种不同的设置下评估论文的 MemRL 和基线方法：
- 运行时学习（Runtime Learning），评估在训练会话中学习和适应的能力；
- 迁移学习（Transferring），评估习得记忆在未见任务上的泛化能力

Runtime Learning Results

表 1 报告了超过10个训练周期的最终 Epoch 准确率（Last Epoch Accuracy）和累计成功率（Cumulative Success Rate, CSR）
- MemRL 在所有领域均持续优于所有基线方法
  - 这验证了非参数价值估计能够有效引导自我进化
- 价值感知检索（value-aware retrieval）的优势在 ALFWorld 这类探索密集型环境中最为显著
  - 在 ALFWorld 上，MemRL 取得了 0.507 的优异最终 Epoch 准确率，相对于 MemP（0.324）和“无记忆”基线（0.278）分别实现了约 56% 和 82% 的相对提升
  - ALFWorld 中高达 0.697 的 CSR 表明，RL 组件有效地鼓励了智能体去探索并发现复杂任务的解决方案，而 Similarity-based 检索方法通常无法解决这些任务
- 在具有挑战性的 Knowledge Frontier HLE 基准测试中，相较于 MemP 的 0.528，MemRL 将最终准确率提升至 0.573，其 CSR 甚至达到了惊人的 61.3%
将这些收益与 BigCodeBench 等单轮任务进行比较，揭示了一个重要趋势：性能提升与任务结构复杂性相关
MemRL 的优势在以深度探索和高过程可转移性（procedural transferability）为特征的环境中（例如 ALFWorld）最大化，而在结构复用较少的任务中，优势幅度则较窄
- 这表明我们的价值驱动机制特别擅长从探索轨迹（exploratory trajectories）中提炼并迁移复杂的问题解决模式
Overall，CSR 和最终准确率的同时提升表明，MemRL 不仅在探索过程中发现了高质量的解决方案，而且能够有效地保留和检索它们，以实现稳定的性能

Transferring Results

通过在训练后冻结记忆库并在保留集（30% split）上进行测试来评估记忆的可迁移性
如表 2 所示，与基线方法相比，MemRL 展现出更优异的泛化能力
- 在 BigCodeBench 上，MemRL 达到了 0.508 的最高准确率，优于 Self-RAG（0.500）和标准 MemP（0.494）等高级检索方法
- 在操作系统控制任务（Lifelong Agent Bench）中，MemRL 获得了 0.746 的准确率，相比标准 RAG 基线（0.713）有显著提升
- 与运行时结果一致，在 ALFWorld 中收益显著，MemRL 达到了 0.479，明显优于 MemP（0.421）和 RAG（0.336）
- 这些结果验证了 MemRL 中的价值感知检索（Value-Aware Retrieval）和非参数强化学习机制并不仅仅是过拟合训练实例；
  - instead，它过滤了低价值记忆，保留了高效用经验，从而促进了向未见任务的泛化

Ablations

Effectiveness of Runtime RL

为了分离出运行时强化学习的效果，论文在操作系统交互环境中，比较了带有和不带有强化学习组件（即 MemP 对比 MemRL 以及 RAG 对比 MemRL (RAG)）的记忆机制
图 5a 展示了成功率随训练轮次的变化情况
- 虽然强化学习增强（enhancement）在初始阶段带来的增益有限，但随着训练的进行，性能差异明显扩大
- MemRL 在后续轮次中持续优于原始的 MemP 基线，表现出更平滑的学习曲线和更少的性能回退
- 这种稳定性表明，强化学习驱动的价值函数有效缓解了噪声记忆的干扰，而噪声记忆常常困扰基于静态相似性的检索方法
论文进一步分析了图 5b 中的 CSR Cumulative Success Rate ，它衡量了智能体在训练过程中至少成功解决过一次不同任务的能力
- 在这里，强化学习的好处更加明显
- MemRL 和 MemRL (RAG) 最终达到的 CSR 分别优于其对应方法 MemP 和 RAG
- 图 5a 中性能差距的单调扩大表明，运行时强化学习显著增强了智能体从早期失败中恢复的能力
- 通过优先考虑具有高期望效用的记忆，智能体有效减轻了噪声记忆的干扰，并巩固了成功的经验，将短暂的探索转化为稳健、可重复的能力

Impact of Q-value Weighting

为了理解语义检索和强化学习之间的相互作用，论文分析了评分函数（即公式6）中 Q 值加权因子 $ \lambda $ 的影响：
- 论文将 平衡设置（balanced configuration） $ (\lambda = 0.5) $ 与两种极端情况进行比较：
  - 纯语义检索（pure semantic retrieval baseline） $ (\lambda = 0) $
  - 纯贪婪强化学习（pure RL setting） $ (\lambda = 1) $
如图 6 所示，平衡配置始终产生更优的性能
- 这表明语义基础 semantic grounding 和效用驱动排序 utility-driven ranking 的结合能有效地引导智能体找到高质量的解决方案，同时保持上下文相关性
  - 此外，纯语义检索基线提供了一个稳定的起点，但缺乏过滤语义相似但功能错误的次优记忆的机制
  - 因此，其性能很快进入平台期，这凸显了强化学习信号对于持续改进的必要性
- 另一方面，纯强化学习设置揭示了忽视语义上下文的风险，表现出显著的不稳定性和较差的初始性能
  - 论文将这种不稳定性归因于上下文脱离 context detachment ：
    - 在没有语义相似性约束的情况下，智能体可能会检索到与当前任务无关的高 $ Q $ 值记忆（在其他上下文下是成功的）
  - 这证实了语义相似性必须作为检索的锚点，而强化学习则为优化记忆选择提供了必要的梯度

Sensitivity to Retrieval size

为了研究记忆容量对推理性能的影响，论文在 HLE 基准测试的一个子集（计算机科学/人工智能类别）上进行了消融实验
论文比较了两种检索配置：
- 较大的召回设置（larger recall setting） $ (k_{1} = 10, k_{2} = 5) $
- 紧凑的召回设置（compact recall setting） $ (k_{1} = 5, k_{2} = 3) $
- 问题：这里的 $ (k_{1}, k_{2}) $ 分别代表论文两阶段检索的候选数量
如图 7 所示，与较大的设置相比，紧凑的设置 $ (k_{1} = 5, k_{2} = 3) $ 实现了更优的稳定性
- 这表明对于像 HLE 这样的复杂推理任务，单纯增加上下文容量可能会引入无关噪声，干扰模型的判断
- 因此，一个更小、更高质量的检索记忆集足以保持推理精度

Discussion

在本节中，论文更深入地探讨驱动 MemRL 性能的机制，将实证结果与第4节提出的 Stability-plasticity 框架联系起来

MemRL as a Trajectory Verifier

表 3 揭示了任务结构复杂性与性能增益之间的相关性
- 与单轮任务（例如 BigCodeBench $+2.5$ 个百分点）相比，增益在多步骤序列任务中最为显著（例如 ALFWorld $+24.1$ 个百分点）
- 在序列任务中，检索到的记忆必须对整个轨迹有效
- 标准的语义检索：通常会获取与初始指令匹配但后续步骤失败的记忆
- MemRL：通过将最终奖励反向传播到记忆效用 $ Q $， MemRL 有效地学习验证整个轨迹，过滤掉仅在表面上看起来正确的脆弱策略

Predictive Power of the Q-Critic

学习到的 Q 值是否真的反映了解决方案质量？
图 8a 显示了 Critic 估计的 Q 值与经验任务成功率之间存在强正相关（皮尔逊 $ r = 0.861 $）
- 成功率从最低置信度区间的 $ 21.5% $ 增加到最高区间的 $ 88.1% $
  - 这表明性能提升的主要驱动力是 Critic 根据记忆导致任务成功的可能性进行排序的能力
- 对记忆构成（图 8b）的进一步分析表明了增益的另一个来源：鲁棒性 robustness
- 即使在高 Q 值区间 (0.9-1.0)，智能体仍保留一小部分标记为“失败”的记忆（约 12%）
  - 这不仅不矛盾，反而符合以下解释：Q 值可以捕捉超越二元结果的效用：
  - 一些不成功的轨迹在战略上仍然有用，因为它们编码了接近正确的推理和可迁移的过程性经验
案例研究：一个高 Q 值“失败”记忆作为可迁移的接近成功（Case study: a high-Q “failure” memory as a transferable near-miss）
- 论文发现了一些高 Q 值的失败记忆，它们总结了一个局部的微小错误以及一个可跨任务泛化的校正启发式方法
- 这里论文用“接近成功” (near-miss) 表示大体正确但由于微小、局部错误（例如，验证疏忽或工具使用细节）而失败的轨迹
  - 例如，一个 $ Q = 0.9878 $ 的失败记忆对应一个遵循了正确方法但错误地将空命令输出视为失败证据的轨迹
  - 存储的反思明确指出了根本原因（误解空输出），警告了这种模式（将“无输出”等同于失败），并推荐了正确的方法（通过退出状态、错误日志或其他客观信号验证成功）
  - 在后续情境中检索时，这一条“失败”记忆在论文的日志中支持了完美的下游结果（15/15 成功），证明了该记忆之所以有价值，正是因为它捕捉到了一个可修复的接近成功，而非无信息的失败
Taken Together，这些结果表明，Critic 不仅仅是区分“成功”与“失败”，而是赋予那些提供可重用指导的记忆更高的价值
- 包括本质上属于“接近成功”的一部分高效用失败
- 通过保留和重用此类校正启发式方法，智能体可以比简单的成功重放机制更鲁棒

Stability of MemRL

论文通过 Stability-plasticity 困境的视角分析 MemRL 的底层机制，审视论文的框架如何平衡新能力的获取与已有知识的保留
卓越的 CSR（表1）表明 MemRL 有效地扩展了智能体的解决方案空间
与受静态相似性约束、常常检索导致重复失败的冗余最近邻的启发式基线不同，MemRL 允许智能体识别并强化不明显但有效的策略
- 这种能力使智能体能够突破传统检索方法停滞的局部最优
长期训练动态（图 9）揭示了一个关键的稳定性优势
- 像 MemP 这样的启发式方法，其 CSR 与当前轮次准确率之间的差距在扩大，表明新的探索无意中覆盖了有效的历史策略（灾难性遗忘）
- 相比之下，MemRL 保持了同步增长
  - 论文将此归因于论文的理论保证
  - 从广义 MDP 的角度（公式3），价值更新受益于标准的贝尔曼收缩性(Bellman contraction) ，$ | \mathcal{T}Q - Q^{*} |_{\infty} \leq \gamma | Q - Q^{*} |_{\infty} $ (2018)，每一步都将误差缩小 $ \gamma $
  - 更具体地说，在论文的蒙特卡洛式建模下（公式8），这个过程由第4.5节保证
  - 与可能随机漂移的启发式排序不同，论文的方法在数学上约束策略沿着期望奖励的变分下界攀升，确保了论文在实验中观察到的稳定、非递减的性能
论文进一步使用遗忘率(Forgetting Rate)（定义为在上一轮成功而在当前轮失败的任务比例，即成功 $ \rightarrow $ 失败）来验证这些见解
如图 10 所示，MemRL 实现了最低的平均遗忘率 (0.041)，优于基线 MemP (0.051)，并通过实验证实了论文的分析

The Necessity of Normalization and Similarity Gate

此外，图 10 也突出了论文稳定性设计的必要性：移除归一化并降低相似性阈值（无归一化/相似性阈门）会导致平均遗忘率飙升至 0.073，这是由于不受约束的效用方差造成的
这表明， z-score 归一化和严格的相似性阈门对于过滤噪声至关重要，确保自进化过程在最大化正向迁移的同时保持稳定

Impact of Similarity on Memory Efficacy（任务相似性对记忆效能的影响）

为了理解 MemRL 发挥作用的基本条件，论文分析了数据集内语义相似性 $ \text{Sim}_{\text{intra} } $ 与论文方法提供的绝对性能增益 $ \Delta = \text{Acc}_{\text{ MemRL } } - \text{Acc}_{\text{NoMem} } $ 之间的相关性
如图 11 所示，论文分析了数据集内语义相似性与 MemRL 提供的绝对性能增益 $ \Delta $ 之间的相关性
- 线性回归趋势显示出普遍的正相关性：具有更高结构重复性的环境允许智能体更有效地检索和重用最优策略
- At the upper extreme，ALFWorld（相似度 0.518）充当了这种趋势的强锚点，表现出最高的重复性和相应的最大性能提升 $ \Delta = +0.229 $
- 这证实了对于高度重复的过程性任务，记忆是通向最优轨迹的有效捷径
- 沿着回归线（Following the regression line），具有中等相似度的基准测试（例如 Lifelong-OS (0.390) 和 BigCodeBench (0.308)）聚集在中间区域，显示出稳定的改进 $ \Delta \approx +0.11 \sim +0.12 $，智能体成功地在相关指令间泛化了编码模式或操作系统命令

Generalization vs. Memorization

HLE 呈现了一个独特的异常值
- 尽管由于其多样化的多学科性质具有最低的相似度 (0.186)，但它却表现出惊人的高运行时增益（从 0.357 到 0.573，$ \Delta = +0.216 $）
- 这种增益的运作机制与 ALFWorld 不同
在高相似度基准测试中， MemRL 通过正向迁移（Positive Transfer），即将共享模式泛化到新实例中取得成功
- In Contrast，HLE 的增益源于运行时记忆化（Runtime Memorization）
- 由于 HLE 的问题具有独特性且领域特定，智能体依赖运行时学习阶段，通过反复接触来“记忆”针对困难问题的特定解决方案
- 这种区别凸显了 MemRL 的通用性：它既支持结构化领域的模式泛化，也支持多样化领域的特定知识获取

Conclusion

在论文中，论文介绍了 MemRL ，这是一个新颖的框架，它使大语言模型能够通过情景记忆上的非参数强化学习实现自进化
- 针对语义检索的局限性和参数微调的不稳定性， MemRL 将记忆检索视为一个 Value-based 决策过程
- 通过将记忆组织为意图-经验-效用三元组并应用贝尔曼更新，智能体学会了区分高价值策略和语义噪声，而无需修改主干模型的权重
- 论文在从代码生成到具身导航的多样化领域进行的广泛评估表明， MemRL 在运行时学习和向未见任务的泛化方面都显著优于现有的记忆增强基线
理论和实证分析进一步揭示， MemRL 有效地解决了 Stability-plasticity 困境：
- 冻结的大语言模型提供了稳健的推理能力，而进化的记忆效用则充当了适应的可塑性通道
Moreover，论文发现效用驱动的检索机制起到了轨迹 Verifier 的作用，使智能体能够在复杂、多步骤的任务中过滤掉脆弱的策略
- 作者希望这项工作为构建能够在稳定高效的方式下持续从交互中学习的自进化智能体奠定新的范式

Continous Learning

持续学习 (Continual learning) 处理 Stability-plasticity 困境，旨在顺序获取新知识而不遭受灾难性遗忘
- 经典方法（例如正则化、蒸馏和经验回放）通过约束参数更新或保留过去数据分布来缓解遗忘 (2017; 2017; 2017)
- 但这些参数化方法对于大语言模型来说计算成本高昂，并且通过频繁的在线更新有破坏预训练 Backbone 稳定性的风险
近期关于大语言模型持续学习的综述进一步系统化了这些困难，并强调了外部机制和非参数路径的重要性 (2024)
- 因此，从持续学习的角度来看，如果论文旨在让智能体在使用中改进同时保持 Backbone 的稳定性，一个更实用的方向是将可塑性从参数空间转移到外部结构和受控的经验更新通道

RL

强化学习已被广泛用于增强大语言模型
- 一个代表性范式是从人类反馈中构建奖励信号，并相应地优化模型策略以符合人类偏好 (2020; 2022)
其他近期方法利用基于规则的 Verifier 来改进大语言模型的推理能力 (2025; 2025)
同时，面向智能体的研究探索了交互信号如何改进工具使用和 Action 决策，并研究了语言模型在环境中执行复合 Action 的机制 (2023)
尽管奖励驱动的优化已被证明有效，但这些方法通常将学习置于模型参数或额外的参数化模块中，因此并未从根本上避免在线更新的成本或遗忘的风险
相比之下，论文的方法将记忆使用构建为一个可学习的决策问题，并对记忆应用非参数强化学习以规避该风险

Agentic Memory

为了绕过微调的成本，外部记忆系统已从静态的 RAG 范式发展为动态的、可治理的记忆结构 (2020; 2020)
- 早期的智能体记忆引入了反思机制和分层管理来处理长上下文经验 (2023; 2024)
- 更近期的框架系统化了记忆生命周期，专注于复杂任务的统一存储和结构化索引 (2025b; 2025; 2025; 2025)
Furthermore，自适应方法现在探索通过反馈驱动的更新或自动增强来改进检索 (2025; 2025; 2025a; 2025)
However，除了训练额外的可学习模块外，大多数现有方法仍然主要依赖语义相似性或启发式规则，缺乏严格的度量标准来评估记忆在最大化回报方面的实际效用
受记忆整合认知理论 (2007; 1980; 2000) 的启发， MemRL 通过将检索形式化为一个 Value-based 决策过程来弥合这一差距，直接从环境奖励中学习稳健的效用估计（Q 值）以区分高价值经验和噪声

附录 A：Theoretical Analysis And Proofs

在本节中，论文将详细推导在指数移动平均（Exponential Moving Average, EMA）更新规则下 Q 值估计的收敛性，并将分析扩展到任务分布下记忆效用（memory utility）的全局稳定性

A.1 定理 1 的证明：Convergence Of EMA Estimation

论文旨在证明，对于一个具有平稳奖励分布（stationary reward distribution）的固定任务-记忆对 $(s,m)$，Q 值估计 $Q_{t}(s,m)$ 的期望会收敛到真实的平均奖励 $\beta (s,m)$

Assumptions

平稳奖励（Stationary Reward）。步骤 $t$ 的奖励 $r_{t}$ 取自一个具有恒定均值 $\beta (s,m) = \mathbb{E}{[r_{t}|s,m]}$ 和有限方差 $\sigma^{2}$ 的分布
更新规则（Update Rule）。效用通过学习率 $\alpha \in (0,1)$ 的线性 EMA 规则更新：
$$Q_{t + 1} = (1 - \alpha)Q_{t} + \alpha r_{t}.$$

Derivation of Error Dynamics

令 $e_{t}\triangleq Q_{t} - \beta (s,m)$ 为时间步 $t$ 的估计误差。将 $Q_{t} = e_{t} + \beta (s,m)$ 代入更新规则：
$$\begin{array}{rl} & e_{t + 1} + \beta (s,m) = (1 - \alpha)(e_t + \beta (s,m)) + \alpha r_t\ & \qquad e_{t + 1} = (1 - \alpha)e_t + (1 - \alpha)\beta (s,m) + \alpha r_t - \beta (s,m)\ & \qquad e_{t + 1} = (1 - \alpha)e_t + \beta (s,m) - \alpha \beta (s,m) - \beta (s,m) + \alpha r_t\ & \qquad e_{t + 1} = (1 - \alpha)e_t + \alpha (r_t - \beta (s,m)). \end{array} \tag{14}$$

Convergence Analysis

论文将 $\mathcal{F}_{t}$ 定义为截至时间 $t$ 的过滤（历史）。对公式 14 取给定 $\mathcal{F}_{t}$ 的条件期望：
$$\mathbb{E}{[e_{t + 1}|\mathcal{F}_t]} = (1 - \alpha)e_t + \alpha (\underbrace{\mathbb{E}{[r_t|\mathcal{F}_t]}}_{\beta (s,m)} - \beta (s,m)) = (1 - \alpha)e_t.$$
根据迭代期望定律（Law of Iterated Expectations），取完全期望得到：
$$\mathbb{E}{[e_{t + 1}]} = \mathbb{E}{[\mathbb{E}{[e_{t + 1}|\mathcal{F}_t]}]} = (1 - \alpha)\mathbb{E}{[e_t]}.$$
从 $t = 0$ 开始迭代此递推关系：
$$\mathbb{E}{[e_t]} = (1 - \alpha)^t\mathbb{E}{[e_0]}.$$
由于 $0< \alpha < 1$，论文有 $|1 - \alpha |< 1$。因此：
$$\lim_{t\to \infty}\mathbb{E}{[e_t]} = \mathbb{E}{[e_0]}\cdot \lim_{t\to \infty}(1 - \alpha)^t = 0. \tag{15}$$
这证明了估计量在极限上是无偏的，即 $\lim_{t\to \infty}\mathbb{E}{[Q_t]} = \beta (s,m)$

A.2 Bounded Variance And Global Stability(有界方差与全局稳定性)

在本节中，论文将给出估计量 $Q_{t}$ 方差界限的形式化推导
论文通过递归展开（recursive unrolling）明确推导有限时间方差公式，并证明其渐近收敛性，展示 Phase-A 聚类如何有助于全局稳定性

Derivation of the Variance Bound

令 $\sigma^{2}\triangleq \text{Var}(r_{t}|s,m)$ 为奖励信号的方差，假设是有限的，EMA 更新规则为：
$$Q_{t + 1} = (1 - \alpha)Q_{t} + \alpha r_{t}.$$
由于奖励 $r_{t}$（当前噪声）在统计上独立于当前估计 $Q_{t}$（由历史 $\mathcal{F}_{t - 1}$ 决定），和的方差是方差的和：
$$\text{Var}(Q_{t + 1}) = \text{Var}((1 - \alpha)Q_t) + \text{Var}(\alpha r_t)$$ $$= (1 - \alpha)^2\text{Var}(Q_t) + \alpha^2\sigma^2.$$
令 $v_{t}\triangleq \text{Var}(Q_{t})$，论文得到一个线性递推关系
$$ v_{t + 1} = (1 - \alpha)^{2}v_{t} + \alpha^{2}\sigma^{2}$$

Recursive Unrolling

为了求解 $v_{t}$，论文将递推关系从步骤 $t$ 向后展开：
$$\begin{array}{l}{v_{t} = (1 - \alpha)^{2}v_{t - 1} + \alpha^{2}\sigma^{2} }\ {= (1 - \alpha)^{2}\left[(1 - \alpha)^{2}v_{t - 2} + \alpha^{2}\sigma^{2}\right] + \alpha^{2}\sigma^{2} }\ {= (1 - \alpha)^{4}v_{t - 2} + \alpha^{2}\sigma^{2}\left[1 + (1 - \alpha)^{2}\right]}\ {\vdots}\ {= (1 - \alpha)^{2t}v_{0} + \alpha^{2}\sigma^{2}\sum_{k = 0}^{t - 1}\left((1 - \alpha)^{2}\right)^{k}.} \end{array} \tag{16}$$
公式 16 明确显示，时间 $t$ 的方差由两个部分组成：衰减的初始方差（第一项）和累积的噪声方差（第二项）

Asymptotic Convergence

当 $t\to \infty$，由于学习率 $\alpha \in (0,1)$，项 $(1 - \alpha)^{2t}$ 趋于零。求和项是一个公比为 $r = (1 - \alpha)^{2}$ 的几何级数 $\textstyle \sum_{k = 0}^{\infty}r^{k} = \frac{1}{1 - r}$，因此：
$$\lim_{t\to \infty}v_{t} = \alpha^{2}\sigma^{2}\cdot \frac{1}{1 - (1 - \alpha)^{2} }.$$
计算分母：
$$1 - (1 - \alpha)^{2} = 1 - (1 - 2\alpha +\alpha^{2}) = 2\alpha -\alpha^{2} = \alpha (2 - \alpha).$$
代回得到紧密的方差界限：
$$\lim_{t\to \infty}\sup \text{Var}(Q_t) = \frac{\alpha^2\sigma^2}{\alpha(2 - \alpha)} = \frac{\alpha}{2 - \alpha}\sigma^2. \tag{17}$$

Connection to Phase-A Clustering

这个结果为 MemRL 的稳定性提供了理论依据。虽然记忆簇 $S(m) \triangleq \{s|\text{sim}(s,z_{m}) > \tau_{A}\}$ 内的任务可能不同，但平滑性假设（Smoothness Assumption）意味着它们的奖励取自一个方差有界 $\sigma_{S(m)}^{2}$ 的分布
推导出的界限 $\frac{\alpha}{2 - \alpha}\sigma_{S(m)}^{2}$ 保证记忆效用 $Q(m)$ 不会发散，而是将在真实期望效用附近的一个受控范围内振荡
该机制有效地过滤了来自不同任务实例的高频噪声，同时保留了稳定的泛化价值

附录 B：Convergence Via Variational Inference

在本节中，论文为 MemRL 提供理论基础，证明论文的检索策略和更新规则保证了价值估计的收敛性

B.1 收敛目标

论文的最终目标是确保估计的效用 $Q(m)$ 收敛到记忆 $m$ 的真实期望回报（expected return），这个目标值定义为：
$$\lim_{t\to \infty}\mathbb{E}{[Q_t(m)]} = \mathbb{E}{[r|m]} = \sum_{s\in \mathcal{S}(m)}\frac{\mathbb{E}{[r|s,m]}}{\text{Stationary} }\frac{\text{Pr}(s|m)}{\text{Retrieve-Dependent} }. \tag{18}$$
挑战在于项 $\operatorname *{Pr}(s|m)$，即特定状态 $s$ 触发检索 $m$ 的概率
- 该分布依赖于检索策略 $\mu_t(m|s)$，而该策略本身在训练过程中会演化，从而产生一个威胁稳定性的循环依赖

B.2 带有信任区域的变分目标

为了解决这个问题，论文将问题表述为最大化一个全局变分目标 $\mathcal{I}(\mu ,Q)$
- 这个目标作为公式 18 定义的全局期望回报的一个可处理的下界，并通过一个语义信任区域进行平衡：
  $$\mathcal{I}(\mu ,Q) = \mathbb{E}_{s\sim \mathcal{D} }\left[\sum_{m\in \mathcal{S}(s)}\mu (m|s)Q(s,m) - \frac{1}{\beta} D_{\text{KL} }\left(\mu (\cdot |s)| \pi_{\text{sim} }(\cdot |s)\right)\right] \tag{19}$$
- 这里，第一项直接对应于论文旨在收敛的期望效用 $\mathbb{E}{[Q_t(m)]}$，而 $\pi_{\text{sim} }$ 代表固定的语义先验（从 Phase-A 导出）
- KL 散度项作为一个正则化器至关重要，原因有二：
  - 1）信任区域（Trust Region）：它将策略约束在支持集 $\mathcal{S}$ 内，防止智能体检索高 $Q$ 值但语义上不相关的记忆（分布外误差）
  - 2）正则化（Regularization）：它在 $Q$ 估计值嘈杂的“冷启动”阶段稳定学习动态

B.3 通过广义期望最大化进行优化 (GEM)

论文将 $\mathcal{I}$ 的优化视为一个 GEM 过程，在策略改进（policy improvement）和价值评估（value evaluation）之间交替进行：

E-step Policy Optimization

固定 $Q_t$，论文找到最大化 $\mathcal{I}$ 的最优策略 $\mu^*$
封闭形式的解是玻尔兹曼分布（Boltzmann distribution）(Levine, 2018)：
$$\mu^{*}(m|s)\propto \pi_{\text{sim} }(m|s)\exp (\beta Q_{t}(s,m))$$
取对数后，论文得到论文 Phase-B 检索（公式 6）中使用的特定评分函数：
$$\log \mu^{*}(m|s)\propto \underbrace{\log\pi_{\text{sim} }(m|s)}_{\approx \text{sim}(s,m)} + \beta Q_{t}(s,m)$$
这证明了论文的相似性和 $Q$ 值的启发式组合在数学上等价于变分目标下的最优策略

M-step Policy Evaluation Via Error Minimization

虽然 E-step 基于当前估计改进了策略，但 M-step 确保这些估计是接地于现实的
固定策略 $\mu_{t + 1}$，论文的目标是将变分参数 $Q$ 与真实的环境回报对齐
论文将其表述为最小化估计效用与观察到的奖励目标 $y = r$（在论文的蒙特卡洛风格建模中）之间的均方误差（Mean Squared Error, MSE）：
$$\min_{Q}\mathcal{L}(Q) = \mathbb{E}_{r\sim \mu_{t + 1} }\left[\frac{1}{2}\left(y - Q(s,m)\right)^2\right]$$
最小化这个误差至关重要，因为它收紧（tightens）了变分界限：
- 它确保全局目标 $\mathcal{I}$（公式 19）中的期望项 $\mathbb{E}{[Q]}$ 收敛到真实期望回报 $\mathbb{E}{[r]}$
- 论文框架中使用的更新规则（公式 8）正好对应于对该目标的一个 SGD 步骤：
  $$Q_{t + 1}(s,m)\leftarrow Q_t(s,m) - \alpha \nabla_Q\mathcal{L}(Q) = Q_t(s,m) + \alpha (y - Q_t(s,m))$$
通过迭代地最小化 $\mathcal{L}(Q)$，M-step 将环境反馈传播到效用估计中，确保随后的 E-step 优化发生在一个可靠的价值格局上

Proof of Convergence

根据 GEM 的单调改进定理（Monotonic Improvement Theorem）(1998)，序列 $(\mu_t, Q_t)$ 保证收敛到一个驻点 $(\mu^*, Q^*)$
在稳态下，策略稳定 $(\mu_{t+1} \approx \mu_t)$，这意味着逆检索概率 $\Pr(s|m)$ 变为时间不变的：
$$\Pr (s|m) = \frac{\mu^{*}(m|s)\Pr(s)}{\sum_{\mu^{\prime} }\mu^{*}(m|s^{\prime})\Pr(s^{\prime})}$$
Consequently，公式 18 中的“依赖检索的（Retrieve-Dependent）”项被锚定
- 在固定的数据分布下，标准的贝尔曼压缩特性（Bellman contraction property）确保 $Q_t(m)$ 收敛到唯一的固定点：
  $$\lim_{t\to \infty}Q_t(m)\to \mathbb{E}_{\mu^*}[r|m] \tag{20}$$
Thus，论文的框架从理论上保证了记忆价值在最优检索策略下收敛于真实的期望回报

NLP——Does-RL-Incentivize-Reasoning-Capacity

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Leap Lab of THU & SJTU, 20250418-20251124
- GitHub 项目地址：limit-of-RLVR.github.io

Paper Summary

论文内容总结：
- 论文发布以来，在业内广受认可，非常值得一读
- 论文系统地研究了当前 RLVR 方法对 LLM 推理能力边界的影响
- 论文的研究结果表明
  - 当前的 RLVR 很少激发根本性的新推理模式；
  - RLVR 训练模型的推理能力仍然受限于其 Base Model 的能力
  - 当前的 RLVR 方法尚未完全实现 RL 通过探索和利用来激发 LLM 新推理能力的潜力
  - 注：这种局限性可能源于论文第 5 节讨论的在巨大语言空间中缺乏有效的探索策略
- 在高级抽象中进行探索、细粒度的信用分配以及多轮智能体-环境互动可能缓解这个问题
- 本研究的结论不一定保真，因为论文的研究有些设定问题：
  - 作者已经尽量评估尽可能多的强大的、公开可用的纯 RLVR 模型，但是仍然有问题
  - 目前能力最强的模型和训练流程仍然是私有的，所以作者无法分析内部的细节（论文的分析需要这些细节）
  - 目前的技术发展很快，其实已经有一些文章对论文的结论提出了一些挑战
    - 论文的作者最终版本更新的论文中，比较谦逊，已经意识到了这些实际限制
RLVR 近期在提升 LLM 的推理性能方面取得了显著成功，尤其是在数学和编程任务中
- 人们普遍认为，与传统 RL 帮助智能体探索和学习新策略类似，RLVR 能够使 LLMs 持续自我改进，从而获得超越对应 Base Model 能力的新型推理能力
在本研究中，论文通过对 RLVR 训练的 LLMs 在不同的模型家族、 RL 算法和数学/代码/视觉推理基准测试中进行系统性的推理能力边界探测，并采用大 $k$ 值下的 pass@$k$ 作为评估指标，对 RLVR 的当前状态（the current state of RLVR） 进行了批判性审视
虽然 RLVR 提高了采样正确路径的效率，但论文惊奇地发现，当前的训练 极少（rarely） 能激发出根本性的新推理模式
- 论文观察到，尽管 RLVR 训练的模型在较小的 $k$ 值（例如 $k$=1）下优于其 Base Model ，但在 $k$ 值较大时， Base Model 反而能达到更高的 pass@$k$ 分数
Moreover，论文发现 LLMs 的推理能力边界常常随着 RLVR 训练的进行而变窄（narrows）
进一步的覆盖率和困惑度（perplexity）分析表明，RLVR 模型生成的推理路径已经包含在 Base Model 的采样分布中
- 这表明它们的推理能力源自 Base Model 并 受限于（bounded by） Base Model
从这个视角出发，将 Base Model 视为一个上界，论文的定量分析表明：
- 六种流行的 RLVR 算法表现相似，并且远未达到充分利用 Base Model 潜力的最优状态
In Contrast，论文发现蒸馏（distillation）能够从教师模型中引入新的推理模式，并真正扩展模型的推理能力
Taken together，论文的研究结果表明，当前的 RLVR 方法尚未完全实现 RL 激发 LLMs 真正新颖推理能力的潜力
- 这突显了改进 RL 范式的必要性，例如有效的探索机制、更审慎和大规模的数据管理、细粒度的过程信号以及多轮智能体交互，以释放这种潜力

Introduction and Discussion

专注于推理的大型语言模型（reasoning-centric LLMs）的发展极大地推动了 LLM 能力的前沿
- 例如 OpenAI-o1 (2024)、DeepSeek-R1 (2025) 和 Kimi-1.5 (2025)，
- 特别是在解决涉及数学和编程的复杂逻辑任务方面
与传统依赖于人工标注指令（instruction-tuned）的方法（2023; 2024）相比，这一飞跃背后的关键驱动力是大规模的 RLVR (2024; 2025)
- RLVR 从一个预训练的 Base Model 或经过长链思维（chain of thought，CoT）数据微调的模型开始，基于简单的、可自动计算的奖励通过 RL 对其进行优化
- 这些奖励取决于模型的输出在数学问题上是否匹配真实解，或在代码问题上是否通过单元测试，从而无需人工标注即可实现规模化
- RLVR 框架因其简单性和实际有效性而备受关注
在传统的 RL 设置中，例如游戏（如 Atari，Go），智能体通常通过自我改进自主发现新策略并超越甚至达到人类水平 (2015; 2017)
- 受此成功启发，人们普遍认为 RLVR 同样能使 LLMs 自主发展出新的推理模式，包括枚举、自我反思和迭代优化，从而超越其 Base Model 的能力 (2025)
Consequently，RLVR 被视为实现 LLMs 持续自我进化、可能使论文更接近更强大智能的一条有希望的途径 (2025)
- However，尽管取得了经验上的成功，当前 RLVR 的根本有效性仍未得到充分检验
- 这引出了一个根本性问题：当前 RLVR 是否真正使 LLMs 获得了新的推理能力，类似于传统 RL 通过探索发现新策略，还是仅仅利用了 Base Model 中已有的推理模式？
为了严格回答这个问题，论文首先必须评估 Base Model 和 RLVR 训练模型的推理能力边界
- 传统的评估指标依赖于贪心解码（greedy decoding）或核采样（nucleus sampling）(2020) 的平均分，这反映了平均情况下的行为
- However，这些指标可能会低估模型的真实潜力，尤其是在尝试次数有限的情况下模型在难题上失败时，尽管它有能力通过更多采样解决这些问题
为了克服这一限制，论文采用 pass@$k$ 指标 (2024)，即如果 $k$ 个采样输出中任意一个是正确的，则认为问题已解决
- 通过允许多次尝试，pass@$k$ 揭示了模型是否具备解决问题的潜力
- 数据集的平均 pass@$k$ 分数因此反映了模型在 $k$ 次尝试内可能解决的问题比例，为其推理边界提供了更稳健的视角
  - 这为 RLVR 训练是否能产生根本性的超越能力、使模型能够解决 Base Model 无法解决的问题提供了严格检验
使用 pass@$k$ 指标，论文在多个基准测试中进行了广泛的实验，涵盖了多个 LLM 家族、模型大小和 RLVR 算法，以比较 Base Model 与其 RLVR 训练的对应模型
图 1 内容：
- Left：当前 RLVR 对 LLM 推理能力的影响
  - 搜索树（search tree）通过对给定问题从 Base Model 和 RLVR 训练模型中重复采样生成
  - 灰色表示模型不太可能采样的路径，而黑色表示模型可能采样的路径
  - 绿色表示具有正奖励的正确路径
  - 论文的关键发现是，RLVR 模型中的所有推理路径都已存在于 Base Model 中
  - 对于某些问题，如问题 A，RLVR 训练使分布偏向奖励路径，提高了采样效率
    - However，这是以减少推理能力范围为代价的：
      - 对于其他问题如问题 B， Base Model 包含正确路径，而 RLVR 模型则没有
- Right：随着 RLVR 训练的进行，平均性能（即 pass@1）提高，但可解问题（solvable problem）的覆盖率（即 pass@256）下降，表明 LLM 的推理边界在缩小

Preliminaries

本节首先概述 RLVR 的基础知识，然后介绍用于评估推理边界的 pass@$k$ 指标，并解释为什么它比最佳采样（best-of-$N$）等替代方案更受青睐

RLVR（Reinforcement Learning with Verifiable Rewards）

Verifiable Rewards

设 $\pi_{\theta}$ 为一个具有参数 $\theta$ 的 LLM，它在自然语言 Prompt $x$ 的条件下生成一个 Token 序列 $\mathbf{y}=(y_{1},\ldots,y_{T})$
一个确定性的 ** Verifier** $\mathcal{V}$ 返回一个二元奖励：
$$ r=\mathcal{V}(x,\mathbf{y})\in\{0,1\}$$
- 当且仅当模型的最终答案完全正确时 $r=1$
也可以添加格式奖励以鼓励模型明确地将推理过程与最终答案分开
RL 的目标是学习一个策略以最大化期望奖励：
$$ J(\theta)=\mathbb{E}_{x\sim\mathcal{D} }\left[\mathbb{E}_{\mathbf{y}\sim\pi_{\theta}(\cdot|x)}[r]\right] $$
- 其中 $\mathcal{D}$ 是 Prompt 的分布

RLVR Algorithms

近端策略优化（Proximal Policy Optimization，PPO）(2017) 提出使用以下裁剪替代目标（clipped surrogate）来最大化目标函数：
$$\mathcal{L}_{\text{CLIP} }=\mathbb{E}\left[\min(r_{t}(\theta)A_{t},\text{clip}(r_{t}(\theta),1-\epsilon,1+\epsilon)A_{t})\right],$$
- 其中 $r_{t}(\theta)=\frac{\pi_{\theta}(y_{t}|x,\mathbf{y}_{ < t})}{\pi_{\theta_{\text{old} } }(y_{t}|x,\mathbf{y}_{ < t})}$，$A_{t}$ 是由价值网络 $V_{\phi}$ 估计的优势（advantage）
可选地应用 KL 散度项（KL divergence term），以约束模型偏离原始策略的程度
更多算法介绍见 C.5 节

Policy Gradient

PPO 及其变体属于 RL 的策略梯度类（policy gradient class）(1992; 1998)
这些方法仅从 On-policy samples 中学习，即由当前 LLM 生成的样本
在可验证奖励的背景下，训练目标通常是 最大化正确答案样本的对数似然，并最小化错误答案样本的似然

Zero RL Training

Zero RL Training 将 RL 直接应用于 Base Model ，无需任何 SFT (2025)
为了清晰研究 RLVR 的效果
- 对所有数学任务
  - 遵循 Zero-RL 设置，使用预训练模型作为起始模型
- 对于 Coding 和视觉推理（Visual Reasoning）任务
  - 使用微调模型作为起始模型，比较微调模型与其 RLVR 训练的对应模型
- 补充：对于 Coding 和视觉推理（Visual Reasoning）任务，开源工作通常使用指令微调模型作为起点
  - 主要是由于使用纯 Zero-RL 设置存在训练不稳定性和有限的有效性
  - 遵循此惯例，论文比较微调模型与其 RLVR 训练的对应模型，以专注于 RLVR 的效果
图 2 ： Base Model 及其 RLVR 训练对应模型在多个数学基准测试上的 Pass@$k$ 曲线
- 当 $k$ 较小时， RL 训练的模型优于其基础版本
- However，当 $k$ 增加到数十或数百时， Base Model 持续赶上并超越 RL 训练的模型
- GSM8K 和 AMC23 的更多结果见图 10

Metrics for LLM Reasoning Capacity Boundary

Pass@$k$ Metrics

准确测量 Base 和 RL 模型的推理能力边界具有挑战性，因为贪心解码或核采样的平均值 (2020) 等方法仅反映平均情况下的性能
为了准确测量推理能力边界，论文将代码生成中常用的 pass@$k$ 指标 (2021) 扩展到所有具有可验证奖励的任务
给定一个问题，论文从模型采样 $k$ 个输出
- 如果至少有一个样本通过验证，则该问题的 pass@$k$ 值为 1；否则为 0
- 问题：这里的模型采样可能会重复吗？
数据集的平均 pass@$k$ 值反映了模型在 $k$ 次尝试内可以解决的数据集中问题比例，为 LLMs 的推理能力覆盖范围提供了严格评估
论文采用一种无偏、低方差的估计器（unbiased, low-variance estimator）来计算 pass@$k$，详见 A.2 节

Comparison with Best-of-$N$ and Majority Voting

Best-of-$N$ (2021) 和 Majority Voting 是选择正确答案的实用方法，但它们可能忽略了模型的全部推理潜力
In Contrast，论文使用 pass@$k$ 不是为了评估实际效用 ，而是为了探究推理能力的边界
- 如果模型在任意 $k$ 个样本中产生了一个正确解，论文将该问题视为在其潜在范围内
- Thus，如果 RL 增强了推理能力， RL 训练的模型应该比 Base Model 在更多此类问题上成功
如果 Verifier 或投票未选择正确答案，像 Best-of-$N$ 或多数投票这样的方法可能会错过这些成功

Random Guessing Issue

对于 Coding 任务，使用编译器和预定义的单元测试用例作为 Verifier ，pass@$k$ 值可以准确反映模型是否能解决问题
在 Mathematics 中，“猜测”问题可能随着 $k$ 的增加而变得显著，即模型可能生成不正确的 CoT 但仍偶然得出正确答案
为了解决这个问题，论文对模型输出的一个子集手动检查 CoT 的正确性 ，详见 3.1 节
通过结合数学上手动检查的结果和 Coding 的结果，论文严格评估了 LLM 推理能力的范围
另一个注意事项是（Another caveat is that），如果 $k$ 值极大，即使是 Token 字典（Dictionary）上的均匀采样也会偶然发现正确的推理路径
- 尽管这在当今的时间和计算资源预算下是不可行的
Crucially，论文发现 Base Model 在实际的 $k$ 值（$k=128$ 或 1024）下已经能产生正确的输出，这完全在实用资源限制内
- 理解：这里也是最早本人的担忧，这里作者相当于给了比较合适的回答了，但依然是论文的一个核心讨论点，因为采样次数足够多，任何模型都能成功

RLVR’s Effect on Reasoning Capacity Boundary

前文建立了推理边界评估指标
本节现在通过广泛的实验对基础和 RLVR 模型进行全面评估
论文的分析按任务类别组织，涵盖三个代表性领域：数学、代码生成和视觉推理
整体实验设置总结在表 1 中（表 1 ：评估 RLVR 对 LLMs 推理边界影响的实验设置）
评估协议（Evaluation Protocol）
- 对于 Base Model 和 RLVR 模型的采样过程，论文使用温度 temperature=0.6 和 top-$p$ 值 0.95，允许最大生成 16,384 个 Token
  - 论文在图 17 中还展示了不同温度设置的效果
- 对于 Base Model 的评估，一种常见做法是在 Prompt 中包含少量示例（few-shot examples）以引导输出 (2024; 2024; 2024)
  - However，为了确保公平和无偏见的比较，论文特意避免为 Base Model 使用少量 Prompt （few-shot prompts），以消除上下文示例可能对推理造成的任何潜在混杂影响
- 为了评估 Base Model 和 RLVR 模型，论文使用与 RLVR 训练相同的零样本 Prompt （zero-shot prompt），或基准测试提供的默认 Prompt ，确保两种模型之间设置一致
  - Interestingly，尽管 Base Model 在没有少量指导的情况下经常产生未格式化或无意义的 Response ，但论文观察到，只要有足够的采样，它们仍然能够生成正确格式化的输出并成功解决复杂问题
  - 训练和评估的 Prompt 模板在附录 D 节中提供

RLVR for Mathematical Reasoning

Models and Benchmarks

在数学问题中，模型需要生成一个推理过程（即 CoT）以及最终答案
为了确保结论的稳健性，论文实验了多个 LLM 家族，主要是 Qwen2.5 (7B/14B/32B 基础变体) (2024) 以及额外的 LLaMA-3.1-8B (2024)
论文采用由 SimpleRLZoo (2025) 发布的 RLVR 模型，这些模型使用 GRPO 在 GSM8K 和 MATH 训练集上训练 Zero RL 模型，仅使用正确性奖励，排除任何基于格式的奖励
论文在不同难度的基准测试上比较 Base 和 Zero RL 模型的 pass@$k$ 曲线：
- GSM8K (2021)、MATH500 (2021)、Minerva (2022)、Olympiad (2024)、AIME24 和 AMC23
Additionally，论文还包括 RLVR 模型 Oat-Zero-7B 和 DAPO-32B (2025a; 2025)
- 这两个模型的特点是在具有挑战性的 AIME24 基准测试上表现出色

The Effect of RLVR: Increased Likelihood of Correct Samples, Decreased Coverage of Solvable Problems（增加正确样本的可能性，减少可解问题的覆盖范围）

如图 2 所示，论文一致地观察到小 $k$ 值和大 $k$ 值之间的对比趋势
- 当 $k$ 较小时（例如 $k=1$，相当于平均准确率）， RL 训练的模型优于其基础对应模型
  - 这与 RL 提升性能的常见观察相符，表明 RLVR 使模型采样正确 Response 的可能性显著增加
- 随着 $k$ 增加，曲线变得更陡峭，在所有基准测试中， Base Model 持续赶上并最终超越 RL 训练的模型
  - 表明 Base 模型对可解问题的覆盖范围更广
  - 例如，在 Minerva 基准测试上使用 32B 大小模型时， Base Model 在 $k=128$ 时比 RL 训练的模型高出约 9%，这意味着它可以在验证集中解决大约多 9% 的问题
论文进一步检查了使用 Oat-Zero 和 DAPO 训练的 RL 模型
- 如图 11 所示，尽管 RL 模型最初表现出强劲性能，比 Base Model 高出近 30%，但最终被 Base Model 超越
基于这些结果，论文得出结论：RLVR 在低 $k$ 时增加了采样正确 Response 的可能性，但缩小了模型的整体覆盖范围
论文在 4.1 节进一步分析了这种现象的根本原因

CoT Case Analysis

论文在图 20 和图 21 中展示了从 Base Model 中采样的正确 CoT，这些是从 AIME24 最难问题的 2048 次采样中手动选择的
Base Model 的 Response 往往是较长的 CoT 并表现出反思行为，突显了 Base Model 内在的强大推理能力

Validityof Chain-of-Thought

对于数学问题，常见的评估仅基于最终答案的正确性，存在 hacking 风险
为了使用 pass@$k$ 准确反映推理能力边界，重要的是评估有多少已解决的问题是源于采样到真正正确的 CoT，而非幸运猜测
遵循 (2024)，论文手动检查了 GSM8K 数据集中最具挑战性的可解问题（平均准确率低于 5% 但高于 0%）中导致（led to）正确答案的所有 CoT
- Base Model 回答了 25 个这样的问题，其中 24 个包含 至少一个（at least one） 正确的 CoT
- Similarly， RL 训练的模型回答了 25 个问题，其中 23 个包含 至少一个 正确的 CoT
论文还手动检查了具有挑战性的 AIME24 基准测试中平均准确率低于 5% 的问题的 CoT（详情见 C.2 节）
- Base Model 回答了 7 个这样的问题，其中 5 个（共 6 个，排除一个因跳过推理步骤而正确性模糊的情况）包含 至少一个 正确的 CoT
- 类似地， RL 训练的模型回答了 6 个问题，其中 4 个包含 至少一个 正确的 CoT
这些结果表明， Base Model 可以采样有效的推理路径来解决问题
- 理解：这里是挑选最可能因为随机猜对答案（而 CoT 是错的）的问题进行人工 check，看起来 check 结果也是符合预期的（Base Model 回答对的情况跟 RL 模型差不多或更好）

RLVR for Code Generation

Models and Benchmarks

论文采用了开源的、经过 RLVR 训练的模型 CodeR1-Zero-Quen2.5-7B (2025)
- 该模型基于 Quen2.5-7B-Instruct-1M (2025b)，在 12K 个 LeetCode 和 TACO 样本上训练了 832 步
For Evaluation，模型在 LiveCodeBench v5 上进行评估（assessed）
- 该 LiveCodeBench v5 基准包含从 2024 年 8 月到 2025 年 1 月的 279 个问题 (2025)，同时还使用了 HumanEval+ 和 MBPP+ (2023)
论文还评估了最强大的开源 RLVR 训练代码 LLM DeepCoder-14B (2025)，它基于 DeepSeek-R1-Distill-Quen-14B 构建
- 这两个模型的 Response 长度均为 32k
- 由于其高昂的计算成本，论文仅在 LiveCodeBench 上对它们进行评估，作为代表性基准

The Effect of RLVR

由于通过猜测几乎不可能通过所有单元测试，因此 pass@(k) 可以可靠地衡量模型的推理边界
如图 3、图 12 和图 4（左）所示，RLVR 在三个代码生成基准上的影响趋势与在数学基准上观察到的趋势高度一致

RLVR for Visual Reasoning

Models and Benchmarks

在视觉推理任务中，模型必须共同解释视觉和文本输入以解决复杂的推理问题
自 LLM 推理兴起以来，这已在多模态社区中获得极大关注 (2025a; 2025; 2025)
在我们的实验中，我们选择视觉情境下的数学问题作为代表性任务
我们使用 EasyR1 框架 (2025) 在 Geometry3K (2021) 上训练 Quen2.5-VL-7B (2025)，并在经过筛选的 MathVista-TestMini (2024) 和 MathVision-TestMini (2024) 上评估其视觉推理能力，其中移除了多项选择题

The Effect of RLVR

如图 4（右）所示，RLVR 对视觉推理的影响与在数学和代码基准上观察到的结果高度一致
这表明，即使在多模态任务中，原始模型对可解问题也具有更广泛的覆盖范围

Validity of Chain-of-Thought

Similarly，作者手动检查了最具挑战性的问题子集，即平均准确率低于 5% 的问题
- 作者发现，对于原始模型和 RL 模型，8 个问题中有 7 个问题至少包含一条正确的思维链
这些结果支持了思维链的有效性

Deep Analysis

本节对当前 RLVR 训练的效果进行了更深入的分析
另外，论文也强调了蒸馏技术与 RLVR 的显著不同特征
In Addition，论文设计了对照实验来考察不同 RL 算法和设计选择的影响

Reasoning Paths Already Present in Base Models

Accuracy Distribution Analysis

第 3 节的实验揭示了一个令人惊讶的趋势： Base Model 比 RLVR 训练后的模型覆盖了更广范围的可解问题
为了更好地理解这一点，论文分析了 RLVR 训练前后准确率分布的变化
- 如图 5 所示，RLVR 增加了接近 1.0 的高准确率频次，并减少了低准确率（例如 0.1, 0.2）的频次
- However，与这一趋势偏离的是在准确率为 0 处的频次增加（这表明 RLVR 导致了更多不可解的问题）
- 这也解释了 RLVR 在平均分数上的提升，这种提升并非源于解决新问题，而是源于在 Base Model 已经可解的问题上提高了采样效率
更多准确率直方图参见图14

Solvable-Problem Coverage Analysis

为了进一步研究，论文在 AIME24 和 MATH500 上比较了 Base Model 及其对应的 RL 训练版本的可解问题集合
论文发现，存在许多 Base Model 能解决而 RLVR 模型失败的情况，而 RLVR 成功但 Base Model 失败的案例极少，如表 2 所示
详细情况见第 C.7 节
- 如表 5 所示，RL 训练模型解决的可解问题集合几乎是 Base Model 可解问题集合的一个子集
- 如表 6 所示， Coding 任务中也观察到了类似的趋势
这引发了一个自然的问题：RL 训练模型生成的所有推理路径是否已经存在于其 Base Model 的输出分布中？

Perplexity Analysis

上文中我们提出了 RL 训练模型生成的所有推理路径是否已经存在于其 Base Model 的输出分布中？ 这个问题
为了回答这个问题，论文使用了 困惑度 (perplexity, PPL) 这一指标
- 给定一个模型 $m$、一个问题 $x$ 和一个 Response $\mathbf{Y}=(y_{1},\ldots,y_{T})$（可以由同一模型、另一模型或人类生成），PPL 定义为序列的负对数似然平均的指数形式：
  $$
  \texttt{PPL}_{m}(\mathbf{Y}|x)=\exp\left(-\frac{1}{T}\sum_{t=1}^{T}\log P(y_{t}|x,y_{1},\ldots,y_{t-1})\right),
  $$
- 它反映了模型在给定 Prompt $x$ 的条件下预测给定 Response $\mathbf{Y}$ 的能力
- 更低的困惑度表明模型生成此 Response 的可能性更高
论文从 AIME24 中随机抽取两个问题，并分别使用 Qwen2.5-7B-Base 和 SimpleRL-Qwen2.5-7B-Base 为每个问题生成 16 个 Response ，分别记为 $\mathbf{Y}_{\text{Base} }$ 和 $\mathbf{Y}_{\text{RL} }$
论文还让 OpenAI-o1 (2024) 生成了 8 个 Response ，记为 $\mathbf{Y}_{\text{GT} }$
如图 6 所示，$\textrm{PPL}_{\text{Base} }(\mathbf{Y}_{\text{RL} }|x)$ 的分布与 $\textrm{PPL}_{\text{Base} }(\mathbf{Y}_{\text{Base} }|x)$ 分布的下部紧密匹配，对应于 Base Model 倾向于生成的 Response
这表明 RL 训练模型的 Response 极有可能被 Base Model 生成。在第 C.4 节中，论文展示了 $\textrm{PPL}_{\text{Base} }(\mathbf{Y}_{\text{RL} }|x)$ 随着 RL 训练的进行逐渐降低，表明 RLVR 主要是在 Base Model 先验内部锐化了分布，而不是扩展超出其范围

Summary

结合上述分析，论文得出三个关键观察
- First，RLVR 模型解决的问题 Base Model 也能解决；观察到的平均分数提升源于在这些已经可解的问题上进行更有效的采样，而不是学会了解决新问题
- Second，在 RLVR 训练后，模型通常表现出比其 Base Model 更窄的推理覆盖率
- Third，RLVR 模型利用的所有推理路径已经存在于 Base Model 的采样分布中
这些发现表明 RLVR 并未引入根本性的新推理能力，训练模型的推理能力仍然受限于其 Base Model

Distillation Expands the Reasoning Boundary

除了直接 RL 训练之外，提升小型 Base Model 推理能力的另一个有效方法是从强大的推理模型进行蒸馏 (2025)
- 蒸馏过程类似于训练后阶段的 Instruction-Following Fine-tuning
- 蒸馏使用的训练数据不是使用简短的 Instruction-Response 对，而是由教师模型生成的长链式推理轨迹组成
鉴于当前 RLVR 在扩展推理能力方面的局限性，很自然地要问蒸馏是否表现出类似的行为
- 一个代表性模型是 DeepSeek-R1-Distill-Qwen-7B，它是在 Qwen2.5-Math-7B 上，使用 DeepSeek-R1 蒸馏的
论文将其与 Base Model Qwen2.5-Math-7B 及其 RL 训练对应物 Qwen2.5-Math-7B-Oat-Zero 进行比较，并加入 Qwen2.5-Math-7B-Instruct 作为额外基线
如图7所示，蒸馏模型的 pass@$k$ 曲线始终显著高于 Base Model
这表明，与本质上受 Base Model 推理能力限制的 RL 不同，蒸馏引入了从更强的教师模型学习到的新推理模式
- As a result，蒸馏模型能够超越 Base Model 的推理边界

Effects of Different RL Algorithms

As discussed previously，RL 的主要效果是提高采样效率，而不是扩展模型的推理能力
为了量化这一点，论文提出了采样效率差距 (Sampling Efficiency Gap) （$\Delta_{\text{SE} }$）
- 定义为 RL 训练模型的 pass@1 与 Base Model 的 pass@$k$ 之间的差值（在论文的评估中使用 $k=256$）
- $\Delta_{\text{SE} }$ 越低越好
在这里，论文进行了干净的实验来研究不同 RL 算法在提高采样效率方面的效果

Experiment Setup

为了公平比较，论文使用 VeRL 框架 (2024) 重新实现了流行的 RL 算法，包括 PPO (2017)、GRPO (2024)、Reinforce++ (2025)、RLOO (2024)、ReMax (2024) 和 DAPO (2025)
遵循 DAPO (2025) 和 Oat-Zero (2025) 的做法，论文移除了 KL 项以避免限制模型学习
在训练期间，论文使用 AdamW 优化器 (2017)，恒定学习率为 $10^{-6}$
对于 rollout，论文使用 Prompt Batch Size 为 256，每个 Prompt 生成 8 个 Response
最大 rollout 长度设置为 8,192 个 Token ，采样温度设置为 1.0
论文使用的 PPO Mini-Batch Size 为 256
为了评估 RLVR 下的领域内和领域外泛化能力，论文将 Omni-MATH 的一个子集 Omni-MATH-Rule（包含可验证问题）分成训练集（2,000 个样本）和领域内测试集（821 个样本），并使用 MATH500 作为领域外基准

Results

如图 8（顶部）所示，尽管不同的 RL 算法在 pass@1 和 pass@256 上表现出微小的差异，但这些差异并非根本性的
不同的 RL 算法产生略微不同的 $\Delta_{\text{SE} }$ 值（例如，在领域内测试集上，从 GRPO 的 43.9 到 RLOO 最佳值 42.6 之间）
Furthermore，论文观察到 $\Delta_{\text{SE} }$ 在不同算法中始终保持在 40 分以上，突出现有 RL 方法距离实现最优采样效率仍然很远
这表明可能需要新的 RL 算法或全新的范式来接近上界
更多观察结果见第 C.5 节

Effects of RL Training

Asymptotic Effects

基于第 4.3 节的设置，论文研究了训练步数对模型渐近性能的影响
如图 1（右）所示，随着 RL 训练的进行，训练集上的 pass@1 从 26.1 持续提升到 42.5
However，随着 RLVR 训练的进行，pass@256 逐渐下降，表明推理边界在缩小

每次 Prompt 的 Rollout 数量 $n$ 的影响 (Effect of Number of Rollouts $n$)

训练超参数 $n$（每个 Prompt 的 Response 数量）可以通过在训练期间实现更广泛的探索来影响 pass@$k$
- 论文将 $n$ 从 8 增加到 32
- 如图 16 所示，pass@$k$ 比 $n=8$ 时略有改善，但 RL 训练模型最终仍然被 Base Model 超越
  - 注：在 Math500 上，n=32 的始终不如 n=8 的；但实际上 n=32 实际上只训练了 220 steps（并没有跟 n=8 的对齐 steps）
  - KL 散度的训练 Rollout Number 配置是 8
论文将扩大 RLVR 训练是否最终能超越 Base Model 的问题留给未来研究

Effect of KL Loss

为了控制模型偏差，一些先前的工作添加了 KL 惩罚项
论文通过应用系数为 0.001 的 KL 项来进行消融实验
如图 16 所示，带有 KL 正则化的模型在不使用 KL 的 GRPO 基础上实现了相似的 pass@1，但 pass@128 低得多

Effects of Entropy

随着 RL 训练的进行，模型的输出熵通常会降低 (2025)，这可能由于输出多样性减少而导致推理边界缩小
为了研究这个因素，论文提高了 RLVR 训练模型的生成温度，以匹配 Base Model 在 $T=0.6$ 时的输出熵
如图 18 所示，尽管 RLVR 模型在更高温度下相比其自身在 $T=0.6$ 时的表现，pass@$k$ 略有改善，但在整个 pass@$k$ 范围内仍然表现不如 Base Model
这表明，虽然熵的降低导致了推理边界的缩小，但这并不是唯一的原因

Effects of Model Size Scaling

Scaling 在当代 LLM 的能力中扮演着核心角色
- 随着模型规模的增加，（论文）所得出的结论是否继续成立仍然是一个重要问题
对于许多大型模型，分离（isolating） RLVR 的影响是不可行的（即难以拿到 RLVR 过程前后的模型）
- For Example
  - 对于 GPT-o1，其 Base Model 并非公开可访问
  - Qwen3-235B (2025) 通过多个阶段进行训练，包括 RLVR 和长上下文 CoT 监督微调，这使得无法单独分离 RLVR 的影响
  - 对于 Deepseek-R1-Zero，由于没有公开托管的 API，论文被迫自行托管模型，但在最大序列长度为 32k 的情况下，吞吐量被限制在每秒约 50 个 Token ，使得 pass@$k$ 评估目前不可行
- 作为一个更可行的替代方案，论文选择了 Magistral-Medium-2506 API 进行初步实验
  - 该模型使用纯 RL 训练，以 Mistral-Medium-3-2505 作为 starting model（起始模型，2025）
    - 尽管模型规模未公开，但 Magistral-Medium 的性能与 Deepseek-R1 相当，在推理能力方面定位接近前沿
论文按照原论文的做法，使用最大 40k 的上下文长度查询模型
- 论文再次观察到，RLVR 在低 $k$ 值时提供了显著的增益，但在更高的 $k$ 值下改善很小或没有改善
- Specifically，在 $k=1$ 时，与他的 Base Version 相比，RLVR 增强的模型在 AIME24 上多解决了大约 7 个问题，在 AIME25 上多解决了大约 8 个问题
- However，随着 $k$ 的增加，性能差距稳步缩小
这些观察结果表明，即使对于当前高度强大、接近前沿的推理模型，论文的结论仍然成立
随着更多计算（例如预训练规模预算）投入到 RL 训练中，这一趋势是否会持续下去，仍然是 LLM 推理未来的一个关键问题

Discussion

在第 3 节和第 4 节中，论文确定了 RLVR 在提升 LLM 推理能力方面的关键局限性
在本节中，论文探讨可能解释为什么 RLVR 仍然受限于 Base Model 推理能力的潜在因素

Discussion 1: 传统 RL 与 LLM 的 RLVR 之间的关键区别在于巨大的动作空间和预训练先验

Key Differences Between Traditional RL and RLVR for LLMs are Vast Action Space and Pretrained Priors
传统 RL，如 AlphaGo Zero 和 DQN 系列 (2017, 2015, 2023)，可以在围棋和 Atari 游戏等环境中没有显式上界（without an explicit upper bound）地持续改进策略性能
传统 RL 与 LLM 的 RLVR 之间存在两个关键区别
- First，语言模型中的动作空间比围棋或 Atari 游戏的动作空间指数级更大 (2023)
  - RL 算法最初并非设计用于处理如此巨大的动作空间，如果从零开始训练，几乎不可能有效探索奖励信号
- Therefore， The Second Distinction is LLM 的 RLVR 从一个具有有用先验的预训练 Base Model 开始，而 Atari 和 GO 游戏中的传统 RL 通常是从零开始
- 这种预训练先验指导 LLM 生成合理的 Response ，使得探索过程显著更容易，并且策略可以获得正向奖励反馈

Discussion 2: 在这个巨大动作空间中，先验是一把双刃剑

Priors as a Double-Edged Sword in This Vast Action Space
由于 Response 的采样受到预训练先验的引导，策略可能难以探索超出先验已经提供内容的新推理模式
Specifically，在如此复杂且高度组合的空间中，通过朴素的 Token-level 采样探索（naive token-level sampling exploration）生成的大多数 Response 都受到 Base Model 先验的限制
- 任何偏离先验的样本都极有可能产生无效或无意义的输出，从而导致负的结果奖励 (Negative outcome reward)
如第 2.1 节所讨论的，策略梯度算法旨在最大化在先验内获得正奖励的 Response 的对数似然，同时最小化在先验外获得负奖励的 Response 的似然
- As a result，训练后的策略倾向于产生已经存在于先验中的 Response ，将其推理能力限制在 Base Model 的边界内
从这个角度看，从蒸馏模型开始训练 RL 模型可能暂时提供一个有益的解决方案，因为蒸馏有助于注入更好的先验
- 理解：但蒸馏也会大幅度改变模型之前的分布，从而导致模型在其他方面的能力受到影响

Possible Future Work

如上所述，巨大动作空间中的低效探索机制以及对二元结果奖励的依赖，可能是当前 RLVR 设置中所观察到局限性的根本原因
为了从根本上应对这些挑战，以下几个方向可能值得探索：
- 在高级抽象中进行高效探索策略 (Efficient exploration strategies in high-level abstraction)
  - 高级别的探索机制，例如在程序级抽象空间中进行自我演化的 AlphaEvolve (2025)，可能对于驾驭巨大的动作空间至关重要
  - 此类策略可以促进发现先验外的推理模式和以前未见的知识结构
- 通过课程学习扩展数据规模 (Data scale via curriculum)
  - 课程学习可以从训练较简单的子问题开始，使模型提高采样效率并获得必要的元技能
  - 通过在处理更难问题之前提高简单任务的成功率，这种课程可以分层减少探索空间，并在具有挑战性的父任务上使性能从接近零提升到非零，从而使 RLVR 能够获得有意义的奖励 (2025, 2025)
  - 尽管当前 RLVR 训练数据中偶尔会出现这种层次关系的痕迹，并且最近的工作中已经观察到了它们的效果 (2025)，但要实现其全部潜力，将需要一个更加审慎、大规模的数据-RL 迭代流程，确保对元技能以及简单与困难问题之间适当关系的充分覆盖
- 过程奖励和细粒度信用分配 (Process reward and fine-grained credit assignment)
  - 与纯粹的二元结果奖励相比，结合中间信号来指导推理轨迹可能会显著提高探索效率，并将探索引导向更有希望的解决方案路径
- Agentic RL (理解：即基于经验探索的 RL)
  - 当前的 RLVR 推理仅限于单轮 Response ，而基于反馈的迭代细化对于 IMO 级别的推理至关重要 (2025)
  - 当前的 RLVR 推理也缺乏通过使用搜索工具或进行实验来主动收集新信息的能力
  - 一个多轮智能体 RL 范式，具有与环境反馈的更丰富交互，可以让模型生成新颖的经验并从中学习
  - 这个新兴的智能体框架被描述为“经验时代（era of experience）”的开端 (2025) Silver, D. and Sutton, R. S. Welcome to the era of experience. Google AI, 2025

论文在此总结了关于 RLVR 分析的关键相关工作，并在附录 B 中提供了更全面的讨论
尽管最近的 RLVR 方法取得了令人印象深刻的经验结果 (2025, 2024)，但其对推理的根本影响仍未得到充分探索
- 一些研究 (2025, 2025, 2025) 表明，RLVR 模型中的反思行为源于 Base Model ，而不是通过 RL 学到的
- Dang 等人 (2025) 观察到 RLVR 训练后 pass@$k$ 性能下降，但他们的分析范围有限
  - More Importantly，他们没有探索 Base Model 与 RL 模型之间的关系
- Deepseek-Math (2024) 也观察到了类似的趋势，但其研究仅限于单个指令微调模型和两个数学基准
In Contrast，论文的工作系统地调查了（systematically investigates）广泛的模型、任务和 RL 算法，以准确评估当前 RLVR 方法和模型的效果
论文进一步提供了深入的分析，包括准确率分布、推理覆盖率、困惑度趋势以及与蒸馏模型的比较，提供了对 RLVR 能力和局限性的全面理解

附录 A：Implementation Details

A.1 RLVR Algorithms

为了减少内存和计算开销，人们提出了几种无需 Critic 的变体
- GRPO (2024) 通过同一问题的一组 Response 内的归一化奖励来估计优势值：
  $$ A_i = \frac{r_i - \text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}$$
  - 其中 $\mathbf{r} = \{r_1, \ldots, r_G\}$ 表示一组 $G$ 个采样 Response 的奖励集合
- RLOO (2024) 则在每个批次 $\mathcal{B}$ 内采用留一法（leave-one-out）基线
  - 其优势值定义为
    $$ A_i = r_i - \frac{1}{|\mathcal{B}|-1} \sum_{j \neq i} r_j$$

A.2 Low-Variance pass@k Estimation

直接使用每个问题仅 $k$ 个采样输出来计算 pass@$k$ 可能会导致高方差
为了缓解这个问题，论文遵循 Chen 等人 (2021) 提出的无偏估计方法
Specifically，对于评估数据集 $\mathcal{D}$ 中的每个问题 $x_i$，论文生成 $n$ 个样本 ($n \geq k$)，并将正确样本的数量记为 $c_i$
数据集中 pass@$k$ 的无偏估计量由下式给出：
$$
\text{pass@}k := \mathbb{E}_{x_i \sim \mathcal{D} } \left[1 - \frac{\binom{n-c_i}{k} }{\binom{n}{k} } \right]
$$
- 通过这个公式，我们可以轻松地以低方差估计所有 $k \leq n$ 的 pass@$k$ 值
在论文的实验中，将 $n$ 设置为 pass@$k$ 曲线中最大的（即最右边的） $k$ 值，通常是 128、256 或 1024
- 例如，在图2中
  - 论文对 MATH500、Minerva 和 GSM8K 使用 $n=128$
  - 对 AMC23 和 AIME24 使用 $n=1024$
  - 对于 Olympiad 基准测试，由于 Base Model 能力相对较低
    - 论文为 Qwen 模型设置 $n=128$
    - 为 LLaMA-3.1-8B 设置 $n=1024$
- 问题：这里其实说明在评估最大的 $k$ 时， $k$ 和 $n$ 是相同的，此时方差应该不小

Reinforcement Learning for LLM Reasoning

自从 LLM 出现以来，Post-Training 阶段已被证明对于增强问题解决和推理能力至关重要 (2022)
Post-Training 阶段通常分为三个主要类别：
- 使用人工整理或蒸馏数据进行监督微调 (2023)，supervised fine-tuning using human-curated or distilled data
- 自我改进迭代 (2022; 2023)，self-improvement iteration
- RL (2022)
Previously，人们使用奖励模型或 Response 对之间的偏好进行奖励建模 (2022; 2023)
Recently，RLVR 作为一种提高 LLM 在数学和编程等领域推理能力的方法，获得了显著的关注 (2024; 2024)
- 一个鼓舞人心的里程碑工作是 OpenAI 的 o1 模型 (2024)
  - 这是首批大规模应用 RL 进行推理的模型之一，在发布时达到了当时的先进水平（achieving state-of-the-art results）
Following this，Deepseek-R1 (2025) 成为首个性能匹配或超越 o1 的开放权重模型
- R1 引入的一个重要创新是 “Zero” 设置，即直接对 Base LLM 应用 RL ，绕过任何中间的监督调优
- 这种方法启发了一波旨在复制或扩展 R1 方法并改进 RL 算法的开源努力 (2025; 2025a; 2025; 2025; 2025a; 2025)
与此同时（In Parallel）， RL 在多模态领域也获得了关注，推动了多模态推理（multimodal reasoning）的进步 (2025a; 2025; 2025)

Analysis of RLVR

尽管在 RLVR 领域有许多优秀的开源工作和算法设计，但关于 RLVR 对 LLM 推理能力的根本影响及其从 Base Model 开始的局限性，仍然缺乏深入的理解
- 几项研究 (2025a; 2025b; 2025) 强调，在 R1 类模型中观察到的反思行为实际上源于 Base Model ，而不是由 RLVR 训练引入的
- Dang等人 (2025) 观察到了与论文的发现类似的现象：Pass@k 性能在 RL 后迅速恶化且无法恢复，但这仅限于一个有限的实验设置（在 GSM8K 上使用 Qwen-2.5-0.5B 模型）
- More Importantly，他们没有探究 Base Model 与 RL 模型之间的关系
In Contrast，论文的论文通过系统和严谨的实验表明，不仅是反思行为，所有推理路径都早已嵌入在 Base Model 中
- 论文进一步证明，RLVR 并未引出超越 Base Model 的新推理能力

附录 C：Detailed Experimental Results

C.1 More Results on Mathematics and Coding

图 11：在AIME24上评估 Oat-Zero-7B 和 DAPO-32B，并与各自的 Base Model 进行比较
图10：SimpleRLZoo 在 GSM8K 和 AMC23 上的更多结果

C.2 Validity of Chain-of-Thought on AIME24

论文手动检查了最具挑战性的 AIME24 基准测试中的思维链
To Begin，论文引入一种过滤机制，旨在消除容易猜测的问题
- Specifically，论文 Prompt Qwen2.5-7B-Base 模型直接回答问题，不使用思维链推理，并多次采样答案
- 如果一个问题能够以低但非零的概率（例如，< 5%）被正确回答，论文将其视为可猜测并移除
- 那些能以高概率直接正确回答的问题则保留，因为它们很可能更容易，并且可以通过有效的思维链解决
Base Model 和 RL 模型在这个经过过滤的 AIME24 数据集上的 pass@$k$ 曲线在图 13 中，显示出与之前结果相似的趋势
尽管这种过滤方法是启发式的，但它被证明是有效的
将其应用于 AIME24（共 30 个问题）后，得到一个包含 18 个问题的子集
然后论文 Prompt 模型使用思维链推理来回答这些过滤后的问题
接着，论文手动检查了所有导致难题（平均正确率低于5%）得出正确答案的思维链
- Base Model 回答了 7 个此类问题，其中 5/6 的问题包含至少一个正确的思维链（排除一个因跳过推理步骤而正确性模糊的情况）
- Similarity，经过 RL 训练的模型回答了 6 个问题，其中 4 个包含至少一个正确的思维链
这些结果表明，即使对于AIME24中最具挑战性的难题， Base Model 也能采样出有效的推理路径来解决问题

C.3 Accuracy Distribution Visualization

图14：在使用 SimpleRLZoo 模型进行 RLVR 训练前后的准确率直方图

C.4 Perplexity Analysis

为了分析困惑度在 RLVR 训练过程中如何演变，论文在第 4.3 节提到的 RL 训练过程中评估了三个 RLVR 检查点：早期、中期和最终（early, middle, and final）
对于每个检查点，论文针对每个问题采样 32 个 Response ，计算 32 个困惑度值的中位数，并在表格中报告前 10 个问题的平均值
正如预期的那样，论文观察到：
- 随着 RL 训练的进行，$\text{PPL}_{\text{Base} }(\boldsymbol{\mathbf{Y} }_{\text{RL} }|x)$ 逐渐降低
- 这表明 RLVR 主要是锐化了 Base Model 先验分布内的分布，而不是扩展到其之外
图15：RL训练期间的困惑度演变

C.5 Different RLVR Algorithms

论文在图 8 中报告了关于不同 RLVR 算法的几个额外观察结果
First，DAPO 在所有三个数据集上都取得了略高的 pass@1 分数；
- However，其动态采样策略在训练期间每批次所需的样本量比其他算法多大约 $3 \sim 6$ 倍
- Moreover，其在 $k=256$ 时的性能显著下降
Second，RLOO 和 Reinforce++ 在整个 $k$ 范围（从1到256）内表现一致良好，同时保持了高效的训练成本，在效果和效率之间取得了良好的平衡
Third，ReMax 在 pass@1 和 pass@256 上都表现出较低的性能
- 论文推测（hypothesize）这是由于它使用了贪婪 Response 的奖励作为优势基线，而在 RLVR 设置中奖励是二元的（0 或 1）且高度可变
这很可能导致训练期间梯度更新不稳定
表 4：图 1（右）中不同 RL 训练步骤在 pass@1 和 pass@256 的详细数值

C.6 Effects of KL and Rollout Number

图 16：关于 KL 损失和 Rollout Number $n$ 的消融研究
- 对于将 $n$ 从8增加到32的情况，论文保持 Prompt 批次大小不变，这导致了每个训练步骤的计算量增加
- 由于资源限制，论文在此设置下仅训练了220步，导致 pass@1 较低，因为模型尚未收敛
- 尽管如此，$n=32$ 的模型实现了更高的 pass@128，突显了较大的 Rollout Number 在提高较大 $k$ 值时的 pass@$k$ 性能方面的积极影响
- 注：KL 散度的训练 Rollout Number 配置是 8
表 5：AIME24 中可解决问题（从0开始）的索引
- 可以观察到近似的子集关系：RL模型解决的大多数问题也都能被 Base Model 解决
表 6：LiveCodeBench（范围从400到450，从0开始）中可解决问题的索引

C.7 Solvable Problem Coverage Analysis

表2 统计了问题按四类情形划分的占比：
- （1）两个模型均至少成功求解一次该问题
- （2）仅基准模型成功求解
- （3）仅RLVR模型成功求解
- （4）在 $k$ 次采样中，两个模型均未成功求解该问题
结果表明，存在大量“基准模型可求解、但 RLVR 模型求解失败”的情形（情形 2），而 “RLVR 模型可求解、但基准模型求解失败” 的情形（情形 3）则极为罕见
即便在情形 (3) 的少数案例中（例如在 MATH500 数据集里占比 1%，约对应 5 个问题），当采样次数提升至 1024 次时，基准模型也能完成所有这类问题的求解
上述结果印证了我们的结论：RLVR模型很少能求解基准模型无法解决的问题，且通常会导致任务覆盖范围下降

C.8 Temperature and Entropy Analysis

图17：论文发现当温度超过 1.0 时， Base Model 的性能会下降，因为它倾向于生成更随机、更不连贯的 Token
- In Contrast，RL 模型的性能在不同温度设置下保持相对稳定
- Therefore，论文在主要实验中使用 $T=0.6$，因为它允许两个模型都展示其最佳的推理性能
图18：输出熵匹配的 Base Model 与 RLVR 模型比较
- 论文使用温度 $T=0.6$ 评估 Base Model (Qwen2.5-7B) 在每个数据集上的表现，并在每个图的标题中报告其输出熵 $E_{\text{base} }$
- 为了进行公平比较，论文增加 RLVR 模型 (SimpleRLZoo) 的温度，直到其输出熵近似匹配 $E_{\text{base} }$
- For Example，在 AMC23 上，论文设置 $T=0.9$ 以实现 $E_{\text{RL} }=0.47$
- 论文还将 RLVR 在 $T=0.6$ 时的结果作为额外基线，其熵更低（e.g., 在 AMC23 上为 0.22，在 MATH500 上为 0.33）

C.9 Training Dynamics

图19：训练过程中的训练奖励、 Response 长度和生成熵曲线，对应于第 4 节的实验

附录 C.10 CoT Case Analysis

图 20：Owen2.5-Base-7B 正确 Response - 案例 1
图 21：Owen2.5-Base-7B 正确 Response - 案例 2

附录 D：Prompt Templates

论文提供了实验中用于训练和评估的 Prompt 模板
用于 SimpleRL 训练和评估的 Prompt 如图 22 所示
用于 Oat-Zero 的 Prompt 如图 23 所示
对于 Code-R1 训练，采用图 24 中的 Prompt
对于 Code-R1 评估，论文遵循原始代码库，并采用基准测试的默认模板（核心：LiveCodeBench 需要添加 Prompt “```python” 作为结尾），包括 LiveCodeBench Prompt （图25）、HumanEval+ 和 MBPP+ Prompt （图26）
用于 EasyR1 训练和评估的 Prompt 如图 27 所示
对于使用 VeRL 训练的 RL 模型，如第 4.3 节和第 4.4 节所讨论的，训练和评估 Prompt 如图 28 所示
对于在 AIME24/25 上评估 Mistral 和 Magistral 模型， Prompt 如图 29 所示
- 为确保公平比较， Base Model 在评估时使用与其对应的 RL 训练模型相同的 Prompt

附录 E：Broader Impacts

论文的方法的潜在负面社会影响与通常与通用 LLM 推理技术相关的那些影响一致
论文强调在 LLM 系统中遵守公平和安全部署原则的重要性

NLP——技术报告解读-DeepSeek-V3.2

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek, 20251202
- 参考博客：DeepSeek-V3.2 技术报告深度解析：架构演进、RL 扩展与 Agent 合成数据
- 对 Unbiased KL Estimate 的理解：DeepSeek-V3.2中无偏 KL估计（Unbiased KL Estimate）的一些想法 - Keith Jiang的文章 - 知乎

Paper Summary

DeepSeek-V3.2：在高效计算与卓越推理和智能体性能之间取得平衡的模型
DeepSeek-V3.2 关键技术：
- (1) DeepSeek 稀疏注意力 (DeepSeek Sparse Attention， DSA)： 论文引入了 DSA，这是一种高效的注意力机制，能在保持长上下文场景下模型性能的同时，显著降低计算复杂度
- (2) 可扩展的强化学习框架 (Scalable Reinforcement Learning Framework)： 通过实施一个鲁棒的强化学习协议并扩展后训练计算量，DeepSeek-V3.2 的性能与 GPT-5 相当
  - DeepSeek-V3.2-Speciale（DeepSeek-V3.2 的高计算量变体）超越了 GPT-5，并且其推理能力与 Gemini-3.0-Pro 持平，在 2025 年国际数学奥林匹克 (International Mathematical Olympiad, IMO) 和国际信息学奥林匹克 (International Olympiad in Informatics, IOI) 中均取得了金牌表现
- (3) 大规模智能体任务合成流程 (Large-Scale Agentic Task Synthesis Pipeline)： 为了将推理能力整合到工具使用场景中，论文开发了一种新颖的合成流程，系统地大规模生成训练数据。这种方法促进了可扩展的智能体后训练，在复杂、交互式环境中显著提升了模型的泛化能力和遵循指令的鲁棒性
图 1：DeepSeek-V3.2 及其同类模型的基准测试
- 对于 HMMT 2025，论文报告的是二月份的比赛结果，与基线一致
- 对于 HLE，论文报告的是纯文本子集

Introduction and Discussion

推理模型的发布标志着 LLM 演进中的一个关键转折点，在可验证领域的整体性能的显著飞跃
自这一里程碑以来，LLM 的能力迅速发展；但在过去几个月中出现了明显的分化
- 虽然开源社区持续取得进展，但闭源专有模型 (Anthropic; DeepMind; OpenAI, 2025) 的性能提升轨迹以明显更快的速度在加速
- 闭源和开源模型之间的性能差距不仅没有缩小，反而似乎在扩大，专有系统在复杂任务中表现出日益卓越的能力
作者分析确定了限制开源模型在复杂任务中能力的三个关键不足
- 在架构上，主要依赖普通注意力 (vanilla attention) (2017) 机制严重限制了长序列的效率
  - 这种低效性对可扩展部署和有效后训练都构成了重大障碍
- 在资源分配方面，开源模型在后训练阶段的计算投入不足，限制了其在困难任务上的表现
- 在 AI 智能体 (AI agents) 的背景下，与专有模型相比，开源模型在泛化能力和指令遵循能力方面表现出明显的滞后 (EvalSys, 2025； 2025； 2025)，这阻碍了其在实际部署中的有效性
为了解决这些关键限制，论文做了如下改进：
- 第一：引入 DSA，一种旨在显著降低计算复杂度的高效注意力机制
  - 该架构有效解决了效率瓶颈，即使在长上下文场景下也能保持模型性能
- 第二：开发了一种稳定且可扩展的 RL 协议，允许在后训练阶段进行显著的计算扩展
  - 该框架分配的后训练计算预算超过了预训练成本的 $10%$，从而解锁了高级能力
- 第三，提出了一种新颖的流程，以促进工具使用场景中可泛化的推理
  - 首先，实施一个冷启动 (cold-start) 阶段，利用 DeepSeek-V3 (DeepSeek-AI, 2024) 的方法论将推理和工具使用统一在单个轨迹内
  - 随后，论文推进到大规模智能体任务合成，生成了超过 1,800 个不同的环境和 85,000 个复杂的 Prompt
  - 这种广泛的合成数据驱动了 RL 过程，显著增强了模型在智能体上下文中的泛化能力和指令遵循能力
小结：
- DeepSeek-V3.2 在多个推理基准测试中与 Kimi-k2-thinking 和 GPT-5 取得了相近的性能
- DeepSeek-V3.2 显著提升了开源模型的智能体能力，在之前工作（EvalSys,2025; 2025; 2025）引入的长尾智能体任务上表现出卓越的熟练度
- DeepSeek-V3.2 成为智能体场景中一个极具成本效益的替代方案，在显著降低成本的同时，大大缩小了开源模型与前沿专有模型之间的性能差距
- 特别地：为了推动开源模型在推理领域的前沿，论文放宽了长度约束以开发 DeepSeek-V3.2-Speciale
  - DeepSeek-V3.2-Speciale 达到了与领先闭源系统 Gemini-3.0-Pro (DeepMind) 相当的性能
  - 在 IOI 2025、ICPC World Final 2025、IMO 2025 和 CMO 2025 中均表现出金牌水平的性能
- 注：论文评估了 CMO 2025 的英文版。IMO 2025 和 CMO 2025 的问题以及推理代码可在 github.com/deepseek-ai/DeepSeek-Math-V2 找到

DeepSeek-V3.2 Architecture

DeepSeek Sparse Attention

DeepSeek-V3.2 的架构与 DeepSeek-V3.2-Exp 完全相同
与 DeepSeek-V3.1 的最后一个版本 DeepSeek-V3.1-Terminus 相比，DeepSeek-V3.2 唯一的架构修改是通过持续训练（Continuous Training）引入了 DeepSeek 稀疏注意力 (DeepSeek Sparse Attention, DSA)
DSA 原型 (Prototype of DSA)
- DSA 的原型主要由两个部分组成：一个 Lightning Indexer 和一个细粒度 Token 选择机制 (fine-grained token selection mechanism)
Lightning Indexer
- 计算查询 Token $\mathbf{h}_{t}\in\mathbb{R}^{d}$ 与前一个 Token $\mathbf{h}_{s}\in\mathbb{R}^{d}$ 之间的索引分数 $I_{t,s}$，确定哪些 Token 将被查询 Token 选择：
  $$I_{t,s}=\sum_{j=1}^{H^{l} }w_{t,j}^{I}\cdot\text{ReLU}\left(\mathbf{q}_{t,j}^{I} \cdot\mathbf{k}_{s}^{I}\right), \tag{1}$$
  - $H^{l}$ 表示 Indexer 头 (indexer heads) 的数量；
  - $\mathbf{q}_{t,j}^{I}\in\mathbb{R}^{d^{l} }$ 和 $w_{t,j}^{I}\in\mathbb{R}$ 来源于查询 Token $\mathbf{h}_{t}$；
  - $\mathbf{k}_{s}^{I}\in\mathbb{R}^{d^{l} }$ 来源于前一个 Token $\mathbf{h}_{s}$
- 出于吞吐量考虑，论文选择 ReLU 作为激活函数
- 鉴于 Lightning Indexer 具有少量头部并且可以在 FPS 中实现，其计算效率非常显著
细粒度 Token 选择机制 (fine-grained token selection mechanism)
- 给定每个查询 Token $\mathbf{h}_{t}$ 的索引分数 $\{I_{t,s}\}$，fine-grained token selection mechanism 仅检索与最高 k 个索引分数对应的键值条目 $\{\mathbf{c}_{s}\}$
- 然后，通过在查询 Token $\mathbf{h}_{t}$ 和稀疏选择的键值条目 $\{\mathbf{c}_{s}\}$ 之间应用注意力机制来计算注意力输出 $\mathbf{u}_{t}$：
  $$\mathbf{u}_{t}=\text{Attn}(\mathbf{h}_{t},\left\{\mathbf{c}_{s}\mid I_{t,s}\in \text{Top-k}(I_{t,:})\right\}). \tag{2}$$
在 MLA 下实例化 DSA (Instantiate DSA Under MLA)
- 出于从 DeepSeek-V3.1-Terminus 进行持续训练的考虑，论文为 DeepSeek-V3.2 基于 MLA (DeepSeek-AI, 2024) 实例化了 DSA
- 在 kernel 层面，为了提高计算效率，每个键值条目必须在多个查询之间共享 (2025)
- 基于 MLA1 的 MQA (Multi-Query Attention) 模式 (Shazeer, 2019) 实现了 DSA，其中每个潜在向量 (MLA 的键值条目) 将在查询 Token 的所有查询头之间共享
- 基于 MLA 的 DSA 架构如图 2 所示
- 详情见：DeepSeek-V3.2 的开源实现以明确指定细节和论文附录

Continued Pre-Training

从一个上下文长度已扩展到 128K 的 DeepSeek-V3.1-Terminus base checkpoint 开始，进行持续预训练，随后进行后训练（最终得到 DeepSeek-V3.2）
DeepSeek-V3.2 的持续预训练包括两个训练阶段
- 对于这两个阶段，训练数据的分布与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致
密集预热阶段 (Dense Warm-up Stage) ：使用一个简短的预热阶段来初始化 Lightning Indexer （预热）
- 在此阶段，论文保持密集注意力，并冻结除 Lightning Indexer 外的所有模型参数
- 为了使 Indexer 输出与主要注意力分布对齐，对于第 $t$ 个查询 Token
  - 先通过对所有注意力头求和来聚合主要注意力分数
  - 然后，沿序列维度对该和进行 L1 归一化以产生目标分布 $p_{t,:}\in\mathbb{R}^{t}$
- 基于 $p_{t,:}$，论文将 KL 散度损失设置为 Indexer 的训练目标：
  $$\mathcal{L}^{l}=\sum_{t}\mathbf{D}_{\text{KL} }\big{(}p_{t,:}\big{|}\text{Softmax }(I_{t,:})\big{)}. \tag{3}$$
- 对于预热，使用 $10^{-3}$ 的学习率
- 只对 Indexer 训练 $1000$ 步，每步包含 $16$ 个 128K Token 的序列，总计 2.1B Token
稀疏训练阶段 (Sparse Training Stage) ： Indexer 预热之后，引入细粒度 Token 选择机制，并优化所有模型参数以使模型适应 DSA 的稀疏模式
- 在此阶段，论文仍然保持 Indexer 输出与主要注意力分布的对齐，但仅考虑被选择的 Token 集合 $\mathcal{S}_{t}=\{s|I_{t,s}\in\text{Top-k}(I_{t,:})\}$：
  $$\mathcal{L}^{l}=\sum_{t}\mathbf{D}_{\text{KL} }\big{(}p_{t,\mathcal{S}_{t} }\big{|}\text{Softmax}(I_{t,\mathcal{S}_{t} })\big{)}. \tag{4}$$
特别注意：作者将 Indexer 输入从计算图中分离 (detach) 出来进行单独优化
- Indexer 的训练信号仅来自 $\mathcal{L}^{l}$，而主要模型的优化仅根据语言建模损失进行
- 在这个稀疏训练阶段，论文使用 $7.3\times 10^{-6}$ 的学习率，并为每个查询 Token 选择 $2048$ 个键值 Token
- 对主要模型和 Indexer 都训练了 $15000$ 步，每步包含 $480$ 个 128K Token 的序列，总计 9437 亿 Token
图 2: DeepSeek-V3.2 的注意力架构，其中 DSA 在 MLA 下实例化
- 绿色部分说明了 DSA 如何根据 Indexer 选择 top-k 的键值条目

Post-Training

持续预训练（continued pre-training）后再执行后训练
DeepSeek-V3.2 的后训练也采用与稀疏持续预训练阶段相同的方式使用稀疏注意力
DeepSeek-V3.2 保持与 DeepSeek-V3.2-Exp 相同的后训练流程，其中包括专家蒸馏和混合强化学习训练
专家蒸馏（Specialist Distillation）
- 对于每项任务，首先开发一个专门针对该特定领域的专用模型
  - 所有专家模型都从同一个预训练的 DeepSeek-V3.2 基础 Checkpoint 进行微调
- 除了写作任务和通用问答外，论文的框架还涵盖六个专业领域：
  - 数学、编程、通用逻辑推理、通用智能体任务、智能体编码和智能体搜索
  - 所有这些领域都同时支持 Thinking 模式和非 Thinking 模式
- 每个专家都通过大规模 RL 计算进行训练
- 使用不同的模型来生成长链 Thinking 推理（ Thinking 模式）和直接响应生成（非 Thinking 模式）的训练数据
  - 专家模型用来为最终 Checkpoint 生成特定领域的数据
  - 实验结果表明，在蒸馏数据上训练的模型达到的性能水平仅略低于领域特定专家，并且通过后续的 RL 训练可以有效地消除性能差距
混合 RL 训练（Mixed RL Training）
- 对于 DeepSeek-V3.2，论文仍然采用 GRPO (DeepSeek-AI, 2025; 2024) 作为 RL 训练算法
- 与 DeepSeek-V3.2-Exp 一样，将推理、智能体和对齐训练合并到一个 RL 阶段
- 这种方法有效地平衡了不同领域的性能，同时避免了通常与多阶段训练范式相关的灾难性遗忘问题
- 对于推理和智能体任务，论文采用基于规则的结果奖励、长度惩罚和语言一致性奖励
- 对于通用任务，论文采用生成式奖励模型，其中每个 Prompt 都有其自己的评估准则（Rubrics RM？）
  
  For general tasks, we employ a generative reward model where each prompt has its own rubrics for evaluation
DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale
- DeepSeek-V3.2 整合了从专家蒸馏出的推理、智能体和对齐数据，并经过数千步的持续 RL 训练以到达最终 Checkpoint
- 为了研究扩展 Thinking 的潜力，开发了一个实验性变体，DeepSeek-V3.2-Speciale
  - 该模型仅在 RL 期间长度惩罚降低的情况下，专门在推理数据上进行训练
  - 作者还整合了来自 DeepSeekMath-V2 (2025) 的数据集和奖励方法，以增强数学证明方面的能力
作者重点强调：在第 3.1 节中介绍如何创建一个稳定的方案来扩大 RL 计算规模，以及在第 3.2 节中介绍如何将 Thinking 整合到智能体任务中的努力
图 3：DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2 在 H800 集群上的推理成本

Scaling GRPO

首先回顾 GRPO 的目标
GRPO 通过最大化以下关于从旧策略 $\pi_{\text{old} }$ 采样得到的一组响应 $\{o_{1},\cdots,o_{G}\}$ 的目标函数来优化策略模型 $\pi_{\theta}$，给定每个问题 $q$：
$$
\mathcal{J}_{\text{GRPO} }(\theta) =\mathbb{E}_{q\sim P(Q),\{o_i\}_{i=1}^{G}\sim\pi_{\text{old} }(\cdot|q)}\Bigg[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}
\min \left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right)-\beta\mathbb{D}_{\text{KL} }\left(\pi_{\theta}(o_{i,t})\parallel\pi_{\text{ref} }(o_{i,t})\right)\Bigg],
$$
- $r_{i,t}(\theta)$ 是当前策略与旧策略之间的重要性采样比率：
  $$
  r_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\text{old} }(o_{i,t}|q,o_{i,<t})}
  $$
- $\varepsilon$ 和 $\beta$ 是分别控制剪切范围和 KL 惩罚强度的超参数
- $\hat{A}_{i,t}$ 是 $o_{i,t}$ 的优势，通过对组内的结果奖励进行归一化来估计
  - 使用一组奖励模型为组中的每个输出 $o_i$ 评一个结果奖励 $R_i$，分别得到 $G$ 个奖励 $R=\{R_1,\cdots,R_G\}$
  - $o_{i,t}$ 的优势通过从输出 $o_i$ 的奖励中减去组的平均奖励来计算，即 $\hat{A}_{i,t}=R_i-\text{mean}(R)$
论文接下来介绍了基于 GRPO 算法的额外更新策略，这些策略可以稳定 RL 的扩展

无偏 KL 估计（Unbiased KL Estimate）：有趣的做法

给定 $o_{i,t}$ 是从旧策略 $\pi_{\text{old} }(\cdot|q,o_{i,< t})$ 中采样的，这里校正 k3 估计器 (Schulman, 2020) 以使用当前策略 $\pi_{\theta}$ 和旧策略 $\pi_{\text{old} }$ 之间的重要性采样比率来获得无偏 KL 估计
$$
\mathbb{D}_{\text{KL} }\big(\pi_{\theta}(o_{i,t})\parallel\pi_{\text{ref} }(o_{i,t})\big)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\text{old} }(o_{i,t}|q,o_{i,<t})}\left(\frac{\pi_{\text{ref} }(o_{i,t}|q,o_{i,<t})}{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}-\log\frac{\pi_{\text{ref} }(o_{i,t}|q,o_{i,<t})}{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}-1\right).
$$
作为此调整的直接结果，该 KL 估计器的梯度变得无偏，从而消除了系统性估计误差，促进了稳定的收敛
这与原始的 k3 估计器形成鲜明对比，特别是当采样到的 Token 在当前策略下的概率远低于参考策略时，即 $\pi_{\theta}\ll\pi_{\text{ref} }$
- 在这种情况下，k3 估计器的梯度会分配不成比例的大且无界的权重来最大化这些 Token 的似然，从而导致噪声梯度更新，这些更新累积起来会降低后续迭代中的样本质量并导致不稳定的训练动态
在实践中，论文发现不同领域受益于不同强度的 KL 正则化
对于某些领域，例如数学，应用相对较弱的 KL 惩罚甚至完全省略它都可以获得改进的性能
详细推到证明见附录

Off-Policy Sequence Masking

为了提高 RL 系统的效率，通常生成大量的 rollout 数据，随后将其分割成多个小批次用于若干次梯度更新步骤
- 但这种做法本质上引入了离策略行为
此外，用于高效数据生成的推理框架通常经过高度优化，其实现细节可能与训练框架不同
- 这种训练-推理的不一致性进一步加剧了离策略的程度
为了稳定训练并提高对离策略更新的容忍度，论文掩码那些引入显著策略分歧的负序列，其衡量标准是数据采样策略 $\pi_{\text{old} }$ 与当前策略 $\pi_{\theta}$ 之间的 KL 散度
论文在 GRPO 损失中引入一个二元掩码 $M$：
$$
\mathcal{J}_{\text{GRPO} }(\theta)=\mathbb{E}_{q\sim P(Q),\{o_i\}_{i=1}^{G}\sim\pi_{\text{old} }(\cdot|q)}\Bigg[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}
\min \left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right)M_{i,t}-\beta\mathbb{D}_{\text{KL} }\left(\pi_{\theta}(o_{i,t})\parallel\pi_{\text{ref} }(o_{i,t})\right)\Bigg],
$$
其中
$$
M_{i,t}=\begin{cases}
0 & \hat{A}_{i,t}<0,\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}\log\frac{\pi_{\text{old} }(o_{i,t}|q,o_{i,<t})}{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}>\delta\
1 & \text{otherwise},
\end{cases}
$$
$\delta$ 是一个控制策略分歧阈值的超参数
注意：这里的 $\pi_{\text{old} }$ 表示推理框架直接返回的采样概率，因此旧策略与当前策略之间的 KL 散度考虑了上述两种离策略来源
同样值得注意的是，论文只掩码具有负优势的序列
直观地说，模型从自身错误中学习受益最大，而高度离策略的负样本可能是有害的，可能误导或破坏优化过程的稳定性
论文通过经验观察到，这种离策略序列掩码操作改善了在某些原本会表现出不稳定性的训练场景中的稳定性
理解：
- 这个做法很常见，主要是当 $A < 0$ 时，原始 PPO 的 Clip 机制无法限制 $\frac{\pi_\theta}{\pi_{\theta_\text{old}}}$ 很大的情况

Keep Routing

混合专家（MoE）模型通过在推理期间仅激活专家模块的子集来提高计算效率
但推理和训练框架之间的差异，加上策略更新，可能导致即使对于相同的输入，在推理和训练期间也产生不一致的专家路由
- 这种不一致性会引起活跃参数子空间的突然变化，从而破坏优化的稳定性并加剧离策略问题
缓解这个问题的方案：
- 作者保留了在推理框架中采样期间使用的专家路由路径 ，并在训练期间强制执行相同的路由路径 ，确保优化相同的专家参数
- 作者发现这种保持路由操作对于 MoE 模型的 RL 训练稳定性至关重要，并且自 DeepSeek-V3-0324 以来已在论文 RL 训练流程中采用

Keep Sampling Mask

Top-p 和 top-k 采样是广泛使用的采样策略，用于提高 LLM 生成的响应质量
在 RL 训练中采用这些策略也是有益的，因为它避免了采样极低概率的 Token（理解：这就避免了使用这些 Token 用作优化目标）
这种截断保持了样本质量，但它引入了 $\pi_{\text{old} }$ 和 $\pi_{\theta}$ 之间动作空间的不匹配
- 这违反了重要性采样的原则并使训练不稳定
解决这个问题的方案：
- 作者在从 $\pi_{\text{old} }$ 采样期间保留截断掩码，并在训练期间将它们应用于 $\pi_{\theta}$，确保两种策略共享相同的动作子空间
根据经验，作者发现将 top-p 采样与保持采样掩码策略结合使用可以有效保持 RL 训练期间的语言一致性

Thinking in Tool-Use

Thinking Context Management

DeepSeek-R1 已经证明，融入 Thinking 过程可以显著增强模型解决复杂问题的能力
- 基于这一见解，作者的目标是将 Thinking 能力整合到工具调用场景中
作者观察到，复制 DeepSeek-R1 的策略会导致显著的 Token 效率低下
- 注：DeepSeek-R1 的策略是在第二轮消息到达时丢弃推理内容
- 这种方法迫使模型在每次后续工具调用时为整个问题冗余地重新推理
为了缓解这个问题，作者开发了如图 4 所示的、为工具调用场景严格定制的上下文管理：
- 仅当对话中引入新的用户消息时，才会丢弃历史推理内容
  - 如果仅追加与工具相关的消息（例如，工具输出），则推理内容在整个交互过程中保留
- 当推理痕迹被移除时，工具调用及其结果的历史记录仍保留在上下文中
特别需要注意：某些智能体框架，例如 Roo Code 或 Terminus，通过用户消息模拟工具交互
- 由于上述上下文管理规则，这些框架可能无法完全受益于论文增强的推理持久性
- 因此，作者建议在此类架构中使用非 Thinking 模型以获得最佳性能
图 4：工具调用场景中的 Thinking 保留机制

Cold-Start

鉴于已有推理数据（非智能体）和非推理智能体数据的可用性，整合这两种能力的一个直接策略是通过精心设计的 Prompting
论文假设模型具备足够的能力来准确遵循明确的指令，从而能够在推理过程中无缝整合工具执行
为了演示冷启动机制的运作（operation），论文选择性地采样训练数据，如附录表 6-8 所示
- 需要注意的是，不同的任务 Prompt 与不同的系统 Prompt 相关联
表 6-8 展示了一个对应于竞赛编程（competitive programming） Prompt 的示例
- 表 6 展示了论文推理数据的一个示例，其中使用系统 Prompt 明确要求模型在最终答案之前进行推理，并使用特殊标签 <think></think> 来标记推理路径
- 表 7 展示了非推理智能体数据的 Prompt ，其中系统 Prompt 包含工具调用的指导
- 表 8 展示了论文设计的系统 Prompt ，用于指导模型在其推理过程中整合多个工具调用
通过这种方式，尽管工具使用模式中的推理可能缺乏鲁棒性 ，但模型偶尔能够生成期望的轨迹 ，从而为后续的强化学习阶段提供基础

Large-Scale Agentic Tasks

多样化的 RL 任务对于增强模型的鲁棒性至关重要
对于搜索、代码工程和代码解释等任务，论文使用现实世界的工具，包括实际的网络搜索 API、编码工具和 Jupyter Notebooks
- 虽然这些 RL 环境是真实的，但所使用的 Prompt 要么从互联网来源提取，要么是合成生成的，而不是从真实的用户交互中获取
对于其他任务，环境和 Prompt 都是合成的
论文使用的智能体任务如表 1 所述
- 表 1：不同智能体任务的描述，包括任务数量、环境类型（真实或合成）和 Prompt 来源（提取或合成）

Search Agent

论文采用基于 DeepSeek-V3.2 的多智能体管道来生成多样化、高质量的训练数据
- 从大规模网络语料库中跨不同领域采样信息丰富的长尾实体
- （一个）问题构建智能体 使用可配置深度和广度参数的搜索工具探索每个实体，将发现的信息整合成问答对
- 具有异构配置（不同 Checkpoint 、系统 Prompt 等）的 （多个）答案生成智能体 为每个提出的 QA 对生成不同的候选响应
- 具有搜索能力的 一个验证智能体 通过多次轮询验证所有答案，只保留真实答案正确且所有候选答案均可验证为错误的样本
- 这些数据涵盖多种语言、领域和难度级别
为了补充这些可验证的样本并更好地反映现实世界的使用情况
- 第一：用来自现有有帮助 RL 数据集的过滤实例来增强数据集，对于这些数据集，搜索工具提供了 measurable benefits
- 第二：开发跨多个质量维度的详细评估准则（rubrics），并采用生成式奖励模型根据这些准则对响应进行评分
- 这种混合方法使得能够同时针对事实可靠性和实际帮助性进行优化

Code Agent

论文通过从 GitHub 挖掘数百万个 issue-Pull Request (PR) pairs，为软件问题解决构建了大规模、可执行的环境
该数据集使用启发式规则和 LLM-based 判断进行了严格过滤，以确保高质量，要求每个条目包含合理的问题描述、相关的 Gold Patch 以及用于验证的测试补丁
论文使用由 DeepSeek-V3.2 驱动的自动化环境设置智能体来为这些 pairs 构建可执行环境
- 该智能体处理包安装、依赖项解决和测试执行
- 测试结果以标准的 JUnit 格式输出，确保跨编程语言和测试框架的一致解析
只有当应用 Gold Patch 后，满足下面的条件，才认为环境成功构建
- non-zero count of false-to-positive（F2P）test cases（表明问题已修复）
  - 即 F2P 数量不为 0：即至少存在一个测试用例曾经失败的，使用 Gold Patch 后成功了
- zero count of pass-to-fail（P2F）test cases（表明没有 regressions）
  - P2F 数量为 0：即没有测试用例曾经成功，使用 Gold Patch 后，失败了
使用此管道，论文成功构建了数万个可重现的问题解决环境，涵盖多种编程语言，包括 Python、Java、JavaScript、TypeScript、C、C++、Go 和 PHP

Code Interpreter Agent

利用 Jupyter Notebook 作为代码解释器来解决复杂的推理任务
作者策划了一组涵盖数学、逻辑和数据科学的多样化问题，每个问题都需要模型利用代码执行能力来得出 Solution

通用智能体（General Agent）【这里的流程还需要再明确】

为了在 RL 中扩大智能体环境和任务规模，作者用了一个自动环境合成智能体，它合成了 1827 个面向任务的环境
- 这些任务难以解决但易于验证
- 合成工作流程主要包括环境和工具集构建、任务合成以及 Solution 生成
具体来说，工作流程如下
- 1）给定一个任务类别（例如，规划旅行行程）和一个配备 bash 和搜索工具的沙盒，智能体首先使用这些工具从互联网生成或检索相关数据，并将它们存储在沙盒数据库中
- 2）智能体合成一组特定于任务的工具 ，每个工具都实现为一个函数
- 3）为了创建既具有挑战性又可自动验证的任务，智能体做如下工作：
  - 首先：基于当前数据库 propose 一个简单任务，同时抽取这个任务的 Python 实现 Solution Function 和 Verification function
    - 对 Solution function 的要求：
      - 第一：这里的 Solution function 仅限于调用工具函数或执行逻辑计算，不能调用其他函数或直接访问数据库 ，确保只能通过工具接口（interface）解决问题
      - 第二：这个 Solution function 产生的结果必须由 Verification function 验证
    - 如果以上 Solution function 验证未通过，智能体将修改 Solution function 或 Verification function ，直到它产生的 Solution function 输出通过 Verification function 验证
  - 然后：智能体迭代地增加任务难度 ，并更新相应的 Solution function 和 Verification function
    - 在此迭代过程中，如果当前工具集不足以解决任务，智能体将扩展工具集
      - 问题：扩展的依据是什么？何时扩展？
  - 问题：是针对同一个问题，逐步提升任务难度？还是针对不同难度的问题，先解决简单问题，再解决复杂问题？
遵循此工作流程，获得了数千个 <环境, 工具, 任务, 验证器>(<environment, tools, task, verifier>) 元组
- 理解：这里的 <environment, tools, task, verifier> 是匹配对齐的，在这个环境 envirnoment 下，用这些工具 tools 能解决的任务 task 和可以验证该任务是否成功的验证器 verifier
然后使用 DeepSeek-V3.2 在该数据集上执行 RL，并仅保留 pass@100 非 0 的实例，最终得到 1827 个环境及其相应的任务（共 4417 个）
下面展示了一个合成的行程规划示例

示例说明：此示例强调，虽然为满足所有约束的行程计划搜索大型组合空间具有挑战性，但检查给定的候选 Solution 是否满足这些约束则相对简单

**合成任务示例：行程规划（An Example of Synthesized Task: Trip Planning）**
我正在计划从杭州开始的三天旅行，需要帮助创建 2025 年 10 月 1 日至 10 月 3 日的行程。
一些重要要求：在整个旅行中，我不想重复任何城市、酒店、景点或餐厅。
另外，请确保你推荐的每家酒店、餐厅和景点实际上都位于我当天将要入住的城市。
关于第二天还有一件事——我正在试图精明地控制预算。如果我最终预订了每晚 800 元人民币或更贵的豪华酒店，那么我需要更加谨慎地控制其他开支：
我在两家餐厅（午餐和晚餐）的总消费应保持在 350 元人民币以下，两家餐厅的评分至少应为 4.0 星，并且下午景点的门票需要低于 120 元人民币。
如果第 2 天的酒店属于中高端范围（500-800 元人民币），那么我有更多的灵活性——我只需要确保我选择的至少一家餐厅评分在 4.0 或更高，并且景点门票应低于 180 元人民币。
对于更经济实惠的酒店（200-500 元人民币范围），我只需要确保至少一家餐厅的评分在 3.2 或以上。你能帮我制定这个行程吗？

**提交结果格式（Submit Result Format）**
```json
[
{"time": "2025-10-01", "city": "city_name", "hotel": "hotel_name", "afternoon_restaurant": "restaurant_name", "afternoon_attraction": "attraction_name", "evening_restaurant": "restaurant_name"},
{"time": "2025-10-02", "city": "city_name", "hotel": "hotel_name", "afternoon_restaurant": "restaurant_name", "afternoon_attraction": "attraction_name", "evening_restaurant": "restaurant_name"},
{"time": "2025-10-03", "city": "city_name", "hotel": "hotel_name", "afternoon_restaurant": "restaurant_name", "afternoon_attraction": "attraction_name", "evening_restaurant": "restaurant_name"}
]

行程规划工具集（Tool Set for Trip Planning）

函数名称	描述
`get_all_attractions_by_city(city)`	获取给定城市的所有景点
`get_all_cities()`	从数据库获取所有城市
`get_all_hotels_by_city(city)`	获取给定城市的所有酒店
`get_all_restaurants_by_city(city)`	获取给定城市的所有餐厅
`get_city_by_attraction(attraction)`	获取给定景点名称的城市
`get_city_by_hotel(hotel)`	获取给定酒店名称的城市
`get_city_by_restaurant(restaurant)`	获取给定餐厅名称的城市
`get_city_transport(city)`	获取给定城市的所有市内交通选项
`get_infos_by_attraction(info_keywords, attraction)`	获取给定景点的指定信息
`get_infos_by_city(info_keywords, city)`	获取给定城市的指定信息
`get_infos_by_hotel(info_keywords, hotel)`	获取给定酒店的指定信息
`get_infos_by_restaurant(info_keywords, restaurant)`	获取给定餐厅的指定信息
`get_inter_city_transport(from_city, to_city)`	获取给定城市对之间的所有交通方式
`get_weather_by_city_date(city, date)`	获取给定城市-日期对的天气
`submit_result(answer_text)`	提交最终答案内容

Evaluation

Main Results

作者在多个 Benchmark 上进行了评估，包括：
- MMLU-Pro (2024)
- GPQA Diamond (2023)
- Human Last Exam (HLE) Text-only (2025)
- LiveCodeBench (2024.08-2025.04)
- Codeforces
- Aider-Polyglot
- AIME 2025
- HMMT Feb 2025
- HMMT Nov 2025 (2025)
- IMOAnswerBench (2025)
- Terminal Bench 2.0
- SWE-Verified (OpenAI, 2024b)
- SWE Multilingual (2025)
- BrowseComp (2025)
- BrowseCompZh (2025)
- $\tau^{2}$-bench (2025)
- MCP-Universe (2025)
- MCP-Mark (EvalSys, 2025)
- Tool-Decathlon (2025)
评估说明及结果：
- 工具使用基准使用标准函数调用格式进行评估，其中模型配置为思考模式
- MCP-Universe (2025) 和 MCP-Mark (EvalSys, 2025)，使用内部环境评估所有模型
  - 因为搜索和 playwright 环境可能与官方设置略有不同
- 论文中，将温度设置为 1.0，上下文窗口设置为 128K tokens
- 对于数学相关任务，如 AIME, HMMT, IMOAnswerBench 和 HLE（理解：其实 HLE 中不全是数学）：
  - 论文使用以下模板进行评估："{question}\n Please reason step by step, and put your final answer within \boxed{}"
    - 理解：这是一个业内目前常用的 Thinking 模板
  - 注：对于 HLE，论文还使用官方模板评估了 DeepSeek-V3.2-Thinking，得分为 23.9
在推理任务上（reasoning tasks）：
- DeepSeek-V3.2 与 GPT-5-high 表现相当，略逊于 Gemini-3.0-Pro
- 与 K2-Thinking 相比，DeepSeek-V3.2 以显著更少的输出 token 获得了相似的分数，如表 3 所示
- 这些性能提升可归因于分配给 RL 训练的计算资源增加
  - 在最近几个月，作者观察到性能的持续改进与 RL 训练预算的延长相关，该预算已超过预训练成本的 $10%$
  - 作者假设额外的计算预算分配可以进一步增强推理能力
  - 论文呈现的 DeepSeek-V3.2 性能受到长度约束奖励模型的限制；在移除该限制后，论文观察到模型性能的进一步提升，详见第 4.2 节
在代码智能体任务中（code agent evaluations）：
- DeepSeek-V3.2 在 SWE-bench Verified 和 Terminal Bench 2.0 上均显著优于开源 LLM
  - 展示了 DeepSeek-V3.2 在现实世界编码工作流程中的潜力
- 关于 Terminal Bench 2.0 的特别说明
  - （如前所述）作者为 “思考模式（thinking mode）” 设计的上下文管理策略目前与 Terminus 不兼容；
  - 因此，报告的 46.4 分是使用 Claude Code 框架实现的
  - 作者也使用 Terminus 在非思考模式（non-thinking mode）下评估了 DeepSeek-V3.2，得分为 39.3
- 对于 SWE-bench Verified，主要得分是使用 DeepSeek 的内部框架获得的
  - 在其他设置（包括 Claude Code 和 RooCode 框架，以及非思考模式）下的鲁棒性测试产生了一致的结果，范围在 72 到 74 之间
对于搜索智能体评估（search agent evaluation）
- 论文使用标准的商业搜索 API 评估论文的模型
- 由于 DeepSeek-V3.2 最大仅支持 128K 的上下文长度，大约 $20%$ 以上的测试用例超过此限制
  - 为了解决这个问题，作者采用了一种上下文管理方法来获得最终分数
  - 注：不使用上下文管理的分数是 51.4
- 更多细节在第 4.4 节提供
在工具使用基准上（tool-use benchmarks）：
- DeepSeek-V3.2 显著缩小了 open-source 与 closed-source LLM 之间的性能差距，但仍低于 frontier 模型
- 对于 $\tau^{2}$-bench
  - 作者使用模型本身作为 User Agent，获得的最终类别分数为 63.8 (Airline), 81.1 (Retail), and 96.2 (Telecom)
- 对于 MCP 基准
  - 作者使用函数调用格式，并将工具输出放在标记为 ‘tool’ 角色的消息中，而不是 ‘user’ 角色
  - 在论文的测试中，作者观察到 DeepSeek-V3.2 经常进行冗余的自我验证，生成了过长的轨迹
    - 这种倾向通常导致上下文长度超过 128K 的限制，特别是在诸如 MCP-Mark GitHub 和 Playwright 评估等任务中
      - 因此，这种现象阻碍了 DeepSeek-V3.2 的最终性能
    - 但集成上下文管理策略可以进一步提高性能
      - 论文将此确定为未来工作的方向和对用户的实用考虑
    - 即使 DeepSeek-V3.2 存在此问题，它仍然显著优于现有的开源模型
  - Notably，由于这些基准中使用的环境和工具集在 RL 训练期间未遇到过 ，观察到的改进证明了 DeepSeek-V3.2 将其推理策略泛化到领域外智能体场景的能力
    - 非思考模型在智能体场景中的评估见附录表 9

Results of DeepSeek-V3.2-Speciale

表 3 表明，DeepSeek-V3.2-Speciale 通过利用增加的推理 token 获得了卓越的性能，在多个基准上超越了最先进的 Gemini-3.0-Pro
Remarkably，如表 4 所示
- DeepSeek-V3.2-Speciale 这个通用模型在 2025 年国际信息学奥林匹克竞赛（IOI）和 ICPC 世界总决赛（ICPC WF）中达到了金牌级别的性能，而无需针对性的训练
- Furthermore，通过结合 Shao 等人 (2025) 的技术，DeepSeek-V3.2-Speciale 模型在复杂的证明任务中表现出色，达到了 2025 年国际数学奥林匹克竞赛（IMO）和中国数学奥林匹克竞赛（CMO）的金牌门槛$^5$
- 详细的评估协议在附录 D 中提供
However，DeepSeek-V3.2-Speciale 的 token 效率仍然显著低于 Gemini-3.0-Pro
- 为了降低部署成本和延迟，作者在官方 DeepSeek-V3.2 的训练中施加了更严格的 token 约束，旨在优化性能与成本之间的权衡
- 作者认为 token 效率仍然是未来研究的一个关键领域

Synthesis Agentic Tasks

在本节中，作者进行消融实验来研究合成智能体任务的效果
论文关注两个问题
- 第一：合成任务对强化学习来说是否足够具有挑战性？
- 第二：这些合成任务的泛化能力如何，即它们能否迁移到不同的下游任务或现实世界环境？
为了回答第一个问题，作者从通用合成智能体任务中随机抽取 50 个实例，并评估用于合成的模型和 frontier closed-source LLM
如表 5 所示，DeepSeek-V3.2-Exp 的准确率仅为 12%，而 frontier closed-source 模型的准确率最多为 62%
- 这些结果表明，合成数据包含了对 DeepSeek-V3.2-Exp 和 frontier closed-source 模型都具有挑战性的智能体任务
为了研究合成数据上的 RL 能否泛化到不同的任务或现实世界环境
- 作者对 DeepSeek-V3.2 的 SFT Checkpoint（记为 DeepSeek-V3.2-SFT）应用 RL
为了排除长 Thinking 链和其他 RL 数据的影响
- 作者仅在非思考模式下对合成智能体任务进行 RL
作者将上述模型与 DeepSeek-V3.2-SFT 和 DeepSeek-V3.2-Exp 进行比较
- 其中 DeepSeek-V3.2-Exp 仅在搜索和代码环境中进行了 RL 训练（即不包含合成数据）
- DeepSeek-V3.2-SFT 则未经过任何 RL 训练
如图 5 所示，在合成数据上进行大规模 RL 在 Tau2Bench、MCP-Mark 和 MCP-Universe 基准上相比 DeepSeek-V3.2-SFT 带来了显著的改进
- 相比之下，将 RL 限制在代码和搜索场景并未改善这些基准上的性能，进一步凸显了合成数据的潜力

Context Management of Search Agent

即使使用扩展的上下文窗口（如 128k），智能体工作流，特别是在基于搜索的场景中，也经常会遇到最大长度限制，从而过早地截断推理过程
- 这个瓶颈抑制了测试时计算潜力的充分发挥
为了解决这个问题，当 token 使用量超过上下文窗口长度的 80% 时，作者引入了上下文管理，采用简单的策略在测试时扩展 token 预算
这些策略包括：
- (1) 总结 (Summary) ：总结溢出的轨迹并重新启动 rollout；
- (2) 丢弃-75% (Discard-75%) ：丢弃轨迹中前 75% 的工具调用历史以释放空间；
- (3) 全部丢弃 (Discard-all) ：通过丢弃之前所有工具调用历史来重置上下文（类似于新的上下文工具 Anthropic (2025a)）
为了比较，论文还实现了一个并行扩展基线：
- 并行最少步骤 (Parallel-fewest-step) ：采样 N 个独立的轨迹并选择步骤最少的轨迹
论文在 BrowseComp 基准 (2025) 上评估这些策略
如图 6 所示：
- 在不同的计算预算下，上下文管理通过允许模型扩展测试时计算、提供更多空间来执行额外的执行步骤，从而带来显著的性能提升
- Summary 将平均步骤从 140 扩展到 364，将性能从 53.4 提高到 60.2；但其整体效率相对较低
- 尽管 Discard-all 很简单，但它在效率和可扩展性方面都表现良好，达到了 67.6 分，与并行扩展相当，同时使用的步骤显著更少
In summary：
- 测试时计算可以通过上下文管理串行扩展，也可以并行扩展，两者都能有效扩展模型的问题解决能力
- 但不同的策略表现出不同的效率和可扩展性
  - Thus，在对模型性能进行基准测试时，考虑实际的计算成本至关重要
  - Meanwhile，寻找串行和并行扩展的最佳组合以最大化效率和可扩展性，仍然是未来工作的一个关键方向

Conclusion, Limitation, and Future Work

论文介绍了 DeepSeek-V3.2，有效弥合计算效率与高级推理能力之间差距
DeepSeek-V3.2 使用 DSA 解决了关键的计算复杂性，同时没有牺牲长上下文性能
（通过增加计算预算）DeepSeek-V3.2 在推理基准上实现了与 GPT-5 相当的性能
论文的大规模智能体任务合成 Pipeline 的集成显著提高了工具使用熟练度，为具有开放 LLM 的鲁棒和可泛化的人工智能智能体开启了新的可能性
高计算变体 DeepSeek-V3.2-Speciale，通过在 IMO 和 IOI 中获得的金牌成就得到了验证，为开放 LLM 树立了一个里程碑
尽管取得了这些成就，与诸如 Gemini-3.0-Pro 这样的 frontier closed-source 模型相比，作者承认存在某些局限性
- 第一：由于总训练 FLOPs 较少，DeepSeek-V3.2 的世界知识的广度仍然落后于领先的专有模型
  - 论文计划在未来的迭代中通过扩大预训练计算来解决这一知识差距
- 第二：token 效率仍然是一个挑战；
  - DeepSeek-V3.2 通常需要更长的生成轨迹（即更多 token）来匹配像 Gemini-3.0-Pro 这样的模型的输出质量
  - 未来的工作将侧重于优化模型推理链的智能密度以提高效率
- 第三，解决复杂任务的能力仍然不如前沿模型，作者将进一步改进论文的基础模型和后训练方案

附录 A： MLA 的 MHA 与 MQA 模式

图 7：MLA 的 MHA 和 MQA 模式示意图
- 对于 DeepSeek-V3.1-Terminus，训练和前填充时使用 MHA 模式，解码时使用 MQA 模式
- 图 7 展示了 MLA 的两个方面（MHA 和 MQA 模式）以及它们之间的转换

附录 B：冷启动模板

表 6：推理数据系统 Prompt 示例。系统 Prompt 要求模型在 <think></think> 标签中输出推理过程
表 7：[工具描述] 和 [工具调用格式] 将被替换为具体的工具和论文设计的工具调用格式
表 8：模型在 Thinking 过程中执行工具调用

附录 C：non-thinking mode DeepSeek-V3.2 智能体能力评估

表 9：DeepSeek-V3.2 非思考模式与思考模式对比
- 表中的终端测试台分数使用 Claude Code 框架评估
- 使用 Terminus 框架的非思考模式终端测试台 2.0 分数为 39.3
非思考模式的性能略逊于思考模式，但仍然具有竞争力

附录 D：IOI、ICPC 世界总决赛、IMO 及 CMO 的评估方法

对于所有竞赛：
- 模型的最大生成长度设置为 128k
- 不使用任何工具或互联网访问，测试严格遵守竞赛的时间和尝试限制
对于 IOI 评估
- 作者根据官方竞赛规则设计了提交策略，规则允许每道题最多提交 50 次，并根据在所有子任务中获得的最高分对每次提交进行评分
- 具体来说：
  - 首先为每道题采样 500 个候选 Solution，然后应用一个多阶段过滤流程
  - 在初始阶段，剔除未能通过提供的样例测试用例或超出长度限制的无效提交
  - 随后，使用 DeepSeek-V3.2-Exp 模型来识别并剔除那些模型明确表示无法或拒绝解决问题的样本
  - 从剩余的有效候选方案中，论文选择具有最长 Thinking 轨迹的 50 个样本进行最终提交
对于 ICPC 评估
- 作者采用了相同的过滤方法，但初始采样规模较小
- 论文为每道题生成 32 个候选 Solution ，并应用相同的过滤标准来选择提交
在 IMO 和 CMO 任务中
- 作者采用 generate-verify-refine 的循环
- 模型迭代地改进其 Solution ，直到获得完美的自我评估或达到最大修订上限，此过程与 Shao 等人 (2025) 的方法相同

附录：Unbiased KL Estimate 的推导

推到也可以参考博客：DeepSeek-V3.2中无偏 KL估计（Unbiased KL Estimate）的一些想法 - Keith Jiang的文章 - 知乎
本节核心目标是说明为何 DeepSeek-V3.2 在策略梯度中将 KL 散度项乘以重要性权重（importance weight），从而实现对 KL 梯度的无偏估计

Background ：带 KL 约束的强化学习目标

考虑 LLM 强化学习中的一般目标函数：
$$
J_{\text{RL} }(\theta; x) = \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ r(x, y) \right] - \beta \cdot D_{\mathrm{KL} }\left[ \pi_\theta(\cdot|x) \parallel \pi_{\theta_0}(\cdot|x) \right]
$$
其中：
- $x$ 是输入（如 prompt）
- $y = (y_1, \dots, y_T)$ 是模型生成的 token 序列
- $r(x, y)$ 是 reward
- $\pi_{\theta_0}$ 是参考策略（通常为初始策略或 SFT 模型）
- $\beta$ 是 KL 正则化系数

自回归模型下的 KL 散度展开

由于语言模型是自回归的，有：
$$
\pi_\theta(y|x) = \prod_{t=1}^T \pi_\theta(y_t|x, y_{ < t})
$$
因此 KL 散度可写为：
$$
\begin{align}
D_{\mathrm{KL} }[\pi_\theta(y|x) \parallel \pi_{\theta_0}(y|x)]
&= \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \sum_{t=1}^T \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right] \\
&= \sum_{t=1}^T \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right] \quad \text{交换期望与求和顺序}
\end{align}
$$
注意到内部只依赖于 $y_{\le t}$，而期望是对整个序列 $y$ 的，所以可以利用全概率公式（联合概率密度分解成 $< t$ 的部分和 $t$ 本身），于是可以将期望分解为：
$$
\mathbb{E}_{y \sim \pi_\theta(\cdot|x)}\left[ \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right]
= \mathbb{E}_{y_{ < t} \sim \pi_\theta(\cdot|x)} \left[ \mathbb{E}_{y_t \sim \pi_\theta(\cdot|x, y_{ < t})} \left[ \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right] \right]
$$
上面中括号里面的内容可以转换成 KL 散度的形式：
$$
\mathbb{E}_{y_t \sim \pi_\theta(\cdot|x, y_{ < t})} \left[ \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right] = D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\theta_0}(\cdot|x, y_{ < t}) \big)
$$
于是第 $t$ 项变为：
$$
\text{Term}_t = \mathbb{E}_{y_{ < t} \sim \pi_\theta(\cdot|x)} \left[ D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\theta_0}(\cdot|x, y_{ < t}) \big) \right]
$$
最终得到：
$$
\begin{align}
D_{\mathrm{KL} }[\pi_\theta(y|x) \parallel \pi_{\theta_0}(y|x)]
&= \sum_{t=1}^T \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\theta_0}(\cdot|x, y_{ < t}) \big) \right] \\
&= \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \sum_{t=1}^T D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\theta_0}(\cdot|x, y_{ < t}) \big) \right] \quad \text{交换期望与求和顺序}
\end{align}
$$

引入旧策略采样（重要性采样）

在实际训练中（如 PPO、GRPO），我们无法直接从当前策略 $\pi_\theta$ 采样（因为参数正在更新），而是从旧策略 $\pi_{\theta_{\text{old} } }$ 采样轨迹 $\{o_i\}_{i=1}^G$
因此，目标函数需通过重要性采样重写，对于任意函数 $f(y)$，有：
$$
\mathbb{E}_{y \sim \pi_\theta(\cdot|x)}[f(y)]
= \mathbb{E}_{y \sim \pi_{\theta_{\text{old} } }(\cdot|x)} \left[ \frac{\pi_\theta(y|x)}{\pi_{\theta_{\text{old} } }(y|x)} f(y) \right]
$$
对自回归模型，重要性权重可分解为 token-level 的形式：
$$
\frac{\pi_\theta(y|x)}{\pi_{\theta_{\text{old} } }(y|x)} = \prod_{t=1}^T \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_{\text{old} } }(y_t|x, y_{ < t})}
$$
但在 PPO/GRPO 实践中，常采用 token-level importance weight，即每一步单独加权（而非整句），这是工程上的近似但有效
进一步理解：这里的 Token-level 重要性权重本是不能拆开的，必须乘起来才能做到在数学上等价？

将 KL 项放入采样期望内（关键步骤）

原目标：
$$
J_{\text{RL} }(\theta;x) = \mathbb{E}_{y\sim\pi_\theta}[r(x,y)] - \beta \cdot \mathbb{E}_{y\sim\pi_\theta} \left[ \sum_{t=1}^T D_{\mathrm{KL},t} \right]
$$
其中
$$ D_{\mathrm{KL},t} = D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\text{ref} }(\cdot|x, y_{ < t}) \big) $$
将奖励和 KL 散度合并为单个期望：
$$
J_{\text{RL} }(\theta;x) = \mathbb{E}_{y\sim\pi_\theta} \left[ r(x,y) - \beta \sum_{t=1}^T D_{\mathrm{KL},t} \right]
$$
现在用 $\pi_{\theta_{\text{old} } }$ 采样，应用重要性采样：
$$
\begin{align}
J_{\text{RL} }(\theta;x)
&= \mathbb{E}_{y\sim\pi_{\theta_{\text{old} } } } \left[ \frac{\pi_\theta(y|x)}{\pi_{\theta_{\text{old} } }(y|x)} \left( r(x,y) - \beta \sum_{t=1}^T D_{\mathrm{KL},t} \right) \right] \\
&= \mathbb{E}_{y\sim\pi_{\theta_{\text{old} } } } \left[ \frac{\pi_\theta(y|x)}{\pi_{\theta_{\text{old} } }(y|x)} \left( r(x,y) - \beta \sum_{t=1}^T D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\text{ref} }(\cdot|x, y_{ < t}) \big) \right) \right]
\end{align}
$$
- 注：这里的 KL 本身依赖于 $\pi_\theta$，重要性权重也依赖 $\pi_\theta$
至此，可以看出，当 $y \sim \pi_{\theta_\text{old}}$ 采样时，重要性权重需要同时对奖励 $r(x,y)$ 和 KL 散度 $\sum_{t=1}^T D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\text{ref} }(\cdot|x, y_{ < t}) \big)$ 进行修正才对

补充分析：k3 估计下的 Token-Level 无偏 KL 估计（DeepSeek-V3.2 的做法）

上述的结果还是按照序列粒度评估的，单独考虑 KL 散度时，其实可以按照 Token-level 来考量
- DeepSeek-V3.2 将 KL 项就是按照 token 分解，并对每个 token 的 KL 使用对应的重要性权重
回忆 k3 估计（一种 KL 的无偏估计器）：
$$
\begin{align}
D_{\mathrm{KL} }[\pi_\theta \parallel \pi_{\text{ref} }] &\approx \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - \log \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - 1 \\
&= \text{k3}
\end{align}
$$
- 性质：对以上 k3 估计求 $a \sim \pi_\theta$ 下的期望，满足
  $$ \mathbb{E}_{a \sim \pi_\theta}[\text{k3}] = D_{\mathrm{KL} }[\pi_\theta \parallel \pi_{\text{ref} }]$$
但在 GRPO 中，样本是从 $\pi_{\theta_{\text{old} } }$ 采的，所以要估计：
$$
\mathbb{E}_{a \sim \pi_\theta} [\text{k3}] = \mathbb{E}_{a \sim \pi_{\theta_{\text{old} } } } \left[ \frac{\pi_\theta(a)}{\pi_{\theta_{\text{old} } }(a)} \text{k3} \right]
$$
但若直接用 $\pi_{\theta_{\text{old} } }$ 采样而不加权，则估计有偏；无偏估计应为：
$$
\begin{align}
\widehat{D}_{\mathrm{KL} }^{\text{unbiased} }
&= \frac{\pi_\theta(a)}{\pi_{\theta_{\text{old} } }(a)} \left( \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - \log \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - 1 \right) \\
&= \frac{\pi_{\text{ref} }(a)}{\pi_{\theta_{\text{old} } }(a)} - \frac{\pi_\theta(a)}{\pi_{\theta_{\text{old} } }(a)} \log \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - \frac{\pi_\theta(a)}{\pi_{\theta_{\text{old} } }(a)}
\end{align}
$$
但 DeepSeek 保留原始 k3 形式并乘以重要性权重：
$$
D_{\mathrm{KL} }[\pi_\theta \parallel \pi_{\text{ref} }]
\approx \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,<t})} \left(\frac{\pi_{\text{ref} }(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - \log \frac{\pi_{\text{ref} }(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - 1 \right)
$$
- 这就是 DeepSeek-V3.2 文章中提到的 Unbiased KL Estimate

无偏性反向证明

上面是正向推导形式，为了方便理解，其实也可以反向证明无偏性
记重要性权重为：
$$
r_{i,t} = \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,<t})}
$$
则有：
$$
\mathcal{L}_{\text{KL} }^{\text{unbiased} }
= r_{i,t} \left( \frac{\pi_{\text{ref} } }{\pi_\theta} - \log \frac{\pi_{\text{ref} } }{\pi_\theta} - 1 \right)
$$
其期望满足：
$$
\begin{align}
\mathbb{E}_{o_{i,t} \sim \pi_{\theta_{\text{old} } } } \left[ \mathcal{L}_{\text{KL} }^{\text{unbiased} } \right]
&= \mathbb{E}_{o_{i,t} \sim \pi_\theta} \left[ \frac{\pi_{\text{ref} } }{\pi_\theta} - \log \frac{\pi_{\text{ref} } }{\pi_\theta} - 1 \right] \\
&= \mathbb{E}_{o_{i,t} \sim \pi_\theta} \left[ \text{k3} \right] \\
&= D_{\mathrm{KL} }[\pi_\theta \parallel \pi_{\text{ref} }] \\
\end{align}
$$
- 因此，DeepSeek-V3.2 文章中提到的 Unbiased KL Estimate 估计形式是无偏的

一些思考

DeepSeek-V3.2 的 Unbiased KL Estimate 的核心思想是：
- 将 KL 散度项视为 reward 的一部分，并对其应用与 policy gradient 相同的重要性采样权重，从而保证 KL 梯度的无偏性
最终，在 GRPO 目标函数中，KL 项变为：
$$
-\beta \cdot \frac{1}{G} \sum_{i=1}^G \frac{1}{ o_i } \sum_{t=1}^{ o_i }
\underbrace{\frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,<t})} \left(\frac{\pi_{\text{ref} }(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - \log \frac{\pi_{\text{ref} }(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - 1\right)}_{\text{Unbiased KL Estimate} }
$$
这使得整个目标函数的梯度在使用旧策略采样时仍保持对真实 KL 的无偏估计，提升了训练稳定性与效果
这种做法比之前的一些丢弃 KL 散度的方法更好，但是否比改变形式的方法更好？

NLP——Agent-Learning-via-Early-Experience

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：Agent Learning via Early Experience, arXiv 202451009, Meta

Paper Summary

论文核心介绍了通过 Early Experience 范式来训练 Agent 的策略
- 提出 Early Experience 作为一种可扩展的、无奖励的范式，在强化学习环境完全准备好之前推进语言智能体
- 通过将智能体自身的动作和结果状态转换为监督，而无需外部奖励信号，论文在八个多样化的环境中取得了一致的增益，涵盖了具身导航、科学实验、长程规划、多轮工具使用和网络导航
- 在此范式下提出的两种方法：隐式世界建模 (implicit world modeling) 和自反思 (self-reflection)
  - 这两种方法可以改善领域内的有效性和领域外的鲁棒性（in-domain effectiveness and out-of-domain robustness），并且在用于热启动（warm-start）强化学习时保持了其优势
  - 在即将到来的经验时代 (era of experience) 中，作者将 Early Experience 定位为构建更强语言智能体的实用和通用基础（practical and general foundation）
思考：
- 论文所谓的隐式世界建模和自反思，侧重于短程轨迹，将这些扩展到解决没有显式奖励的长程信用分配仍然是一个开放的挑战
- 未来的工作将探索（来自原文）
  - 方向一：将 Early Experience 与更丰富的自监督目标相结合 ，利用跨环境迁移，并在持续学习设置中将其与基于奖励的微调相集成
  - 方向二：研究除了论文提出的两种方法之外的其他 Early Experience 实例
  - 论文也希望将该范式扩展到大规模、真实世界的部署中，在那里交互数据被有机地收集并可以驱动策略的持续改进
问题提出：语言智能体的一个长期目标是通过自身经验进行学习和改进，最终在复杂的现实世界任务中超越人类
- 但在许多环境中，使用经验数据通过强化学习来训练智能体仍然很困难
- 这些环境要么缺乏可验证的奖励（例如网站），要么需要低效的 Long-horizon 展开（例如多轮工具使用）
目前大多数智能体依赖于在专家数据上进行监督微调，这种方法难以扩展且泛化能力差
- 这种局限性源于专家 Demonstrations 的本质：只捕捉了狭窄范围的场景，并且让智能体接触到的环境多样性有限
论文通过一种论文称之为 Early Experience 的中间范式来解决这个局限性：
- 由智能体自身行动产生的交互数据，其中产生的未来状态作为监督信号 ，无需奖励信号
在这个范式中，论文研究了使用这种数据的两种策略：
- (1) 隐式世界建模（Implicit World Modeling） ，它使用收集到的状态来使策略基于环境动态；
- (2) Self-Reflection ，智能体从其次优行动中学习以改进推理和决策制定
论文在八个不同的环境和多个模型系列中进行评估
论文的方法持续提高了有效性和领域外泛化能力，突显了 Early Experience 的价值
在具有可验证奖励的环境中，论文的结果提供了有希望的信号，表明 Early Experience 为后续的强化学习奠定了坚实的基础，将其定位为模仿学习和完全由经验驱动的智能体（fully experience-driven agents）之间的实用桥梁
问题：为什么不试试 IWM 和 Self-Reflection 同时生效的策略？

Introduction and Discussion

自主智能体(Autonomous agents) (1995; 1997) 长期以来一直是人工智能的核心目标，旨在无需人工干预的情况下，在复杂环境中感知、行动和学习以完成目标
随着语言智能体 (2024;) 的出现，这一愿景正变得越来越现实，这些智能体构建在大语言模型 (2024) 之上
- 凭借从大规模预训练中获得的知识以及语言接口的灵活性，语言智能体现在被应用于广泛的环境中
- 它们可以浏览网站和移动应用程序 (2023; 2024;)，控制各种工具 (2024)，并辅助科学研究 (2025;)，显示出作为下一代智能系统基础的强大潜力
构建此类语言智能体 ，一个有前途的解决方案是强化学习 ，即通过优化环境返回的期望累积奖励来训练智能体
- 这种范式使得像 AlphaGo (2016) 这样的传统智能体在具有明确定义环境和奖励结构的领域（如 Atari 游戏 (2013) 和围棋游戏）中实现了超人的性能，呼应了语言智能体新兴的 经验时代 (2025) 的愿景
- 但将强化学习应用于现实世界的语言智能体目前仍然极具挑战性
  - 许多感兴趣的环境缺乏可验证或密集的奖励信号 ，特别是在开放式设置中，比如网站，平台不暴露真实反馈
    - 例如，一个表单可能看起来提交成功，但智能体没有收到任何关于每条信息是否填写正确的指示
  - 此外，多轮工具使用环境中的任务通常涉及长的交互序列 (2025)，结果延迟或模糊 ，使得信用分配和训练低效且不稳定
作为一种变通方法，目前大多数语言智能体转而使用监督微调 (2023; 2025;) 在专家策划的数据上进行训练
- 这种范式通过学习人类 Demonstrations 来规避对奖励信号的需求，智能体使用静态数据集将状态映射到行动
- 虽然监督微调训练起来简单高效，但它有其固有的局限性
  - 在此范式下的智能体在训练期间不与环境交互；它不观察自身行动的结果
  - 这限制了它从失败中学习、改进其决策制定或泛化到未见情况的能力 (2025)
- 此外，这种方法假设数据是专家或接近最优的，然而扩展高质量的人类 Demonstrations 既昂贵又难以持续
- 更关键的是，它将智能体锁定在一个被动的角色中，受限于其训练数据的想象力和覆盖范围，而不是主动地从自身经验中学习
鉴于这些局限性以及前述可靠奖励信号通常不可用，我们遇到了一个问题：如何训练智能体从其自身经验中成长 ，无需任何外部奖励信号呢？
受这些局限性启发，论文引入了 Early Experience 范式，作为模仿学习和强化学习之间的中间地带，如图 1 所示
- 在这种设置中，智能体不仅从人类策划的数据中学习，还从其自身在环境中提出的行动所驱动的未来状态中学习
- 这些未来状态是智能体自身的经验，并且可以转化为监督信号，使其能够直接从其行动的后果中成长，而无需依赖外部奖励信号
论文探索了两种将这些未来状态转化为监督的策略：
- (1) 隐式世界建模 ：使用收集到的未来状态来帮助智能体建立对环境动态的内部表征，使其通过预测未来状态来更好地理解环境
- (2) Self-Reflection ：引导智能体将其行为与专家 Demonstrations 进行比较，识别次优决策，并提取经验教训以改进未来的决策制定
这两种策略共享相同的原则：在缺乏外部奖励的情况下，智能体自身的行动及其产生的未来状态仍然可以构成经验，作为直接的监督来源
- 通过将由其自身行动产生的未来状态转化为学习信号，语言智能体可以在不依赖额外人类数据或外部奖励的情况下持续改进
论文在八个不同的环境中全面评估 Early Experience，涵盖具身导航、网络导航、多轮工具使用、 Long-horizon 规划和多领域 API 任务，并使用多种基础架构
- 在所有设置中，两种方法都一致地优于纯模仿学习基线，在成功率上平均绝对增益为 +9.6 ，在领域外泛化上平均绝对增益为 +9.4
- 此外，在具有可验证奖励的环境中，使用 Early Experience 方法训练的检查点初始化强化学习，与标准的模仿学习热启动相比，能带来显著更强的性能，最终成功率提高了 +6.4
- 这表明 Early Experience 阶段带来的性能增益可以延续到强化学习后最终模型的性能上
除了这些经验性收益之外，论文的分析表明， Early Experience 实现了仅通过模仿学习无法获得的能力
- 它能有效扩展，仅用一半甚至更少的专家数据就能达到相当或更优的性能
- 该范式可无缝应用于更大的模型，在不同规模上保持其有效性
这些结果表明， Early Experience 不仅仅是模仿学习的替代品，而且是通向强化学习的一个实用且可扩展的桥梁，既带来了有效性的即时收益，也为 经验时代(era of experience) 的训练机制带来了长期益处
论文的贡献总结如下：
- (1) 论文倡导并将 Early Experience 范式形式化，作为构建自主语言智能体的模仿学习和强化学习之间的一个实用且可扩展的桥梁
  - 它使智能体能够将其自身经验转化为学习信号，而无需依赖外部奖励，并且可以无缝集成到现有的训练流程中
- (2) 论文在此范式下提出并系统研究了两种训练策略：
  - 隐式世界建模，通过直接从收集的经验中建模环境动态来增强决策制定；
  - Self-Reflection ，从智能体自身行动中提炼细粒度的经验教训
- (3) 论文在八个不同的环境和多个模型系列中进行了全面评估
  - 论文的方法持续提高了任务有效性、领域外泛化能力和下游强化学习性能，在多个基准测试中取得了最先进的结果，并通过详细分析提供了可行的见解

Preliminaries

论文将语言智能体决策制定问题形式化为马尔可夫决策过程 (MDP, 1957)，这为论文的 Early Experience 范式提供了数学基础
论文考虑一个由下面元组定义的 MDP
$$ \mathcal{M}=(\mathcal{S},\mathcal{A},T,R,\gamma,\rho_{0})$$
- 其中 $\mathcal{S}$ 表示状态空间，$\mathcal{A}$ 表示行动空间
- 状态转移函数 $T\colon \mathcal{S}\times \mathcal{A}\to \Delta(\mathcal{S})$ 支配状态动态，其中 $\Delta(\mathcal{S})$ 表示 $\mathcal{S}$ 上的概率单纯形
- 奖励函数 $R\colon \mathcal{S}\times \mathcal{A}\to \mathbb{R}$ 在可用时提供反馈信号，尽管在许多现实世界设置中，此函数在训练期间可能未知或不可验证
- $\gamma\in [0,1]$ 是折扣因子，$\rho_{0}\in \Delta(\mathcal{S})$ 指定了初始状态分布
在语言智能体环境中：
- 状态 $s\in \mathcal{S}$ 编码智能体可访问的环境配置，例如网页内容、工具输出或文本环境描述
  - 理解：还包括了之前的所有 Prompt 吧
- 行动 $a\in \mathcal{A}$ 对应于离散选择，例如点击元素、调用工具或生成文本响应
- 智能体维护一个由 $\theta$ 参数化的策略，将状态映射到行动分布 (1992)：
  $$ \pi_{\theta}\colon \mathcal{S}\to \Delta(\mathcal{A}) $$

Learning without Rewards

现实世界语言智能体环境中的一个关键挑战是缺乏可靠的奖励信号
- 许多环境要么完全缺乏可验证的奖励，要么仅在长的交互序列之后提供稀疏、延迟的反馈
这促使论文从替代的监督源中学习
给定一个专家 Demonstrations 数据集
$$ \mathcal{D}_{\text{expert} }=\{(s_{i},a_{i})\}_{i=1}^{N}$$
- 其中 $a_{i}$ 表示在状态 $s_{i}$ 下的专家行动
模仿学习 (1991; 1996; 2017) 旨在最小化监督学习损失：
$$ \mathcal{L}_{\text{IL} }(\theta)=-\sum_{i=1}^{N}\log \pi_{\theta}(a_{i} \mid s_{i}). $$
然而，这种方法会遭受分布偏移并且缺乏对行动后果的认知
分布偏移的发生是因为智能体学习到的策略 $\pi_{\theta}$ 在部署时不可避免地会偏离专家策略，导致训练数据未覆盖的状态，其中错误会复合 (2011)
智能体缺乏对行动后果的认知，因为它从未观察到当其采取非专家行动时会发生什么；它只看到专家状态-行动对，而没有体验替代选择的后果
这限制了其从错误中恢复或推理某些行动为何失败的能力 (2010)

Early Experience

论文引入了 Early Experience 范式，在这种范式中，语言智能体通过与环境进行无奖励但信息丰富的未来状态交互来改进
为了建立直观理解，考虑一个学习在网络上预订航班的语言智能体
- 在传统的模仿学习中，它只看到成功预订的专家演示
- 而有了 Early Experience ，智能体还会探索当它点击不同的按钮或错误填写表格时会发生什么，观察错误消息、页面变化和其他结果
  - 这些观察结果成为了没有显式奖励的学习信号
- 从专家轨迹开始，智能体在每个访问状态提出自己的动作，通过探索（Thrun, 1992）收集额外的环境反馈

Notation for Early Experience

对于专家数据集 $\mathcal{D}_{\text{expert} }=\{(s_{i},a_{i})\}_{i=1}^{N}$ 中的每个专家状态 $s_{i}$，论文定义一个候选动作集 $\mathcal{A}_{i}=\{a_{i}^{1},a_{i}^{2},\ldots,a_{i}^{K}\}$，其中论文从初始策略 $\pi_{\theta}(\cdot \mid s_{i})$ 中采样 $K$ 个 alternative 动作
- 论文在分析中也包括专家动作 $a_{i}$
对于专家动作 $a_{i}$，执行它会跳转到下一个状态 $s_{i+1}$
- 对于每个 alternative 动作$a_{i}^{j}\in \mathcal{A}_{i}$ ，在环境中执行它会从转移函数 $T(s_{i},a_{i}^{j})$ 中采样得到一个下一个状态 $s_{i}^{j}$
- 这些下一个状态捕捉了在状态 $s_{i}$ 采取动作 $a_{i}^{j}$ 的直接后果，反映了环境中的变化，例如更新的 DOM 结构、新的工具输出、错误消息或任务进展
论文将这些交互收集到一个 rollout 数据集中：
$$\mathcal{D}_{\text{rollout} }=\{(s_{i},a_{i}^{j},s_{i}^{j})\mid i\in[N],j\in[K]\},$$
- 其中每个三元组表示一个状态、在该状态采取的一个 alternative 动作以及产生的下一个状态
- 所有 alternative 动作 $a_{i}^{j}$ 都与专家动作 $a_{i}$ 不同 ，允许智能体从其自身提出的动作中体验多样化的状态转移
  - 这个 rollout 数据集 $\mathcal{D}_{\text{rollout} }$ 提供了丰富的监督信号，而不需要显式的奖励
- 下一个状态 $\{s_{i}^{j}\mid j\in[K]\}$ 通过环境响应编码了关于动作质量的隐式反馈，使智能体能够从专家和非专家行为的后果中学习
图 2：两种 Early Experience 方法的概述
- 隐式世界建模（左）用 alternative 动作和预测的下一个状态增强专家轨迹，在部署前训练策略以内化转移动态
- Self-Reflection（右）用自我生成的解释 $c_{1}$ 增强专家动作，训练策略对其自身决策进行推理和修正
- 两种方法都使用初始策略（LLM）提出的 alternative 动作
- alternative 动作的数量（$K$）是一个超参数；为简洁起见，图中仅展示了一个
基于第 3 节的符号，论文利用专家数据集 $\mathcal{D}_{\text{expert} }=\{(s_{i},a_{i})\}_{i=1}^{N}$ 和 rollout 数据集 $\mathcal{D}_{\text{rollout} }=\{(s_{i},a_{i}^{j},s_{i}^{j})\mid i\in[N],j\in[K]\}$ 来在同一 Early Experience 原则下开发两种不同的训练方法
- 关键的洞见是，由非专家动作产生的下一个状态 $s_{i}^{j}$ 提供了有价值的监督信号，而无需显式奖励
- 论文现在描述论文的两种 Early Experience 方法如何利用这个数据集

Implicit World Modeling

论文将世界建模制定为一个辅助预测任务 ，帮助智能体从其自身的 Early Experience 中内化环境动态
在论文的设定中，状态完全用自然语言表示，这允许论文将下一个状态（Next-State）预测建模为一个标准的 Next-Token 预测目标
受先前将 LLM 训练为世界模型（2025）的工作启发，论文使用 rollout 集 $\mathcal{D}_{\text{rollout} }$ 中的下一个状态作为语言智能体策略 $\pi_{\theta}$ 的直接训练信号
- 例如，在网络上预订航班时，模型可能预测输入无效日期后的页面状态，从作为下一个状态自然语言表示的文本错误消息中学习
- 这种设计移除了对单独模块的需求，并自然地契合了 LLM 微调范式
对于每个 rollout 三元组 $(s_{i},a_{i}^{j},s_{i}^{j})\in \mathcal{D}_{\text{rollout} }$，论文构建一个预测任务，其中模型以状态-动作对 $(s_{i},a_{i}^{j})$ 作为输入，并学习预测产生的下一个状态 $s_{i}^{j}$
- 论文将训练目标定义为一个 Next-Token 预测损失：
  $$\mathcal{L}_{\text{IWM} }=-\sum_{(s_{i},a_{i}^{j},s_{i}^{j})\in \mathcal{D}_{\text{rollout} } }\log p_{\theta}(s_{i}^{j}\mid s_{i},a_{i}^{j}),$$
- 其中 $p_{\theta}$ 表示语言模型的输出分布
- 注意，论文对状态预测（在世界建模期间）和动作预测（在策略执行期间）使用相同的模型参数 $\theta$，允许策略直接内化环境动态
这个训练目标鼓励模型捕捉环境行为中的规律性，包括常见的转移、副作用和无效动作结果
- 与用于规划的推理时世界模型不同，论文的隐式 (implicit) 表述将预测信号直接集成到策略学习中，作为监督学习或下游优化之前的轻量级预热
- 它将智能体暴露于多样化的非专家行为中，提高了对分布偏移的鲁棒性，并减少了对脆弱专家轨迹的依赖
- 在实践中， rollout 数据通常比 $\mathcal{D}_{\text{expert} }$ 大一个数量级
- 论文采用一个两阶段流程 ：
  - 首先用 $\mathcal{L}_{\text{IWM} }$ 训练以内化粗略动态
  - 然后在 $\mathcal{D}_{\text{expert} }$ 上微调（即 $\mathcal{L}_{\text{IL} }$）

Self-Reflection

论文将 Self-Reflection 制定为一种机制，使智能体能够从其自身的探索性结果中学习
智能体不仅仅依赖专家状态-动作对 ，而是在每个状态将专家动作与其策略中采样的 alternative 动作进行比较，利用产生的下一个状态生成自然语言解释 ，说明为什么专家选择更好
- 这些解释比单独的专家动作提供了更丰富、可转移的监督，利用了 LLM 在处理语言方面的优势，以内化能够跨任务泛化的决策原则
具体来说
- 对于每个专家状态 $s_{i}$，论文首先执行专家动作 $a_{i}$ 以获得专家下一个状态 $s_{i+1}$
- 对于每个 alternative 动作 $a_{i}^{j}$（其中 $j\in\{1,…,K\}$）
  - 论文先获得相应的下一个状态 $s_{i}^{j}$
  - 然后提示一个语言模型生成一个思维链 $c_{i}^{j}$ ，根据其结果状态 $s_{i+1}$ 和 $s_{i}^{j}$ 之间的差异，解释为什么专家动作 $a_{i}$ 优于 alternative 动作$a_{i}^{j}$
  - 这个提示旨在引发自然语言推理，突出 $a_{i}^{j}$ 中潜在的局限性或低效性，并以观察到的实际状态转移为基础
- 产生的三元组 $(s_{i},a_{i}^{j},c_{i}^{j})$ 被收集到一个数据集 $\mathcal{D}_{\text{refl} }$ 中
- 然后论文训练智能体在给定状态 $s_{i}$ 的条件下 ，联合预测思维链和专家动作 ，使用在连接的目标序列 $c_{i}^{j}\circ a_{i}$ 上的 Next-Token 预测损失：
  $${\cal L}_{\rm SR}=-\sum_{(s_{i},a^{j}_{i},c^{j}_{i})\in{\cal D}_{\rm refl} }\log p_{\theta}(c^{j}_{i},a_{i}\mid s_{i}),$$
- 其中 $p_{\theta}$ 表示语言模型的输出分布，与智能体的策略 $\pi_{\theta}$ 对齐
在实践中，论文将 Self-Reflection 数据 ${\cal D}_{\rm refl}$ 与专家数据集 ${\cal D}_{\rm expert}$ 混合 ，并使用标准的 Next-Token 预测损失来训练模型
- 思维链推理仅为 Self-Reflection 训练数据生成 ，并且只要专家轨迹提供了原始的思维链推理，论文就在所有使用 ${\cal D}_{\rm expert}$ 训练的模型中保留它
- 这种联合训练设置平衡了来自演示的 grounded 决策和来自探索性结果的对比性洞见
  - 理解：即专家决策和自己的探索性决策之间的对比性不同
    
    This joint training setup balances grounded decision-making from demonstrations with contrastive insights from exploratory outcomes.
从这两个来源学习鼓励模型超越死记硬背的模仿，并发展出更可泛化的决策标准 ，举个例子来说：
- 在 WebShop 中，当专家动作是“点击 15 美元的蓝色衬衫”时，一个 alternative 动作可能是“点击 30 美元的红色衬衫”
- 生成的反思可能是：“虽然红色衬衫符合颜色偏好，但它超过了查询中指定的 20 美元预算限制。蓝色衬衫既满足了风格要求，也符合预算限制。”
- 这教会了模型优先考虑约束条件，这是一个可以超越这个特定项目的经验教训。论文在下面展示了跨环境使用的提示模板

Self-Reflection 提示模板 (Self-Reflection Prompt Template)

你将看到一个需要你在多个可能动作之间进行选择的情境。你的任务是分析该情境，并提供关于论文为何决定采取专家动作的推理

*   **情境描述 (\\(s_{i}\\)):** {Situation Description}
*   **专家动作 (\\(a_{i}\\)):** {Expert Action}
*   **预期结果 (\\(s_{i+1}\\)):** {Future State of Expert Action}
*   ** alternative 动作(alternative 动作Actions):**
    1.  动作 \\(a^{1}\_{i}\\): {Alt Action 1}, 结果状态 \\(s^{1}\_{i}\\): {State 1}
    2.  动作 \\(a^{2}\_{i}\\): {Alt Action 2}, 结果状态 \\(s^{2}\_{i}\\): {State 2}
    3.  ...
提供一个详细的 **Self-Reflection** (self-reflection)，作为你对此情境推理过程的 **内心独白** (internal monologue)。你的独白应该：
1.  分析情境和目标
2.  比较可能的动作，解释为什么每个可能不那么优化
3.  证明为什么专家动作最合适，以预期结果为基础
4.  突出情境中任何相关的线索、约束或后果

**指南 (Guidelines):**
*   严格保持在提供的信息范围内
*   避免关于自己是 AI 的元评论
*   使用自然的、逐步的推理
*   专注于逻辑决策

**输出 (Output):** 直接写出 Self-Reflection 独白，不要额外的标题、免责声明或外部注释

隐式世界建模和 Self-Reflection 都遵循相同的原则 ：
- 将智能体自身的动作和产生的未来状态转化为可扩展的监督，从而实现更可泛化的语言智能体策略

Experiments

论文通过在此范式中提出的两种方法，在一套多样化的语言智能体环境中评估 Early Experience 范式，测试其有效性（第 5.2 节）、领域外泛化能力（第 5.3 节）以及与事后强化学习的兼容性（第 5.4 节）
表 1：跨三个主要领域和任务类型使用的基准
- “# Traj.” 是论文收集/使用的专家轨迹数量；
- “# $\mathcal{D}_{\text{expert} }$” 是用于模仿学习的状态-动作（SA）对的结果计数
- 破折号表示该值在论文的数据构建文本中未指定

Experiment Setup

环境 (Environments)
- 论文在八个语言智能体环境上进行实验，涵盖了广泛的领域和任务格式，包括多轮工具使用 (2025; 2025; 2025)、网络导航 (2022; 2024)、具身模拟 (2021)、科学模拟 (2022) 和 Long-horizon 规划 (2024a)
- 这些基准的详细信息列于表 1，更多细节可在附录 B 中找到
模型和专家轨迹 (Models and Expert Trajectories)
- 论文使用来自两个模型系列的三个经过指令调优的模型来评估 Early Experience ：
  - Llama-3.2-3B、Qwen-2.5-7B 和 Llama-3.1-8B
- 无论是否使用 Early Experience 增强，每个模型都在固定数量的专家演示上进行训练
- 这些演示来自跨环境的不同来源
- 更多细节在附录 B 中提供
训练和评估 (Training and Evaluation)
- 论文在所有设置中使用一致的提示格式和解码策略
- 由于环境在数据大小和视野上有所不同，论文做了以下工作：
  - 首先为每个环境探索模仿学习基线的优化步数 ，并选择在验证集上具有最低训练损失和最佳性能的检查点
  - 然后固定这个步数预算 ，并在论文的方法中保持不变地使用它以确保公平比较
    - 对于隐式世界建模 ，论文从 WM 目标的一个 Epoch 开始 ，然后继续进行监督更新 ，使得总更新次数等于模仿预算 ，没有额外的步骤
    - 对于 Self-Reflection ，论文训练与模仿学习相同数量的 Epoch
    - 所有实验在训练和评估时最多使用 8 个 H100 GPU
- 在评估方面，论文报告每个基准的主要原生指标，并遵循其官方验证器。完整的评估结果请参考附录 B

Effectiveness

表2，八个基准的结果
- 除非另有说明，所有值均为成功率（%）
- 相对于模仿学习的改进以绿色显示
- Prompt 表示指令调优模型的性能
- IWM 和 SR 分别表示隐式世界建模和 Self-Reflection
- 附录 B 显示了完整结果
论文在跨越多轮工具使用、网络导航等的八个环境中进行评估（表 2）
- 所有模型都使用相同的提示格式和解码策略为每个环境进行训练
总体收益 (Overall Gains)
- Early Experience 在几乎所有设置和两种模型大小下都优于模仿学习
- 隐式世界建模 (IWM) 在结构化模拟器和事务性站点中产生稳定收益（ALFWorld/ScienceWorld +2.3 到 +5.5；WebShop +11.3 到 +18.4）
- Self-Reflection (SR) 在任务需要多步推理和约束满足时带来最大的提升（TravelPlanner +12.8 到 +15.0；ScienceWorld +13.3；BFCLv3 在 3B 模型上 +8.0）
- 即使在最具挑战性的设置中，收益也是一致的，尽管绝对值较小（WebArena +1.2 到 +3.6；SearchQA +0.6 到 +3.3）
动作空间视角 (Action-Space Perspective)
- 在论文的八个环境中，动作空间分为三种情况
  - 封闭且有限的动作集（例如，用于具身导航的 ALFWorld ，用于科学程序的 ScienceWorld ，以及用于行程规划的 TravelPlanner）从一开始就呈现一个小的、固定的允许动作列表
    - 在这里，IWM 帮助策略内化转移规律，而 SR 为 Long-horizon 计划增加了有针对性的修正（例如，在 TravelPlanner 上的巨大 SR 收益）
  - 结构化但大的动作集（例如，用于终端任务的 BFCLv3 和用于多域 API 的 Tau-Bench）需要从许多带有参数的类型化工具中选择并正确排序它们
    - 在这种情况下， Early Experience 减少了工具的误用并改善了排序；
    - 当策略错误主要是逻辑性错误时，SR 通常更有帮助
  - 开放动作集（例如，具有自由形式搜索查询的 SearchQA，具有细粒度网页元素交互的 WebArena）允许大量可能的动作，通常是组合性质的
    - 这些是最困难的机制；尽管如此， Early Experience 仍然通过将探索性 rollout 转化为密集的训练信号而产生了可靠的收益，而不需要奖励
观察空间视角 (Observation-Space Perspective)
- 论文的基准涵盖了广泛的观察复杂性
  - 在低端，ALFWorld 提供场景的简短、干净的文本描述；ScienceWorld 产生正在进行的实验的程序性读数
  - 中等范围的设置，如 BFCLv3 和 Tau-Bench，返回结构化的 API 模式和工具输出，必须正确解析和排序
  - 在高端，WebArena 将嘈杂的、细粒度的网页状态呈现为可访问性树，需要对数百个类似 DOM 的元素进行推理
  - 论文在附录 B 中提供了每个环境的示例
- 在状态转移一致且可预测的设置中（例如，WebShop），IWM 通过帮助智能体内化环境动态和改进下一个状态预测而表现出色
- 当失败主要源于推理错误或需要修复 Long-horizon 计划时（例如，TravelPlanner, ScienceWorld），SR 通过明确地将动作与专家轨迹进行比较而带来更大的收益
- 总的来说，无论环境的观察多么简单或复杂， Early Experience 方法都持续地将智能体自身的动作和结果状态转化为有效的监督信号，从而在没有奖励的情况下改进策略学习
Takeaway
- Early Experience 可靠地将智能体自身的动作和结果状态转化为超越专家演示的可扩展监督
- 在此范式下的两种方法都在动作空间和观察复杂性截然不同的环境中加强了策略
- 这些效应在三个模型大小和三个环境家族中均成立，证明了论文 Early Experience 范式的强大可泛化可行性

Out-Of-Domain Generalization

为了评估训练策略在领域内性能之外的鲁棒性，论文在具有领域外（out-of-domain，OOD）splits 的环境中探索 Early Experience ，使用与第 5.2 节评估相同的检查点
在设置方面，对于 ALFWorld 和 SearchQA，论文遵循其原始工作中定义的 OOD splits
对于 BFCLv3：
- 领域内设置是多轮 base；
- OOD 设置是对多轮 missing function、missing argument 和long context 进行平均
论文训练模型的结果如表 3 所示，从中我们可以得出以下观察结果
- OOD 分数在所有任务中相对于领域内都有所下降，但 Early Experience 持续恢复了差距的很大一部分
- 在几种情况下，相对收益大于领域内收益（例如，SearchQA），这表明将自身的 rollout 转化为监督可以使策略为演示未覆盖的状态做好准备
- 方法上的模式反映了领域内趋势：
  - IWM 在动态稳定的地方帮助最大（例如，ALFWorld）；
  - SR 在分布偏移改变工具可用性或参数时最强（例如，BFCLv3）；
  - IWM 和 SR 都在检索偏移下（例如，SearchQA）对所有模型大小都有帮助
表 3：领域外评估结果（%）；相对于模仿学习的改进以绿色显示；Prompt 表示指令模型的性能；IWM 和 SR 分别指隐式世界建模和 Self-Reflection
Takeaway
- Early Experience 在多样化的 OOD 机制下提高了鲁棒性：
  - IWM 在动态稳定时表现出色，SR 在偏移影响工具可用性、参数或检索分布时表现出色
- 在几个基准测试中（例如，ALFWorld, SearchQA），OOD 收益达到或超过领域内收益，这强化了智能体自身的经验提供了超越专家演示的监督

Reinforcement Learning Following Early Experience

为了评估一旦环境提供可验证奖励（“经验时代”的决定性条件）时 Early Experience 的影响，论文在第 5.2 节训练的模型后附加了一个强化学习阶段
论文专注于三个有奖励可用的基准：WebShop、ALFWorld 和 SearchQA，并采用广泛使用的 GRPO 算法 (2024)
- 其超参数和训练步数与既定方案 (2025; 2025) 相同
- 不同运行（runs）之间唯一变化的因素是初始化 ：模仿学习 (IL)、隐式世界建模 (IWM) 或 Self-Reflection (SR)
图 3 的结果显示了一个清晰的模式：
- 从 Early Experience 开始总是能产生更高的 RL 后性能上限
  - 在某些情况下，性能差距在 RL 训练期间增大（例如，ALFWorld）；
  - 在其他情况下，差距缩小但从未逆转
- 即使应用相同步数的奖励优化，IL 起点也很少能达到 Early Experience 起点的最终性能
- 为了完善实验（completeness），论文还直接从原始预训练模型运行 GRPO，没有任何监督阶段
  - 这在所有任务中表现最差，并显示出不稳定的训练动态，突显了强初始化的必要性
- 带有详细指标的完整结果可以在附录 B 中找到
Takeaway
- Early Experience 充当了人类数据时代和经验时代之间的 中期训练桥梁 (mid-training bridge)
- Early Experience 产生的策略在没有奖励的情况下已经表现强劲，并且放大了后续 RL 的收益
- 在相同的 RL 方案下，Early Experience 起点实现了更高的最终性能
- 这些结果表明，一旦 RL 基础设施在新的环境中可用，Early Experience 可以立即解锁进一步的收益，而无需从头开始重新训练

Discussion

Comparison to Baselines

论文将 Early Experience 与两种替代方案进行比较，这些方案在不执行 alternative 动作 或观察动作引发的状态的情况下注入额外的监督或推理信号
- 理解：讨论这里是想介绍两种相似的方案，作为 Early Experience 的补充比较
这使论文能够测试论文的增益是否可以通过简单地扩展推理时间或在训练期间添加未经实际验证的推理来匹配
- (I) 长思维链 (Long CoT) （test-time scaling）
  - 受测试时扩展 (2024) 的启发，论文的目标是帮助特定模型在推理时进行更广泛的推理
    - 这些特定模型包括：在专家轨迹上训练的、通常缺乏推理过程的指令微调模型和纯模仿模型
  - 提示基线使用现成的指令微调模型和先前工作中的官方提示，这些提示通常产生短思维链 (2022)
  - 论文的长思维链变体通过在 Training splits 上进行更重的提示搜索，当存在标记推理结束的分隔符 Token（例如 </think>）时，截断它以鼓励继续生成，来强制在动作生成之前进行更长的推理
    - 问题：这样也可以吗？如果人家已经不想思考了，模型会输出什么奇怪的东西呢？比如很可能重复输出吧？
  - 论文报告每个环境上的最佳结果
- (II) STaR 风格数据 (STaR-style data) （reasoning without alternative actions or resulting states，没有 alternative 动作或结果状态的推理）
  - 遵循 STaR (2022)：
    - 让模型为每个状态下的专家动作生成一个原理，并仅保留预测动作与专家动作匹配的情况
    - 然后在（状态，原理，动作）元组（(state, rationale, action) tuples）上进行微调，如公式 $\ref{eq:self_refl}$ 所示
  - 注意：没有使用 alternative 动作及其结果状态（因为这些原理在实际结果中仍然是未经实际验证的）
  - 其他超参数：
    - 搜索用于原理合成的提示词变体并保留最强的配置
    - 优化步骤的数量与论文的自反思方法相同
表 4 显示，两种 Early Experience 方法在任务和模型大小上都实现了最大的增益
- 对于长思维链 ，更重的提示搜索和推理长度控制可以适度地改善经过模仿训练的提示基线 ，但在更困难的设置中，增益迅速消失
- 一旦仅在缺乏固有原理的专家轨迹上进行微调，模型就失去了维持连贯长形式推理的能力，因此尽管在思维-动作边界处进行了截断，扩展的思维链常常漂移或崩溃为无效/偏离策略的动作
- 对于 STaR 风格数据，生成的动作与专家动作之间的匹配率很低，留下的可用训练数据很少
- 保留的原理是未经实际验证的，从未在环境中测试过，并且经常幻觉工具或事实，因此对它们进行微调甚至可能降低性能
- 相比之下， Early Experience 直接将策略自身的非专家 rollout 转换为来自观察到的下一状态的经实际验证的监督，产生了这些替代方案无法匹配的稳健改进

Impact of Amount of Human Data

为了检查性能如何随专家监督的数量而变化，论文在保持总训练预算固定的情况下，改变用于启动 Early Experience 的 Demonstrations 数量
图 4 (a) 显示，在每个数据水平上， Early Experience 都保持对模仿学习的一致领先
- 在 WebShop 上，仅使用 $1/8$ 的 Demonstrations 就已经超过了在全量数据集上训练的模仿学习；
- 在 ALFWorld 上，使用 $1/2$ 的 Demonstrations 也保持了同样的优势
IWM 和 SR 都随着更多专家数据而改进，但相对于模仿学习的优势仍然很大，这强调了 Early Experience 提供了超越仅靠 Demonstrations 所能提供的额外监督信号

Impact of Branching Factor

为了研究分支因子对论文方法的影响，论文还对分支因子 $K$（在生成 Early Experience 时每个专家状态 roll out 的 alternative 动作数量）进行了消融
图 4 (b) 显示，随着 $K$ 的增加，IWM 稳步改进，这与学习更丰富的转移规律相一致
SR 在中小 $K$ 值时改进，并且在非常大的 $K$ 值时可能非单调：
- 比较许多 alternative 动作偶尔会包括其他导致成功的动作，减少了与专家的对比，并且当前模型在单个上下文中推理许多 alternative 动作和结果的能力有限
总的来说，两种变体在大部分时间都有所改进，IWM 倾向于更大的 $K$，而 SR 在适中的 $K$（例如 2–4）下效果最好

Model Scaling

论文研究了 Early Experience 的益处是否随着模型缩放而持续
在 WebArena 上，论文比较了 $\bigcirc$ Llama-3.2-3B、$\bigcirc$ Llama-3.1-8B 和 $\bigcirc$ Llama-3.3-70B
由于计算资源有限，70B 模型的微调对所有方法都使用参数高效的 LoRA (2022)，保持相同的秩和更新步数；对于 IWM，在第二阶段继续使用相同的适配器，使得总可调参数和计算量与模仿学习相匹配
- 问题：Meta 缺少计算资源？
图 5 显示， Early Experience 在每个规模上都优于模仿学习，即使对于 70B 模型，差距仍然存在
- 绝对性能随规模提升，而 Early Experience 检查点 consistently 占据顶部曲线，表明其提供的监督是对模型规模的补充而非替代
- 即使仅使用 LoRA 更新，IWM 和 SR 都带来了稳定的增益，证明该方法在受限计算预算下仍然有效
- 论文在附录 B 的表 10 中观察到 Qwen 模型的类似趋势

Training Paradigms for Language Agents

SFT
- 大多数语言智能体 (2022; 2023; 2024; 2025) 使用监督微调在专家轨迹上进行训练，在强化学习文献中也称为模仿学习或行为克隆，特别是在复杂设置中，例如网络 (2024) 或操作系统 (2024)
- 这些轨迹可能是人工标注的 (2022; 2023)，也可能是由遵循精心设计的人类工作流程的更强语言模型合成的 (2024; 2025)
- 尽管合成 Demonstrations 增加了覆盖范围，但它们只提供了增量收益，因为底层的监督信号仍然是静态的
- 监督微调提供了密集的、无奖励的监督信号，但仍然受限于高质量 Demonstrations 的成本 (2025)，并且当智能体面对新状态时显得脆弱 (2025; 2023)
RL
- 强化学习通过试错来训练智能体，优化长期奖励 (1998)
- 尽管它在控制、棋盘游戏和 Atari (2013; 2016; 2020; 2020) 中取得了令人印象深刻的结果，但在语言智能体设置中有效应用强化学习仍然很困难 (2025;)
- 当前的研究仍处于探索阶段：
  - 许多研究依赖于由更大的教师模型产生的近似奖励 (2025;)，或者依赖于精心策划的奖励函数 (2025) 和手动调整的训练方案 (2025) 来保持稳定性
- 支持的基础设施也尚未成熟；
  - 大多数现实世界的语言智能体环境缺乏可靠的模拟器、标准的重置机制和可扩展的评估平台 (2025;)，使得语言智能体的大规模强化学习训练成本高昂且脆弱
- 总之，这些局限性表明，语言智能体的可扩展强化学习尚未成熟，这促使需要一个范式来桥接当前基于模仿的训练和未来完全由经验驱动的学习

Supervision from Exploration

强化学习中的传统探索-利用策略收集轨迹，随后通过奖励反馈进行优化
诸如 Hindsight Experience Replay (2017) 之类的方法通过将已实现的结果改造为目标来稠密化稀疏奖励，但仍然需要许多语言智能体环境中不可用的可验证奖励函数
论文的设置以不同的方式使用探索：交互轨迹成为直接的监督信号，完全消除了对奖励或手动重新标注的需求

World Models

传统上的世界模型 (1991; 2018; 2020, 2021) 是指：在观察到的状态转移上进行训练，以预测未来状态和奖励，允许基于模型的强化学习减少样本复杂度并支持推测性规划
最近的工作通过使用大语言模型作为世界模型 (2025; 2023) 将此思想扩展到语言智能体 ，这通过语言介导的模拟提高了下游性能
- 尽管不同时代的世界模型具有不同的状态表征，但这些系统中的大多数仍然将世界模型视为一个 独立的 模拟器，呼应了经典的控制流程
- 相比之下，论文将交互轨迹本身视为智能体策略的辅助预测任务，在精神上类似于中期训练 (2025)
- 通过训练策略来预测其自身的未来状态，模型内化了粗略的环境动态，而无需独立的模拟器
- 这种 隐式（implicit） 世界模型将智能体锚定在其操作上下文中，提供了轻量级的热身以便更快地适应，并避免了显式模拟器所需的规划开销

Self-Reflection

Self-Reflection (2023;) 最初是作为一种提示技术引入的，允许大语言模型通过多轮自我对话 (2024) 或精心设计的提示词变体 (2023) 来修改其答案 ，而无需更新模型参数
后续工作在有奖励的轨迹上总结经验教训（例如，短期情景记忆 (2025)）到提示中，以指导未来的推理
- 但后来的研究 (2024; 2023) 表明，这类推理时方法在无法获得外部反馈（例如奖励）时常常失败
另一条研究线使用大语言模型为正确答案生成原理，将这些原理视为训练目标以引导推理 (2022; 2023)
- 论文将这种反思的观点扩展到 缺乏显式奖励（explicit rewards are absent） 的智能体设置中
- 论文的方法训练智能体反思其自身的次优行动及由此产生的轨迹，然后使用反思出的原理作为训练信号来改进决策制定

附录 B：Implementation details

在本节中，论文为每个环境提供实现细节
对于每个环境，论文呈现包含所有可用指标的表格
此外，论文还展示了由 Llama-3.1-8B 合成的具体训练示例（例如，用于 Self-Reflection 的数据）

B.1 ALFWorld

论文遵循 ALFWorld (2021) 的默认 split，使用 Verl-Agent (2025) 框架下的 TextWorld (2019) 设置
- 论文从 ALFWorld 的专家轨迹中提取了 21,031 个状态-动作对来构成 $\mathcal{D}_{\text{expert} }$
- 鉴于数据集中任务可解性的完整性，这些专家轨迹是最优的
对于隐式世界建模，论文使用 $\mathcal{D}_{\text{rollout} }$ 来增强 $\mathcal{D}_{\text{expert} }$
- 在每个状态，论文从可行动作列表中（排除专家动作）均匀地、无放回地采样 8 个非专家动作
- 包含专家动作，总计为隐式世界建模产生 $21,031 \times 9 = 189,279$ 个三元组
对于 Self-Reflection ，论文通过提示模型解释其自身决策来构建数据
- 对于每个状态，论文使用相同的策略模型（温度设为 1.0）来提出最多 3 个 alternative 动作
  - 对提出的动作进行规范化处理，并仅保留唯一动作
- 如果提出的动作不在该状态的可行动作空间内，将其丢弃，并改为从剩余未选中的可行动作中均匀随机采样
- 最终的提示要求模型根据当前状态和可用工具，证明为什么专家动作优于采样得到的 alternative 动作
在训练期间，论文使用批大小为 16，学习率为 $1\mathrm{e}{-5}$，并使用 LlamaFactory (2024b) 训练 2 个 Epoch
- 对于强化学习训练，论文采用 Verl-Agent 中的默认超参数 ，并在其论文（理解：应该是 ALFWorld 论文）报告的相同 split 上进行评估
- 对于评估，论文将最大提示长度设置为 4096，最大响应长度设置为 1024，温度设置为 0.4
完整结果见表 5

B.2 WebShop

根据 WebShop (2022) 官方发布的人类演示数据，论文提取了 1,571 条人类轨迹，并将其转换为 Verl-Agent (2025) 格式，得到了 15,464 个状态-动作对，构成了用于模仿学习的 $\mathcal{D}_{\text{expert} }$
对于隐式世界建模，数据包含两个部分
- 第一部分直接来源于 $\mathcal{D}_{\text{expert} }$，通过将每个步骤重新格式化为世界建模格式，其中输入包含历史上下文和当前步骤采取的动作，目标是执行该动作后下一个状态的离线文本摘要（平均长度 345 个字符）
- 第二部分是通过用非专家动作增强每个专家状态获得的：
  - 让相同的策略在温度 {0.5, 0.8, 0.9} 下提出动作，并额外为每个状态均匀随机采样最多五个可行动作
  - 然后将增强的样本转换为与第一部分相同的世界建模格式：
    - 对于每个非专家动作，论文在 WebShop 环境中执行它以获得后续观察结果，并推导出下一个状态的离线文本摘要
  - 所有候选动作都经过规范化和去重处理
  - 将这些与专家动作合并后，论文得到了 122,954 个三元组用于隐式世界建模
对于 Self-Reflection ，论文构建的提示包括专家动作以及 3 个 alternative 动作 ，并要求模型根据当前状态和可行动作证明为什么专家动作更优
- 由于原始专家轨迹中的某些动作是次优的 ，论文应用了一个简单的质量过滤器 ，仅保留那些任务能在少于 15 步内完成的轨迹中的动作 ，从而得到了 6,235 个反思示例
  - 问题：仅保留那些任务能在少于 15 步内完成的轨迹中的动作与某些动作是次优的有什么关系？
- 对于每个这样的状态，alternative 动作的抽取方式与世界建模中相同，即混合模型提出的动作（使用上述温度）和均匀采样的可行动作；
- 经过规范化和去重后，论文保留 3 个不同的 alternative 动作
- 论文有意保留多样化的 alternative 动作集合，包括可行但无帮助的动作、空响应以及偶尔的无效动作，以帮助模型学习更清晰的决策边界
在训练期间，论文使用批大小为 4，学习率为 $1\mathrm{e}{-5}$，并使用 LlamaFactory (2024b) 进行训练
- 对于强化学习训练，论文采用 Verl-Agent 中的默认超参数，并在其论文报告的相同 split 上进行评估
完整结果见表 6

B.3 BFCLv3

论文遵循 BFCLv3 (2025) 基准测试的默认多轮函数调用 split ，该 split 将任务分类为Base、Long-Context、Miss Function 和Miss Parameters
- Base 包含基础但多样的多轮交互 ，其中所有必要信息 ，包括用户请求、先前轮次的执行结果和探索性函数输出，都可用于完成任务而无歧义
- Long-Context 通过引入大量无关数据（例如，数百个文件或数千条记录）来评估模型在冗长、信息密集的环境中保持准确性的能力 ，从而测试其在认知负荷下提取基本细节的能力
- Miss Function 评估模型能否识别出没有可用函数可以满足用户请求的情况；
  - 当该问题被识别出来时，将在后续轮次中提供缺失的函数 ，并要求模型适应新可用的能力（理解：即函数）
- Miss Parameters 检查模型是否能够检测到用户请求中缺少基本参数且无法从系统状态推断的情况，提示其请求澄清而不是做出无根据的假设
由于默认的 BFCLv3 基准测试不提供训练集 split ，为了构建训练集，论文专门使用Base 类别中的样本
- 论文随机选择其中 75% 的样本（125 条轨迹）作为用于模仿学习的专家轨迹 $\mathcal{D}_{\text{expert} }$
  - 每条轨迹包含多个步骤和交互，论文将其进一步拆分为单独的步骤以提高训练效率
对于隐式世界建模，数据包含两个部分
- 第一部分直接来源于 $\mathcal{D}_{\text{expert} }$，通过将每条轨迹重新格式化为世界建模格式，其中给定历史上下文和上一步的动作，模型预测下一个状态
  - 这产生了 1,264 个训练样本
- 第二部分是通过增强生成的：
  - 对于专家轨迹中的每个状态，论文让目标模型除了专家动作外再采样 10 个 alternative 动作 ，按照与 ALFWorld 相同的过程 ，产生了 11,904 个样本
对于 Self-Reflection，论文通过提示模型解释其决策来构建训练数据，强调在当前状态下，包括先前定义的工具集在内，为什么专家动作优于其他可用动作
- 在过滤掉一小部分生成的结论动作与专家动作不匹配的低质量样本后，论文获得了 1,200 个训练样本
论文使用 LlamaFactory (2024b)，以批大小 16、学习率 $1\mathrm{e}{-5}$ 进行训练
- 为了推理效率，论文采用 vLLM 基础设施
完整结果见表 7

B.4 Tau-Bench

论文使用 Tau-Bench 中的零售任务（retail task）进行实验，在 Tau-Bench 中，零售任务分为训练集和评估集，分别包含 495 和 115 个任务
论文采用一个高性能的指令调优 LLaMA 系列模型在训练集上收集专家轨迹
- 对于每个任务，推理温度设置为 1.0，并生成四条轨迹
  - 选择最终奖励为 1 的轨迹作为专家轨迹；
  - 如果存在多条这样的轨迹，则随机选择一条；
  - 如果没有轨迹达到奖励 1，则丢弃该任务
- 此过程为 452 个任务生成了专家轨迹，总共得到 5,239 个（观察，动作）（〈observation, action〉）对
对于世界模型数据，论文使用目标模型为专家轨迹中的每个观察提出五个动作候选
- 为了避免重复的工具调用并促进探索 ，论文从每个专家观察对应的工具集中移除专家动作中使用的工具，允许模型从剩余工具中进行选择
- 然后，在环境中执行所选动作以获得下一个观察
  - 每个生成的（专家观察，动作，下一个观察）三元组都包含在世界模型的训练数据集中
对于 Self-Reflection 数据，对于每个（专家观察，专家动作）对，论文从相应的五个世界模型数据点中选择三个 alternative 动作，并将其呈现给模型本身进行反思，提示其解释选择专家动作背后的原理
- 论文过滤掉一小部分低质量的反思样本，最终得到总共 5,233 个训练实例
论文采用 LLamaFactory (2024b) 作为训练代码库
- 对于模仿学习，论文以 1e-5 的学习率训练 6 个 Epoch
- 对于隐式世界模型学习，论文以 5e-6 的学习率训练 1 个 Epoch
- 对于 Self-Reflection ，论文以 1e-5 的学习率进行 6 个 Epoch 的 SFT
- 在所有训练配置中，批大小固定为 16
由于 Tau-Bench 不包含更细粒度的指标，论文在表 2 中报告了完整表格

B.5 SearchQA

专家轨迹收集 论文从 MuSiQue 训练数据集中选择了所有的 3 跳和 4 跳任务，以及随机抽样的 1,438 个 2 跳任务，以适应需要多步推理来解决复杂问题的场景
- 最终，论文总共有 7,000 个任务
- 由于训练数据缺乏细粒度的推理轨迹，例如 Jin 等人 (2025) 所使用的思考-搜索-答案结构，论文使用 Search-R1 模型来生成专家数据
  - 具体来说，论文将温度设置为 1.0，并为每个任务生成 5 条轨迹，仅保留最终答案与真实答案匹配的轨迹
  - 为了减少冗余，论文每个任务最多保留 2 条正确轨迹。此过程产生了 2,082 条轨迹，包含总共 7,691 个状态-动作对用于模仿学习
世界建模数据构建 与 Jin 等人 (2025) 的观察一致，论文发现直接预测检索到的文档内容会产生次优性能，因为许多 Token 与搜索查询不直接相关
- 为了解决这个问题，论文首先指导模型总结检索到的文档，然后让模型预测这些摘要而不是全文
- 对于专家轨迹中的每个状态，论文让模型在温度为 1.0 的情况下生成 30 个 alternative 动作，使其能够从自身的 Early Experience 中实质性地内化环境动态
- 如果生成的动作无效，即查询没有包含在 $<$search$><$/search$>$ 标签内，论文返回反馈：”格式错误！如果需要外部知识，你必须将搜索查询包含在 $<$search$><$/search$>$ 标签内。”
Self-Reflection 数据构建 为了构建 Self-Reflection 训练数据集，论文为每个状态随机采样 2 个 alternative 动作
- 对于每个实例，提示模型基于当前状态、专家动作、 alternative 动作以及与这些动作相关的检索文档，生成解释为什么专家动作优于 alternative 动作的细粒度推理
- 此过程产生了 7,691 个包含详细推理过程的训练数据
训练细节 论文采用 LLamaFactory (2024b) 作为代码库，并使用 ZeRO-3 在 4 个 H100 GPU 上进行全参数调优
- 对于模仿学习和 Self-Reflection ，论文以 $1\times 10^{-5}$ 的学习率、8192 个 Token 的上下文窗口、每个 GPU 批大小为 2 进行 3 个 Epoch 的训练，同时将梯度累积步数设置为 16
- 对于隐式世界模型学习，论文利用来自专家轨迹的世界模型数据，使其与模仿学习数据集达到 1:1 的比例，并在相同设置下进行训练
- 对于强化学习，论文采用 Search-R1 代码库并在 8 个 H100 GPU 上进行训练
  - 所有设置与 Jin 等人 (2025) 保持一致，除了论文使用 F1 分数作为奖励，将最大检索交互次数设置为 6，配置上下文窗口为 12,280 个 Token ，并指定最大输出长度为 2,048 个 Token
  - 对于训练数据，论文使用 MuSiQue 数据集中的所有训练任务
完整结果见表 8

B.6 ScienceWorld

论文遵循 ScienceWorld (2022) 的默认 split ，使用 Verl-Agent (2025) 框架下的 AgentGym (2024) 设置
- 从 ScienceWorld 的专家轨迹中，论文提取了 14,506 个状态-动作对来构成 $\mathcal{D}_{\text{expert} }$
- 鉴于数据集中任务可解性的完整性，这些专家轨迹是最优的
对于隐式世界建模，论文使用 $\mathcal{D}_{\text{tollout} }$ 来增强 $\mathcal{D}_{\text{expert} }$
- 在每个状态，论文从可行动作列表中（排除专家动作）均匀地、无放回地采样 3 个非专家动作，并包含专家动作用于隐式世界建模
对于 Self-Reflection ，论文通过提示模型解释其自身决策来构建数据
- 对于每个状态，论文使用相同的策略模型（温度设为 1.0）来提出最多 3 个 alternative 动作（对于 Llama-3.1-8B-Instruct 则为 2 个 alternative 动作）
- 论文对提出的动作进行规范化处理，并仅保留唯一的动作
  - 如果提出的动作不在该状态的可行动作空间内，论文将其丢弃，并改为从剩余未选中的可行动作中均匀随机采样
- 最终的提示要求模型根据当前状态和可用工具，证明为什么专家动作优于采样得到的 alternative 动作
对于所有的训练和评估，论文使用 one-shot example
- 在训练期间，论文使用批大小为 32，学习率为 $5\mathrm{e}{-6}$，并使用 LlamaFactory (2024b) 训练 1 个 Epoch
- 对于评估，论文将最大提示长度设置为 4096，最大响应长度设置为 1024，温度设置为 0.4
由于 ScienceWorld 不包含更细粒度的指标，论文在表 2 中报告了完整表格

B.7 TravelPlanner

论文将 TravelPlanner (2024a) 基准测试适配为一个基于 gym 的环境 ，用于训练语言智能体
- 原始基准测试包含 1,225 个查询，分为训练集（45 个查询）、验证集（180 个查询）和测试集
- 论文使用涵盖不同难度级别（基于旅行持续时间：3、5 或 7 天）和约束复杂性（简单、中等、困难）的多样化规划场景的 45 个训练轨迹
  - 简单查询主要是针对单人的预算约束
  - 中等查询引入了额外的约束，如美食类型、房间类型或房间规则，旅行者人数在 2 到 8 人之间变化
  - 困难查询包括交通偏好以及所有中等级别的约束，包含三个随机选择的困难约束。论文在包含 180 个查询的验证集上进行评估
环境实现 论文将 TravelPlanner 实现为一个具有离散动作空间和字典观察空间的 gym 环境
- 状态表示包括以结构化文本格式格式化的当前规划进度：
  - 查询描述、预算跟踪（初始/已花费/剩余）以及每天显示交通、餐饮、景点和住宿字段的当前计划状态
- 动作是 JSON 对象，包含动作类型（例如，SET TRANSPORTATION, SET MEAL, SET ACCOMMODATION）、天数、字段名称、选定值和成本等字段
  - 动作空间根据参考信息中的可用数据动态生成所有有效动作，包括城市间的航班、具有美食类型和价格的餐厅、景点以及具有房间规则和最低住宿夜数要求的住宿
- 环境实时跟踪预算支出，验证约束条件，并通过状态机维护规划进度，该状态机按顺序推进每个字段
专家轨迹收集 论文使用训练集中的 45 条带标注轨迹作为专家演示 $\mathcal{D}_{\text{expert} }$
- 每条轨迹包含一个完整的多日旅行计划，其中包含交通、住宿、餐饮和景点的真实动作
- 论文使用 SFTConverter 将这些轨迹分解为 1,395 个独立的状态-动作对，该转换器将专家计划条目映射到有效的 gym 动作，同时处理城市名称变化并根据环境约束进行验证
隐式世界建模 对于世界建模数据，论文生成两种类型的训练样本
- 首先，将专家轨迹重新格式化为状态转换格式 ，模型学习在给定当前状态和动作的情况下预测下一个状态
- 其次，论文通过执行专家轨迹中每个状态下所有可用的有效动作（而不仅仅是采样）来执行 exhaustive augmentation，收集全面的状态转换以最大化环境动态的覆盖范围
  - 理解：这里的 exhaustive augmentation 指穷尽式数据增强，访问了所有的有效动作
- 此过程生成了超过 70,000 个状态转换样本，为学习环境动态（包括预算更新、约束评估和计划进展）提供了丰富的监督信息
Self-Reflection 论文通过提示 Llama-3.1-8B-Instruct 生成思维链推理来解释为什么专家动作优于 alternative 动作，从而构建 Self-Reflection 数据
- 对于 1,395 个状态-动作对中的每一个，论文探索最多 30 个替代的有效动作，并生成考虑多个约束的推理：预算限制、住宿的最低住宿夜数、餐厅多样性要求以及往返完成情况
- 推理生成使用温度 0.9 和 8 路张量并行性来产生自然的解释，同时保持逻辑一致性
- 论文不应用额外的过滤，因为推理生成过程已经验证了约束满足情况
- 问题：这里为什么要使用 Llama-3.1-8B-Instruct 而不是目标模型？
训练细节 论文使用 LlamaFactory ，在 8 个 H100 GPU 上使用 DeepSpeed ZeRO-3 进行全参数微调来训练模型
- 对于模仿学习和隐式世界建模，论文以 $1\mathrm{e}{-5}$ 的学习率和余弦调度器训练 5 个 Epoch
- 对于 Self-Reflection ，论文将最大生成长度扩展到 8K Token 以容纳详细的推理
- 所有模型使用 32K 上下文窗口，每个 GPU 批大小为 16
- 对于评估，论文使用 vLLM，在 8 个 GPU 上进行张量并行，并使用贪婪解码以确保可重现性
完整结果见表 9

B.8 WebArena

鉴于 WebArena (2024) 中的完整评估集冗长且包含许多类似任务
- 论文遵循先前的工作 (2024; 2025a) ，在 WebArena-Lite (2024) 上评估论文训练好的智能体，这是一个从原始的 812 个任务中手动挑选出的更高效、更平衡的 165 个高质量、具有挑战性的任务的子集
- WebArena 中剩余的 647 个任务（不包括评估集中的任务）用于智能体训练
为了获取 WebArena 中的专家演示，论文从公开的 WebArena 排行榜上表现最佳的智能体中提取成功的轨迹
- 具体来说，论文选择那些在其观察中包含可访问性树信息的智能体，例如 IBM CUGA (2025), ScribeAgent (2024), Learn-by-Interact (2025) 和 AgentOccam (2024)
- 在过滤掉不成功的轨迹后，论文获得了 554 条成功的轨迹和 7,044 个状态-动作对，构成了 $\mathcal{D}_{\text{expert} }$
对于隐式世界建模 ，为了从专家轨迹中分支出来进行隐式世界建模 ，论文增强 $\mathcal{D}_{\text{expert} }$ 以形成 $\mathcal{D}_{\text{rollout} }$
- 对于 $\mathcal{D}_{\text{expert} }$ 中的每个状态，论文让目标模型（待训练）使用自由形式生成提出 5 个非专家动作，排除任何与专家动作相同的动作
- 对于每个 resulting next state，论文应用一个额外的处理步骤：使用相同的模型，论文生成下一个状态观察的简洁摘要，该摘要以任务为条件，替换原始观察以减少噪声并强调与任务相关的信息。然后，论文将专家动作与采样的动作一起包含进来，创建形式为（当前状态，动作，摘要化的下一个状态）的三元组，最终为每个模型总共产生 $7,044 \times 6 = 42,264$ 个三元组
对于 Self-Reflection ，论文通过提示模型解释在当前状态下为什么专家动作优于采样的 alternative 动作来构建 $\mathcal{D}_{\text{SR} }$
- 论文使用来自 $\mathcal{D}_{\text{rollout} }$ 的相同 5 个 alternative 动作，规范化动作字符串以避免重复，并用随机采样的有效动作替换任何无效动作（例如，引用不存在的 UI 元素）
- 最终的提示词包括当前状态、可行动作和专家动作，并要求模型在任务进度、约束满足和效率方面证明专家选择的最优性
- 论文过滤掉那些解释错误地支持非专家动作的低质量生成内容，留下 3,190 个高质量的 Self-Reflection 示例
所有模型均以 1e-5 的学习率和余弦调度器训练 2 个 Epoch
论文在 WebArena-Lite 上的完整数据报告在表 10 中

NLP——EvoCUA

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：EvoCUA Technical Report, Meituan, 20260122
- Github：github.com/meituan/EvoCUA
- Huggingface：huggingface.co/meituan/EvoCUA-32B-20260105
- OSWorld：os-world.github.io/
- 原作者解读：美团EvoCUA技术报告解读

Paper Summary

对论文的评价和关键认知：
- 论文是研究生同学的作品，实现了 CUA 方向的开源 SOTA，有非常丰富的数据生产经验和 Sense，值得深读
- 虽然没有使用太多 PPO 等高大上的技术，但从文章里面可以看到作者的工作逻辑是非常严谨的，也做的非常深入，靠的是比较全面的调研、深入思考和工程实践能力拿到的最终效果，值得参考
- 论文的核心认知：
  - 先对模型注入广泛的原子能力，再通过后续的训练将原子能力串起来，思路与之前的 $f(g(x))$ 论文类似
  - 数据的质量需要高度保证（去噪非常重要），高质量的数据对应高质量的模型，理解：Garbage in，Garbage out
  - 根据数据的深入分析，构建时识别第一个分叉点，目标是构造 <chosen,rejected> 对用于标准的 DPO 训练，分为两方面构建损失：
    - 范式1：
      - Rejected：旧的错误步骤
      - Chosen：新合成的正确步骤，针对步骤 $t^*$ 动作纠正，用最优的 Chosen 响应 $(z_{w},a_{w})$ 替换 Rejected 的错误 $(z_{l},a_{l})$
    - 范式2：
      - Rejected：之前盲目继续的样本
      - Chosen：反思样本，针对步骤 $t^* + 1$，对错误步骤进行改进（其他更优模型或高温），而不是盲目继续（之前的轨迹会盲目继续）
        
        这里相当于让模型开始反思，从错误中反思重新开始的方式，最终模型能学会思考
  - RFT 和 DPO 数据要使用 On-policy 的
- 论文整体再次体现了数据为王的思路
问题提出：
- 原生计算机使用智能体 (Native Computer-use Agents，CUA) 的发展代表了多模态 AI 领域的重大飞跃
- 但其潜力目前受限于静态数据扩展的约束
现有范式主要依赖于对静态数据集的被动模仿，难以捕捉长时程计算机任务中固有的复杂因果动态
论文介绍了 EvoCUA，一个原生计算机使用智能体模型
- 与静态模仿不同，EvoCUA 将数据生成和策略优化整合到一个自我维持的演进循环中
- 为了缓解数据稀缺问题，论文开发了一个可验证的合成引擎，能够自主生成多样化的任务并附带可执行的验证器
- 为了实现大规模经验获取，论文设计了一个可扩展的基础设施，能够编排数以万计的异步沙箱 Rollout
- 基于这些海量轨迹，论文提出了一种迭代演进学习策略，以有效地将这些经验内化
  - 该机制通过识别能力边界来动态调控策略更新，即强化成功的例程，同时通过错误分析和自我纠正将失败轨迹转化为丰富的监督信号
- 在 OSWorld 基准测试上的实证评估表明，EvoCUA 取得了 $56.7%$ 的成功率，建立了新的开源 state-of-the-art
EvoCUA 显著优于先前最好的开源模型 OpenCUA-72B ($45.0%$)，并超越了领先的闭源权重模型，如 UI-TARS-2 ($53.1%$)
论文的结果强调了该方法的泛化能力：
- 通过从经验中学习驱动的演进范式，在不同规模的基座模型上都能带来持续的性能提升，为推进原生智能体能力建立了一条稳健且可扩展的路径

Introduction and Discussion

能够掌握图形用户界面 (GUIs) 的通才（generalist）智能体的开发，代表了通向人工通用智能的关键里程碑
- 与专用工具不同，这些智能体必须感知复杂的视觉上下文，并在异构应用程序中执行长时程工作流，有效地模拟人机交互
最近的原生视觉语言模型 (VLMs) 已成功地将感知和动作集成到端到端架构中 (2025a, 2025)，但实现人类水平的可靠性仍然是一个重大挑战
- 尽管 UI-TARS-2 (2025a) 和 OpenCUA (2025b) 等 SOTA 模型的，已经建立了基础架构，但进一步的进展越来越受到一个关键瓶颈的限制：依赖静态数据集进行扩展的收益递减
现有的扩展定律主要局限于对固定的、非交互式数据集的被动模仿，无法捕捉现实世界计算机使用中固有的因果反馈
- 克服这一限制需要一个范式转变，即从通过静态轨迹进行数据扩展，转变为通过大规模交互式 Rollout 进行经验扩展
- 动态经验比静态文本提供了更丰富的监督信号，包含了环境反馈以及来自成功和失败的关键 Insight
However，将原始交互转化为自我改进的学习循环存在三个主要挑战：
- 1）可验证的数据合成（Verifiable data synthesis） ：
  - 仅仅合成文本 Query 通常会导致幻觉，智能体会为不可行的任务生成看似合理的计划
  - 因此，需要一个稳健的框架来确保生成的 Query 严格基于可解决的状态，符合可验证奖励的原则
- 2）可扩展的交互基础设施（Scalable interaction infrastructure） ：
  - 高吞吐量的经验生产需要一个统一系统，将大规模环境模拟与高性能强化学习相结合，以支持持续、异步的交互
- 3）高效的训练方案（Efficient training recipe） ：
  - 给定一个大规模的交互空间，无限制的探索在计算上是不可行的
  - 有效的学习需要一种遵循策略的方法，模仿人类学习动态：巩固已掌握的例程（routines），同时集中关注智能体在成功和失败之间摇摆的边界任务
为了解决这些问题，本报告介绍了 EvoCUA ，一个原生计算机使用智能体，它通过从经验中学习驱动的演进范式应对这些挑战
- 如图 2 所示，通过将可验证合成、高吞吐量基础设施和演进优化相统一，EvoCUA 建立了一个自我维持的循环，持续将合成计算转化为高质量的智能体能力
论文的核心贡献有三方面：
- 可验证合成引擎 (Verifiable Synthesis Engine)
  - 为了克服数据瓶颈同时确保严格的环境基础，论文首先提出了一个合成引擎，能够 自主生成多样化任务及其可执行验证器(executable validators)
  - 超越纯文本生成，论文分析原子能力以合成自包含的任务定义
  - 这种“生成即验证(Generation-as-Validation)”的方法消除了自然语言奖励的模糊性，为智能体提供精确的、确定性的监督信号
- 可扩展交互基础设施 (Scalable Interaction Infrastructure)
  - 为了支持所需的大规模经验扩展，论文构建了一个高性能基础设施，集成了大规模沙箱环境
  - 这个系统不仅仅是轨迹生成，它充当一个动态训练场，提供策略优化所必需的实时反馈和状态转换
  - 通过架构一个完全异步的 Rollout 机制，论文将模拟与模型更新解耦，使系统能够编排数万个并发的交互会话
- 通过从经验中学习的演进范式 (Evolving Paradigm via Learning from Experience)
  - 论文引入了一个以从经验中学习为中心的迭代训练范式，以确保效率
  - 该过程始于一个注重多样性的冷启动，以 建立稳健的先验
  - 随后，通过持续的环境探索，模型对比成功与失败的轨迹，以巩固有效模式并纠正错误
  - 这个动态反馈循环将累积的经验转化为模型参数，产生一个精确而稳健的执行策略
实证评估表明，EvoCUA 在 OSWorld 基准测试上 (2024) 取得了 state-of-the-art 成功率 $56.7%$，显著超越了之前的开源 SOTA，OpenCUA-72B (45.0%) (2025b)，并超过了领先的闭源模型 UI-TARS-2 (53.1%) (2025a)
- 此外，演进式经验学习范式被证明是一条可泛化的路径，在不同大小的多个基座模型上带来了一致的增益

Preliminaries

在介绍论文的 EvoCUA 之前，论文在下文中提供 CUA 的基本任务定义
形式上，CUA 可以看作是一个具有显式推理的部分可观测马尔可夫决策过程 (POMDP) (1998)，它通过可验证任务合成和策略优化的协同演进循环进行优化

POMDP

给定一个自然语言指令 $g$，交互过程被建模为一个元组 $(S, A, \mathcal{Z}, \mathcal{O}, \mathcal{P}, \mathcal{R}_{syn})$
- 其中 $S$, $A$, $Z$, $\mathcal{O}$, $\mathcal{P}$, 和 $\mathcal{R}_{syn}$ 分别表示状态空间、动作空间、思维空间、观测、转移核和奖励函数
细节如下所示：
- 状态空间 $(S)$ (State Space) ：
  - 环境被建模为具有底层计算机系统状态 $s_t \in S$，包括应用程序状态、系统配置和隐式的系统级上下文
    - 智能体无法直接观测到这个状态，智能体感知到从该状态渲染出的视觉观测（对应于时间 $t$ 的屏幕图像）
      $$ I_t \triangleq \mathrm{Render}(s_t) \in \mathbb{R}^{H \times W \times 3} $$
      - $H$, $W$ 分别表示屏幕截图的高度和宽度
      - 渲染的屏幕截图 $I_t$ 是智能体观察环境的唯一感知接口
- 观测 $(O)$ (Observation) ：
  - 在步骤 $t$，智能体接收原始视觉观测 $o_t \in \mathcal{O}$，其中
    $$ o_t \triangleq I_t \in \mathbb{R}^{H \times W \times 3} $$
  - 为了解决部分可观测性，论文定义了交互历史
    $$h_t = \{g, o_0, z_0, a_0, \ldots , o_{t-1}, z_{t-1}, a_{t-1}\}$$
    - 它作为智能体决策过程的条件上下文
  - 在实际实现中，为了防止上下文窗口溢出，论文遵循 (2025b, 2025a) 执行上下文工程策略
  - 论文将视觉历史限制为最近的五张屏幕截图，并使用结构化的内心独白和动作表示来压缩文本历史，以平衡性能和 token 效率
- 动作空间 $(A)$ (Action Space) ：
  - 论文定义了一个统一的原生动作空间 $A$，它包含基于坐标的鼠标事件 $A_{\mathrm{mouse} }$、键盘输入 $A_{\mathrm{keyboard} }$ 以及用于管理任务执行流的特殊控制 $A_{\mathrm{control} }$ 原语
  - 形式上，论文定义
    $$A = A_{\mathrm{mouse} } \cup A_{\mathrm{keyboard} } \cup A_{\mathrm{control} }$$
- 思维空间 $(Z)$ (Thought Space) ：
  - 论文将推理过程显式地建模为内部思维空间 $Z$
  - 在每个步骤 $t$，智能体在执行动作之前生成一个自然语言推理痕迹(Reasoning Trace) $z_t \in Z$
  - 它作为智能体内部的中间认知状态，用于将后续的物理动作基于当前的视觉上下文
- 策略 $(\pi_\theta)$ (Policy) ：
  - 智能体遵循一个参数化的策略
    $$ \pi_\theta (z_t, a_t \mid h_t, o_t)$$
    - 该策略控制推理和动作选择
  - 在每个步骤 $t$，策略首先生成一个基于当前交互上下文的推理痕迹 $z_t$，随后基于生成的推理选择一个可执行动作 $a_t$
  - 这种顺序生成确保动作执行以显式推理为条件
- 转移 $(\mathcal{P})$ (Transition) ：
  - 环境状态根据状态转移核 $\mathcal{P}(s_{t + 1} \mid s_t, a_t)$ 演化，它捕捉底层计算机系统响应执行的物理动作 $a_t$ 的 Dynamics
  - 给定更新后的状态 $s_{t + 1}$，后续的视觉观测被渲染为 $I_{t + 1} = \text{Render}(s_{t + 1})$
- 可验证奖励 $(\mathcal{R}_{syn})$ (Verifiable Reward (Rsyn)) ：
  - 监督通过可验证合成机制基于执行正确性建立
  - 对于 给定的指令 $g$ ，合成引擎提供一个 可执行的验证器(validator) $V_g$ ，用于评估任务目标是否满足
    - 注意：每个指令都有不同的 Validator
  - 论文基于终止环境状态定义一个稀疏的、二元的、指令条件的奖励：
    $$ \mathcal{R}_{syn}(s_T; g) \triangleq \mathbb{I}[V_g(s_T) = \text{True}]$$
    - 其中 $s_T$ 表示 Episode 终止时的环境状态
  - 这种奖励公式提供了结果级别的监督，无需中间标注

Objective

论文不将训练数据视为静态数据集，而是将其概念化为一个动态分布，该分布根据当前策略快照 $\pi_{\mathrm{old} }$ 进行自适应参数化
优化目标 $J(\theta)$ 被制定为最大化在：由合成引擎 $\mathcal{T}_{syn}$ 编排的耦合课程上的验证率

Theoretical Objective

形式上，论文的目标是最大化在一个任务分布上的期望成功率，该分布根据当前策略的能力 $(\pi_{\mathrm{old} })$ 自适应地演进：
$$J(\theta) = \mathbb{E}_{(g,V_g)\sim \mathcal{T}_{\pi_{\mathrm{old} } }(\cdot |\pi_{\mathrm{old} })}\left[\mathbb{E}_{\tau \sim \pi_\theta (\cdot |g)}[\mathcal{R}_{syn}(s_T;g)]\right],$$
- 其中 $\mathcal{T}_{syn}(\cdot |\pi_{\mathrm{old} })$ 表示合成引擎的分布，它根据智能体的性能动态调整任务复杂性和多样性
- 论文使用 $\tau \sim \pi_{\theta}(\cdot |g)$ 表示在指令 $g$ 下在环境 Dynamics $\mathcal{P}$ 中执行策略 $\pi_{\theta}$ 所诱导出的轨迹
- 理解：这里的 $s_T$ 是轨迹 $\tau$ 中的最后一个状态（终止状态）

Empirical Approximation

由于上述期望没有闭式解，论文通过大规模蒙特卡洛估计进行经验近似
可扩展的交互基础设施维护一个临时的经验池 $\mathcal{B}$，它聚合了高吞吐量的新鲜交互轨迹流：
$$\mathcal{B} = \{(\tau ,V_g)\mid \tau \sim \pi_{\mathrm{old} }(\cdot |g),(g,V_g)\sim \mathcal{T}_{syn}\} ,$$
- 其中 $\pi_{\mathrm{old} }$ 表示驱动成千上万个异步沙箱的策略快照
- 通过使用从 $\mathcal{B}$ 中采样的批次持续更新 $\theta$，论文有效地闭合了可验证合成、大规模执行和策略优化之间的循环
注意：上面的公式表示了经验包括了轨迹 $\tau$ 和验证器 $\V_g$

Verifiable Synthesis Engine

本节介绍一个可验证合成引擎，它专注于克服固有的局限性
- 例如 Reward Hacking ，以及缺乏精确的训练信号
与被动数据收集不同，基于该引擎，我们可以实现在“Generation-as-Validation”范式上的操作，如图 3 所示
形式上，给定一个合成指令 $g$，引擎必须共同生成一个确定性的、可执行的验证器 $V_g$
- 这确保了奖励信号 $\mathcal{R}_{syn}(s_T; g)$ 源自对最终环境状态的严格验证，从而绕过了语义匹配的模糊性
该架构组织成三个级联模块：结构化任务空间构建、智能体双流合成和严格的质量保证

Structured Task Space Construction

为确保合成分布 $\mathcal{T}_{syn}$ 捕捉真实世界计算机使用的复杂性，论文首先建立一个分解为域和资源的结构化任务空间

Hierarchical Domain Taxonomy

作者认为原子能力本质上是可转移的，并能组合形成复杂任务
- 在此原则指导下，论文系统地分类核心桌面应用程序（例如，Web 浏览器、Excel、Word），并将用户行为分解为原子能力
- 这种正交分解使智能体能够通过原始技能的重组泛化到多样化的场景
- 例如，Excel 中的财务分析任务被分解为子技能，如公式操作、数据排序和图表生成
利用分层域分类法，论文合成了涵盖多样化用户角色 (2024) 的广泛任务场景，以确保数据多样性
合成的场景范围从教育工作者设计讲座幻灯片到算法工程师进行技术文献调研

Hybrid Resource Injection

为了弥合模拟与现实的差距，论文对环境的初始状态实施了一种混合策略：
- 参数化合成 (Parametric synthesis) ：
  - 对于结构化数据（例如，产品销售数据），论文利用基于代码的生成器，通过参数化变量（如名称、价格和日期）来批量生成文档（Word, Excel, PDF）
  - 这确保了数值和布局的高度可变性
- 非参数化注入 (Non-parametric injection) ：
  - 为了减轻合成模板的单调性，论文注入公共互联网数据（例如，图像、音频、复杂幻灯片）
  - 这迫使智能体处理真实世界文件中固有的视觉噪声和结构多样性

Agentic Dual-Stream Synthesis（双流合成）

核心合成过程被建模为一个基于 ReAct 的智能体工作流 (2022)
给定一个采样的场景元组（角色，能力，资源），一个基座 VLM 作为任务架构师（Architect）执行双流生成：
- 1）指令流 (g) (Instruction stream) ：架构师基于特定的资源上下文制定一个自然语言 Query ，确保用户意图清晰且可实现
- 2）验证器流 $(V_{g})$ (Validator stream) ：同时，架构师生成真值 (GT) 以及相应的可执行评估器代码
  - 这段代码定义了任务的精确成功条件 (2025)
为了确保可执行性，论文强制执行一个闭环反馈机制
- 生成的代码立即在一个真实的沙箱环境中执行
- 执行结果（包括成功运行的输出文件，以及失败执行（例如，语法错误、API 不匹配）产生的错误消息）被反馈给模型，用于评估 GT 文件和评估器的质量
- 这个过程迭代多轮，直到执行成功并通过质量检查
- 为了进一步增强稳定性，论文将频繁使用的验证逻辑抽象成一个标准化工具库
- 最后，有效的元组被格式化为一个标准化的 JSON 结构，与 OSWorld 等现有基准测试兼容

Rigorous Quality Assurance

最后阶段通过一个严格的协议过滤原始合成的配对 $\{(g, V_g)\}$，以消除误报（幻觉的成功）、漏报和数据泄露

Consistency-based filtering

论文部署一个参考计算机使用智能体，在合成任务上执行沙箱 Rollout
论文对数据纳入设定了高标准
- 首先，由于参数配置异常等问题而无法完成 Rollout 的任务，会将错误消息返回给基于 ReAct 的智能体工作流进行修改
- 其次，对于成功 Rollout 的任务，论文使用奖励模型和评估器计算通过率
  - 在论文的分层域分类法组织下，论文对奖励模型和评估器这两个来源通过率存在显著差异的任务进行人工抽查
  - 对于人工检查发现评估器明显失败导致误报或漏报的情况，论文优化基于 ReAct 的智能体工作流以缓解这些问题
- 最后，论文保留那些通过沙箱 Rollout、奖励模型和人工检查交叉验证的任务

Tri-fold decontamination：三重去污染

合成数据生成有效地缓解了高质量轨迹的稀缺性，但它引入了数据泄漏的风险，因为强大的模型可能会无意中从其庞大的预训练语料库中复制基准测试内容
为了防止指标虚高并确保论文实验洞察的有效性，论文执行了严格的去污染：
- (1) 语义去污染，使用 LLM-based 过滤移除与基准测试 Query 语义等效的指令；
- (2) 配置去污染，修剪在某些域内具有相同应用程序初始化设置的任务；
- (3) 评估器去污染，验证生成的执行成功条件和真值文件与现有评估脚本没有重叠
通过这条流水线，论文已成功将可验证训练数据扩展到 数万个实例 ，有效打破了人工数据整理的瓶颈

Scalable Interaction Infrastructure

从静态数据扩展到演进式经验学习，需要对基础设施能力进行根本性转变
论文的主动学习范式与被动训练流程不同，需要一个高吞吐量的“健身房（gymnasium）”，能够大规模地持续生成多样化、交互式的反馈
为了应对大规模强化学习中固有的异构性、高并发性和严格会话隔离等挑战，论文开发了一个统一的环境沙箱平台
如图 4 所示，该平台是 EvoCUA 的基石，每天编排数十万个沙箱会话，处理数百万个交互请求，并保持工业级的稳定性

Architecture and Abstractions

为了管理多样化交互任务的复杂性，该平台围绕两个核心抽象进行架构：Tools 和 Clusters
Tools：
- 一个工具封装了模拟环境的不可变定义，包括版本控制的系统镜像和暴露的交互 API
- 该平台目前支持数百种不同的环境类型，从通用基准测试到专门的智能体环境
- 这种设计将环境迭代与实验解耦，确保了向后兼容性和可复现性
集群 (动态扩展单元) (Clusters (Dynamic Scaling Units))
- 集群代表工具的运行时实例，是环境扩展的基本单位
- 通过指定工具类型和配置资源配额，用户可以为不同的工作负载即时提供定制化的环境服务
- 这种抽象允许基础设施动态扩展环境实例（从少量调试会话到数万个并发训练节点）而不会产生资源争用或交叉污染

High-Throughput Orchestration(编排)

支持大规模探索的能力取决于论文的微服务架构的效率，该架构专门设计用于消除 I/O 瓶颈并实现快速的环境扩展
- 基于反应器模式，基础设施依赖于一个异步网关服务以实现非阻塞 I/O
- 该服务实现了每分钟数十万请求量级的路由吞吐量
通过将控制平面（生命周期管理）与数据平面（环境交互）解耦，网关防止了长时间运行的环境执行阻塞关键的路由逻辑
- 与网关相辅相成，分布式调度器专为极致的弹性而设计，负责管理海量沙箱镜像的生命周期
- 利用分布式分片和资源池化，调度器实现了高效的节点调度
- 更重要的是，它支持突发扩展能力，能在一分钟内启动数万个沙箱实例
这种快速实例化确保了环境扩展严格匹配 On-Policy 强化学习的训练需求，最大限度地减少了策略更新与经验收集之间的延迟
最终，这个弹性的 Scheduling backbone 使基础设施能够稳定地维持超过 10 万个并发沙箱

High-Fidelity Environment Instantiation（高保真环境实例化）

为了支持计算机使用任务的严格要求，论文实现了一个混合虚拟化架构，将 QEMU-KVM 虚拟机封装在 Docker 容器内

Hybrid virtualization，混合虚拟化

虽然 Docker 提供了与论文的编排层的兼容性，但内部执行依赖于带有 KVM 硬件加速的 QEMU
论文构建了一个定制的 QEMU 启动序列，明确禁用了非必需的外围设备，同时优化了 I/O 性能
这种嵌套设计确保了严格的内核级隔离（当智能体执行任意代码时，这对安全性至关重要），同时为 GUI 渲染和 I/O 操作保持了近乎原生的性能

Deterministic environment calibration(校准)

论文基于 Ubuntu 22.04 构建了一个定制的操作系统镜像，以解决模拟环境与现实部署之间的差距，并实现了特定的内核和用户空间补丁：
- 输入确定性 (HID补丁) (Input determinism (HID patching)) ：
  - 标准虚拟化通常存在键位映射冲突
  - 论文在 xkb 内核级别校准了人机接口设备映射
  - 具体来说，论文修改了 /usr/share/x11/xkb/symbols/pc 的定义，以解决符号冲突（例如，US布局中的 < 与 > 的shift状态错误），确保智能体的符号意图与最终实现的字符输入严格匹配
- 渲染一致性 (Rendering consistency) ：
  - 为了防止办公软件中的布局偏移误导视觉智能体，论文将一套全面的专有字体直接注入到系统字体缓存（fc-cache）中
  - 这保证了文档的渲染效果与其原生版本完全相同
- 运行时稳定性 (Runtime stability) ：
  - 镜像通过系统级代理配置进行了加固，以解决网络不稳定的问题，并预安装了xsel和qpdf等依赖项，以消除剪贴板操作和PDF处理过程中的常见运行时错误

Evolving Paradigm via Learning from Experience

为了弥合原子模仿与通用问题解决之间的鸿沟，论文提出了通过从经验中学习的演进范式
该范式从静态数据扩展转向动态能力演进循环
该过程被构建为三个递进阶段：有监督的冷启动以建立行为先验，拒采样微调以通过自适应扩展巩固成功经验，以及强化学习以纠正失败并通过交互探索复杂动态

Cold-Start

为了使用强大的行为先验初始化策略 $\pi_{\mathrm{init} }$ ，论文构建了一个数据集 $\mathcal{D}_{\mathrm{prior} }$ ，其中包含展示精确执行和连贯推理的轨迹
论文首先形式化地定义了统一动作和思考空间，以确立智能体的结构边界，随后利用这些定义来合成并格式化基于现实环境的交互数据

Unifying the Action Space（A）

论文实现了语义动作映射 (Semantic Action Mapping)，以构建一个统一动作空间
$$ \mathcal{A} = \mathcal{A}_{\mathrm{mouse} } \cup \mathcal{A}_{\mathrm{keyboard} } \cup \mathcal{A}_{\mathrm{control} }$$
- 如附录 A 所示
论文将原始事件流分为两个主要部分：
- 物理交互 ($\mathcal{A}_{\mathrm{mouse} } \cup \mathcal{A}_{\mathrm{keyboard} }$) (Physical Interaction) ：
  - 这部分包括基于坐标的鼠标事件和键盘输入
  - 为了支持复杂的多步骤操作，论文实现了一个状态化交互机制 (Stateful Interaction mechanism)
  - 通过将离散的按键操作分解为 key_down 和 key_up 事件，策略可以维护复杂任务所需的活动状态（例如，按住 Shift 键进行多选）
- 控制原语 ($\mathcal{A}_{\mathrm{control} }$) (Control Primitives) ：
  - 论文引入了元动作来管理与物理 I/O 不同的执行流程
  - 具体来说，wait 原语允许智能体处理异步UI渲染，而 terminate 作为正式信号来结束任务

Structuring the Thought Space（Z）

为了实现可解释和稳健的决策，论文为潜在思考空间 $Z$ 定义了一个推理模式 (Reasoning Schema)
该模式强加了一种结构化格式，以确保推理过程与执行逻辑严格一致：
- 目标澄清 ($z_{0}$) (Goal Clarification) ：
  - 在初始步骤 ($t = 0$)，要求智能体明确转述用户的目标
  - 这澄清了模糊的指令，并为后续规划过程奠定了基础
- 观察一致性 ($z_{\mathrm{obs} }$) (Observation Consistency) ：
  - 为了最小化幻觉 (hallucination)，推理轨迹必须包含关键视觉元素的简洁摘要
  - 论文 强制要求此文本摘要与实际观察到的状态之间存在严格的语义一致性
- 自我验证 ($z_{\mathrm{check} }$) (Self-Verification) ：
  - 在发出最终终止信号之前，提示智能体执行辅助交互步骤（例如，检查文件状态），以视觉方式确认执行结果与用户指令相符
- 反思与纠正 ($z_{\mathrm{reflect} }$) (Reflection and Correction) ：
  - 论文利用失败的 Rollout 进行错误纠正。在识别出失败轨迹中的关键错误步骤后，论文将环境恢复到错误发生前的状态
  - 为了考虑沙箱的非确定性，论文严格筛选恢复的环境与原始轨迹之间的状态一致性
  - 从这个有效的恢复状态出发，论文使用高温采样来诱导自我纠正，生成成功的补救路径
- 推理增强终止 ($z_{T}$) (Reasoning-Augmented Termination) ：
  - 为了防止模型对终止标签过拟合，终止动作必须严格以前面的推理轨迹为条件
  - 该轨迹要求智能体明确综合视觉证据来证明任务完成，确保决策基于逻辑而非记忆的模式
基于这些形式化的定义，论文通过在模块化框架内利用基础视觉语言模型（例如，Qwen3-VL、OpenCUA）来合成先验数据集 $\mathcal{D}_{\mathrm{prior} }$
- 至关重要的是，为了确保推理与动作之间的一致性，论文采用了一种事后推理生成策略 (Hindsight Reasoning Generation strategy)
- 将真实执行路径视为已知的未来信息，论文事后生成解释所观察动作的推理轨迹 $z_{t}$ ，从而用连贯的认知链来增强物理轨迹

Training Details

对于模型训练，论文将这些多轮轨迹分解为单轮样本
为了平衡信息密度与内存限制，输入上下文仅为最近五个步骤保留完整的多模态细节（截图、推理和动作），而较早的历史信息则被压缩为纯文本的语义动作
- 训练损失仅针对当前步骤的推理和动作进行计算
最后，为了保留通用的基础能力，论文融入了多样化的通用数据混合，涵盖 STEM、OCR、视觉基础理解和基于文本的推理
- 这些通用数据的数量与分解后的单轮轨迹样本规模保持平衡

Qualitative Analysis

论文合成了符合此模式的轨迹数据
经过冷启动训练后，定性分析证实智能体有效地掌握了原子能力，如附录 D 所示
- 但在复杂场景中仍存在关键的稳健性差距
虽然智能体可以执行标准的长流程工作流，但在边界案例中表现出脆弱性
为了应对这些限制，论文进入下一阶段：内化可扩展、高质量的经验

Rejection Sampling Fine-Tuning（RFT）

拒采样微调 (Rejection Sampling Fine-Tuning (RFT)) (2024) 的目标是通过仅从高质量、成功的执行中学习，来巩固智能体解决任务的能力
这个过程包括两个关键组成部分：通过动态计算高效生成成功轨迹，以及对它们进行去噪以最大化信噪比

Dynamic Compute Budgeting

为了在计算限制下优化高质量经验的生成，论文提出了动态计算预算
- 该机制不是均匀分配 Rollout 资源，而是根据智能体当前对每个特定任务的熟练程度来调整探索预算
论文建立一个层次化的预算谱（hierarchical budget spectrum）
$$ \mathcal{K} = \{k_{1},\ldots ,k_{n}\}$$
- 并配以递减的成功率阈值
  $$ \Lambda = \{\tau_{1},\ldots ,\tau_{n}\}$$
  - 理解：过滤用的成功率阈值为什么是逐步递减的，是因为这里的成功率是跟前面的预算一一对齐的，推测预算是逐步减少的，故而对应的成功率也会逐渐减小
- 对于从合成引擎 $\mathcal{T}_{\mathrm{syn} }$ 抽取的给定任务 Query $g$ ，系统识别满足充分条件的最优 Rollout 预算 $K^{*}$ ：
  $$K^{*} = k_{i^{*} }\quad \mathrm{where}\quad i^{*} = \min \{i\mid \mathrm{SR}(k_{i})\geq \tau_{i}\} \tag{1}$$
  - $\mathrm{SR}(k_{i})$ 表示使用预算 $k_{i}$ 观察到的通过率
- 该策略有效地剪除了高效解决的任务，并将计算能力集中在边界 Query 上，即策略表现出高方差的任务

Step-Level Denoising

虽然成功的 Rollout 展示了模型的能力，但它们通常包含显著的噪音
论文使用一个评估模型 (judge model) 来分析轨迹并屏蔽冗余步骤
这种过滤对于不可行的任务尤其重要；
- 对于这些任务，论文移除所有中间动作，并严格保留推理轨迹和最终的终止失败动作
- 这个过程将原始数据精炼为高质量监督信号，然后将其汇总到经验池 $B$ 中
通过这个生成和过滤流程，论文将高保真经验池 $B$ 扩展到数万条轨迹
论文将这些特定领域的经验与平衡的通用多模态数据语料库交错混合，以防止灾难性遗忘

Reinforcement Learning

虽然 RFT 巩固了智能体能做什么 ，但它 并不显式地纠正其错误
为了扩展能力边界，论文采用 RL 从失败中学习，并通过在线交互进行探索
由于状态不对齐，标准的轨迹级偏好优化不适合长流程任务
论文转而提出了一种步骤级直接偏好优化策略 (Step-Level Direct Preference Optimization strategy) (2024)，该策略针对图5所示的关键分叉点 (Critical Forking Points)

Causal Deviation Discovery，因果偏差发现

给定一个失败的 Rollout $\tau^{- }$ 和一个成功的参考轨迹 $\tau^{+}$ （从相同或语义等价的任务中检索），论文采用参考引导诊断机制 (Reference-Guided Diagnosis mechanism)
论文将 关键偏差步骤 $t^{*}$ 识别为第一个时间戳 ，在该时间戳处，尽管环境状态在功能上保持等效，但智能体的动作偏离了参考
这隔离了导致智能体离开最优解流形的特定响应 $(z_{t^{*} }^{- },a_{t^{*} }^{- })$
注意：这里只是识别到了关键错误步骤

Structured Preference Construction

识别出关键错误 $(z_{l},a_{l}) = (z_{l}^{*},a_{l}^{*})$ 后，论文构建偏好对以提供全面的监督
范式1：动作纠正 (在步骤 $t^*$) (Paradigm I: Action Correction (At Step $t^*$))
- 目标是用最优的 Chosen 响应 $(z_{w},a_{w})$ 替换 Rejected 的错误 $(z_{l},a_{l})$
- 论文通过基于窗口的参考对齐（通过 VLM 语义匹配从 $\tau^+$ 迁移思考和动作）或基于视觉的合成（当不存在对齐时，通过通用模型合成新的轨迹）来获得 $(z_{w},a_{w})$
范式2：反思与恢复 (在步骤 $t^* +1$) (Paradigm II: Reflection and Recovery (At Step $t^* +1$))
- 为了提高稳健性，论文处理错误发生后的立即状态 $(t^* +1)$
- 论文将智能体的盲目继续视为 Rejected 样本
- 对于 Chosen 样本，论文合成一个反思轨迹 (Reflection Trace)
- 智能体被训练为停止并生成一个推理链，而不是盲目行动
  - 该推理链：(1) 观察意外的屏幕状态并 (2) 制定补救计划
理解：
- 范式1：
  - Rejected：旧的错误步骤
  - Chosen：新合成的正确步骤，针对步骤 $t^*$ 动作纠正，用最优的 Chosen 响应 $(z_{w},a_{w})$ 替换 Rejected 的错误 $(z_{l},a_{l})$
- 范式2：
  - Rejected：之前盲目继续的样本
  - Chosen：反思样本，针对步骤 $t^* + 1$，对错误步骤进行改进（其他更优模型或高温），而不是盲目继续（之前的轨迹会盲目继续）
    - 这里相当于让模型开始反思，从错误中反思重新开始的方式，最终模型能学会思考

Optimization Objective

论文使用直接偏好优化 (Direct Preference Optimization (DPO)) 来优化策略 $\pi_{\theta}$
与论文策略根据历史 $h_{t}$ 和观察 $o_{t}$ 生成推理轨迹 $z$ 和动作 $a$ 的公式一致，损失函数定义为：
$$\mathcal{I}(\theta) = -\mathbb{E}_{(h_t,a_t,(z,a)_w,(z,a)_l)\sim \mathcal{D} }\left[\log \sigma \left(\beta \log \frac{\pi_{\theta}(z_w,a_w|h_t,a_t)}{\pi_{\mathrm{ref} }(z_w,a_w|h_t,a_t)} -\beta \log \frac{\pi_{\theta}(z_l,a_l|h_t,a_t)}{\pi_{\mathrm{ref} }(z_l,a_l|h_t,a_t)}\right)\right]. \tag{2}$$
通过使用这些结构化偏好迭代更新策略，EvoCUA 不断扩展其能力边界，有效地将短暂的交互经验转化为稳健的模型参数
总之，演进式经验学习范式为增强智能体可靠性建立了一个严格的循环
通过协同结合拒采样微调来巩固基本执行模式，以及强化学习来纠正复杂、长尾场景中的错误，EvoCUA 迭代地将可扩展的合成经验转化为策略参数
这种双重机制确保智能体不仅在标准任务上稳定性能，而且在边界条件下显著提高了稳健性和泛化能力，从而实现更稳定和通用的计算机使用能力

Evaluation

本节对 EvoCUA 进行全面实证评估
论文的分析聚焦于三个关键维度：
- (1) 在线智能体能力 (Online Agentic Capability)，评估在真实环境中的长程交互；
- (2) 离线定位 (Offline Grounding)，评估细粒度的 UI 元素理解；
- (3) 通用 VLM 能力 (General VLM Capabilities)，确保保留通用的多模态推理能力

Experimental Setup

为了超越静态模仿，论文采用统一的训练流程，该流程始于一个轻量级的冷启动 (cold start) 阶段，使用约 1k 条高质量轨迹来建立完整的动作空间和结构化的推理模式
随后，模型进入一个结合经验生成与策略优化的持续迭代优化循环
- 在这个演化阶段，论文通过从大规模拒绝采样中收集成功轨迹、应用步级降噪，同时通过从错误中提取的偏好学习和在真实环境中的在线探索来混合优化策略，逐步扩展训练分布
- 整个过程由一个 pass@k 引导的动态计算策略驱动，该策略自动将计算资源集中在更难的问题上，并为表现不佳的领域合成补充数据，确保跨迭代的持续能力增长
论文通过在 Qwen3-VL-Thinking (2025a) (8B, 32B) 和 OpenCUA (2025b) (7B, 32B, 72B) 基础模型上进行后训练，在不同规模上验证了论文的方法

Main Results

Online Agent Evaluation

论文在 OSWorld 基准测试上评估 EvoCUA，该基准是开放式计算机使用任务的代表性测试平台
如表 1 总结所示，论文的结果突显了所提出方法的有效性：
最先进的开放权重性能 (State-of-the-Art Open-Weights Performance)
- 论文的主要模型 EvoCUA-32B，基于 Qwen3-VL-32B-Thinking (2025a) 主干微调，达到了 $56.7%$ 的成功率
- 这一性能在所有评估的开放权重模型中位列第一
显著改进与效率 (Significant Improvements & Efficiency)
- EvoCUA-32B 相比之前的开源最先进模型 OpenCUA-72B (45.0%) 取得了 $+11.7%$ 的绝对提升，相比其基础模型提升了 $+15.1%$
- 值得注意的是，这些结果是在严格的 50 步限制下实现的，而基线模型通常需要 100 步预算才能达到峰值性能，这表明论文模型具有更优的执行精度
与闭源权重前沿模型竞争 (Competitive with Closed-Weights Frontiers)
- EvoCUA-32B 有效地缩小了与闭源权重模型的差距
- 最显著的是，它以 $+3.6%$ 的优势超过了强大的闭源权重基线 UI-TARS-2-2509 (53.1%)
- 在相同的步数限制下，EvoCUA-32B 与行业领先的 Claude-4.5-Sonnet (58.1%) 之间的性能差距缩小到仅 $1.4%$
扩展效率与训练优势 (Scaling Efficiency & Training Superiority)
- 论文方法的有效性延伸到了更小的模型规模
- EvoCUA-8B 达到了 $46.1%$ 的成功率，超越了像 OpenCUA-72B 这样的专用 72B 参数模型
- 与 Step-GUI-8B (2025) 的直接对比尤其具有启发性：
  - 尽管两个模型都从相同的 Qwen3-VL-8B 主干初始化，但 EvoCUA-8B 取得了 $+5.9%$ 的更高成功率 (46.1% 对比 40.2%)
  - 这严格隔离了论文演化经验学习范式的贡献，确认了论文的数据合成和 RL 策略从相同的基础架构中释放了显著更大的潜力

Offline Grounding（定位）and General Capabilities

论文评估 EvoCUA 在两个关键维度的性能：
- 细粒度 GUI 定位 (ScreenSpot-v2 (2024), ScreenSpot-Pro (2025), OSWorld-G (2025))
- 通用多模态鲁棒性 (MMMU (2024), MMMU-Pro (2025), MathVista (2024), MMStar (2024), OCRBench (2024))
表 2 总结了不同模型规模和主干的结果

Analysis

论文观察到根据使用的基础模型的不同而有不同的行为
对于 OpenCUA-72B 主干，论文的后训练策略在定位和通用基准测试中都保持了性能持平或略有提升（例如，保持 MMMU 分数同时提升 OSWorld-G）
- 这种稳定性证实，当数据分布一致时，论文的训练方法能有效保留基础模型的知识
与 Qwen3-VL-32B-Thinking 基线相比，EvoCUA-32B 变体在特定指标上表现出性能下降，尤其是在 ScreenSpot-Pro 和 MMMU 上
- 论文将这种性能下降主要归因于数据分布和模式的差异
- 由于时间限制，用于微调 EvoCUA 的通用数据集直接采用了来自 OpenCUA-72B 变体实验的数据集
- 然而，这个数据集是“非思考型”的，与 Qwen3-VL-32B-Thinking 模型的“思考型”分布存在显著不匹配
论文进一步分析了 Qwen3-VL-32B-Thinking 和 EvoCUA 在通用基准测试上的输出长度
- 结果显示，与 Qwen3-VL-32B-Thinking 相比，EvoCUA 的 Token 数量显著减少 (2,514 vs 3,620)，同时输出风格也发生了转变

Conclusion

在 OpenCUA 主干上的一致性能验证了论文训练策略的有效性
在基于 Qwen3-VL-Thinking 的变体中观察到的性能下降主要归因于通用数据分布和模式的转变
未来版本的 EvoCUA 模型将纳入升级的基于“思考”的通用数据集
这种对齐有望解决当前的差异，并进一步提高模型的泛化性能

Ablation Study

为了严格验证 EvoCUA 中每个组件的贡献，论文进行了广泛的消融研究
论文使用了两个不同的基础模型，Qwen3-VL-32B-Thinking 和 OpenCUA-72B，以证明论文特定模块的效力以及演化经验学习范式的普适性

Component Analysis on EvoCUA-32B

论文采用 Qwen3-VL-32B-Thinking 作为基础检查点，以剖析来自统一动作空间、冷启动、拒绝微调和 RL 的累积收益
如表 3 所示，演化循环的每个阶段都带来了显著的单调改进
统一动作空间与冷启动的影响 (Impact of Action Space & Cold Start)
- 论文首先通过受控单变量实验量化了统一动作空间的影响，将标准的 SFT 基线与一个包含论文精确定义动作的 SFT 变体进行比较
  - 统一动作空间的明确表述提供了 +4.84% 的基础增益
- 通过进一步在合成的高质量轨迹上进行冷启动训练来注入行为先验，论文观察到额外的 $+2.62%$ 增益
  - 这验证了用结构化动作模式和连贯推理模式为基础模型奠定基础是进行有效大规模经验学习的前提
演化学习的效力 (Efficacy of Evolutionary Learning (RFT & DPO))
- 过渡到主动学习阶段，拒绝微调通过巩固成功经验将性能显著提升了 $+3.13%$
- 随后，通过 DPO 明确解决失败模式，论文实现了 $+3.21%$ 的显著改进，突显了学习“不应该做什么”与学习成功惯例同等重要
- Crucially，对整个演化循环执行额外的迭代（再叠加一轮 RFT 和 DPO）带来了进一步的 $+1.90%$ 增益
  - 这种持续收益证实了论文范式的自我维持特性，模型通过递归合成和纠正迭代地精炼其能力边界

Generalizability on OpenCUA-72B

为了验证论文方法的普适性，论文将相同的范式应用于更大的 OpenCUA-72B 模型
如表 4 详述，演化经验学习范式在不同模型规模上带来了一致的增益
OpenCUA-72B 上的结果与论文在 Qwen3-VL 上的发现相呼应，DPO $(+3.02%)$ 和 RFT $(+3.69%)$ 贡献显著
有趣的是，论文观察到纯 RFT（叠加 3 轮，没有明确的冷启动）实现了 $+8.12%$ 的显著增益，如表 5 所示
- 这表明，对于一个足够强大的基础模型，仅凭合成引擎和可扩展的交互基础设施就可以驱动巨大的能力改进，甚至无需显式注入先验
此外，OpenCUA-72B 采用了标准的 pyautogui 格式
- 这个动作空间本身支持有状态操作（例如 shift+click）并且没有明显的功能缺陷

Scaling Analysis

论文通过分析在不同 Pass@k 值、最大推理步数和数据量下的性能增益 $(\Delta %)$ 来研究 EvoCUA 的可扩展性

Scaling with Pass@k

在图 6a 中，在所有 Pass@k 指标上，EvoCUA 相对于基础模型 (Qwen3-VL-Thinking) 保持了稳定的性能领先
- 如图 6a 所示，32B 模型保持了正向增益，在 $k = 16$ 时达到峰值 $+4.93%$，即使是在更高的 $k$ 值时也保持显著优势
- 这种持续的性能差距表明，论文优化动作空间和推理先验的训练策略从根本上提升了模型的性能上限

Scaling with Max Steps

在图 6b 中，论文观察到随着最大步数限制的增加，性能稳步提升
- 将推理能力从 15 步增加到 50 步带来了一致的增益，32B 模型相比基线提升了 $+16.25%$
- 超过 50 步后，改进速度放缓，这主要是由于当前训练分布中超过 50 步的轨迹稀缺

Experience Scaling

论文在 RFT 上进行了经验扩展实验
具体来说，论文在 OpenCUA-72B 模型的一个早期迭代上进行了消融研究，省略了冷启动和 DPO 阶段，以专注于多轮 RFT
如表 5 所示，相对于基线的性能增益如下：
- Round 1：在 2 万样本上独立训练，带来 +2.61 个百分点的增益
- Round 2：在 22.6 万样本上迭代训练，从第一轮的检查点初始化，将增益提高到 +6.79 个百分点
- Round 3：在三轮 RFT 迭代聚合的 100 万样本上训练 OpenCUA-72B 基础模型，实现了 +8.12 个百分点的改进
论文的分析突显了数据规模、 Off-Policy 分布和信噪比之间的关键权衡
- 随着模型能力随规模提升，对噪声的容忍度降低，这为现有的迭代方法创造了瓶颈
- 但至关重要的是，作者仍然相信只要数据质量、策略对齐和信噪比得到有效优化，进一步的扩展是可以持续的

Environmental Uncertainty and Evaluation

区分 Pass@k 在智能体任务与标准 LLM 基准测试中的作用至关重要
- 在传统文本生成中，“环境”（即提示）是静态且确定性的；
  - 此时，Pass@k 仅衡量模型内部能力的多样性
- GUI 环境中引入了固有的环境随机性
  - 系统延迟、网络波动和细微渲染变化等因素意味着相同的动作序列可能产生不同的状态转换
因此，在这种背景下，Pass@k 具有双重目的：
- 它不仅评估模型的生成多样性，还评估其对抗环境噪声的鲁棒性
论文观察到，即使采用确定性采样（temperature=0），由于这些系统扰动，成功率也会表现出方差
- 这一发现突显了纯数据扩展的一个关键局限性
- 为了实现人类级别的可靠性，未来的研究必须优先考虑环境扩展，扩展环境多样性和建模动态不确定性，以确保在现实世界系统中的鲁棒性

Discussions

基于总计超过 100 万加速器小时的上千次独立实验，论文将关于原生计算机使用智能体训练动态的观察归纳为四个关键维度
维度1：经验的双重性 (The Dual Nature of Experiences) ：论文的分析表明，成功和失败轨迹的信噪比存在根本性差异，需要不同的处理策略
- 成功轨迹 (Success trajectories) ：由模型生成的轨迹代表已知知识，其特点是噪声低但信息增益有限
  - 虽然最终结果正确，但步级冗余构成了主要的噪声源
  - 如果不积极过滤这些低效步骤，模型会变得脆弱，导致诸如动作别名（对单一状态输出冲突动作）和循环重复（无休止点击相同坐标）等现象
    - 因此，有效过滤是多轮拒绝采样微调的前提
- 失败轨迹 (Failure trajectories) ：相反，失败轨迹是高噪声但高信息的
  - 它们描绘了模型的能力边界，并包含了当前策略无法处理的边界情况
  - 虽然原始失败数据噪声太大无法直接学习，但识别关键错误步骤可以用于构建偏好对
  - 这将失败的尝试转化为用于边界对齐的高价值来源
维度2：基础约束与初始化 (Foundational Constraints and Initialization) ：初始化阶段极大地影响了智能体的潜在性能
- 动作空间的完备性 (Completeness of action space) ：动作空间的全面定义是前提
  - 缺少高效操作（例如，三连击、基于 Shift 的快捷键）会导致特定任务（例如复杂的电子表格编辑）实际上无法解决
  - 与正确的初始定义相比，事后添加动作空间是低效的
- 以模式为中心的冷启动 (Pattern-centric cold start) ：冷启动阶段应优先考虑模式多样性而非数据量
  - 论文观察到，轻量级的冷启动足以建立潜在的对齐（奠定动作空间并稳定输出格式）
  - 重度的冷启动通常会产生较高的监督指标，但会创建一个后期更难精炼的检查点
  - 轻量级初始化，随后进行严格的拒绝采样和偏好优化，始终能产生更优的最终性能
维度3：迭代优化的动态 (Dynamics of Iterative Optimization) ：计算机使用任务本质上是长程的，通常需要数十次交互回合，为此进行优化需要严格遵守特定的动态属性
- On-Policy 的必然性 (The on-policy imperative) ：论文强调在迭代学习期间使用严格 On-Policy 数据的必要性
  - 作者推测 Off-Policy 数据会扰乱监督期间建立的优化向量的主方向
  - 一旦模型的权重由于分布偏移而偏离最优流形，恢复正确的优化路径在计算上是不可行的
- 终止的不对称性 (Termination asymmetry) ：终止动作的分布是最关键的控制变量
  - 论文观察到一个明显的不对称性：模型在识别失败方面收敛迅速，而识别成功则需要精心校准的正样本密度
  - 成功信号的过度集中会导致过早终止，而不足则阻止智能体停止
- 自我纠正与未来潜力 (Self-correction and future potential) ：为了减轻长程任务中的错误累积，论文利用专注于状态检查和反思的偏好优化
  - 通过针对智能体未能感知错误的步骤，论文增强了鲁棒性
  - 这些改进表明，逻辑上的演进是过渡到在线强化学习，其中先进的信用分配机制可以进一步优化复杂多步环境中的性能
维度4：可视化驱动的诊断与迭代 (Visualization-Driven Diagnosis and Iteration) ：作者认为，在长程任务中实现 SOTA 性能需要的不仅仅是算法新颖性；它需要一个透明的调试基础设施
- 论文开发了一套全面的轨迹分析和可视化工具套件，作为论文演化循环的“眼睛”
- 这些工具在三个关键阶段发挥了关键作用：
  - 合成的质量保证 (Quality Assurance for Synthesis) ：它们使论文能够将合成样本与其真实状态一起可视化，从而能够在论文的合成引擎中的“幻觉验证器”或可执行逻辑错误污染训练池之前快速识别它们
  - 冷启动数据构建 (Cold-Start Data Construction) ：通过可视化对比不同基础模型的轨迹特征，论文识别出更优的推理模式和动作序列
    - 这指导了论文高质量冷启动数据集的整理，确保智能体学习鲁棒的行为先验而非嘈杂的模仿
  - 用于精炼的失败分析 (Failure Analysis for Refinement) ：论文的 Pass@k 差异分析工具聚合了同一 Query 的成功和失败轨迹
    - 这种细粒度的比较帮助论文精确识别特定的失败模（例如坐标漂移或推理-动作错位），直接指导论文步级策略优化的设计以纠正这些特定弱点

Future Work on Online Agentic RL

RLVR (2025) 已成为提升模型可靠性、泛化性和性能的关键框架
在此基础上，论文未来的工作旨在探索基于 GUI 的智能体任务中的在线智能体强化学习
受限于时间，论文尚未进行足够的模型训练和全面的基准评估
因此，本节的后续部分将首先深入分析训练-推理差异问题，然后讨论推进这项工作的未来研究方向

(Training-Inference Discrepancy in Trajectory-Level Training)

诸如 GRPO (2024) 等算法已被证明在广泛的推理任务上有效
这些算法为单个 Query 收集一组轨迹，计算轨迹组内的优势函数，并以轨迹粒度进行训练
- 但轨迹级训练会在 GUI 任务中引起训练-推理差异
在 Rollout 阶段，GUI 模型并不保留所有完整的上下文信息，而只保留最近步骤的完整信息（包括截图、推理和动作），而更早的历史信息被压缩为纯文本语义动作
- 如果直接使用最终步骤的轨迹进行训练，模型将无法学习中间步骤的监督信号

Step-Level Policy Optimization

为了解决轨迹级训练中的训练-推理差异，论文提出一种简单而有效的策略优化算法，即步级策略优化 (Step-Level Policy Optimization, STEPO)
对于一个长度为 $T$ 的轨迹 $\tau$，每一步 $t\in \{1,2,\ldots ,T\}$ 包含 $K_{t}$ 个 Token
- 论文将步骤 $t$ 中的第 $k$ 个 Token 表示为 $x_{t,k}$ $(k\in \{1,2,\dots,K_t\})$，步骤 $t$ 的完整 Token 序列表示为 $x_{t} = (x_{t,1},x_{t,2},\ldots ,x_{t,K_{t} })$
- 对于轨迹集合 $\mathcal{T} = \{\tau_{1},\tau_{2},\ldots ,\tau_{n}\}$，第 $i$ 个轨迹中步骤 $t$ 的位置 $k$ 的 Token 表示为 $x_{i,t,k}$
对于每个问题 $q$，类似于 GRPO，STEPO 从策略 $\pi_{\theta_{\mathrm{old} } }$ 采样一组轨迹 $G$：$\{\tau_{1},\tau_{2},\ldots ,\tau_{n}\}$，并计算轨迹组内的优势：
$$\hat{A}_i = \frac{R_i - \mathrm{mean}(\{R_j\}_{j = 1}^G)}{\mathrm{std}(\{R_j\}_{j = 1}^G)} \tag{3}$$
- 其中 $R_{i}$ 表示轨迹 $\tau_{i}$ 的奖励
随后，将每个轨迹 $\tau_{i}$ 对应的优势值 $\hat{A}_{i}$ 均匀分配给该轨迹包含的所有步骤，即：
$$\hat{A}_{i,t} = \frac{\hat{A}_i}{ T_i}, \quad t\in \{1,2,\ldots ,T_i\} , \tag{4}$$
- 其中 $T_{i}$ 表示轨迹 $\tau_{i}$ 包含的步骤数
- 同一步骤内的所有 Token 共享该步骤对应的优势值 $\hat{A}_{i,t}$
- 在此基础上，论文使用所有步级样本进行模型训练
STEPO 算法的优化目标可表示为：
$$\begin{array}{rl} {\mathcal{I}_{\mathrm{STEPO} }(\theta) = \mathbb{E}_{[q\sim P(Q),\{\tau_i\}_{i = 1}^G\sim \pi_{\theta_{\mathrm{old} } }(\mathcal{T}|q)]}} {\frac{1}{G}\sum_{i = 1}^{G}\sum_{t = 1}^{T_i}\frac{1}{K_t}\sum_{k = 1}^{K_t}\{\min [r_{i,t,k}(\theta)\hat{A}_{i,t},\mathrm{clip}(r_{i,t,k},1 - \epsilon_{\mathrm{low} },1 + \epsilon_{\mathrm{high} })\hat{A}_{i,t}] - \beta \mathbb{D}_{KL}(\pi_{\theta}| \pi_{\mathrm{ref} })\} ,} \end{array} \tag{5}$$
- $r_{i,t,k}(\theta)$ 表示重要性采样比率：
  $$r_{i,t,k}(\theta) = \frac{\pi_{\theta}(\tau_{i,t,k}|q,\tau_{i,t,k})}{\pi_{\theta_{\mathrm{old} } }(\tau_{i,t,k}|q,\tau_{i,t,k})}, \tag{6}$$
- $\epsilon$ 表示剪裁参数
- $\mathbb{D}_{KL}$ 表示 KL 惩罚项
- $\beta$ 控制 KL 散度正则化强度
通过将轨迹的优势值均匀分配给其包含的所有步骤，该策略实现了两个核心优化效果：
- 首先，它驱使高优势值轨迹以更少的步骤完成任务，从而减少冗余的执行步骤；
- 其次，它促使低优势值轨迹扩展探索步骤数，从而提高任务完成率。通过步级策略优化机制，STEPO 可以有效规避训练-推理差异问题

Experiments and Analysis

为了阐明训练-推理差异的影响并验证 STEPO 的有效性，论文在 OpenCUA-32B 模型上进行了在线 RL 训练
如图 7 所示，STEPO 的训练性能显著优于使用最终轨迹训练的 GRPO，这充分证实了 STEPO 的有效性
然而，STEPO 存在训练成本高的问题，因为策略模型的更新次数显著倍增
因此，论文猜测步级训练的要求可能在不同的训练阶段并不一致，仅训练特定的关键步骤也可能达到与训练所有步骤相当的性能
- 未来，论文将探索扩大在线 RL 规模以及开发更有效的 RL 训练方案等方向

Foundation VLMs and Computer Use Capabilities

大型视觉语言模型的格局已迅速发展以支持复杂的智能体任务
专有的前沿模型，最著名的是 Claude 4.5 Sonnet (2025) 和 Seed 1.8 (2025)，设定了行业标准，在零样本指令跟随和长程规划方面展示了人类级别的熟练度
在开放权重领域，Qwen3-VL (2025a) 已成为一个强大的主干，引入了下一代动态分辨率和增强的 OCR 能力
EvoCUA 直接建立在 Qwen3-VL 架构之上，通过专门的演化后训练课程对其进行增强，以超越通用预训练的限制

Generalist GUI Agents and Benchmarks

为了评估在线智能体性能，OSWorld (2024) 和 OSWorld 是主要的测试平台
OpenCUA (2025b) 凭借 AgentNet 数据集建立了一个关键的基础，而最先进的工作如 UI-TARS-2 (2025a) 和 Step-GUI (2025) 分别利用了多轮 RL 和逐步视觉推理
与这些重度依赖演示的方法不同，EvoCUA 利用自主合成的、可验证的经验来降低标注成本，同时在 OSWorld 排行榜上实现了更优的性能

Visual Grounding and Action Execution

精确的 GUI 定位是原生计算机使用的基石
早期的方法如 Aguvis (2024) 奠定了基础，而最近的模型如 ShowUI (2025) 和 UGround (2024) 专门针对高分辨率布局优化了视觉-语言-动作架构
EvoCUA 从这些专门用于定位的架构中汲取见解，以在高层次规划优化之前建立鲁棒的执行原语

From Imitation to Learning from Experience

训练范式正在从行为克隆 (Behavior Cloning, BC) 向强化学习转变
标准算法如 PPO (2017) 已被 UI-TARS-2 (2025a) 成功适配于多轮 GUI 交互，但最近的研究专注于激励推理能力
- 这一转变由 DeepSeek-R1 (2025) 和 DeepSeekMath (2024) 开创，它们引入了 RLVR 范式
- 他们证明了 RL 可以在没有密集过程监督的情况下隐式验证复杂的推理链
Feng 等人 (2025) 提出了组内优化 (Group-in-Group optimization) 以稳定此类训练
Zhang 等人 (2025) 探索了通过无奖励的“早期经验”进行学习
EvoCUA 通过一个可验证的合成引擎解决了数据稀缺瓶颈，从而推进了这一方向，该引擎自主产生可扩展的、基于真实值验证的合成数据
这一基础实现了论文通过经验学习的演化范式，这是一个自我维持的循环，通过在大规模可验证合成轨迹上进行拒绝采样和偏好学习，迭代地增强智能体能力

Conclusion

论文提出了一个通过经验学习的演化范式开发的原生计算机使用智能体 EvoCUA，详尽展示了将合成计算转化为高质量训练信号的有效性
- 可验证的合成
- 可扩展的交互基础设施相结合
在 OSWorld 基准测试上，EvoCUA 达到了 $56.7%$ 的成功率
注：当前的开源模型与领先的闭源权重系统或人类级别的可靠性之间仍然存在性能差距
- 这种差异突显了仅从合成痕迹进行离线学习的局限性
为了解决这个问题，作者的中心对在线强化学习上
- 目前作者已经在初步尝试，作者初步调查确定了主动环境交互是进一步改进的关键驱动力，奖励累积的持续上升趋势证明了这一点
- 未来的作者的工作将侧重于系统地扩展这个在线演化边界，旨在弥合剩余的差距，实现完全自主的计算机使用能力

附录 A：A Unified Action Space

下表详细说明了在 EvoCUA 中实现的统一原生行动空间 $\mathcal{A}$
Agent 通过调用 computer_use 函数并指定特定的行动及其相应参数来与环境交互

附录 B：Cold Start: Hindsight Reasoning Generation(事后推理生成)

为了为监督式冷启动阶段构建高质量数据，论文将原始的物理交互轨迹转化为增强了明确认知链的训练样本
论文采用事后推理生成 (Hindsight Reasoning Generation) 策略来实现这一点
- 通过将真实执行路径视为已知的未来信息，论文利用一个通用模型来回溯性地生成解释所观察行动的推理轨迹 $(z_{t})$，从而在认知和执行之间建立因果对齐
生成过程由一系列强制执行论文思维空间 $(Z)$ 中所定义结构模式的、上下文感知的提示模板驱动
根据执行阶段的不同，生成逻辑调整如下：
- 1）目标澄清 $(z_{0})$ 在轨迹的初始步骤 $(t = 0)$，推理生成的重点是解决歧义并建立全局计划
  - 上下文 (Context) ：为通用模型提供用户指令、初始屏幕截图和第一个可执行代码块
  - 生成逻辑 (Generation Logic) ：论文使用一个强制要求第一人称视角的特定模板。模型必须明确陈述当前环境状态、澄清任务目标、并阐述一个高层次计划（例如，“我需要打开浏览器来搜索…”），然后证明所采取的具体行动是合理的。这确保了后续的物理执行基于清晰的意图
- 2）观察一致性 $(z_{obs})$ 对于中间步骤，目标是保持视觉观察和推理轨迹之间的语义一致性
  - 上下文 (Context) ：模型分析从前一个状态到当前状态的转换
  - 生成逻辑 (Generation Logic) ：提示指令模型识别环境中“发生了什么变化”，并解释“为什么需要这个行动”来推进工作流
  - 语义抽象 (Semantic Abstraction) ：为了防止过拟合于特定的屏幕分辨率，提示明确限制生成内容，避免提及原始像素坐标
    - 相反，引导模型从语义上描述目标 UI 元素（例如，“点击‘文件’菜单”而非“点击 (100, 200)”），确保推理对不同布局变化保持鲁棒性
- 3）反思与纠正 $(z_{reflect})$ 对于涉及错误恢复（“恢复”轨迹）的轨迹，论文实现了一个专门的反思机制 (Reflection Mechanism)
  - 上下文 (Context) ：当处理从失败中恢复的轨迹片段时，合成引擎将特定的 analysis_reason（先前失败的根本原因）注入到提示上下文中
  - 生成逻辑 (Generation Logic) ：模型被强制要求以专用的标头开始思维轨迹：“反思：”
    - 它必须回顾性地分析失败原因（例如，“反思：我意识到我之前点击图标的尝试失败了，因为…”）
  - 自我纠正 (Self-Correction) ：在反思之后，模型必须自然地过渡到一个纠正后的计划（例如，“现在我将尝试一种不同的方法…”），从而有效地将自我纠正的逻辑内化到训练数据中
- 4）推理增强的终止 $(z_{T})$ 为了缓解过早或延迟停止的问题，终止行动基于严格的视觉验证过程
  - 上下文 (Context) ：生成在轨迹的最后一步触发
  - 生成逻辑 (Generation Logic) ：要求通用模型根据初始指令评估最终屏幕截图
    - 它必须在发出最终终止信号之前，生成一个提供任务完成（或失败）视觉证据的推理轨迹
    - 这确保了 Agent 的终止决策是基于逻辑验证，而不是记忆的轨迹长度
Algorithm 1：

附录 C：Algorithm for DPO

在本节中，论文介绍步骤级直接偏好优化 (Step-Level Direct Preference Optimization, DPO) 的算法实现
该方法侧重于两个核心过程：关键错误识别和偏好对构建
算法 2 详细说明了论文如何从失败轨迹中识别关键分岔点 (Critical Forking Points) ，并为行动纠正和反思两者构建配对数据

附录 D：Trajectory Analysis and Visualization

为了实现 Agent 行为的细粒度诊断并严格验证论文合成生成的经验质量，论文开发了 EvoCUA 轨迹检查器 (EvoCUA Trajectory Inspector)
- 该可视化系统允许论文逐帧检查 Agent 的视觉观察 $(o_{t})$、内部推理轨迹 $(z_{t})$ 和可执行代码行动 $(a_{t})$ 之间的对齐情况
论文使用一个来自电子表格领域的代表性合成任务来说明该系统的实用性：“找到每行的最大值并将其放置在 G 列中” 这个长视程任务是一个验证论文合成引擎逻辑一致性的严格测试平台
图 8 展示了这些关键时间戳的可视化
解读：
- 步骤 9（$t=9$）：有状态交互
  - 此视图验证了统一行动空间 (Unified Action Space)
  - 合成真实情况需要一个有状态操作（Shift-选择）
  - 检查器确认 Agent 正确执行了 key_down: shift $\rightarrow$ click $\rightarrow$ key_up: shift 序列
- 步骤 15($t=15$)：已验证的终止
  - 最后一帧验证了推理增强的终止模式 (Reasoning-Augmented Termination schema)
  - 工具突出显示 Agent 生成了视觉证据（“我可以看到… 最大值列… 已计算”）来证明成功的终止状态是合理的

NLP——ScaleRL

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：(ScaleRL)The Art of Scaling Reinforcement Learning Compute for LLMs, Meta, 20251015
- 代码地址：github.com/OpenLMLab/MOSS-RLHF

Paper Summary

核心总结（本文的核心贡献是 Meta 团队丰富的认知）：
- 论文缩放方法论的一个重要见解是：可以系统地使用较小规模的消融来预测更大规模的性能，这使论文能够创建最终的可扩展 Recipe
- 根据论文的消融实验， Off-policy 算法、损失函数和模型精度是最重要的决策
  - 其他每个决策单独影响不大，但正如论文从留一法实验中看到的，当它们全部组合时，仍然具有一些累积影响（在效率方面）
- 渐近性能与效率 (Asymptotic performance vs. efficiency)
  - 论文发现更好的选项同时提高了效率和渐近性能，但情况并非总是如此（例如，对于 FP32，图 4(b)），当从基线方法开始进行”正向”消融时，论文首先且最主要地选择渐近性能
  - 当从 ScaleRL Recipe 进行”反向”留一法消融时，论文发现每个决策对渐近性能的影响非常小，但算法的每个组件似乎都有助于提高效率
    - 这表明变化的累积效应是相当鲁棒的
- Generalization：虽然对泛化的全面描述超出了论文工作的范围，但论文确实观察到分布内验证与下游泛化性能之间的相关性
  - 有一些算法选择似乎更有助于泛化，作者指出了：
    - 更大的批次大小（章节 A.14）
    - 减少截断（章节 A.15）
    - 更长的生成长度（第 5 节，图 9）
    - 更大的模型规模（第 5 节，图 1）
- 多任务强化学习 (Multi-task RL)
背景 & 问题：
- RL 已成为训练 LLMs 的核心技术，然而 RL 领域缺乏与预训练阶段相当的预测性 Scaling 方法论
- 计算预算迅速增长，但对于如何评估算法改进以 Scaling RL 计算，目前尚无原则性的理解（principled understanding）
论文工作：
- 论文进行了首次大规模系统性研究，总计超过 400,000 GPU hous ，定义了一个原则性框架，用于分析和预测 LLM 中的 RL Scaling
论文为 RL 训练拟合了 S 形计算-性能曲线（sigmoidal compute-performance curves），并广泛消融了一系列常见的设计选择，以分析它们对渐近性能和计算效率的影响
论文观察到：
- (1) 并非所有 Recipe （recipes）都能产生相似的渐近性能；
- (2) 诸如损失聚合、归一化、课程学习以及 Off-policy 算法等细节主要调节计算效率，而不会显著改变渐近性能；
  
  Details such as loss aggregation, normalization, curriculum, and off-policy algorithm primarily modulate compute efficiency without materially shifting the asymptote
- (3) 稳定、可扩展的 Recipe 遵循可预测的 Scaling 轨迹，使得能够从小规模运行中进行外推
结合这些见解，论文提出了一个最佳实践（best-practice） Recipe ScaleRL ，并通过成功地将单个 RL 运行扩展到 100,000 GPU hous 并预测其验证性能，证明了其有效性
论文的工作既提供了一个用于分析 RL Scaling 的科学框架，也提供了一个实用的 Recipe ，使 RL 训练更接近预训练中长期实现的预测性

Introduction and Discussion

Scaling RL 计算正成为推进 LLMs 发展的关键范式
- 预训练奠定了模型的基础；但随后的 RL 训练阶段释放了当今许多最重要的 LLM 能力，从 test-time thinking (OpenAI, 2024; DeepSeek, 2025) 到智能体能力 (Kimi, 2025a)
- 例如 Deepseek-RL-Zero 使用了 100,000 H800 GPU hous 进行 RL 训练，占其预训练计算的 3.75% (DeepSeek, 2025)
- RL 计算的这种急剧增长在前沿 LLM 的各代产品中被放大，从 o1 到 o3 增加了超过 $10\times$ (OpenAI, 2025)，从 Grok-3 到 Grok-4 也有类似的飞跃 (xAI Team, 2025)
尽管用于 LLM 的 RL 计算已经大规模扩展，但我们对如何扩展 RL 的理解并未跟上；其方法论仍然更像艺术而非科学
- 最近的 RL 突破主要由针对新颖算法的孤立研究 (例如，DAPO, (2025)) 和特定模型的训练报告所驱动，例如 MiniMax 等 (2025) 和 Magistral (2025)
- 且这些研究提供了针对特定背景的临时解决方案，但并未说明如何开发能够随计算规模扩展的 RL 方法
这种 Scaling 方法论的缺乏阻碍了研究进展：
- 由于没有可靠的方法先验地识别有前景的 RL 候选方案，进展与大规模实验绑定，这使得大多数学术界团体被边缘化
这项工作通过借鉴预训练中成熟的概念 Scaling Laws ，为 RL Scaling 的科学奠定了基础
- 虽然预训练已经收敛到能够可预测地随计算规模扩展的算法 Recipe (2020; 2022; Owen, 2024)，但 RL 领域缺乏明确的标准
- RL 从业者面临着令人眼花缭乱的设计选择，使得如何扩展以及扩展什么这些基本问题悬而未决
- 为了解决这些问题，论文建立了一个使用类 S 形饱和曲线来预测 RL 性能的框架，该曲线描述了在同分布验证集上的期望奖励 ($R_{C}$) 与训练计算量 ($C$) 之间的关系：
  $$\boxed{ \overbrace{R_{C}-R_{0} }^{ \text{Reward Gain} } = \overbrace {(A-R_{0})}^{ \text{Asymptotic Reward Gain} } \times \frac{1}{\underbrace{1+(C_{\rm mid}/C)^{B} }_{ \text{Compute Efficiency} } } } \quad \quad \text{(fixed model and traning data)} \tag{1}$$
- $0\leq A\leq 1$ 代表渐近通过率
- $B>0$ 是决定计算效率的缩放指数
- $C_{\rm mid}$ 设定了 RL 性能曲线的中点
- 注：$(A-R_{0})$ 可以理解为渐近的奖励增益（Asymptotic Reward Gain）， $A$ 为渐近奖励（Asymptotic Reward）
- 理解：
  - $A-R_0$ 是表示一个系数，越大时，整体收益 $R_C$ 越大
  - $C$ 是一个越大，$C_{\rm mid}/C$ 变小，$1+(C_{\rm mid}/C)^B$ 变小，$\frac{1}{1+(C_{\rm mid}/C)^B}$ 变大，整体曲线如图 3 所示
图 3 提供了这些参数的示意图解释
公式 (1) 中的框架使研究人员能够从低计算量运行外推性能到高计算预算，从而能够在无需承担将每个实验都运行到其计算极限的成本的情况下，评估 RL 方法的可扩展性
在这个框架的指导下，论文开发了 ScaleRL ，这是一个能够可预测地随计算规模扩展的 RL Recipe
- 在一个大规模的100,000 GPU hous 训练运行中，论文展示了 ScaleRL 的性能与论文的框架预测的扩展曲线紧密匹配（图 1）
- 仅从训练的初始阶段外推的扩展曲线与最终观察到的性能紧密匹配，证实了论文的框架在极端计算规模下的预测能力
ScaleRL 的设计基于一项全面的 RL Scaling 实证研究，该研究跨越了超过 400,000 GPU hous（在 Nvidia GB200 GPU 上）
这项研究在 8B 模型参数规模上探索了众多设计选择，其中单个运行使用高达 16,000 GPU hous，使其比在论文最大训练运行规模上进行实验便宜 6 倍
这项调查得出了三个关键原则：
- RL 性能上限并非普适（RL Performance Ceilings are Not Universal） ：当我们为不同方法扩展训练计算量时，它们会遇到不同的可达到性能上限 ($A$)
  - 这个限制可以通过诸如损失类型和批次大小等选择来改变
- 拥抱苦涩教训（Embracing the Bitter Lesson） ：在小计算预算下表现优越的方法，在外推到大规模计算区域时可能更差（图 2）
  - 仍然可以通过使用论文的框架（公式 (1)）从早期训练动态中估计缩放参数 ($A$, $B$) 来识别可扩展的方法
- 重新评估常见智慧 ：通常被认为能提高峰值性能的干预措施（例如，损失聚合、数据课程、长度惩罚、优势归一化）主要调整计算效率 ($B$)，而不会显著改变性能上限
基于这些见解，ScaleRL 通过整合现有方法而非发明新方法来实现可预测的扩展
- 具体来说，ScaleRL 结合了异步 Pipeline-RL 设置（第 3.1 节）、强制长度中断、截断重要性采样 RL 损失 (CISPO from MiniMax-M1)、提示级损失平均、批次级优势归一化、logits 处的 FP32 精度、零方差过滤和 No-Positive-Resampling
- 以上每个组件的贡献都在消耗 16,000 GPU hous 每次运行的留一法消融实验中得到了验证
- ScaleRL 实现可预测地扩展，且建立了新的SOTA（图 2）
  - 与已建立的 RL Recipe 相比，它实现了更高的渐近性能和计算效率
- ScaleRL 在跨多个训练轴增加计算量时保持了可预测的扩展性（第 5 节）
  - 包括 $2.5\times$ 更大的批次大小、长达 32,768 个 Token 的生成长度、使用数学和代码的多任务 RL 以及更大的混合专家模型 (Llama-4 17B$\times$16)；
  - 其益处持续迁移到下游任务
总的来说，这项工作建立了一种严谨的方法论，用于成本效益地预测新 RL 算法的可扩展性

Preliminaries & Setup

论文使用 LLM 进行强化学习，其中提示 $x$ 从数据分布 $D$ 中采样
论文的设置遵循在 GPU 上的 Generator-Trainer 分离：
- Generator GPU 使用优化的推理内核进行高通量 rollout 生成
- Trainer GPU（其余的 GPU）运行训练后端 (FSDP) 并更新参数
论文分别用 $\pi^{\theta}_{\text{gen} }$ 和 $\pi^{\theta}_{\text{train} }$ 表示 Generator 和训练后端上具有参数 $\theta$ 的模型
对于每个提示， Generator GPU 上的旧策略 $\pi^{\theta_\text{old} }_\text{gen}$ 产生候选补全，然后被分配标量奖励
策略优化通过最大化一个裁剪的 Surrogate Objective 进行，对 $x\sim D$ 和来自 $\pi^{\theta_\text{old} }_\text{gen}$ 的 rollout 取期望

Training Regimen（安排，规划）

所有实验均在用于推理的 RL 领域进行，其中模型产生一个用特殊 Token（<think> … </think>）包围的思考轨迹和一个最终解决方案
除非另有说明，训练使用 16,384 个 Token 的序列长度：
- 12,288 用于思考，2,048 用于解决方案，另外 2,048 用于输入提示
论文采用 12,288 的思考预算以加快迭代速度，并在第 5 节展示 ScaleRL 外推在使用更大思考预算 (32,768) 进行训练时仍保持预测性
对于数学 RL 实验，论文使用 Polaris-53K 数据集 (2025)，批次大小为 768（48 个提示，每个提示 16 次生成）
在论文的设置中，扩展 RL 计算对应于在训练提示上运行多个周期
关于训练的更多细节，包括 SFT 和超参数，见附录 A.3

Base RL Algorithm

作为论文在第 3 节的起点，论文从一个“基础”算法开始
- 该算法类似于没有 KL 正则化项的 GRPO (2024)，与大规模训练报告一致 (Magistral, 2025; MiniMax, 2025)
- 论文包含了非对称 DAPO 裁剪 (2025)，它作为避免熵崩溃和保持输出多样性的默认方法被广泛采用
对于给定的提示 $x$，旧策略 $\pi_{\text{gen} }(\theta_{\text{old} })$ 生成 $G$ 个候选补全 $\{y_{i}\}_{i=1}^{G}$，每个被分配一个标量奖励 $r_{i}$。论文计算优势 $\hat{A}_{i}$ 并使用组归一化优势：
$$\hat{A}_{i}=r_{i}-\text{mean}(\{r_{j}\}_{j=1}^{G}),\quad\hat{A}_{i}^{G}=\hat{A}_ {i}/(\text{std}(\{r_{j}\}_{j=1}^{G})+\epsilon).$$
- 每个长度为 $|y_{i}|$ 的补全 $y_{i}$ 在 Token-level 的重要性采样 (IS) 比率 $\rho_{i,t}(\theta)$ 上做出贡献，具有非对称的上限和下限裁剪阈值，类似于 DAPO (2025)：
  $$\rho_{i,t}(\theta):=\frac{\pi^{\theta}_\text{train}(y_{i,t}\mid x,y_{i,<t})}{\pi^{ \theta_{\text{old} } }_\text{gen }(y_{i,t}\mid x,y_{i,<t})}=\frac{\pi^ {\theta}_\text{train}(y_{i,t})}{\pi^{\theta_{\text{old} } }_\text{gen }(y_{ i,t})};\quad\text{clip}_{\text{asym} }(\rho,\epsilon^{-},\epsilon^{+}):=\text{ clip}(\rho,1-\epsilon^{-},1+\epsilon^{+}). \tag{2}$$
- 论文在 Sample-level 聚合损失，即在跨样本平均之前，先平均每个样本的 Token 损失
- Surrogate Objective 为：
  $$\mathcal{J}(\theta)=\mathbb{E}_{x\sim D,\atop\{y_{i}\}_{i=1}^{G}\sim\pi^{ \theta_{\text{old} } }_\text{gen }(\cdot|x)}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1 }{|y_{i}|}\sum_{t=1}^{|y_{i}|}\min\Bigl{(}\rho_{i,t}(\theta)\hat{A}_{i}^{G}, \text{clip}_{\text{asym} }(\rho_{i,t}(\theta),\epsilon^{-},\epsilon^{+})\hat{A}_ {i}^{G}\Bigr{)}\right]. \tag{3}$$
控制生成长度 (Controlling Generation Lengths)
- 为了防止训练过程中推理输出长度爆炸性增长，这有害于训练稳定性和效率，论文使用中断 (GLM-V Team, 2025; 2025)，通过附加一个思考结束短语（例如，“</think>”）来强制停止过长的生成，示意 LLM 终止其推理并产生最终答案
- 论文将在后面的第 4 节重新讨论这个选择，并将其与惩罚长生成的长度惩罚进行比较 (2025; Kimi Team, 2025b)

Predictive compute-scaling and fitting curves

与通常使用幂律拟合预测曲线的预训练不同，论文使用 S 形函数（公式 (1)）来模拟通过率与 $\log(compute)$ 的关系
- 论文这样做是因为论文经验发现 S 形拟合比幂律拟合更鲁棒和稳定，论文将在附录 A.4 中进一步讨论
- 论文的选择与先前使用类 S 形幂律来捕捉有界指标（如准确率）的工作一致 (2024; 2022)
与预训练研究类似 (2025b; 2025)，论文发现排除非常早期的低计算区域（low-compute regime）会产生更稳定的拟合，之后训练遵循可预测的轨迹
- 除非另有说明，论文所有的缩放拟合都在约 1.5k GPU hous 之后开始
- 拟合过程的进一步细节在附录 A.5 中提供，论文曲线拟合的鲁棒性在附录 A.7 中讨论
- 问题：这里是指拟合 S 形曲线时，排除早期的训练结果，理解是因为此时模型没有得到良好的训练，不排除会受波动影响较大
解释缩放曲线 (Interpreting scaling curves)
- 直观地说，S 形曲线捕捉了饱和回报：
  - 在低计算区域增长缓慢，在高效缩放的中段急剧加速，然后在计算量高时饱和
- 论文还在图 3 中提供了 S 形曲线参数 $A,B,\text{ 和 }C_{mid}$ 的示意图解释
  - 可以看到，$B,C_{\text{mid} }$ 主要影响运行的效率，$A$ 表示在大型计算规模下的渐近性能
- 关于这些参数的进一步讨论在附录 A.8 中提供
在留出验证集上的缩放曲线 (Scaling curve on held-out validation)
- 与预训练实践一致 (2022; 2025)，论文在同分布验证数据上测量预测性能
- 由于训练运行跨越多个 Epochs，论文从 Polaris-53k 数据集中随机留出 $1,000$ 个提示用于验证，并使用其余部分进行训练
- 缩放曲线拟合在验证点上，这些点每 100 个训练步骤测量一次平均通过率，在 $1,000$ 个留出提示上每个提示有 16 次生成

An Empirical Study of RL Scaling

论文使用一个 8B 参数的稠密模型在可验证的数学问题上进行 RL 实验
使用第 2 节中描述的设置，论文研究了几个设计轴在其可预测的计算缩放行为方面，即渐近性能 (asymptotic performance, $A$) 和计算效率 (compute efficiency, $B$)，如图 3 所示
论文将实验结构分为三个阶段
- 首先，在 3.5k 到 4k GPU hous 的基线之上消融设计选择，因为一些实验选择在此规模之外会变得不稳定（附录 A.15）
  - 每当一个设计改变被证明是稳定的，论文就将其训练更长时间
- 然后，将最佳选择组合成 ScaleRL ，并在第 4 节进行 16k GPU hous 的留一法 (LOO) 实验
  - 在这里，论文通过在前 8k GPU hous 上拟合并外推运行的剩余部分来评估可预测性
- 最后，为了证明使用 ScaleRL 的可预测缩放，论文在第 5 节还考虑了具有更大批次大小、混合专家模型、多任务（数学和代码）和更长序列长度的训练设置

Asynchronous RL Setup

论文首先研究异步 Off-policy RL 设置 (2024) 的选择，因为它控制着训练稳定性和效率，通常独立于所有其他设计选择
论文考虑两种 Off-policy 学习方法：PPO-off-policy-$k$ 和 PipelineRL-$k$
PPO-off-policy-$k$ 是异步 RL 的默认方法，先前已被 Qwen3 (2025) 和 ProRL (2025a) 使用
- 在这种设置中，旧策略 $\pi_{\theta^{\text{old} }_{\text{gen} } }^{op}$ 为一批 $B$ 个提示生成推理轨迹
- 每次梯度更新处理一个包含 $\hat{B}$ 个提示的小批次，导致每个批次有 $k=B/\hat{B}$ 次梯度更新
- 在论文的实验中，论文固定 $\hat{B}=48$ 个提示（每个提示 16 次生成），并通过设置 $B=k\times 48$ 来改变 $k\in \{1,8\}$
PipelineRL-$k$ 是来自 Piche 等 (2025) 的一种新方法，并被 Magistral (2025) 使用
- 在 PipelineRL-$k$ 中， Generator 以流式方式持续产生推理轨迹
- 每当 Trainer 完成一次策略更新时，新参数立即推送到 Generator ， Generator 继续使用更新后的权重但使用来自旧策略的陈旧 KV 缓存进行生成
- 一旦生成完整的轨迹批次，它就被传递给 Trainer 进行下一次更新
- 在论文的设置中，论文引入了一个参数 $k$：如果 Trainer 比 Generator 提前 $k$ 步，它们就会等待
论文在图 4(a) 中比较了这些方法
- PipelineRL 和 PPO-off-policy 实现了相似的渐近性能 $A$，但 PipelineRL 显著提高了计算效率 $B$；从而更快地达到上限 $A$
  - 因为 PipelineRL 减少了训练过程中的空闲时间
- 这种选择以更少的 Token 产生可靠的收益，使得在较低计算预算下进行更大范围的扫描成为可能
- 论文还改变了 PipelineRL 的最大 Off-policy 程度，并发现 $k=8$ 是最优的，如图 4(b) 所示，论文将在附录 A.11 中进一步讨论

Algorithmic Choices

基于以上结果，论文采用 PipelineRL-8 作为论文更新后的基线。然后论文研究了六个额外的算法轴：
- (a) 损失聚合， loss aggregation
- (b) 优势归一化，advantage normalization
- (c) 精度修正，precision fixes
- (d) 数据课程，data curriculum
- (e) 批次定义，batch definition
- (f) 损失类型，loss type
在第 4 节，论文将最佳选项组合成一个统一的 Recipe ，称为 ScaleRL (Scale-able RL)，并在 16,000 GPU hous 的更大规模上进行留一法实验

Loss type

论文将非对称 DAPO 损失（公式 8）与两个最近提出的替代方案进行比较：GSPO (Qwen, 2025a) 和 CISPO (MiniMax, 2025; 2025)
GSPO 在序列级别应用重要性采样，而不是 GRPO 的 Token-level 公式。具体来说，GSPO 将 Token-level 的 IS 比率（公式 2）改变为序列级别的比率：
$$ \rho_{i}(\theta)=\frac{ {\pi_\text{train}(y_{i}|x,\theta)} }{ {\pi_{gen}(y_{i}|x,\theta_{\text{old} })} }$$
CISPO 简单地将截断 IS 与普通策略梯度 (Ionides, 2008) 结合起来，其中 $\mathbf{sg}$ 是停止梯度函数：
$$\mathcal{J}_{\text{CISPO} }(\theta)=\underset{\begin{subarray}{c}x\sim D,\ (y_{t})_{t=1}^{G}\sim\pi_{gen}(\cdot|x,\theta_{\text{old} })\end{subarray} }{\mathbb {E} }\left[\frac{1}{T}\sum_{t=1}^{G}\sum_{t=1}^{\lvert y_{t}\rvert}\mathbf{sg}(\min(\rho_{i,t},\epsilon_{\max}))\hat{A}_{i}\log \left(\pi_\text{train}(y_{i,t}|x,y_{i<t},\theta)\right)\right] \tag{4}$$
图 5(a) 显示 GSPO 和 CISPO 都显著优于 DAPO，大幅提高了渐近通过率 $A$
CISPO 表现出延长的近线性奖励增长，并且在训练后期略优于 GSPO，因此论文选择 CISPO 作为论文的最佳损失类型
关于 Off-policy 损失类型及其超参数鲁棒性的进一步讨论在第 4 节和附录 A.17 中详述

FP32 Precision for LLM logits

Generator 和 Trainer 依赖不同的内核进行推理和训练，导致它们的 Token 概率存在小的数值不匹配 (ThinkingMachine Defeating nondeterminism in LLM inference, 2025)
- RL 训练对此类差异高度敏感，因为它们直接影响 Surrogate Objective 中的 IS 比率
MiniMax (2025) 发现这些不匹配在语言模型头（language model head）尤其明显，并通过在 Generator 和 Trainer 的 Head 使用 FP32 计算来缓解这个问题
- 如图 5(b) 所示，精度修正将渐近性能 $A$ 从 $0.52$ 显著提高到 $0.61$
- 鉴于这个明显的好处，论文将 FP32 精度修正包含在论文的 ScaleRL Recipe 中

Loss Aggregation

论文评估了三种聚合 RL 损失的策略：
- (a) 样本平均（Sample average） ，每个 rollout 贡献相等（如 GRPO，附录 A.2）
- (b) 提示平均（Prompt average） ，每个提示贡献相等（如 DAPO，附录 A.2）
- (c) Token 平均（Token average） ，批次中的所有 Token 损失直接平均，没有中间分组
比较结果见附录 A.9（图 14(a)）
论文发现 Prompt average 实现了最高的渐近性能，因此在 ScaleRL 中使用此选择

Advantage Normalization

论文比较了三种优势归一化的变体：
- (a) 提示级别（Prompt level） ，优势通过同一提示的 rollout 奖励的标准差进行归一化（如 GRPO，附录 A.2）
- (b) 批次级别（Batch level） ，优势通过批次中所有生成的标准差进行归一化，如 Reinforce++ (2025a); Magistral (2025) 所用
- (c) 无归一化（No normalization） ，优势计算为原始奖励减去提示生成的平均奖励，没有方差缩放（如 Dr. GRPO (2025c) 所提出）
比较图见附录 A.9（图 14(b)），观察到所有三种方法产生相似的性能
因此论文采用 Batch level 归一化，因为它在理论上合理且略好
这个选择在第 4 节的更大规模留一法实验中也得到了进一步证实

Zero-Variance Filtering

在每个批次中，一些提示在其所有生成中产生相同的奖励
- 这些“零方差”提示具有零优势，因此贡献零策略梯度
- 默认基线在损失计算中包含这些提示，但尚不清楚是否应将它们包含在有效批次中
为了测试这一点，论文将默认设置与有效批次（effective batch）方法进行比较
- 在 effective batch approach 中，只有具有非零方差的提示被包含在损失计算中（如 Seed (2025) 所做）
请注意：零方差过滤不同于 DAPO (2025) 中的动态采样
- 零方差过滤仅仅是丢弃 Prompt ，而 DAPO 是重新采样更多提示直到批次满员（until the batch is full）
- 论文在图 6(a) 中显示使用有效批次在渐近性能上表现更好；论文将其纳入论文的 ScaleRL Recipe

Adaptive Prompt Filtering

已经提出了许多用于 RL 训练的数据课程策略以提高样本效率 (2025; 2025b; 2025b)
这里论文评估一个简单的变体，由 (2025) 引入，其关键观察是
- 一旦一个提示对策略变得过于简单，它通常会持续保持简单
- 由于这样的提示消耗一些计算但不再贡献有用的梯度信号（第 3.2 节），最好将它们从未来的训练中排除
论文通过维护一个通过率历史记录并永久移除任何通过率 $\geq 0.9$ 的提示在后续周期中来实现这一点（论文称之为 No-Positive-Resampling）
在图 6(b) 中，论文将此课程与默认设置（所有提示在整个训练过程中均匀重新采样）进行比较
- 论文看到课程提高了可扩展性和渐近奖励 $A$

ScaleRL: 有效且可预测地扩展强化学习计算 (ScaleRL: Scaling RL Compute Effectively & Predictably)

根据上述研究的设计维度，论文将性能最佳的设置整合到一个单一的 Recipe 中，论文称之为 ScaleRL (Scale-able RL)
ScaleRL 是一种异步强化学习 Recipe ，它使用下面的配置：
- 具有 8 步 Off-policy 性的 PipelineRL
- 基于中断的长度控制进行截断（interruption-based length control for truncation）
  - 注：后文有提到，对于强制中断，论文使用思考结束短语：”Okay, time is up. Let me stop thinking and formulate a final answer now. </think>“
- FP32 计算用于逻辑单元
- 优化 $\mathcal{J}_{\texttt{ScaleRL} }(\theta)$ 损失
$\mathcal{J}_{\texttt{ScaleRL} }(\theta)$ 损失结合了：
- Prompt-level 损失聚合
- Batch-level 优势归一化
  - 注意：是按照批次做 Advantage 归一化的，不是 GRPO 方法，而是类似 REINFORCE++ 方法
  - 补充：REINFORCE++ 的方法：
    - 记录历史平均奖励作为基线，判断模型是否在进步
    - 使用历史奖励的均值和方差做归一化，类似 Batch Normalization）
- 截断重要性采样（truncated importance-sampling）REINFORCE 损失 (CISPO)
- 零方差过滤（zero-variance filtering）
- 无正例重采样（no-positive resampling）
  $$\begin{split}\mathcal{J}_{\texttt{ScaleRL} }(\theta)=& \underset{x\sim D,\atop\{y_{i}\}_{i=1}^{G},\sim\pi^{data}_{g\in h}( \cdot|x)}{\mathbb{E} }\left[\frac{1}{\sum_{g=1}^{G}|y_{g}|}\sum_{i=1}^{G}\sum_{t=1 }^{|y_{i}|}\mathsf{sg}(\min(\rho_{i,t},\epsilon))\hat{A}^{\text{norm} }_{i}\log \pi^{ {\theta} }_\text{train}(y_{i,t})\right],\\ \rho_{i,t}=&\frac{\pi^{ {\theta} }_\text{train}(y_{i,t})}{\pi^{ {\theta}_{add} }_{g\in h}(y_{i,t})},\hat{A}^{\text{norm} }_{i}=\hat{A}_{i}/\hat{A}_{\text{std} },0<\text{mean}(\{r_{j}\}_{j=1}^{G})<1,\text{pass_rate} (x)<0.9,\end{split}$$
- 其中 $\mathsf{sg}$ 是停止梯度函数
- $\hat{A}_{\text{std} }$ 是一个批次中所有优势 $\hat{A}_{i}$ 的标准差
- pass_rate$(x)$ 表示提示 $x$ 的历史通过率

留一法消融实验 (Leave-One-Out (LOO) Ablations)

为了验证这些选择在组合后仍然是最优的，论文进行了留一法 (LOO) 实验：
- 从 ScaleRL 开始，论文每次将一个维度恢复到其在第 2 节中的基线对应项
- 这确保了每个设计决策即使在其他所有决策都存在的情况下也能做出积极贡献
图 7 报告了这些实验，每个实验扩展到 16k GPU hous
在所有维度上，ScaleRL 始终是最有效的配置，在渐近奖励或计算效率上略微优于 LOO 变体（参见图 7 表格的最后一列）
- 由于大多数 LOO 变体达到相似的渐近通过率，论文将 sigmoid 拟合转换为幂律拟合，以通过斜率 $B$ 突出效率差异（细节见图 7）
- 具体来说，论文平均所有运行的渐近奖励 $A$，用这个固定的 $A$ 重新拟合曲线，然后在图 7 中比较斜率（衡量效率）
- 相应的未转换的通过率与计算曲线在附录 A.2 中提供

Error margin（误差范围）in fitting scaling curves

由于强化学习训练已知具有高方差 (2021)，论文使用三个独立的 ScaleRL 运行（图 8a）来估计拟合缩放系数的变异性
- 观察到的渐近奖励和效率参数的方差作为论文的经验误差范围，用于确定两个不同运行的计算效率或渐近性能的变化是否具有统计意义 (2024)

Extrapolating Scaling Curves

在论文所有的 LOO 实验以及独立的 ScaleRL 运行中，论文拟合了高达 8000 GPU hous 的 sigmoid 曲线，并外推到 16000 GPU hous ，观察到预测曲线与训练点和扩展点都紧密对齐
- 这证明了 ScaleRL 和其他稳定、可扩展的 Recipe 在大规模强化学习训练下的稳定性和可预测性

Are the design choices worth it?

在第 3.2 节中，某些设计选择改变了渐近性能，例如损失类型（图 5a）和 FP32 精度（图 5b）
但在论文使用 ScaleRL 的 LOO 实验中（图 7），这些组件单独来看似乎不那么关键（图中最后一列）
这就提出了一个问题：某些设计选择是否可以安全地保留其”默认”值
- 作者认为上述问题的答案是否定的
- 即使一个选择在组合 Recipe 中显得多余，它仍然可以提供稳定性或鲁棒性，这在其他情况下可能变得至关重要
  - 问题：如何理解显得多余又能提供稳定性或鲁棒性，是指不使用这些指标时，不同随机种子下表现差异大吗？还是说在不同的模型规模或者数据集上表现差异大？
- 例如，虽然 FP32 精度修复在使用 ScaleRL 训练的密集 8B 模型上差异不大（图 7），但它在 GRPO/DAPO 风格的损失中通过减轻数值不稳定性带来了巨大收益
  - 这表明它的好处超出了论文研究的特定 ScaleRL 配置
  - 为了进一步测试这一点，论文在 Scout 17Bx16 MoE 上进行了留一法实验，观察到 FP32 精度提高了整体可扩展性（图 8b）
- 损失类型也出现了类似的情况
  - 在图 7 中，恢复到 DAPO 在 ScaleRL 内产生了与 CISPO 相似的渐近性能
  - 但如论文在附录 A.17 中讨论的那样，CISPO 对 IS 裁剪参数 $\epsilon_{\text{max} }$ 的选择明显更鲁棒，降低了训练对超参数调整的敏感性
  - 而且它在 LOO 实验中比 DAPO 更高效（$B=2.01$ 对比 $B=1.77$）
  - 这证明了即使一个经过仔细调整的 DAPO 变体在渐近性能上可能相似，也倾向于选择 CISPO 是合理的
总之，即使个别设计选择在组合 Recipe 中显得多余，它们通常也能以跨模型和设置泛化的方式增强训练稳定性、鲁棒性或效率
- ScaleRL 保留这些组件不仅仅是为了在特定配置中获得边际收益，而是因为它们解决了在强化学习体系中反复出现的不稳定性和方差来源
注：本节的主要目标是说明，很多改进点看似在论文特定场景下没有收益，但在更通用的其他场景（随机种子，数据集，模型等）下，可能会有收益，为了保证方法的稳定性，建议加上一些确定性的改进点

Predictable Scaling Returns Across RL Compute Axes（跨强化学习计算轴的可预测缩放回报）

给定固定或增长的计算预算，哪个缩放旋钮（上下文长度、批次大小、每个提示的生成次数和模型大小）能带来最可靠的性能增益，并且论文多早可以预测到这种回报？
论文通过以下方式回答这个问题：
- (i) 在每种设置的训练早期（精确地说，是目标预算的一半）拟合方程 (1) 中的饱和幂律；
- (ii) 外推到目标预算；
- (iii) 扩展训练以验证预测
在下面所有的轴线上，论文观察到清晰、可预测的拟合，其外推曲线与扩展轨迹对齐，反映了论文在 100,000 GPU hous 运行（图 1）和图 2 中的跨 Recipe 比较中看到的行为

模型规模（Model scale (MoE)）

ScaleRL 在更大模型上是否仍然保持可预测性和稳定性？（注：即论文的 Scaling Law 是否能泛化到其他模型上）
使用 ScaleRL 训练 17B$\times$16 Llama-4 Scout MoE 表现出与 8B 模型相同的可预测缩放行为 ，具有低截断率且没有不稳定性问题（附录 A.15, A.17）
- 图 1 显示了训练曲线
扩展点与拟合曲线对齐，支持了论文 Recipe 对模型规模的不变性
更大的 17B$\times$16 MoE 表现出比 8B 密集模型高得多的渐近强化学习性能，仅使用其 1/6 的强化学习训练计算量就超越了 8B 的性能

Generation length（context budget，即上下文预算）

将生成长度从 14k 增加到 32k 个 Token 会减缓早期进展（更低的 $B$ 和更高的 $C_{mid}$），但会持续提升了拟合的渐近线 (A)
- 提供足够的计算量后，可以产生更高的最终性能（图 9）
这验证了长上下文强化学习是一个提升性能上限的旋钮，而不仅仅是效率权衡
从拟合中做出的外推正确地预测了当训练扩展时更高的 32k Token 轨迹

Global batch size（prompts，即提示数）

较小的批次运行在下游基准测试中显示出早期停滞（即使分布内验证性能持续提高）
较大的批次可靠地改善了渐近线，并避免了论文在较小批次运行中观察到的下游停滞
图 10a 在中尺度上显示了相同的定性模式：
- 小批次可能在早期表现更好，但随着计算量的增长会被超越
- 在论文图 1 中最大的数学运行中，将批次大小增加到 2048 个提示既稳定了训练，又产生了一个可以从高达 50k GPU hous 外推到最终 100k 点的拟合

每个提示的生成次数（固定总批次）(Generations per prompt (fixed total batch))

对于固定的总批次，是分配更多提示还是每个提示分配更多生成次数更好？
- 扫描每个提示的生成次数 8,16,24,32 并调整提示数以保持总批次固定，得到的拟合缩放曲线基本不变（附录 A.13）
- 这表明在中等批次下，这种分配对于 A 和 B 都是次要选择
在更大批次（例如，2k+）下可能会出现更明显的差异，论文将其留待未来工作

论文在本节中详细介绍了与论文研究最相关的两项工作
ProRL (2025a) 证明，在大型语言模型上进行长时间的强化学习微调（约 2000 个优化步骤，批次大小 64），使用混合推理任务进行 16K GPU hous ，可以发现超越模型基础能力的新解决方案策略
- 这种更长的训练方案在 1.5B 模型上带来了显著收益，在某些基准测试中媲美更大模型的性能
- ProRL 的贡献在于特定的稳定性启发式方法（KL 正则化、策略重置、熵控制等），以实现 1.5B 模型的高性能
Alibaba Group 等 (2025c), Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning 提供了一个互补的视角
- 在 Qwen-3 4B/8B (2025) 上的一致条件下消融了各种设计选择，并提出了一种极简组合 LitePPO
  - LitePPO 在较小规模的模型和计算量上优于更复杂的方法，如 GRPO (2024) 和 DAPO (2025)
- 这产生了有价值的算法见解，但重点是比较实证发现，而不是缩放行为
这些工作都没有研究这些方法的”缩放(scaling)”特性
- 事实上，主要的比较是在下游评估上进行的，这可能不是研究可预测缩放的正确指标
- 正如在预训练和论文这里的工作中所做的那样，论文研究分布内留出验证集上的性能
与上述提到的相关工作相比，论文的工作开发并验证了一个具有预测拟合的计算-性能框架，同时在更大的计算预算（例如，比 ProRL 大 6 倍）和模型规模上运行
论文的研究结果产生了一个近乎最先进的强化学习 Recipe ，可以可预测地扩展到超过 100,000 GPU hous 而没有任何稳定性问题
其余相关工作推迟到附录 A.1

Discussion & Conclusion

在这项工作中，论文研究了用于大型语言模型强化学习的各种技术的缩放特性，以寻求一个可预测、可扩展的 Recipe
基于此使命，论文推导出一种为验证集准确率拟合预测性缩放曲线的方法，使论文能够量化强化学习方法的渐近性能和计算效率
使用这种方法论，论文的主要贡献是仔细进行了一系列消融实验，涉及构成强化学习 Recipe 的若干算法选项
- 对于每次消融，论文尽可能选择具有更高渐近性能的选项，否则选择效率更高的选项
结合这些选择产生了 ScaleRL Recipe ，它在论文的实验中比所有现有 Recipe 缩放得更好
以下几点观察值得注意：
- 计算缩放外推 (Compute scaling extrapolation)
  - 论文缩放方法论的一个重要见解是，我们可以系统地使用较小规模的消融来预测更大规模的性能
  - 这使论文能够创建最终的可扩展 Recipe
- 最重要的决策 (Most important decisions)
  - 根据论文的消融实验， Off-policy 算法、损失函数和模型精度是最重要的决策
  - 其他每个决策单独影响不大，但正如论文从留一法实验中看到的，当它们全部组合时，仍然具有一些累积影响（在效率方面）
- 渐近性能与效率 (Asymptotic performance vs. efficiency)
  - 对于论文许多消融实验，论文发现更好的选项同时提高了效率和渐近性能，但情况并非总是如此（例如，对于 FP32，图 4(b)）
    - 当从基线方法开始进行”正向”消融时，论文首先且最主要地选择渐近性能
  - 有趣的是，当从 ScaleRL Recipe 进行”反向”留一法消融时，论文发现每个决策对渐近性能的影响非常小，但算法的每个组件似乎都有助于提高效率
    - 这表明变化的累积效应是相当鲁棒的
- 泛化 (Generalization)
  - 虽然论文报告了下游评估的迁移情况，但论文的主要重点是研究预测性缩放，这是通过在训练提示的留出数据集上的分布内性能曲线来表征的 (2022;2025)
    - 这仍然留下了大型语言模型从训练分布到留出测试集的泛化能力如何的问题
  - 虽然对泛化的全面描述超出了论文工作的范围，但论文确实观察到分布内验证与下游泛化性能之间的相关性
  - 但有一些算法选择似乎更有助于泛化，论文在此想指出，包括：
    - 更大的批次大小（章节 A.14）
    - 减少截断（章节 A.15）
    - 更长的生成长度（第 5 节，图 9）
    - 更大的模型规模（第 5 节，图 1）
- 多任务强化学习 (Multi-task RL)
  - 虽然论文的实验主要集中在数学领域，但论文也在多任务强化学习训练下评估了 ScaleRL
  - 如图 11 所示，在数学和代码上联合训练为每个领域产生了清晰、平行的幂律趋势，扩展的运行保持与外推曲线对齐
  - 虽然论文的初步结果是有希望的，但彻底研究具有不同训练数据混合的多任务强化学习的计算缩放可预测性将是很有趣的

Future work

一个自然的下一步是为强化学习在预训练计算、模型大小和强化学习训练数据方面推导预测性的”Scaling Laws”
未来的研究还可以包括其他强化学习计算缩放的轴（Axes），例如结合结构化或密集奖励 (2025b;2024) 和更计算密集的生成验证器 (2025a)，以找到强化学习训练的最佳计算分配
最后，这里介绍的方法论框架可以应用于研究其他后训练机制的缩放行为，包括多轮强化学习、智能体交互和长形式推理
强化学习中有许多设计选择，因此作者认为论文的 ScaleRL Recipe 并非故事的终点
- 作者希望论文对可扩展强化学习的关注以及预测可扩展性的方法能够激励未来的工作，进一步推动大型语言模型强化学习的前沿
- 为了使未来的研究能够拟合计算-性能强化学习缩放曲线，论文在 www.devvrit.com/scalerl_curve_fitting 发布了一个最小代码库

附录 A：Appendix

近期涌现的一波工作将强化学习应用于提升大语言模型的推理能力；这些工作通常能在具有挑战性的任务上取得最先进的结果 (2024; 2025; 2025; 2025)
- OpenAI 的 o1 系列模型证实了大规模强化学习能显著增强长程推理能力，但并未发布这些模型训练方式的任何细节
- Deepseek R1（以及 R1-Zero）(2025) 提供了首个关于主要通过强化学习训练高性能长思维链模型的全面研究，记录了在扩展强化学习下不依赖奖励模型 (2023) 或蒙特卡洛树搜索 (2024) 而出现的涌现行为
这波推理发展浪潮中最早被广泛引用的 RLVR（可验证奖励）算法是 GRPO
- GRPO 是一种无评论员、分组相对的策略梯度方法，采用 PPO 风格的裁剪，用分组基线替代学习的价值基线，以降低计算成本并稳定长思维链的信用分配
- 虽然 GRPO 催化了快速进展，但后续工作记录了其局限性（ Token-Level 裁剪、模型崩溃风险）并推动了不同分组或序列级别的变体 (2025; 2025; 2025; 2025)
DAPO 提出了解耦裁剪和动态采样策略优化
- DAPO 在 GRPO 目标中解耦了 $\epsilon_{\text{low} }$ 和 $\epsilon_{\text{high} }$ 裁剪，并对 $\epsilon_{\text{high} }$ 进行 Clip-Higher操作以避免熵崩溃
- DAPO 在给定批次中对提示进行动态采样，以避免方差（或优势）为零的样本，这些样本对策略梯度没有贡献
- DAPO 采用 Token-Level 损失聚合（注：GRPO 使用样本级损失平均）
- 通过以上这些修改，DAPO 能够在避免强化学习训练中熵崩溃的同时超越原始 GRPO 基线
与此同时提出的 VAPO 是一种专为长思维链设计的价值增强型 PPO，具有强大的稳定性，并优于像 GRPO 和 DAPO 这样的无价值基线
- VAPO 结合了价值预训练和来自 VC-PPO (2025) 的解耦广义优势估计、来自 DAPO 的损失目标修改，并提出了长度自适应的 GAE，从而形成了一个开放的 Recipe VAPO，该 Recipe 已被用于训练 Seed1.5-thinking (2025) 中的大型混合专家模型
- 类似地，其他技术报告如 Magistral (2025)、Kimi-k1.5 (2025)、Minimax-01 (2025) 详细介绍了他们强化学习训练 Recipe 的各种细节，但并未分享关于其设计选择为何优于基线的广泛实验

A.2 面向大语言模型的强化学习：GRPO 和 DAPO (RL for LLMs: GRPO and DAPO)

GRPO (2024)

GRPO 将 PPO (2017) 应用于具有可验证奖励的大语言模型微调
对于给定的提示 $x$，旧策略 $\pi_{\text{gen} }(\theta_{\text{old} })$ 生成 $G$ 个候选补全 $\{y_i\}_{i=1}^G$，每个补全被分配一个标量奖励 $r_i$
为了强调组内的相对质量，奖励被归一化为
$$
\hat{A}_i=\frac{r_i-\text{mean}(\{r_j\}_{j=1}^G)}{\text{std}(\{r_j\}_{j=1}^G)+\epsilon}.
$$
每个长度为 $|y_i|$ 的补全 $y_i$ 通过比率在 Token-level 上做出贡献
$$
\rho_{i,t}(\theta)=\frac{\pi_\text{train}(y_{i,t} \mid x,y_{i,<t},\theta)}{\pi_{gen}(y_{i,t} \mid x,y_{i,<t},\theta_{\text{old} })}.
$$
GRPO 目标在补全和 Token 之间进行平均：
$$
\mathcal{J}_{\text{GRPO} }(\theta)=\mathbb{E}_{x\sim D,\atop\{y_i\}_{i=1}^G,\sim\pi_{\text{gen}(\cdot \mid x,\theta_{\text{old} })} }\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{t=1}^{|y_i|}\min\Big(\rho_{i,t}(\theta)\hat{A}_i,\ \operatorname{clip}(\rho_{i,t}(\theta),1\pm\epsilon)\hat{A}_i\Big)\right].
$$
GRPO 像 PPO 一样保留了 Token-level 的策略比率，同时使用序列级别、分组归一化的优势来在稀疏奖励下稳定学习

DAPO

DAPO (2025) 通过两个关键修改扩展了 GRPO
第一个改进点：用 非对称裁剪 替代了对称裁剪，对向上和向下的偏差使用不同的阈值：
$$ \text{clip}_{\text{asym} }(\rho,a)=\text{clip}(\rho,,1-\epsilon^{-},1+\epsilon^{+})$$
- 其中 $\epsilon^{-}$ 和 $\epsilon^{+}$ 是超参数
第二个改进点：DAPO 将聚合方案更改为在 提示级别 操作
- 对于给定的提示 $x\sim D$，旧策略产生 $G$ 个补全 $\{y_i\}_{i=1}^G$，其优势为 $\{\hat{A}_i\}$（公式 (5)）
- 令 $T=\sum_{i=1}^G|y_i|$ 表示所有补全的总 Token 数
- Token-level 比率如公式 (2) 所示
DAPO 代理目标为
$$
\mathcal{J}_{\text{DAPO} }(\theta)=\mathbb{E}_{x\sim D,\atop\{y_i\}_{i=1}^G\sim\pi_{\text{gen}(-|x,\theta_{\text{old} })} }\left[\frac{1}{T}\sum_{i=1}^G\sum_{t=1}^{|y_i|}\min\Bigl(\rho_{i,t}(\theta)\hat{A}_i,\ \text{clip}_{\text{asym} }(\rho_{i,t}(\theta))\hat{A}_i\Bigr)\right].
$$
这种提示级别的归一化确保每个 Token 对提示的损失贡献相等，无论其采样补全的数量或长度如何
DAPO 还引入了在训练期间动态丢弃批次中方差为零的提示，并用更多提示填充批次直到批次满员（论文在此跳过该更改，因为其效果类似于拥有更大的批次大小）

A.3 Training Setup

数据集
- 对于小规模监督微调，论文使用精心策划的推理轨迹数据混合
- 论文通过移除琐碎的提示、丢弃超过 12$k$ 个 Token 的解决方案轨迹，并使用 AIME 2024/2025 和 MATH-500 (2021) 基准进行去污染来过滤此数据集
- 对于强化学习阶段，论文在大多数运行中使用 Polaris-53K 数据集 (2025)；
- 对于同时包含数学和代码的运行，使用 Deepcoder 数据集 (2025)
监督微调
- 论文使用 2M Token 的批次大小、最大序列长度 12288 和学习率 $3\times 10^{-5}$，在 32 个 H100 GPU 节点上使用 AdamW 优化器 (2019) 运行监督微调，总共大约 4 个轮次和 32B Token
强化学习
- 论文在强化学习训练期间分配 14k 的生成预算，其中 12k Token 分配给中间推理（“思考”），随后 2k Token 用于最终解决方案和答案
- 论文在每个批次中采样 48 个提示，每个提示有 16 个生成（即每个梯度更新步骤的总批次大小为 768 个回复）
- 奖励分别给予正确和错误的轨迹 $\pm 1$
- 使用恒定学习率 $5\times 10^{-7}$
- AdamW 优化器 (2019)，其中 $\epsilon=10^{-15}$，权重衰减为 0.01（AdamW 中的默认值）
  - 注：较低的 $\epsilon$ 是为了避免梯度裁剪（epsilon 下溢）(2023)
- 100 步的线性预热
数学问题评估：
- 论文使用自动化检查器，如 Sympy (2017) 或 Math-Verify 来评估数学问题在剥离思考轨迹（$<$think$>$$\cdots$$<$/think$>$）后最终答案的正确性
代码问题：
- 对于涉及单元测试和期望输出的代码问题，论文使用自定义代码执行环境
硬件：
- 论文使用 80 个 Nvidia GB200 GPU 进行单次运行
  - 3.5-4K GPU hous（用于在第 3.2 节中建立不同的设计选择）
  - 16K GPU hous 用于留一法实验（第 4 节）
  - 30k-100K GPU hous 用于论文更大规模的运行（第 5 节）
- 论文在 GPU 之间采用 Generator-Trainer 分离
  - 对于 80 个 GPU 的实验，论文将其中的 64 个设置为 Generator ，负责使用优化的推理代码库生成推理轨迹
  - 其余的 16 个 GPU 作为 Trainer ，接收生成的轨迹，执行策略更新，并定期将更新后的参数广播回 Generator

A.4 拟合什么曲线？ (What curve to fit?)

预训练曲线通常使用幂律方程进行拟合 (2025; 2020; 2025)
在论文的情况下，这将性能建模为 $R_C=A-D/C^B, C\geq C_0$，其中 $D$ 是常数，$C_0$ 标志着超出该阈值后定律成立的计算量阈值
- 直观地说，这意味着计算的每次倍增都会带来性能的恒定比例增益
但对于强化学习后训练，论文发现 S 形曲线（公式 (1)）更合适，原因如下
- 首先，对于有界指标，如准确率或奖励，S 形曲线提供了更好的预测拟合 (2024; 2022)；论文观察到同样的情况，能够准确外推到更高的计算量（图 1）
- 其次，幂律在低计算量时是无界的，并且通常只在超过阈值 $C_0$ 后才进行拟合
  - 在强化学习中，总训练步数要少得多（例如，图 1 中只有约 75 个评估点可供拟合），丢弃早期点会进一步减少本已有限的拟合数据
- 第三，根据经验，S 形拟合比幂律拟合更加稳健和稳定
  - 具体来说，考虑图 1 中所示的在 8B 稠密模型上进行的 100k GPU hous 运行
    - 当论文在 1.5k-50k GPU hous 之间拟合幂律曲线时，它预测的渐近性能为 $A=1.0$，这显然是错误的（实际曲线在 0.65 附近饱和）
    - 相比之下，S 形拟合给出了 $A=0.645$ 的准确预测
  - 此外，幂律拟合对所选拟合区间高度敏感：
    - 在 (5$\text{k}$,50$\text{k}$) GPU hous 上拟合则得到 $A=0.74$，而 S 形拟合仍然稳健，并且仍然预测 $A=0.645$
  - 幂律模型只有在专门在高计算量区间（例如，30k-60k GPU hous ）拟合时才能恢复正确的渐近线
    - 但论文的目标是从低计算量区间预测大规模性能，而在这些区间无法获得如此长的运行
考虑到这些因素，论文在整个分析中使用 S 形形式
- S 形曲线捕捉了收益递减规律，即在低计算量区间增长缓慢，在高效缩放的中等区间急剧加速，然后在计算量高时饱和，接近有限的性能上限
需要注意的一点是，在高计算量区间，S 形曲线的行为与幂律相同
- 具体来说，我们可以对 S 形曲线进行以下近似：
  $$
  \begin{align}
  R_C &=R_0+\frac{A-R_0}{1+(C_{mid}/C)^B} \quad \text{(来自公式 (1) 的 S 形曲线)} \\
  \implies R_C &\approx R_0+(A-R_0)\left(1-\frac{C^{B}_{mid} }{C^{B} }\right) \quad \text{(对于 $C>>C_{mid}$, 高计算量区间（high compute regime）)} \\
  &=A-\frac{(A-R_0)C^{B}_{mid} }{C^{B} } \\
  &=A-\frac{D}{C^{B} }
  \end{align}
  $$
- 其中 $D=(A-R_0)C^{B}_{mid}$
- 这与本节开头提到的幂律形式相同

A.5 Fitting scaling curves

论文将公式 (1) 中的 S 形定律方程拟合到论文留出验证集上的平均奖励
- 包含从 Polaris-53k (2025) 数学数据集中留出的 1,000 个提示，每 100 个训练步骤进行一次评估，每次在留出的 1,000 个提示上采样 16 个生成
直接拟合所有三个参数 $\{A,B,C_{mid}\}$ 具有挑战性
- 所以论文执行网格搜索，遍历 $A\in\{0.450,0.455,0.460,\ldots,0.800\}$ 和 $C_{mid}\in[100,40000]$（搜索 100 个线性分隔的值），并对每个候选的 $A,C_{mid}$ 拟合 $B$
  - 在此网格上最佳拟合（通过残差平方和衡量）作为最终曲线
- 论文使用 SciPy 的 curve_fit 和默认初始化；改变初始化策略产生了相同的结果
- 为了使未来的研究能够拟合计算性能强化学习缩放曲线，论文在 www.dewrit.com/scalerl_curve_fitting 发布了一个最小的代码库
为了估计论文拟合的误差范围，论文训练了三个独立的 ScaleRL 运行，批次大小为 768，生成长度为 14k（如第 4 节所用），如图 8a 所示
- $A$ 的拟合值最多变化 $\pm 0.015$，表明在渐近性能估计上 0.02 是一个合理的误差范围
- 估计拟合值 $B$ 的误差范围很困难，因为具有不同 $A$ 值的不同算法可能对 $B$ 有不同的误差范围
- 为了比较算法的目的，我们可以安全地推断，如果两种方法达到相似的 $A$ 值（在 0.02 范围内），那么当使用 $A$ 值的平均值重新拟合时，具有较高 $B$ 值的方法在可扩展效率方面至少同样好

A.6 Comparing algorithms

与大规模预训练中的观察一致，损失在初始急剧下降后进入可预测的幂律衰减阶段 (2025)，论文在强化学习中也观察到类似的两阶段行为
平均奖励在约第一个 epoch（约 1k 步，或对于大多数运行约 1.5k GPU hous ）期间快速、几乎线性地增加，之后曲线遵循 S 形定律行为（见图 15 查看“S 形”曲线）
论文的 S 形定律拟合应用于训练曲线的后一部分
与预训练不同，论文的主要目标不是预测固定 Recipe 的性能，而是识别哪些算法和设计选择能够可靠地扩展，并设计出具有可预测性的算法
实现高度稳健的拟合通常需要具有数百或数千个评估点的非常大的运行，这在论文的设置中是不切实际的，原因有两个
- 第一个原因：在此规模上运行所有消融实验在计算上是不可行的
- 第二个原因：论文比较的许多强化学习算法本身无法扩展到如此极端的预算：它们通常更早饱和，甚至由于不稳定性而在计算量增加时性能下降
  - 例如，论文的基线方法（第 3.2 节）在超过约 3500 GPU hous 后变得不稳定，因为过长的生成截断超过了生成的 10%，降低了有效批次大小
  - 关于此点的更多讨论见第 A.15 节
当论文在第 3.2 节中跨不同轴进行消融时，论文发现了能在更高计算量下提高稳定性的设计选择
- 一些消融变体可以进一步扩展，例如，DAPO 中 $\epsilon=0.26$ 的情况下约 5k GPU hous ，使用 FP32 精度修复（第 3.2 节）的情况下约 6k GPU hous ，以及 CISPO 的情况下约 7k GPU hous
- 结合论文最佳的设计选择是一个稳定且可扩展的 Recipe ，这使论文能够以每次运行约 1600 GPU hous 的预算进行留一法实验
  问题：怎么还变少了？

A.7 Robustness of fits

对于稳定且可扩展的实验，包括从第 4 节开始的所有运行，改变拟合区间（例如，包含或排除初始 1.5k GPU hous 范围）会产生类似的可预测结果
- 例如，在 8B 稠密模型上的 100k GPU hous 运行中，在 (1.5$\text{k}$,50$\text{k}$) 上拟合得到 $B=1.70$，$A=0.645$，而 (0,100$\text{k}$) 得到 $B=1.56$，$A=0.655$，(0,50$\text{k}$) 得到 $B=1.7,A=0.645$，以及 (5$\text{k}$,50$\text{k}$) 得到 $B=1.67$，$A=0.645$。在这些区间内，参数值保持在预期误差范围内（第 7 节）
此外，论文跳过低计算量区间，因为早期训练阶段，尤其是在第 3.2 节中不太稳定的设置中，常常由于短暂的不稳定性而过早达到平台期或偏离 S 形趋势（见附录 A.6, A.15）
- 排除此区域可以使拟合专注于中高计算量范围，在该范围内饱和行为更清晰、更一致
1.5k GPU hous 阈值是根据经验选择的启发式方法：
- 它大约对应于第 3.2 节中大多数实验的一个 epoch
- 较大的截止值减少了拟合点的数量，而较小的截止值常常引入噪声
- 论文发现 1.5k GPU hous 能在拟合稳定性和样本覆盖率之间提供最佳平衡，这与在预训练缩放分析和拟合中跳过低 FLOPs 区间的做法一致 (2025)

A.8 Interpreting Sigmoidal Curves

图 3 展示了一个示例拟合，说明了参数 $A$、$B$ 和 $C_{\text{mid} }$ 的影响
通过额外的图示扩展了这一点：图 12a、图 12b 和图 13a 分别改变了 $B$、$C_{\text{mid} }$ 和 $A$，同时保持其他参数不变
$B$ 和 $C_{\text{mid} }$ 主要影响缩放的效率 ，而 $A$ 决定了在大计算量下可实现的渐近性能
在图 13b 中，论文看到一个两个运行的案例，其中一个效率高得多，因此显示出初期有希望的收益，但收敛到较低的渐近线，而另一个进展较慢，但由于更高的 $A$ 最终超过了前者
在实践中，缩放策略应优先考虑提高渐近上限 $A$ 的设计选择，然后才优化效率参数，如 $B$ 或 $C_{\text{mid} }$

A.9 Forward and LOO Ablations

论文在图 14a-14b 中展示了第 3.2 节的额外结果
图 15 中绘制了第 4 节中关于通过率与计算量的留一法实验

A.10 Controlling generation length

推理强化学习中一个常见的担忧是控制爆炸性增长的生成长度，这会损害训练效率和稳定性（附录 A.15）
论文考虑两种方法：
- (a) 中断（Interruptions），用于像 GLM-4.1V (2025) 和 Qwen3 (2025) 这样的工作；
- (b) 长度惩罚（Length penalties），用于像 DAPO (2025)、Kimi (2025)、Magistral (2025) 和 Minimax-M1 (2025) 这样的工作

中断，Interruptions

通过附加一个标记性短语（例如“Okay, time is up. Let me stop thinking and formulate a final answer $<$/think$>$”）来强制停止生成，指示模型终止其推理并产生最终答案
在论文的设置中，中断 Token 被随机放置在 $[10k,12k]$ Token 长度之间，以诱导对不同生成长度的泛化

Length penalties

用于重塑奖励
遵循 DAPO (2025)，论文使用容忍区间 $L_{\text{cache} }$ 来惩罚过长的补全：
$$
R_{\text{length} }(y)=clip\left(\frac{L_{\max}-|y|}{L_{\text{cache} } }-1,-1,0\right)
$$
此惩罚仅添加到正确的轨迹上，以阻止过长的生成
- 在长度惩罚实验中，论文设置 $L_{\max}=14\text{k}$ 个 Token 和 $L_{\text{cache} }=2\text{k}$ 个 Token
在第 4 节中，论文在 16$\text{k}$ GPU hous 的规模上比较了长度惩罚和中断
在论文的最终 ScaleRL Recipe 中用长度惩罚替换中断不能提高性能

A.11 PipelineRL

使用基线设置，论文在 PipelineRL 中消融了 Off-policy 参数（图 4(b)）
Off-policy 度为 4 和 8 的表现同样好，论文在第 3.1 节更新基线时采用 8 作为默认设置
- 为什么 8 比 1 效果好？是因为横坐标不是 step，而是 GPU 时间吗？
为什么 PipelineRL 始终优于经典的 PPO-off-policy 方法（第 3.1 节和第 4 节）？
- 论文将其归因于其与 On-policy 训练更紧密的对齐
- 在 PPO-off-policy 中，生成和训练交替进行：
  - Trainer 严格处理与所选参数 $k$ 一样 Off-policy 的批次，基于过时的 Rollout 更新进行更新
  - PipelineRL 以流式方式运行：
    - 一旦批次可用，它就传递给 Trainer ；
    - 同样，一旦模型更新就绪，它就立即共享回 Generator ，Generator 立即使用它（包括在部分生成的轨迹的延续中）
  - 这种紧密的反馈循环使训练更接近 On-policy 状态，减少了 Generator 和 Trainer 分布之间的不匹配
重要的是，这种区别影响了缩放曲线的渐近性能 $c$，而不仅仅是效率指数 $b$
- 很少有轴能以这种方式移动渐近线，使得 Off-policy 算法的选择成为强化学习后训练中最关键的设计决策之一

A.12 熵曲线：缩放批次大小 (Entropy Curves: Scaling Batch Size)

论文在整个训练过程中跟踪了留出验证集上的熵
- 在所有实验中（包括批次大小、任务数量、生成长度和模型规模的变体）论文观察到熵总体一致下降
一个有趣的发现是，熵可能并不总是能提供对性能的预测性洞察，正如最近一些工作如 (2025) 所提出的那样
- 在第本节中，论文绘制了批次大小为 768 和 2048 的 ScaleRL 运行的熵
  - 2048 批次大小的运行在每个阶段都实现了更强的下游性能（图 10b），但两个运行在每一步都遵循几乎相同的熵轨迹（第 A.12 节）
    - 这突出了一个重要点，尽管熵有时被用作探索的代理指标，但仅仅保持较高的熵并不能转化为更好的泛化
  - 相反，较大的批次每一步减少了有效探索，类似于较小的批次，但仍然产生了显著更好的性能——强调了批次大小是一个重要的决定性因素
总的来说，论文的发现表明，虽然熵在训练期间持续下降，但它不一定是下游性能的可靠预测指标
- 这一观察结果强化了在旨在提高训练分布以及下游任务分布性能时，除了熵动态之外，还需要关注算法和缩放选择（例如，批次大小、 Off-policy 方法）的必要性

A.13 Scaling on multiple axes

在图 17 中提供了剩余的不同轴缩放的图表（问题：如何理解这里的轴？是指不同的维度的超参）
在图 18 中提供了相应的下游评估
论文还在表 1 中提供了 $A,B,C_{mid}$ 的值

A.14 Downstream performance

在图 1、9、10b 和 18 中报告了一组具有代表性的下游评估曲线
这些包括具有批次大小 $\{512,768,2048\}$ 的 ScaleRL 运行、具有 32k 生成长度的长上下文训练运行、大模型（Scout）训练运行、多任务运行（数学 + 代码）以及不同每个提示生成数量（固定批次大小）的运行
对于每种设置，论文绘制了性能与计算量的关系
结论：对于像更大批次大小、更长生成长度和更大模型大小这样的实验，下游性能更好（与验证集曲线的顺序相似）

A.15 Truncations and training instabilities

在论文的所有实验中，论文发现训练不稳定性通常与截断有关
- 随着生成长度的增加，许多强化学习运行表现出波动的截断率，有时在训练过程中增加
在批次大小 768 的情况下，论文观察到 10-15% 范围内的截断通常会破坏训练稳定性 ，性能下降且无干预就无法恢复
- 例子包括图 2 中扩展的 GRPO 运行，其中不稳定性与上升的截断率相关，以及第 3.2 节中使用的更新基线
相比之下，ScaleRL 运行更加稳定
- 在 8B 模型上，超过 90% 的训练时间内截断率保持在 5% 以下
- 在批次大小 2048 时，截断率略高，偶尔接近约 7%
  - 这种增加主要归因于训练期间观察到的更长的平均生成长度，这自然增加了超过预算的机会
  - 但，即使排除截断样本后，有效批次仍然很大，训练稳定性得以保持
- 直观地说，更大的生成长度预算应有助于减少截断
- 使用 34k 生成长度（批次 768）进行训练保持稳定（截断率短暂飙升至约 4%，但迅速降至 2% 以下）
更大的模型更稳健
- 在 Scout 运行中，截断率始终低于 2%，并且在 > 90% 的训练步数中低于 1%
- 这可能反映了更大模型调节生成长度的固有能力以及它们更强的指令遵循能力，这使得中断信号更有效
总结：论文建议实践者密切监控截断率
论文的发现表明，高截断率是不稳定性的可靠警告信号 ，而更大的模型、更高的生成预算和谨慎的设计选择（如在 ScaleRL 中）可以显著降低这种风险

A.16 Comparing Prevalent Methods

在图 2 中，论文将一些流行的训练 Recipe 与 ScaleRL 进行了比较，论文在此简要描述这些现有 Recipe

DeepSeek (GRPO)

这个 Recipe 主要遵循 DeepSeek (2025) 的工作
论文使用 GRPO 作为损失函数（第 A.2 节），其中 $\epsilon_{min}=\epsilon_{max}=0.2$，样本平均损失聚合，以及 PPO-offpolicy-8 算法
训练在 6k GPU hous 后由于截断（第 A.15 节）变得不稳定

Qwen2.5 (DAPO)

这个 Recipe 遵循 DAPO (2025)，包括 DAPO 损失函数（附录 A.2），其中 $\epsilon_{min}=0.2,\epsilon_{max}=0.26$（附录 A.17.1）
- 这个 Recipe 使用 PPO-offpolicy-8 和提示平均损失聚合
- 与原始 DAPO 论文 (2025) 的唯一区别是关于动态填充批次
  - DAPO 丢弃方差为零的提示，并采样更多提示直到批次满员
  - 在论文的代码库中，这效率不高
    - 因为对于 PPO-offpolicy 算法，Generator 会预先决定每个 Generator 将为 #prompts/#generators 生成 Rollout
    - 如果某个特定的 Generator 有更多方差为零的提示 ，它会采样更多的提示来完成其 #prompts/#generators 的份额
    - 这可能导致其他 Generator 停滞和整体速度减慢
  - 为了解决这个问题，论文保持一个更大的批次大小 1280（80 个提示，每个 16 个生成），并从批次中丢弃方差为零的提示
  - 论文注意到，丢弃后，有效批次仍然大于 768，即论文用于 ScaleRL 的大小

Magistral

这指的是 (2025) 中使用的 Recipe
这个 Recipe 包括与 DAPO 类似的 Recipe ，主要区别在于使用 PipelineRL 作为 Off-policy 算法

MiniMax

这指的是 (2025) 中使用的 Recipe
这个 Recipe 使用 CISPO 损失、LM 头部的 FP32 精度修复、PPO-offpolicy 算法和提示平均
与 DAPO 类似，它也丢弃方差为零的提示，因此论文也给它一个更大的批次大小 1280

A.17 Loss Type - Stability and Robustness

GRPO/DAPO 风格的损失对裁剪比率超参数 $\epsilon_{\text{max} }$ 的选择高度敏感；CISPO 和 GSPO 显示出远更强的稳健性
- 例如，在附录 A.17.2 中，将 CISPO 的 $\epsilon_{\text{max} }$ 在 $\{4,5,8\}$ 之间变化，性能没有显著差异
对于 GSPO ，原始论文 (2025) 中使用的 $10^{-4}$ 裁剪尺度在论文的设置中效果不佳
- 论文在更广泛的尺度上进行了消融，发现确定了正确的数量级（例如，$4\times 10^{-3}$ 及更高）以后，性能就稳定了，并且对细粒度的变化（例如，$\{4\times 10^{-3},5\times 10^{-3}\}$）基本不敏感

A.17.1 DAPO clipping ratios

在本节中，论文分析了 DAPO 损失函数（公式 (8)）中裁剪阈值 $\epsilon_{\text{max} }$ 的作用
$\epsilon_{max}$ 的超参数敏感性已在先前工作中观察到
- 例如，GRPO 通常设置 $\epsilon_{\text{max} }=0.2$，而 DAPO 使用 $0.28$
除了调整敏感性之外，论文发现 $\epsilon_{\text{max} }$ 直接改变了算法的缩放行为
- 随着 $\epsilon_{\text{max} }$ 增加，终端奖励 $A$ 增加，直到达到一个最佳范围，之后 $A$ 再次下降
这是一个显著的效果：与许多仅改变收敛速度的超参数不同，$\epsilon_{\text{max} }$ 控制着渐近误差本身

A.17.2 CISPO Clipping Ratios

论文消融了 CISPO 的较高裁剪比率，将较低裁剪比率固定为 $0$（图 19b）
在很宽的值范围内，论文发现性能差异很小，表明 CISPO 对这个超参数基本不敏感
这种稳健性反映了论文对 GSPO 的发现（第 A.17.3 节），并且与 DAPO/GRPO 风格的目标形成对比，后者对裁剪阈值的精确选择高度敏感
这种在超参数变化下的稳定性使 CISPO 成为大规模训练中默认使用的有力候选者

A.17.3 GSPO ablations

论文消融了 GSPO 中使用的裁剪比率尺度，如图 20a 所示
GSPO 论文 (2025) 中给出的默认 $10^{-4}$ 尺度对论文的 8B 模型缩放效果不是最好
$10^{-3}$ 尺度的表现与其他替代方案一样好，或者更好（图 20a）
给定这个尺度，论文进一步将上裁剪比率在 $\{4\times 10^{-3},5\times 10^{-3}\}$ 之间变化，并发现 $\{5\times 10^{-3}\}$ 产生了稍好的拟合（图 20b）
GSPO 对裁剪比率的选择相当稳健
- 确定了正确的尺度以后，大多数附近的值甚至更大的尺度表现相似
- 这种稳健性与 DAPO 风格的损失形成鲜明对比，后者对上裁剪比率的精确值高度敏感，如第 3.2 节所述

A.17.4 GSPO vs CISPO

尽管具有超参数稳健性，但论文遇到了 GSPO 的稳定性问题
- 在多次情况下，GSPO 运行在训练中期发散，导致性能突然下降
- 对于 8B 模型，从稳定检查点重新启动可以恢复，但此策略在更大的模型（如 Scout）上失败，尽管重复重置到稳定检查点，不稳定性仍然存在
- 虽然论文尽最大努力检查了任何实现错误，但论文没有发现
总的来说，虽然所有三种损失系列在调整好的设置下都可以具有竞争力，但 CISPO 在稳定性和对超参数的稳健性方面提供了最佳平衡 ，使其成为论文推荐的选择

Python——uv工具的使用

整体说明

uv 是一个快速的 Python 包管理器和项目管理工具，由 Astral 公司开发，旨在替代 pip、venv 等工具，提供更快的安装速度和更简洁的使用体验
uv 通常比 pip 快 10-100 倍
uv 内置虚拟环境：无需单独管理虚拟环境
uv 支持项目管理：原生支持 pyproject.toml，详情见附录
uv 保持了与 pip 相似的命令行接口，对于熟悉 pip 的用户来说很容易上手，同时提供了更现代、更高效的功能

安装 uv

安装 uv 工具：

# 使用 pip 安装
pip install uv

# 或者使用官方安装脚本（推荐）
curl -LsSf https://astral.sh/uv/install.sh | sh

安装完成后，可以通过 uv --version 验证是否安装成功
若提示没有命令，可能是需要配置环境变量，将下面的命令添加到 ~/.bashrc 中即可：
1
source $HOME/.local/bin/env

uv 基本用法介绍

虚拟环境管理

uv 内置了虚拟环境管理功能，无需单独使用 venv 或 virtualenv：

# 创建并激活虚拟环境（会在当前目录创建 `.venv` 文件夹）
uv venv
source .venv/bin/activate  # Linux/macOS 激活环境，切换到当前环境下
deactivate # Linux/macOS 退出激活

# 直接在虚拟环境中运行命令（无需手动激活）
uv run python --version

若使用 source .venv/bin/activate 激活环境
- 像 conda 一样，会切换到指定的虚拟环境下，直接使用 which python 可访问到当前项目的 python 文件
- 但此时 pip 不会像 conda 一样替换，还是需要使用 uv pip 来使用，直接使用 which pip 得到的还是通用的 pip

IDEA 环境配置

在使用 uv venv 创建了虚拟环境以后，可以使用 IDEA 直接选择 ./.venv/bin/python 作为解释器

类似 pip 的包安装与管理

uv 可以像 pip 一样安装和管理 Python 包：

# 安装包
uv pip install requests

# 安装特定版本的包
uv pip install requests==2.31.0

# 从requirements.txt安装
uv pip install -r requirements.txt

# 升级包
uv pip install --upgrade requests

# 卸载包
uv pip uninstall requests

# 查看已安装的包
uv pip list

# 导出依赖到requirements.txt
uv pip freeze > requirements.txt

uv 运行 python 文件

使用 uv run 可以在虚拟环境中直接运行命令，无需手动激活环境 ：

# 运行Python解释器
uv run python

# 运行脚本
uv run script.py

# 运行命令行工具（如pytest）
uv run pytest tests/

附录：uv 高级功能

缓存管理

uv 具有高效的缓存机制，可以手动管理缓存：

# 清理缓存
uv cache clean

# 查看缓存大小
uv cache size

配置镜像源

uv 可以配置自己的 pip 源，配置国内镜像源加快下载速度，比如：
1
2
# 设置 PyPI 镜像源
export UV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple/
- 注：也可以永久添加到环境变量中方便使用

临时指定镜像源的方式为：

1	uv add <package> --index-url https://pypi.tuna.tsinghua.edu.cn/simple/

安装时输出源信息：

1	uv add requests --verbose # 注意：谨慎打开 `--verbose` 这个参数，会输出特别长的日志

构建和发布包

uv 支持构建和发布 Python 包到 PyPI：

# 构建包
uv build

# 发布包到 PyPI
uv publish

附录：uv 管理 python 项目

uv 支持现代 Python 项目管理，包括 pyproject.toml：

# 初始化新项目（创建 pyproject.toml）
uv init my_project # 在当前目录下创建 my_project 文件夹并生成基本文件
# 生成 README.md	main.py		pyproject.toml 等文件
cd my_project

# 添加依赖（会更新 pyproject.toml）
uv add requests  # 生产依赖，将 requests 添加到 pyproject.toml 的 dependencies 列表中同时安装 requests 及其依赖（注：requests 的依赖不会添加到 pyproject.toml 中）
uv add --dev pytest  # 开发依赖，仅开发阶段需要使用到的依赖（将 pytest 添加到 pyproject.toml 的 dev 列表中），pytest 就是最常见的开发依赖，prod 环境不需要

# 安装项目依赖（根据 pyproject.toml）
uv sync # 补充

# 运行项目中的脚本
uv run my_script.py

趣味题——同距运动员

题目

有27个参加跑步的人，每3人一组，分成9组，同一组用同一个号。就是1号3个，2号3个，3号3个……现在假设第一组的赢得了比赛，每次只有一个人到达。所有人到达的时候满足规律，1号参赛者之间都间隔一个人，2号参赛者之间都间隔2个人，3号参赛者之间都间隔3个人…9号参赛者之间都间隔9人。问27个人的到达顺序是否有解？如果有，解是什么？

解决方案

解决方案（Python 代码）

def check_row(row, gap):
    a = abs(row[0] - row[1]) == gap
    b = abs(row[1] - row[2]) == gap
    c = abs(row[2] - row[0]) == gap
    abc = [a, b, c]
    if sum([1 if e else 0 for e in abc]) != 2:
        return False
    return True


def generate_conds(ri, rest_number):
    size = len(rest_number)
    gap = ri + 2
    conds = list()
    for i in range(size):
        for j in range(i+1, size):
            for k in range(j+1, size):
                row = rest_number[i], rest_number[j], rest_number[k]
                if check_row(row, gap):
                    conds.append(row)
    return conds


def backtrace(maze, ri, rest_number, all_maze):
    if not rest_number:
        data_ = [[e for e in row] for row in maze]
        all_maze.append(data_)
        return True
    conds = generate_conds(ri, rest_number)
    if not conds:
        return False
    for row in conds:
        local_rest = [e for e in rest_number]
        for e in row:
            # print("local rest: %s and e: %s" % (local_rest, e))
            local_rest.remove(e)
        maze[ri] = [e for e in row]
        backtrace(maze, ri + 1, local_rest, all_maze)


def solution():
    maze = list()
    for i in range(9):
        row = [0 for _ in range(3)]
        maze.append(row)
    rest_number = list(range(1, 28))
    maze[0][0] = 1
    maze[0][1] = 3
    maze[0][2] = 5
    rest_number.remove(1)
    rest_number.remove(3)
    rest_number.remove(5)
    all_maze = list()
    # print(rest_number)
    # print(maze)
    backtrace(maze, 1, rest_number, all_maze)
    for maze in all_maze:
        print(maze)


if __name__ == "__main__":
    solution()

RL——1k-Layer-Networks4Self-Supervised-RL

参考链接：
- 原始论文：1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, 20250319-20251123, NeurIPS 2025, Princeton University
- 项目网页和代码：wang-kevin3290.github.io/scaling-crl/

Paper Summary

缩放自监督学习（Scaling up self-supervised learning）推动了语言和视觉领域的突破
- 但在 RL 中，仍未发现同样的（Comparable）进展
论文研究了能够解锁强化学习可扩展性显著提升的构建模块，其中网络深度是一个关键因素
近年来大多数强化学习论文依赖于浅层架构（大约 $2-5$ 层）
- 论文证明将深度增加到 1024 层可以显著提升性能
论文的实验在一个无监督目标条件设置中进行，其中没有提供演示（demonstrations）或奖励，因此智能体必须（from scratch）探索并学习如何最大化达到指定目标的可能性
在模拟运动和控制任务上的评估表明，论文的方法将自监督对比强化学习算法的性能提高了 $2\times-50\times$，超越了其他目标条件基线
增加模型深度不仅提高了成功率，而且从质量上改变了习得的行为

Introduction and Discussion

虽然扩大模型规模已成为机器学习许多领域中的有效方法，但其在强化学习中的作用和影响尚不清楚
基于状态的强化学习任务的典型模型规模在 2 到 5 层之间（2021；2022），在其他领域使用非常深的网络并不少见；
- Llama 3 (2024) 和 Stable Diffusion 3 (2024) 都有数百层
- 在视觉（2021；2021；2023）和语言（2023）等领域，模型通常只有在规模超过一个临界尺度后才获得解决某些任务的能力
在强化学习场景中，许多研究者一直在寻找类似的新兴现象（2023），但这些论文通常只报告微小的边际收益，并且通常只在小模型已经取得一定成功的任务上（2024a；2024；2024）
- 当今强化学习的一个关键开放问题是，是否可能通过 Scaling 强化学习网络来实现类似的性能飞跃
乍一看（At first glance），训练非常大的强化学习网络很困难是合理的：
- 强化学习问题提供的反馈比特非常少（例如，在很长的观察序列后只有稀疏奖励），因此反馈与参数之比非常小
- 这也反映在许多近期模型中的传统观点（LeCun，2016）（2018；2020；2019）认为，大型人工智能系统必须主要以前馈方式进行训练，而强化学习应仅用于微调这些模型。确实，最近在其他领域的许多突破主要是通过自监督方法实现的，无论是在计算机视觉（2021；2021；2024）、自然语言处理（2023）还是多模态学习（2024）中。因此，如果作者希望扩展强化学习方法，自监督很可能是一个关键要素
论文将研究扩展强化学习的构建模块
第一步：重新思考上述传统观点：
- “强化学习”和”自监督学习(self-supervised learning)”并非对立的学习规则，而是可以结合成自监督强化学习系统，在不参考奖励函数或演示的情况下进行探索和学习策略（2021，2022；2022）
- 在这项工作中，论文使用了一个最简单的自监督强化学习算法，对比强化学习（Contrastive RL, CRL）（2022）
第二步：认识到增加可用数据的重要性
- 论文将通过在最近的 GPU 加速强化学习框架（2021；2023；2022；2024）的基础上进行构建来实现这一点
第三步：增加网络深度，使用深度比先前工作中典型的网络深达 $100\times$ 的网络
- 稳定此类网络的训练需要结合先前工作中的架构技术，包括残差连接（2015）、层归一化（2016）和 Swish 激活函数（2018）
论文的实验还将研究批量大小和网络宽度的相对重要性
这项工作的主要贡献在于展示了一种将这些构建模块集成到单一强化学习方法中的方法，该方法展现出强大的可扩展性：
- 实证可扩展性（Empirical Scalability）： 论文观察到性能显著提升，在一半环境中超过 $20\times$，并且超越了其他标准的目标条件基线
  - 这些性能提升对应于随着规模涌现的质量上不同的策略
- 网络架构中的深度缩放（Scaling Depth in Network Architecture）： 虽然许多先前的强化学习工作主要关注增加网络宽度，但他们通常报告有限甚至负的回报（参见第 4 节）
  - In contrast，论文的方法解锁了沿深度轴进行扩展的能力，超过了仅扩展宽度所能带来的性能提升（见第 4 节）
- 实证分析（Empirical Analysis）： 论文对扩展方法中的关键组件进行了广泛分析，揭示了关键因素并提供了新的见解
论文预期未来的研究可以在这个基础上进行，发现更多的构建模块

自然语言处理（Natural Language Processing, NLP）和计算机视觉（Computer Vision, CV）最近在采用类似架构（即 Transformer）和共享学习范式（即自监督学习）方面趋于一致，共同实现了大规模模型的变革性能力（2017；2023；2021；2023；2022）
In contrast, 在强化学习中实现类似的进展仍然具有挑战性
- 有几项研究探讨了扩展大型强化学习模型的障碍，包括参数利用不足（parameter underutilization，2024）、可塑性和容量损失（plasticity and capacity loss，2024，2022）、数据稀疏性（data sparsity，2017；LeCun，2016）以及训练不稳定性（training instabilities，2021；2018；Van 2018；2024a）
- As a result，当前扩展强化学习模型的努力很大程度上局限于特定问题领域，例如模仿学习（2024）、多智能体游戏（2022）、语言引导的强化学习（2023；2022）和离散动作空间（2024；2023）
最近的方法提出了几个有前景的方向，包括
- 新的架构范式（2024）
- 分布式训练方法（2021；2018）
- 分布式强化学习（2023）
- 蒸馏（2023）
与这些方法相比，论文的方法对现有的自监督强化学习算法（Self-supervised RL algorithm）进行了简单的扩展
- 这方面最近的工作包括 Lee 等人（2024）和 Nauman 等人（2024a），它们利用残差连接来促进更宽网络的训练
  - 这些努力主要集中在网络宽度上，指出增加深度带来的收益有限，因此两项工作都只使用了具有四层多层感知机（MLP）的架构
- 在论文的方法中，论文发现扩展宽度确实能提高性能（第 4.4 节）；
  - however，论文的方法也支持沿深度扩展，并且被证明比仅扩展宽度更强大
Farebrother 等人（2024）描述了一项训练更深网络的重要努力，他们通过将时序差分（Temporal Difference, TD）目标离散化为分类交叉熵损失，将基于值的强化学习转化为分类问题
- 这种方法基于一个猜想，即基于分类的方法可能更鲁棒和稳定，因此可能比回归方法展现出更好的扩展特性（1996；2024）
- 论文使用的对比强化学习算法也有效地使用了交叉熵损失（2022）
  - 其 InfoNCE 目标是交叉熵损失的泛化，通过有效分类当前状态和动作是否属于导致目标状态的同一条轨迹还是不同轨迹来执行强化学习任务
在这方面，论文的工作作为第二个证据表明
- 分类（很像交叉熵在自然语言处理成功扩展中的作用）可能是强化学习中一个潜在的构建模块

Preliminaries

本节介绍目标条件强化学习（goal-conditioned RL）和对比强化学习（contrastive RL）的符号和定义
论文的重点是在线强化学习，其中回放缓冲区存储最近的轨迹， Critic 以自监督方式进行训练

目标条件强化学习 (Goal-Conditioned Reinforcement Learning)

论文定义目标条件马尔可夫决策过程（Markov Decision Process, MDP）为一个 7 元组（其中 $g$ 为目标）
$$ \mathcal{M}_{g}=(\mathcal{S},\mathcal{A},p_{0},p,p_{g},r_{g},\gamma)$$
- 其中智能体与环境交互以达到任意目标（1993；2017；2021）
- 在每个时间步 $t$，智能体观察状态 $s_{t}\in\mathcal{S}$ 并执行相应的动作 $a_{t}\in\mathcal{A}$
- 智能体从 $p_{0}(s_{0})$ 采样的状态开始交互，交互动态由转移概率分布 $p(s_{t+1}\mid s_{t},a_{t})$ 定义
- 目标 $g\in\mathcal{G}$ 定义在目标空间 $\mathcal{G}$ 中，该空间通过映射 $f:\mathcal{S}\rightarrow\mathcal{G}$ 与 $\mathcal{S}$ 相关联
  - For Example，$\mathcal{G}$ 可能对应于状态维度的子集
- 目标上的先验分布定义为 $p_{g}(g)$
- 奖励函数 $r_g$ 定义为下一时间步达到目标 $g$ 的概率密度
  $$ r_{g}(s_{t},a_{t})\triangleq(1-\gamma)p(s_{t+1}=g\mid s_{t},a_{t}) $$
  - 其中 $\gamma$ 为折扣因子
在此设置中，目标条件策略 $\pi(a\mid s,g)$ 接收环境的当前观察以及一个目标
论文将折扣状态访问分布定义为
$$ p^{\pi(\cdot|\cdot,g)}_{\gamma}(s)\triangleq(1-\gamma)\sum_{t=0}^{\infty}\gamma^ {t}p^{\pi(\cdot|\cdot,g)}_{t}(s) $$
- 其中 $p^{\pi}_{t}(s)$ 是在给定 $g$ 的条件下，策略 $\pi$ 恰好经过 $t$ 步访问 $s$ 的概率
策略 $\pi(\cdot\mid\cdot,g)$ 对于奖励 $r_{g}$ 的 Q 函数可以用到达目标的额改了来定义：
$$ Q^{\pi}_{g}(s,a)\triangleq p^{\pi(\cdot|\cdot,g)}_{\gamma}(g\mid s,a)$$
Goal-Conditioned RL 的目标是最大化期望奖励：
$$\max_{\pi}\mathbb{E}_{p_{0}(s_{0}),p_{g}(g),\pi(\cdot|\cdot,g)}\left[\sum_{t=0}^{\infty}\gamma^{t}r_{g}\left(s_{t},a_{t}\right)\right].$$

对比强化学习 (Contrastive Reinforcement Learning)

论文的实验将使用对比强化学习算法（2022）来解决目标条件问题
对比强化学习是一种 Actor-Critic 方法；
- 论文用 $f_{\phi,\psi}(s,a,g)$ 表示 Critic ，用 $\pi_{\theta}(a\mid s,g)$ 表示 Policy（即 Actor）
- Critic 由两个神经网络参数化，分别返回 State-Action 对嵌入 $\phi(s,a)$ 和目标嵌入 $\psi(g)$
- Critic 的输出定义为这些嵌入之间的 $l^{2}$ 范数：
  $$ f_{\phi,\psi}(s,a,g)=|\phi(s,a)-\psi(g)|_{2} $$
  - 理解：衡量的是当前 <s,a> 对与目标 $g$ 之间的距离
Critic 使用如先前工作中（2022，2021；2023，2024；2024；2024）的 InfoNCE 目标（Sohn，2016）进行训练
- 训练在批次 $\mathcal{B}$ 上进行，其中 $s_{i},a_{i},g_{i}$ 代表从同一轨迹采样的状态、动作和目标（未来状态），而 $g_{j}$ 代表从另一个随机轨迹采样的目标
- 在批次 $\mathcal{B}$ 上，Critic 的目标函数定义为：
  $$\min_{\phi,\psi}\mathbb{E}_{\mathcal{B} }\left[-\sum\nolimits_{i=1}^{|\mathcal{B }|}\log\left(\frac{e^{f_{\phi,\psi}(s_{i},a_{i},g_{i})} }{\sum\nolimits_{j=1}^ {K}e^{f_{\phi,\psi}(s_{i},a_{i},g_{j})} }\right)\right].$$
- 理解：最小化这个目标函数本质上就是最大化当前 <s,a> 对与目标 $g$ Embedding 之间的距离？
策略（Actor）$\pi_{\theta}(a\mid s,g)$ 的训练目标则是最大化 Critic ：
$$\max_{\pi_{\theta} }\mathbb{E}_{p_{0}(s_{0}),p(s_{t+1}|s_{t},a_{t}),\\ p_g(g),\pi_\theta(a|s,g)}\left[f_{\phi,\psi}(s,a,g)\right]$$

残差连接 (Residual Connections)

论文将残差连接（2015）纳入论文的架构，Following 它们在强化学习中的成功应用（2024；2024；2024a）
一个残差块通过将习得的残差函数 $F_{i}(\mathbf{h}_{i})$ 添加到原始表示来转换给定的表示 $\mathbf{h}_{i}$
数学上，这表示为：
$$\mathbf{h}_{i+1}=\mathbf{h}_{i}+F_{i}\left(\mathbf{h}_{i}\right)$$
- 其中 $\mathbf{h}_{i+1}$ 是输出表示，$\mathbf{h}_{i}$ 是输入表示，$F_{i}(\mathbf{h}_{i})$ 是通过网络（例如，使用一层或多层）习得的变换
- 这个加法确保网络学习对输入的修改，而不是全新的变换，有助于保留来自较早层的有用特征
- 残差连接通过引入捷径路径来改进梯度传播（2016；2016），使得能够更有效地训练深度模型

Experiments

Experimental Setup

Environments

所有的 RL 实验均使用 JaxGCRL 代码库 (2024)，该库基于 Brax (2021) 和 MJX (2012) 环境，便于进行快速的在线 GCRL 实验
使用的具体环境是一系列的运动、导航和机器人操作任务，详情见 B 节
论文使用稀疏奖励设置，仅当智能体在目标附近时 $r=1$
对于评估，论文测量智能体接近目标的时间步数 （在总共 1000 步中）
当以单个数字报告算法性能时，论文计算训练最后五个 epoch 的平均得分

Architectural Components

论文采用了来自 ResNet 架构 (2015) 的残差连接，每个残差块由四个重复单元组成：一个 Dense layer、一个层归一化 (Layer Normalization) 层 (2016) 和 Swish 激活函数 (2018)
如图 2 所示，论文在残差块的最终激活之后立即应用残差连接
在论文中，论文将网络的深度定义为架构中所有残差块内密集层的总数
在所有实验中，深度指的是 Actor 网络和两个 Critic 编码器网络的配置，它们是联合缩放的，但 4.4 节的消融实验除外

对比强化学习中的深度缩放 (Scaling Depth in Contrastive RL)

论文首先研究增加网络深度如何提高性能
JaxGCRL 基准测试和相关先前工作 (2024；2024a；2024) 都使用深度为 4 的 MLP，因此论文将其作为基线
- 论文将研究深度为 8、16、32 和 64 的网络
图 1 中的结果表明，在多种运动、导航和操作任务中，更深的网络实现了显著的性能提升
与先前工作中典型的 4 层模型相比，更深的网络在机器人操作任务中实现了 $2-5\times$ 的提升，在长期视野迷宫任务（如 Ant U4-Maze 和 Ant U5-Maze）中实现了超过 $20\times$ 的提升，在类人形任务中实现了超过 $50\times$ 的提升
深度达到 64 的性能提升完整表格见表 1
在图 12 中，论文在相同的 10 个环境中展示了与 SAC、SAC+HER、TD3+HER、GCBC 和 GCSL 的对比结果
- 扩展 CRL 带来了实质性的性能改进，在 10 个任务中的 8 个中优于所有其他基线
- 唯一的例外是 Humanoid Maze 环境中的 SAC，它在早期表现出更高的样本效率；
  - 但经过扩展的 CRL 最终达到了可比的性能
这些结果突显了，扩展 CRL 算法的深度能够在目标条件强化学习中实现最先进的性能

通过深度涌现的策略 (Emergent Policies Through Depth)

对图 1 中性能曲线的结果进行更仔细的检查揭示了一个值得注意的模式：性能并非随着深度增加而逐渐改善，而是在达到一个 关键深度 (critical depth) 阈值后会出现明显的跳跃（如图 5 所示）
关键深度因环境而异，从 8 层（例如 Ant Big Maze）到 Humanoid U-Maze 任务中的 64 层不等，甚至在深度达到 1024 层时还会出现进一步的跳跃（参见测试极限部分，第 4.4 节）
受此观察启发，论文可视化了不同深度下学到的策略，并发现其表现出性质上不同的技能和行为
这在类人形任务中尤为明显，如图 3 所示
- 深度为 4 的网络表现出原始的策略，智能体要么跌倒，要么将自己抛向目标
- 只有在达到 16 的关键深度时，智能体才发展出直立走向目标的能力
- 在 Humanoid U-Maze 环境中，深度为 64 的网络难以绕过中间墙壁，会倒在地上
- 引人注目的是，在深度为 256 时，智能体在 Humanoid U-Maze 上学到了独特的行为
- 这些行为包括向前折叠成杠杆位置以将自己推过墙壁，以及转变为坐姿以蠕动着越过中间障碍物接近目标（其中一个策略如图 3 第四行所示）
- 据论文所知，这是首个在类人形环境中记录此类行为的目标条件方法

对 CRL 扩展来说，什么是重要的？ (What Matters for CRL Scaling)

宽度与深度 (Width vs. Depth)

过去的文献表明，扩展网络宽度可能是有效的 (2024；2024a)
在图 4 中，论文发现扩展宽度在论文的实验中也很有帮助：更宽的网络始终优于更窄的网络（深度恒定保持为 4）
然而，深度似乎是更有效的扩展轴：简单地将深度加倍到 8（宽度恒定保持为 256）在所有三个环境中的表现都超过了最宽的网络
深度扩展的优势在 Humanoid 环境（观察维度 268）中最为明显，其次是 Ant Big Maze（维度 29）和 Arm Push Easy（维度 17）
- 这表明其相对益处可能随着观察维度的增加而增加
另外需要注意的是，参数数量随宽度线性扩展，但随深度呈二次方扩展
- 作为对比，一个具有 4 个 MLP 层和 2048 个隐藏单元的网络大约有 3500 万个参数，而一个深度为 32、隐藏单元为 256 的网络只有大约 200 万个参数
因此，在固定的 FLOP 计算预算或特定内存约束下运行时，深度扩展可能是一种计算效率更高的方法来提高网络性能

扩展 Actor 与 Critic 网络 (Scaling the Actor vs. Critic Networks)

为了研究 Actor 和 Critic 网络中扩展的作用，图 6 展示了三个环境中不同 Actor 和 Critic 深度组合的最终性能
先前工作 (2024a；2024) 主要关注扩展 Critic 网络，发现扩展 Actor 会降低性能
相比之下，虽然论文确实发现在三个环境中的两个（Humanoid, Arm Push Easy）中扩展 Critic 更有影响，但论文的方法从联合扩展 Actor 网络中获益，其中一个环境（Ant Big Maze）显示扩展 Actor 更有影响
因此，论文的方法表明，同时扩展 Actor 和 Critic 网络可以在提升性能方面发挥互补作用

深度网络解锁批次大小扩展 (Deep Networks Unlock Batch Size Scaling)

扩展批次大小在机器学习的其他领域已得到广泛认可 (2022；2024)
- 然而，这种方法尚未在强化学习 (RL) 中有效转化，先前工作甚至报告了对基于值的 RL 的负面影响 (2023)
  - 之前有些文章确实提到过 RL 训练不需要较大的 Batch
- 确实，在论文的实验中，简单地增加原始 CRL 网络的批次大小只会带来微小的性能差异（图 7，左上）
乍一看，这可能违反直觉：
- 由于强化学习通常每条训练数据包含的信息比特较少 (LeCun, 2016)，人们可能会预期批次损失或梯度的方差更高，这表明需要更大的批次大小来补偿
与此同时，这种可能性取决于所讨论的模型是否真的能利用更大的批次大小，在扩展取得成功的 ML 领域，更大的批次大小通常在与足够大的模型结合时带来最大的好处 (2024；2022)。一个假设是，传统上在 RL 中使用的小型模型可能掩盖了更大批次大小的潜在好处
为了验证这个假设，论文研究了在不同深度网络下增加批次大小的效果
如图 7 所示，随着网络深度的增加，扩展批次大小变得有效
- 这一发现提供了证据，表明通过扩展网络容量，论文可能同时解锁更大批次大小的好处，使其成为更广泛追求扩展自监督 RL 过程中的一个重要组成部分

使用 1000 层以上训练对比强化学习 (Training Contrastive RL with 1000+ Layers)

接下来论文研究将深度进一步增加到 64 层以上是否还能提升性能
论文使用 Humanoid 迷宫任务，因为这些既是基准测试中最具挑战性的环境，似乎也从最深度的扩展中受益
如图 12 所示的结果表明，当网络深度在 Humanoid U-Maze 环境中达到 256 和 1024 层时，性能持续显著提高
- 虽然由于计算限制论文无法扩展到 1024 层以上，但论文预计在更具挑战性的任务上，即使深度更大也会看到持续的改进

扩展发生的原因 (Why Scaling Happens)

深度增强对比表征 (Depth Enhances Contrastive Representations)

长期视野设定一直是 RL 中的一个长期挑战，特别是在无监督目标条件设定中，没有辅助的奖励反馈 (2019)
U-Maze 系列环境需要全局理解迷宫布局才能有效导航
论文考虑 Ant U-Maze 环境的一个变体，U4-maze，其中智能体必须首先朝着与目标相反的方向移动，绕圈并最终到达目标
如图 9 所示，论文观察到浅层网络（深度 4）与深层网络（深度 64）在行为上存在质的差异
- 根据 Critic 编码器表示计算的可视化 Q 值表明，深度为 4 的网络似乎依赖于到目标的欧几里得距离作为 Q 值的代理，即使墙壁阻碍了直接路径
- 相比之下，深度为 64 的 Critic 网络学到了更丰富的表示，使其能够有效地捕获迷宫的拓扑结构，这一点通过沿着内边缘的高 Q 值轨迹可视化得以体现
这些发现表明，增加网络深度会导致更丰富的学习表示，使深层网络能够以自监督的方式更好地覆盖环境状态空间

深度以协同方式增强探索和表达能力 (Depth Enhances Exploration and Expressivity in a Synergized Way)

论文之前的结果表明，更深的网络实现了更大的 State-Action 覆盖
为了更好地理解扩展有效的原因，论文试图确定是否仅仅是改进的数据解释了扩展的好处，还是它与其他因素共同作用
因此，论文设计了图 8 中的实验，其中论文并行训练三个网络：
- 一个网络，即“收集器 (collector)”，与环境交互，并将所有经验写入共享的重放缓冲区
- 两个额外的“学习器 (learner)”，一个深的和一个浅的，同时进行训练
关键在于，这两个学习器从不收集自己的数据；它们仅从收集器的缓冲区进行训练
这个设计在保持数据分布不变的同时，改变了模型的容量，因此深层和浅层学习器之间的任何性能差距必然来自表达能力，而非探索能力
当收集器是深层时（例如，深度 32），在所有三个环境中，深层学习器都大幅优于浅层学习器，这表明深层网络的表达能力至关重要
另一方面，论文重复实验，使用浅层收集器（例如，深度 4），其探索效率较低，因此用低覆盖的经验填充缓冲区
在这里，深层和浅层学习器都表现不佳，并达到相似的较差性能，这表明深层网络额外的容量无法克服数据覆盖不足的限制
因此，扩展深度以一种协同的方式增强了探索和表达能力：
- 更强的学习能力驱动更广泛的探索，而强大的数据覆盖对于充分发挥更强学习能力的力量至关重要
这两个方面共同促成了性能的提升

深度网络学会为目标附近的状态分配更大的表征容量 (Deep Networks Learn to Allocate Greater Representational Capacity to States Near the Goal)

在图 10 中，论文选取 Humanoid 环境中的一个成功轨迹，并可视化了深层与浅层网络沿着该轨迹的 State-Action 编码器嵌入
虽然浅层网络（深度 4）倾向于将接近目标的状态紧密地聚集在一起，但深层网络产生更“分散”的表示
这种区别很重要：在自监督设置中，作者希望论文的表示能将重要的状态，特别是未来的或与目标相关的状态，与随机的状态分开
因此，作者希望为此类关键区域分配更多的表征容量
这表明，深层网络可能学会更有效地为对下游任务最重要的状态区域分配表征容量

深度网络实现部分经验拼接 (Deeper Networks Enable Partial Experience Stitching)

强化学习中的另一个关键挑战是学习能够泛化到训练期间未见过的任务的策略
为了评估这种情况，论文设计了一个修改版的 Ant U-Maze 环境
如图 11（右上）所示，原始的 JaxGCRL 基准测试评估智能体在墙壁另一侧三个最远目标位置上的性能
然而，论文没有在所有可能的子目标（评估状态-目标对的超集）上进行训练，而是修改了设置，只训练最多相距 $3$ 个单位的起点-目标对，确保没有任何评估对出现在训练集中
图 11 表明，深度为 4 的网络显示出有限的泛化能力，仅解决了最简单的目标（距离起点 4 个单位）
深度为 16 的网络取得中等成功，而深度为 64 的网络表现出色，有时能解决最具挑战性的目标位置
这些结果表明，增加网络深度导致了某种程度的拼接，将 $\leq$$3$ 个单位的对组合起来以导航 U-Maze 6 个单位跨度

(CRL) 算法是关键 (The (CRL) Algorithm is Key)

在附录 A 中，论文展示了扩展后的 CRL 优于其他基线目标条件算法，并推进了目标条件 RL 的 SOTA
- 论文观察到，对于时间差分方法 (SAC, SAC+HER, TD3+HER)，性能在深度为 4 的网络时达到饱和，并且更深度的网络带来的性能提升为零或负值
- 这与先前的研究一致，表明这些方法主要受益于宽度 (2024；2024a)
- 这些结果表明，自监督的 CRL 算法至关重要
论文还尝试扩展更多的自监督算法，即目标条件行为克隆 (GCBC) 和目标条件监督学习 (GCSL)
- 虽然这些方法在某些环境中成功率为零，但它们在手臂操作任务中显示了一定的效用
- 有趣的是，即使是像 GCBC 这样非常简单的自监督算法也能从增加深度中受益
- 这为未来工作指出了一个有前景的方向，即进一步研究其他自监督方法，以揭示可能不同或互补的扩展自监督 RL 的方法
最后，最近的工作用拟度量架构增强了目标条件 RL，利用了时间距离满足基于三角不等式的不变性这一事实
在附录 A 中，论文也研究了当应用于这些拟度量网络时，深度扩展效应是否仍然存在

深度扩展能改进离线对比强化学习吗？ (4.6 Does Depth Scaling Improve Offline Contrastive RL?)

在初步实验中，论文使用 OGBench (2024) 评估了离线目标条件设定下的深度扩展
论文发现几乎没有证据表明增加 CRL 的网络深度能在此离线设定中提高性能
为了进一步研究这一点，论文进行了消融实验：
- (1) 扩展 Critic 深度，同时将 Actor 保持在 4 或 8 层；
- (2) 对 Critic 编码器的最终层应用冷启动 (2024)
在所有情况下，基线深度 4 的网络通常成功率最高
未来工作的一个关键方向是看看论文的方法能否进行调整，以在离线设定中实现扩展

Conclusion

可以说，当今视觉和语言模型的大部分成功归功于它们从规模中表现出的涌现能力 (2023)，导致许多系统将 RL 问题简化为视觉或语言问题
大型 AI 模型的一个关键问题是：
- 数据从何而来？与监督学习范式不同，RL 方法通过探索联合优化模型和数据收集过程，从而内在性地解决了这个问题
- 最终，确定构建展现涌现能力的 RL 系统的有效方法，可能对于将该领域转变为训练自己大型模型的领域至关重要
作者相信，论文的工作是朝着这些系统迈出的一步
通过将扩展 RL 的关键组件整合到一个单一方法中，论文展示了在复杂任务中，随着规模的增加，模型性能持续提升
此外，深度模型表现出质地上更好的行为，这可能被解释为隐式获取的、达到目标所必需的技能

Limitations

论文结果的主要局限在于，扩展网络深度是以计算成本为代价的
未来工作的一个重要方向是研究如何使用分布式训练来利用更多的计算资源，以及如何使用剪枝和蒸馏等技术来降低计算成本

附录 A：Additional Experiments

A.1 扩展后的对比RL在10个环境中的8个上优于所有其他基线（Scaled CRL Outperforms All Other Baselines on 8 out of 10 Environments）

在图 1 中，论文展示了增加 CRL 算法的深度可以带来相比原始 CRL 显著的性能提升（另见表 1 ）
这里，论文表明这些提升转化为了在线目标条件强化学习中的最新性能结果，扩展后的 CRL（Scaled CRL）在性能上优于标准的基于时序差分（TD）的方法（如S AC、SAC+HER 和 TD3+HER ），也优于基于自监督模仿的方法（如 GCBC 和 GCSL）

A.2 CRL 算法是关键：深度扩展对其他基线方法效果不佳（The CRL Algorithm is Key: Depth Scaling is Not Effective on Other Baselines）

论文研究了在基线算法中增加网络深度是否能带来与在 CRL 中观察到的类似的性能提升
论文发现 SAC、SAC+HER 和 TD3+HER 法从超过四层的深度中获益，这与之前的研究结果一致（2024；2024）
此外，GCSL 和 GCBC 在 Humanoid 和 Ant Big Maze 任务上未能取得任何有意义的性能
有趣的是，论文确实观察到了一个例外：
- 在 Arm Push Easy 环境中，GCBC 随着深度增加表现出改进的性能
图 12：扩展后的 CRL（Ours）在 10 个环境中的 8 个上优于基线 CRL（original）、SAC、SAC+HER、TD3+HER、GCSL 和 GCBC
表 1：增加网络深度（深度 $D=4 \to 64$）可以提高CRL的性能（图1）
- 深度扩展在具有最大观测维度（Dim）的任务上展现出最大的益处

A.3 额外的扩展实验：离线 GCBC、BC 和 QRL（Additional Scaling Experiments: Offline GCBC, BC, and QRL）

论文进一步研究了几个额外的扩展实验
如图 14 所示，论文的方法在 OGBench 的 antmaze-medium-stitch 任务上的离线 GCBC 设置中成功地实现了深度扩展
论文发现，层归一化（layer normalization）、残差连接（residual connections）和 Swish 激活的组合至关重要，这表明论文的架构选择可能可以应用于解锁其他算法和设置中的深度扩展
论文还尝试扩展行为克隆（behavioral cloning）和 QRL（2023b）算法的深度
- 然而，在这两种情况下，论文都观察到了负面结果
图 14：论文的方法在离线GCBC的 antmaze-medium-stitch （OGBench）上成功扩展了深度
- 相比之下，为BC（antmaze-giant-navigate ，专家SAC数据）和在线（FetchPush）及离线QRL（pointmaze-giant-stitch ，OGBench）扩展深度则产生了负面结果
图 13：深度扩展对 SAC、SAC+HER、TD3+HER、GCSL 和 GCBC 带来的增益有限

A.4 深度扩展对拟度量（quasimetric）架构是否也有效？（Can Depth Scaling also be Effective for Quasimetric Architectures?）

先前的工作（2023b；2023）发现时序距离满足一个重要的不变性属性，这提示在学习时序距离时可以使用拟度量架构
论文的下一个实验测试了改变架构是否会影响自监督 RL 的扩展特性
具体来说，论文使用 CMD-1 算法（2024），该算法采用带有 MRN 表示的反向 NCE 损失
结果表明，扩展的益处并不局限于单一的神经网络参数化。然而，MRN 在 Ant U5-Maze 任务上表现不佳，这表明要实现对拟度量模型的一致扩展还需要进一步创新
图15：在配备了拟度量架构的CRL上进行深度扩展的性能（CMD-1）

A.5 额外的架构消融实验：层归一化与 Swish 激活（Additional Architectural Ablations: Layer Norm and Swish Activation）

论文进行了消融实验以验证层归一化和 Swish 激活的架构选择
图 16 显示，移除层归一化后性能显著变差
此外，使用ReLU进行扩展会严重阻碍可扩展性
这些结果，连同图5，表明论文所有的架构组件，包括残差连接、层归一化和Swish激活，共同对于释放深度扩展的全部性能至关重要
图16：
- （左）层归一化对于深度扩展至关重要
- （右）与 Swish 激活相比，使用 ReLU 激活进行扩展会导致更差的性能

A.6 论文能否整合来自新兴 RL 扩展文献的新架构创新？（Can We Integrate Novel Architectural Innovations from the Emerging RL Scaling Literature?）

最近，Simba-v2 提出了一种用于可扩展 RL 的新架构
- 其关键创新在于用超球面归一化（hyperspherical normalization）替代了层归一化（超球面归一化在每次梯度更新后将网络权重投影到单位范数超球面上）
- 如图所示，当将超球面归一化加入到论文的架构中时，同样的深度扩展趋势仍然成立，并且它进一步提高了深度扩展的样本效率
- 这表明论文的方法可以自然地整合RL扩展文献中出现的新架构创新
  表 2：将超球面归一化整合到论文的架构中提升了深度扩展的样本效率

A.7 深度网络中的残差范数（Residuals Norms in Deep Networks）

先前的工作注意到更深层中残差激活范数会减小（2018）
论文研究了这种模式在论文的设置中是否同样存在
- 对于 Critic 网络，这种趋势通常是明显的，尤其是在非常深的架构中（例如，深度256）
这种效应在行动者（actor）网络中则不那么显著
图 17：深度为 32、64、128 和 256 的网络中残差激活的 L2 范数

A.8 为离线目标条件RL扩展深度（Scaling Depth for Offline Goal-conditioned RL）

图 18：为了评估论文的方法在离线设置中的可扩展性，论文在 OGBench（2024）上扩展了模型深度
- 在三个环境中的两个里，当深度从 4 扩展到 64 时，性能急剧下降
- 在 antmaze-medium-stitch-v0 上观察到轻微改进
- 成功调整论文的方法以扩展离线 GCRL 是未来工作的一个重要方向

附录 B：实验细节

B.1 环境设置与超参数（Environment Setup and Hyperparameters）

论文的实验使用了 JaxGCRL 套件的 GPU 加速环境（如图 19 所示），以及超参数报告在表 7 中的对比 RL 算法
图 19：论文的扩展结果在 JaxGCRL 基准测试中得到了展示，表明它们可以复现在多样化的运动、导航和操作任务上
- 这些任务设置在无辅助奖励或演示的在线目标条件设置中
- 注：下图取自其他文章（2024）
表7：超参数
具体来说，论文使用了 10 个环境，分别是：
- ant_big_maze, ant_hardest_maze, arm_binpick_hard, arm_push_easy, arm_push_hard, humanoid, humanoid_big_maze, humanoid_u_maze, ant_u4_maze, ant_u5_maze

B.2 Python环境差异（Python Environment Differences）

在论文中展示的所有图表中，论文使用了 MJX 3.2.6 和 Brax 0.10.1 以确保公平和一致的比较
在开发过程中，论文注意到论文使用的环境版本（CleanRL 版本的 JaxGCRL）与 JaxGCRL（2024）最近提交版本中推荐的版本之间存在物理行为的差异
经检查，性能差异（如图 20 所示）源于 MJX 和 Brax 包的版本不同
尽管如此，在这两组 MJX 和 Brax 版本中，性能都随着深度单调扩展
图 20：在两个不同 Python 环境中 humanoid 的扩展行为：
- MJX=3.2.3, Brax=0.10.5 和 MJX=3.2.6, Brax=0.10.1（论文的）版本的 JaxGCRL
- 在这两个版本中，扩展深度都显著提高了性能
- 在论文使用的环境中，训练需要更少的环境步数来达到比另一个 Python 环境中略好的性能

B.3 论文方法的墙上时钟时间（Wall-clock Time of Our Approach）

论文在表 3 中报告了论文方法的墙上时钟时间
该表展示了在所有十个环境中深度为 4、8、16、32 和64 的结果，以及在 Humanoid U-Maze 环境中扩展到 1024 层的结果
总体而言，超过一定点后，墙上时钟时间大约随深度线性增加
表4：在 Humanoid U-Maze 环境中，从深度 4 训练到深度 1024 的总墙上时钟时间（小时）

B.4 墙上时钟时间：与基线的比较（Wall-clock Time: Comparison to Baselines）

由于基线使用标准大小的网络，论文的扩展方法自然在每个环境步上产生更高的原始墙上时钟时间（表 5）
然而，一个更实用的指标是达到给定性能水平所需的时间
如表 6 所示，论文的方法在 7 个环境中优于最强的基线 SAC，同时所需的墙上时钟时间更少

附录：Contrastive Learning(对比学习)

对比学习是一种无监督/自监督表示学习范式，核心思想是拉近同类样本的表示、推远异类样本的表示
- 通过构建“正对（positive pair）”和“负对（negative pair）”的对比损失函数，让模型学习到具有判别性的特征表示
对比学习的目标是使模型能够区分相似与不相似的样本，无需人工标注的类别标签
对比学习的核心要素包括：
- 数据增强：对同一原始样本生成不同视图，构成正对
- 负样本采样：从样本集中选取其他样本，与当前样本构成负对
- 对比损失：通过损失函数量化正负样本对的距离差异
经典损失函数公式 ：以最常用的InfoNCE 损失为例（适用于对比学习的核心损失）：
$$
\mathcal{L}_{\text{InfoNCE} } = -\log\left(\frac{\exp(\text{sim}(\boldsymbol{h}_i, \boldsymbol{h}_j)/\tau)}{\sum_{k=1}^N \exp(\text{sim}(\boldsymbol{h}_i, \boldsymbol{h}_k)/\tau)}\right)
$$
- $\boldsymbol{h}_i, \boldsymbol{h}_j$：正对样本的特征表示（如同一图像的两个增强视图的编码输出）
- $\boldsymbol{h}_k$：第 $k$ 个样本的特征表示，包含 1 个正对和 $N-1$ 个负对
- $\text{sim}(\cdot,\cdot)$：相似度函数，通常为余弦相似度
  $$\text{sim}(\boldsymbol{a},\boldsymbol{b})=\frac{\boldsymbol{a}^\top \boldsymbol{b} }{|\boldsymbol{a}||\boldsymbol{b}|}$$
- $\tau$：温度系数，用于调节相似度分布的平滑程度，$\tau>0$

附录：Contrastive Representation Learning(对比表示学习)

对比表示学习是对比学习的泛化与子集 ，更明确地聚焦于“学习高质量特征表示”这一目标，是对比学习在表示学习任务中的具体应用
对比表示学习的本质与对比学习一致，核心区别在于术语的侧重点不同 ：
- 对比学习：强调“对比”这一学习策略（方法层面）
- 对比表示学习：强调“表示学习”这一任务目标（任务层面）
对比表示学习的核心是通过对比机制，让模型学习到的特征表示满足两个关键属性：
- 不变性 ：对同一样本的不同增强视图，输出的表示尽可能相似
- 区分性 ：对不同样本的表示，尽可能拉开距离
对比表示学习的数学描述 ：对比表示学习的目标可形式化描述为：
- 给定样本 $x$，其增强视图为 $x^+$（正对），负样本集合为 $\{x^-_1,x^-_2,\dots,x^-_M\}$，模型编码器为 $f(\cdot)$，则目标函数为：
  $$
  \min_{f} \mathcal{L}\left(f(x), f(x^+), \{f(x^-_m)\}_{m=1}^M\right)
  $$
- 其中 $\mathcal{L}$ 为对比损失函数（如 InfoNCE、NT-Xent 等），$f(\cdot)$ 输出的向量即为对比表示
对比表示学习是对比学习的核心应用场景，所有对比表示学习都属于对比学习，但对比学习的应用场景可不限于表示学习（如对比分类、对比检索等）；

附录：Contrastive RL(对比强化学习)

原始论文：Contrastive Learning as Goal-Conditioned Reinforcement Learning, NeurIPS 2022, CMU & Google Research & UC Berkeley

Contrastive RL 方法整体说明

Contrastive RL（对比强化学习）是一种将对比表示学习与目标条件强化学习（Goal-Conditioned RL）深度融合的算法框架
- Contrastive RL 的核心创新在于将对比学习直接转化为强化学习的核心机制，无需额外的辅助损失或数据增强，即可同时学习有效的 State-Action 表示和目标导向的价值函数
Contrastive RL vs 传统强化学习
- 传统强化学习中，表示学习与策略优化常被解耦（如通过辅助损失、数据增强单独优化表示），导致训练不稳定
- Contrastive RL 提出：对比表示学习本身可作为目标条件 RL 的核心算法 ，即通过对比学习学习 State-Action 对与未来状态的表示，使可达的未来状态（正样本）表示相近，不可达的随机状态（负样本）表示相异
- 这种表示的内积恰好对应目标条件价值函数（Q-函数），进而直接用于策略优化以实现目标达成

目标条件强化学习（Goal-Conditioned RL）

目标条件 RL 的任务定义为：智能体在状态空间 $ S $ 中执行动作 $ a_t \in A $，通过动力学模型 $ p(s_{t+1} | s_t, a_t) $ 转移状态，需优化策略 $ \pi(a | s, s_g) $ 以达成目标状态 $ s_g \in S $（目标服从分布 $ p_g(s_g) $）
核心奖励函数定义为（无需人工设计距离度量）：
$$
r_g(s_t, a_t) \triangleq (1-\gamma) p(s_{t+1}=s_g | s_t, a_t)
$$
- 其中 $ \gamma \in [0,1) $ 为折扣因子，奖励本质是“下一步到达目标的概率密度”
- 理解：下一步到达目标状态 $s_g$ 的概率越大，则兼顾越大
  - 问题：可能只有最后一步有非 0 奖励，前面的步骤都为 0，其实同样存在奖励稀疏问题
目标条件 Q-函数定义为未来累积奖励的期望：
$$
Q_{s_g}^{\pi}(s, a) \triangleq \mathbb{E}_{\pi(\tau | s_g)} \left[ \sum_{t’=t}^{\infty} \gamma^{t’-t} r_g(s_{t’}, a_{t’}) \bigg|_{s_t=s, a_t=a} \right]
$$

折扣状态占用度量（Discounted State Occupancy Measure）

定义为策略 $ \pi $ 下，经过折扣后状态被访问的概率密度：
$$
p^{\pi(\cdot | \cdot, s_g)}(s_{t+}=s) \triangleq (1-\gamma) \sum_{t=0}^{\infty} \gamma^t p_t^{\pi(\cdot | \cdot, s_g)}(s_t=s)
$$
- 其中 $ s_{t+} $ 表示从该测度中采样的状态
- 时间步 $t$ 可通过几何分布采样，即 $ t \sim \text{GEOM}(1-\gamma) $ 获得
- 该测度用于定义对比学习的正样本对

对比表示学习（Contrastive Representation Learning）

对比学习的目标是学习表示函数 $ \phi, \psi $，使正样本对 $ (u, v^+) $ 的表示变得相似（相近），负样本对 $ (u, v^-) $ 的表示不同（远离）
核心目标函数采用 NCE（Noise-Contrastive Estimation）或 InfoNCE：
$$
\max_{f} \mathbb{E}_{\substack{(u, v^+) \sim p(u, v) \\ v^- \sim p(v)} } \left[ \log \sigma(f(u, v^+)) + \log (1-\sigma(f(u, v^-))) \right]
$$
- 其中 $ f(u, v) = \phi(u)^T \psi(v) $ 为表示的内积（相似度函数），$ \sigma $ 为 sigmoid 函数

Contrastive RL 的核心理论：对比学习即 Q-函数学习

Contrastive RL 的核心贡献是证明：通过特定正负样本设计，对比学习的目标函数等价于学习目标条 Q-函数

命题 1：Q-函数与占用度量的等价性

目标条件 Q-函数可等价表示为目标状态在折扣占用度量下的概率密度：
$$
Q_{s_g}^{\pi}(s, a) = p^{\pi(\cdot | \cdot, s_g)}(s_{t+}=s_g | s, a)
$$
- 该命题将“累积奖励期望”转化为“目标状态的可达概率”，为对比学习与 RL 的结合提供了理论桥梁

引理 4.1：对比学习的最优判别器即 Q-函数

设对比学习的输入定义为：
- 锚点 $ u = (s, a) $（ State-Action 对，从回放缓冲区采样）
- 正样本 $ v^+ = s_f^+ $（从折扣占用度量采样的未来状态：$ s_f^+ \sim p^{\pi(\cdot | \cdot)}(s_{t+} | s, a) $）
- 负样本 $ v^- = s_f^- $（从全局状态分布采样的随机状态：$ s_f^- \sim p(s_{t+}) = \int p^{\pi(\cdot | \cdot)}(s_{t+} | s, a) p(s, a) ds da $）
则对比学习的最优判别器 $ f^* $ 满足：
$$
\exp(f^*(s, a, s_f)) = \frac{1}{p(s_f)} \cdot Q_{s_f}^{\pi(\cdot | \cdot)}(s, a)
$$
- 其中 $ p(s_f) $ 为目标状态的边际分布（归一化常数）
- 由于策略选择时该常数对所有动作等价，可忽略
- 理解：
  - 这里 $Q_{s_f}^{\pi(\cdot | \cdot)}(s, a)$ 表示在已知状态 $s$ 下，执行动作 $a$ 后，经过折扣后状态 $s_f$ 被访问到的概率（占用度量）
  - $p(s_f)$ 为归一化常数，即所有可能的状态 $s_f$对应的 Q 值 $Q_{s_f}^{\pi(\cdot | \cdot)}(s, a)$ 总和
因此对比学习的判别器直接编码了 Q-函数的相对大小

Contrastive RL 的核心组件（Actor-Critic 架构）

表示编码器（Representation Encoders）

Contrastive RL 包含两个编码器，参数化表示函数：
- State-Action 编码器 $ \phi: S \times A \to \mathbb{R}^d $：输入状态 $ s $ 和动作 $ a $，输出低维表示 $ \phi(s, a) $
- 目标编码器 $ \psi: S \to \mathbb{R}^d $：输入目标状态 $ s_g $（或未来状态 $ s_f $），输出表示 $ \psi(s_g) $
判别器函数定义为表示（Representation）的内积（高效计算且符合对比学习范式）：
$$
f(s, a, s_g) = \phi(s, a)^T \psi(s_g)
$$

判别器损失（也是 Critic Loss）

采用 NCE 目标，通过二元分类区分 “State-Action 对与未来状态是否匹配”
设批次大小为 $ B $，损失函数为：
$$
\text{critic_loss} = \text{sigmoid_binary_cross_entropy}(\text{logits}, \text{labels})
$$
- $ \text{logits} = \text{einsum}(ik,jk \to ij, \phi(s,a), \psi(s_f)) $：
  - 批次内所有 $ (\phi(s_i,a_i), \psi(s_{f,j})) $ 的内积矩阵（维度 $ B \times B $）
- $ \text{labels} = \text{eye}(B) $：
  - 单位矩阵，对角线元素为 1（正样本对：$ s_{f,j} $ 是 $ (s_i,a_i) $ 的未来状态），非对角线为 0（负样本对）
- 理解：每个批次包含 B 个样本，每个样本为 <State, Action, Target_State> 的三元组，每个样本的 <State, Action> 跟自己的 <Target_State> 对齐（正样本），跟其他样本中的 <Target_State> 无法对齐（负样本）
  - 所以，上面出现 logits 是 $ B \times B $ 矩阵，而 labels 是 $ B \times B $ 的对角矩阵
- 问题：若在有限状态下，部分样本的目标状态是有重复的，这种训练会出现问题吗？（其实还好，统计意义上看，应该是没问题）

策略损失（Actor Loss）

策略优化的目标是选择使 “State-Action 表示与目标表示内积最大” 的动作（即最大化 Q-函数）
策略 $ \pi(a | s, s_g) $ 为神经网络，输出动作分布，损失函数为：
$$
\text{actor_loss} = -\mathbb{E}_{\pi(a | s, s_g), p(s), p(s_g)} \left[ \phi(s, a)^T \psi(s_g) \right]
$$
- 通过重参数化梯度（reparametrization gradient）更新策略参数
- 对于图像观测任务，可添加动作熵项以鼓励探索
- 理解：这个目标函数的目标是找一个策略 $\pi(\cdot|s,s_g)$，使得 $a \sim \pi(\cdot|s,s_g)$ 时，$\phi(s, a)^T \psi(s_g)$ 的值最大
  - 其中，$s_g$ 是目标状态，是包含 $s,a$ 的轨迹 $ \tau = (s_0,a_0,s_1,a_1,\dots,s_T) $ 中，比 $s,a$ 靠后的状态，按照折扣占用度量采样

Contrastive RL 完整算法流程（NCE）

Contrastive RL 交替进行判别器（Critic）更新、策略（Actor）更新和数据收集，流程如下：
1：初始化 ：初始化 State-Action 编码器 $ \phi $、目标编码器 $ \psi $、策略网络 $ \pi $ 的参数；初始化回放缓冲区 $ \mathcal{D} $
2：数据收集 ：用当前策略 $ \pi $ 与环境交互，收集轨迹 $ \tau = (s_0,a_0,s_1,a_1,\dots,s_T) $，存入 $ \mathcal{D} $
3：判别器 Critic 更新 ：
- 从 $ \mathcal{D} $ 采样批次 $ (s, a, s_f) $（$ s_f $ 为轨迹中未来状态，按折扣占用度量采样）
- 计算 $ \phi(s,a) $ 和 $ \psi(s_f) $
- 计算 logits 矩阵和单位矩阵标签
- 最小化二元交叉熵损失更新 $ \phi $ 和 $ \psi $
4：策略 Actor 更新 ：
- 从 $ \mathcal{D} $ 采样状态 $ s $ 和目标 $ s_g $
- 从 $ \pi(a | s, s_g) $ 采样动作 $ a $
- 计算 $ \phi(s,a)^T \psi(s_g) $
- 最小化负内积损失更新策略 $ \pi $
  - 注：这里使用重参数法实现策略的参数更新
重复步骤 2-4 ，直至收敛

Contrastive RL 的关键实现细节

离线适配 ：对于离线 RL 场景（无环境交互），在策略损失中添加目标条件行为克隆项（behavioral cloning）：
$$
\text{actor_loss} = -\mathbb{E} \left[ (1-\lambda) \phi(s,a)^T \psi(s_g) + \lambda \log \pi(a_{\text{orig} } | s, s_g) \right]
$$
- 其中 $ a_{\text{orig} } $ 为离线数据中的动作，$ \lambda $ 为平衡系数；
计算效率 ：基于 JAX 和 ACME 框架实现，单 TPUv2 上状态任务训练速度达 1100 批次/秒，图像任务达 105 批次/秒（比 DrQ 快 3.9 倍）；
变体扩展 ：可替换对比目标为 InfoNCE（Contrastive RL (CPC)），或融合 C-learning（TD 学习）得到 Contrastive RL (NCE + C-learning)，进一步提升性能

Contrastive RL 方法优势

无需辅助组件：不依赖数据增强（如 DrQ）、辅助重建损失（如 AE）或多 Q 网络（如 TD3），结构简洁
表示与RL统一：表示学习与策略优化共享同一目标（对比损失），避免解耦导致的不稳定
强泛化能力：在图像观测、部分可观测性（移动相机）、离线 RL 等场景中均优于传统方法
理论支撑：严格证明对比学习与 Q-函数的等价性，提供收敛保证（添加轨迹过滤步骤后，满足近似策略改进）

论文中的实验效果

Contrastive RL 在多个目标条件 RL 任务中表现突出：
状态型任务（FetchReach、SawyerBin 等）：解决了传统方法（TD3+HER、GCBC）无法完成的高难度任务（如 SawyerBin）；
图像型任务（FetchPush、PointSpiral11x11 等）：无需数据增强，性能超过 TD3+HER+DrQ/CURL 等增强方法；
离线RL任务（D4RL AntMaze）：在 5/6 个任务中优于 IQL、TD3+BC 等方法，尤其在大规模任务上提升 7%-9%

Hadoop——使用笔记

查看 hdfs 相对路径

查看文件的命令为：
1
hadoop fs -ls
可以用 Hadoop 的 fs 命令操作 HDFS（分布式文件系统），每个用户有一个默认的工作目录，通常为 /user/<用户名>
- 特别说明：Hadoop 并不像 Linux Shell 那样有 pwd 命令直接显示当前工作目录（hadoop fs -pwd）是会报错的
查看当前用户的默认工作目录的方式
- 第一步：查看当前用户名
  1
  2
  3
  whoami
  # 或（部分 Hadoop 版本支持）
  hadoop fs -whoami
- 第二步：推断当前工作目录
  - 默认情况下，工作目录为 /user/<用户名>
  - 例如，如果用户名是 hadoop-aipnlp，默认工作目录就是 /user/hadoop-aipnlp
注：推荐始终使用绝对路径，避免因工作目录变化导致混淆

示例：

1 2	hadoop fs -ls /user/hadoop-xxx/xxx hadoop fs -ls user/hadoop-xxx/xxx # 相对路径，绝对路径是 /user/<用户名>/user/hadoop-xxx/xxx

以上两行命令访问的不是同一个路径

HDFS 副本维护

在 HDFS 或类似分布式文件系统中，一般来说，副本是正常同步的
当通过 HDFS API（如 hdfs dfs -put、hdfs dfs -appendToFile）修改文件内容时，NameNode 会协调 DataNode 同步更新所有副本
HDFS 文件是不可变的（append-only），不能像本地文件一样随机修改已经存在的内容
- 如果在文件夹下直接修改某个副本所在的节点上的物理文件（绕过 HDFS），这些更改不会自动同步到其他副本，而且会破坏数据一致性
正确的修改方式 ：如果需要更新内容，必须通过 HDFS 提供的写入接口重新上传或追加文件，这样系统会自动更新所有副本

特殊的管理方式

如果将 HDFS 文件夹挂载到 Docker，可通过指定在 Docker 内所有的操作都为 HDFS 接口的操作来实现副本维护（但仅限于单集群，其他集群的做不到同步）
此时，在 Docker 内部，对 HDFS 文件夹的访问就像普通访问一样简单
- 例如 cp, mkdir, rm 等命令都可以正常使用，且保证多个副本之间的一致性

比较三种命令的区别

在管理 HDFS 文件时，我们常用的命令有三个 hadoop fs，hadoop dfs和hdfs dfs【注意没有hdfs fs】*
在 Hadoop 生态中，hadoop fs、hadoop dfs 和 hdfs dfs 都是用于操作文件系统的命令，但它们的适用范围和历史背景有所不同
hadoop fs
- 通用的文件系统操作命令，不仅可以操作 HDFS，还可以操作 Hadoop 支持的其他文件系统（如本地文件系统 file:///、分布式文件系统如 S3 等）
- 通过指定不同的文件系统前缀（如 hdfs://、file:///），可以对对应的文件系统执行创建目录、上传文件、查看文件等操作
- 由于其通用性，hadoop fs 是官方更推荐的命令，适用于需要跨不同文件系统操作的场景
hadoop dfs
- 早期 Hadoop 版本中用于操作 HDFS 的命令，仅支持 HDFS 文件系统
- 在 Hadoop 2.x 及之后的版本中，hadoop dfs 逐渐被 hdfs dfs 取代，成为一个“历史遗留”的命令（实际执行时会映射到 hdfs dfs）
- 不推荐在新版本中使用，可能会在未来版本中移除
hdfs dfs
- 专门用于操作 HDFS（Hadoop 分布式文件系统）的命令，功能与 hadoop dfs 完全一致，但更明确地指向 HDFS
- Hadoop 2.x 引入 hdfs 命令组（如 hdfs dfs、hdfs namenode 等），将 HDFS 相关操作与其他 Hadoop 功能（如 MapReduce）分离，使命令结构更清晰
- 如果明确需要操作 HDFS，hdfs dfs 是更规范的选择
总结
- 通用场景：优先使用 hadoop fs，可操作多种文件系统
- 仅操作 HDFS：推荐使用 hdfs dfs，功能明确且符合新版本规范
- 避免使用：hadoop dfs 已过时，不建议在新环境中使用
- 三者在操作 HDFS 时的核心功能（如 put、get、ls 等）完全一致，区别主要在于适用范围和版本兼容性

Joe Zhou

Stay Hungry. Stay Foolish.

GitHub E-Mail

Introduction and Discussion

Problem Formulation

Memory-Augmented Agent Policy

Non-Parametric RL

From Semantic Matching to Decision Making

Defining Utility via Q-Values

Non-Parametric Learning

MemRL

Memory Structure: The Intent-Experience-Utility Triplet

Two-Phase Retrieval: From Semantic Recall to Value-Aware Seletion

Phase A: Similarity-Based Recall

Phase B: Value-Aware Selection

Runtime Learning： Non-Parametric RL on Memory

Cognitive Interpretation

Stability Analysis

Setup

Stationary Reward Assumption

Expected Convergence of Utility Estimates

Theorem 1

Proof of Theorem 1

Bounded Variance and Stability

Global Stability via EM Convergence

Experiments

Experimental Setup

Baselines

Benchmarks

Runtime Learning Results

Transferring Results

Ablations

Effectiveness of Runtime RL

Impact of Q-value Weighting

Sensitivity to Retrieval size

Discussion

MemRL as a Trajectory Verifier

Predictive Power of the Q-Critic

Stability of MemRL

The Necessity of Normalization and Similarity Gate

Impact of Similarity on Memory Efficacy（任务相似性对记忆效能的影响）

Generalization vs. Memorization

Conclusion

补充：Related Works

Continous Learning

RL

Agentic Memory

附录 A：Theoretical Analysis And Proofs

A.1 定理 1 的证明：Convergence Of EMA Estimation

Assumptions

Derivation of Error Dynamics

Convergence Analysis

A.2 Bounded Variance And Global Stability(有界方差与全局稳定性)

Derivation of the Variance Bound

Recursive Unrolling

Asymptotic Convergence

Connection to Phase-A Clustering

附录 B：Convergence Via Variational Inference

B.1 收敛目标

B.2 带有信任区域的变分目标

B.3 通过广义期望最大化进行优化 (GEM)

E-step Policy Optimization

M-step Policy Evaluation Via Error Minimization

Proof of Convergence

Introduction and Discussion

Preliminaries

RLVR（Reinforcement Learning with Verifiable Rewards）

Verifiable Rewards

RLVR Algorithms

Policy Gradient

Zero RL Training

Metrics for LLM Reasoning Capacity Boundary

Pass@\(k\) Metrics

Comparison with Best-of-\(N\) and Majority Voting

Random Guessing Issue

RLVR’s Effect on Reasoning Capacity Boundary

RLVR for Mathematical Reasoning

Models and Benchmarks

The Effect of RLVR: Increased Likelihood of Correct Samples, Decreased Coverage of Solvable Problems（增加正确样本的可能性，减少可解问题的覆盖范围）

CoT Case Analysis

Validityof Chain-of-Thought

RLVR for Code Generation

Models and Benchmarks