Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

NLP——Muon

  • 参考链接:
    • 原始博客(Muon 最早出自该博客):kellerjordan.github.io/posts/muon, Muon: An optimizer for hidden layers in neural networks, 20241208
    • 苏神的解读:Muon优化器赏析:从向量到矩阵的本质跨越,注:苏神博客中写的方案与原始博客方案不完全相同,增加了一些技巧
    • Muon 的改进论文:Muon is Scalable for LLM Training, 20250224, Moonshot AI
      • 本文以解读这篇论文为主

整体讨论

  • 在 AdamW 已经大行其道的今天(24年底),已经很少有人在优化器上下功夫了,Muon (MomentUm Orthogonalized by Newton-Schulz) 就是其中一个不可多得的优秀方法
  • Muon 最早由 Keller Jordan 2024年12月8日 在其博客 Muon: An optimizer for hidden layers in neural networks 中发表,后在业内引起了广泛讨论

《Muon is Scalable for LLM Training》 Paper Summary

  • 基于矩阵正交化(Matrix Orthogonalization)的 Muon 优化器(2024)在小规模语言模型训练中表现出色,但其在大规模模型上的可扩展性尚未得到验证
  • 论文发现了两种关键技术可以扩展 Muon:
    • (1)加入权重衰减(weight decay)
    • (2)精心调整每个参数的更新尺度
  • 这些技术改进让 Muon 能够直接用于大规模训练,而无需调整超参数
  • 扩展定律实验表明,在计算最优训练条件下,Muon 的计算效率比 AdamW 高约 2 倍
  • 基于这些改进,论文推出了 Moonlight,这是一个使用 Muon 训练、包含 3B/16B 参数的 MoE 模型,训练数据量为 5.7T tokens
  • 论文的模型改进了当前的帕累托前沿(Pareto frontier) ,在更少的训练浮点运算(FLOPs)下实现了更好的性能
  • 论文开源了分布式 Muon 实现,该实现内存最优且通信高效(特别地:还发布了预训练、指令微调及中间检查点)

Introduction and Discussion

  • LLM (2024;DeepSeek-2024;2024;2024)的快速发展显著推动了通用人工智能的进步
  • 由于扩展定律(2020;2022)的存在,训练强大的 LLM 仍然是一个计算密集且资源需求高的过程
  • 优化器在高效训练 LLM 中扮演着关键角色,其中 Adam(2015)及其变体 AdamW(2019)是大多数大规模训练的标准选择
  • 近期优化算法的发展显示出超越 AdamW 的潜力(2024;2024;2024;2025;2018a;2018b;2024;2022;2024;2025)
  • 其中,K. Jordan 等人(2024)提出了 Muon ,它通过牛顿-舒尔茨迭代(Newton-Schulz iteration)使用正交化梯度动量(orthogonalized gradient momentum)更新矩阵参数
  • Muon 在小规模语言模型训练中的初步实验表现出色,但正如这篇博客(Muon: An optimizer for hidden layers in neural networks, 20241208)所讨论的,仍存在几个关键挑战未解决:
    • (1)如何将基于矩阵正交化的优化器有效扩展到具有数十亿参数、训练数据量达数万亿 tokens 的大模型;
    • (2)如何在分布式环境中计算近似正交化;
    • (3)此类优化器是否能泛化到不同训练阶段,包括预训练和监督微调(Supervised Finetuning, SFT)
  • 在本技术报告中,论文通过系统性研究解决了这些挑战
  • 论文的工作基于 Muon,同时通过分析解决了其在大规模训练场景中的局限性。论文的技术贡献包括:
    • Muon 有效扩展的分析(Analysis for Effective Scaling of Muon) :
      • 通过广泛分析,论文发现权重衰减对 Muon 的可扩展性至关重要
      • 论文提出了对 Muon 参数级更新规则的尺度调整
        • 这些调整使得 Muon 无需超参数调优即可直接使用,并显著提高了训练稳定性
    • 高效的分布式实现(Efficient Distributed Implementation) :
      • 论文开发了基于 ZeRO-1(2020)风格的分布式 Muon 版本,实现了最优内存效率和降低的通信开销,同时保留了算法的数学特性
    • 扩展定律验证(Scaling Law Validation) :
      • 论文进行了扩展定律研究,比较 Muon 与强基线 AdamW,结果显示 Muon 性能更优(图 1a)
      • 根据扩展定律结果,Muon 在仅需约 52% 的训练 FLOPs 时,即可达到与 AdamW 训练模型相当的性能
  • 论文的全面实验表明,Muon 可以有效地替代 AdamW 作为大规模 LLM 训练的实际优化器,在训练效率和模型性能上均带来显著提升
  • 基于这项工作,论文发布了 Moonlight,这是一个使用 Muon 训练的 16B 参数 MoE 模型,同时开源了实现代码和中间训练检查点,以促进 LLM 可扩展优化技术的进一步研究

Methods

Background

  • Muon 优化器 Muon(2024)是一种针对矩阵参数优化的神经网络优化器

  • 在迭代步 \( t \) 时,给定当前权重 \(\mathbf{W}_{t-1}\)、动量 \(\mu\)、学习率 \(\eta_t\) 和目标函数 \(\mathcal{L}_t\),Muon 的更新规则如下:
    $$
    \begin{split}
    \mathbf{M}_t &= \mu\mathbf{M}_{t-1} + \nabla\mathcal{L}_t(\mathbf{W}_{t-1}) \\
    \mathbf{O}_t &= \text{Newton-Schulz}(\mathbf{M}_t)^{\mathrm{i} } \\
    \mathbf{W}_t &= \mathbf{W}_{t-1} - \eta_t\mathbf{O}_t
    \end{split} \tag{1}
    $$

    • 其中,\(\mathbf{M}_t\) 是第 \( t \) 步的梯度动量(初始时 \(\mathbf{M}_0\) 为零矩阵)
    • 在公式1中,Newton-Schulz 迭代过程(2024)用于近似计算 \((\mathbf{M}_t\mathbf{M}_t^{\mathrm{T} })^{-1/2}\mathbf{M}_t\)
    • 设 \(\mathbf{M}_t\) 的奇异值分解(SVD)为 \(\mathbf{U}\boldsymbol{\Sigma}\mathbf{V}^{\mathrm{T} }\),则 \((\mathbf{M}_t\mathbf{M}_t^{\mathrm{T} })^{-1/2}\mathbf{M}_t = \mathbf{U}\mathbf{V}^{\mathrm{T} }\),即将 \(\mathbf{M}_t\) 正交化
    • 直观上,正交化能确保更新矩阵是同构的,避免权重沿少数主导方向学习(2024)
  • Newton-Schulz 迭代的矩阵正交化(Newton-Schulz Iterations for Matrix Orthogonalization) :公式1通过迭代过程计算

    • 初始时,设:
      $$\mathbf{X}_0 = \mathbf{M}_t / |\mathbf{M}_t|_{\mathrm{F} }$$
      • 注:\(|\mathbf{M}_t|_{\mathrm{F}}\) 是 F 范数,在 PyTorch 中的实现为 M.norm(),定义如下:
        $$ |A|_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2} $$
    • 在每步迭代 \( k \) 中,按以下方式更新 \(\mathbf{X}_k\):
      $$
      \mathbf{X}_k = a\mathbf{X}_{k-1} + b(\mathbf{X}_{k-1}\mathbf{X}_{k-1}^{\mathrm{T} }) \mathbf{X}_{k-1} + c(\mathbf{X}_{k-1}\mathbf{X}_{k-1}^{\mathrm{T} })^{2} \mathbf{X}_{k-1} \tag{2}
      $$
      • 其中,\(\mathbf{X}_N\) 是经过 \( N \) 次迭代后的结果,\( a \)、\( b \)、\( c \) 为系数
      • 为确保公式2正确收敛,需调整系数使多项式 \( f(x) = ax + bx^{3} + cx^{5} \) 在 1 附近有固定点
      • 在Jordan等人(2024)的原始设计中,系数设为 \( a=3.4445 \)、\( b=-4.7750 \)、\( c=2.0315 \),以加速小初始奇异值的收敛(论文沿用这一设置)
    • 原始博客 Muon: An optimizer for hidden layers in neural networks, 20241208 中 Newton-Schulz 算法的实现如下:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      # Pytorch code
      def newtonschulz5(G, steps=5, eps=1e-7):
      assert G.ndim == 2
      a, b, c = (3.4445, -4.7750, 2.0315)
      X = G.bfloat16()
      X /= (X.norm() + eps)
      if G.size(0) > G.size(1):
      X = X.T
      for _ in range(steps):
      A = X @ X.T
      B = b * A + c * A @ A
      X = a * X + B @ X
      if G.size(0) > G.size(1):
      X = X.T
      return X
  • 范数约束下的最速下降法(Steepest Descent Under Norm Constraints)

    • Bernstein等人(2024)提出将深度学习优化过程视为范数约束下的最速下降
      • 注:最速下降法(Steepest Descent Method)和共轭梯度法(Conjugate Gradient Method, CG)类似,都是求解无约束最优化问题的优化方法
    • 从这一视角看,Muon 与 Adam(2015;2019)的区别在于范数约束的不同:
      • Adam 是动态调整的 Max-of-Max 范数约束下的最速下降,而 Muon 提供的是静态 Schatten-\( p \) 范数约束(Franz,2024)
      • 当公式1精确计算时,Muon 的范数约束为谱范数
      • 神经网络权重作为输入空间或隐藏空间的算子,通常(局部)是欧几里得的(Cesista,2024),因此权重的范数约束应为诱导算子范数(或矩阵的谱范数)
        • 为什么神经网络可以看成算子?
      • 从这个意义上说,Muon 的范数约束比 Adam 更合理

Scaling Up Muon

Weight Decay
  • 虽然 Muon 在小规模模型上表现优于 AdamW(2024),但作者发现当扩展到更大模型和更多数据时,性能提升会减弱
  • 作者观察到权重和层输出的 RMS 值持续增长 ,甚至超出 bf16 的高精度范围,可能损害模型性能
  • 为解决这一问题,论文将 AdamW(2019)的标准权重衰减机制引入 Muon:
    $$
    \mathbf{W}_t = \mathbf{W}_{t-1} - \eta_t(\mathbf{O}_t \color{red}{+ \lambda\mathbf{W}_{t-1}}) \tag{3}
    $$
  • 通过实验对比带和不带权重衰减的 Muon,论文训练了一个 800M 参数、100B token 的模型(约为最优训练 token 量的 5 倍)
  • 图2展示了使用 AdamW、原始 Muon(无权重衰减)和带权重衰减的 Muon 的验证损失曲线
  • 原始 Muon 初始收敛更快 ,但部分权重随时间增长过大 ,可能限制模型长期性能
  • 加入权重衰减后,Muon 的表现优于原始 Muon 和 AdamW,在 “over-train regime”(过训练区域)中实现了更低的验证损失
  • 因此,论文将更新规则调整为公式3 ,其中 \(\lambda\) 为权重衰减比率
Consistent Update RMS
  • Adam 和 AdamW(2015;2019)的一个重要特性是其理论更新 RMS 保持在 1 附近
  • 但 Muon 的更新 RMS 随参数形状变化,如下引理所示:
  • 引理1 :对于形状为 \([A,B]\) 的满秩矩阵参数,其理论 Muon 更新 RMS 为 \(\sqrt{1/\max(A,B)}\)
    • 注:\(A\) 和 \(B\) 矩阵的维度,比如 \(A = 4\) 表示 \(4 \times 4\) 大小的矩阵; 而 \(\max(A,B)\) 是一个数字,即 \(A\) 和 \(B\) 中的较大值
    • 引理1 的证明和变量含义可见 附录A
  • 论文监测了训练中 Muon 的更新 RMS,发现其通常接近上述理论值
  • 这种不一致性在扩展模型规模时可能引发问题:
    • 当 \(\max(A,B)\) 过大(如稠密 MLP 矩阵)时,更新过小,限制模型表征能力;
    • 当 \(\max(A,B)\) 过小(如将 GQA(2019)或 MLA(DeepSeek-2024)中的每个 KV 头视为独立参数)时,更新过大,导致训练不稳定
  • 为保持不同形状矩阵间更新 RMS 的一致性,论文提出对每个矩阵的 Muon 更新乘以 \(\sqrt{\max(A,B)}\) 以抵消引理1 的影响
  • 第3.1节的实验证明这一策略对优化有益
Matching Update RMS of AdamW
  • Muon 专为矩阵参数设计 ,实际训练中 AdamW 用于处理非矩阵参数(如 RMSNorm、LM Head 和 Embedding 参数)
    • 作者希望优化器超参数(学习率 \(\eta\)、权重衰减 \(\lambda\))能在矩阵和非矩阵参数间共享
    • 自回归模型中,LM Head 通常也只包含一个矩阵权重参数(d_model x vocab_size维度大小)吧?
  • 论文提出将 Muon 的更新 RMS 调整至与 AdamW 相近的范围
    • 根据经验观察,AdamW 的更新 RMS 通常在 0.2 至 0.4 之间
    • 问题:为什么要将 RMS 调整到 AdamW 相近范围,其他范围不行吗?
      • 回答:是从实验验出来的,附录 A 中有实验说明
  • 论文基于观察,通过以下公式调整将 Muon 的更新 RMS 缩放至该范围:
    $$
    \mathbf{W}_t = \mathbf{W}_{t-1} - \eta_t(\color{blue}{0.2 \cdot} \mathbf{O}_t \color{blue}{\cdot \sqrt{\max(A,B)}} + \color{red}{\lambda\mathbf{W}_{t-1}})
    $$
  • 这一选择的实证验证见附录A
  • 此外,调整后 Muon 可直接复用为AdamW调优的学习率和权重衰减
Other Hyper-parameters
  • Muon还有两个可调超参数:
    • Newton-Schulz 迭代步数 \( N \) :
      • 实验发现,当 \( N=10 \) 时,迭代结果比 \( N=5 \) 更精确,但性能未提升
      • 因此,论文为效率考虑选择 \( N=5 \)
    • 动量 \(\mu\) :
      • 动量调优未带来一致性能提升,故沿用 Jordan等人(2024)的 0.95

Distributed Muon

ZeRO-1 与 Megatron-LM
  • ZeRO-1(2020)技术将昂贵优化器状态(如主权重、动量)分区存储于集群中
  • Megatron-LM(2020)将 ZeRO-1 集成到其并行设计中
  • 基于 Megatron-LM 的并行策略(如张量并行 TP、流水线并行 PP、专家并行 EP 和数据并行 DP),ZeRO-1 的通信负载从全局收集简化为仅需在数据并行组内收集

    Based on Megatron-LM’s sophisticated parallel strategies, e.g. Tensor-Parallel (TP), Pipeline Parallel (PP), Expert Parallel (EP) and Data Parallel (DP), the communication workload of ZeRO-1 can be reduced from gathering all over the distributed world to only gathering over the data parallel group.

Method
  • ZeRO-1 对 AdamW 高效,因其按元素计算更新
  • 但 Muon 需完整梯度矩阵计算更新,故原始 ZeRO-1 不直接适用于 Muon
  • 论文提出基于 ZeRO-1 的分布式 Muon 方案,称为 Distributed Muon,它在DP上分区优化器状态,并引入两项额外操作:
    • 1) DP Gather :将本地 DP 分区的主权重(大小为模型权重的 1/DP)对应的分区梯度收集为完整梯度矩阵
    • 2) 计算完整更新(Calculate Full Update) :对完整梯度矩阵执行 Newton-Schulz 迭代(如2.1节所述),随后丢弃部分更新矩阵,仅保留与本地参数对应的分区
  • Distributed Muon 的实现如算法1所示,新增操作以蓝色标注
Analysis
  • 论文从多角度对比 Distributed Muon 与经典 ZeRO-1 分布式 AdamW(简称 Distributed AdamW):
  • 内存占用(Memory Usage) :Muon 仅需一个动量缓冲区,AdamW 需两个,故 Muon 的额外内存占用为 AdamW 的一半
  • 通信开销(Communication Overhead) :每设备仅需为本地 DP 分区参数 \(\mathbf{p}\) 执行额外 DP 收集,通信成本低于 \(\mathbf{G}\) 的 reduce-scatter 或 \(\mathbf{P}\) 的 all-gather
    • 此外,Muon 的 Newton-Schulz 迭代以 bf16 执行,通信开销比 fp32 降低 50%
    • 总体而言,Distributed Muon 的通信量为 Distributed AdamW 的 1 至 1.25 倍
  • 延迟(Latency) :Distributed Muon 因额外通信和 Newton-Schulz 迭代,端到端延迟高于 Distributed AdamW。但这并非主要问题,因为:
    • (a)Newton-Schulz 仅需约 5 次迭代即可获得良好结果(见2.2节);
    • (b)优化器导致的延迟仅占模型前向-反向传播时间的 1% 至 3%
    • 此外,技术可进一步降低延迟,比如:
      • overlapping gather and computation
      • overlapping optimizer reduce-scatter with parameter gather
  • 在大规模分布式集群中,Distributed Muon 的延迟开销与 AdamW 相当
  • 论文将很快向开源 Megatron-LM 提交实现 Distributed Muon 的 PR

Experiments

Consistent Update RMS

  • 如第 2.2 节所述,论文的目标是让所有矩阵参数的更新 RMS 保持一致,并与 AdamW 的更新 RMS 匹配
  • 论文通过两种方法控制 Muon 的更新 RMS,并与仅保持与 AdamW 一致 RMS 的基线进行比较:
  • Baseline :论文将更新矩阵乘以 \(0.2 \cdot \sqrt{H}\)(\(H\) 为模型隐藏层大小),以保持与 AdamW 一致的更新 RMS。注意,对于大多数矩阵,\(\max(A,B)\) 等于 \(H\)
    $$
    \mathbf{W}_{t} = \mathbf{W}_{t-1} - \eta_{t}(0.2 \cdot \mathbf{O}_{t} \cdot \sqrt{H} + \lambda \mathbf{W}_{t-1})
    $$
  • 更新归一化(Update Norm) :论文直接对通过牛顿-舒尔茨迭代计算的更新进行归一化,使其 RMS 严格等于 0.2:
    $$
    \mathbf{W}_{t} = \mathbf{W}_{t-1} - \eta_{t}(0.2 \cdot \mathbf{O}_{t} / \text{RMS}(\mathbf{O}_{t}) + \lambda \mathbf{W}_{t-1})
    $$
  • 调整学习率(Adjusted LR) :对于每个更新矩阵,论文根据其形状将学习率缩放 \(0.2 \cdot \sqrt{\max(A,B)}\) 倍:
    $$
    \mathbf{W}_{t} = \mathbf{W}_{t-1} - \eta_{t}(0.2 \cdot \mathbf{O}_{t} \cdot \sqrt{\max(A,B)} + \lambda \mathbf{W}_{t-1})
    $$
  • 分析 :论文设计了实验来说明 Muon 更新 RMS 在训练早期的影响,因为在更大规模的模型训练中,异常行为会很快出现
    • 论文使用第 3.2 节描述的 800M 参数小模型进行实验
    • 当矩阵维度差异较大时,更新 RMS 不一致的问题会更加明显,为了突出这一问题,论文略微修改了模型架构
      • 将 Swiglu MLP 替换为标准的两层 MLP,将其矩阵参数的形状从 \([H, 2.6H]\) 改为 \([H, 4H]\)
    • 论文评估了模型的损失,并监测了一些参数的 RMS,特别是注意力查询和 MLP:
      • 注意力查询(形状 \([H, H]\))
      • MLP(形状 \([H, 4H]\))
      • 论文在 20B token 的训练计划中训练了 4B token 后评估模型
    • 从表 1 中,论文观察到以下几点:
      • 1)更新归一化和调整学习率方法均优于基线;
      • 2)对于形状为 \([H, 4H]\) 的 MLP 权重矩阵,更新归一化和调整学习率得到的权重 RMS 大约是基线的两倍
        • 这是因为 \(\sqrt{\max(H, 4H)} / \sqrt{H} = 2\),因此更新归一化和调整学习率的更新 RMS 大约是基线的两倍;
      • 3)对于形状为 \([H, H]\) 的注意力查询权重矩阵,更新归一化仍然对更新进行归一化,而调整学习率则不会,因为 \(\sqrt{\max(H, H)} / \sqrt{H} = 1\)
        • 因此,调整学习率得到的权重 RMS 与基线相似,而更新归一化的权重 RMS 则与其 MLP 类似;
  • 基于这些发现,论文选择调整学习率方法用于后续实验,因为它的计算成本更低

Scaling Law of Muon

  • 为了与 AdamW 进行公平比较,论文在 Llama 架构的一系列密集模型上进行了缩放定律实验
  • 构建一个强大的基线对于优化器研究至关重要,因此论文按照计算最优训练设置(2022)对 AdamW 的超参数进行了网格搜索(网格搜索实验详见附录 B)
  • 模型架构和超参数的细节见表 2
  • 对于 Muon,如第 2.2 节所述,由于论文已将 Muon 的更新 RMS 与 AdamW 匹配,因此直接复用了 AdamW 基线的最优超参数
  • 拟合的缩放定律曲线见图 3,拟合方程详见表 3
  • 如图 1a 所示,在计算最优设置下,Muon 仅需约 52% 的训练 FLOPs 即可达到与 AdamW 相当的性能

Pretraining with Muon

  • 模型架构 :为了评估 Muon 在现代模型架构中的表现,论文从头开始预训练了一个基于 deepseek-v3-small 架构(2024)的模型 ,因为该模型性能强大且原始结果可作为参考
    • 论文的预训练模型激活参数为 2.24B,总参数为 15.29B(包含嵌入层时为 3B 激活参数和 16B 总参数)
    • 对架构的微小修改详见附录 C
  • 预训练数据 :预训练数据的细节可参考 Kimi k1.5: Scaling Reinforcement Learning with LLMs, 20250603
    • 预训练的最大上下文长度为 8K
  • 预训练过程 :模型训练分为多个阶段
    • 在阶段 1 和 2 中,论文使用 1e-3 的 Auxfree Bias Update Rate,阶段 3 中为 0.0
      • 问题:这里的 Auxfree Bias Update 是什么?
      • 回答:是在 DeepSeek MoE 训练中使用到的无辅助损失负载均衡技巧(在此之前,常规的负载均衡技巧会使用 辅助负载均衡损失 auxiliary load-balancing loss,Auxfree 表示不需要这个辅助负载均衡项)
      • 注:论文训练的模型架构和 Deepseek-v3-Small 模型一致,这一个 2.4B/16B 参数的 MoE 模型,训练了 1.33T token;
    • 所有权重衰减均设为 0.1
    • 更多训练细节和讨论见附录 D
    • 具体训练流程为:
      • 1)0 到 33B token :在此阶段,学习率在 2k 步内线性增加到 4.2e-4,批量大小保持在 2048 个样本;
      • 2)33B 到 5.2T token :在此阶段,学习率从 4.2e-4 以余弦方式衰减到 4.2e-5
        • 批量大小在 200B token 前保持为 2048,之后增加到 4096;
      • 3)5.2T 到 5.7T token(冷却阶段):在此阶段,学习率在 100 步内增加到 1e-4,随后在 500B token 内线性衰减到 0,批量大小保持为 4096。此阶段使用最高质量的数据,重点关注数学、代码和推理任务
  • 评估基准 :论文的评估涵盖四类主要基准,每类设计用于评估模型的不同能力:
    • 英语语言理解和推理 :MMLU(5-shot)(2021)、MMLU-pro(5-shot)(2024)、BBH(3-shot)(2022)、TriviaQA(5-shot)(2017);
    • 代码生成 :HumanEval(pass@1)(2021)、MBPP(pass@1)(2021);
    • 数学推理 :GSM8K(4-shot)(2021)、MATH(2021)、CMATH(2023);
    • 中文语言理解和推理 :C-Eval(5-shot)(2023)、CMMLU(5-shot)(2024)
  • 性能 :论文将使用 Muon 训练的模型命名为“Moonlight”。论文在 1.2T token 处评估 Moonlight,并与以下同规模公开模型进行比较:
    • Deepseek-v3-Small(2024):一个 2.4B/16B 参数的 MoE 模型,训练了 1.33T token;
    • Moonlight-A :与 Moonlight 训练设置相同,但使用 AdamW 优化器
  • 对于 Moonlight 和 Moonlight-A,论文使用了总预训练 5.7T token 中的 1.2T token 中间检查点,此时学习率尚未衰减到最小值,模型也未进入冷却阶段
  • 如表 4 所示:
    • Moonlight-A(论文的 AdamW 训练基线模型)与同类公开模型相比表现强劲
    • Moonlight 的性能显著优于 Moonlight-A,证明了 Muon 的可扩展性
    • 论文观察到 Muon 在数学和代码相关任务上表现尤为突出,鼓励研究社区进一步研究这一现象
  • 当 Moonlight 完全训练到 5.7T token 后,论文将其与同规模的公开模型进行比较,结果如表 5 所示:
    • LLAMa3-3B(2024):一个 3B 参数的密集模型,训练了 9T token;
    • Qwen2.5-3B(2024):一个 3B 参数的密集模型,训练了 18T token;
    • Deepseek-v2-Lite(2024):一个 2.4B/16B 参数的 MoE 模型,训练了 5.7T token
  • 如表 5 所示,Moonlight 在相同 token 数量下优于同类模型
    • 即使与训练数据量更大的密集模型相比,Moonlight 仍具有竞争力
    • 详细比较见附录 E
  • Moonlight 的性能在 MMLU 和 GSM8k 上与其他知名语言模型进一步对比,如图 1b 和附录 E 图 8 所示
  • 值得注意的是,Moonlight 位于模型性能与训练预算的帕累托前沿,优于许多其他规模的模型

Dynamics of Singular Spectrum(奇异谱)

  • 为了验证 Muon 可以在更多样化的方向上优化权重矩阵的直觉,论文对使用 Muon 和 AdamW 训练的权重矩阵进行了谱分析
  • 对于一个具有奇异值(singular values) \(\sigma = (\sigma_{1}, \sigma_{2}, \cdots, \sigma_{n})\) 的权重矩阵,论文计算其 SVD 熵(2000;2007)如下:
    $$
    H(\sigma) = -\frac{1}{\log n} \sum_{i=1}^{n} \frac{\sigma_{i}^{2} }{\sum_{j=1}^{n} \sigma_{j}^{2} } \log \frac{\sigma_{i}^{2} }{\sum_{j=1}^{n} \sigma_{j}^{2} }
    $$
    • 直观上看,singular values 越平均,SVD 熵越大
  • 如图 4 所示,论文可视化了预训练 1.2T token 过程中不同检查点的权重矩阵的平均 SVD 熵
    • 可以看到,在所有训练检查点和所有权重矩阵组中,Muon 的 SVD 熵均高于 AdamW,这验证了 Muon 可以为权重矩阵提供更多样化的更新谱的直觉
    • 这种差异在专家选择的路由权重中更为显著,表明混合专家模型可以从 Muon 中获益更多
  • 此外,论文在附录 F 中展示了 1.2T token 检查点处各权重矩阵的奇异值分布。论文发现,对于超过 90% 的权重矩阵,Muon 优化时的 SVD 熵高于 AdamW,这为 Muon 在探索多样化优化方向上的卓越能力提供了强有力的实证证据

SFT with Muon

  • 本节论文展示了 Muon 优化器在标准 LLM 训练 SFT 阶段的消融研究
  • 论文的结果表明,Muon 带来的优势在 SFT 阶段仍然存在
    • 具体而言,同时使用 Muon 预训练和 Muon 微调的模型在消融研究中表现最佳
  • 然而,论文也观察到,当 SFT 优化器与预训练优化器不同时,Muon 在 SFT 中并未显示出显著优于 AdamW 的优势
    • 理解:SFT 阶段优化器的选择还与预训练阶段优化器的选择有关?
  • 这表明仍有很大的探索空间,论文将其留待未来研究
Ablation Studies on the Interchangeability of Pretrain and SFT Optimizers(预训练和 SFT 优化器互换性的消融研究)
  • 为了进一步研究 Muon 的潜力,论文使用 Muon 和 AdamW 优化器分别对 Moonlight@1.2T 和 Moonlight-A@1.2T 进行了微调
  • 这些模型在开源的 tulu-3-sft-mixture 数据集(2024)上微调了两个 epoch,数据序列长度为 4k
  • 学习率采用线性衰减计划,从 \(5 \times 10^{-5}\) 逐渐降至 0
  • 结果如表 6 所示,Moonlight@1.2T 的表现优于 Moonlight-A@1.2T
SFT with Muon on public pretrained models
  • 论文进一步将 Muon 应用于公开预训练模型 Qwen2.5-7B 基础模型(2024)的 SFT ,使用了开源的 tulu-3-sft-mixture 数据集(2024)
  • 数据集以 8k 序列长度打包,论文采用了余弦衰减学习率计划,从 \(2 \times 10^{-5}\) 逐渐降至 \(2 \times 10^{-6}\)
  • 结果如表 7 所示: Muon 微调模型的性能与 Adam 微调模型相当
  • 这些结果表明,为了获得最佳性能,在预训练阶段应用 Muon 比在监督微调阶段更有效

Discussions

  • 未来研究有几个可能的方向可以进一步探索和扩展当前的发现
  • 将所有参数纳入 Muon 框架(Incorporating All Parameters into the Muon Framework) :
    • 目前,Muon 优化器与 Adam 优化器结合使用,某些参数仍由 Adam 优化
    • 这种混合方法虽然可行,但仍有改进空间
    • 将所有参数优化完全集成到 Muon 框架中是一个重要的研究方向
  • 将 Muon 扩展到 Schatten 范数(Extending Muon to Schatten Norms) :
    • Muon 优化器可以解释为谱范数下的最陡下降法
    • 鉴于 Schatten 范数的广泛适用性和多功能性,将 Muon 扩展到一般 Schatten 范数是一个有前景的方向
    • 这一扩展可能解锁额外的优化能力,并可能产生优于当前基于谱范数实现的结果
  • 理解和解决预训练与微调的不匹配(Understanding and Solving the Pretraining-Finetuning Mismatch) :
    • 在实践中观察到一个显著现象,使用 AdamW 预训练的模型在使用 Muon 微调时表现不佳,反之亦然
    • 这种优化器不匹配对有效利用大量 AdamW 预训练检查点(训练 Muon)构成了重大障碍 ,因此需要进行严格的理论研究
    • 精确理解其底层机制对于设计稳健有效的解决方案至关重要

Conclusions

  • 在本技术报告中,论文全面研究了 Muon 在 LLM 训练中的可扩展性
  • 通过系统分析和改进,论文成功将 Muon 应用于一个 3B/16B 参数的 MoE 模型,训练了 5.7T token
  • 论文的结果表明,Muon 可以有效地替代 AdamW 作为大规模 LLM 训练的标准优化器,在训练效率和模型性能上均具有显著优势
  • 通过开源论文的实现、Moonlight 模型和中间训练检查点,作者希望促进可扩展优化技术的进一步研究,并加速 LLM 训练方法的开发

附录 A Update RMS

引理 1 的证明

  • 不失一般性,考虑正交矩阵 \( U \in \mathbb{R}^{n \times n} \) 和 \( V \in \mathbb{R}^{m \times m} \),其中 \( n \geq m \geq r \)
  • 论文将证明对于 \( X = U_{[:,:r]} V_{[:r,:]} \)(Muon 的更新具有相同形式),其均方根值为 \( \sqrt{r/mn} \)
    • 注:\( X^{n\times m} = {U_{[:,:r]}}^{n \times r} \cdot {V_{[:r,:]}}^{r \times m} \)
  • 根据矩阵乘法的定义:
    $$ X_{i,j} = \sum_{k=1}^{r} U_{i,k} V_{k,j} $$
    • 仅考虑 \(r\) 之前的值
  • 均方根可以表示为:
    $$
    \begin{align}
    \text{RMS}(X^{n\times m})^2 &= \frac{1}{mn} \sum_{i=1}^{n} \sum_{j=1}^{m} X_{i,j}^2 \\
    &= \frac{1}{mn} \sum_{i=1}^{n} \sum_{j=1}^{m} \sum_{k=1}^{r} U_{i,k}^2 V_{k,j}^2 \\
    &= \frac{1}{mn} \sum_{k=1}^{r} \left( \sum_{i=1}^{n} U_{i,k}^2 \right) \left( \sum_{j=1}^{m} V_{k,j}^2 \right) \\
    &= \frac{1}{mn} \sum_{k=1}^{r} 1 \\
    &= \frac{r}{mn}
    \end{align}
    $$
    • 注:\( U \in \mathbb{R}^{n \times n} \) 是正交矩阵,有 \(\sum_{i=1}^{n} U_{i,k}^2 = 1\)
      • 证明:\(U^\top U = I\),从而 \(\sum_{i=1}^{n} U_{i,k}^2 = 1\) 是一个对角线元素
  • 因此,\( \text{RMS}(X) = \sqrt{r/mn} \)
  • 对于常见的满秩矩阵情况,\( r = m \),此时 \( \text{RMS}(X) = \sqrt{1/n} \)

Muon 与 AdamW 的更新均方根一致性

  • 如 2.2 节所述,作者希望匹配 Muon 和 AdamW 优化器的更新均方根
  • 这一假设通过小规模模型实验得到验证(问题:为什么刚好匹配 AdamW 优化器的均方根更好?)
  • 论文将 Muon 的更新均方根设置为 \([0.05, 0.1, 0.2, 0.4, 0.8]\),并以 AdamW 为基线
  • 表 8 展示了在 2k 步(约 20 亿 token)时的损失和代表性权重矩阵的均方根结果
  • 实验表明,0.2 和 0.4 的均方根设置表现相似且显著优于其他设置
  • 这与论文观察到的 AdamW 更新均方根范围(0.2 至 0.4)一致,因此论文选择将 Muon 的更新均方根控制在 0.2

附录 B AdamW Baseline Scaling Law

  • 为确保实验的公平性和准确性,论文在专有数据集上进行了一系列实验,以确定 AdamW 的最优缩放定律参数
  • 这包括在计算预算(FLOPs,\( C \))约束下,确定最优模型大小(\( N \))、训练 token 数量(\( D \))、学习率(\( \eta \))和批大小(\( B \))(2022;2020)
  • 表 9 展示了论文系统参数搜索的结果
  • 超参数搜索 :为系统性地确定 AdamW 基线的最优缩放定律超参数,论文采用了多阶段搜索协议
    • 首先,根据先前研究的经验准则,选择多个计算预算(FLOPs 级别),并初始化模型大小、学习率和批大小
      • 对于每个固定的 FLOPs 约束 ,论文调整模型大小 \( N \) ,同时反向调整训练 token 数量 \( D \) ,以保持 \( C = 6ND \) ,从而探索模型容量与数据效率之间的权衡
      • 每种配置训练至收敛,并记录验证损失以确定 \( N \) 和 \( D \) 的帕累托最优组合
    • 随后,固定最优的 \( N-D \) 对 ,通过网格搜索优化学习率和批大小 ,确保配置的稳定性和收敛性
    • 为减少局部最优并增强鲁棒性,此迭代过程重复 2-3 次,逐步缩小超参数空间
      • 问题:重复 2-3 次的目的是什么?具体重复了哪些步骤?
  • 图 5 进一步展示了优化过程,描绘了不同 FLOPs 预算下损失随训练 token、学习率和批大小的变化情况
    • 每个碗形曲线代表特定 FLOPs 级别的损失曲面,其全局最小值对应最优超参数配置

附录 C Model Architecture

  • Muon 对模型架构无特定要求,论文采用了与 Deepseek-V3-Small(DeepSeek-2024)相似的模型,因为其作为基线模型具有开放的权重
  • 论文在 Moonlight 模型中进行了几处小修改,具体如下:
  • 多 token 预测(Multi-token Prediction, MTP)
    • MTP 在论文的实验中未显示出对预训练的显著益处
    • 为简化,Moonlight 模型未引入 MTP 层
  • 无偏置更新(Auxfree Bias Update)
    • 在 DeepSeek-V3-Small 中,无偏置更新通过以下公式实现:
      $$ b_i = b_i + u \times \text{sign}(e_i) $$
      • \( u \) 为更新比例
      • \( b_i \) 为第 \( i \) 个专家的偏置
      • \( e_i \) 为专家的违反比例
    • 论文略微修改了更新规则:
      $$ b_i = b_i + u \times (\text{sign}(e_i) - \text{sign}(e).\text{mean}()) $$
      • \( \text{sign}(e).\text{mean}() \) 为所有专家违反比例符号的平均值,以控制偏置的幅度,同时不改变 topk 选择逻辑
  • 门控缩放因子(Gate Scaling Factor)
    • Deepseek-V2-Lite 未使用门控缩放因子,而 Deepseek-V3 使用了 2.5 的缩放因子
    • 论文采用 2.44 的缩放因子以控制与密集模型相似的输出均方根
    • 计算门控缩放因子的代码如图 6 所示

附录 D Training Stability

  • 无损失或梯度范数尖峰 :Moonlight 的训练过程非常平稳,未出现损失或梯度范数尖峰
    • 损失和梯度范数曲线如图 7 所示(Moonlight 为蓝色,AdamW 训练的 Moonlight-A 为红色)
  • 最大注意力对数(Max Attention Logit) :在训练过程中,论文观察到尽管训练损失和梯度范数始终保持稳定,但在某些层的初始训练阶段,最大注意力对数(全局批次中最大的对数值)明显上升,超过阈值 100
    • 值得注意的是,AdamW 在控制这一指标上表现更优
    • 为进一步研究这一现象的影响,论文引入了大注意力对数比例指标,定义为批次中超过 100 的注意力对数比例
      • 如图 7 所示,该比例始终保持在较低水平(约 \( 10^{-4} \)),表明极端大的对数值是稀疏的
      • 此外,随着训练的进行,最大对数值逐渐下降,表明优化动态趋于健康
  • RMSNorm 伽马权重衰减(RMSNorm Gamma Weight Decay) :值得注意的是,对 RMSNorm 伽马参数应用权重衰减对确保训练稳定性至关重要,因为它能有效防止每层输出均方根过高

附录 E Comparison with More Expensive Models

  • 表 10 对比了论文的 Moonlight 模型(使用 Muon 优化)与公开可用的更高计算资源训练的模型,包括 LLama3.1-8B(2024)、Gemma-9B(Gemma 2024)和 Qwen2.5-7B(2024)
  • 图 8 展示了 Moonlight 与同类模型在 GSM8k 性能基准上的对比

附录 F Singular Value Distributions of Weight Matrices

  • 论文通过绘制每个矩阵奇异值的降序排列线图来可视化权重矩阵的奇异值分布,并将其归一化为最大值
  • 如图 9 和图 10 所示,论文发现对于大多数权重矩阵,Muon 优化的奇异值分布比 AdamW 更平坦,进一步验证了 Muon 能提供更多样化的更新谱的假设

NLP——BLEU指标和ROUGE指标


BLEU 和 ROUGE 指标整体说明

  • 在 NLP 领域,BLEU (Bilingual Evaluation Understudy) 和 ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 指标广泛应用于机器翻译和文本摘要任务中
  • 核心思路:BLEU 和 ROUGE 通过比较模型生成的文本与人工参考文本之间的相似性来衡量文本质量
  • 这两个指标通常没有严格的、官方的中文名,在中文学术界和工业界,大家普遍直接使用它们的英文缩写
    • BLEU :通常直接称为 BLEU 值 或 BLEU 分数
      • 注:BLEU 全称 Bilingual Evaluation Understudy 可以直译为“双语评估替补”(Understudy 常翻译为“替补”含义),但这种直译并不常用
    • ROUGE :通常直接称为 ROUGE 值 或 ROUGE 分数
      • 注:ROUGE 全称 Recall-Oriented Understudy for Gisting Evaluation 可以直译为“面向召回的摘要评估替补”(Gisting 翻译为“摘要”),这种直译也很少被使用
  • BLEU :精确率(Precision)导向,常用于机器翻译 ,关注生成文本的忠实度
  • ROUGE :召回率(Recall)导向,常用于文本摘要 ,关注生成文本对参考文本信息的覆盖度
  • 两者都是衡量文本相似性的重要指标,但它们的侧重点和适用场景有所不同。在实际应用中,通常会结合使用多种评估指标来全面评估模型性能

BLEU 指标

  • 音标:/bluː/(类似英文单词 “blue” 的发音)
  • BLEU 主要用于评估机器翻译的质量,侧重于精确率 (Precision)
  • 核心思想:机器翻译的文本与人工翻译的参考文本越相似 ,其质量越高
  • 计算方式: BLEU 的计算涉及以下几个步骤:
  • 第一步:N-gram 精度 (N-gram Precision) :
    • 首先,将候选翻译和参考翻译都进行分词
    • 计算不同长度的 N-gram(例如,unigram (1-gram), bigram (2-gram), trigram (3-gram), 甚至 higher N-grams,通常到 4-gram)
    • 对于每个 N-gram 长度 \(n\),计算修改后的 N-gram 精度 \(p_n\)
      • 注:修改后的精度是为了避免候选翻译中重复词语过多而导致分数虚高,比如全都翻译为 \(the\) 这种常见词语,可能导致 N-gram 精度虚假的被为“100%”
      • 修改动作:通过计算候选翻译中与参考翻译匹配的 N-gram 数量,并将其限制(裁剪)为该 N-gram 在任何一个参考翻译(可能有多个参考翻译,命中任意翻译都算正确)中出现的最大次数
    • 公式为:
      $$p_n = \frac{\sum_{C \in \text{Candidates}} \sum_{\text{n-gram} \in C} \text{Count}_{\text{clip}}(\text{n-gram})}{\sum_{C’ \in \text{Candidates}} \sum_{\text{n-gram}’ \in C’} \text{Count}(\text{n-gram}’)}$$
      • \(\text{Count}_{\text{clip}}(\text{n-gram})\) 是 N-gram 在候选翻译中出现并被限制为在参考翻译中最大出现次数的计数
      • \(\text{Count}(\text{n-gram}’)\) 是 N-gram 在候选翻译中出现的总计数
      • 理解:相当于统计候选翻译的所有 N-gram 数量,看命中参考翻译 N-gram 精确度是多少(在参考翻译中存在则视为准确,否则不准确)
  • 第二步:短句惩罚 (Brevity Penalty, BP) :
    • N-gram 精度 倾向于奖励更短的翻译,因为它的分母更小(比如只翻译一个 “the”,N-gram 精度为100%)
    • 为了惩罚那些过短的翻译(即使它们完美匹配了部分 N-gram),引入了短句惩罚
    • 如果候选翻译的总长度 \(c\) 小于参考翻译中最接近的参考长度 \(r\),则应用惩罚
    • 公式为:
      $$BP = \begin{cases}
      1 & \text{if } c > r \\
      e^{(1 - r/c)} & \text{if } c \le r
      \end{cases}$$
      • 长度比参考文本短越多,惩罚越大
  • 第三步:最终 BLEU 分数 :
    • 将不同 N-gram 长度的修改精度取对数,然后加权平均,再乘以短句惩罚
    • 公式为:
      $$\text{BLEU} = BP \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)$$
      • 其中,\(n\) 是最大 N-gram 长度(通常为 4),\(w_n\) 是每个 N-gram 长度的权重(通常均匀分配)
      • 实践经验:在实际使用时,一些特定的例子中可能出现高阶匹配不上而导致 BLEU 分数为 0(比如 4-gram 匹配数量为0,这时候看起来取对数的精度会几乎为负无穷),此时可以 NLTK 库中通过 smoothing_function 传入一些平滑策略来解决问题
    • 通常,每个 N-gram 长度的权重是 \(\frac{1}{N}\)(例如,对于 1-gram 到 4-gram,每个权重为 0.25)
      • 该值在 NLTK 库的 sentence_bleu 中是可以通过参数修改的

代码实现 (使用 NLTK 库):

  • 基于 NLTK 库实现 BLUE 值统计
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    from nltk.translate.bleu_score import sentence_bleu # 评估句子
    # from nltk.translate.bleu_score import corpus_bleu # 对于 corpus_bleu,可以评估整个语料库
    from nltk.tokenize import word_tokenize
    import nltk

    nltk.download('punkt_tab') # 若本地不存在该库,这里会从远程下载,'punkt_tab' 数据包包含了 Punkt 分词器(Tokenizer)所需的预训练模型数据

    def calculate_bleu(reference, candidate):
    """
    计算单个候选句子的BLEU分数
    :param reference: 一个参考句子列表,每个参考句子是一个词语列表
    例如:[['this', 'is', 'a', 'test'], ['this', 'is', 'test']]
    :param candidate: 一个候选句子,是一个词语列表
    例如:['this', 'is', 'a', 'test']
    :return: BLEU分数
    """
    # NLTK 的 sentence_bleu 函数期望参考是列表的列表,候选是列表
    # 如果只有一个参考,也要将其包装在列表中:[reference_sentence]
    # 如果有多个参考,则直接传入参考列表

    # 示例:
    # reference = [['The', 'cat', 'sat', 'on', 'the', 'mat'], [...], ...]
    # candidate = ['The', 'cat', 'was', 'on', 'the', 'mat']
    # score = sentence_bleu(reference, candidate)

    # 实际使用时,通常对文本进行分词
    tokenized_reference = [word_tokenize(ref) for ref in reference]
    tokenized_candidate = word_tokenize(candidate) # 分词结果:['The', 'cat', 'was', 'on', 'the', 'mat', '.']

    # NLTK 提供了 weights 参数来控制不同 N-gram 的权重,默认是 (0.25, 0.25, 0.25, 0.25)
    score = sentence_bleu(tokenized_reference, tokenized_candidate)

    # weights = [1,0,0,0] # 为不同 n-gram 设置不同的权重
    # score = sentence_bleu(tokenized_reference, tokenized_candidate, weights=weights)
    return score

    # 示例
    references = [
    "The cat is on the mat.",
    "There is a cat on the mat.",
    "A cat sat on the mat."
    ]
    candidate = "The cat was on the mat."

    bleu_score = calculate_bleu(references, candidate) # 实现:先分词,再评估 n-gram
    print(f"BLEU Score: {bleu_score}")

    # BLEU Score: 0.488923022434901

BLEU 使用说明

* BLEU 倾向于精确率,对于短的(已经有惩罚了)、精确匹配的句子可能给出高分,但可能忽略了语义的完整性或流畅性
* 更多的参考翻译通常会提高 BLEU 分数
* BLEU 在单句评估上指标不太稳定(修改单个单词可能出现非常大的变化),更适合评估整个语料库的平均表现

ROUGE 指标

  • 音标:/ruːʒ/(类似法语单词 “rouge”)
  • ROUGE 主要用于评估文本摘要的质量,侧重于召回率 (Recall)
  • 核心思想:模型生成的摘要包含了多少人工参考摘要中的重要信息
  • ROUGE 有多种变体,最常用的是:
    • ROUGE-N :基于 N-gram 的重叠
      • ROUGE-1 :Unigram(单个词)的召回率
      • ROUGE-2 :Bigram(两个词序列)的召回率
    • ROUGE-L :基于最长公共子序列 (Longest Common Subsequence, LCS) 的召回率
      • 它不要求 N-gram 必须连续,但要求保持相对顺序,更能捕捉句子的结构相似性
    • ROUGE-SU :基于跳跃二元组 (Skip-bigram) 和 unigram 的重叠,允许 N-gram 中间跳过词语
  • 计算方式: 以 ROUGE-N 为例(其他变体类似,但匹配方式不同):
  • 召回率 (Recall) :
    $$R_{\text{N}} = \frac{\sum_{\text{n-gram} \in \text{Ref}} \text{Count}_{\text{match}}(\text{n-gram})}{\sum_{\text{n-gram} \in \text{Ref}} \text{Count}(\text{n-gram})}$$
    • \(\text{Count}_{\text{match}}(\text{n-gram})\) 是在候选摘要和参考摘要中都出现的 N-gram 数量
    • \(\text{Count}(\text{n-gram})\) 是参考摘要中 N-gram 的总数量
  • 精确率 (Precision) :
    $$P_{\text{N}} = \frac{\sum_{\text{n-gram} \in \text{Cand}} \text{Count}_{\text{match}}(\text{n-gram})}{\sum_{\text{n-gram} \in \text{Cand}} \text{Count}(\text{n-gram})}$$
    • \(\text{Count}_{\text{match}}(\text{n-gram})\) 同上
    • \(\text{Count}(\text{n-gram})\) 是候选摘要中 N-gram 的总数量
  • F1 分数 (F1-score) :通常使用 F1 分数来综合召回率和精确率
    $$F_1 = \frac{(1 + \beta^2) \cdot P \cdot R}{\beta^2 \cdot P + R}$$
    • \(\beta\) 通常取 1,表示精确率和召回率同等重要,此时 \(F_1 = \frac{2 \cdot P \cdot R}{P + R}\)
  • ROUGE-L (LCS-based): ROUGE-L 的计算基于最长公共子序列 (LCS) 的长度
    • \(LCS(X, Y)\) 表示序列 \(X\) 和 \(Y\) 的最长公共子序列的长度
    • 召回率:
      $$R_{LCS} = \frac{LCS(\text{candidate}, \text{reference})}{\text{length}(\text{reference})}$$
    • 精确率:
      $$P_{LCS} = \frac{LCS(\text{candidate}, \text{reference})}{\text{length}(\text{candidate})}$$
    • F1 分数:
      $$F_{LCS} = \frac{2 \cdot P_{LCS} \cdot R_{LCS}}{P_{LCS} + R_{LCS}}$$

代码实现 (使用 rouge-score 库)

  • rouge-score 是一个常用的 Python 库,用于计算 ROUGE 分数
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    from rouge_score import rouge_scorer

    def calculate_rouge(reference, candidate):
    """
    计算 ROUGE-1, ROUGE-2, ROUGE-L 分数
    :param reference: 参考摘要字符串
    :param candidate: 候选摘要字符串
    :return: 包含 ROUGE 分数的字典
    """
    # scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL', 'rougeLsum'], use_stemmer=True)
    # 通常使用 rouge1, rouge2, rougeL
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=False)
    # use_stemmer=True 可以对词语进行词干化,可能会影响结果,取决于具体需求,例如 "running" 和 "ran" 可能会被视为匹配

    scores = scorer.score(reference, candidate)

    # scores 返回的是一个字典,例如:
    # {'rouge1': Score(precision=..., recall=..., fmeasure=...),
    # 'rouge2': Score(precision=..., recall=..., fmeasure=...),
    # 'rougeL': Score(precision=..., recall=..., fmeasure=...)}

    # 我们可以提取 F-measure 分数
    result = {}
    for key, score in scores.items():
    result[key] = {
    'precision': score.precision,
    'recall': score.recall,
    'fmeasure': score.fmeasure
    }
    return result

    # 示例
    reference_summary = "The quick brown fox jumps over the lazy dog."
    candidate_summary = "The quick brown fox jumps on the log."

    rouge_scores = calculate_rouge(reference_summary, candidate_summary)

    for metric, scores in rouge_scores.items():
    print(f"{metric.upper()}:")
    print(f" Precision: {scores['precision']:.4f}")
    print(f" Recall: {scores['recall']:.4f}")
    print(f" F-measure: {scores['fmeasure']:.4f}")

    # ROUGE1:
    # Precision: 0.7500
    # Recall: 0.6667
    # F-measure: 0.7059
    # ROUGE2:
    # Precision: 0.5714
    # Recall: 0.5000
    # F-measure: 0.5333
    # ROUGEL:
    # Precision: 0.7500
    # Recall: 0.6667
    # F-measure: 0.7059

ROUGE 使用说明

  • ROUGE 更侧重召回率,因此对于生成式摘要任务更为适用,因为摘要通常比原文短,我们更关心模型是否捕捉到了原文的关键信息
  • ROUGE-L 能够更好地处理词序变化 ,因为它基于最长公共子序列
  • ROUGE-N(特别是 ROUGE-1 和 ROUGE-2)是最常用的 ROUGE 变体

附录:NLTK 库中 BLEU 平滑策略

  • method0(): 无平滑 (No smoothing)
  • method1(): 添加epsilon计数 (Add epsilon counts)
  • method2(): 添加1到分子和分母 (Add 1 to both numerator and denominator)
  • method3(): NIST 几何序列平滑 (NIST geometric sequence smoothing)

NLP——稀疏化Attention之SWA-NSA-MoBA

  • 参考链接:
    • 稀疏化Attention:SWA->NSA->MoBA * 假如给我一只AI的文章 * 知乎

整体说明

  • 稀疏化注意力机制(Sparse Attention)旨在解决传统注意力机制(如 Transformer 中的 Full Attention)在长序列处理时计算复杂度高(\(O(N^2)\))的问题
  • 本文是稀疏化注意力机制从 SWA(Sparse Wave Analysis)到 NSA(Native Sparse Attention)再到 MoBA(Mixture of Block Attention)的改进过程
  • 稀疏注意力机制的设计核心:
    • 通过稀疏表示、动态分层策略和块注意力混合,逐步降低了长序列处理的计算复杂度
    • 针对硬件进行优化,NSA 和 MoBA 均针对现代硬件进行了优化,显著提升了计算速度
    • 关注性能与效率的平衡,在保持模型性能的同时,减少计算资源和内存占用

SWA(Sparse Wave Analysis)

  • SWA 是一种基于稀疏波数分析的方法,最初应用于信号处理领域,用于恢复多模态和色散特性。其核心思想是通过稀疏表示(Sparse Representation)来减少计算量,同时保持对关键信息的捕捉。SWA通过压缩感知技术,利用信号的稀疏性,从有限的数据中恢复出完整的频率-波数表示,从而减少计算复杂度
  • SWA 的核心特点 :
    • 利用信号的稀疏性,减少计算量
    • 适用于多模态和频率分散的场景
    • 通过优化策略(如基底追踪去噪)实现高效恢复
  • SWA 主要针对信号处理领域,未直接应用于大语言模型
  • SWA 缺乏对长上下文建模的针对性优化

NSA(Native Sparse Attention)

  • NSA 由 DeepSeek 提出,是一种针对大语言模型的稀疏注意力机制。NSA通过动态分层稀疏策略,结合粗粒度的 Token 压缩和细粒度的 Token 选择,显著降低了长序列处理的计算复杂度,同时保持了模型性能
  • NSA 的核心改进包括:
    • 动态分层稀疏策略 :通过粗粒度压缩和细粒度选择,兼顾全局上下文和局部信息的精确性
    • 硬件优化 :算法设计与现代硬件对齐,显著提升计算速度
    • 端到端可训练 :支持从预训练到推理的全流程优化,减少计算量
  • 在长文本任务和指令推理中,NSA 的性能优于 Full Attention,且计算速度大幅提升
  • NSA 虽然能效率提升显著,但在某些复杂任务中,稀疏策略可能导致信息丢失

MoBA(Mixture of Block Attention)

  • MoBA 由月之暗面提出,是一种混合块注意力机制,灵感来源于 MoE(Mixture of Experts)结构
  • MoBA 通过将注意力计算限制在最相关的上下文块中,进一步优化了计算效率
  • MoBA 支持全注意力和稀疏注意力的自由切换
  • MoBA 的核心改进:
    • 块注意力混合 :将长序列划分为多个块,仅对最相关的块进行计算,减少冗余计算
    • 灵活切换 :支持全注意力和稀疏注意力的动态切换,适应不同任务需求
    • 高效训练 :MoBA v2在短文本和长文本任务中均表现出色,且训练过程稳定
  • 在长上下文建模中,MoBA 显著降低了计算开销,同时保持了模型性能
  • MoBA 还表现出良好的扩展性和稳定性
  • 缺点是块划分策略需要精细设计,否则可能影响模型对全局上下文的理解

NLP——认识RWKV

前言:RWKV 作为挑战 Transformer 架构的国人开源项目,有前景,本文先简单介绍,有时间回来详细补课


整体说明

  • RWKV,全称 Receptance Weighted Key Value,中文名元始智能 ,是一种语言模型架构(由纯中国团队开发的,开源的语言架构)
  • TLDR:RWKV 结合了 RNN 和 Transformer 的优势
    • 传统 Transformer:计算复杂度随序列长度呈现二次方,且随着序列长度变长显存也一直在增长
    • RWKV 的核心思路:通过线性注意力机制和循环结构实现高效的并行训练与推理,同时保持 RNN 的低显存占用和恒定推理速度,还自然地做到了长度外推
  • 作者是 Bo Peng,知乎主页:PENG Bo
  • 评价:RWKV 作为首个中国纯字眼开源的非 Transformer 架构大模型,凭借高效的计算设计和持续的技术迭代,已在自然语言处理领域占据一席之地(开源社区活跃)
  • 其动态状态演化机制(如 RWKV-7)和多语言能力使其在长文本处理和低显存场景上具有显著优势
  • 期待 RWKV 成为替代 Transformer 架构的下一代语言模型架构

RWKV 核心优势和亮点

  • 线性复杂度 :计算复杂度为 \(O(Td)\)(\(T\) 为序列长度,\(d\) 为特征维度),显著低于Transformer的\(O(T^2)\)
    • 支持处理“无限”上下文长度,尤其适合长文本生成和多轮对话
  • 低资源消耗 :显存占用恒定

RWKV 主要架构版本迭代

  • RWKV-1/2/3 :从2021-2022年开始,逐步发布了前置版本,不是很成熟
  • RWKV-4(2023年):首个成熟版本,通过 Token-shift 技术实现循环与并行训练的结合,性能与同规模 Transformer 相当,论文被 EMNLP 2023 收录
  • RWKV-5/6(2024年):引入矩阵值状态和动态机制,提升长序列处理能力,如 RWKV-6-World-14B 在多语言评测中超越 Llama2 13B
  • RWKV-7(2025年):最新架构,采用动态状态演化(Dynamic State Evolution),超越传统注意力范式,支持持续学习和更复杂的上下文理解。例如,RWKV-7-World-2.9B在MMLU测试中得分54.56%,显著优于前代模型

RWKV 发展的时间线

  • 2020 年,BlinkDL 开始研究 Transformer,发现引入显式 decay 和 Token-shift 两个改进方向
  • 2021 年 8 月,RWKV 架构初版 RWKV-V1 被提交到 RWKV-LM 仓库
  • 2022 年,RWKV-V2 版本首次为 RWKV 实现 RNN 模式;2022年底,发布首个模型
  • 2023 年 6 月,RWKV 正式成立商业公司;2023 年 9 月 20 日,开源项目正式加入 Linux 开源基金会;2023 年 10 月,RWKV-4 架构论文被 EMNLP 2023 收录
  • 2024 年 7 月 19 日,RWKV 开源基金会宣布向全球开放 RWKV-6-World-14B 模型(超过 Llama2 13B);12 月,完成数千万人民币天使轮融资
  • 2025 年 2 月 22 日,参加在上海举办的首届 “RWKV-7 架构与未来趋势” 开发者大会
  • 注:目前团队从 3 人扩展至近 20 人,2024 年获天际资本数千万人民币天使轮融资,用于技术迭代和产品落地

RWKV 当前的缺点

  • 提示词敏感性 :基底模型对提示格式较为敏感,需优化输入顺序以提升生成质量
  • 回顾性任务局限 :在需要回溯前文的任务中表现较弱,需通过提示工程或微调弥补

NLP——Agentic-Design-Patterns-阅读笔记

  • 参考链接:
    • 原始书籍地址:Agentic Design Patterns,20250911
    • 中文版 PDF 地址:智能体设计模式
    • 中文在线阅读地址:智能体设计模式(在线阅读)
    • 英文版 PDF 地址:github.com/sarwarbeing-ai/Agentic_Design_Patterns

简单介绍

  • 本书发布日期是 20250911,作者是 Antonio Gulli

前置讨论


第一章:

NLP——ASearcher

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(ASearcher)Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL, 20250811 & 20250813 & 20250910, THU, Ant Research
    • GitHub 开源:github.com/inclusionAI/ASearcher

Paper Summary

  • 论文核心:介绍了一个用于大规模 RL 训练搜索智能体的开源项目 ASearcher
    • 论文的贡献包括一个完全异步的智能体 RL 训练系统和一个用于大规模高质量问答对构建的数据合成智能体
    • 实验验证 ASearcher 在不同的模型规模和评估设置下均优于 SOTA 开源智能体
      • 包括 Qwen2.5-7B、Qwen2.5-14B 的基础模型
      • QWQ-32B(基于提示)的 LLM 智能体
  • 背景信息:LLM-based LLM 集成了外部工具,在处理复杂的、知识密集型任务方面展现出了卓越的能力
    • 在众多工具选择中,搜索工具 (search tools) 在访问海量外部知识方面扮演着关键角色
  • 问题提出:
    • 但开源智能体在实现专家级的(expert-level)搜索智能 (Search Intelligence)方面仍然存在不足
      • 搜索智能 即解决模糊 Query 、生成精确搜索、分析结果并进行彻底探索的能力
    • 现有方法在可扩展性、效率和数据质量方面存在缺陷
      • 例如,现有 Online RL 方法中的小步数限制(例如 \(\leq 10\))限制了复杂策略的学习
  • 论文的主要贡献包括:
    • (1) 可扩展的完全异步 RL 训练 (Scalable fully asynchronous RL training) ,能够在保持高训练效率的同时实现长视野搜索 (long-horizon search)
    • (2) 一个基于提示的 LLM 智能体 (prompt-based LLM agent) ,能够自主合成高质量且具有挑战性的问答对 (QA),创建大规模 QA 数据集
  • 通过 RL 训练,论文基于提示的 QwQ-32B 智能体取得了显著改进,在 xBench 和 GAIA 上的 Avg@4 指标分别提升了 46.7% 和 20.8%
  • 论文的智能体表现出极长的视野搜索能力,在训练期间工具调用次数超过 40 步,输出 Token 数超过 150k
  • 通过简单的智能体设计且无需外部 LLM,ASearcher-Web-QwQ 在 xBench 和 GAIA 上分别取得了 42.1 和 52.8 的 Avg@4 分数,超越了现有的开源 32B 智能体
  • 论文已在 github.com/inclusionAI/ASearcher 开源论文的模型、训练数据和代码

Introduction and Discussion

  • LLM-based LLM 的最新进展表明
    • 通过利用单个或多个外部工具 (2024; 2025;),Agent 在解决复杂的、知识密集型问题方面具有卓越能力
  • 其中,搜索工具 (search tools) 尤为关键,它使智能体能够访问海量外部知识以增强问题解决能力 (2023; 2024; 2025)。然而,专家级地使用搜索需要高级智能
    • 例如,考虑这个问题:“截至 2024 年 12 月 31 日,中国在 2012 年伦敦奥运会上获得的金牌、银牌和铜牌数量分别是多少?”
      • 这个问题看似简单,但实际上具有挑战性,因为网络上存在相互矛盾的答案(例如,“38 金、27 银、22 铜” vs “39 金、31 银、22 铜”)
    • 一个搜索智能体必须从不同来源中筛选噪声和矛盾的答案,识别冲突的根本原因(例如官方报告中因兴奋剂检测不合格而被取消资格),并最终确定正确答案
  • 具有挑战性的现实世界任务要求智能体能够解决输入 Query 中的高度不确定性、生成精确的搜索 Query 、从海量数据中分析和提取关键见解、解决不一致性并进行深入探索
    • 论文将这种高级能力称为 “搜索智能 (Search Intelligence)”
  • 专有智能体和模型已经通过大规模 RL 训练 (2025;) 展现出复杂的搜索行为迹象
    • 但用于开发搜索智能体的开源方法仍然面临显著限制
    • 一系列工作采用强化学习 或监督微调 方法来激励工具使用能力 (2025;)
  • 基于提示的 LLM 智能体 (prompt-based LLM agents) 可以在无需训练的情况下执行大量工具调用 (2025;)
    • 但在实践中,论文发现现有的 Online RL 方法未能激励复杂且有效的搜索策略
    • 论文还发现基于提示的 LLM 智能体可能会因为 LLM 能力不足而失败
      • 例如无法从噪声网页中精确提取关键信息,以及无法验证错误结论
  • 最近一些工作进一步在基于提示的 LLM 智能体基础上,利用 Offline RL 方法来改进这些智能体 (2025;)
    • 但这种 Offline RL 范式在更广泛的领域中被证明表现不如 Online RL (2024; 2021; 2024)
  • 在数学和代码等推理任务中,Online RL 使得模型能够基于正确性反馈迭代优化推理过程,从而演化出复杂行为 (2025;)
    • 这引出了一个关键问题:Online RL 方法如何有效地在开源智能体中解锁搜索智能?
  • 论文识别了两个阻碍搜索智能体有效进行 Online RL 训练的关键障碍:
    • 搜索步数不足限制了复杂策略的学习
      • 现有工作,例如 Search-R1 (2025),人为限制了搜索步数,例如每条轨迹 \(\leq 10\) 步,这阻止了智能体探索更深的搜索路径
      • 但复杂的 Query 通常需要多轮工具调用和多步推理,这在严格的步数限制下无法学习
    • 缺乏大规模、高质量的问答对 (question-answer, QA pairs):
      • 推理任务的 RL 训练需要丰富、具有挑战性且正确的 QA 对 (2025;)
      • 但大多数现有的用于搜索智能体的开源数据集往往过时(例如 HotpotQA)、过于简化或规模太小,无法通过 RL 激发复杂的搜索行为 (2018; 2020; 2025;)
  • 为了应对这些挑战,论文提出了 ASearcher,一个旨在为搜索智能体实现大规模智能体 RL 训练 (large-scale agentic RL training) 的开源项目。论文的贡献包括:
    • 通过完全异步智能体 RL 训练实现长视野搜索
      • 在批生成 RL 训练系统 (2025;) 中设置较大的步数限制时,批次内的长轨迹很容易导致显著的闲置时间,从而减慢整个训练过程
      • 基于 AREaL (2025),论文的完全异步系统通过将轨迹执行与模型更新解耦,避免了长轨迹阻塞训练
      • 这允许放宽步数限制(例如,128 步/轨迹),使得智能体能够在不牺牲训练效率的情况下探索更深的搜索路径
      • 论文的智能体 ASearcher-Web-QwQ 实现了极长的视野搜索,在 RL 训练期间工具调用次数超过 40 步,生成的 Token 数超过 150k
    • 一个可扩展的 QA 合成智能体
      • 论文设计了一个 LLM-based 智能体,能够自主生成需要多轮工具使用的具有挑战性、不确定性和事实依据的 (challenging, uncertain, and grounded) QA 对
      • 从种子问题开始,该智能体通过模糊关键信息或注入外部事实来迭代地模糊查询 (fuzzes queries) 以增加复杂性
      • 每个构建的问题都经过多阶段验证 (multistage validation) 以确保质量和难度
      • 论文从 14k 个种子 QA 中生成了 134k 个高质量样本,其中 25.6k 个需要借助外部工具来解决
  • 使用 ASearcher,论文在两种设置下训练配备搜索引擎和浏览器的智能体:
    • 从基础模型开始进行 RL 训练 (Qwen2.5-7B/14B),以证明论文的训练流程能够激励强大且可泛化的搜索策略;
    • 微调由强大 LRM (QwQ-32B) 驱动的基于提示的智能体 ,以验证论文的训练流程在微调大规模基于提示的 LLM 智能体时的可扩展性
  • 论文在多跳 QA 基准测试和具有挑战性的基准测试上评估论文的智能体
    • 包括 GAIA (2023)、xbench-DeepSearch (2025) 和 Frames (2024)
  • 仅使用本地知识库训练的 ASearcher-Local-7B/14B,在现实的网络搜索中展现出惊人的泛化能力,并在多跳和单跳 QA 任务上达到了 SOTA 性能
    • 基于 QwQ-32B 构建的 ASearcher-Web-QwQ 在 xBench-DeepSearch 和 GAIA 上分别取得了 42.1 和 52.8 的 Avg@4 分数,超越了一系列开源智能体
    • 在评估 Pass@4 时,ASearcher-Web-QwQ 在 GAIA 和 xBench-DeepSearch 上分别达到了 70.1 和 68.0
    • 通过 RL 训练,ASearcher-Web-QwQ 在 xBench-DeepSearch 和 GAIA 上分别获得了 46.7% 和 20.8% 的提升
  • ASearcher 提出了一个面向基于 LRM 和 LLM 的搜索智能体的大规模开源在线智能体 RL 流程,通过可扩展的训练和高质量的数据解锁了搜索智能
    • 希望论文的发现不仅能推动搜索智能体的发展,也能为面向复杂现实世界任务的 LLM 智能体带来更广泛的创新启发

Limitations of Existing Open-source Approaches

  • 在本节中,论文针对一个来自 GAIA (2023) 的极具挑战性的问题进行了详细的案例研究
  • 具体来说,论文在图 3 中分析了 Search-R1-32B (2025) 和 Search-o1 (QwQ) (2025)
    • 详细的轨迹在附录 A 中提供

Solution Path of the Sample Question

  • 在图 3 中,论文的案例研究针对一个需要找到具有 4 个未知变量 的特定动物的问题
  • 为了识别正确答案,搜索智能体应首先根据条件“以哥本哈根命名的属 (genus named for Copenhagen)”找出所提及的物种
    • 根据该物种维基百科页面上的引文识别正确的 2021 年文章,然后找出两位提及人物的论文
  • 最终,正确答案应通过交叉引用 2021 年的文章和论文来确定;总而言之,这个例子具有挑战性的原因有几个:
    • 高不确定性 (High Uncertainty): 问题涉及多个未知变量,这些变量可能指向许多不同的实体
      • 例如,“2021 年的文章”可能指向 2021 年发表的任何文章,并且只能通过检查 肺泡物种 (alvei species) 维基百科页面中的“多中心、随机、双盲研究 (multicenter, randomized, double-blind study)”来确定
    • 需要精确的信息提取 (Requirement for Exact Information Extraction): 为了找到答案,智能体应列出网页上提到的所有动物并进行跨文档比较
      • 这要求智能体从海量、充满噪声的网页内容中精确提取关键信息,而不是简单地总结网页
    • 误导性答案 (Misleading Answers): 在解决此任务的过程中,可能会出现多个误导性答案(例如“猪 (pigs)”)
      • 智能体应通过检查所有相关网页和文档中的预期答案来严格验证其结论
  • 现有 Online RL 方法未能学习复杂搜索策略 (Existing Online RL Approaches Fail to Learn Complex Search Strategies)
    • 在图 3 中,Search-R1-32B 无法将复杂 Query 分解为单个组成部分,因此只能进行涉及太多未知信息的模糊 Query
      • 该智能体还存在严重的幻觉 (hallucinations),产生了搜索结果不支持结论
      • 最后,它未能解析所有未知信息
    • 这个案例研究表明,现有的 Online RL 方法仅能激励初级的搜索策略
    • 同样值得注意的是,由于在训练期间步数限制被设置为一个较小的值(例如 4 步)该模型仅表现出较短的工具使用视野
  • 基于提示的 LLM 智能体可能因 LLM 能力不足而失败 (Prompt-based LLM Agents Could Fail Due to Insufficient Capability of the LLM)
    • 在图 3 中,Search-o1 (QwQ) 可以通过大量工具调用找到物种名称,以及 2021 年的文章和相关论文
    • 但在试图寻找答案时,Search-o1 (QwQ) 很容易遗漏关键信息,从而得出错误的结论
      • 即使智能体找到了直接指向正确答案的信息,它仍然会被先前错误的结论所误导
      • 最后,该智能体无法验证先前结论的正确性
    • 这个案例研究揭示,尽管一个未在智能体任务上明确训练的开源模型可以执行大量的工具调用 ,但它无法基于检索到的内容和历史上下文进行专家级的推理
  • ASearcher-Web-QwQ (论文端到端 RL 智能体 ASearcher-Web-QwQ 的搜索策略)
    • 如图 3 所示,ASearcher-Web-QwQ 将复杂 Query 分解为精确的 Query
      • 与 Search-o1 (QwQ) 在每次搜索 Query 后访问大量网站不同,ASearcher-Web-QwQ 专注于一次访问一个网站
      • 问题:这样会不会太慢
    • ASearcher-Web-QwQ 总结了网站的所有相关信息
      • 所有候选答案都被列出并由智能体仔细分析
      • 当搜索结果没有直接指向期望目标时,例如,当使用“Olga Tapia Hafnia alvei animal studies”进行搜索以查找与 Olga Tapia 论文相关的动物时,智能体没有获得明确的信息,但能够通过与其他论文建立联系来推断出正确答案
      • 在找到正确答案“小鼠 (Mice)”后,智能体在报告最终答案之前花费了额外的步数来验证先前的结论
    • 总之,ASearcher 成功训练出了一个展现出专家级搜索行为的搜索智能体 :
      • 不确定性感知推理 (Uncertainty-aware reasoning): 智能体详尽地列出并检查所有不确定实体的可能性
      • 精确的关键信息提取 (Precise Key Information Extraction): 智能体能够从海量、充满噪声的网页内容中识别关键信息
      • 跨文档推理 (Cross-document Inference): 智能体能够通过建立多个文档之间的联系来推断关键结论
      • 基于事实的验证 (Grounded Verification): 智能体通过访问或搜索相关材料来验证先前结论的正确性

ASearcher

  • 论文提出了 ASearcher,一个通过大规模 RL 训练来解锁搜索智能(Search Intelligence)的开源项目
  • 如图 3 所示,ASearcher 训练了一个能够通过彻底解决所有不确定性并执行多轮工具调用来解决复杂问题的搜索智能体
  • 在后续的小节中,论文将介绍 ASearcher 中的智能体设计、训练数据及数据合成智能体,以及完全异步的强化学习训练

Agent Design

  • 论文在 ASearcher 中采用了一种简单的智能体设计,如图 2 所示
  • 工具 (Tools).
    • 给定一个用户 Query ,智能体可以使用两个基本工具:一个搜索引擎和一个网络浏览器
      • 搜索引擎:接收文本 Query 作为输入,并返回相关的摘要片段及其对应的 URL
      • 网络浏览器:接收一个 URL 并返回网页的内容
    • 为了有效解决复杂问题,模型应策略性地结合这些工具,并从海量数据中提取关键信息
  • 网页摘要 (Webpage Summarization).
    • 网页可能包含过长的内容,因此论文利用智能体将网页总结成一个简洁的摘要
    • 在训练时,这个摘要过程也会被优化,允许智能体通过强化学习训练来提高摘要能力
  • 使用基础 LLM 和高级 LRM 实例化 ASearcher (Instantiating ASearcher with Base LLMs and Advanced LRMs).
    • 在 ASearcher 框架内,论文研究了两种搜索智能体的具体实例化方式:
      • 一种是使用基础大语言模型(Base LLMs) ,例如 Qwen2.5-7B/14B;
      • 另一种是使用高级大推理模型(Large Reasoning Models, LRMs) ,例如 QwQ-32B
    • 这两种不同类型的实例化在历史管理和提示(Prompting)方面需要不同的设计选择
      • 对于基础 LLM ,论文遵循先前的工作 (2025;),采用仅追加(append-only)风格的提示方式
        • 从一个系统提示(System Prompt)开始,所有由 LLM 生成的响应、搜索结果和网页摘要都被追加到历史记录中
        • 智能体按时间顺序接收完整的历史记录作为输入,并输出一些推理文本和动作。
        • 这种方法确保了推理时的效率
      • 对于LRM ,LRM 本身已经具备了指令跟随能力
        • 论文使用不同的提示来指导 LRM 进行工具选择、摘要和回答
        • 论文还注意到 LRM 通常会生成长响应,有时历史记录会很长
          • 问题:需要确保输入的紧凑性,以保证 LRM 有足够的预算来生成 Token
          • 解法:在历史记录中,丢弃思维过程,而是保留总结后的想法和工具调用
        • 在提示 LRM 时,只将最近 25k 个字符的历史记录作为附加上下文提供给 LRM
          • 这些简单的设计确保了 LRM 的输入最多为 10k 个 Token
          • 问题:25k 不是已经比 10k 大了吗?
  • 端到端强化学习 (End-to-End Reinforcement Learning).
    • 智能体所有由 LLM 生成的响应,包括思维过程、工具调用和摘要,都是以端到端的方式使用强化学习进行训练的

Training Data

  • 论文的训练数据主要有两个来源
    • 开源数据集:仔细筛选,以确保其难度和质量
    • 合成数据:高质量的问答对(Question-Answer pairs, QA pairs),专门设计用于指导智能体学习可泛化的搜索策略
开源数据 (Open-source Data).
  • 论文从 HotpotQA (2018) 和 2WikiMultiHopQA (2020) 的训练集开始,这两个都是多跳问答数据集
  • 论文采用了基于模型的过滤流程
    • 使用 RL 在完整的开源数据集上训练一个模型,再使用训练好的模型为每个问题生成 16 个响应
    • 最后,论文过滤掉满足以下任一标准的问题:
      • 模型在 16 个响应中未能找到一个正确答案
      • 模型达到了 \(\ge\) 50% 的准确率,意味着问题挑战性不足
      • 模型仅用少量搜索轮次(即 \(\le\) 1 轮)就找到了正确答案
  • 这种过滤方法确保论文只保留最具挑战性但又可解决、且需要使用工具的问题
  • 最终,从总共 304k 个问答对中 ,论文保留了 16k 个具有挑战性的样本用于 RL 训练
  • 此外,论文还纳入了一组专为访问特定网页而设计的问答对
  • 特别是,论文加入了 WebWalkerQA (2025) 的一小部分子集,以帮助模型学习如何在嘈杂的真实网络搜索环境中定位答案
Data Synthesis Agent
  • 论文进一步开发了一个数据合成智能体来创建高质量的问答对
  • 如图 4 所示,数据合成智能体从一个种子问题开始,迭代地修改问题以增加复杂性
  • 为了确保合成的问题与可靠来源严格对齐,在问题合成过程中获得的一系列支持事实(supporting facts)被保留下来,并持续更新以进行质量验证
  • 在每一步,给定当前的问题和一个支持事实列表,智能体自动在以下两个关键动作之间进行选择:
    • 动作 1:注入(Injection) 旨在通过插入与问题相关的事实来丰富问题的上下文
      • 智能体首先选择问题中的一个实体,然后从外部来源(如维基百科)获取关于该选定实体的一条相关事实
      • 接着,通过将该事实注入到问题中,提出一个新的问题
      • 这个注入动作增加了问题的复杂性
    • 动作 2:模糊化(Fuzzing) 模糊问题中的某些细节,以增加问题的不确定性水平
      • 例如,“Catskill Mountain Railroad”(Catskill 山铁路)可能被替换为 “a historic mountain railway”(一条有历史意义的铁路)
      • 通过多次对问题进行模糊化处理,问题的不确定性水平和难度都会逐渐增加
  • 为了确保合成问题的高质量并精确评估其难度,论文为评估合成问题加入了一个严格的质量验证(quality verification)阶段:
    • 步骤 1. 基本质量(Basic Quality). 论文使用一个 LLM 来评估每个问题的基本质量
      • 此验证包括检查问题的清晰度,并根据支持事实验证问答对的准确性
      • 此质量控制步骤确保每个问答对都正确地基于可靠来源
    • 步骤 2. 难度测量(Difficulty Measurement). 论文使用一个前沿的 LRM(例如 QwQ-32B)直接为合成问题生成多个答案,而不使用任何外部工具
      • 此验证过程也作为问题难度的衡量标准
    • 步骤 3. 答案唯一性(Answer Uniqueness). 模糊化动作可能会过度放松约束,损害答案的唯一性
      • 为了防止因多个正确答案而产生的歧义,论文评估在难度测量步骤中生成的任何 mismatched answers 是否可以作为替代的有效答案
  • 论文在表 1 中提供了两个说明性示例。从一个简单的问题开始,注入动作用相关的事实细节替换特定的实体
    • 例如,“Michael P. Hein” 被扩展为 “who served as the first County Executive of Ulster County, New York…”
    • 模糊化动作通过泛化精确信息来引入模糊性,例如将确切的年份 “1934” 替换为 “the early 1930s”,或者将 “Catskill Mountain Railroad” 替换为 “a historic mountain railway”
  • 通过迭代的注入和模糊化,数据合成智能体产生出涉及复杂信息和高不确定性的问题,需要大量的搜索和推理才能找到正确答案
    • 在完成问题合成过程后,论文过滤掉那些 LRM 可以不依赖搜索工具直接生成正确答案的问题
    • 由于这些问题仅基于模型的内在知识就能回答,它们对于增强搜索能力几乎没有价值
  • 从 14,107 个种子问题开始,论文对每个问题平均执行了 6.3 次注入和 3.2 次模糊化
    • 从合成池中,论文为每个种子问题最多选择三个高质量的变体
    • 这个筛选过程产生了包含 25,624 个条目的最终数据集,所选问题平均每个包含 4.27 次注入和 2.10 次模糊化

Asynchronous Agentic RL Training

Challenges of Scaling Up Trajectory Length in RL
  • 实验表明复杂任务需要大量的工具调用,因此具有较大轮次限制的 RL 训练对于训练高级搜索智能体是必要的
  • 训练期间轨迹执行时间的方差很大,这可能导致批量生成 RL 系统出现显著的闲置时间
  • 复杂任务需要长轨迹 (Complex Tasks Require Long Trajectories).
    • 智能体任务通常需要大量的 LLM 生成和多次工具调用来解决复杂问题,导致轨迹执行时间延长
    • 如图 6(左)所示,论文在 GAIA (2023)、xBench-Deepsearch (2025) 和 Frames (2024) 上评估了论文经过 RL 训练的 QwQ-32B 智能体,强制智能体使用不同最小轮次数量的工具
    • 结果表明,准确率随着轮次的增加而提高,证实了复杂任务需要更长的轨迹来进行有效的问题解决
  • 轨迹执行时间的高方差 (High Variance in Trajectory Execution Time).
    • 长轨迹也带来了执行时间的显著方差
    • 论文分析了 QwQ 智能体 RL 训练期间的工具调用次数和 Token 生成数量(图 6),观察到最长的轨迹可能比短轨迹多出数十次工具调用和两个数量级以上的 Token
    • 这种差异导致每个轨迹的运行时间高度不可预测,进一步降低了训练效率
  • 智能体 RL 训练的效率问题 (Efficiency Issues of Agentic RL Training).
    • 长时间的执行和高运行时间方差都会降低 RL 训练效率
    • 论文以 one-step-off RL 训练系统 (one-step-off RL training system,也称为 One-Off,来自 DeepCoder,2025) 作为批量生成 RL 系统的代表性例子
      • 参考链接:DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level
    • 在 one-step-off RL 训练中,第 N 步的训练和第 N+1 步的轨迹生成是并发执行的
    • 如图 7 所示,尽管该系统将轨迹 rollout 与模型训练重叠,但批量生成仍然受限于最慢的轨迹(例如轨迹 7),导致 GPU 闲置时间和利用率不足
完全异步 RL 训练 (Fully Asynchronous RL Training).
  • 为了确保高效的智能体 RL 训练,论文采用了完全异步的训练范式
    • 论文的方法在两个不同方面引入了异步
  • 异步轨迹 Rollout (Asynchronous Trajectory Rollouts).
    • 轨迹 rollout 是并行收集的,并且不直接相互干扰
    • 每个轨迹独立地向相应服务器发送工具调用请求,并向 LLM 推理引擎发送 LLM 生成请求
    • 来自不同轨迹的并发请求由服务器自动处理
    • 完全独立的轨迹执行确保了一个轨迹在生成 LLM 响应和等待工具调用响应时不需要等待其他轨迹,从而提高了训练效率
  • 解耦的 Rollout 和训练 (Decoupled Rollout and Training).
    • 除了异步 rollout 之外,轨迹 rollout 和模型更新也是完全解耦的
    • 在图 7 中,论文将论文的完全异步 RL 训练与 one-step-off RL 训练进行了比较,后者在批次内利用异步 rollout
    • 在完全异步 RL 训练中,长轨迹不会阻塞生成,并且可以跨越多个版本,显著减少了 GPU 闲置时间,并在生成过程中实现了近乎完全的 GPU 利用率
    • 在训练侧,一旦收集到足够的轨迹形成一个批次,就会立即启动一个训练步骤
    • 如图 7 所示,训练过程不会等待极长的轨迹 7,而是继续处理轨迹 9

Training Details

  • MDP 公式化 (MDP Formulation). 论文遵循马尔可夫决策过程(Markov Decision Process, MDP)的公式化
    • 形式上,一个 MDP 由元组 \((S,A,T,R)\) 定义
      • \(S\) 代表状态空间,通常包含历史记录、搜索结果和检索到的网页
      • \(A\) 表示动作空间,一个动作包括智能体生成的 Token
        • 一些工具调用可以通过特定的标签从动作中提取,例如 <search> search query </search>
      • \(T(s^{\prime}|s,a)\) 是转移概率:其中 \(s^{\prime}\) 是在状态 \(s\) 应用动作 \(a\) 中的工具调用后的更新状态
    • 在每个时间步,智能体接收一个状态 \(s_{t}\),并根据策略 \(\pi:S\to A\) 生成一个动作 \(a_{t}\)
    • 智能体的目标是最大化回报
      $$ J(\pi)=\mathbb{E}\left[\sum_{t=0}^{\infty}R(s_{t},a_{t})\bigg{|}a_{t}\sim\pi(s_{t})\right]$$
  • GRPO 训练 (GRPO Training). 论文采用 GRPO (2024) 算法来训练搜索智能体
    • 对于每个输入问题 \(x\),生成 \(G\) 个轨迹 \(\tau_{1},\tau_{2},\cdots,\tau_{G}\)
      $$ \tau_{i}=(s^{i}_{0},a^{i}_{0},s^{i}_{1},\cdots,s^{i}_{T_{i} }) $$
    • 为了优化智能体,论文采用以下损失函数:
      $$
      \begin{align}
      \mathcal{J}_{GRPO}(\theta)=\mathbb{E}_{x\sim\mathcal{D}_{\epsilon}\{\tau_{i}\}_{i=1}^{G}\sim\pi_{\theta_{old} }(:\left|x\right\rangle}\left[\frac{ 1}{G}\sum_{i=1}^{G}\frac{1}{\sum_{t=0}^{T_{i}-1}|a^{i}_{t}|}\sum_{t=0}^{T_{i}-1}\sum_{j=1}^{|a^{i}_{t}|}\min\left(\frac{\pi_{\theta}(a^{i}_{t,j}|s_{t},a^{i}_{t,< j})}{\pi_{\theta_{old} }(a^{i}_{t,j}|s_{t},a^{i}_{t,< j})}\hat{A}_{i},\right.\right. \left.\left.\text{clip}\Bigg{(}\frac{\pi_{\theta}(a^{i}_{t,j}|s_{ t},a^{i}_{t,< j})}{\pi_{\theta_{old} }(a^{i}_{t,j}|s_{ t},a^{i}_{t,< j})},1-\epsilon ,1+\epsilon \Bigg{)}\hat{A}_{i}\Bigg{)}\right]\right.
      \end{align} \tag{1}
      $$
      • 其中 \(\epsilon\) 是一个超参数,\(\hat{A}_{i}\) 是第 \(i\) 个轨迹的优势函数(Advantage),基于每个组内所有轨迹的相对奖励计算得出
  • 动态过滤 (Dynamic Filtering). 为了提高训练效率,论文实施了动态过滤,以排除缺乏有意义的训练信号的 Query
    • 具体来说,论文移除所有响应产生相同奖励(导致优势为零)的 Query ,包括智能体已经达到高准确率的 Query 和答案标记错误的 Query
  • 奖励函数 (Reward Function). 对于奖励函数,论文采用稀疏奖励(Sparse-reward)设置,在轨迹完成时计算奖励
    • 若从基础 LLM 开始训练 ,奖励函数通过乘法结合了格式奖励(Format Reward)和 F1 分数
      • 问题:这里的 F1 分数是什么?是工具调用相关 精确率 和 召回率 的衡量吗?
      • 回答:从下文来看,是的
    • 若基于 LRM 的智能体(例如 QwQ)进行微调,论文使用 LLM-as-Judge (2023; 2024) 作为奖励函数,并省略格式奖励,因为这些模型本身就保持了适当的输出格式

Experiments

Experiment Setup

  • 基准测试 (Benchmarks)
    • 论文首先在单跳和多跳问答任务上评估智能体
      • 对于单跳问题,论文使用 Natural Questions (2019)、TriviaQA (2017) 和 PopQA (2022)
      • 对于多跳问题,论文使用 HotpotQA (2018)、2WikiMultiHopQA (2020)、MuSiQue (2022) 和 Bamboogle (2022)
    • 论文进一步在更具挑战性的基准测试上进行了评估,包括 Frames (2024)、GAIA (2023) 和 xBench-DeepSearch (2025) 作为额外的测试集
      • 从 HotpotQA、2WikiMultiHopQA 和 MuSiQue 的验证集中随机抽取 1000 个实例进行评估
      • 对于 Bamboogle、Frames、GAIA 和 xBench-DeepSearch,论文使用其完整的测试集
      • 对于 GAIA,论文使用来自纯文本验证子集 (2025) 的 103 个示例
  • 搜索工具 (Search Tools)
    • 论文在两种设置下评估搜索智能体,每种设置使用不同类型的搜索工具
      • 带有 RAG 的本地知识库 (local knowledge base with RAG)的交互:智能体与本地部署的 RAG 系统交互,从一个 Wikipedia 2018 语料库 (2020) 中检索相关信息
      • 基于网络的搜索和浏览 (web-based search and browsing) 的交互:智能体在交互式网络环境中运行,可以访问搜索引擎和浏览器工具
        • 对于更具挑战性的基准测试 GAIA、xBench-DeepSearch 和 Frames,论文仅在此基于网络的设置下进行评估
  • 基线 (Baselines)
    • 论文考虑与两类基准测试相对应的两组基线
      • 对于多跳和单跳问答基准测试,包括 Search-R1(7B/14B/32B) (2025)、R1-Searcher(7B) (2025)、Search-o1(QwQ-32B) (2025)、DeepResearcher (2025) 和 SimpleDeepSearcher (2025)
        • 还直接提示 Qwen-2.5-7B/32B 在不使用任何工具的情况下生成答案
      • 在更具挑战性的基准测试上,论文与强大的 32B 规模模型进行比较,包括直接使用 QwQ-32B 生成、Search-o1(QwQ-32B) (2025)、Search-R1-32B (2025)、WebThinker-QwQ (2025)、SimpleDeepSearcher-QwQ (2025) 和 WebDancer-32B (2025)
      • 所有基线都使用与论文智能体相同的工具进行评估,以确保公平比较
  • Evaluation metrics
    • 论文采用两个互补的评估指标:F1 分数和 LLM-as-Judge (LasJ)
    • F1 分数在词级别(Word Level)计算,衡量预测答案和参考答案之间的精确率和召回率的调和平均数
    • 对于 LLM-as-Judge,论文提示一个强大的 LLM (Qwen2.5-72B-Instruct) 根据特定任务的指令评估模型输出的正确性
    • 在 GAIA、xBench-DeepSearch 和 Frames 上,论文仅使用 LLM-as-Judge 并报告所有模型的 Avg@4 和 Pass@4 分数
  • ASearcher 的训练细节 (Training Details of ASearcher)
    • 轮次限制:7B 和 14B 模型为 32,ASearcher-Web-QwQ 为 128
    • 批次大小:7B 和 14B 模型为 128,ASearcher-Web-QwQ 为 64
    • 论文整理了两组训练数据,一组用于 7B/14B 训练,另一组用于 QwQ-32B 训练
      • 这两个数据集大小均为 35k 并已开源
      • ASearcher-Web-QwQ 的训练大约需要 7.6k H800 GPU 小时

Main Results

  • 论文在三种评估设置下展示了主要的实验结果:
    • (1) 在标准问答基准测试上使用带有检索增强生成 (RAG) 的本地知识库
    • (2) 在相同基准测试上使用基于网络的搜索和浏览
    • (3) 在更具挑战性的基准测试上使用基于网络的搜索和浏览
  • ASearcher ,实例化为 Qwen2.5-7B、Qwen2.5-14B 和 QwQ-32B,在 F1 和 LasJ 指标上始终优于相同模型规模的现有开源智能体
    • ASearcher-14B 在一系列多跳和单跳问答基准测试上取得了 7B、14B 和 32B 模型中的最佳性能,并且 ASearcher-QwQ 在这些具有挑战性的基准测试上显著优于几个规模相当的有力基线
    • 这些结果突显了 ASearcher 在不同任务和模型规模上的通用性和可扩展性
  • 在标准问答基准测试上使用带有 RAG 的本地知识库 (Local Knowledge Base with RAG on Standard QA Benchmarks)
    • 如表 2 所示,通过强化学习在本地知识库上训练的 ASearcher-Local,在一系列多跳和单跳问答基准测试上,在 7B 和 14B 规模上均取得了最佳性能
      • 在 7B 设置下,ASearcher 的平均 F1 达到 58.0 ,优于 Search-R1-7B (54.3) 和 R1-Searcher-7B (52.2) 等强基线
        • 其 LasJ 分数也达到 61.0 ,显著优于 Search-R1-7B (55.4) 和 R1-Searcher-7B (54.7)
      • 在 14B 规模上,增益更为显著,ASearcher-Local-14B 的 F1 达到 60.0 ,LasJ 达到 65.6 ,甚至超过了更大的 32B 基于检索的基线 Search-R1-32B
  • 在标准问答基准测试上使用基于网络的搜索和浏览 (Web-based Search and Browsing on Standard QA Benchmarks)。
    • 在表 3 中,论文在现实的基于网络的环境中评估智能体
    • 论文以 zero-shot 方式评估完全使用本地知识库训练的模型在网络设置中的表现,以直接检验通过 RL 学习的搜索策略的泛化能力
      • 在所有模型规模上,ASearcher 始终优于强基线
      • ASearcher-Web-14B 取得了最佳性能,平均 F1 为 61.5 ,超过了在此设置下最强的 32B 基线 SimpleDeepSearcher
      • ASearcher-Local-14B 模型在网络设置下测试时表现出强大的泛化能力,在 LasJ 指标上相对于相似或更大规模的所有基线模型均取得了显著增益
      • 这证实了 ASearcher 学习了可迁移到不同信息源的通用搜索策略
  • 在具有挑战性的基准测试上使用基于网络的搜索和浏览 (Web-based Search and Browsing on Challenging Benchmarks)
    • 表 4 显示了在需要高级问题解决能力和搜索策略的具有挑战性的问答任务上的实验结果
      • 这些基准测试专门设计用于评估智能体与真实网络交互并检索超出 LLM 内部知识的最新信息的能力
      • 因此,直接从模型(例如 QwQ-32B)生成答案在所有数据集上表现都很差
    • 论文的智能体 ASearcher-Web-QwQ 在 GAIA (52.8) 和 xBench-DeepSearch (42.1) 上取得了最佳的 Avg@4 分数
      • 优于之前的开源智能体最优水平
    • 这些结果进一步凸显了其在处理长视野规划、现实世界工具使用和开放领域探索方面的优越性
    • 除了 Avg@4,论文还报告了 Pass@4 分数,该分数计算智能体在 4 次试验中找到正确答案的问题比例
      ASearcher-Web-QwQ 在通过率方面也优于 SOTA 开源智能体
  • RL 训练的效果 (Effect of RL Training)
    • 如图 8 所示,ASearcher-Web-QwQ 在 GAIA、xBench-DeepSearch 和 Frames 上分别获得了 +9.1、+13.4 和 +12.0 的提升
    • 当考虑通过率(即 Pass@4)时,ASearcher-Web-QwQ 也获得了显著增益,尤其是在 xBench-DeepSearch 上提升了 17.0
    • 通过率的显著提升表明论文的训练流程训练智能体学习复杂的搜索策略,以执行精确搜索、提取关键信息并解决冲突信息

Training Dynamics

  • ASearcher-Local-7B/14B 的训练动态 (Training Dynamics of ASearcher-Local-7B/14B)
    • 在图 9 和图 10 中,论文分别绘制了 ASearcher-Local-7B 和 ASearcher-Local-14B 训练过程中生成的 Token 数量、搜索 Query 和网页浏览情况
    • 使用论文的训练方法,在 7B 和 14B 规模上都观察到了生成长度和工具调用次数的增加
      • 搜索 Query 次数扩展到 6 次,高于先前工作 (2025;) 报告的数字
    • 有趣的是,论文发现 7B 模型未能学习有效的网页浏览 ,而 14B 模型可以在训练后期学习访问网页来解决具有挑战性的问题
      • 论文假设 7B 模型在学习网页浏览方面的失败是因为模型容量太小 ,无法在零 RL 训练设置中稳定地学习总结冗长的网页
  • ASearcher-Web-QwQ 的训练动态 (Training Dynamics of ASearcher-Web-QwQ)
    • ASearcher-Web-QwQ 的训练动态如图 6 所示
    • 随着训练的进行,智能体学会执行更多的工具调用,在第 200 步左右达到约 40 次调用,峰值实例甚至达到 70 次调用
    • QwQ-32B 智能体通过训练生成了更多的 Token ,最多超过 150k 个 Token
    • 工具利用率和输出长度的这种扩展趋势突显了完全异步 RL 训练对于复杂现实世界智能体应用的潜力
      • 问题:这跟完全异步 RL 有什么关系?

Related Works

Search Agents

  • 一些工作已经构建了智能体工作流,使 LLM 能够利用外部工具来解决复杂任务
    • 著名的例子包括 Search-o1 (2025) 和 ReAgent (2025)
  • 基于提示的方法虽然对于快速开发有效,但根本上受到底层 LLM 能力的限制,并且无法通过环境反馈可靠地改进
  • 一些工作尝试为 LLM 构建 SFT 轨迹
    • 例如,(2023; 2024) 利用大 LLM 合成检索和推理轨迹来微调较小的模型
  • 最近,一些工作研究强化学习 (RL) 方法来增强 LLM-based 智能体,主要关注多跳问答基准测试,如 HotpotQA 和 2Wiki-Multihop
    • (2025;) 使用多跳问答数据进行 RL 训练,并观察到工具使用次数的增加
    • RAG-R1 (2025) 进一步结合了 SFT 和 RL 来增强搜索策略
  • 最近,研究人员开始关注更具挑战性的任务,通过 Offline RL (2025) 微调由大型推理模型 (LRM) 驱动的复杂基于提示的智能体,在具有真实网络数据的模拟轨迹上进行 SFT (2025;),以及为 RL 训练构建具有挑战性的问答对 (2025)

Synthetic Data for Search Agents

  • 除了依赖大规模人工标注,数据合成也已成为一种可扩展的方法来为搜索智能体准备训练数据
    • 一些方法通过与真实网页交互并使用 LRM 整理数据来生成合成但真实的问答轨迹 (2025;)
    • WebSailor (2025) 通过采样和模糊测试构建结构上具有挑战性的任务
    • WebShaper (2025) 利用集合论技术构建高质量的复杂问答对
  • ASearcher 开发了一个自主的 LLM 智能体来合成具有高不确定性的挑战性问答对,而不依赖复杂的知识图谱
    • ASearcher 中的数据合成智能体和合成训练数据都是完全开源的

附录 A:Full Case Study

  • 在本节中,论文对来自 GAIA (2023) 的一个极具挑战性的问题进行了详细的案例研究
    • 论文在图 11 中分析了 Search-R1-32B (2025) 和 Search-o1 (QwQ) (2025)
  • 示例问题的解决路径 (Solution Path of the Sample Question)
    • 在图 11 中,论文的案例研究针对一个在给定 2 个条件和 4 个未知变量的情况下寻找特定动物的问题进行
    • 为了识别正确答案,搜索智能体应首先根据条件 C1 找出提到的物种 U1 ,识别满足条件 C2 的正确文章 U2 ,然后找出 U3.1 和 U3.2 中列出的论文
    • 最后,正确答案应通过交叉引用文章 U2 和论文 U3.1&U3.2 来确定
    • 总结来说,这个示例具有挑战性主要有以下几个原因:
      • 高不确定性 (High Uncertainty): 问题涉及多个未知变量,这些变量可能指向许多不同的实体
        • 例如,2021 年的文章 U2 可能指向 2021 年发表的任何文章,并且只能在给定条件 C2 和肺泡物种 U1 的情况下确定
      • 对精确信息提取的要求 (Requirement for Exact Information Extraction): 为了找到答案,智能体应列出网页上提到的所有动物并进行跨文档比较
        • 这将要求智能体从海量、嘈杂的网络内容中精确提取关键信息,而不是简单地总结网页
      • 误导性答案 (Misleading Answers): 在解决此任务的过程中,可能会出现多个误导性答案,例如“猪”
        • 智能体应通过检查所有相关网页和文档中的预期答案来严格确认其结论
  • 现有的 Online RL 方法未能学习复杂的搜索策略 (Existing Online RL Approaches Fail to Learn Complex Search Strategies)
    • 在图 11 中,Search-R1-32B 无法将复杂 Query 分解为单独的组成部分,因此只进行了涉及过多未知信息的冗余 Query
      • 该智能体还存在严重的幻觉,产生了搜索结果不支持结论
      • 它未能解析所有未知变量
    • 此案例研究表明,现有的 Online RL 方法仅激励了初级的搜索策略
    • 同样值得注意的是,由于在训练期间轮次限制设置为较小的值(例如 4),模型仅表现出较短的工具使用视野
  • 基于提示的 LLM 智能体可能因 LLM 能力不足而失败 (Prompt-based LLM Agents Could Fail Due to Insufficient Capability of the LLM)
    • 在图 11 中,Search-o1 (QwQ) 可以通过大量的工具调用找到物种名称 U1 ,以及 2021 年的文章 U2 和论文 U3.1&U3.2
      • 但在尝试寻找答案时,Search-o1 (QwQ) 很容易遗漏关键信息
      • 因此,智能体得出了错误的结论
      • 而且,即使智能体找到了直接指向正确答案的信息,它仍然被先前错误的结论所误导
      • 最后,智能体无法验证先前结论的正确性
    • 这个案例研究表明,尽管一个未在智能体任务上明确训练的开源模型可以执行大量的工具调用 ,但它无法基于检索到的内容和历史上下文进行专家级的推理
  • ASearcher-Web-QwQ
    • 论文还分析了论文端到端 RL 智能体 ASearcher-Web-QwQ 的搜索策略
    • 如图 11 所示,ASearcher-Web-QwQ 将复杂 Query 分解为精确且聚焦的 Query
      • 与 Search-o1 (QwQ) 在每次搜索 Query 后访问大量网站不同,ASearcher-Web-QwQ 专注于访问最相关的网站
      • ASearcher-Web-QwQ 总结了网站的所有相关信息
        • 所有候选答案都被智能体列出并仔细分析
      • 当尝试在论文 U3.1&U3.2 中搜索相关事实时,智能体明确引用了关键信息
        • 当搜索结果没有直接指向期望的目标时,例如,当使用“Olga Tapia (U3.2) Hafnia alvei (U1) animal studies”进行搜索以查找与 Olga Tapia 论文相关的动物时,智能体没有得到明确的信息,但能够通过与其他论文 U3.1 建立联系来推断出正确答案
      • 在找到正确答案“Mice”之后,智能体在报告最终答案之前花费了额外的轮次来确认先前的结论
    • 总之,ASearcher 成功训练了一个展现出复杂行为的搜索智能体,这些行为体现了搜索智能:
      • 不确定性感知推理 (Uncertainty-aware reasoning): 智能体详尽地列出并检查所有不确定实体的可能性
      • 精确的关键信息提取 (Precise Key Information Extraction): 智能体能够从海量、嘈杂的网络内容中识别关键信息
      • 跨文档推理 (Cross-document Inference): 智能体能够通过建立多个文档之间的联系来推断关键结论
      • 严格确认 (Rigorous Confirmation): 智能体通过额外的工具调用来验证先前结论的正确性

NLP——技术报告解读-DeepSeek-V3.2

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文(已过期):DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek, 20251202
    • 原始论文(arXiv):DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek, 20251202
    • 参考博客:DeepSeek-V3.2 技术报告深度解析:架构演进、RL 扩展与 Agent 合成数据
    • 对 Unbiased KL Estimate 的理解:DeepSeek-V3.2中无偏 KL估计(Unbiased KL Estimate)的一些想法 - Keith Jiang的文章 - 知乎

Paper Summary

  • DeepSeek-V3.2:在高效计算与卓越推理和智能体性能之间取得平衡的模型
  • DeepSeek-V3.2 关键技术:
    • (1) DeepSeek 稀疏注意力 (DeepSeek Sparse Attention, DSA): 论文引入了 DSA,这是一种高效的注意力机制,能在保持长上下文场景下模型性能的同时,显著降低计算复杂度
    • (2) 可扩展的强化学习框架 (Scalable Reinforcement Learning Framework): 通过实施一个鲁棒的强化学习协议并扩展后训练计算量,DeepSeek-V3.2 的性能与 GPT-5 相当
      • DeepSeek-V3.2-Speciale(DeepSeek-V3.2 的高计算量变体) 超越了 GPT-5,并且其推理能力与 Gemini-3.0-Pro 持平,在 2025 年国际数学奥林匹克 (International Mathematical Olympiad, IMO) 和国际信息学奥林匹克 (International Olympiad in Informatics, IOI) 中均取得了金牌表现
    • (3) 大规模智能体任务合成流程 (Large-Scale Agentic Task Synthesis Pipeline): 为了将推理能力整合到工具使用场景中,论文开发了一种新颖的合成流程,系统地大规模生成训练数据。这种方法促进了可扩展的智能体后训练,在复杂、交互式环境中显著提升了模型的泛化能力和遵循指令的鲁棒性
  • 图 1:DeepSeek-V3.2 及其同类模型的基准测试
    • 对于 HMMT 2025,论文报告的是二月份的比赛结果,与基线一致
    • 对于 HLE,论文报告的是纯文本子集

Introduction and Discussion

  • 推理模型的发布标志着 LLM 演进中的一个关键转折点,在可验证领域的整体性能的显著飞跃
  • 自这一里程碑以来,LLM 的能力迅速发展;但在过去几个月中出现了明显的分化
    • 虽然开源社区持续取得进展,但闭源专有模型 (Anthropic; DeepMind; OpenAI, 2025) 的性能提升轨迹以明显更快的速度在加速
    • 闭源和开源模型之间的性能差距不仅没有缩小,反而似乎在扩大,专有系统在复杂任务中表现出日益卓越的能力
  • 作者分析确定了限制开源模型在复杂任务中能力的三个关键不足
    • 在架构上,主要依赖普通注意力 (vanilla attention) (2017) 机制严重限制了长序列的效率
      • 这种低效性对可扩展部署和有效后训练都构成了重大障碍
    • 在资源分配方面,开源模型在后训练阶段的计算投入不足,限制了其在困难任务上的表现
    • 在 AI 智能体 (AI agents) 的背景下,与专有模型相比,开源模型在泛化能力和指令遵循能力方面表现出明显的滞后 (EvalSys, 2025; 2025; 2025),这阻碍了其在实际部署中的有效性
  • 为了解决这些关键限制,论文做了如下改进:
    • 第一:引入 DSA,一种旨在显著降低计算复杂度的高效注意力机制
      • 该架构有效解决了效率瓶颈,即使在长上下文场景下也能保持模型性能
    • 第二:开发了一种稳定且可扩展的 RL 协议,允许在后训练阶段进行显著的计算扩展
      • 该框架分配的后训练计算预算超过了预训练成本的 \(10%\),从而解锁了高级能力
    • 第三,提出了一种新颖的流程,以促进工具使用场景中可泛化的推理
      • 首先,实施一个冷启动 (cold-start) 阶段,利用 DeepSeek-V3 (DeepSeek-AI, 2024) 的方法论将推理和工具使用统一在单个轨迹内
      • 随后,论文推进到大规模智能体任务合成,生成了超过 1,800 个不同的环境和 85,000 个复杂的 Prompt
      • 这种广泛的合成数据驱动了 RL 过程,显著增强了模型在智能体上下文中的泛化能力和指令遵循能力
  • 小结:
    • DeepSeek-V3.2 在多个推理基准测试中与 Kimi-k2-thinking 和 GPT-5 取得了相近的性能
    • DeepSeek-V3.2 显著提升了开源模型的智能体能力,在之前工作(EvalSys,2025; 2025; 2025)引入的长尾智能体任务上表现出卓越的熟练度
    • DeepSeek-V3.2 成为智能体场景中一个极具成本效益的替代方案,在显著降低成本的同时,大大缩小了开源模型与前沿专有模型之间的性能差距
    • 特别地:为了推动开源模型在推理领域的前沿,论文放宽了长度约束以开发 DeepSeek-V3.2-Speciale
      • DeepSeek-V3.2-Speciale 达到了与领先闭源系统 Gemini-3.0-Pro (DeepMind) 相当的性能
      • 在 IOI 2025、ICPC World Final 2025、IMO 2025 和 CMO 2025 中均表现出金牌水平的性能
    • 注:论文评估了 CMO 2025 的英文版。IMO 2025 和 CMO 2025 的问题以及推理代码可在 github.com/deepseek-ai/DeepSeek-Math-V2 找到

DeepSeek-V3.2 Architecture

DeepSeek Sparse Attention

  • DeepSeek-V3.2 的架构与 DeepSeek-V3.2-Exp 完全相同
  • 与 DeepSeek-V3.1 的最后一个版本 DeepSeek-V3.1-Terminus 相比,DeepSeek-V3.2 唯一的架构修改是通过持续训练(Continuous Training)引入了 DeepSeek 稀疏注意力 (DeepSeek Sparse Attention, DSA)
  • DSA 原型 (Prototype of DSA)
    • DSA 的原型主要由两个部分组成:一个 Lightning Indexer 和一个细粒度 Token 选择机制 (fine-grained token selection mechanism)
  • Lightning Indexer
    • 计算查询 Token \(\mathbf{h}_{t}\in\mathbb{R}^{d}\) 与前一个 Token \(\mathbf{h}_{s}\in\mathbb{R}^{d}\) 之间的索引分数 \(I_{t,s}\),确定哪些 Token 将被查询 Token 选择:
      $$I_{t,s}=\sum_{j=1}^{H^{l} }w_{t,j}^{I}\cdot\text{ReLU}\left(\mathbf{q}_{t,j}^{I} \cdot\mathbf{k}_{s}^{I}\right), \tag{1}$$
      • \(H^{l}\) 表示 Indexer 头 (indexer heads) 的数量;
      • \(\mathbf{q}_{t,j}^{I}\in\mathbb{R}^{d^{l} }\) 和 \(w_{t,j}^{I}\in\mathbb{R}\) 来源于查询 Token \(\mathbf{h}_{t}\);
      • \(\mathbf{k}_{s}^{I}\in\mathbb{R}^{d^{l} }\) 来源于前一个 Token \(\mathbf{h}_{s}\)
    • 出于吞吐量考虑,论文选择 ReLU 作为激活函数
    • 鉴于 Lightning Indexer 具有少量头部并且可以在 FPS 中实现,其计算效率非常显著
  • 细粒度 Token 选择机制 (fine-grained token selection mechanism)
    • 给定每个查询 Token \(\mathbf{h}_{t}\) 的索引分数 \(\{I_{t,s}\}\),fine-grained token selection mechanism 仅检索与最高 k 个索引分数对应的键值条目 \(\{\mathbf{c}_{s}\}\)
    • 然后,通过在查询 Token \(\mathbf{h}_{t}\) 和稀疏选择的键值条目 \(\{\mathbf{c}_{s}\}\) 之间应用注意力机制来计算注意力输出 \(\mathbf{u}_{t}\):
      $$\mathbf{u}_{t}=\text{Attn}(\mathbf{h}_{t},\left\{\mathbf{c}_{s}\mid I_{t,s}\in \text{Top-k}(I_{t,:})\right\}). \tag{2}$$
  • 在 MLA 下实例化 DSA (Instantiate DSA Under MLA)
    • 出于从 DeepSeek-V3.1-Terminus 进行持续训练的考虑,论文为 DeepSeek-V3.2 基于 MLA (DeepSeek-AI, 2024) 实例化了 DSA
    • 在 kernel 层面,为了提高计算效率,每个键值条目必须在多个查询之间共享 (2025)
    • 基于 MLA1 的 MQA (Multi-Query Attention) 模式 (Shazeer, 2019) 实现了 DSA,其中每个潜在向量 (MLA 的键值条目) 将在查询 Token 的所有查询头之间共享
    • 基于 MLA 的 DSA 架构如图 2 所示
    • 详情见:DeepSeek-V3.2 的开源实现以明确指定细节 和 论文附录
Continued Pre-Training
  • 从一个上下文长度已扩展到 128K 的 DeepSeek-V3.1-Terminus base checkpoint 开始,进行持续预训练,随后进行后训练(最终得到 DeepSeek-V3.2)
  • DeepSeek-V3.2 的持续预训练包括两个训练阶段
    • 对于这两个阶段,训练数据的分布与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致
  • 密集预热阶段 (Dense Warm-up Stage) : 使用一个简短的预热阶段来初始化 Lightning Indexer (预热)
    • 在此阶段,论文保持密集注意力,并冻结除 Lightning Indexer 外的所有模型参数
    • 为了使 Indexer 输出与主要注意力分布对齐,对于第 \(t\) 个查询 Token
      • 先通过对所有注意力头求和来聚合主要注意力分数
      • 然后,沿序列维度对该和进行 L1 归一化以产生目标分布 \(p_{t,:}\in\mathbb{R}^{t}\)
    • 基于 \(p_{t,:}\),论文将 KL 散度损失设置为 Indexer 的训练目标:
      $$\mathcal{L}^{l}=\sum_{t}\mathbf{D}_{\text{KL} }\big{(}p_{t,:}\big{|}\text{Softmax }(I_{t,:})\big{)}. \tag{3}$$
    • 对于预热,使用 \(10^{-3}\) 的学习率
    • 只对 Indexer 训练 \(1000\) 步,每步包含 \(16\) 个 128K Token 的序列,总计 2.1B Token
  • 稀疏训练阶段 (Sparse Training Stage) : Indexer 预热之后,引入细粒度 Token 选择机制,并优化所有模型参数以使模型适应 DSA 的稀疏模式
    • 在此阶段,论文仍然保持 Indexer 输出与主要注意力分布的对齐,但仅考虑被选择的 Token 集合 \(\mathcal{S}_{t}=\{s|I_{t,s}\in\text{Top-k}(I_{t,:})\}\):
      $$\mathcal{L}^{l}=\sum_{t}\mathbf{D}_{\text{KL} }\big{(}p_{t,\mathcal{S}_{t} }\big{|}\text{Softmax}(I_{t,\mathcal{S}_{t} })\big{)}. \tag{4}$$
  • 特别注意:作者将 Indexer 输入从计算图中分离 (detach) 出来进行单独优化
    • Indexer 的训练信号仅来自 \(\mathcal{L}^{l}\),而主要模型的优化仅根据语言建模损失进行
    • 在这个稀疏训练阶段,论文使用 \(7.3\times 10^{-6}\) 的学习率,并为每个查询 Token 选择 \(2048\) 个键值 Token
    • 对主要模型和 Indexer 都训练了 \(15000\) 步,每步包含 \(480\) 个 128K Token 的序列,总计 9437 亿 Token
  • 图 2: DeepSeek-V3.2 的注意力架构,其中 DSA 在 MLA 下实例化
    • 绿色部分说明了 DSA 如何根据 Indexer 选择 top-k 的键值条目

Post-Training

  • 持续预训练(continued pre-training)后再执行后训练
  • DeepSeek-V3.2 的后训练也采用与稀疏持续预训练阶段相同的方式使用稀疏注意力
  • DeepSeek-V3.2 保持与 DeepSeek-V3.2-Exp 相同的后训练流程,其中包括专家蒸馏和混合强化学习训练
  • 专家蒸馏(Specialist Distillation)
    • 对于每项任务,首先开发一个专门针对该特定领域的专用模型
      • 所有专家模型都从同一个预训练的 DeepSeek-V3.2 基础 Checkpoint 进行微调
    • 除了写作任务和通用问答外,论文的框架还涵盖六个专业领域:
      • 数学、编程、通用逻辑推理、通用智能体任务、智能体编码和智能体搜索
      • 所有这些领域都同时支持 Thinking 模式和非 Thinking 模式
    • 每个专家都通过大规模 RL 计算进行训练
    • 使用不同的模型来生成长链 Thinking 推理( Thinking 模式)和直接响应生成(非 Thinking 模式)的训练数据
      • 专家模型用来为最终 Checkpoint 生成特定领域的数据
      • 实验结果表明,在蒸馏数据上训练的模型达到的性能水平仅略低于领域特定专家,并且通过后续的 RL 训练可以有效地消除性能差距
  • 混合 RL 训练(Mixed RL Training)
    • 对于 DeepSeek-V3.2,论文仍然采用 GRPO (DeepSeek-AI, 2025; 2024) 作为 RL 训练算法
    • 与 DeepSeek-V3.2-Exp 一样,将推理、智能体和对齐训练合并到一个 RL 阶段
    • 这种方法有效地平衡了不同领域的性能,同时避免了通常与多阶段训练范式相关的灾难性遗忘问题
    • 对于推理和智能体任务,论文采用基于规则的结果奖励、长度惩罚和语言一致性奖励
    • 对于通用任务,论文采用生成式奖励模型,其中每个 Prompt 都有其自己的评估准则(Rubrics RM?)

      For general tasks, we employ a generative reward model where each prompt has its own rubrics for evaluation

  • DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale
    • DeepSeek-V3.2 整合了从专家蒸馏出的推理、智能体和对齐数据,并经过数千步的持续 RL 训练以到达最终 Checkpoint
    • 为了研究扩展 Thinking 的潜力,开发了一个实验性变体,DeepSeek-V3.2-Speciale
      • 该模型仅在 RL 期间长度惩罚降低的情况下,专门在推理数据上进行训练
      • 作者还整合了来自 DeepSeekMath-V2 (2025) 的数据集和奖励方法,以增强数学证明方面的能力
  • 作者重点强调:在第 3.1 节中介绍如何创建一个稳定的方案来扩大 RL 计算规模,以及在第 3.2 节中介绍如何将 Thinking 整合到智能体任务中的努力
  • 图 3:DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2 在 H800 集群上的推理成本

Scaling GRPO

  • 首先回顾 GRPO 的目标
  • GRPO 通过最大化以下关于从旧策略 \(\pi_{\text{old} }\) 采样得到的一组响应 \(\{o_{1},\cdots,o_{G}\}\) 的目标函数来优化策略模型 \(\pi_{\theta}\),给定每个问题 \(q\):
    $$
    \mathcal{J}_{\text{GRPO} }(\theta) =\mathbb{E}_{q\sim P(Q),\{o_i\}_{i=1}^{G}\sim\pi_{\text{old} }(\cdot|q)}\Bigg[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}
    \min \left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right)-\beta\mathbb{D}_{\text{KL} }\left(\pi_{\theta}(o_{i,t})\parallel\pi_{\text{ref} }(o_{i,t})\right)\Bigg],
    $$
    • \(r_{i,t}(\theta)\) 是当前策略与旧策略之间的重要性采样比率:
      $$
      r_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\text{old} }(o_{i,t}|q,o_{i,<t})}
      $$
    • \(\varepsilon\) 和 \(\beta\) 是分别控制剪切范围和 KL 惩罚强度的超参数
    • \(\hat{A}_{i,t}\) 是 \(o_{i,t}\) 的优势,通过对组内的结果奖励进行归一化来估计
      • 使用一组奖励模型为组中的每个输出 \(o_i\) 评一个结果奖励 \(R_i\),分别得到 \(G\) 个奖励 \(R=\{R_1,\cdots,R_G\}\)
      • \(o_{i,t}\) 的优势通过从输出 \(o_i\) 的奖励中减去组的平均奖励来计算,即
        $$ \hat{A}_{i,t}=R_i-\text{mean}(R)$$
        • 特别注意:这里作者没有除以分母!
  • 论文接下来介绍了基于 GRPO 算法的额外更新策略,这些策略可以稳定 RL 的扩展
无偏 KL 估计(Unbiased KL Estimate):有趣的做法
  • 给定 \(o_{i,t}\) 是从旧策略 \(\pi_{\text{old} }(\cdot|q,o_{i,< t})\) 中采样的,这里校正 k3 估计器 (Schulman, 2020) 以使用当前策略 \(\pi_{\theta}\) 和旧策略 \(\pi_{\text{old} }\) 之间的重要性采样比率来获得无偏 KL 估计
    $$
    \mathbb{D}_{\text{KL} }\big(\pi_{\theta}(o_{i,t})\parallel\pi_{\text{ref} }(o_{i,t})\big)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\text{old} }(o_{i,t}|q,o_{i,<t})}\left(\frac{\pi_{\text{ref} }(o_{i,t}|q,o_{i,<t})}{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}-\log\frac{\pi_{\text{ref} }(o_{i,t}|q,o_{i,<t})}{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}-1\right).
    $$
  • 作为此调整的直接结果,该 KL 估计器的梯度变得无偏,从而消除了系统性估计误差,促进了稳定的收敛
  • 这与原始的 k3 估计器形成鲜明对比,特别是当采样到的 Token 在当前策略下的概率远低于参考策略时,即 \(\pi_{\theta}\ll\pi_{\text{ref} }\)
    • 在这种情况下,k3 估计器的梯度会分配不成比例的大且无界的权重来最大化这些 Token 的似然,从而导致噪声梯度更新,这些更新累积起来会降低后续迭代中的样本质量并导致不稳定的训练动态
  • 在实践中,论文发现不同领域受益于不同强度的 KL 正则化
  • 对于某些领域,例如数学 ,应用相对较弱的 KL 惩罚甚至完全省略它都可以获得改进的性能
  • 详细推到证明见附录
Off-Policy Sequence Masking
  • 为了提高 RL 系统的效率,通常生成大量的 rollout 数据,随后将其分割成多个小批次用于若干次梯度更新步骤
    • 但这种做法本质上引入了离策略行为
  • 此外,用于高效数据生成的推理框架通常经过高度优化,其实现细节可能与训练框架不同
    • 这种训练-推理的不一致性进一步加剧了离策略的程度
  • 为了稳定训练并提高对离策略更新的容忍度,论文掩码那些引入显著策略分歧的负序列,其衡量标准是数据采样策略 \(\pi_{\text{old} }\) 与当前策略 \(\pi_{\theta}\) 之间的 KL 散度
  • 论文在 GRPO 损失中引入一个二元掩码 \(M\):
    $$
    \mathcal{J}_{\text{GRPO} }(\theta)=\mathbb{E}_{q\sim P(Q),\{o_i\}_{i=1}^{G}\sim\pi_{\text{old} }(\cdot|q)}\Bigg[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}
    \min \left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right)M_{i,t}-\beta\mathbb{D}_{\text{KL} }\left(\pi_{\theta}(o_{i,t})\parallel\pi_{\text{ref} }(o_{i,t})\right)\Bigg],
    $$
  • 其中
    $$
    M_{i,t}=\begin{cases}
    0 & \hat{A}_{i,t}<0,\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}\log\frac{\pi_{\text{old} }(o_{i,t}|q,o_{i,<t})}{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}>\delta\
    1 & \text{otherwise},
    \end{cases}
    $$
  • \(\delta\) 是一个控制策略分歧阈值的超参数
  • 注意:这里的 \(\pi_{\text{old} }\) 表示推理框架直接返回的采样概率,因此旧策略与当前策略之间的 KL 散度考虑了上述两种离策略来源
  • 同样值得注意的是,论文只掩码具有负优势的序列
  • 直观地说,模型从自身错误中学习受益最大,而高度离策略的负样本可能是有害的,可能误导或破坏优化过程的稳定性
  • 论文通过经验观察到,这种离策略序列掩码操作改善了在某些原本会表现出不稳定性的训练场景中的稳定性
  • 理解:
    • 这个做法很常见,主要是当 \(A < 0\) 时,原始 PPO 的 Clip 机制无法限制 \(\frac{\pi_\theta}{\pi_{\theta_\text{old}}}\) 很大的情况
Keep Routing
  • MoE 模型通过在推理期间仅激活专家模块的子集来提高计算效率
  • 但推理和训练框架之间的差异,加上策略更新,可能导致即使对于相同的输入,在推理和训练期间也产生不一致的专家路由
    • 这种不一致性会引起活跃参数子空间的突然变化,从而破坏优化的稳定性并加剧离策略问题
  • 缓解这个问题的方案:
    • 作者保留了在推理框架中采样期间使用的专家路由路径 ,并在训练期间强制执行相同的路由路径 ,确保优化相同的专家参数
    • 作者发现这种保持路由操作对于 MoE 模型的 RL 训练稳定性至关重要,并且自 DeepSeek-V3-0324 以来已在论文 RL 训练流程中采用
Keep Sampling Mask(解决因 top-p 和 top-k 等导致的训推不一致问题)
  • Top-p 和 top-k 采样是广泛使用的采样策略,用于提高 LLM 生成的响应质量
  • 在 RL 训练中采用这些策略也是有益的,因为它避免了采样极低概率的 Token
    • 理解:这就避免了使用这些 Token 用作优化目标,而这部分 Token 的重要性权重往往可能较大(波动较大)?
  • 这种截断保持了样本质量,但它引入了 \(\pi_{\text{old} }\) 和 \(\pi_{\theta}\) 之间动作空间的不匹配
    • 这违反了重要性采样的原则并使训练不稳定
  • 解决这个问题的方案:
    • top-k:在从 \(\pi_{\text{old} }\) 采样期间保留截断掩码,并在训练期间将它们应用于 \(\pi_{\theta}\)
      • 确保两种策略共享相同的动作子空间
    • top-p:将 top-p 采样与保持采样掩码策略结合使用:
      • 可以有效保持 RL 训练期间的语言一致性

Thinking in Tool-Use

Thinking Context Management
  • DeepSeek-R1 已经证明,融入 Thinking 过程可以显著增强模型解决复杂问题的能力
    • 基于这一见解,作者的目标是将 Thinking 能力整合到工具调用场景中
  • 作者观察到,复制 DeepSeek-R1 的策略会导致显著的 Token 效率低下
    • 注:DeepSeek-R1 的策略是在第二轮消息到达时丢弃推理内容
    • 这种方法迫使模型在每次后续工具调用时为整个问题冗余地重新推理
  • 为了缓解这个问题,作者开发了如图 4 所示的、为工具调用场景严格定制的上下文管理:
    • 仅当对话中引入新的用户消息时,才会丢弃历史推理内容
      • 如果仅追加与工具相关的消息(例如,工具输出),则推理内容在整个交互过程中保留
    • 当推理痕迹被移除时,工具调用及其结果的历史记录仍保留在上下文中
  • 特别需要注意:某些智能体框架,例如 Roo Code 或 Terminus,通过用户消息模拟工具交互
    • 由于上述上下文管理规则,这些框架可能无法完全受益于论文增强的推理持久性
    • 因此,作者建议在此类架构中使用非 Thinking 模型以获得最佳性能
  • 图 4:工具调用场景中的 Thinking 保留机制
Cold-Start
  • 鉴于已有推理数据(非智能体)和非推理智能体数据的可用性,整合这两种能力的一个直接策略是通过精心设计的 Prompting
  • 论文假设模型具备足够的能力来准确遵循明确的指令,从而能够在推理过程中无缝整合工具执行
  • 为了演示冷启动机制的运作(operation),论文选择性地采样训练数据,如附录表 6-8 所示
    • 需要注意的是,不同的任务 Prompt 与不同的系统 Prompt 相关联
  • 表 6-8 展示了一个对应于竞赛编程(competitive programming) Prompt 的示例
    • 表 6 展示了论文推理数据的一个示例,其中使用系统 Prompt 明确要求模型在最终答案之前进行推理,并使用特殊标签 <think></think> 来标记推理路径
    • 表 7 展示了非推理智能体数据的 Prompt ,其中系统 Prompt 包含工具调用的指导
    • 表 8 展示了论文设计的系统 Prompt ,用于指导模型在其推理过程中整合多个工具调用
  • 通过这种方式,尽管工具使用模式中的推理可能缺乏鲁棒性 ,但模型偶尔能够生成期望的轨迹 ,从而为后续的强化学习阶段提供基础
Large-Scale Agentic Tasks
  • 多样化的 RL 任务对于增强模型的鲁棒性至关重要
  • 对于搜索、代码工程和代码解释等任务,论文使用现实世界的工具,包括实际的网络搜索 API、编码工具和 Jupyter Notebooks
    • 虽然这些 RL 环境是真实的,但所使用的 Prompt 要么从互联网来源提取,要么是合成生成的,而不是从真实的用户交互中获取
  • 对于其他任务,环境和 Prompt 都是合成的
  • 论文使用的智能体任务如表 1 所述
    • 表 1:不同智能体任务的描述,包括任务数量、环境类型(真实或合成)和 Prompt 来源(提取或合成)
Search Agent
  • 论文采用基于 DeepSeek-V3.2 的多智能体管道来生成多样化、高质量的训练数据
    • 从大规模网络语料库中跨不同领域采样信息丰富的长尾实体
    • (一个)问题构建智能体 使用可配置深度和广度参数的搜索工具探索每个实体,将发现的信息整合成问答对
    • 具有异构配置(不同 Checkpoint 、系统 Prompt 等)的 (多个)答案生成智能体 为每个提出的 QA 对生成不同的候选响应
    • 具有搜索能力的 一个验证智能体 通过多次轮询验证所有答案,只保留真实答案正确且所有候选答案均可验证为错误的样本
    • 这些数据涵盖多种语言、领域和难度级别
  • 为了补充这些可验证的样本并更好地反映现实世界的使用情况
    • 第一:用来自现有有帮助 RL 数据集的过滤实例来增强数据集,对于这些数据集,搜索工具提供了 measurable benefits
    • 第二:开发跨多个质量维度的详细评估准则(rubrics),并采用生成式奖励模型根据这些准则对响应进行评分
    • 这种混合方法使得能够同时针对事实可靠性和实际帮助性进行优化
Code Agent
  • 论文通过从 GitHub 挖掘数百万个 issue-Pull Request (PR) pairs,为软件问题解决构建了大规模、可执行的环境
  • 该数据集使用启发式规则和 LLM-based 判断进行了严格过滤,以确保高质量,要求每个条目包含合理的问题描述、相关的 Gold Patch 以及用于验证的测试补丁
  • 论文使用由 DeepSeek-V3.2 驱动的自动化环境设置智能体来为这些 pairs 构建可执行环境
    • 该智能体处理包安装、依赖项解决和测试执行
    • 测试结果以标准的 JUnit 格式输出,确保跨编程语言和测试框架的一致解析
  • 只有当应用 Gold Patch 后,满足下面的条件,才认为环境成功构建
    • non-zero count of false-to-positive(F2P)test cases(表明问题已修复)
      • 即 F2P 数量不为 0:即至少存在一个测试用例曾经失败的,使用 Gold Patch 后成功了
    • zero count of pass-to-fail(P2F)test cases(表明没有 regressions)
      • P2F 数量为 0:即没有测试用例曾经成功,使用 Gold Patch 后,失败了
  • 使用此管道,论文成功构建了数万个可重现的问题解决环境,涵盖多种编程语言,包括 Python、Java、JavaScript、TypeScript、C、C++、Go 和 PHP
Code Interpreter Agent
  • 利用 Jupyter Notebook 作为代码解释器来解决复杂的推理任务
  • 作者策划了一组涵盖数学、逻辑和数据科学的多样化问题,每个问题都需要模型利用代码执行能力来得出 Solution
通用智能体(General Agent)【这里的流程还需要再明确】
  • 为了在 RL 中扩大智能体环境和任务规模,作者用了一个自动环境合成智能体,它合成了 1827 个面向任务的环境

    • 这些任务难以解决但易于验证
    • 合成工作流程主要包括环境和工具集构建、任务合成以及 Solution 生成
  • 具体来说,工作流程如下

    • 1)给定一个任务类别(例如,规划旅行行程)和一个配备 bash 和搜索工具的沙盒,智能体首先使用这些工具从互联网生成或检索相关数据,并将它们存储在沙盒数据库中
    • 2)智能体合成一组特定于任务的工具 ,每个工具都实现为一个函数
    • 3)为了创建既具有挑战性又可自动验证的任务 ,智能体做如下工作:
      • 首先:基于当前数据库 propose 一个简单任务,同时抽取这个任务的 Python 实现 Solution Function 和 Verification function
        • 对 Solution function 的要求:
          • 第一:这里的 Solution function 仅限于调用工具函数或执行逻辑计算,不能调用其他函数或直接访问数据库 ,确保只能通过工具接口(interface)解决问题
          • 第二:这个 Solution function 产生的结果必须由 Verification function 验证
        • 如果以上 Solution function 验证未通过,智能体将修改 Solution function 或 Verification function ,直到它产生的 Solution function 输出通过 Verification function 验证
      • 然后:智能体迭代地增加任务难度 ,并更新相应的 Solution function 和 Verification function
        • 在此迭代过程中,如果当前工具集不足以解决任务,智能体将扩展工具集
          • 问题:扩展的依据是什么?何时扩展?
      • 问题:是针对同一个问题,逐步提升任务难度?还是针对不同难度的问题,先解决简单问题,再解决复杂问题?
  • 遵循此工作流程,获得了数千个 <环境, 工具, 任务, 验证器>(<environment, tools, task, verifier>) 元组

    • 理解:这里的 <environment, tools, task, verifier> 是匹配对齐的,在这个环境 envirnoment 下,用这些工具 tools 能解决的任务 task 和 可以验证该 任务是否成功的验证器 verifier
  • 然后使用 DeepSeek-V3.2 在该数据集上执行 RL,并仅保留 pass@100 非 0 的实例,最终得到 1827 个环境及其相应的任务(共 4417 个)

  • 下面展示了一个合成的行程规划示例

  • 示例说明:此示例强调,虽然为满足所有约束的行程计划搜索大型组合空间具有挑战性,但检查给定的候选 Solution 是否满足这些约束则相对简单

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    **合成任务示例:行程规划(An Example of Synthesized Task: Trip Planning)**
    我正在计划从杭州开始的三天旅行,需要帮助创建 2025 年 10 月 1 日至 10 月 3 日的行程。
    一些重要要求:在整个旅行中,我不想重复任何城市、酒店、景点或餐厅。
    另外,请确保你推荐的每家酒店、餐厅和景点实际上都位于我当天将要入住的城市。
    关于第二天还有一件事——我正在试图精明地控制预算。如果我最终预订了每晚 800 元人民币或更贵的豪华酒店,那么我需要更加谨慎地控制其他开支:
    我在两家餐厅(午餐和晚餐)的总消费应保持在 350 元人民币以下,两家餐厅的评分至少应为 4.0 星,并且下午景点的门票需要低于 120 元人民币。
    如果第 2 天的酒店属于中高端范围(500-800 元人民币),那么我有更多的灵活性——我只需要确保我选择的至少一家餐厅评分在 4.0 或更高,并且景点门票应低于 180 元人民币。
    对于更经济实惠的酒店(200-500 元人民币范围),我只需要确保至少一家餐厅的评分在 3.2 或以上。你能帮我制定这个行程吗?

    **提交结果格式(Submit Result Format)**
    ```json
    [
    {"time": "2025-10-01", "city": "city_name", "hotel": "hotel_name", "afternoon_restaurant": "restaurant_name", "afternoon_attraction": "attraction_name", "evening_restaurant": "restaurant_name"},
    {"time": "2025-10-02", "city": "city_name", "hotel": "hotel_name", "afternoon_restaurant": "restaurant_name", "afternoon_attraction": "attraction_name", "evening_restaurant": "restaurant_name"},
    {"time": "2025-10-03", "city": "city_name", "hotel": "hotel_name", "afternoon_restaurant": "restaurant_name", "afternoon_attraction": "attraction_name", "evening_restaurant": "restaurant_name"}
    ]

    行程规划工具集(Tool Set for Trip Planning)

    函数名称 描述
    get_all_attractions_by_city(city) 获取给定城市的所有景点
    get_all_cities() 从数据库获取所有城市
    get_all_hotels_by_city(city) 获取给定城市的所有酒店
    get_all_restaurants_by_city(city) 获取给定城市的所有餐厅
    get_city_by_attraction(attraction) 获取给定景点名称的城市
    get_city_by_hotel(hotel) 获取给定酒店名称的城市
    get_city_by_restaurant(restaurant) 获取给定餐厅名称的城市
    get_city_transport(city) 获取给定城市的所有市内交通选项
    get_infos_by_attraction(info_keywords, attraction) 获取给定景点的指定信息
    get_infos_by_city(info_keywords, city) 获取给定城市的指定信息
    get_infos_by_hotel(info_keywords, hotel) 获取给定酒店的指定信息
    get_infos_by_restaurant(info_keywords, restaurant) 获取给定餐厅的指定信息
    get_inter_city_transport(from_city, to_city) 获取给定城市对之间的所有交通方式
    get_weather_by_city_date(city, date) 获取给定城市-日期对的天气
    submit_result(answer_text) 提交最终答案内容

Evaluation

Main Results

  • 作者在多个 Benchmark 上进行了评估,包括:
    • MMLU-Pro (2024)
    • GPQA Diamond (2023)
    • Human Last Exam (HLE) Text-only (2025)
    • LiveCodeBench (2024.08-2025.04)
    • Codeforces
    • Aider-Polyglot
    • AIME 2025
    • HMMT Feb 2025
    • HMMT Nov 2025 (2025)
    • IMOAnswerBench (2025)
    • Terminal Bench 2.0
    • SWE-Verified (OpenAI, 2024b)
    • SWE Multilingual (2025)
    • BrowseComp (2025)
    • BrowseCompZh (2025)
    • \(\tau^{2}\)-bench (2025)
    • MCP-Universe (2025)
    • MCP-Mark (EvalSys, 2025)
    • Tool-Decathlon (2025)
  • 评估说明及结果:
    • 工具使用基准使用标准函数调用格式进行评估,其中模型配置为思考模式
    • MCP-Universe (2025) 和 MCP-Mark (EvalSys, 2025),使用内部环境评估所有模型
      • 因为搜索和 playwright 环境可能与官方设置略有不同
    • 论文中,将温度设置为 1.0,上下文窗口设置为 128K tokens
    • 对于数学相关任务,如 AIME, HMMT, IMOAnswerBench 和 HLE(理解:其实 HLE 中不全是数学):
      • 论文使用以下模板进行评估:"{question}\n Please reason step by step, and put your final answer within \boxed{}"
        • 理解:这是一个业内目前常用的 Thinking 模板
      • 注:对于 HLE,论文还使用官方模板评估了 DeepSeek-V3.2-Thinking,得分为 23.9
  • 在推理任务上(reasoning tasks):
    • DeepSeek-V3.2 与 GPT-5-high 表现相当,略逊于 Gemini-3.0-Pro
    • 与 K2-Thinking 相比,DeepSeek-V3.2 以显著更少的输出 token 获得了相似的分数,如表 3 所示
    • 这些性能提升可归因于分配给 RL 训练的计算资源增加
      • 在最近几个月,作者观察到性能的持续改进与 RL 训练预算的延长相关,该预算已超过预训练成本的 \(10%\)
      • 作者假设额外的计算预算分配可以进一步增强推理能力
      • 论文呈现的 DeepSeek-V3.2 性能受到长度约束奖励模型的限制;在移除该限制后,论文观察到模型性能的进一步提升,详见第 4.2 节
  • 在代码智能体任务中(code agent evaluations):
    • DeepSeek-V3.2 在 SWE-bench Verified 和 Terminal Bench 2.0 上均显著优于开源 LLM
      • 展示了 DeepSeek-V3.2 在现实世界编码工作流程中的潜力
    • 关于 Terminal Bench 2.0 的特别说明
      • (如前所述)作者为 “思考模式(thinking mode)” 设计的上下文管理策略目前与 Terminus 不兼容;
      • 因此,报告的 46.4 分是使用 Claude Code 框架实现的
      • 作者也使用 Terminus 在非思考模式(non-thinking mode)下评估了 DeepSeek-V3.2,得分为 39.3
    • 对于 SWE-bench Verified,主要得分是使用 DeepSeek 的内部框架获得的
      • 在其他设置(包括 Claude Code 和 RooCode 框架,以及非思考模式)下的鲁棒性测试产生了一致的结果,范围在 72 到 74 之间
  • 对于搜索智能体评估(search agent evaluation)
    • 论文使用标准的商业搜索 API 评估论文的模型
    • 由于 DeepSeek-V3.2 最大仅支持 128K 的上下文长度,大约 \(20%\) 以上的测试用例超过此限制
      • 为了解决这个问题,作者采用了一种上下文管理方法来获得最终分数
      • 注:不使用上下文管理的分数是 51.4
    • 更多细节在第 4.4 节提供
  • 在工具使用基准上(tool-use benchmarks):
    • DeepSeek-V3.2 显著缩小了 open-source 与 closed-source LLM 之间的性能差距,但仍低于 frontier 模型
    • 对于 \(\tau^{2}\)-bench
      • 作者使用模型本身作为 User Agent,获得的最终类别分数为 63.8 (Airline), 81.1 (Retail), and 96.2 (Telecom)
    • 对于 MCP 基准
      • 作者使用函数调用格式,并将工具输出放在标记为 ‘tool’ 角色的消息中,而不是 ‘user’ 角色
      • 在论文的测试中,作者观察到 DeepSeek-V3.2 经常进行冗余的自我验证,生成了过长的轨迹
        • 这种倾向通常导致上下文长度超过 128K 的限制,特别是在诸如 MCP-Mark GitHub 和 Playwright 评估等任务中
          • 因此,这种现象阻碍了 DeepSeek-V3.2 的最终性能
        • 但集成上下文管理策略可以进一步提高性能
          • 论文将此确定为未来工作的方向和对用户的实用考虑
        • 即使 DeepSeek-V3.2 存在此问题,它仍然显著优于现有的开源模型
      • Notably,由于这些基准中使用的环境和工具集在 RL 训练期间未遇到过 ,观察到的改进证明了 DeepSeek-V3.2 将其推理策略泛化到领域外智能体场景的能力
        • 非思考模型在智能体场景中的评估见附录表 9

Results of DeepSeek-V3.2-Speciale

  • 表 3 表明,DeepSeek-V3.2-Speciale 通过利用增加的推理 token 获得了卓越的性能,在多个基准上超越了 SOTA Gemini-3.0-Pro
  • Remarkably,如表 4 所示
    • DeepSeek-V3.2-Speciale 这个通用模型在 2025 年国际信息学奥林匹克竞赛(IOI)和 ICPC 世界总决赛(ICPC WF)中达到了金牌级别的性能,而无需针对性的训练
    • Furthermore,通过结合 Shao 等人 (2025) 的技术,DeepSeek-V3.2-Speciale 模型在复杂的证明任务中表现出色,达到了 2025 年国际数学奥林匹克竞赛(IMO)和中国数学奥林匹克竞赛(CMO)的金牌门槛\(^5\)
    • 详细的评估协议在附录 D 中提供
  • However,DeepSeek-V3.2-Speciale 的 token 效率仍然显著低于 Gemini-3.0-Pro
    • 为了降低部署成本和延迟,作者在官方 DeepSeek-V3.2 的训练中施加了更严格的 token 约束,旨在优化性能与成本之间的权衡
    • 作者认为 token 效率仍然是未来研究的一个关键领域

Synthesis Agentic Tasks

  • 在本节中,作者进行消融实验来研究合成智能体任务的效果
  • 论文关注两个问题
    • 第一:合成任务对强化学习来说是否足够具有挑战性?
    • 第二:这些合成任务的泛化能力如何,即它们能否迁移到不同的下游任务或现实世界环境?
  • 为了回答第一个问题,作者从通用合成智能体任务中随机抽取 50 个实例,并评估用于合成的模型和 frontier closed-source LLM
  • 如表 5 所示,DeepSeek-V3.2-Exp 的准确率仅为 12%,而 frontier closed-source 模型的准确率最多为 62%
    • 这些结果表明,合成数据包含了对 DeepSeek-V3.2-Exp 和 frontier closed-source 模型都具有挑战性的智能体任务
  • 为了研究合成数据上的 RL 能否泛化到不同的任务或现实世界环境
    • 作者对 DeepSeek-V3.2 的 SFT Checkpoint(记为 DeepSeek-V3.2-SFT)应用 RL
  • 为了排除长 Thinking 链和其他 RL 数据的影响
    • 作者仅在非思考模式下对合成智能体任务进行 RL
  • 作者将上述模型与 DeepSeek-V3.2-SFT 和 DeepSeek-V3.2-Exp 进行比较
    • 其中 DeepSeek-V3.2-Exp 仅在搜索和代码环境中进行了 RL 训练(即不包含 合成数据)
    • DeepSeek-V3.2-SFT 则未经过任何 RL 训练
  • 如图 5 所示,在合成数据上进行大规模 RL 在 Tau2Bench、MCP-Mark 和 MCP-Universe 基准上相比 DeepSeek-V3.2-SFT 带来了显著的改进
    • 相比之下,将 RL 限制在代码和搜索场景并未改善这些基准上的性能,进一步凸显了合成数据的潜力

Context Management of Search Agent

  • 即使使用扩展的上下文窗口(如 128k),智能体工作流,特别是在基于搜索的场景中,也经常会遇到最大长度限制,从而过早地截断推理过程
    • 这个瓶颈抑制了测试时计算潜力的充分发挥
  • 为了解决这个问题,当 token 使用量超过上下文窗口长度的 80% 时,作者引入了上下文管理,采用简单的策略在测试时扩展 token 预算
  • 这些策略包括:
    • (1) 总结 (Summary) :总结溢出的轨迹并重新启动 rollout;
    • (2) 丢弃-75% (Discard-75%) :丢弃轨迹中前 75% 的工具调用历史以释放空间;
    • (3) 全部丢弃 (Discard-all) :通过丢弃之前所有工具调用历史来重置上下文(类似于新的上下文工具 Anthropic (2025a))
  • 为了比较,论文还实现了一个并行扩展基线:
    • 并行最少步骤 (Parallel-fewest-step) :采样 N 个独立的轨迹并选择步骤最少的轨迹
  • 论文在 BrowseComp 基准 (2025) 上评估这些策略
  • 如图 6 所示:
    • 在不同的计算预算下,上下文管理通过允许模型扩展测试时计算、提供更多空间来执行额外的执行步骤,从而带来显著的性能提升
    • Summary 将平均步骤从 140 扩展到 364,将性能从 53.4 提高到 60.2;但其整体效率相对较低
    • 尽管 Discard-all 很简单,但它在效率和可扩展性方面都表现良好,达到了 67.6 分,与并行扩展相当,同时使用的步骤显著更少
  • In summary:
    • 测试时计算可以通过上下文管理串行扩展,也可以并行扩展,两者都能有效扩展模型的问题解决能力
    • 但不同的策略表现出不同的效率和可扩展性
      • Thus,在对模型性能进行基准测试时,考虑实际的计算成本至关重要
      • Meanwhile,寻找串行和并行扩展的最佳组合以最大化效率和可扩展性,仍然是未来工作的一个关键方向

Conclusion, Limitation, and Future Work

  • 论文介绍了 DeepSeek-V3.2,有效弥合计算效率与高级推理能力之间差距
  • DeepSeek-V3.2 使用 DSA 解决了关键的计算复杂性,同时没有牺牲长上下文性能
  • (通过增加计算预算)DeepSeek-V3.2 在推理基准上实现了与 GPT-5 相当的性能
  • 论文的大规模智能体任务合成 Pipeline 的集成显著提高了工具使用熟练度,为具有开放 LLM 的鲁棒和可泛化的人工智能智能体开启了新的可能性
  • 高计算变体 DeepSeek-V3.2-Speciale,通过在 IMO 和 IOI 中获得的金牌成就得到了验证,为开放 LLM 树立了一个里程碑
  • 尽管取得了这些成就,与诸如 Gemini-3.0-Pro 这样的 frontier closed-source 模型相比,作者承认存在某些局限性
    • 第一:由于总训练 FLOPs 较少,DeepSeek-V3.2 的世界知识的广度仍然落后于领先的专有模型
      • 论文计划在未来的迭代中通过扩大预训练计算来解决这一知识差距
    • 第二:token 效率仍然是一个挑战;
      • DeepSeek-V3.2 通常需要更长的生成轨迹(即更多 token)来匹配像 Gemini-3.0-Pro 这样的模型的输出质量
      • 未来的工作将侧重于优化模型推理链的智能密度以提高效率
    • 第三,解决复杂任务的能力仍然不如前沿模型,作者将进一步改进论文的基础模型和后训练方案

附录 A: MLA 的 MHA 与 MQA 模式

  • 图 7:MLA 的 MHA 和 MQA 模式示意图
    • 对于 DeepSeek-V3.1-Terminus,训练和前填充时使用 MHA 模式,解码时使用 MQA 模式
    • 图 7 展示了 MLA 的两个方面(MHA 和 MQA 模式)以及它们之间的转换

附录 B:冷启动模板

  • 表 6: 推理数据系统 Prompt 示例。系统 Prompt 要求模型在 <think></think> 标签中输出推理过程
  • 表 7:[工具描述] 和 [工具调用格式] 将被替换为具体的工具和论文设计的工具调用格式
  • 表 8:模型在 Thinking 过程中执行工具调用

附录 C:non-thinking mode DeepSeek-V3.2 智能体能力评估

  • 表 9:DeepSeek-V3.2 非思考模式与思考模式对比
    • 表中的终端测试台分数使用 Claude Code 框架评估
    • 使用 Terminus 框架的非思考模式终端测试台 2.0 分数为 39.3
  • 非思考模式的性能略逊于思考模式,但仍然具有竞争力

附录 D:IOI、ICPC 世界总决赛、IMO 及 CMO 的评估方法

  • 对于所有竞赛:
    • 模型的最大生成长度设置为 128k
    • 不使用任何工具或互联网访问,测试严格遵守竞赛的时间和尝试限制
  • 对于 IOI 评估
    • 作者根据官方竞赛规则设计了提交策略,规则允许每道题最多提交 50 次,并根据在所有子任务中获得的最高分对每次提交进行评分
    • 具体来说:
      • 首先为每道题采样 500 个候选 Solution,然后应用一个多阶段过滤流程
      • 在初始阶段,剔除未能通过提供的样例测试用例或超出长度限制的无效提交
      • 随后,使用 DeepSeek-V3.2-Exp 模型来识别并剔除那些模型明确表示无法或拒绝解决问题的样本
      • 从剩余的有效候选方案中,论文选择具有最长 Thinking 轨迹的 50 个样本进行最终提交
  • 对于 ICPC 评估
    • 作者采用了相同的过滤方法,但初始采样规模较小
    • 论文为每道题生成 32 个候选 Solution ,并应用相同的过滤标准来选择提交
  • 在 IMO 和 CMO 任务中
    • 作者采用 generate-verify-refine 的循环
    • 模型迭代地改进其 Solution ,直到获得完美的自我评估或达到最大修订上限,此过程与 Shao 等人 (2025) 的方法相同

附录:Unbiased KL Estimate 的推导

  • 部分推导逻辑也可以参考博客:DeepSeek-V3.2中无偏 KL估计(Unbiased KL Estimate)的一些想法 - Keith Jiang的文章 - 知乎
  • 本节核心目标是说明为何 DeepSeek-V3.2 在策略梯度中将 KL 散度项乘以重要性权重(importance weight),从而实现对 KL 梯度的无偏估计
    • 注1:在绝对的 On-policy 的更新中,其实 \(\pi_\theta = \pi_{\theta_\text{old}}\),这个重要性权重值为 1,加不加都行
    • 注2:本节中主要是针对 Off-policy 更新的步骤中,需要对 GRPO 的 KL 散度添加重要性权重校准

Background :带 KL 约束的强化学习目标

  • 考虑 LLM 强化学习中的一般目标函数:
    $$
    J_{\text{RL} }(\theta; x) = \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ r(x, y) \right] - \beta \cdot D_{\mathrm{KL} }\left[ \pi_\theta(\cdot|x) \parallel \pi_{\theta_0}(\cdot|x) \right]
    $$
  • 其中:
    • \(x\) 是输入(如 prompt)
    • \(y = (y_1, \dots, y_T)\) 是模型生成的 token 序列
    • \(r(x, y)\) 是 reward
    • \(\pi_{\theta_0}\) 是参考策略(通常为初始策略或 SFT 模型)
    • \(\beta\) 是 KL 正则化系数

自回归模型下的 KL 散度展开

  • 由于语言模型是自回归的,有:
    $$
    \pi_\theta(y|x) = \prod_{t=1}^T \pi_\theta(y_t|x, y_{ < t})
    $$
  • 因此 KL 散度可写为:
    $$
    \begin{align}
    D_{\mathrm{KL} }[\pi_\theta(y|x) \parallel \pi_{\theta_0}(y|x)]
    &= \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \sum_{t=1}^T \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right] \\
    &= \sum_{t=1}^T \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right]
    \end{align}
    $$
    • 注:上式最后一步通过 交换期望与求和顺序 得到
  • 接下来我们先关注第 \(t\) 项
    • 注意到内部只依赖于 \(y_{\le t}\),而期望是对整个序列 \(y\) 的,所以可以利用全概率公式(联合概率密度分解成 \(< t\) 的部分和 \(t\) 本身),于是可以将期望分解为:
      $$
      \mathbb{E}_{y \sim \pi_\theta(\cdot|x)}\left[ \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right]
      = \mathbb{E}_{y_{ < t} \sim \pi_\theta(\cdot|x)} \left[ \mathbb{E}_{y_t \sim \pi_\theta(\cdot|x, y_{ < t})} \left[ \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right] \right]
      $$
    • 上面中括号里面的内容可以转换成 KL 散度的形式:
      $$
      \mathbb{E}_{y_t \sim \pi_\theta(\cdot|x, y_{ < t})} \left[ \log \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_0}(y_t|x, y_{ < t})} \right] = D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\theta_0}(\cdot|x, y_{ < t}) \big)
      $$
    • 于是第 \(t\) 项变为:
      $$
      \text{Term}_t = \mathbb{E}_{y_{ < t} \sim \pi_\theta(\cdot|x)} \left[ D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\theta_0}(\cdot|x, y_{ < t}) \big) \right]
      $$
  • 最终得到:
    $$
    \begin{align}
    D_{\mathrm{KL} }[\pi_\theta(y|x) \parallel \pi_{\theta_0}(y|x)]
    &= \sum_{t=1}^T \mathbb{E}_{y_{ < t} \sim \pi_\theta(\cdot|x)} \left[ D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\theta_0}(\cdot|x, y_{ < t}) \big) \right] \\
    &= \mathbb{E}_{y_{ < t} \sim \color{red}{\pi_\theta}(\cdot|x)} \left[ \sum_{t=1}^T D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\theta_0}(\cdot|x, y_{ < t}) \big) \right]
    \end{align}
    $$
    • 注:上面最后一步是交换期望与求和顺序得到的

将 KL 项放入采样期望内(关键步骤)

  • 回顾原 RL 目标为:
    $$
    J_{\text{RL} }(\theta;x) = \mathbb{E}_{y\sim\pi_\theta}[r(x,y)] - \beta \cdot \mathbb{E}_{y\sim\pi_\theta} \left[ \sum_{t=1}^T D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\text{ref} }(\cdot|x, y_{ < t}) \big) \right]
    $$
    • 注:这里对 \( D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\text{ref} }(\cdot|x, y_{ < t}) \big)\) 求期望的做法已经在前面推导过
  • 将奖励和 KL 散度合并为单个期望得到最原始的 RL 目标应该是:
    $$
    J_{\text{RL} }(\theta;x) = \mathbb{E}_{y\sim\pi_\theta} \left[ r(x,y) - \beta \sum_{t=1}^T D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\text{ref} }(\cdot|x, y_{ < t}) \big) \right]
    $$
  • 在实际训练中(如 PPO、GRPO),我们无法直接从当前策略 \(\pi_\theta\) 采样(因为参数正在更新),而是从旧策略 \(\pi_{\theta_{\text{old} } }\) 采样轨迹 \(\{o_i\}_{i=1}^G\)
    • 此时,目标函数一般需通过重要性采样重写,对于任意函数 \(f(y)\),有重要性采样如下:
      $$
      \mathbb{E}_{y \sim \pi_\theta(\cdot|x)}[f(y)]
      = \mathbb{E}_{y \sim \pi_{\theta_{\text{old} } }(\cdot|x)} \left[ \frac{\pi_\theta(y|x)}{\pi_{\theta_{\text{old} } }(y|x)} f(y) \right]
      $$
  • 现在用 \(\pi_{\theta_{\text{old} } }\) 采样,对 \(J_{\text{RL} }(\theta;x)\) 中的期望估计应用重要性采样有:
    $$
    \begin{align}
    J_{\text{RL} }(\theta;x)
    &= \mathbb{E}_{y\sim\pi_{\theta_{\text{old} } } } \left[ \frac{\pi_\theta(y|x)}{\pi_{\theta_{\text{old} } }(y|x)} \left( r(x,y) - \beta \sum_{t=1}^T D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\text{ref} }(\cdot|x, y_{ < t}) \big) \right) \right]
    \end{align}
    $$
    • 特别注意:这里的 KL 本身依赖于 \(\pi_\theta\)(这一点容易遗忘),重要性权重也依赖 \(\pi_\theta\)
    • 这一步在这里看起来推导很顺利,但是其实非常关键,这里直接回答了之前的一些问题,有了这一步之后,如博客 The critical implementation detail of KL loss in GRPO, Hongyu Zang 中提出的问题就不存在了
  • 至此,可以看出:
    • 当 \(y \sim \pi_{\theta_\text{old}}\) 采样时,重要性权重需要同时对奖励 \(r(x,y)\) 和 KL 散度 \(\sum_{t=1}^T D_{\mathrm{KL} }\big( \pi_\theta(\cdot|x, y_{ < t}) \parallel \pi_{\text{ref} }(\cdot|x, y_{ < t}) \big)\) 进行修正才对
    • 注:之前的实现一般仅对奖励使用重要性权重修正, 而忽略了 KL 散度

Token-level 分别加权的讨论

  • 上述的结果还是按照序列粒度评估的,实际上单独考虑 KL 散度时(不考虑奖励时),其实可以按照 Token-level 来考量
  • 对自回归模型,重要性权重可分解为 token-level 的形式:
    $$
    \frac{\pi_\theta(y|x)}{\pi_{\theta_{\text{old} } }(y|x)} = \prod_{t=1}^T \frac{\pi_\theta(y_t|x, y_{ < t})}{\pi_{\theta_{\text{old} } }(y_t|x, y_{ < t})}
    $$
    • 注意:这里是序列级别加权的,即整个序列看成是一个整体,即 期望里面的 KL 散度先算出来,再统一乘以外面的 Sequence-level 重要性权重
  • 在 RLHF 中, PPO/GRPO 实践时,常采用 token-level importance weight,即 每一步单独加权(而非整句相同重要性权重)
    • 注:数学上,其实这里的 Token-level 重要性权重本是不能拆开的,必须乘起来才能做到在数学上等价于序列级别的奖励和 KL 整体目标
    • 这种从 Sequence-level 到 Token-level 的转换,是为了降低方差,同时 Token-level 的方式可以看做 Sequence-level 重要性采样的一阶近似,更多讨论见论文和本人其他讨论博客:(GSPO)Group Sequence Policy Optimization, 20250728, Qwen(本人解读博客:NLP——LLM对齐微调-GSPO) 和 (MiniRL)Stabilizing Reinforcement Learning with LLMs: Formulation and Practices, 20251201, Qwen(本人解读博客:NLP——LLM对齐微调-MiniRL

补充分析:k3 估计下的 Token-Level 无偏 KL 估计(DeepSeek-V3.2 的做法)

  • 跟上述讨论一样,DeepSeek-V3.2 将 KL 项按照 token 分解,并对每个 token 的 KL 分别使用对应的重要性权重
  • 回忆 k3 估计(一种 KL 的无偏估计器):
    $$
    \begin{align}
    D_{\mathrm{KL} }[\pi_\theta \parallel \pi_{\text{ref} }] &\approx \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - \log \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - 1 \\
    &= \text{k3}
    \end{align}
    $$
    • 补充 k3 本身的性质:对以上 k3 估计求 \(a \sim \pi_\theta\) 下的期望,满足
      $$ \mathbb{E}_{a \sim \pi_\theta}[\text{k3}] = D_{\mathrm{KL} }[\pi_\theta \parallel \pi_{\text{ref} }]$$
  • 但在 GRPO 中,样本是从 \(\pi_{\theta_{\text{old} } }\) 采的,所以要估计(使用重要性采样):
    $$
    \mathbb{E}_{a \sim \pi_\theta} [\text{k3}] = \mathbb{E}_{a \sim \pi_{\theta_{\text{old} } } } \left[ \frac{\pi_\theta(a)}{\pi_{\theta_{\text{old} } }(a)} \text{k3} \right]
    $$
    • 注:若直接用 \(\pi_{\theta_{\text{old} } }\) 采样而不加权,则估计有偏;
  • 真正的无偏估计应为:
    $$
    \begin{align}
    \widehat{D}_{\mathrm{KL} }^{\text{unbiased} }
    &= \frac{\pi_\theta(a)}{\pi_{\theta_{\text{old} } }(a)} \left( \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - \log \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - 1 \right) \\
    &= \frac{\pi_{\text{ref} }(a)}{\pi_{\theta_{\text{old} } }(a)} - \frac{\pi_\theta(a)}{\pi_{\theta_{\text{old} } }(a)} \log \frac{\pi_{\text{ref} }(a)}{\pi_\theta(a)} - \frac{\pi_\theta(a)}{\pi_{\theta_{\text{old} } }(a)}
    \end{align}
    $$
  • DeepSeek 论文中公式与上面等价(DeepSeek 中直接使用了 Token-level 的加权形式),其形式保留原始 k3 形式并乘以重要性权重:
    $$
    D_{\mathrm{KL} }[\pi_\theta \parallel \pi_{\text{ref} }]
    \approx \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,<t})} \left(\frac{\pi_{\text{ref} }(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - \log \frac{\pi_{\text{ref} }(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - 1 \right)
    $$
    • 这就是 DeepSeek-V3.2 文章中提到的 Unbiased KL Estimate
    • 这里的约等于应该是有两层含义:
      • k3 估计是无偏的,但是仍然是一种估计,而不是等于
      • Sequence-level 重要性加权 KL 到 Token-level 重要性加权 KL 的近似
个人思考:无偏性反向证明
  • 上面是正向推导形式,为了方便理解,我们其实也可以反向证明无偏性
  • 记重要性权重为:
    $$
    r_{i,t} = \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,<t})}
    $$
  • 则有:
    $$
    \mathcal{L}_{\text{KL} }^{\text{unbiased} }
    = r_{i,t} \left( \frac{\pi_{\text{ref} } }{\pi_\theta} - \log \frac{\pi_{\text{ref} } }{\pi_\theta} - 1 \right)
    $$
  • 其期望满足(下面第一步的转换是将期望概率乘进去消掉重要性权重的分母,然后将分子作为概率提出来作为期望):
    $$
    \begin{align}
    \mathbb{E}_{o_{i,t} \sim \pi_{\theta_{\text{old} } } } \left[ \mathcal{L}_{\text{KL} }^{\text{unbiased} } \right]
    &= \mathbb{E}_{o_{i,t} \sim \pi_\theta} \left[ \frac{\pi_{\text{ref} } }{\pi_\theta} - \log \frac{\pi_{\text{ref} } }{\pi_\theta} - 1 \right] \\
    &= \mathbb{E}_{o_{i,t} \sim \pi_\theta} \left[ \text{k3} \right] \\
    &= D_{\mathrm{KL} }[\pi_\theta \parallel \pi_{\text{ref} }] \\
    \end{align}
    $$
    • 因此,DeepSeek-V3.2 文章中提到的 Unbiased KL Estimate 估计形式是无偏的

一些思考

  • DeepSeek-V3.2 的 Unbiased KL Estimate 的核心思想是:
    • 将 KL 散度项视为 reward 的一部分,并对其应用与 policy gradient 相同的重要性采样权重,从而保证 KL 梯度的无偏性
  • 最终,在 GRPO 目标函数中,KL 项变为:
    $$
    -\beta \cdot \frac{1}{G} \sum_{i=1}^G \frac{1}{ o_i } \sum_{t=1}^{ o_i }
    \underbrace{\color{red}{\frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,<t})}} \left(\frac{\pi_{\text{ref} }(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - \log \frac{\pi_{\text{ref} }(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - 1\right)}_{\text{Unbiased KL Estimate} }
    $$
    • 注:这里新添加的 \(\color{red}{\frac{\pi_\theta(o_{i,t} | q, o_{i,< t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,< t})}}\) 本身就是 PPO 重要性采样的 ratio,所以这里计算时可以复用这个系数 ratio
    • 这使得整个目标函数的梯度在使用旧策略采样时仍保持对真实 KL 的无偏估计,提升了训练稳定性与效果
    • 注:再次强调,在绝对的 On-policy 的更新中,其实 \(\pi_\theta = \pi_{\theta_\text{old}}\),这个重要性权重可以忽略,类似说明其他博客也有提到
    • 这种做法比之前的一些丢弃 KL 散度的方法更好,但是否比改变形式的方法更好?
  • 理解:其实除了 k3 外,如果使用 k2 也会出现类似的问题,也需要类似修正
  • 其他补充:其实之前的博客也讨论过类似的问题:The critical implementation detail of KL loss in GRPO, Hongyu Zang
    • 博客中还提出了一些解决方案,其中一个方案(方案三)就跟 DeepSeek-V3.2 的方案思想类似
      • 博客中的方案三也是对 KL 散度使用 \(\frac{\pi_{\theta}}{\pi_{\theta_\text{old}}}\) 来进行修正
      • 但博客中提到的方案三是直接将 KL 添加到 Reward 中(类似传统 RLHF 中的做法一样),而 DeepSeek-V3.2 的 Unbiased KL Estimate 仍然是独立的一个 KL Loss
      • 博客相当于 DeepSeek-V3.2 工作的一半,提出了本文前面 “将 KL 项放入采样期望内” 的这一步,没有进一步推导回到独立的 KL Loss
      • 特别说明:如果进一步推导可以发现,在 GRPO 中,使用 kl in reward 是不合适的,因为这会导致 kl(本身的方差就大)会影响真实的 ORM 信号,比如因为正确样本中某个 Token 的 kl 过大,而打压正确样本,这个可能不是我们想要的(最好是整体样本鼓励,但打压某个 kl 较大的 Token 会更合适)

NLP——EvoCUA

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:EvoCUA Technical Report, Meituan, 20260122
    • Github:github.com/meituan/EvoCUA
    • Huggingface:huggingface.co/meituan/EvoCUA-32B-20260105
    • OSWorld:os-world.github.io/
    • 原作者解读:美团EvoCUA技术报告解读

Paper Summary

  • 对论文的评价和关键认知:
    • 论文是研究生同学的作品,实现了 CUA 方向的开源 SOTA,有非常丰富的数据生产经验和 Sense,值得深读
    • 虽然没有使用太多 PPO 等高大上的技术,但从文章里面可以看到作者的工作逻辑是非常严谨的,也做的非常深入,靠的是比较全面的调研、深入思考和工程实践能力拿到的最终效果,值得参考
    • 论文的核心认知:
      • 先对模型注入广泛的原子能力,再通过后续的训练将原子能力串起来,思路与之前的 \(f(g(x))\) 论文类似
      • 数据的质量需要高度保证(去噪非常重要),高质量的数据对应高质量的模型,理解:Garbage in,Garbage out
      • 根据数据的深入分析,构建时识别第一个分叉点,目标是构造 <chosen,rejected> 对用于标准的 DPO 训练,分为两方面构建损失:
        • 范式1:
          • Rejected:旧的错误步骤
          • Chosen:新合成的正确步骤,针对步骤 \(t^*\) 动作纠正,用最优的 Chosen 响应 \((z_{w},a_{w})\) 替换 Rejected 的错误 \((z_{l},a_{l})\)
        • 范式2:
          • Rejected:之前盲目继续的样本
          • Chosen:反思样本,针对步骤 \(t^* + 1\),对错误步骤进行改进(其他更优模型或高温),而不是盲目继续(之前的轨迹会盲目继续)
            • 这里相当于让模型开始反思,从错误中反思重新开始的方式,最终模型能学会思考
      • RFT 和 DPO 数据要使用 On-policy 的
    • 论文整体再次体现了数据为王的思路
  • 问题提出:
    • 原生计算机使用智能体 (Native Computer-use Agents,CUA) 的发展代表了多模态 AI 领域的重大飞跃
    • 但其潜力目前受限于静态数据扩展的约束
  • 现有范式主要依赖于对静态数据集的被动模仿,难以捕捉长时程计算机任务中固有的复杂因果动态
  • 论文介绍了 EvoCUA,一个原生计算机使用智能体模型
    • 与静态模仿不同,EvoCUA 将数据生成和策略优化整合到一个自我维持的演进循环中
    • 为了缓解数据稀缺问题,论文开发了一个可验证的合成引擎,能够自主生成多样化的任务并附带可执行的验证器
    • 为了实现大规模经验获取,论文设计了一个可扩展的基础设施,能够编排数以万计的异步沙箱 Rollout
    • 基于这些海量轨迹,论文提出了一种迭代演进学习策略,以有效地将这些经验内化
      • 该机制通过识别能力边界来动态调控策略更新,即强化成功的例程,同时通过错误分析和自我纠正将失败轨迹转化为丰富的监督信号
    • 在 OSWorld 基准测试上的实证评估表明,EvoCUA 取得了 \(56.7%\) 的成功率,建立了新的开源 state-of-the-art
  • EvoCUA 显著优于先前最好的开源模型 OpenCUA-72B (\(45.0%\)),并超越了领先的闭源权重模型,如 UI-TARS-2 (\(53.1%\))
  • 论文的结果强调了该方法的泛化能力:
    • 通过从经验中学习驱动的演进范式,在不同规模的基座模型上都能带来持续的性能提升,为推进原生智能体能力建立了一条稳健且可扩展的路径

Introduction and Discussion

  • 能够掌握图形用户界面 (GUIs) 的通才(generalist)智能体的开发,代表了通向人工通用智能的关键里程碑
    • 与专用工具不同,这些智能体必须感知复杂的视觉上下文,并在异构应用程序中执行长时程工作流,有效地模拟人机交互
  • 最近的原生视觉语言模型 (VLMs) 已成功地将感知和动作集成到端到端架构中 (2025a, 2025),但实现人类水平的可靠性仍然是一个重大挑战
    • 尽管 UI-TARS-2 (2025a) 和 OpenCUA (2025b) 等 SOTA 模型的,已经建立了基础架构,但进一步的进展越来越受到一个关键瓶颈的限制:依赖静态数据集进行扩展的收益递减
  • 现有的扩展定律主要局限于对固定的、非交互式数据集的被动模仿,无法捕捉现实世界计算机使用中固有的因果反馈
    • 克服这一限制需要一个范式转变,即从通过静态轨迹进行数据扩展,转变为通过大规模交互式 Rollout 进行经验扩展
    • 动态经验比静态文本提供了更丰富的监督信号,包含了环境反馈以及来自成功和失败的关键 Insight
  • However,将原始交互转化为自我改进的学习循环存在三个主要挑战:
    • 1)可验证的数据合成(Verifiable data synthesis) :
      • 仅仅合成文本 Query 通常会导致幻觉,智能体会为不可行的任务生成看似合理的计划
      • 因此,需要一个稳健的框架来确保生成的 Query 严格基于可解决的状态,符合可验证奖励的原则
    • 2)可扩展的交互基础设施(Scalable interaction infrastructure) :
      • 高吞吐量的经验生产需要一个统一系统,将大规模环境模拟与高性能强化学习相结合,以支持持续、异步的交互
    • 3)高效的训练方案(Efficient training recipe) :
      • 给定一个大规模的交互空间,无限制的探索在计算上是不可行的
      • 有效的学习需要一种遵循策略的方法,模仿人类学习动态:巩固已掌握的例程(routines),同时集中关注智能体在成功和失败之间摇摆的边界任务
  • 为了解决这些问题,本报告介绍了 EvoCUA ,一个原生计算机使用智能体,它通过从经验中学习驱动的演进范式应对这些挑战
    • 如图 2 所示,通过将可验证合成、高吞吐量基础设施和演进优化相统一,EvoCUA 建立了一个自我维持的循环,持续将合成计算转化为高质量的智能体能力
  • 论文的核心贡献有三方面:
    • 可验证合成引擎 (Verifiable Synthesis Engine)
      • 为了克服数据瓶颈同时确保严格的环境基础,论文首先提出了一个合成引擎,能够 自主生成多样化任务及其可执行验证器(executable validators)
      • 超越纯文本生成,论文分析原子能力以合成自包含的任务定义
      • 这种“生成即验证(Generation-as-Validation)”的方法消除了自然语言奖励的模糊性,为智能体提供精确的、确定性的监督信号
    • 可扩展交互基础设施 (Scalable Interaction Infrastructure)
      • 为了支持所需的大规模经验扩展,论文构建了一个高性能基础设施,集成了大规模沙箱环境
      • 这个系统不仅仅是轨迹生成,它充当一个动态训练场,提供策略优化所必需的实时反馈和状态转换
      • 通过架构一个完全异步的 Rollout 机制,论文将模拟与模型更新解耦,使系统能够编排数万个并发的交互会话
    • 通过从经验中学习的演进范式 (Evolving Paradigm via Learning from Experience)
      • 论文引入了一个以从经验中学习为中心的迭代训练范式,以确保效率
      • 该过程始于一个注重多样性的冷启动,以 建立稳健的先验
      • 随后,通过持续的环境探索,模型对比成功与失败的轨迹,以巩固有效模式并纠正错误
      • 这个动态反馈循环将累积的经验转化为模型参数,产生一个精确而稳健的执行策略
  • 实证评估表明,EvoCUA 在 OSWorld 基准测试上 (2024) 取得了 state-of-the-art 成功率 \(56.7%\),显著超越了之前的开源 SOTA,OpenCUA-72B (45.0%) (2025b),并超过了领先的闭源模型 UI-TARS-2 (53.1%) (2025a)
    • 此外,演进式经验学习范式被证明是一条可泛化的路径,在不同大小的多个基座模型上带来了一致的增益

Preliminaries

  • 在介绍论文的 EvoCUA 之前,论文在下文中提供 CUA 的基本任务定义
  • 形式上,CUA 可以看作是一个具有显式推理的部分可观测马尔可夫决策过程 (POMDP) (1998),它通过可验证任务合成和策略优化的协同演进循环进行优化

POMDP

  • 给定一个自然语言指令 \(g\),交互过程被建模为一个元组 \((S, A, \mathcal{Z}, \mathcal{O}, \mathcal{P}, \mathcal{R}_{syn})\)
    • 其中 \(S\), \(A\), \(Z\), \(\mathcal{O}\), \(\mathcal{P}\), 和 \(\mathcal{R}_{syn}\) 分别表示状态空间、动作空间、思维空间、观测、转移核和奖励函数
  • 细节如下所示:
    • 状态空间 \((S)\) (State Space) :
      • 环境被建模为具有底层计算机系统状态 \(s_t \in S\),包括应用程序状态、系统配置和隐式的系统级上下文
        • 智能体无法直接观测到这个状态,智能体感知到从该状态渲染出的视觉观测(对应于时间 \(t\) 的屏幕图像)
          $$ I_t \triangleq \mathrm{Render}(s_t) \in \mathbb{R}^{H \times W \times 3} $$
          • \(H\), \(W\) 分别表示屏幕截图的高度和宽度
          • 渲染的屏幕截图 \(I_t\) 是智能体观察环境的唯一感知接口
    • 观测 \((O)\) (Observation) :
      • 在步骤 \(t\),智能体接收原始视觉观测 \(o_t \in \mathcal{O}\),其中
        $$ o_t \triangleq I_t \in \mathbb{R}^{H \times W \times 3} $$
      • 为了解决部分可观测性,论文定义了交互历史
        $$h_t = \{g, o_0, z_0, a_0, \ldots , o_{t-1}, z_{t-1}, a_{t-1}\}$$
        • 它作为智能体决策过程的条件上下文
      • 在实际实现中,为了防止上下文窗口溢出,论文遵循 (2025b, 2025a) 执行上下文工程策略
      • 论文将视觉历史限制为最近的五张屏幕截图,并使用结构化的内心独白和动作表示来压缩文本历史,以平衡性能和 token 效率
    • 动作空间 \((A)\) (Action Space) :
      • 论文定义了一个统一的原生动作空间 \(A\),它包含基于坐标的鼠标事件 \(A_{\mathrm{mouse} }\)、键盘输入 \(A_{\mathrm{keyboard} }\) 以及用于管理任务执行流的特殊控制 \(A_{\mathrm{control} }\) 原语
      • 形式上,论文定义
        $$A = A_{\mathrm{mouse} } \cup A_{\mathrm{keyboard} } \cup A_{\mathrm{control} }$$
    • 思维空间 \((Z)\) (Thought Space) :
      • 论文将推理过程显式地建模为内部思维空间 \(Z\)
      • 在每个步骤 \(t\),智能体在执行动作之前生成一个自然语言推理痕迹(Reasoning Trace) \(z_t \in Z\)
      • 它作为智能体内部的中间认知状态,用于将后续的物理动作基于当前的视觉上下文
    • 策略 \((\pi_\theta)\) (Policy) :
      • 智能体遵循一个参数化的策略
        $$ \pi_\theta (z_t, a_t \mid h_t, o_t)$$
        • 该策略控制推理和动作选择
      • 在每个步骤 \(t\),策略首先生成一个基于当前交互上下文的推理痕迹 \(z_t\),随后基于生成的推理选择一个可执行动作 \(a_t\)
      • 这种顺序生成确保动作执行以显式推理为条件
    • 转移 \((\mathcal{P})\) (Transition) :
      • 环境状态根据状态转移核 \(\mathcal{P}(s_{t + 1} \mid s_t, a_t)\) 演化,它捕捉底层计算机系统响应执行的物理动作 \(a_t\) 的 Dynamics
      • 给定更新后的状态 \(s_{t + 1}\),后续的视觉观测被渲染为 \(I_{t + 1} = \text{Render}(s_{t + 1})\)
    • 可验证奖励 \((\mathcal{R}_{syn})\) (Verifiable Reward (Rsyn)) :
      • 监督通过可验证合成机制基于执行正确性建立
      • 对于 给定的指令 \(g\) ,合成引擎提供一个 可执行的验证器(validator) \(V_g\) ,用于评估任务目标是否满足
        • 注意:每个指令都有不同的 Validator
      • 论文基于终止环境状态定义一个稀疏的、二元的、指令条件的奖励:
        $$ \mathcal{R}_{syn}(s_T; g) \triangleq \mathbb{I}[V_g(s_T) = \text{True}]$$
        • 其中 \(s_T\) 表示 Episode 终止时的环境状态
      • 这种奖励公式提供了结果级别的监督,无需中间标注

Objective

  • 论文不将训练数据视为静态数据集,而是将其概念化为一个动态分布,该分布根据当前策略快照 \(\pi_{\mathrm{old} }\) 进行自适应参数化
  • 优化目标 \(J(\theta)\) 被制定为最大化在:由合成引擎 \(\mathcal{T}_{syn}\) 编排的耦合课程上的验证率
Theoretical Objective
  • 形式上,论文的目标是最大化在一个任务分布上的期望成功率,该分布根据当前策略的能力 \((\pi_{\mathrm{old} })\) 自适应地演进:
    $$J(\theta) = \mathbb{E}_{(g,V_g)\sim \mathcal{T}_{\pi_{\mathrm{old} } }(\cdot |\pi_{\mathrm{old} })}\left[\mathbb{E}_{\tau \sim \pi_\theta (\cdot |g)}[\mathcal{R}_{syn}(s_T;g)]\right],$$
    • 其中 \(\mathcal{T}_{syn}(\cdot |\pi_{\mathrm{old} })\) 表示合成引擎的分布,它根据智能体的性能动态调整任务复杂性和多样性
    • 论文使用 \(\tau \sim \pi_{\theta}(\cdot |g)\) 表示在指令 \(g\) 下在环境 Dynamics \(\mathcal{P}\) 中执行策略 \(\pi_{\theta}\) 所诱导出的轨迹
    • 理解:这里的 \(s_T\) 是 轨迹 \(\tau\) 中的最后一个状态(终止状态)
Empirical Approximation
  • 由于上述期望没有闭式解,论文通过大规模蒙特卡洛估计进行经验近似
  • 可扩展的交互基础设施维护一个临时的经验池 \(\mathcal{B}\),它聚合了高吞吐量的新鲜交互轨迹流:
    $$\mathcal{B} = \{(\tau ,V_g)\mid \tau \sim \pi_{\mathrm{old} }(\cdot |g),(g,V_g)\sim \mathcal{T}_{syn}\} ,$$
    • 其中 \(\pi_{\mathrm{old} }\) 表示驱动成千上万个异步沙箱的策略快照
    • 通过使用从 \(\mathcal{B}\) 中采样的批次持续更新 \(\theta\),论文有效地闭合了可验证合成、大规模执行和策略优化之间的循环
  • 注意:上面的公式表示了经验包括了 轨迹 \(\tau\) 和验证器 \(\V_g\)

Verifiable Synthesis Engine

  • 本节介绍一个可验证合成引擎,它专注于克服固有的局限性
    • 例如 Reward Hacking ,以及缺乏精确的训练信号
  • 与被动数据收集不同,基于该引擎,我们可以实现在“Generation-as-Validation”范式上的操作,如图 3 所示
  • 形式上,给定一个合成指令 \(g\),引擎必须共同生成一个确定性的、可执行的验证器 \(V_g\)
    • 这确保了奖励信号 \(\mathcal{R}_{syn}(s_T; g)\) 源自对最终环境状态的严格验证,从而绕过了语义匹配的模糊性
  • 该架构组织成三个级联模块:结构化任务空间构建、智能体双流合成和严格的质量保证

Structured Task Space Construction

  • 为确保合成分布 \(\mathcal{T}_{syn}\) 捕捉真实世界计算机使用的复杂性,论文首先建立一个分解为域和资源的结构化任务空间
Hierarchical Domain Taxonomy
  • 作者认为原子能力本质上是可转移的,并能组合形成复杂任务
    • 在此原则指导下,论文系统地分类核心桌面应用程序(例如,Web 浏览器、Excel、Word),并将用户行为分解为原子能力
    • 这种正交分解使智能体能够通过原始技能的重组泛化到多样化的场景
    • 例如,Excel 中的财务分析任务被分解为子技能,如公式操作、数据排序和图表生成
  • 利用分层域分类法,论文合成了涵盖多样化用户角色 (2024) 的广泛任务场景,以确保数据多样性
  • 合成的场景范围从教育工作者设计讲座幻灯片到算法工程师进行技术文献调研
Hybrid Resource Injection
  • 为了弥合模拟与现实的差距,论文对环境的初始状态实施了一种混合策略:
    • 参数化合成 (Parametric synthesis) :
      • 对于结构化数据(例如,产品销售数据),论文利用基于代码的生成器,通过参数化变量(如名称、价格和日期)来批量生成文档(Word, Excel, PDF)
      • 这确保了数值和布局的高度可变性
    • 非参数化注入 (Non-parametric injection) :
      • 为了减轻合成模板的单调性,论文注入公共互联网数据(例如,图像、音频、复杂幻灯片)
      • 这迫使智能体处理真实世界文件中固有的视觉噪声和结构多样性

Agentic Dual-Stream Synthesis(双流合成)

  • 核心合成过程被建模为一个基于 ReAct 的智能体工作流 (2022)
  • 给定一个采样的场景元组(角色,能力,资源),一个基座 VLM 作为任务架构师(Architect)执行双流生成:
    • 1)指令流 (g) (Instruction stream) :架构师基于特定的资源上下文制定一个自然语言 Query ,确保用户意图清晰且可实现
    • 2)验证器流 \((V_{g})\) (Validator stream) :同时,架构师生成真值 (GT) 以及相应的可执行评估器代码
      • 这段代码定义了任务的精确成功条件 (2025)
  • 为了确保可执行性,论文强制执行一个闭环反馈机制
    • 生成的代码立即在一个真实的沙箱环境中执行
    • 执行结果(包括成功运行的输出文件,以及失败执行(例如,语法错误、API 不匹配)产生的错误消息)被反馈给模型,用于评估 GT 文件和评估器的质量
    • 这个过程迭代多轮,直到执行成功并通过质量检查
    • 为了进一步增强稳定性,论文将频繁使用的验证逻辑抽象成一个标准化工具库
    • 最后,有效的元组被格式化为一个标准化的 JSON 结构,与 OSWorld 等现有基准测试兼容

Rigorous Quality Assurance

  • 最后阶段通过一个严格的协议过滤原始合成的配对 \(\{(g, V_g)\}\),以消除误报(幻觉的成功)、漏报和数据泄露
Consistency-based filtering
  • 论文部署一个参考计算机使用智能体,在合成任务上执行沙箱 Rollout
  • 论文对数据纳入设定了高标准
    • 首先,由于参数配置异常等问题而无法完成 Rollout 的任务,会将错误消息返回给基于 ReAct 的智能体工作流进行修改
    • 其次,对于成功 Rollout 的任务,论文使用奖励模型和评估器计算通过率
      • 在论文的分层域分类法组织下,论文对 奖励模型和评估器 这两个来源通过率存在显著差异的任务进行人工抽查
      • 对于人工检查发现评估器明显失败导致误报或漏报的情况,论文优化基于 ReAct 的智能体工作流以缓解这些问题
    • 最后,论文保留那些通过沙箱 Rollout、奖励模型和人工检查交叉验证的任务
Tri-fold decontamination:三重去污染
  • 合成数据生成有效地缓解了高质量轨迹的稀缺性,但它引入了数据泄漏的风险,因为强大的模型可能会无意中从其庞大的预训练语料库中复制基准测试内容
  • 为了防止指标虚高并确保论文实验洞察的有效性,论文执行了严格的去污染:
    • (1) 语义去污染,使用 LLM-based 过滤移除与基准测试 Query 语义等效的指令;
    • (2) 配置去污染,修剪在某些域内具有相同应用程序初始化设置的任务;
    • (3) 评估器去污染,验证生成的执行成功条件和真值文件与现有评估脚本没有重叠
  • 通过这条流水线,论文已成功将可验证训练数据扩展到 数万个实例 ,有效打破了人工数据整理的瓶颈

Scalable Interaction Infrastructure

  • 从静态数据扩展到演进式经验学习,需要对基础设施能力进行根本性转变
  • 论文的主动学习范式与被动训练流程不同,需要一个高吞吐量的“健身房(gymnasium)”,能够大规模地持续生成多样化、交互式的反馈
  • 为了应对大规模强化学习中固有的异构性、高并发性和严格会话隔离等挑战,论文开发了一个统一的环境沙箱平台
  • 如图 4 所示,该平台是 EvoCUA 的基石,每天编排数十万个沙箱会话,处理数百万个交互请求,并保持工业级的稳定性

Architecture and Abstractions

  • 为了管理多样化交互任务的复杂性,该平台围绕两个核心抽象进行架构:Tools 和 Clusters
  • Tools:
    • 一个工具封装了模拟环境的不可变定义,包括版本控制的系统镜像和暴露的交互 API
    • 该平台目前支持数百种不同的环境类型,从通用基准测试到专门的智能体环境
    • 这种设计将环境迭代与实验解耦,确保了向后兼容性和可复现性
  • 集群 (动态扩展单元) (Clusters (Dynamic Scaling Units))
    • 集群代表工具的运行时实例,是环境扩展的基本单位
    • 通过指定工具类型和配置资源配额,用户可以为不同的工作负载即时提供定制化的环境服务
    • 这种抽象允许基础设施动态扩展环境实例(从少量调试会话到数万个并发训练节点)而不会产生资源争用或交叉污染

High-Throughput Orchestration(编排)

  • 支持大规模探索的能力取决于论文的微服务架构的效率,该架构专门设计用于消除 I/O 瓶颈并实现快速的环境扩展
    • 基于反应器模式,基础设施依赖于一个异步网关服务以实现非阻塞 I/O
    • 该服务实现了每分钟数十万请求量级的路由吞吐量
  • 通过将控制平面(生命周期管理)与数据平面(环境交互)解耦,网关防止了长时间运行的环境执行阻塞关键的路由逻辑
    • 与网关相辅相成,分布式调度器专为极致的弹性而设计,负责管理海量沙箱镜像的生命周期
    • 利用分布式分片和资源池化,调度器实现了高效的节点调度
    • 更重要的是,它支持突发扩展能力,能在一分钟内启动数万个沙箱实例
  • 这种快速实例化确保了环境扩展严格匹配 On-Policy 强化学习的训练需求,最大限度地减少了策略更新与经验收集之间的延迟
  • 最终,这个弹性的 Scheduling backbone 使基础设施能够稳定地维持超过 10 万个并发沙箱

High-Fidelity Environment Instantiation(高保真环境实例化)

  • 为了支持计算机使用任务的严格要求,论文实现了一个混合虚拟化架构,将 QEMU-KVM 虚拟机封装在 Docker 容器内
Hybrid virtualization,混合虚拟化
  • 虽然 Docker 提供了与论文的编排层的兼容性,但内部执行依赖于带有 KVM 硬件加速的 QEMU
  • 论文构建了一个定制的 QEMU 启动序列,明确禁用了非必需的外围设备,同时优化了 I/O 性能
  • 这种嵌套设计确保了严格的内核级隔离(当智能体执行任意代码时,这对安全性至关重要),同时为 GUI 渲染和 I/O 操作保持了近乎原生的性能
Deterministic environment calibration(校准)
  • 论文基于 Ubuntu 22.04 构建了一个定制的操作系统镜像,以解决模拟环境与现实部署之间的差距,并实现了特定的内核和用户空间补丁:
    • 输入确定性 (HID补丁) (Input determinism (HID patching)) :
      • 标准虚拟化通常存在键位映射冲突
      • 论文在 xkb 内核级别校准了人机接口设备映射
      • 具体来说,论文修改了 /usr/share/x11/xkb/symbols/pc 的定义,以解决符号冲突(例如,US布局中的 < 与 > 的shift状态错误),确保智能体的符号意图与最终实现的字符输入严格匹配
    • 渲染一致性 (Rendering consistency) :
      • 为了防止办公软件中的布局偏移误导视觉智能体,论文将一套全面的专有字体直接注入到系统字体缓存(fc-cache)中
      • 这保证了文档的渲染效果与其原生版本完全相同
    • 运行时稳定性 (Runtime stability) :
      • 镜像通过系统级代理配置进行了加固,以解决网络不稳定的问题,并预安装了xsel和qpdf等依赖项,以消除剪贴板操作和PDF处理过程中的常见运行时错误

Evolving Paradigm via Learning from Experience

  • 为了弥合原子模仿与通用问题解决之间的鸿沟,论文提出了通过从经验中学习的演进范式
  • 该范式从静态数据扩展转向动态能力演进循环
  • 该过程被构建为三个递进阶段:有监督的冷启动以建立行为先验,拒采样微调以通过自适应扩展巩固成功经验,以及强化学习以纠正失败并通过交互探索复杂动态

Cold-Start

  • 为了使用强大的行为先验初始化策略 \(\pi_{\mathrm{init} }\) ,论文构建了一个数据集 \(\mathcal{D}_{\mathrm{prior} }\) ,其中包含展示精确执行和连贯推理的轨迹
  • 论文首先形式化地定义了统一动作和思考空间,以确立智能体的结构边界,随后利用这些定义来合成并格式化基于现实环境的交互数据
Unifying the Action Space(A)
  • 论文实现了语义动作映射 (Semantic Action Mapping),以构建一个统一动作空间
    $$ \mathcal{A} = \mathcal{A}_{\mathrm{mouse} } \cup \mathcal{A}_{\mathrm{keyboard} } \cup \mathcal{A}_{\mathrm{control} }$$
    • 如附录 A 所示
  • 论文将原始事件流分为两个主要部分:
    • 物理交互 (\(\mathcal{A}_{\mathrm{mouse} } \cup \mathcal{A}_{\mathrm{keyboard} }\)) (Physical Interaction) :
      • 这部分包括基于坐标的鼠标事件和键盘输入
      • 为了支持复杂的多步骤操作,论文实现了一个状态化交互机制 (Stateful Interaction mechanism)
      • 通过将离散的按键操作分解为 key_down 和 key_up 事件,策略可以维护复杂任务所需的活动状态(例如,按住 Shift 键进行多选)
    • 控制原语 (\(\mathcal{A}_{\mathrm{control} }\)) (Control Primitives) :
      • 论文引入了元动作来管理与物理 I/O 不同的执行流程
      • 具体来说,wait 原语允许智能体处理异步UI渲染,而 terminate 作为正式信号来结束任务
Structuring the Thought Space(Z)
  • 为了实现可解释和稳健的决策,论文为潜在思考空间 \(Z\) 定义了一个推理模式 (Reasoning Schema)
  • 该模式强加了一种结构化格式,以确保推理过程与执行逻辑严格一致:
    • 目标澄清 (\(z_{0}\)) (Goal Clarification) :
      • 在初始步骤 (\(t = 0\)),要求智能体明确转述用户的目标
      • 这澄清了模糊的指令,并为后续规划过程奠定了基础
    • 观察一致性 (\(z_{\mathrm{obs} }\)) (Observation Consistency) :
      • 为了最小化幻觉 (hallucination),推理轨迹必须包含关键视觉元素的简洁摘要
      • 论文 强制要求此文本摘要与实际观察到的状态之间存在严格的语义一致性
    • 自我验证 (\(z_{\mathrm{check} }\)) (Self-Verification) :
      • 在发出最终终止信号之前,提示智能体执行辅助交互步骤(例如,检查文件状态),以视觉方式确认执行结果与用户指令相符
    • 反思与纠正 (\(z_{\mathrm{reflect} }\)) (Reflection and Correction) :
      • 论文利用失败的 Rollout 进行错误纠正。在识别出失败轨迹中的关键错误步骤后,论文将环境恢复到错误发生前的状态
      • 为了考虑沙箱的非确定性,论文严格筛选恢复的环境与原始轨迹之间的状态一致性
      • 从这个有效的恢复状态出发,论文使用高温采样来诱导自我纠正,生成成功的补救路径
    • 推理增强终止 (\(z_{T}\)) (Reasoning-Augmented Termination) :
      • 为了防止模型对终止标签过拟合,终止动作必须严格以前面的推理轨迹为条件
      • 该轨迹要求智能体明确综合视觉证据来证明任务完成,确保决策基于逻辑而非记忆的模式
  • 基于这些形式化的定义,论文通过在模块化框架内利用基础视觉语言模型(例如,Qwen3-VL、OpenCUA)来合成先验数据集 \(\mathcal{D}_{\mathrm{prior} }\)
    • 至关重要的是,为了确保推理与动作之间的一致性,论文采用了一种事后推理生成策略 (Hindsight Reasoning Generation strategy)
    • 将真实执行路径视为已知的未来信息,论文事后生成解释所观察动作的推理轨迹 \(z_{t}\) ,从而用连贯的认知链来增强物理轨迹
Training Details
  • 对于模型训练,论文将这些多轮轨迹分解为单轮样本
  • 为了平衡信息密度与内存限制,输入上下文仅为最近五个步骤保留完整的多模态细节(截图、推理和动作),而较早的历史信息则被压缩为纯文本的语义动作
    • 训练损失仅针对当前步骤的推理和动作进行计算
  • 最后,为了保留通用的基础能力,论文融入了多样化的通用数据混合,涵盖 STEM、OCR、视觉基础理解和基于文本的推理
    • 这些通用数据的数量与分解后的单轮轨迹样本规模保持平衡
Qualitative Analysis
  • 论文合成了符合此模式的轨迹数据
  • 经过冷启动训练后,定性分析证实智能体有效地掌握了原子能力,如附录 D 所示
    • 但在复杂场景中仍存在关键的稳健性差距
  • 虽然智能体可以执行标准的长流程工作流,但在边界案例中表现出脆弱性
  • 为了应对这些限制,论文进入下一阶段:内化可扩展、高质量的经验

Rejection Sampling Fine-Tuning(RFT)

  • 拒采样微调 (Rejection Sampling Fine-Tuning (RFT)) (2024) 的目标是通过仅从高质量、成功的执行中学习,来巩固智能体解决任务的能力
  • 这个过程包括两个关键组成部分:通过动态计算高效生成成功轨迹,以及对它们进行去噪以最大化信噪比
Dynamic Compute Budgeting
  • 为了在计算限制下优化高质量经验的生成,论文提出了动态计算预算
    • 该机制不是均匀分配 Rollout 资源,而是根据智能体当前对每个特定任务的熟练程度来调整探索预算
  • 论文建立一个层次化的预算谱(hierarchical budget spectrum)
    $$ \mathcal{K} = \{k_{1},\ldots ,k_{n}\}$$
    • 并配以递减的成功率阈值
      $$ \Lambda = \{\tau_{1},\ldots ,\tau_{n}\}$$
      • 理解:过滤用的成功率阈值为什么是逐步递减的,是因为这里的成功率是跟前面的预算一一对齐的,推测预算是逐步减少的,故而对应的成功率也会逐渐减小
    • 对于从合成引擎 \(\mathcal{T}_{\mathrm{syn} }\) 抽取的给定任务 Query \(g\) ,系统识别满足充分条件的最优 Rollout 预算 \(K^{*}\) :
      $$K^{*} = k_{i^{*} }\quad \mathrm{where}\quad i^{*} = \min \{i\mid \mathrm{SR}(k_{i})\geq \tau_{i}\} \tag{1}$$
      • \(\mathrm{SR}(k_{i})\) 表示使用预算 \(k_{i}\) 观察到的通过率
    • 该策略有效地剪除了高效解决的任务,并将计算能力集中在边界 Query 上,即策略表现出高方差的任务
Step-Level Denoising
  • 虽然成功的 Rollout 展示了模型的能力,但它们通常包含显著的噪音
  • 论文使用一个评估模型 (judge model) 来分析轨迹并屏蔽冗余步骤
  • 这种过滤对于不可行的任务尤其重要;
    • 对于这些任务,论文移除所有中间动作,并严格保留推理轨迹和最终的终止失败动作
    • 这个过程将原始数据精炼为高质量监督信号,然后将其汇总到经验池 \(B\) 中
  • 通过这个生成和过滤流程,论文将高保真经验池 \(B\) 扩展到数万条轨迹
  • 论文将这些特定领域的经验与平衡的通用多模态数据语料库交错混合,以防止灾难性遗忘

Reinforcement Learning

  • 虽然 RFT 巩固了智能体能做什么 ,但它 并不显式地纠正其错误
  • 为了扩展能力边界,论文采用 RL 从失败中学习,并通过在线交互进行探索
  • 由于状态不对齐,标准的轨迹级偏好优化不适合长流程任务
  • 论文转而提出了一种步骤级直接偏好优化策略 (Step-Level Direct Preference Optimization strategy) (2024),该策略针对图5所示的关键分叉点 (Critical Forking Points)
Causal Deviation Discovery,因果偏差发现
  • 给定一个失败的 Rollout \(\tau^{- }\) 和一个成功的参考轨迹 \(\tau^{+}\) (从相同或语义等价的任务中检索),论文采用参考引导诊断机制 (Reference-Guided Diagnosis mechanism)
  • 论文将 关键偏差步骤 \(t^{*}\) 识别为第一个时间戳 ,在该时间戳处,尽管环境状态在功能上保持等效,但智能体的动作偏离了参考
  • 这隔离了导致智能体离开最优解流形的特定响应 \((z_{t^{*} }^{- },a_{t^{*} }^{- })\)
  • 注意:这里只是识别到了关键错误步骤
Structured Preference Construction
  • 识别出关键错误 \((z_{l},a_{l}) = (z_{l}^{*},a_{l}^{*})\) 后,论文构建偏好对以提供全面的监督
  • 范式1:动作纠正 (在步骤 \(t^*\)) (Paradigm I: Action Correction (At Step \(t^*\)))
    • 目标是用最优的 Chosen 响应 \((z_{w},a_{w})\) 替换 Rejected 的错误 \((z_{l},a_{l})\)
    • 论文通过基于窗口的参考对齐(通过 VLM 语义匹配从 \(\tau^+\) 迁移思考和动作)或基于视觉的合成(当不存在对齐时,通过通用模型合成新的轨迹)来获得 \((z_{w},a_{w})\)
  • 范式2:反思与恢复 (在步骤 \(t^* +1\)) (Paradigm II: Reflection and Recovery (At Step \(t^* +1\)))
    • 为了提高稳健性,论文处理错误发生后的立即状态 \((t^* +1)\)
    • 论文将智能体的盲目继续视为 Rejected 样本
    • 对于 Chosen 样本 ,论文合成一个反思轨迹 (Reflection Trace)
    • 智能体被训练为停止并生成一个推理链,而不是盲目行动
      • 该推理链:(1) 观察意外的屏幕状态 并 (2) 制定补救计划
  • 理解:
    • 范式1:
      • Rejected:旧的错误步骤
      • Chosen:新合成的正确步骤,针对步骤 \(t^*\) 动作纠正,用最优的 Chosen 响应 \((z_{w},a_{w})\) 替换 Rejected 的错误 \((z_{l},a_{l})\)
    • 范式2:
      • Rejected:之前盲目继续的样本
      • Chosen:反思样本,针对步骤 \(t^* + 1\),对错误步骤进行改进(其他更优模型或高温),而不是盲目继续(之前的轨迹会盲目继续)
        • 这里相当于让模型开始反思,从错误中反思重新开始的方式,最终模型能学会思考
Optimization Objective
  • 论文使用直接偏好优化 (Direct Preference Optimization (DPO)) 来优化策略 \(\pi_{\theta}\)
  • 与论文策略根据历史 \(h_{t}\) 和观察 \(o_{t}\) 生成推理轨迹 \(z\) 和动作 \(a\) 的公式一致,损失函数定义为:
    $$\mathcal{I}(\theta) = -\mathbb{E}_{(h_t,a_t,(z,a)_w,(z,a)_l)\sim \mathcal{D} }\left[\log \sigma \left(\beta \log \frac{\pi_{\theta}(z_w,a_w|h_t,a_t)}{\pi_{\mathrm{ref} }(z_w,a_w|h_t,a_t)} -\beta \log \frac{\pi_{\theta}(z_l,a_l|h_t,a_t)}{\pi_{\mathrm{ref} }(z_l,a_l|h_t,a_t)}\right)\right]. \tag{2}$$
  • 通过使用这些结构化偏好迭代更新策略,EvoCUA 不断扩展其能力边界,有效地将短暂的交互经验转化为稳健的模型参数
  • 总之,演进式经验学习范式为增强智能体可靠性建立了一个严格的循环
  • 通过协同结合拒采样微调来巩固基本执行模式,以及强化学习来纠正复杂、长尾场景中的错误,EvoCUA 迭代地将可扩展的合成经验转化为策略参数
  • 这种双重机制确保智能体不仅在标准任务上稳定性能,而且在边界条件下显著提高了稳健性和泛化能力,从而实现更稳定和通用的计算机使用能力

Evaluation

  • 本节对 EvoCUA 进行全面实证评估
  • 论文的分析聚焦于三个关键维度:
    • (1) 在线智能体能力 (Online Agentic Capability),评估在真实环境中的长程交互;
    • (2) 离线定位 (Offline Grounding),评估细粒度的 UI 元素理解;
    • (3) 通用 VLM 能力 (General VLM Capabilities),确保保留通用的多模态推理能力

Experimental Setup

  • 为了超越静态模仿,论文采用统一的训练流程,该流程始于一个轻量级的冷启动 (cold start) 阶段,使用约 1k 条高质量轨迹来建立完整的动作空间和结构化的推理模式
  • 随后,模型进入一个结合经验生成与策略优化的持续迭代优化循环
    • 在这个演化阶段,论文通过从大规模拒绝采样中收集成功轨迹、应用步级降噪,同时通过从错误中提取的偏好学习和在真实环境中的在线探索来混合优化策略,逐步扩展训练分布
    • 整个过程由一个 pass@k 引导的动态计算策略驱动,该策略自动将计算资源集中在更难的问题上,并为表现不佳的领域合成补充数据,确保跨迭代的持续能力增长
  • 论文通过在 Qwen3-VL-Thinking (2025a) (8B, 32B) 和 OpenCUA (2025b) (7B, 32B, 72B) 基础模型上进行后训练,在不同规模上验证了论文的方法

Main Results

Online Agent Evaluation
  • 论文在 OSWorld 基准测试上评估 EvoCUA,该基准是开放式计算机使用任务的代表性测试平台
  • 如表 1 总结所示,论文的结果突显了所提出方法的有效性:
  • ** SOTA 开放权重性能 (State-of-the-Art Open-Weights Performance)**
    • 论文的主要模型 EvoCUA-32B,基于 Qwen3-VL-32B-Thinking (2025a) 主干微调,达到了 \(56.7%\) 的成功率
    • 这一性能在所有评估的开放权重模型中位列第一
  • 显著改进与效率 (Significant Improvements & Efficiency)
    • EvoCUA-32B 相比之前的开源最先进模型 OpenCUA-72B (45.0%) 取得了 \(+11.7%\) 的绝对提升,相比其基础模型提升了 \(+15.1%\)
    • 值得注意的是,这些结果是在严格的 50 步限制下实现的,而基线模型通常需要 100 步预算才能达到峰值性能,这表明论文模型具有更优的执行精度
  • 与闭源权重前沿模型竞争 (Competitive with Closed-Weights Frontiers)
    • EvoCUA-32B 有效地缩小了与闭源权重模型的差距
    • 最显著的是,它以 \(+3.6%\) 的优势超过了强大的闭源权重基线 UI-TARS-2-2509 (53.1%)
    • 在相同的步数限制下,EvoCUA-32B 与行业领先的 Claude-4.5-Sonnet (58.1%) 之间的性能差距缩小到仅 \(1.4%\)
  • 扩展效率与训练优势 (Scaling Efficiency & Training Superiority)
    • 论文方法的有效性延伸到了更小的模型规模
    • EvoCUA-8B 达到了 \(46.1%\) 的成功率,超越了像 OpenCUA-72B 这样的专用 72B 参数模型
    • 与 Step-GUI-8B (2025) 的直接对比尤其具有启发性:
      • 尽管两个模型都从相同的 Qwen3-VL-8B 主干初始化,但 EvoCUA-8B 取得了 \(+5.9%\) 的更高成功率 (46.1% 对比 40.2%)
      • 这严格隔离了论文演化经验学习范式的贡献,确认了论文的数据合成和 RL 策略从相同的基础架构中释放了显著更大的潜力
Offline Grounding(定位)and General Capabilities
  • 论文评估 EvoCUA 在两个关键维度的性能:
    • 细粒度 GUI 定位 (ScreenSpot-v2 (2024), ScreenSpot-Pro (2025), OSWorld-G (2025))
    • 通用多模态鲁棒性 (MMMU (2024), MMMU-Pro (2025), MathVista (2024), MMStar (2024), OCRBench (2024))
  • 表 2 总结了不同模型规模和主干的结果
Analysis
  • 论文观察到根据使用的基础模型的不同而有不同的行为
  • 对于 OpenCUA-72B 主干,论文的后训练策略在定位和通用基准测试中都保持了性能持平或略有提升(例如,保持 MMMU 分数同时提升 OSWorld-G)
    • 这种稳定性证实,当数据分布一致时,论文的训练方法能有效保留基础模型的知识
  • 与 Qwen3-VL-32B-Thinking 基线相比,EvoCUA-32B 变体在特定指标上表现出性能下降,尤其是在 ScreenSpot-Pro 和 MMMU 上
    • 论文将这种性能下降主要归因于数据分布和模式的差异
    • 由于时间限制,用于微调 EvoCUA 的通用数据集直接采用了来自 OpenCUA-72B 变体实验的数据集
    • 然而,这个数据集是“非思考型”的,与 Qwen3-VL-32B-Thinking 模型的“思考型”分布存在显著不匹配
  • 论文进一步分析了 Qwen3-VL-32B-Thinking 和 EvoCUA 在通用基准测试上的输出长度
    • 结果显示,与 Qwen3-VL-32B-Thinking 相比,EvoCUA 的 Token 数量显著减少 (2,514 vs 3,620),同时输出风格也发生了转变
Conclusion
  • 在 OpenCUA 主干上的一致性能验证了论文训练策略的有效性
  • 在基于 Qwen3-VL-Thinking 的变体中观察到的性能下降主要归因于通用数据分布和模式的转变
  • 未来版本的 EvoCUA 模型将纳入升级的基于“思考”的通用数据集
  • 这种对齐有望解决当前的差异,并进一步提高模型的泛化性能

Ablation Study

  • 为了严格验证 EvoCUA 中每个组件的贡献,论文进行了广泛的消融研究
  • 论文使用了两个不同的基础模型,Qwen3-VL-32B-Thinking 和 OpenCUA-72B,以证明论文特定模块的效力以及演化经验学习范式的普适性
Component Analysis on EvoCUA-32B
  • 论文采用 Qwen3-VL-32B-Thinking 作为基础检查点,以剖析来自统一动作空间、冷启动、拒绝微调和 RL 的累积收益
  • 如表 3 所示,演化循环的每个阶段都带来了显著的单调改进
  • 统一动作空间与冷启动的影响 (Impact of Action Space & Cold Start)
    • 论文首先通过受控单变量实验量化了统一动作空间的影响,将标准的 SFT 基线与一个包含论文精确定义动作的 SFT 变体进行比较
      • 统一动作空间的明确表述提供了 +4.84% 的基础增益
    • 通过进一步在合成的高质量轨迹上进行冷启动训练来注入行为先验,论文观察到额外的 \(+2.62%\) 增益
      • 这验证了用结构化动作模式和连贯推理模式为基础模型奠定基础是进行有效大规模经验学习的前提
  • 演化学习的效力 (Efficacy of Evolutionary Learning (RFT & DPO))
    • 过渡到主动学习阶段,拒绝微调通过巩固成功经验将性能显著提升了 \(+3.13%\)
    • 随后,通过 DPO 明确解决失败模式,论文实现了 \(+3.21%\) 的显著改进,突显了学习“不应该做什么”与学习成功惯例同等重要
    • Crucially,对整个演化循环执行额外的迭代(再叠加一轮 RFT 和 DPO)带来了进一步的 \(+1.90%\) 增益
      • 这种持续收益证实了论文范式的自我维持特性,模型通过递归合成和纠正迭代地精炼其能力边界
Generalizability on OpenCUA-72B
  • 为了验证论文方法的普适性,论文将相同的范式应用于更大的 OpenCUA-72B 模型
  • 如表 4 详述,演化经验学习范式在不同模型规模上带来了一致的增益
  • OpenCUA-72B 上的结果与论文在 Qwen3-VL 上的发现相呼应,DPO \((+3.02%)\) 和 RFT \((+3.69%)\) 贡献显著
  • 有趣的是,论文观察到纯 RFT(叠加 3 轮,没有明确的冷启动)实现了 \(+8.12%\) 的显著增益,如表 5 所示
    • 这表明,对于一个足够强大的基础模型,仅凭合成引擎和可扩展的交互基础设施就可以驱动巨大的能力改进,甚至无需显式注入先验
  • 此外,OpenCUA-72B 采用了标准的 pyautogui 格式
    • 这个动作空间本身支持有状态操作(例如 shift+click)并且没有明显的功能缺陷

Scaling Analysis

  • 论文通过分析在不同 Pass@k 值、最大推理步数和数据量下的性能增益 \((\Delta %)\) 来研究 EvoCUA 的可扩展性
Scaling with Pass@k
  • 在图 6a 中,在所有 Pass@k 指标上,EvoCUA 相对于基础模型 (Qwen3-VL-Thinking) 保持了稳定的性能领先
    • 如图 6a 所示,32B 模型保持了正向增益,在 \(k = 16\) 时达到峰值 \(+4.93%\),即使是在更高的 \(k\) 值时也保持显著优势
    • 这种持续的性能差距表明,论文优化动作空间和推理先验的训练策略从根本上提升了模型的性能上限
Scaling with Max Steps
  • 在图 6b 中,论文观察到随着最大步数限制的增加,性能稳步提升
    • 将推理能力从 15 步增加到 50 步带来了一致的增益,32B 模型相比基线提升了 \(+16.25%\)
    • 超过 50 步后,改进速度放缓,这主要是由于当前训练分布中超过 50 步的轨迹稀缺
Experience Scaling
  • 论文在 RFT 上进行了经验扩展实验
  • 具体来说,论文在 OpenCUA-72B 模型的一个早期迭代上进行了消融研究,省略了冷启动和 DPO 阶段,以专注于多轮 RFT
  • 如表 5 所示,相对于基线的性能增益如下:
    • Round 1:在 2 万样本上独立训练,带来 +2.61 个百分点的增益
    • Round 2:在 22.6 万样本上迭代训练,从第一轮的检查点初始化,将增益提高到 +6.79 个百分点
    • Round 3:在三轮 RFT 迭代聚合的 100 万样本上训练 OpenCUA-72B 基础模型,实现了 +8.12 个百分点的改进
  • 论文的分析突显了数据规模、 Off-Policy 分布和信噪比之间的关键权衡
    • 随着模型能力随规模提升,对噪声的容忍度降低,这为现有的迭代方法创造了瓶颈
    • 但至关重要的是,作者仍然相信只要数据质量、策略对齐和信噪比得到有效优化,进一步的扩展是可以持续的
Environmental Uncertainty and Evaluation
  • 区分 Pass@k 在智能体任务与标准 LLM 基准测试中的作用至关重要
    • 在传统文本生成中,“环境”(即提示)是静态且确定性的;
      • 此时,Pass@k 仅衡量模型内部能力的多样性
    • GUI 环境中引入了固有的环境随机性
      • 系统延迟、网络波动和细微渲染变化等因素意味着相同的动作序列可能产生不同的状态转换
  • 因此,在这种背景下,Pass@k 具有双重目的:
    • 它不仅评估模型的生成多样性,还评估其对抗环境噪声的鲁棒性
  • 论文观察到,即使采用确定性采样(temperature=0),由于这些系统扰动,成功率也会表现出方差
    • 这一发现突显了纯数据扩展的一个关键局限性
    • 为了实现人类级别的可靠性,未来的研究必须优先考虑环境扩展,扩展环境多样性和建模动态不确定性,以确保在现实世界系统中的鲁棒性

Discussions

  • 基于总计超过 100 万加速器小时的上千次独立实验,论文将关于原生计算机使用智能体训练动态的观察归纳为四个关键维度
  • 维度1:经验的双重性 (The Dual Nature of Experiences) :论文的分析表明,成功和失败轨迹的信噪比存在根本性差异,需要不同的处理策略
    • 成功轨迹 (Success trajectories) :由模型生成的轨迹代表已知知识,其特点是噪声低但信息增益有限
      • 虽然最终结果正确,但步级冗余构成了主要的噪声源
      • 如果不积极过滤这些低效步骤,模型会变得脆弱,导致诸如动作别名(对单一状态输出冲突动作)和循环重复(无休止点击相同坐标)等现象
        • 因此,有效过滤是多轮拒绝采样微调的前提
    • 失败轨迹 (Failure trajectories) :相反,失败轨迹是高噪声但高信息的
      • 它们描绘了模型的能力边界,并包含了当前策略无法处理的边界情况
      • 虽然原始失败数据噪声太大无法直接学习,但识别关键错误步骤可以用于构建偏好对
      • 这将失败的尝试转化为用于边界对齐的高价值来源
  • 维度2:基础约束与初始化 (Foundational Constraints and Initialization) :初始化阶段极大地影响了智能体的潜在性能
    • 动作空间的完备性 (Completeness of action space) :动作空间的全面定义是前提
      • 缺少高效操作(例如,三连击、基于 Shift 的快捷键)会导致特定任务(例如复杂的电子表格编辑)实际上无法解决
      • 与正确的初始定义相比,事后添加动作空间是低效的
    • 以模式为中心的冷启动 (Pattern-centric cold start) :冷启动阶段应优先考虑模式多样性而非数据量
      • 论文观察到,轻量级的冷启动足以建立潜在的对齐(奠定动作空间并稳定输出格式)
      • 重度的冷启动通常会产生较高的监督指标,但会创建一个后期更难精炼的检查点
      • 轻量级初始化,随后进行严格的拒绝采样和偏好优化,始终能产生更优的最终性能
  • 维度3:迭代优化的动态 (Dynamics of Iterative Optimization) :计算机使用任务本质上是长程的,通常需要数十次交互回合,为此进行优化需要严格遵守特定的动态属性
    • On-Policy 的必然性 (The on-policy imperative) :论文强调在迭代学习期间使用严格 On-Policy 数据的必要性
      • 作者推测 Off-Policy 数据会扰乱监督期间建立的优化向量的主方向
      • 一旦模型的权重由于分布偏移而偏离最优流形,恢复正确的优化路径在计算上是不可行的
    • 终止的不对称性 (Termination asymmetry) :终止动作的分布是最关键的控制变量
      • 论文观察到一个明显的不对称性:模型在识别失败方面收敛迅速,而识别成功则需要精心校准的正样本密度
      • 成功信号的过度集中会导致过早终止,而不足则阻止智能体停止
    • 自我纠正与未来潜力 (Self-correction and future potential) :为了减轻长程任务中的错误累积,论文利用专注于状态检查和反思的偏好优化
      • 通过针对智能体未能感知错误的步骤,论文增强了鲁棒性
      • 这些改进表明,逻辑上的演进是过渡到在线强化学习,其中先进的信用分配机制可以进一步优化复杂多步环境中的性能
  • 维度4:可视化驱动的诊断与迭代 (Visualization-Driven Diagnosis and Iteration) :作者认为,在长程任务中实现 SOTA 性能需要的不仅仅是算法新颖性;它需要一个透明的调试基础设施
    • 论文开发了一套全面的轨迹分析和可视化工具套件,作为论文演化循环的“眼睛”
    • 这些工具在三个关键阶段发挥了关键作用:
      • 合成的质量保证 (Quality Assurance for Synthesis) :它们使论文能够将合成样本与其真实状态一起可视化,从而能够在论文的合成引擎中的“幻觉验证器”或可执行逻辑错误污染训练池之前快速识别它们
      • 冷启动数据构建 (Cold-Start Data Construction) :通过可视化对比不同基础模型的轨迹特征,论文识别出更优的推理模式和动作序列
        • 这指导了论文高质量冷启动数据集的整理,确保智能体学习鲁棒的行为先验而非嘈杂的模仿
      • 用于精炼的失败分析 (Failure Analysis for Refinement) :论文的 Pass@k 差异分析工具聚合了同一 Query 的成功和失败轨迹
        • 这种细粒度的比较帮助论文精确识别特定的失败模(例如坐标漂移或推理-动作错位),直接指导论文步级策略优化的设计以纠正这些特定弱点

Future Work on Online Agentic RL

  • RLVR (2025) 已成为提升模型可靠性、泛化性和性能的关键框架
  • 在此基础上,论文未来的工作旨在探索基于 GUI 的智能体任务中的在线智能体强化学习
  • 受限于时间,论文尚未进行足够的模型训练和全面的基准评估
  • 因此,本节的后续部分将首先深入分析训练-推理差异问题,然后讨论推进这项工作的未来研究方向

(Training-Inference Discrepancy in Trajectory-Level Training)

  • 诸如 GRPO (2024) 等算法已被证明在广泛的推理任务上有效
  • 这些算法为单个 Query 收集一组轨迹,计算轨迹组内的优势函数,并以轨迹粒度进行训练
    • 但轨迹级训练会在 GUI 任务中引起训练-推理差异
  • 在 Rollout 阶段,GUI 模型并不保留所有完整的上下文信息,而只保留最近步骤的完整信息(包括截图、推理和动作),而更早的历史信息被压缩为纯文本语义动作
    • 如果直接使用最终步骤的轨迹进行训练,模型将无法学习中间步骤的监督信号
Step-Level Policy Optimization
  • 为了解决轨迹级训练中的训练-推理差异,论文提出一种简单而有效的策略优化算法,即步级策略优化 (Step-Level Policy Optimization, STEPO)
  • 对于一个长度为 \(T\) 的轨迹 \(\tau\),每一步 \(t\in \{1,2,\ldots ,T\}\) 包含 \(K_{t}\) 个 Token
    • 论文将步骤 \(t\) 中的第 \(k\) 个 Token 表示为 \(x_{t,k}\) \((k\in \{1,2,\dots,K_t\})\),步骤 \(t\) 的完整 Token 序列表示为 \(x_{t} = (x_{t,1},x_{t,2},\ldots ,x_{t,K_{t} })\)
    • 对于轨迹集合 \(\mathcal{T} = \{\tau_{1},\tau_{2},\ldots ,\tau_{n}\}\),第 \(i\) 个轨迹中步骤 \(t\) 的位置 \(k\) 的 Token 表示为 \(x_{i,t,k}\)
  • 对于每个问题 \(q\),类似于 GRPO,STEPO 从策略 \(\pi_{\theta_{\mathrm{old} } }\) 采样一组轨迹 \(G\):\(\{\tau_{1},\tau_{2},\ldots ,\tau_{n}\}\),并计算轨迹组内的优势:
    $$\hat{A}_i = \frac{R_i - \mathrm{mean}(\{R_j\}_{j = 1}^G)}{\mathrm{std}(\{R_j\}_{j = 1}^G)} \tag{3}$$
    • 其中 \(R_{i}\) 表示轨迹 \(\tau_{i}\) 的奖励
  • 随后,将每个轨迹 \(\tau_{i}\) 对应的优势值 \(\hat{A}_{i}\) 均匀分配给该轨迹包含的所有步骤,即:
    $$\hat{A}_{i,t} = \frac{\hat{A}_i}{ T_i}, \quad t\in \{1,2,\ldots ,T_i\} , \tag{4}$$
    • 其中 \(T_{i}\) 表示轨迹 \(\tau_{i}\) 包含的步骤数
    • 同一步骤内的所有 Token 共享该步骤对应的优势值 \(\hat{A}_{i,t}\)
    • 在此基础上,论文使用所有步级样本进行模型训练
  • STEPO 算法的优化目标可表示为:
    $$\begin{array}{rl} {\mathcal{I}_{\mathrm{STEPO} }(\theta) = \mathbb{E}_{[q\sim P(Q),\{\tau_i\}_{i = 1}^G\sim \pi_{\theta_{\mathrm{old} } }(\mathcal{T}|q)]}} {\frac{1}{G}\sum_{i = 1}^{G}\sum_{t = 1}^{T_i}\frac{1}{K_t}\sum_{k = 1}^{K_t}\{\min [r_{i,t,k}(\theta)\hat{A}_{i,t},\mathrm{clip}(r_{i,t,k},1 - \epsilon_{\mathrm{low} },1 + \epsilon_{\mathrm{high} })\hat{A}_{i,t}] - \beta \mathbb{D}_{KL}(\pi_{\theta}| \pi_{\mathrm{ref} })\} ,} \end{array} \tag{5}$$
    • \(r_{i,t,k}(\theta)\) 表示重要性采样比率:
      $$r_{i,t,k}(\theta) = \frac{\pi_{\theta}(\tau_{i,t,k}|q,\tau_{i,t,k})}{\pi_{\theta_{\mathrm{old} } }(\tau_{i,t,k}|q,\tau_{i,t,k})}, \tag{6}$$
    • \(\epsilon\) 表示剪裁参数
    • \(\mathbb{D}_{KL}\) 表示 KL 惩罚项
    • \(\beta\) 控制 KL 散度正则化强度
  • 通过将轨迹的优势值均匀分配给其包含的所有步骤,该策略实现了两个核心优化效果:
    • 首先,它驱使高优势值轨迹以更少的步骤完成任务,从而减少冗余的执行步骤;
    • 其次,它促使低优势值轨迹扩展探索步骤数,从而提高任务完成率。通过步级策略优化机制,STEPO 可以有效规避训练-推理差异问题
Experiments and Analysis
  • 为了阐明训练-推理差异的影响并验证 STEPO 的有效性,论文在 OpenCUA-32B 模型上进行了在线 RL 训练
  • 如图 7 所示,STEPO 的训练性能显著优于使用最终轨迹训练的 GRPO,这充分证实了 STEPO 的有效性
  • 然而,STEPO 存在训练成本高的问题,因为策略模型的更新次数显著倍增
  • 因此,论文猜测步级训练的要求可能在不同的训练阶段并不一致,仅训练特定的关键步骤也可能达到与训练所有步骤相当的性能
    • 未来,论文将探索扩大在线 RL 规模以及开发更有效的 RL 训练方案等方向

Related Work

Foundation VLMs and Computer Use Capabilities

  • 大型视觉语言模型的格局已迅速发展以支持复杂的智能体任务
  • 专有的前沿模型,最著名的是 Claude 4.5 Sonnet (2025) 和 Seed 1.8 (2025),设定了行业标准,在零样本指令跟随和长程规划方面展示了人类级别的熟练度
  • 在开放权重领域,Qwen3-VL (2025a) 已成为一个强大的主干,引入了下一代动态分辨率和增强的 OCR 能力
  • EvoCUA 直接建立在 Qwen3-VL 架构之上,通过专门的演化后训练课程对其进行增强,以超越通用预训练的限制

Generalist GUI Agents and Benchmarks

  • 为了评估在线智能体性能,OSWorld (2024) 和 OSWorld 是主要的测试平台
  • OpenCUA (2025b) 凭借 AgentNet 数据集建立了一个关键的基础,而 SOTA 工作如 UI-TARS-2 (2025a) 和 Step-GUI (2025) 分别利用了多轮 RL 和逐步视觉推理
  • 与这些重度依赖演示的方法不同,EvoCUA 利用自主合成的、可验证的经验来降低标注成本,同时在 OSWorld 排行榜上实现了更优的性能

Visual Grounding and Action Execution

  • 精确的 GUI 定位是原生计算机使用的基石
  • 早期的方法如 Aguvis (2024) 奠定了基础,而最近的模型如 ShowUI (2025) 和 UGround (2024) 专门针对高分辨率布局优化了视觉-语言-动作架构
  • EvoCUA 从这些专门用于定位的架构中汲取见解,以在高层次规划优化之前建立鲁棒的执行原语

From Imitation to Learning from Experience

  • 训练范式正在从行为克隆 (Behavior Cloning, BC) 向强化学习转变
  • 标准算法如 PPO (2017) 已被 UI-TARS-2 (2025a) 成功适配于多轮 GUI 交互,但最近的研究专注于激励推理能力
    • 这一转变由 DeepSeek-R1 (2025) 和 DeepSeekMath (2024) 开创,它们引入了 RLVR 范式
    • 他们证明了 RL 可以在没有密集过程监督的情况下隐式验证复杂的推理链
  • Feng 等人 (2025) 提出了组内优化 (Group-in-Group optimization) 以稳定此类训练
  • Zhang 等人 (2025) 探索了通过无奖励的“早期经验”进行学习
  • EvoCUA 通过一个可验证的合成引擎解决了数据稀缺瓶颈,从而推进了这一方向,该引擎自主产生可扩展的、基于真实值验证的合成数据
  • 这一基础实现了论文通过经验学习的演化范式,这是一个自我维持的循环,通过在大规模可验证合成轨迹上进行拒绝采样和偏好学习,迭代地增强智能体能力

Conclusion

  • 论文提出了一个通过经验学习的演化范式开发的原生计算机使用智能体 EvoCUA,详尽展示了将合成计算转化为高质量训练信号的有效性
    • 可验证的合成
    • 可扩展的交互基础设施相结合
  • 在 OSWorld 基准测试上,EvoCUA 达到了 \(56.7%\) 的成功率
  • 注:当前的开源模型与领先的闭源权重系统或人类级别的可靠性之间仍然存在性能差距
    • 这种差异突显了仅从合成痕迹进行离线学习的局限性
  • 为了解决这个问题,作者的中心对在线强化学习上
    • 目前作者已经在初步尝试,作者初步调查确定了主动环境交互是进一步改进的关键驱动力,奖励累积的持续上升趋势证明了这一点
    • 未来的作者的工作将侧重于系统地扩展这个在线演化边界,旨在弥合剩余的差距,实现完全自主的计算机使用能力

附录 A:A Unified Action Space

  • 下表详细说明了在 EvoCUA 中实现的统一原生行动空间 \(\mathcal{A}\)
  • Agent 通过调用 computer_use 函数并指定特定的行动及其相应参数来与环境交互

附录 B:Cold Start: Hindsight Reasoning Generation(事后推理生成)

  • 为了为监督式冷启动阶段构建高质量数据,论文将原始的物理交互轨迹转化为增强了明确认知链的训练样本
  • 论文采用事后推理生成 (Hindsight Reasoning Generation) 策略来实现这一点
    • 通过将真实执行路径视为已知的未来信息,论文利用一个通用模型来回溯性地生成解释所观察行动的推理轨迹 \((z_{t})\),从而在认知和执行之间建立因果对齐
  • 生成过程由一系列强制执行论文思维空间 \((Z)\) 中所定义结构模式的、上下文感知的提示模板驱动
  • 根据执行阶段的不同,生成逻辑调整如下:
    • 1)目标澄清 \((z_{0})\) 在轨迹的初始步骤 \((t = 0)\),推理生成的重点是解决歧义并建立全局计划
      • 上下文 (Context) :为通用模型提供用户指令、初始屏幕截图和第一个可执行代码块
      • 生成逻辑 (Generation Logic) :论文使用一个强制要求第一人称视角的特定模板。模型必须明确陈述当前环境状态、澄清任务目标、并阐述一个高层次计划(例如,“我需要打开浏览器来搜索…”),然后证明所采取的具体行动是合理的。这确保了后续的物理执行基于清晰的意图
    • 2)观察一致性 \((z_{obs})\) 对于中间步骤,目标是保持视觉观察和推理轨迹之间的语义一致性
      • 上下文 (Context) :模型分析从前一个状态到当前状态的转换
      • 生成逻辑 (Generation Logic) :提示指令模型识别环境中“发生了什么变化”,并解释“为什么需要这个行动”来推进工作流
      • 语义抽象 (Semantic Abstraction) :为了防止过拟合于特定的屏幕分辨率,提示明确限制生成内容,避免提及原始像素坐标
        • 相反,引导模型从语义上描述目标 UI 元素(例如,“点击‘文件’菜单”而非“点击 (100, 200)”),确保推理对不同布局变化保持鲁棒性
    • 3)反思与纠正 \((z_{reflect})\) 对于涉及错误恢复(“恢复”轨迹)的轨迹,论文实现了一个专门的反思机制 (Reflection Mechanism)
      • 上下文 (Context) :当处理从失败中恢复的轨迹片段时,合成引擎将特定的 analysis_reason(先前失败的根本原因)注入到提示上下文中
      • 生成逻辑 (Generation Logic) :模型被强制要求以专用的标头开始思维轨迹:“反思:”
        • 它必须回顾性地分析失败原因(例如,“反思:我意识到我之前点击图标的尝试失败了,因为…”)
      • 自我纠正 (Self-Correction) :在反思之后,模型必须自然地过渡到一个纠正后的计划(例如,“现在我将尝试一种不同的方法…”),从而有效地将自我纠正的逻辑内化到训练数据中
    • 4)推理增强的终止 \((z_{T})\) 为了缓解过早或延迟停止的问题,终止行动基于严格的视觉验证过程
      • 上下文 (Context) :生成在轨迹的最后一步触发
      • 生成逻辑 (Generation Logic) :要求通用模型根据初始指令评估最终屏幕截图
        • 它必须在发出最终终止信号之前,生成一个提供任务完成(或失败)视觉证据的推理轨迹
        • 这确保了 Agent 的终止决策是基于逻辑验证,而不是记忆的轨迹长度
  • Algorithm 1:

附录 C:Algorithm for DPO

  • 在本节中,论文介绍步骤级直接偏好优化 (Step-Level Direct Preference Optimization, DPO) 的算法实现
  • 该方法侧重于两个核心过程:关键错误识别和偏好对构建
  • 算法 2 详细说明了论文如何从失败轨迹中识别关键分岔点 (Critical Forking Points) ,并为行动纠正和反思两者构建配对数据

附录 D:Trajectory Analysis and Visualization

  • 为了实现 Agent 行为的细粒度诊断并严格验证论文合成生成的经验质量,论文开发了 EvoCUA 轨迹检查器 (EvoCUA Trajectory Inspector)
    • 该可视化系统允许论文逐帧检查 Agent 的视觉观察 \((o_{t})\)、内部推理轨迹 \((z_{t})\) 和可执行代码行动 \((a_{t})\) 之间的对齐情况
  • 论文使用一个来自电子表格领域的代表性合成任务来说明该系统的实用性:“找到每行的最大值并将其放置在 G 列中” 这个长视程任务是一个验证论文合成引擎逻辑一致性的严格测试平台
  • 图 8 展示了这些关键时间戳的可视化
  • 解读:
    • 步骤 9(\(t=9\)):有状态交互
      • 此视图验证了统一行动空间 (Unified Action Space)
      • 合成真实情况需要一个有状态操作(Shift-选择)
      • 检查器确认 Agent 正确执行了 key_down: shift \(\rightarrow\) click \(\rightarrow\) key_up: shift 序列
    • 步骤 15(\(t=15\)):已验证的终止
      • 最后一帧验证了推理增强的终止模式 (Reasoning-Augmented Termination schema)
      • 工具突出显示 Agent 生成了视觉证据(“我可以看到… 最大值列… 已计算”)来证明成功的终止状态是合理的

NLP——Agent-Learning-via-Early-Experience

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Agent Learning via Early Experience, arXiv 202451009, Meta

Paper Summary

  • 论文核心介绍了通过 Early Experience 范式来训练 Agent 的策略
    • 提出 Early Experience 作为一种可扩展的、无奖励的范式,在强化学习环境完全准备好之前推进语言智能体
    • 通过将智能体自身的动作和结果状态转换为监督,而无需外部奖励信号,论文在八个多样化的环境中取得了一致的增益,涵盖了具身导航、科学实验、长程规划、多轮工具使用和网络导航
    • 在此范式下提出的两种方法:隐式世界建模 (implicit world modeling) 和自反思 (self-reflection)
      • 这两种方法可以改善领域内的有效性和领域外的鲁棒性(in-domain effectiveness and out-of-domain robustness),并且在用于热启动(warm-start)强化学习时保持了其优势
      • 在即将到来的经验时代 (era of experience) 中,作者将 Early Experience 定位为构建更强语言智能体的实用和通用基础(practical and general foundation)
  • 思考:
    • 论文所谓的隐式世界建模和自反思,侧重于短程轨迹,将这些扩展到解决没有显式奖励的长程信用分配仍然是一个开放的挑战
    • 未来的工作将探索(来自原文)
      • 方向一:将 Early Experience 与更丰富的自监督目标相结合 ,利用跨环境迁移,并在持续学习设置中将其与基于奖励的微调相集成
      • 方向二:研究除了论文提出的两种方法之外的其他 Early Experience 实例
      • 论文也希望将该范式扩展到大规模、真实世界的部署中,在那里交互数据被有机地收集并可以驱动策略的持续改进
  • 问题提出:语言智能体的一个长期目标是通过自身经验进行学习和改进,最终在复杂的现实世界任务中超越人类
    • 但在许多环境中,使用经验数据通过强化学习来训练智能体仍然很困难
    • 这些环境要么缺乏可验证的奖励(例如网站),要么需要低效的 Long-horizon 展开(例如多轮工具使用)
  • 目前大多数智能体依赖于在专家数据上进行监督微调,这种方法难以扩展且泛化能力差
    • 这种局限性源于专家 Demonstrations 的本质:只捕捉了狭窄范围的场景,并且让智能体接触到的环境多样性有限
  • 论文通过一种论文称之为 Early Experience 的中间范式来解决这个局限性:
    • 由智能体自身行动产生的交互数据,其中产生的未来状态作为监督信号 ,无需奖励信号
  • 在这个范式中,论文研究了使用这种数据的两种策略:
    • (1) 隐式世界建模(Implicit World Modeling) ,它使用收集到的状态来使策略基于环境动态;
    • (2) Self-Reflection ,智能体从其次优行动中学习以改进推理和决策制定
  • 论文在八个不同的环境和多个模型系列中进行评估
  • 论文的方法持续提高了有效性和领域外泛化能力,突显了 Early Experience 的价值
  • 在具有可验证奖励的环境中,论文的结果提供了有希望的信号,表明 Early Experience 为后续的强化学习奠定了坚实的基础,将其定位为模仿学习和完全由经验驱动的智能体(fully experience-driven agents)之间的实用桥梁
  • 问题:为什么不试试 IWM 和 Self-Reflection 同时生效的策略?

Introduction and Discussion

  • 自主智能体(Autonomous agents) (1995; 1997) 长期以来一直是人工智能的核心目标,旨在无需人工干预的情况下,在复杂环境中感知、行动和学习以完成目标
  • 随着语言智能体 (2024;) 的出现,这一愿景正变得越来越现实,这些智能体构建在大语言模型 (2024) 之上
    • 凭借从大规模预训练中获得的知识以及语言接口的灵活性,语言智能体现在被应用于广泛的环境中
    • 它们可以浏览网站和移动应用程序 (2023; 2024;),控制各种工具 (2024),并辅助科学研究 (2025;),显示出作为下一代智能系统基础的强大潜力
  • 构建此类语言智能体 ,一个有前途的解决方案是强化学习 ,即通过优化环境返回的期望累积奖励来训练智能体
    • 这种范式使得像 AlphaGo (2016) 这样的传统智能体在具有明确定义环境和奖励结构的领域(如 Atari 游戏 (2013) 和围棋游戏)中实现了超人的性能,呼应了语言智能体新兴的 经验时代 (2025) 的愿景
    • 但将强化学习应用于现实世界的语言智能体目前仍然极具挑战性
      • 许多感兴趣的环境缺乏可验证或密集的奖励信号 ,特别是在开放式设置中,比如网站,平台不暴露真实反馈
        • 例如,一个表单可能看起来提交成功,但智能体没有收到任何关于每条信息是否填写正确的指示
      • 此外,多轮工具使用环境中的任务通常涉及长的交互序列 (2025),结果延迟或模糊 ,使得信用分配和训练低效且不稳定
  • 作为一种变通方法,目前大多数语言智能体转而使用监督微调 (2023; 2025;) 在专家策划的数据上进行训练
    • 这种范式通过学习人类 Demonstrations 来规避对奖励信号的需求,智能体使用静态数据集将状态映射到行动
    • 虽然监督微调训练起来简单高效,但它有其固有的局限性
      • 在此范式下的智能体在训练期间不与环境交互;它不观察自身行动的结果
      • 这限制了它从失败中学习、改进其决策制定或泛化到未见情况的能力 (2025)
    • 此外,这种方法假设数据是专家或接近最优的,然而扩展高质量的人类 Demonstrations 既昂贵又难以持续
    • 更关键的是,它将智能体锁定在一个被动的角色中,受限于其训练数据的想象力和覆盖范围,而不是主动地从自身经验中学习
  • 鉴于这些局限性以及前述可靠奖励信号通常不可用,我们遇到了一个问题:如何训练智能体从其自身经验中成长 ,无需任何外部奖励信号呢?
  • 受这些局限性启发,论文引入了 Early Experience 范式,作为模仿学习和强化学习之间的中间地带,如图 1 所示
    • 在这种设置中,智能体不仅从人类策划的数据中学习,还从其自身在环境中提出的行动所驱动的未来状态中学习
    • 这些未来状态是智能体自身的经验,并且可以转化为监督信号,使其能够直接从其行动的后果中成长,而无需依赖外部奖励信号
  • 论文探索了两种将这些未来状态转化为监督的策略:
    • (1) 隐式世界建模 :使用收集到的未来状态来帮助智能体建立对环境动态的内部表征,使其通过预测未来状态来更好地理解环境
    • (2) Self-Reflection :引导智能体将其行为与专家 Demonstrations 进行比较,识别次优决策,并提取经验教训以改进未来的决策制定
  • 这两种策略共享相同的原则:在缺乏外部奖励的情况下,智能体自身的行动及其产生的未来状态仍然可以构成经验,作为直接的监督来源
    • 通过将由其自身行动产生的未来状态转化为学习信号,语言智能体可以在不依赖额外人类数据或外部奖励的情况下持续改进
  • 论文在八个不同的环境中全面评估 Early Experience,涵盖具身导航、网络导航、多轮工具使用、 Long-horizon 规划和多领域 API 任务,并使用多种基础架构
    • 在所有设置中,两种方法都一致地优于纯模仿学习基线,在成功率上平均绝对增益为 +9.6 ,在领域外泛化上平均绝对增益为 +9.4
    • 此外,在具有可验证奖励的环境中,使用 Early Experience 方法训练的检查点初始化强化学习,与标准的模仿学习热启动相比,能带来显著更强的性能,最终成功率提高了 +6.4
    • 这表明 Early Experience 阶段带来的性能增益可以延续到强化学习后最终模型的性能上
  • 除了这些经验性收益之外,论文的分析表明, Early Experience 实现了仅通过模仿学习无法获得的能力
    • 它能有效扩展,仅用一半甚至更少的专家数据就能达到相当或更优的性能
    • 该范式可无缝应用于更大的模型,在不同规模上保持其有效性
  • 这些结果表明, Early Experience 不仅仅是模仿学习的替代品,而且是通向强化学习的一个实用且可扩展的桥梁,既带来了有效性的即时收益,也为 经验时代(era of experience) 的训练机制带来了长期益处
  • 论文的贡献总结如下:
    • (1) 论文倡导并将 Early Experience 范式形式化,作为构建自主语言智能体的模仿学习和强化学习之间的一个实用且可扩展的桥梁
      • 它使智能体能够将其自身经验转化为学习信号,而无需依赖外部奖励,并且可以无缝集成到现有的训练流程中
    • (2) 论文在此范式下提出并系统研究了两种训练策略:
      • 隐式世界建模,通过直接从收集的经验中建模环境动态来增强决策制定;
      • Self-Reflection ,从智能体自身行动中提炼细粒度的经验教训
    • (3) 论文在八个不同的环境和多个模型系列中进行了全面评估
      • 论文的方法持续提高了任务有效性、领域外泛化能力和下游强化学习性能,在多个基准测试中取得了 SOTA 结果,并通过详细分析提供了可行的见解

Preliminaries

  • 论文将语言智能体决策制定问题形式化为马尔可夫决策过程 (MDP, 1957),这为论文的 Early Experience 范式提供了数学基础
  • 论文考虑一个由下面元组 定义的 MDP
    $$ \mathcal{M}=(\mathcal{S},\mathcal{A},T,R,\gamma,\rho_{0})$$
    • 其中 \(\mathcal{S}\) 表示状态空间,\(\mathcal{A}\) 表示行动空间
    • 状态转移函数 \(T\colon \mathcal{S}\times \mathcal{A}\to \Delta(\mathcal{S})\) 支配状态动态,其中 \(\Delta(\mathcal{S})\) 表示 \(\mathcal{S}\) 上的概率单纯形
    • 奖励函数 \(R\colon \mathcal{S}\times \mathcal{A}\to \mathbb{R}\) 在可用时提供反馈信号,尽管在许多现实世界设置中,此函数在训练期间可能未知或不可验证
    • \(\gamma\in [0,1]\) 是折扣因子,\(\rho_{0}\in \Delta(\mathcal{S})\) 指定了初始状态分布
  • 在语言智能体环境中:
    • 状态 \(s\in \mathcal{S}\) 编码智能体可访问的环境配置,例如网页内容、工具输出或文本环境描述
      • 理解:还包括了之前的 所有 Prompt 吧
    • 行动 \(a\in \mathcal{A}\) 对应于离散选择,例如点击元素、调用工具或生成文本响应
    • 智能体维护一个由 \(\theta\) 参数化的策略,将状态映射到行动分布 (1992):
      $$ \pi_{\theta}\colon \mathcal{S}\to \Delta(\mathcal{A}) $$

Learning without Rewards

  • 现实世界语言智能体环境中的一个关键挑战是缺乏可靠的奖励信号
    • 许多环境要么完全缺乏可验证的奖励,要么仅在长的交互序列之后提供稀疏、延迟的反馈
  • 这促使论文从替代的监督源中学习
  • 给定一个专家 Demonstrations 数据集
    $$ \mathcal{D}_{\text{expert} }=\{(s_{i},a_{i})\}_{i=1}^{N}$$
    • 其中 \(a_{i}\) 表示在状态 \(s_{i}\) 下的专家行动
  • 模仿学习 (1991; 1996; 2017) 旨在最小化监督学习损失:
    $$ \mathcal{L}_{\text{IL} }(\theta)=-\sum_{i=1}^{N}\log \pi_{\theta}(a_{i} \mid s_{i}). $$
  • 然而,这种方法会遭受分布偏移并且缺乏对行动后果的认知
  • 分布偏移的发生是因为智能体学习到的策略 \(\pi_{\theta}\) 在部署时不可避免地会偏离专家策略,导致训练数据未覆盖的状态,其中错误会复合 (2011)
  • 智能体缺乏对行动后果的认知,因为它从未观察到当其采取非专家行动时会发生什么;它只看到专家状态-行动对,而没有体验替代选择的后果
  • 这限制了其从错误中恢复或推理某些行动为何失败的能力 (2010)

Early Experience

  • 论文引入了 Early Experience 范式,在这种范式中,语言智能体通过与环境进行无奖励但信息丰富的未来状态交互来改进
  • 为了建立直观理解,考虑一个学习在网络上预订航班的语言智能体
    • 在传统的模仿学习中,它只看到成功预订的专家演示
    • 而有了 Early Experience ,智能体还会探索当它点击不同的按钮或错误填写表格时会发生什么,观察错误消息、页面变化和其他结果
      • 这些观察结果成为了没有显式奖励的学习信号
    • 从专家轨迹开始,智能体在每个访问状态提出自己的动作,通过探索(Thrun, 1992)收集额外的环境反馈

Notation for Early Experience

  • 对于专家数据集 \(\mathcal{D}_{\text{expert} }=\{(s_{i},a_{i})\}_{i=1}^{N}\) 中的每个专家状态 \(s_{i}\),论文定义一个候选动作集 \(\mathcal{A}_{i}=\{a_{i}^{1},a_{i}^{2},\ldots,a_{i}^{K}\}\),其中论文从初始策略 \(\pi_{\theta}(\cdot \mid s_{i})\) 中采样 \(K\) 个 alternative 动作
    • 论文在分析中也包括专家动作 \(a_{i}\)
  • 对于专家动作 \(a_{i}\),执行它会跳转到下一个状态 \(s_{i+1}\)
    • 对于每个 alternative 动作\(a_{i}^{j}\in \mathcal{A}_{i}\) ,在环境中执行它会从转移函数 \(T(s_{i},a_{i}^{j})\) 中采样得到一个下一个状态 \(s_{i}^{j}\)
    • 这些下一个状态捕捉了在状态 \(s_{i}\) 采取动作 \(a_{i}^{j}\) 的直接后果,反映了环境中的变化,例如更新的 DOM 结构、新的工具输出、错误消息或任务进展
  • 论文将这些交互收集到一个 rollout 数据集中:
    $$\mathcal{D}_{\text{rollout} }=\{(s_{i},a_{i}^{j},s_{i}^{j})\mid i\in[N],j\in[K]\},$$
    • 其中每个三元组表示一个状态、在该状态采取的一个 alternative 动作以及产生的下一个状态
    • 所有 alternative 动作 \(a_{i}^{j}\) 都与专家动作 \(a_{i}\) 不同 ,允许智能体从其自身提出的动作中体验多样化的状态转移
      • 这个 rollout 数据集 \(\mathcal{D}_{\text{rollout} }\) 提供了丰富的监督信号,而不需要显式的奖励
    • 下一个状态 \(\{s_{i}^{j}\mid j\in[K]\}\) 通过环境响应编码了关于动作质量的隐式反馈,使智能体能够从专家和非专家行为的后果中学习
  • 图 2:两种 Early Experience 方法的概述
    • 隐式世界建模(左)用 alternative 动作和预测的下一个状态增强专家轨迹,在部署前训练策略以内化转移动态
    • Self-Reflection(右)用自我生成的解释 \(c_{1}\) 增强专家动作,训练策略对其自身决策进行推理和修正
    • 两种方法都使用初始策略(LLM)提出的 alternative 动作
    • alternative 动作的数量(\(K\))是一个超参数;为简洁起见,图中仅展示了一个
  • 基于第 3 节的符号,论文利用专家数据集 \(\mathcal{D}_{\text{expert} }=\{(s_{i},a_{i})\}_{i=1}^{N}\) 和 rollout 数据集 \(\mathcal{D}_{\text{rollout} }=\{(s_{i},a_{i}^{j},s_{i}^{j})\mid i\in[N],j\in[K]\}\) 来在同一 Early Experience 原则下开发两种不同的训练方法
    • 关键的洞见是,由非专家动作产生的下一个状态 \(s_{i}^{j}\) 提供了有价值的监督信号,而无需显式奖励
    • 论文现在描述论文的两种 Early Experience 方法如何利用这个数据集

Implicit World Modeling

  • 论文将世界建模制定为一个辅助预测任务 ,帮助智能体从其自身的 Early Experience 中内化环境动态
  • 在论文的设定中,状态完全用自然语言表示,这允许论文将下一个状态(Next-State)预测建模为一个标准的 Next-Token 预测目标
  • 受先前将 LLM 训练为世界模型(2025)的工作启发,论文使用 rollout 集 \(\mathcal{D}_{\text{rollout} }\) 中的下一个状态作为语言智能体策略 \(\pi_{\theta}\) 的直接训练信号
    • 例如,在网络上预订航班时,模型可能预测输入无效日期后的页面状态,从作为下一个状态自然语言表示的文本错误消息中学习
    • 这种设计移除了对单独模块的需求,并自然地契合了 LLM 微调范式
  • 对于每个 rollout 三元组 \((s_{i},a_{i}^{j},s_{i}^{j})\in \mathcal{D}_{\text{rollout} }\),论文构建一个预测任务,其中模型以状态-动作对 \((s_{i},a_{i}^{j})\) 作为输入,并学习预测产生的下一个状态 \(s_{i}^{j}\)
    • 论文将训练目标定义为一个 Next-Token 预测损失:
      $$\mathcal{L}_{\text{IWM} }=-\sum_{(s_{i},a_{i}^{j},s_{i}^{j})\in \mathcal{D}_{\text{rollout} } }\log p_{\theta}(s_{i}^{j}\mid s_{i},a_{i}^{j}),$$
    • 其中 \(p_{\theta}\) 表示语言模型的输出分布
    • 注意,论文对状态预测(在世界建模期间)和动作预测(在策略执行期间)使用相同的模型参数 \(\theta\),允许策略直接内化环境动态
  • 这个训练目标鼓励模型捕捉环境行为中的规律性,包括常见的转移、副作用和无效动作结果
    • 与用于规划的推理时世界模型不同,论文的 隐式 (implicit) 表述将预测信号直接集成到策略学习中,作为监督学习或下游优化之前的轻量级预热
    • 它将智能体暴露于多样化的非专家行为中,提高了对分布偏移的鲁棒性,并减少了对脆弱专家轨迹的依赖
    • 在实践中, rollout 数据通常比 \(\mathcal{D}_{\text{expert} }\) 大一个数量级
    • 论文采用一个两阶段流程 :
      • 首先用 \(\mathcal{L}_{\text{IWM} }\) 训练以内化粗略动态
      • 然后在 \(\mathcal{D}_{\text{expert} }\) 上微调(即 \(\mathcal{L}_{\text{IL} }\))

Self-Reflection

  • 论文将 Self-Reflection 制定为一种机制,使智能体能够从其自身的探索性结果中学习

  • 智能体不仅仅依赖专家状态-动作对 ,而是在每个状态将专家动作与其策略中采样的 alternative 动作进行比较 ,利用产生的下一个状态生成自然语言解释 ,说明为什么专家选择更好

    • 这些解释比单独的专家动作提供了更丰富、可转移的监督,利用了 LLM 在处理语言方面的优势,以内化能够跨任务泛化的决策原则
  • 具体来说

    • 对于每个专家状态 \(s_{i}\),论文首先执行专家动作 \(a_{i}\) 以获得专家下一个状态 \(s_{i+1}\)
    • 对于每个 alternative 动作 \(a_{i}^{j}\)(其中 \(j\in\{1,…,K\}\))
      • 论文先获得相应的下一个状态 \(s_{i}^{j}\)
      • 然后提示一个语言模型生成一个思维链 \(c_{i}^{j}\) ,根据其结果状态 \(s_{i+1}\) 和 \(s_{i}^{j}\) 之间的差异,解释为什么专家动作 \(a_{i}\) 优于 alternative 动作\(a_{i}^{j}\)
      • 这个提示旨在引发自然语言推理,突出 \(a_{i}^{j}\) 中潜在的局限性或低效性,并以观察到的实际状态转移为基础
    • 产生的三元组 \((s_{i},a_{i}^{j},c_{i}^{j})\) 被收集到一个数据集 \(\mathcal{D}_{\text{refl} }\) 中
    • 然后论文训练智能体在给定状态 \(s_{i}\) 的条件下 ,联合预测思维链和专家动作 ,使用在连接的目标序列 \(c_{i}^{j}\circ a_{i}\) 上的 Next-Token 预测损失:
      $${\cal L}_{\rm SR}=-\sum_{(s_{i},a^{j}_{i},c^{j}_{i})\in{\cal D}_{\rm refl} }\log p_{\theta}(c^{j}_{i},a_{i}\mid s_{i}),$$
    • 其中 \(p_{\theta}\) 表示语言模型的输出分布,与智能体的策略 \(\pi_{\theta}\) 对齐
  • 在实践中,论文将 Self-Reflection 数据 \({\cal D}_{\rm refl}\) 与专家数据集 \({\cal D}_{\rm expert}\) 混合 ,并使用标准的 Next-Token 预测损失来训练模型

    • 思维链推理仅为 Self-Reflection 训练数据生成 ,并且只要专家轨迹提供了原始的思维链推理,论文就在所有使用 \({\cal D}_{\rm expert}\) 训练的模型中保留它
    • 这种联合训练设置平衡了来自演示的 grounded 决策和来自探索性结果的对比性洞见
      • 理解:即专家决策和自己的探索性决策之间的对比性不同

        This joint training setup balances grounded decision-making from demonstrations with contrastive insights from exploratory outcomes.

  • 从这两个来源学习鼓励模型超越死记硬背的模仿,并发展出更可泛化的决策标准 ,举个例子来说:

    • 在 WebShop 中,当专家动作是“点击 15 美元的蓝色衬衫”时,一个 alternative 动作可能是“点击 30 美元的红色衬衫”
    • 生成的反思可能是:“虽然红色衬衫符合颜色偏好,但它超过了查询中指定的 20 美元预算限制。蓝色衬衫既满足了风格要求,也符合预算限制。”
    • 这教会了模型优先考虑约束条件,这是一个可以超越这个特定项目的经验教训。论文在下面展示了跨环境使用的提示模板
  • Self-Reflection 提示模板 (Self-Reflection Prompt Template)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    你将看到一个需要你在多个可能动作之间进行选择的情境。你的任务是分析该情境,并提供关于论文为何决定采取专家动作的推理

    * **情境描述 (\\(s_{i}\\)):** {Situation Description}
    * **专家动作 (\\(a_{i}\\)):** {Expert Action}
    * **预期结果 (\\(s_{i+1}\\)):** {Future State of Expert Action}
    * ** alternative 动作(alternative 动作Actions):**
    1. 动作 \\(a^{1}\_{i}\\): {Alt Action 1}, 结果状态 \\(s^{1}\_{i}\\): {State 1}
    2. 动作 \\(a^{2}\_{i}\\): {Alt Action 2}, 结果状态 \\(s^{2}\_{i}\\): {State 2}
    3. ...
    提供一个详细的 **Self-Reflection** (self-reflection),作为你对此情境推理过程的 **内心独白** (internal monologue)。你的独白应该:
    1. 分析情境和目标
    2. 比较可能的动作,解释为什么每个可能不那么优化
    3. 证明为什么专家动作最合适,以预期结果为基础
    4. 突出情境中任何相关的线索、约束或后果

    **指南 (Guidelines):**
    * 严格保持在提供的信息范围内
    * 避免关于自己是 AI 的元评论
    * 使用自然的、逐步的推理
    * 专注于逻辑决策

    **输出 (Output):** 直接写出 Self-Reflection 独白,不要额外的标题、免责声明或外部注释
  • 隐式世界建模和 Self-Reflection 都遵循相同的原则 :

    • 将智能体自身的动作和产生的未来状态转化为可扩展的监督,从而实现更可泛化的 语言智能体 策略

Experiments

  • 论文通过在此范式中提出的两种方法,在一套多样化的语言智能体环境中评估 Early Experience 范式,测试其有效性(第 5.2 节)、领域外泛化能力(第 5.3 节)以及与事后强化学习的兼容性(第 5.4 节)
  • 表 1:跨三个主要领域和任务类型使用的基准
    • “# Traj.” 是论文收集/使用的专家轨迹数量;
    • “# \(\mathcal{D}_{\text{expert} }\)” 是用于模仿学习的状态-动作(SA)对的结果计数
    • 破折号表示该值在论文的数据构建文本中未指定

Experiment Setup

  • 环境 (Environments)
    • 论文在八个语言智能体环境上进行实验,涵盖了广泛的领域和任务格式,包括多轮工具使用 (2025; 2025; 2025)、网络导航 (2022; 2024)、具身模拟 (2021)、科学模拟 (2022) 和 Long-horizon 规划 (2024a)
    • 这些基准的详细信息列于表 1,更多细节可在附录 B 中找到
  • 模型和专家轨迹 (Models and Expert Trajectories)
    • 论文使用来自两个模型系列的三个经过指令调优的模型来评估 Early Experience :
      • Llama-3.2-3B、Qwen-2.5-7B 和 Llama-3.1-8B
    • 无论是否使用 Early Experience 增强,每个模型都在固定数量的专家演示上进行训练
    • 这些演示来自跨环境的不同来源
    • 更多细节在附录 B 中提供
  • 训练和评估 (Training and Evaluation)
    • 论文在所有设置中使用一致的提示格式和解码策略
    • 由于环境在数据大小和视野上有所不同,论文做了以下工作:
      • 首先为每个环境探索模仿学习基线的优化步数 ,并选择在验证集上具有最低训练损失和最佳性能的检查点
      • 然后固定这个步数预算 ,并在论文的方法中保持不变地使用它以确保公平比较
        • 对于隐式世界建模 ,论文从 WM 目标的一个 Epoch 开始 ,然后继续进行监督更新 ,使得总更新次数等于模仿预算 ,没有额外的步骤
        • 对于 Self-Reflection ,论文训练与模仿学习相同数量的 Epoch
        • 所有实验在训练和评估时最多使用 8 个 H100 GPU
    • 在评估方面,论文报告每个基准的主要原生指标,并遵循其官方验证器。完整的评估结果请参考附录 B

Effectiveness

  • 表2,八个基准的结果
    • 除非另有说明,所有值均为成功率(%)
    • 相对于模仿学习的改进以绿色显示
    • Prompt 表示指令调优模型的性能
    • IWM 和 SR 分别表示隐式世界建模和 Self-Reflection
    • 附录 B 显示了完整结果
  • 论文在跨越多轮工具使用、网络导航等的八个环境中进行评估(表 2)
    • 所有模型都使用相同的提示格式和解码策略为每个环境进行训练
  • 总体收益 (Overall Gains)
    • Early Experience 在几乎所有设置和两种模型大小下都优于模仿学习
    • 隐式世界建模 (IWM) 在结构化模拟器和事务性站点中产生稳定收益(ALFWorld/ScienceWorld +2.3 到 +5.5;WebShop +11.3 到 +18.4)
    • Self-Reflection (SR) 在任务需要多步推理和约束满足时带来最大的提升(TravelPlanner +12.8 到 +15.0;ScienceWorld +13.3;BFCLv3 在 3B 模型上 +8.0)
    • 即使在最具挑战性的设置中,收益也是一致的,尽管绝对值较小(WebArena +1.2 到 +3.6;SearchQA +0.6 到 +3.3)
  • 动作空间视角 (Action-Space Perspective)
    • 在论文的八个环境中,动作空间分为三种情况
      • 封闭且有限的动作集(例如,用于具身导航的 ALFWorld ,用于科学程序的 ScienceWorld ,以及用于行程规划的 TravelPlanner)从一开始就呈现一个小的、固定的允许动作列表
        • 在这里,IWM 帮助策略内化转移规律,而 SR 为 Long-horizon 计划增加了有针对性的修正(例如,在 TravelPlanner 上的巨大 SR 收益)
      • 结构化但大的动作集(例如,用于终端任务的 BFCLv3 和用于多域 API 的 Tau-Bench)需要从许多带有参数的类型化工具中选择并正确排序它们
        • 在这种情况下, Early Experience 减少了工具的误用并改善了排序;
        • 当策略错误主要是逻辑性错误时,SR 通常更有帮助
      • 开放动作集(例如,具有自由形式搜索查询的 SearchQA,具有细粒度网页元素交互的 WebArena)允许大量可能的动作,通常是组合性质的
        • 这些是最困难的机制;尽管如此, Early Experience 仍然通过将探索性 rollout 转化为密集的训练信号而产生了可靠的收益,而不需要奖励
  • 观察空间视角 (Observation-Space Perspective)
    • 论文的基准涵盖了广泛的观察复杂性
      • 在低端,ALFWorld 提供场景的简短、干净的文本描述;ScienceWorld 产生正在进行的实验的程序性读数
      • 中等范围的设置,如 BFCLv3 和 Tau-Bench,返回结构化的 API 模式和工具输出,必须正确解析和排序
      • 在高端,WebArena 将嘈杂的、细粒度的网页状态呈现为可访问性树,需要对数百个类似 DOM 的元素进行推理
      • 论文在附录 B 中提供了每个环境的示例
    • 在状态转移一致且可预测的设置中(例如,WebShop),IWM 通过帮助智能体内化环境动态和改进下一个状态预测而表现出色
    • 当失败主要源于推理错误或需要修复 Long-horizon 计划时(例如,TravelPlanner, ScienceWorld),SR 通过明确地将动作与专家轨迹进行比较而带来更大的收益
    • 总的来说,无论环境的观察多么简单或复杂, Early Experience 方法都持续地将智能体自身的动作和结果状态转化为有效的监督信号,从而在没有奖励的情况下改进策略学习
  • Takeaway
    • Early Experience 可靠地将智能体自身的动作和结果状态转化为超越专家演示的可扩展监督
    • 在此范式下的两种方法都在动作空间和观察复杂性截然不同的环境中加强了策略
    • 这些效应在三个模型大小和三个环境家族中均成立,证明了论文 Early Experience 范式的强大可泛化可行性

Out-Of-Domain Generalization

  • 为了评估训练策略在领域内性能之外的鲁棒性,论文在具有 领域外(out-of-domain,OOD)splits 的环境中探索 Early Experience ,使用与第 5.2 节评估相同的检查点
  • 在设置方面,对于 ALFWorld 和 SearchQA,论文遵循其原始工作中定义的 OOD splits
  • 对于 BFCLv3:
    • 领域内设置是多轮 base;
    • OOD 设置是对多轮 missing function、missing argument 和long context 进行平均
  • 论文训练模型的结果如表 3 所示,从中我们可以得出以下观察结果
    • OOD 分数在所有任务中相对于领域内都有所下降,但 Early Experience 持续恢复了差距的很大一部分
    • 在几种情况下,相对收益大于领域内收益(例如,SearchQA),这表明将自身的 rollout 转化为监督可以使策略为演示未覆盖的状态做好准备
    • 方法上的模式反映了领域内趋势:
      • IWM 在动态稳定的地方帮助最大(例如,ALFWorld);
      • SR 在分布偏移改变工具可用性或参数时最强(例如,BFCLv3);
      • IWM 和 SR 都在检索偏移下(例如,SearchQA)对所有模型大小都有帮助
  • 表 3:领域外评估结果(%);相对于模仿学习的改进以绿色显示;Prompt 表示指令模型的性能;IWM 和 SR 分别指隐式世界建模和 Self-Reflection
  • Takeaway
    • Early Experience 在多样化的 OOD 机制下提高了鲁棒性:
      • IWM 在动态稳定时表现出色,SR 在偏移影响工具可用性、参数或检索分布时表现出色
    • 在几个基准测试中(例如,ALFWorld, SearchQA),OOD 收益达到或超过领域内收益,这强化了智能体自身的经验提供了超越专家演示的监督

Reinforcement Learning Following Early Experience

  • 为了评估一旦环境提供可验证奖励(“经验时代”的决定性条件)时 Early Experience 的影响,论文在第 5.2 节训练的模型后附加了一个强化学习阶段
  • 论文专注于三个有奖励可用的基准:WebShop、ALFWorld 和 SearchQA,并采用广泛使用的 GRPO 算法 (2024)
    • 其超参数和训练步数与既定方案 (2025; 2025) 相同
    • 不同运行(runs)之间唯一变化的因素是初始化 :模仿学习 (IL)、隐式世界建模 (IWM) 或 Self-Reflection (SR)
  • 图 3 的结果显示了一个清晰的模式:
    • 从 Early Experience 开始总是能产生更高的 RL 后性能上限
      • 在某些情况下,性能差距在 RL 训练期间增大(例如,ALFWorld);
      • 在其他情况下,差距缩小但从未逆转
    • 即使应用相同步数的奖励优化,IL 起点也很少能达到 Early Experience 起点的最终性能
    • 为了完善实验(completeness),论文还直接从原始预训练模型运行 GRPO,没有任何监督阶段
      • 这在所有任务中表现最差,并显示出不稳定的训练动态,突显了强初始化的必要性
    • 带有详细指标的完整结果可以在附录 B 中找到
  • Takeaway
    • Early Experience 充当了人类数据时代和经验时代之间的 中期训练桥梁 (mid-training bridge)
    • Early Experience 产生的策略在没有奖励的情况下已经表现强劲,并且放大了后续 RL 的收益
    • 在相同的 RL 方案下,Early Experience 起点实现了更高的最终性能
    • 这些结果表明,一旦 RL 基础设施在新的环境中可用,Early Experience 可以立即解锁进一步的收益,而无需从头开始重新训练

Discussion

Comparison to Baselines

  • 论文将 Early Experience 与两种替代方案进行比较,这些方案在不执行 alternative 动作 或 观察动作引发的状态的情况下注入 额外的监督或推理信号
    • 理解:讨论这里是想介绍两种相似的方案,作为 Early Experience 的补充比较
  • 这使论文能够测试论文的增益是否可以通过简单地扩展推理时间或在训练期间添加未经实际验证的推理来匹配
    • (I) 长思维链 (Long CoT) (test-time scaling)
      • 受测试时扩展 (2024) 的启发,论文的目标是帮助特定模型在推理时进行更广泛的推理
        • 这些特定模型包括:在专家轨迹上训练的、通常缺乏推理过程的指令微调模型和纯模仿模型
      • 提示基线使用现成的指令微调模型和先前工作中的官方提示,这些提示通常产生短思维链 (2022)
      • 论文的长思维链变体通过在 Training splits 上进行更重的提示搜索,当存在标记推理结束的分隔符 Token(例如 </think>)时,截断它以鼓励继续生成,来强制在动作生成之前进行更长的推理
        • 问题:这样也可以吗?如果人家已经不想思考了,模型会输出什么奇怪的东西呢?比如很可能重复输出吧?
      • 论文报告每个环境上的最佳结果
    • (II) STaR 风格数据 (STaR-style data) (reasoning without alternative actions or resulting states,没有 alternative 动作或结果状态的推理)
      • 遵循 STaR (2022):
        • 让模型为每个状态下的专家动作生成一个原理,并仅保留预测动作与专家动作匹配的情况
        • 然后在(状态,原理,动作)元组((state, rationale, action) tuples)上进行微调,如公式 \(\ref{eq:self_refl}\) 所示
      • 注意:没有使用 alternative 动作及其结果状态(因为这些原理在实际结果中仍然是未经实际验证的)
      • 其他超参数:
        • 搜索用于原理合成的提示词变体并保留最强的配置
        • 优化步骤的数量与论文的自反思方法相同
  • 表 4 显示,两种 Early Experience 方法在任务和模型大小上都实现了最大的增益
    • 对于长思维链 ,更重的提示搜索和推理长度控制可以适度地改善经过模仿训练的提示基线 ,但在更困难的设置中,增益迅速消失
    • 一旦仅在缺乏固有原理的专家轨迹上进行微调,模型就失去了维持连贯长形式推理的能力,因此尽管在思维-动作边界处进行了截断,扩展的思维链常常漂移或崩溃为无效/偏离策略的动作
    • 对于 STaR 风格数据,生成的动作与专家动作之间的匹配率很低,留下的可用训练数据很少
    • 保留的原理是未经实际验证的,从未在环境中测试过,并且经常幻觉工具或事实,因此对它们进行微调甚至可能降低性能
    • 相比之下, Early Experience 直接将策略自身的非专家 rollout 转换为来自观察到的下一状态的经实际验证的监督,产生了这些替代方案无法匹配的稳健改进

Impact of Amount of Human Data

  • 为了检查性能如何随专家监督的数量而变化,论文在保持总训练预算固定的情况下,改变用于启动 Early Experience 的 Demonstrations 数量
  • 图 4 (a) 显示,在每个数据水平上, Early Experience 都保持对模仿学习的一致领先
    • 在 WebShop 上,仅使用 \(1/8\) 的 Demonstrations 就已经超过了在全量数据集上训练的模仿学习;
    • 在 ALFWorld 上,使用 \(1/2\) 的 Demonstrations 也保持了同样的优势
  • IWM 和 SR 都随着更多专家数据而改进,但相对于模仿学习的优势仍然很大,这强调了 Early Experience 提供了超越仅靠 Demonstrations 所能提供的额外监督信号

Impact of Branching Factor

  • 为了研究分支因子对论文方法的影响,论文还对分支因子 \(K\)(在生成 Early Experience 时每个专家状态 roll out 的 alternative 动作数量)进行了消融
  • 图 4 (b) 显示,随着 \(K\) 的增加,IWM 稳步改进,这与学习更丰富的转移规律相一致
  • SR 在中小 \(K\) 值时改进,并且在非常大的 \(K\) 值时可能非单调:
    • 比较许多 alternative 动作偶尔会包括其他导致成功的动作,减少了与专家的对比,并且当前模型在单个上下文中推理许多 alternative 动作和结果的能力有限
  • 总的来说,两种变体在大部分时间都有所改进,IWM 倾向于更大的 \(K\),而 SR 在适中的 \(K\)(例如 2–4)下效果最好

Model Scaling

  • 论文研究了 Early Experience 的益处是否随着模型缩放而持续
  • 在 WebArena 上,论文比较了 \(\bigcirc\) Llama-3.2-3B、\(\bigcirc\) Llama-3.1-8B 和 \(\bigcirc\) Llama-3.3-70B
  • 由于计算资源有限,70B 模型的微调对所有方法都使用参数高效的 LoRA (2022),保持相同的秩和更新步数;对于 IWM,在第二阶段继续使用相同的适配器,使得总可调参数和计算量与模仿学习相匹配
    • 问题:Meta 缺少计算资源?
  • 图 5 显示, Early Experience 在每个规模上都优于模仿学习,即使对于 70B 模型,差距仍然存在
    • 绝对性能随规模提升,而 Early Experience 检查点 consistently 占据顶部曲线,表明其提供的监督是对模型规模的补充而非替代
    • 即使仅使用 LoRA 更新,IWM 和 SR 都带来了稳定的增益,证明该方法在受限计算预算下仍然有效
    • 论文在附录 B 的表 10 中观察到 Qwen 模型的类似趋势

补充:Related Work

Training Paradigms for Language Agents

  • SFT
    • 大多数语言智能体 (2022; 2023; 2024; 2025) 使用监督微调在专家轨迹上进行训练,在强化学习文献中也称为模仿学习或行为克隆,特别是在复杂设置中,例如网络 (2024) 或操作系统 (2024)
    • 这些轨迹可能是人工标注的 (2022; 2023),也可能是由遵循精心设计的人类工作流程的更强语言模型合成的 (2024; 2025)
    • 尽管合成 Demonstrations 增加了覆盖范围,但它们只提供了增量收益,因为底层的监督信号仍然是静态的
    • 监督微调提供了密集的、无奖励的监督信号,但仍然受限于高质量 Demonstrations 的成本 (2025),并且当智能体面对新状态时显得脆弱 (2025; 2023)
  • RL
    • 强化学习通过试错来训练智能体,优化长期奖励 (1998)
    • 尽管它在控制、棋盘游戏和 Atari (2013; 2016; 2020; 2020) 中取得了令人印象深刻的结果,但在语言智能体设置中有效应用强化学习仍然很困难 (2025;)
    • 当前的研究仍处于探索阶段:
      • 许多研究依赖于由更大的教师模型产生的近似奖励 (2025;),或者依赖于精心策划的奖励函数 (2025) 和手动调整的训练方案 (2025) 来保持稳定性
    • 支持的基础设施也尚未成熟;
      • 大多数现实世界的语言智能体环境缺乏可靠的模拟器、标准的重置机制和可扩展的评估平台 (2025;),使得语言智能体的大规模强化学习训练成本高昂且脆弱
    • 总之,这些局限性表明,语言智能体的可扩展强化学习尚未成熟,这促使需要一个范式来桥接当前基于模仿的训练和未来完全由经验驱动的学习

Supervision from Exploration

  • 强化学习中的传统探索-利用策略收集轨迹,随后通过奖励反馈进行优化
  • 诸如 Hindsight Experience Replay (2017) 之类的方法通过将已实现的结果改造为目标来稠密化稀疏奖励,但仍然需要许多语言智能体环境中不可用的可验证奖励函数
  • 论文的设置以不同的方式使用探索:交互轨迹成为直接的监督信号,完全消除了对奖励或手动重新标注的需求

World Models

  • 传统上的世界模型 (1991; 2018; 2020, 2021) 是指:在观察到的状态转移上进行训练,以预测未来状态和奖励,允许基于模型的强化学习减少样本复杂度并支持推测性规划
  • 最近的工作通过使用大语言模型作为世界模型 (2025; 2023) 将此思想扩展到语言智能体 ,这通过语言介导的模拟提高了下游性能
    • 尽管不同时代的世界模型具有不同的状态表征,但这些系统中的大多数仍然将世界模型视为一个 独立的 模拟器,呼应了经典的控制流程
    • 相比之下,论文将交互轨迹本身视为智能体策略的辅助预测任务,在精神上类似于中期训练 (2025)
    • 通过训练策略来预测其自身的未来状态,模型内化了粗略的环境动态,而无需独立的模拟器
    • 这种 隐式(implicit) 世界模型将智能体锚定在其操作上下文中,提供了轻量级的热身以便更快地适应,并避免了显式模拟器所需的规划开销

Self-Reflection

  • Self-Reflection (2023;) 最初是作为一种提示技术引入的,允许大语言模型通过多轮自我对话 (2024) 或精心设计的提示词变体 (2023) 来修改其答案 ,而无需更新模型参数
  • 后续工作在有奖励的轨迹上总结经验教训(例如,短期情景记忆 (2025))到提示中,以指导未来的推理
    • 但后来的研究 (2024; 2023) 表明,这类推理时方法在无法获得外部反馈(例如奖励)时常常失败
  • 另一条研究线使用大语言模型为正确答案生成原理,将这些原理视为训练目标以引导推理 (2022; 2023)
    • 论文将这种反思的观点扩展到 缺乏显式奖励(explicit rewards are absent) 的智能体设置中
    • 论文的方法训练智能体反思其自身的次优行动及由此产生的轨迹,然后使用反思出的原理作为训练信号来改进决策制定

附录 B:Implementation details

  • 在本节中,论文为每个环境提供实现细节
  • 对于每个环境,论文呈现包含所有可用指标的表格
  • 此外,论文还展示了由 Llama-3.1-8B 合成的具体训练示例(例如,用于 Self-Reflection 的数据)

B.1 ALFWorld

  • 论文遵循 ALFWorld (2021) 的默认 split,使用 Verl-Agent (2025) 框架下的 TextWorld (2019) 设置
    • 论文从 ALFWorld 的专家轨迹中提取了 21,031 个状态-动作对来构成 \(\mathcal{D}_{\text{expert} }\)
    • 鉴于数据集中任务可解性的完整性,这些专家轨迹是最优的
  • 对于隐式世界建模,论文使用 \(\mathcal{D}_{\text{rollout} }\) 来增强 \(\mathcal{D}_{\text{expert} }\)
    • 在每个状态,论文从可行动作列表中(排除专家动作)均匀地、无放回地采样 8 个非专家动作
    • 包含专家动作,总计为隐式世界建模产生 \(21,031 \times 9 = 189,279\) 个三元组
  • 对于 Self-Reflection ,论文通过提示模型解释其自身决策来构建数据
    • 对于每个状态,论文使用相同的策略模型(温度设为 1.0)来提出最多 3 个 alternative 动作
      • 对提出的动作进行规范化处理,并仅保留唯一动作
    • 如果提出的动作不在该状态的可行动作空间内,将其丢弃,并改为从剩余未选中的可行动作中均匀随机采样
    • 最终的提示要求模型根据当前状态和可用工具,证明为什么专家动作优于采样得到的 alternative 动作
  • 在训练期间,论文使用批大小为 16,学习率为 \(1\mathrm{e}{-5}\),并使用 LlamaFactory (2024b) 训练 2 个 Epoch
    • 对于强化学习训练,论文采用 Verl-Agent 中的默认超参数 ,并在其论文(理解:应该是 ALFWorld 论文)报告的相同 split 上进行评估
    • 对于评估,论文将最大提示长度设置为 4096,最大响应长度设置为 1024,温度设置为 0.4
  • 完整结果见表 5

B.2 WebShop

  • 根据 WebShop (2022) 官方发布的人类演示数据,论文提取了 1,571 条人类轨迹,并将其转换为 Verl-Agent (2025) 格式,得到了 15,464 个状态-动作对,构成了用于模仿学习的 \(\mathcal{D}_{\text{expert} }\)
  • 对于隐式世界建模,数据包含两个部分
    • 第一部分直接来源于 \(\mathcal{D}_{\text{expert} }\),通过将每个步骤重新格式化为世界建模格式,其中输入包含历史上下文和当前步骤采取的动作,目标是执行该动作后下一个状态的离线文本摘要(平均长度 345 个字符)
    • 第二部分是通过用非专家动作增强每个专家状态获得的:
      • 让相同的策略在温度 {0.5, 0.8, 0.9} 下提出动作,并额外为每个状态均匀随机采样最多五个可行动作
      • 然后将增强的样本转换为与第一部分相同的世界建模格式:
        • 对于每个非专家动作,论文在 WebShop 环境中执行它以获得后续观察结果,并推导出下一个状态的离线文本摘要
      • 所有候选动作都经过规范化和去重处理
      • 将这些与专家动作合并后,论文得到了 122,954 个三元组用于隐式世界建模
  • 对于 Self-Reflection ,论文构建的提示包括专家动作以及 3 个 alternative 动作 ,并要求模型根据当前状态和可行动作证明为什么专家动作更优
    • 由于原始专家轨迹中的某些动作是次优的 ,论文应用了一个简单的质量过滤器 ,仅保留那些任务能在少于 15 步内完成的轨迹中的动作 ,从而得到了 6,235 个反思示例
      • 问题:仅保留那些任务能在少于 15 步内完成的轨迹中的动作 与 某些动作是次优的 有什么关系?
    • 对于每个这样的状态,alternative 动作的抽取方式与世界建模中相同,即混合模型提出的动作(使用上述温度)和均匀采样的可行动作;
    • 经过规范化和去重后,论文保留 3 个不同的 alternative 动作
    • 论文有意保留多样化的 alternative 动作集合,包括可行但无帮助的动作、空响应以及偶尔的无效动作,以帮助模型学习更清晰的决策边界
  • 在训练期间,论文使用批大小为 4,学习率为 \(1\mathrm{e}{-5}\),并使用 LlamaFactory (2024b) 进行训练
    • 对于强化学习训练,论文采用 Verl-Agent 中的默认超参数,并在其论文报告的相同 split 上进行评估
  • 完整结果见表 6

B.3 BFCLv3

  • 论文遵循 BFCLv3 (2025) 基准测试的默认多轮函数调用 split ,该 split 将任务分类为Base、Long-Context、Miss Function 和Miss Parameters
    • Base 包含基础但多样的多轮交互 ,其中所有必要信息 ,包括用户请求、先前轮次的执行结果和探索性函数输出,都可用于完成任务而无歧义
    • Long-Context 通过引入大量无关数据(例如,数百个文件或数千条记录)来评估模型在冗长、信息密集的环境中保持准确性的能力 ,从而测试其在认知负荷下提取基本细节的能力
    • Miss Function 评估模型能否识别出没有可用函数可以满足用户请求的情况;
      • 当该问题被识别出来时,将在后续轮次中提供缺失的函数 ,并要求模型适应新可用的能力(理解:即函数)
    • Miss Parameters 检查模型是否能够检测到用户请求中缺少基本参数且无法从系统状态推断的情况,提示其请求澄清而不是做出无根据的假设
  • 由于默认的 BFCLv3 基准测试不提供训练集 split ,为了构建训练集,论文专门使用Base 类别中的样本
    • 论文随机选择其中 75% 的样本(125 条轨迹)作为用于模仿学习的专家轨迹 \(\mathcal{D}_{\text{expert} }\)
      • 每条轨迹包含多个步骤和交互,论文将其进一步拆分为单独的步骤以提高训练效率
  • 对于隐式世界建模,数据包含两个部分
    • 第一部分直接来源于 \(\mathcal{D}_{\text{expert} }\),通过将每条轨迹重新格式化为世界建模格式,其中给定历史上下文和上一步的动作,模型预测下一个状态
      • 这产生了 1,264 个训练样本
    • 第二部分是通过增强生成的:
      • 对于专家轨迹中的每个状态,论文让目标模型除了专家动作外再采样 10 个 alternative 动作 ,按照与 ALFWorld 相同的过程 ,产生了 11,904 个样本
  • 对于 Self-Reflection,论文通过提示模型解释其决策来构建训练数据,强调在当前状态下,包括先前定义的工具集在内,为什么专家动作优于其他可用动作
    • 在过滤掉一小部分生成的结论动作与专家动作不匹配的低质量样本后,论文获得了 1,200 个训练样本
  • 论文使用 LlamaFactory (2024b),以批大小 16、学习率 \(1\mathrm{e}{-5}\) 进行训练
    • 为了推理效率,论文采用 vLLM 基础设施
  • 完整结果见表 7

B.4 Tau-Bench

  • 论文使用 Tau-Bench 中的零售任务(retail task)进行实验,在 Tau-Bench 中,零售任务分为训练集和评估集,分别包含 495 和 115 个任务
  • 论文采用一个高性能的指令调优 LLaMA 系列模型在训练集上收集专家轨迹
    • 对于每个任务,推理温度设置为 1.0,并生成四条轨迹
      • 选择最终奖励为 1 的轨迹作为专家轨迹;
      • 如果存在多条这样的轨迹,则随机选择一条;
      • 如果没有轨迹达到奖励 1,则丢弃该任务
    • 此过程为 452 个任务生成了专家轨迹,总共得到 5,239 个(观察,动作)(〈observation, action〉)对
  • 对于世界模型数据,论文使用目标模型为专家轨迹中的每个观察提出五个动作候选
    • 为了避免重复的工具调用并促进探索 ,论文从每个专家观察对应的工具集中移除专家动作中使用的工具,允许模型从剩余工具中进行选择
    • 然后,在环境中执行所选动作以获得下一个观察
      • 每个生成的(专家观察,动作,下一个观察)三元组都包含在世界模型的训练数据集中
  • 对于 Self-Reflection 数据,对于每个(专家观察,专家动作)对,论文从相应的五个世界模型数据点中选择三个 alternative 动作,并将其呈现给模型本身进行反思,提示其解释选择专家动作背后的原理
    • 论文过滤掉一小部分低质量的反思样本,最终得到总共 5,233 个训练实例
  • 论文采用 LLamaFactory (2024b) 作为训练代码库
    • 对于模仿学习,论文以 1e-5 的学习率训练 6 个 Epoch
    • 对于隐式世界模型学习,论文以 5e-6 的学习率训练 1 个 Epoch
    • 对于 Self-Reflection ,论文以 1e-5 的学习率进行 6 个 Epoch 的 SFT
    • 在所有训练配置中,批大小固定为 16
  • 由于 Tau-Bench 不包含更细粒度的指标,论文在表 2 中报告了完整表格

B.5 SearchQA

  • 专家轨迹收集 论文从 MuSiQue 训练数据集中选择了所有的 3 跳和 4 跳任务,以及随机抽样的 1,438 个 2 跳任务,以适应需要多步推理来解决复杂问题的场景
    • 最终,论文总共有 7,000 个任务
    • 由于训练数据缺乏细粒度的推理轨迹,例如 Jin 等人 (2025) 所使用的思考-搜索-答案结构,论文使用 Search-R1 模型来生成专家数据
      • 具体来说,论文将温度设置为 1.0,并为每个任务生成 5 条轨迹,仅保留最终答案与真实答案匹配的轨迹
      • 为了减少冗余,论文每个任务最多保留 2 条正确轨迹。此过程产生了 2,082 条轨迹,包含总共 7,691 个状态-动作对用于模仿学习
  • 世界建模数据构建 与 Jin 等人 (2025) 的观察一致,论文发现直接预测检索到的文档内容会产生次优性能,因为许多 Token 与搜索查询不直接相关
    • 为了解决这个问题,论文首先指导模型总结检索到的文档,然后让模型预测这些摘要而不是全文
    • 对于专家轨迹中的每个状态,论文让模型在温度为 1.0 的情况下生成 30 个 alternative 动作,使其能够从自身的 Early Experience 中实质性地内化环境动态
    • 如果生成的动作无效,即查询没有包含在 \(<\)search\(><\)/search\(>\) 标签内,论文返回反馈:”格式错误!如果需要外部知识,你必须将搜索查询包含在 \(<\)search\(><\)/search\(>\) 标签内。”
  • Self-Reflection 数据构建 为了构建 Self-Reflection 训练数据集,论文为每个状态随机采样 2 个 alternative 动作
    • 对于每个实例,提示模型基于当前状态、专家动作、 alternative 动作以及与这些动作相关的检索文档,生成解释为什么专家动作优于 alternative 动作的细粒度推理
    • 此过程产生了 7,691 个包含详细推理过程的训练数据
  • 训练细节 论文采用 LLamaFactory (2024b) 作为代码库,并使用 ZeRO-3 在 4 个 H100 GPU 上进行全参数调优
    • 对于模仿学习和 Self-Reflection ,论文以 \(1\times 10^{-5}\) 的学习率、8192 个 Token 的上下文窗口、每个 GPU 批大小为 2 进行 3 个 Epoch 的训练,同时将梯度累积步数设置为 16
    • 对于隐式世界模型学习,论文利用来自专家轨迹的世界模型数据,使其与模仿学习数据集达到 1:1 的比例,并在相同设置下进行训练
    • 对于强化学习,论文采用 Search-R1 代码库并在 8 个 H100 GPU 上进行训练
      • 所有设置与 Jin 等人 (2025) 保持一致,除了论文使用 F1 分数作为奖励,将最大检索交互次数设置为 6,配置上下文窗口为 12,280 个 Token ,并指定最大输出长度为 2,048 个 Token
      • 对于训练数据,论文使用 MuSiQue 数据集中的所有训练任务
  • 完整结果见表 8

B.6 ScienceWorld

  • 论文遵循 ScienceWorld (2022) 的默认 split ,使用 Verl-Agent (2025) 框架下的 AgentGym (2024) 设置
    • 从 ScienceWorld 的专家轨迹中,论文提取了 14,506 个状态-动作对来构成 \(\mathcal{D}_{\text{expert} }\)
    • 鉴于数据集中任务可解性的完整性,这些专家轨迹是最优的
  • 对于隐式世界建模,论文使用 \(\mathcal{D}_{\text{tollout} }\) 来增强 \(\mathcal{D}_{\text{expert} }\)
    • 在每个状态,论文从可行动作列表中(排除专家动作)均匀地、无放回地采样 3 个非专家动作,并包含专家动作用于隐式世界建模
  • 对于 Self-Reflection ,论文通过提示模型解释其自身决策来构建数据
    • 对于每个状态,论文使用相同的策略模型(温度设为 1.0)来提出最多 3 个 alternative 动作(对于 Llama-3.1-8B-Instruct 则为 2 个 alternative 动作)
    • 论文对提出的动作进行规范化处理,并仅保留唯一的动作
      • 如果提出的动作不在该状态的可行动作空间内,论文将其丢弃,并改为从剩余未选中的可行动作中均匀随机采样
    • 最终的提示要求模型根据当前状态和可用工具,证明为什么专家动作优于采样得到的 alternative 动作
  • 对于所有的训练和评估,论文使用 one-shot example
    • 在训练期间,论文使用批大小为 32,学习率为 \(5\mathrm{e}{-6}\),并使用 LlamaFactory (2024b) 训练 1 个 Epoch
    • 对于评估,论文将最大提示长度设置为 4096,最大响应长度设置为 1024,温度设置为 0.4
  • 由于 ScienceWorld 不包含更细粒度的指标,论文在表 2 中报告了完整表格

B.7 TravelPlanner

  • 论文将 TravelPlanner (2024a) 基准测试适配为一个基于 gym 的环境 ,用于训练语言智能体
    • 原始基准测试包含 1,225 个查询,分为训练集(45 个查询)、验证集(180 个查询)和测试集
    • 论文使用涵盖不同难度级别(基于旅行持续时间:3、5 或 7 天)和约束复杂性(简单、中等、困难)的多样化规划场景的 45 个训练轨迹
      • 简单 查询主要是针对单人的预算约束
      • 中等 查询引入了额外的约束,如美食类型、房间类型或房间规则,旅行者人数在 2 到 8 人之间变化
      • 困难 查询包括交通偏好以及所有中等级别的约束,包含三个随机选择的困难约束。论文在包含 180 个查询的验证集上进行评估
  • 环境实现 论文将 TravelPlanner 实现为一个具有离散动作空间和字典观察空间的 gym 环境
    • 状态表示包括以结构化文本格式格式化的当前规划进度:
      • 查询描述、预算跟踪(初始/已花费/剩余)以及每天显示交通、餐饮、景点和住宿字段的当前计划状态
    • 动作是 JSON 对象,包含动作类型(例如,SET TRANSPORTATION, SET MEAL, SET ACCOMMODATION)、天数、字段名称、选定值和成本等字段
      • 动作空间根据参考信息中的可用数据动态生成所有有效动作,包括城市间的航班、具有美食类型和价格的餐厅、景点以及具有房间规则和最低住宿夜数要求的住宿
    • 环境实时跟踪预算支出,验证约束条件,并通过状态机维护规划进度,该状态机按顺序推进每个字段
  • 专家轨迹收集 论文使用训练集中的 45 条带标注轨迹作为专家演示 \(\mathcal{D}_{\text{expert} }\)
    • 每条轨迹包含一个完整的多日旅行计划,其中包含交通、住宿、餐饮和景点的真实动作
    • 论文使用 SFTConverter 将这些轨迹分解为 1,395 个独立的状态-动作对,该转换器将专家计划条目映射到有效的 gym 动作,同时处理城市名称变化并根据环境约束进行验证
  • 隐式世界建模 对于世界建模数据,论文生成两种类型的训练样本
    • 首先,将专家轨迹重新格式化为状态转换格式 ,模型学习在给定当前状态和动作的情况下预测下一个状态
    • 其次,论文通过执行专家轨迹中每个状态下所有可用的有效动作(而不仅仅是采样)来执行 exhaustive augmentation,收集全面的状态转换以最大化环境动态的覆盖范围
      • 理解:这里的 exhaustive augmentation 指 穷尽式数据增强,访问了所有的有效动作
    • 此过程生成了超过 70,000 个状态转换样本,为学习环境动态(包括预算更新、约束评估和计划进展)提供了丰富的监督信息
  • Self-Reflection 论文通过提示 Llama-3.1-8B-Instruct 生成思维链推理来解释为什么专家动作优于 alternative 动作,从而构建 Self-Reflection 数据
    • 对于 1,395 个状态-动作对中的每一个,论文探索最多 30 个替代的有效动作,并生成考虑多个约束的推理:预算限制、住宿的最低住宿夜数、餐厅多样性要求以及往返完成情况
    • 推理生成使用温度 0.9 和 8 路张量并行性来产生自然的解释,同时保持逻辑一致性
    • 论文不应用额外的过滤,因为推理生成过程已经验证了约束满足情况
    • 问题:这里为什么要使用 Llama-3.1-8B-Instruct 而不是目标模型?
  • 训练细节 论文使用 LlamaFactory ,在 8 个 H100 GPU 上使用 DeepSpeed ZeRO-3 进行全参数微调来训练模型
    • 对于模仿学习和隐式世界建模,论文以 \(1\mathrm{e}{-5}\) 的学习率和余弦调度器训练 5 个 Epoch
    • 对于 Self-Reflection ,论文将最大生成长度扩展到 8K Token 以容纳详细的推理
    • 所有模型使用 32K 上下文窗口,每个 GPU 批大小为 16
    • 对于评估,论文使用 vLLM,在 8 个 GPU 上进行张量并行,并使用贪婪解码以确保可重现性
  • 完整结果见表 9

B.8 WebArena

  • 鉴于 WebArena (2024) 中的完整评估集冗长且包含许多类似任务
    • 论文遵循先前的工作 (2024; 2025a) ,在 WebArena-Lite (2024) 上评估论文训练好的智能体,这是一个从原始的 812 个任务中手动挑选出的更高效、更平衡的 165 个高质量、具有挑战性的任务的子集
    • WebArena 中剩余的 647 个任务(不包括评估集中的任务)用于智能体训练
  • 为了获取 WebArena 中的专家演示,论文从公开的 WebArena 排行榜上表现最佳的智能体中提取成功的轨迹
    • 具体来说,论文选择那些在其观察中包含可访问性树信息的智能体,例如 IBM CUGA (2025), ScribeAgent (2024), Learn-by-Interact (2025) 和 AgentOccam (2024)
    • 在过滤掉不成功的轨迹后,论文获得了 554 条成功的轨迹和 7,044 个状态-动作对,构成了 \(\mathcal{D}_{\text{expert} }\)
  • 对于隐式世界建模 ,为了从专家轨迹中分支出来进行隐式世界建模 ,论文增强 \(\mathcal{D}_{\text{expert} }\) 以形成 \(\mathcal{D}_{\text{rollout} }\)
    • 对于 \(\mathcal{D}_{\text{expert} }\) 中的每个状态,论文让目标模型(待训练)使用自由形式生成提出 5 个非专家动作,排除任何与专家动作相同的动作
    • 对于每个 resulting next state,论文应用一个额外的处理步骤:使用相同的模型,论文生成下一个状态观察的简洁摘要,该摘要以任务为条件,替换原始观察以减少噪声并强调与任务相关的信息。然后,论文将专家动作与采样的动作一起包含进来,创建形式为(当前状态,动作,摘要化的下一个状态)的三元组,最终为每个模型总共产生 \(7,044 \times 6 = 42,264\) 个三元组
  • 对于 Self-Reflection ,论文通过提示模型解释在当前状态下为什么专家动作优于采样的 alternative 动作来构建 \(\mathcal{D}_{\text{SR} }\)
    • 论文使用来自 \(\mathcal{D}_{\text{rollout} }\) 的相同 5 个 alternative 动作,规范化动作字符串以避免重复,并用随机采样的有效动作替换任何无效动作(例如,引用不存在的 UI 元素)
    • 最终的提示词包括当前状态、可行动作和专家动作,并要求模型在任务进度、约束满足和效率方面证明专家选择的最优性
    • 论文过滤掉那些解释错误地支持非专家动作的低质量生成内容,留下 3,190 个高质量的 Self-Reflection 示例
  • 所有模型均以 1e-5 的学习率和余弦调度器训练 2 个 Epoch
  • 论文在 WebArena-Lite 上的完整数据报告在表 10 中

NLP——Does-RL-Incentivize-Reasoning-Capacity

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Leap Lab of THU & SJTU, 20250418-20251124
    • GitHub 项目地址:limit-of-RLVR.github.io

Paper Summary

  • 论文内容总结:
    • 论文发布以来,在业内广受认可,非常值得一读
    • 论文系统地研究了当前 RLVR 方法对 LLM 推理能力边界的影响
    • 论文的研究结果表明
      • 当前的 RLVR 很少激发根本性的新推理模式;
      • RLVR 训练模型的推理能力仍然受限于其 Base Model 的能力
      • 当前的 RLVR 方法尚未完全实现 RL 通过探索和利用来激发 LLM 新推理能力的潜力
      • 注:这种局限性可能源于论文第 5 节讨论的在巨大语言空间中缺乏有效的探索策略
    • 在高级抽象中进行探索、细粒度的信用分配以及多轮智能体-环境互动可能缓解这个问题
    • 本研究的结论不一定保真,因为论文的研究有些设定问题:
      • 作者已经尽量评估尽可能多的强大的、公开可用的纯 RLVR 模型,但是仍然有问题
      • 目前能力最强的模型和训练流程仍然是私有的,所以作者无法分析内部的细节(论文的分析需要这些细节)
      • 目前的技术发展很快,其实已经有一些文章对论文的结论提出了一些挑战
        • 论文的作者最终版本更新的论文中,比较谦逊,已经意识到了这些实际限制
  • RLVR 近期在提升 LLM 的推理性能方面取得了显著成功,尤其是在数学和编程任务中
    • 人们普遍认为,与传统 RL 帮助智能体探索和学习新策略类似,RLVR 能够使 LLMs 持续自我改进,从而获得超越对应 Base Model 能力的新型推理能力
  • 在本研究中,论文通过对 RLVR 训练的 LLMs 在不同的模型家族、 RL 算法和数学/代码/视觉推理基准测试中进行系统性的推理能力边界探测,并采用大 \(k\) 值下的 pass@\(k\) 作为评估指标,对 RLVR 的当前状态(the current state of RLVR) 进行了批判性审视
  • 虽然 RLVR 提高了采样正确路径的效率,但论文惊奇地发现,当前的训练 极少(rarely) 能激发出根本性的新推理模式
    • 论文观察到,尽管 RLVR 训练的模型在较小的 \(k\) 值(例如 \(k\)=1)下优于其 Base Model ,但在 \(k\) 值较大时, Base Model 反而能达到更高的 pass@\(k\) 分数
  • Moreover,论文发现 LLMs 的推理能力边界常常随着 RLVR 训练的进行而变窄(narrows)
  • 进一步的覆盖率和困惑度(perplexity)分析表明,RLVR 模型生成的推理路径已经包含在 Base Model 的采样分布中
    • 这表明它们的推理能力源自 Base Model 并 受限于(bounded by) Base Model
  • 从这个视角出发,将 Base Model 视为一个上界,论文的定量分析表明:
    • 六种流行的 RLVR 算法表现相似,并且远未达到充分利用 Base Model 潜力的最优状态
  • In Contrast,论文发现蒸馏(distillation)能够从教师模型中引入新的推理模式,并真正扩展模型的推理能力
  • Taken together,论文的研究结果表明,当前的 RLVR 方法尚未完全实现 RL 激发 LLMs 真正新颖推理能力的潜力
    • 这突显了改进 RL 范式的必要性,例如有效的探索机制、更审慎和大规模的数据管理、细粒度的过程信号以及多轮智能体交互,以释放这种潜力

Introduction and Discussion

  • 专注于推理的大型语言模型(reasoning-centric LLMs)的发展极大地推动了 LLM 能力的前沿
    • 例如 OpenAI-o1 (2024)、DeepSeek-R1 (2025) 和 Kimi-1.5 (2025),
    • 特别是在解决涉及数学和编程的复杂逻辑任务方面
  • 与传统依赖于人工标注指令(instruction-tuned)的方法(2023; 2024)相比,这一飞跃背后的关键驱动力是大规模的 RLVR (2024; 2025)
    • RLVR 从一个预训练的 Base Model 或经过长链思维(chain of thought,CoT)数据微调的模型开始,基于简单的、可自动计算的奖励通过 RL 对其进行优化
    • 这些奖励取决于模型的输出在数学问题上是否匹配真实解,或在代码问题上是否通过单元测试,从而无需人工标注即可实现规模化
    • RLVR 框架因其简单性和实际有效性而备受关注
  • 在传统的 RL 设置中,例如游戏(如 Atari,Go),智能体通常通过自我改进自主发现新策略并超越甚至达到人类水平 (2015; 2017)
    • 受此成功启发,人们普遍认为 RLVR 同样能使 LLMs 自主发展出新的推理模式,包括枚举、自我反思和迭代优化,从而超越其 Base Model 的能力 (2025)
  • Consequently,RLVR 被视为实现 LLMs 持续自我进化、可能使论文更接近更强大智能的一条有希望的途径 (2025)
    • However,尽管取得了经验上的成功,当前 RLVR 的根本有效性仍未得到充分检验
    • 这引出了一个根本性问题:当前 RLVR 是否真正使 LLMs 获得了新的推理能力,类似于传统 RL 通过探索发现新策略,还是仅仅利用了 Base Model 中已有的推理模式?
  • 为了严格回答这个问题,论文首先必须评估 Base Model 和 RLVR 训练模型的推理能力边界
    • 传统的评估指标依赖于贪心解码(greedy decoding)或核采样(nucleus sampling)(2020) 的平均分,这反映了平均情况下的行为
    • However,这些指标可能会低估模型的真实潜力,尤其是在尝试次数有限的情况下模型在难题上失败时,尽管它有能力通过更多采样解决这些问题
  • 为了克服这一限制,论文采用 pass@\(k\) 指标 (2024),即如果 \(k\) 个采样输出中任意一个是正确的,则认为问题已解决
    • 通过允许多次尝试,pass@\(k\) 揭示了模型是否具备解决问题的潜力
    • 数据集的平均 pass@\(k\) 分数因此反映了模型在 \(k\) 次尝试内可能解决的问题比例,为其推理边界提供了更稳健的视角
      • 这为 RLVR 训练是否能产生根本性的超越能力、使模型能够解决 Base Model 无法解决的问题提供了严格检验
  • 使用 pass@\(k\) 指标,论文在多个基准测试中进行了广泛的实验,涵盖了多个 LLM 家族、模型大小和 RLVR 算法,以比较 Base Model 与其 RLVR 训练的对应模型
  • 图 1 内容:
    • Left:当前 RLVR 对 LLM 推理能力的影响
      • 搜索树(search tree)通过对给定问题从 Base Model 和 RLVR 训练模型中重复采样生成
      • 灰色表示模型不太可能采样的路径,而 黑色 表示模型可能采样的路径
      • 绿色表示具有正奖励的正确路径
      • 论文的关键发现是,RLVR 模型中的所有推理路径都已存在于 Base Model 中
      • 对于某些问题,如问题 A,RLVR 训练使分布偏向奖励路径,提高了采样效率
        • However,这是以减少推理能力范围为代价的:
          • 对于其他问题如问题 B, Base Model 包含正确路径,而 RLVR 模型则没有
    • Right:随着 RLVR 训练的进行,平均性能(即 pass@1)提高,但可解问题(solvable problem)的覆盖率(即 pass@256)下降,表明 LLM 的推理边界在缩小

Preliminaries

  • 本节首先概述 RLVR 的基础知识,然后介绍用于评估推理边界的 pass@\(k\) 指标,并解释为什么它比最佳采样(best-of-\(N\))等替代方案更受青睐

RLVR(Reinforcement Learning with Verifiable Rewards)

Verifiable Rewards
  • 设 \(\pi_{\theta}\) 为一个具有参数 \(\theta\) 的 LLM,它在自然语言 Prompt \(x\) 的条件下生成一个 Token 序列 \(\mathbf{y}=(y_{1},\ldots,y_{T})\)
  • 一个确定性的 ** Verifier** \(\mathcal{V}\) 返回一个二元奖励:
    $$ r=\mathcal{V}(x,\mathbf{y})\in\{0,1\}$$
    • 当且仅当模型的最终答案完全正确时 \(r=1\)
  • 也可以添加格式奖励以鼓励模型明确地将推理过程与最终答案分开
  • RL 的目标是学习一个策略以最大化期望奖励:
    $$ J(\theta)=\mathbb{E}_{x\sim\mathcal{D} }\left[\mathbb{E}_{\mathbf{y}\sim\pi_{\theta}(\cdot|x)}[r]\right] $$
    • 其中 \(\mathcal{D}\) 是 Prompt 的分布
RLVR Algorithms
  • 近端策略优化(Proximal Policy Optimization,PPO)(2017) 提出使用以下裁剪替代目标(clipped surrogate)来最大化目标函数:
    $$\mathcal{L}_{\text{CLIP} }=\mathbb{E}\left[\min(r_{t}(\theta)A_{t},\text{clip}(r_{t}(\theta),1-\epsilon,1+\epsilon)A_{t})\right],$$
    • 其中 \(r_{t}(\theta)=\frac{\pi_{\theta}(y_{t}|x,\mathbf{y}_{ < t})}{\pi_{\theta_{\text{old} } }(y_{t}|x,\mathbf{y}_{ < t})}\),\(A_{t}\) 是由价值网络 \(V_{\phi}\) 估计的优势(advantage)
  • 可选地应用 KL 散度项(KL divergence term),以约束模型偏离原始策略的程度
  • 更多算法介绍见 C.5 节
Policy Gradient
  • PPO 及其变体属于 RL 的策略梯度类(policy gradient class)(1992; 1998)
  • 这些方法仅从 On-policy samples 中学习,即由当前 LLM 生成的样本
  • 在可验证奖励的背景下,训练目标通常是 最大化正确答案样本的对数似然,并最小化错误答案样本的似然
Zero RL Training
  • Zero RL Training 将 RL 直接应用于 Base Model ,无需任何 SFT (2025)
  • 为了清晰研究 RLVR 的效果
    • 对所有数学任务
      • 遵循 Zero-RL 设置,使用预训练模型作为起始模型
    • 对于 Coding 和视觉推理(Visual Reasoning)任务
      • 使用微调模型作为起始模型,比较微调模型与其 RLVR 训练的对应模型
    • 补充:对于 Coding 和视觉推理(Visual Reasoning)任务,开源工作通常使用指令微调模型作为起点
      • 主要是由于使用纯 Zero-RL 设置存在训练不稳定性和有限的有效性
      • 遵循此惯例,论文比较微调模型与其 RLVR 训练的对应模型,以专注于 RLVR 的效果
  • 图 2 : Base Model 及其 RLVR 训练对应模型在多个数学基准测试上的 Pass@\(k\) 曲线
    • 当 \(k\) 较小时, RL 训练的模型优于其基础版本
    • However,当 \(k\) 增加到数十或数百时, Base Model 持续赶上并超越 RL 训练的模型
    • GSM8K 和 AMC23 的更多结果见图 10

Metrics for LLM Reasoning Capacity Boundary

Pass@\(k\) Metrics
  • 准确测量 Base 和 RL 模型的推理能力边界具有挑战性,因为贪心解码或核采样的平均值 (2020) 等方法仅反映平均情况下的性能
  • 为了准确测量推理能力边界,论文将代码生成中常用的 pass@\(k\) 指标 (2021) 扩展到所有具有可验证奖励的任务
  • 给定一个问题,论文从模型采样 \(k\) 个输出
    • 如果至少有一个样本通过验证,则该问题的 pass@\(k\) 值为 1;否则为 0
    • 问题:这里的模型采样可能会重复吗?
  • 数据集的平均 pass@\(k\) 值反映了模型在 \(k\) 次尝试内可以解决的数据集中问题比例,为 LLMs 的推理能力覆盖范围提供了严格评估
  • 论文采用一种无偏、低方差的估计器(unbiased, low-variance estimator)来计算 pass@\(k\),详见 A.2 节
Comparison with Best-of-\(N\) and Majority Voting
  • Best-of-\(N\) (2021) 和 Majority Voting 是选择正确答案的实用方法,但它们可能忽略了模型的全部推理潜力
  • In Contrast,论文使用 pass@\(k\) 不是为了评估实际效用 ,而是为了探究推理能力的边界
    • 如果模型在任意 \(k\) 个样本中产生了一个正确解,论文将该问题视为在其潜在范围内
    • Thus,如果 RL 增强了推理能力, RL 训练的模型应该比 Base Model 在更多此类问题上成功
  • 如果 Verifier 或投票未选择正确答案,像 Best-of-\(N\) 或多数投票这样的方法可能会错过这些成功
Random Guessing Issue
  • 对于 Coding 任务,使用编译器和预定义的单元测试用例作为 Verifier ,pass@\(k\) 值可以准确反映模型是否能解决问题
  • 在 Mathematics 中,“猜测”问题可能随着 \(k\) 的增加而变得显著,即模型可能生成不正确的 CoT 但仍偶然得出正确答案
  • 为了解决这个问题,论文对模型输出的一个子集手动检查 CoT 的正确性 ,详见 3.1 节
  • 通过结合数学上手动检查的结果和 Coding 的结果,论文严格评估了 LLM 推理能力的范围
  • 另一个注意事项是(Another caveat is that),如果 \(k\) 值极大,即使是 Token 字典(Dictionary)上的均匀采样也会偶然发现正确的推理路径
    • 尽管这在当今的时间和计算资源预算下是不可行的
  • Crucially,论文发现 Base Model 在实际的 \(k\) 值(\(k=128\) 或 1024)下已经能产生正确的输出,这完全在实用资源限制内
    • 理解:这里也是最早本人的担忧,这里作者相当于给了比较合适的回答了,但依然是论文的一个核心讨论点,因为采样次数足够多,任何模型都能成功

RLVR’s Effect on Reasoning Capacity Boundary

  • 前文建立了推理边界评估指标
  • 本节现在通过广泛的实验对基础和 RLVR 模型进行全面评估
  • 论文的分析按任务类别组织,涵盖三个代表性领域:数学、代码生成和视觉推理
  • 整体实验设置总结在表 1 中(表 1 :评估 RLVR 对 LLMs 推理边界影响的实验设置)
  • 评估协议(Evaluation Protocol)
    • 对于 Base Model 和 RLVR 模型的采样过程,论文使用温度 temperature=0.6 和 top-\(p\) 值 0.95,允许最大生成 16,384 个 Token
      • 论文在图 17 中还展示了不同温度设置的效果
    • 对于 Base Model 的评估,一种常见做法是在 Prompt 中包含少量示例(few-shot examples)以引导输出 (2024; 2024; 2024)
      • However,为了确保公平和无偏见的比较,论文特意避免为 Base Model 使用少量 Prompt (few-shot prompts),以消除上下文示例可能对推理造成的任何潜在混杂影响
    • 为了评估 Base Model 和 RLVR 模型,论文使用与 RLVR 训练相同的零样本 Prompt (zero-shot prompt),或基准测试提供的默认 Prompt ,确保两种模型之间设置一致
      • Interestingly,尽管 Base Model 在没有少量指导的情况下经常产生未格式化或无意义的 Response ,但论文观察到,只要有足够的采样,它们仍然能够生成正确格式化的输出并成功解决复杂问题
      • 训练和评估的 Prompt 模板在附录 D 节中提供

RLVR for Mathematical Reasoning

Models and Benchmarks
  • 在数学问题中,模型需要生成一个推理过程(即 CoT)以及最终答案
  • 为了确保结论的稳健性,论文实验了多个 LLM 家族,主要是 Qwen2.5 (7B/14B/32B 基础变体) (2024) 以及额外的 LLaMA-3.1-8B (2024)
  • 论文采用由 SimpleRLZoo (2025) 发布的 RLVR 模型,这些模型使用 GRPO 在 GSM8K 和 MATH 训练集上训练 Zero RL 模型,仅使用正确性奖励,排除任何基于格式的奖励
  • 论文在不同难度的基准测试上比较 Base 和 Zero RL 模型的 pass@\(k\) 曲线:
    • GSM8K (2021)、MATH500 (2021)、Minerva (2022)、Olympiad (2024)、AIME24 和 AMC23
  • Additionally,论文还包括 RLVR 模型 Oat-Zero-7B 和 DAPO-32B (2025a; 2025)
    • 这两个模型的特点是在具有挑战性的 AIME24 基准测试上表现出色
The Effect of RLVR: Increased Likelihood of Correct Samples, Decreased Coverage of Solvable Problems(增加正确样本的可能性,减少可解问题的覆盖范围)
  • 如图 2 所示,论文一致地观察到小 \(k\) 值和大 \(k\) 值之间的对比趋势
    • 当 \(k\) 较小时(例如 \(k=1\),相当于平均准确率), RL 训练的模型优于其基础对应模型
      • 这与 RL 提升性能的常见观察相符,表明 RLVR 使模型采样正确 Response 的可能性显著增加
    • 随着 \(k\) 增加,曲线变得更陡峭,在所有基准测试中, Base Model 持续赶上并最终超越 RL 训练的模型
      • 表明 Base 模型对可解问题的覆盖范围更广
      • 例如,在 Minerva 基准测试上使用 32B 大小模型时, Base Model 在 \(k=128\) 时比 RL 训练的模型高出约 9%,这意味着它可以在验证集中解决大约多 9% 的问题
  • 论文进一步检查了使用 Oat-Zero 和 DAPO 训练的 RL 模型
    • 如图 11 所示,尽管 RL 模型最初表现出强劲性能,比 Base Model 高出近 30%,但最终被 Base Model 超越
  • 基于这些结果,论文得出结论:RLVR 在低 \(k\) 时增加了采样正确 Response 的可能性,但缩小了模型的整体覆盖范围
  • 论文在 4.1 节进一步分析了这种现象的根本原因
CoT Case Analysis
  • 论文在图 20 和图 21 中展示了从 Base Model 中采样的正确 CoT,这些是从 AIME24 最难问题的 2048 次采样中手动选择的
  • Base Model 的 Response 往往是较长的 CoT 并表现出反思行为,突显了 Base Model 内在的强大推理能力
Validityof Chain-of-Thought
  • 对于数学问题,常见的评估仅基于最终答案的正确性,存在 hacking 风险
  • 为了使用 pass@\(k\) 准确反映推理能力边界,重要的是评估有多少已解决的问题是源于采样到真正正确的 CoT,而非幸运猜测
  • 遵循 (2024),论文手动检查了 GSM8K 数据集中最具挑战性的可解问题(平均准确率低于 5% 但高于 0%)中导致(led to)正确答案的所有 CoT
    • Base Model 回答了 25 个这样的问题,其中 24 个包含 至少一个(at least one) 正确的 CoT
    • Similarly, RL 训练的模型回答了 25 个问题,其中 23 个包含 至少一个 正确的 CoT
  • 论文还手动检查了具有挑战性的 AIME24 基准测试中平均准确率低于 5% 的问题的 CoT(详情见 C.2 节)
    • Base Model 回答了 7 个这样的问题,其中 5 个(共 6 个,排除一个因跳过推理步骤而正确性模糊的情况)包含 至少一个 正确的 CoT
    • 类似地, RL 训练的模型回答了 6 个问题,其中 4 个包含 至少一个 正确的 CoT
  • 这些结果表明, Base Model 可以采样有效的推理路径来解决问题
    • 理解:这里是挑选最可能因为随机猜对答案(而 CoT 是错的)的问题进行人工 check,看起来 check 结果也是符合预期的(Base Model 回答对的情况跟 RL 模型差不多或更好)

RLVR for Code Generation

Models and Benchmarks
  • 论文采用了开源的、经过 RLVR 训练的模型 CodeR1-Zero-Quen2.5-7B (2025)
    • 该模型基于 Quen2.5-7B-Instruct-1M (2025b),在 12K 个 LeetCode 和 TACO 样本上训练了 832 步
  • For Evaluation,模型在 LiveCodeBench v5 上进行评估(assessed)
    • 该 LiveCodeBench v5 基准包含从 2024 年 8 月到 2025 年 1 月的 279 个问题 (2025),同时还使用了 HumanEval+ 和 MBPP+ (2023)
  • 论文还评估了最强大的开源 RLVR 训练代码 LLM DeepCoder-14B (2025),它基于 DeepSeek-R1-Distill-Quen-14B 构建
    • 这两个模型的 Response 长度均为 32k
    • 由于其高昂的计算成本,论文仅在 LiveCodeBench 上对它们进行评估,作为代表性基准
The Effect of RLVR
  • 由于通过猜测几乎不可能通过所有单元测试,因此 pass@(k) 可以可靠地衡量模型的推理边界
  • 如图 3、图 12 和图 4(左)所示,RLVR 在三个代码生成基准上的影响趋势与在数学基准上观察到的趋势高度一致

RLVR for Visual Reasoning

Models and Benchmarks
  • 在视觉推理任务中,模型必须共同解释视觉和文本输入以解决复杂的推理问题
  • 自 LLM 推理兴起以来,这已在多模态社区中获得极大关注 (2025a; 2025; 2025)
  • 在我们的实验中,我们选择视觉情境下的数学问题作为代表性任务
  • 我们使用 EasyR1 框架 (2025) 在 Geometry3K (2021) 上训练 Quen2.5-VL-7B (2025),并在经过筛选的 MathVista-TestMini (2024) 和 MathVision-TestMini (2024) 上评估其视觉推理能力,其中移除了多项选择题
The Effect of RLVR
  • 如图 4(右)所示,RLVR 对视觉推理的影响与在数学和代码基准上观察到的结果高度一致
  • 这表明,即使在多模态任务中,原始模型对可解问题也具有更广泛的覆盖范围
Validity of Chain-of-Thought
  • Similarly,作者手动检查了最具挑战性的问题子集,即平均准确率低于 5% 的问题
    • 作者发现,对于原始模型和 RL 模型,8 个问题中有 7 个问题至少包含一条正确的思维链
  • 这些结果支持了思维链的有效性

Deep Analysis

  • 本节对当前 RLVR 训练的效果进行了更深入的分析
  • 另外,论文也强调了蒸馏技术与 RLVR 的显著不同特征
  • In Addition,论文设计了对照实验来考察不同 RL 算法和设计选择的影响

Reasoning Paths Already Present in Base Models

Accuracy Distribution Analysis
  • 第 3 节的实验揭示了一个令人惊讶的趋势: Base Model 比 RLVR 训练后的模型覆盖了更广范围的可解问题
  • 为了更好地理解这一点,论文分析了 RLVR 训练前后准确率分布的变化
    • 如图 5 所示,RLVR 增加了接近 1.0 的高准确率频次,并减少了低准确率(例如 0.1, 0.2)的频次
    • However,与这一趋势偏离的是在准确率为 0 处的频次增加(这表明 RLVR 导致了更多不可解的问题)
    • 这也解释了 RLVR 在平均分数上的提升,这种提升并非源于解决新问题,而是源于在 Base Model 已经可解的问题上提高了采样效率
  • 更多准确率直方图参见图14
Solvable-Problem Coverage Analysis
  • 为了进一步研究,论文在 AIME24 和 MATH500 上比较了 Base Model 及其对应的 RL 训练版本的可解问题集合
  • 论文发现,存在许多 Base Model 能解决而 RLVR 模型失败的情况,而 RLVR 成功但 Base Model 失败的案例极少,如表 2 所示
  • 详细情况见第 C.7 节
    • 如表 5 所示,RL 训练模型解决的可解问题集合几乎是 Base Model 可解问题集合的一个子集
    • 如表 6 所示, Coding 任务中也观察到了类似的趋势
  • 这引发了一个自然的问题:RL 训练模型生成的所有推理路径是否已经存在于其 Base Model 的输出分布中?
Perplexity Analysis
  • 上文中我们提出了 RL 训练模型生成的所有推理路径是否已经存在于其 Base Model 的输出分布中? 这个问题
  • 为了回答这个问题,论文使用了 困惑度 (perplexity, PPL) 这一指标
    • 给定一个模型 \(m\)、一个问题 \(x\) 和一个 Response \(\mathbf{Y}=(y_{1},\ldots,y_{T})\)(可以由同一模型、另一模型或人类生成),PPL 定义为序列的负对数似然平均的指数形式:
      $$
      \texttt{PPL}_{m}(\mathbf{Y}|x)=\exp\left(-\frac{1}{T}\sum_{t=1}^{T}\log P(y_{t}|x,y_{1},\ldots,y_{t-1})\right),
      $$
    • 它反映了模型在给定 Prompt \(x\) 的条件下预测给定 Response \(\mathbf{Y}\) 的能力
    • 更低的困惑度表明模型生成此 Response 的可能性更高
  • 论文从 AIME24 中随机抽取两个问题,并分别使用 Qwen2.5-7B-Base 和 SimpleRL-Qwen2.5-7B-Base 为每个问题生成 16 个 Response ,分别记为 \(\mathbf{Y}_{\text{Base} }\) 和 \(\mathbf{Y}_{\text{RL} }\)
  • 论文还让 OpenAI-o1 (2024) 生成了 8 个 Response ,记为 \(\mathbf{Y}_{\text{GT} }\)
  • 如图 6 所示,\(\textrm{PPL}_{\text{Base} }(\mathbf{Y}_{\text{RL} }|x)\) 的分布与 \(\textrm{PPL}_{\text{Base} }(\mathbf{Y}_{\text{Base} }|x)\) 分布的下部紧密匹配,对应于 Base Model 倾向于生成的 Response
  • 这表明 RL 训练模型的 Response 极有可能被 Base Model 生成。在第 C.4 节中,论文展示了 \(\textrm{PPL}_{\text{Base} }(\mathbf{Y}_{\text{RL} }|x)\) 随着 RL 训练的进行逐渐降低,表明 RLVR 主要是在 Base Model 先验内部锐化了分布,而不是扩展超出其范围
Summary
  • 结合上述分析,论文得出三个关键观察
    • First,RLVR 模型解决的问题 Base Model 也能解决;观察到的平均分数提升源于在这些已经可解的问题上进行更有效的采样,而不是学会了解决新问题
    • Second,在 RLVR 训练后,模型通常表现出比其 Base Model 更窄的推理覆盖率
    • Third,RLVR 模型利用的所有推理路径已经存在于 Base Model 的采样分布中
  • 这些发现表明 RLVR 并未引入根本性的新推理能力,训练模型的推理能力仍然受限于其 Base Model

Distillation Expands the Reasoning Boundary

  • 除了直接 RL 训练之外,提升小型 Base Model 推理能力的另一个有效方法是从强大的推理模型进行蒸馏 (2025)
    • 蒸馏过程类似于训练后阶段的 Instruction-Following Fine-tuning
    • 蒸馏使用的训练数据不是使用简短的 Instruction-Response 对,而是由教师模型生成的长链式推理轨迹组成
  • 鉴于当前 RLVR 在扩展推理能力方面的局限性,很自然地要问蒸馏是否表现出类似的行为
    • 一个代表性模型是 DeepSeek-R1-Distill-Qwen-7B,它是在 Qwen2.5-Math-7B 上,使用 DeepSeek-R1 蒸馏的
  • 论文将其与 Base Model Qwen2.5-Math-7B 及其 RL 训练对应物 Qwen2.5-Math-7B-Oat-Zero 进行比较,并加入 Qwen2.5-Math-7B-Instruct 作为额外基线
  • 如图7所示,蒸馏模型的 pass@\(k\) 曲线始终显著高于 Base Model
  • 这表明,与本质上受 Base Model 推理能力限制的 RL 不同,蒸馏引入了从更强的教师模型学习到的新推理模式
    • As a result,蒸馏模型能够超越 Base Model 的推理边界

Effects of Different RL Algorithms

  • As discussed previously,RL 的主要效果是提高采样效率,而不是扩展模型的推理能力
  • 为了量化这一点,论文提出了采样效率差距 (Sampling Efficiency Gap) (\(\Delta_{\text{SE} }\))
    • 定义为 RL 训练模型的 pass@1 与 Base Model 的 pass@\(k\) 之间的差值(在论文的评估中使用 \(k=256\))
    • \(\Delta_{\text{SE} }\) 越低越好
  • 在这里,论文进行了干净的实验来研究不同 RL 算法在提高采样效率方面的效果
Experiment Setup
  • 为了公平比较,论文使用 VeRL 框架 (2024) 重新实现了流行的 RL 算法,包括 PPO (2017)、GRPO (2024)、Reinforce++ (2025)、RLOO (2024)、ReMax (2024) 和 DAPO (2025)
  • 遵循 DAPO (2025) 和 Oat-Zero (2025) 的做法,论文移除了 KL 项以避免限制模型学习
  • 在训练期间,论文使用 AdamW 优化器 (2017),恒定学习率为 \(10^{-6}\)
  • 对于 rollout,论文使用 Prompt Batch Size 为 256,每个 Prompt 生成 8 个 Response
  • 最大 rollout 长度设置为 8,192 个 Token ,采样温度设置为 1.0
  • 论文使用的 PPO Mini-Batch Size 为 256
  • 为了评估 RLVR 下的领域内和领域外泛化能力,论文将 Omni-MATH 的一个子集 Omni-MATH-Rule(包含可验证问题)分成训练集(2,000 个样本)和领域内测试集(821 个样本),并使用 MATH500 作为领域外基准
Results
  • 如图 8(顶部)所示,尽管不同的 RL 算法在 pass@1 和 pass@256 上表现出微小的差异,但这些差异并非根本性的
  • 不同的 RL 算法产生略微不同的 \(\Delta_{\text{SE} }\) 值(例如,在领域内测试集上,从 GRPO 的 43.9 到 RLOO 最佳值 42.6 之间)
  • Furthermore,论文观察到 \(\Delta_{\text{SE} }\) 在不同算法中始终保持在 40 分以上,突出现有 RL 方法距离实现最优采样效率仍然很远
  • 这表明可能需要新的 RL 算法或全新的范式来接近上界
  • 更多观察结果见第 C.5 节

Effects of RL Training

Asymptotic Effects
  • 基于第 4.3 节的设置,论文研究了训练步数对模型渐近性能的影响
  • 如图 1(右)所示,随着 RL 训练的进行,训练集上的 pass@1 从 26.1 持续提升到 42.5
  • However,随着 RLVR 训练的进行,pass@256 逐渐下降,表明推理边界在缩小
每次 Prompt 的 Rollout 数量 \(n\) 的影响 (Effect of Number of Rollouts \(n\))
  • 训练超参数 \(n\)(每个 Prompt 的 Response 数量)可以通过在训练期间实现更广泛的探索来影响 pass@\(k\)
    • 论文将 \(n\) 从 8 增加到 32
    • 如图 16 所示,pass@\(k\) 比 \(n=8\) 时略有改善,但 RL 训练模型最终仍然被 Base Model 超越
      • 注:在 Math500 上,n=32 的始终不如 n=8 的;但实际上 n=32 实际上只训练了 220 steps(并没有跟 n=8 的对齐 steps)
      • KL 散度的训练 Rollout Number 配置是 8
  • 论文将扩大 RLVR 训练是否最终能超越 Base Model 的问题留给未来研究
Effect of KL Loss
  • 为了控制模型偏差,一些先前的工作添加了 KL 惩罚项
  • 论文通过应用系数为 0.001 的 KL 项来进行消融实验
  • 如图 16 所示,带有 KL 正则化的模型在不使用 KL 的 GRPO 基础上实现了相似的 pass@1,但 pass@128 低得多

Effects of Entropy

  • 随着 RL 训练的进行,模型的输出熵通常会降低 (2025),这可能由于输出多样性减少而导致推理边界缩小
  • 为了研究这个因素,论文提高了 RLVR 训练模型的生成温度,以匹配 Base Model 在 \(T=0.6\) 时的输出熵
  • 如图 18 所示,尽管 RLVR 模型在更高温度下相比其自身在 \(T=0.6\) 时的表现,pass@\(k\) 略有改善,但在整个 pass@\(k\) 范围内仍然表现不如 Base Model
  • 这表明,虽然熵的降低导致了推理边界的缩小,但这并不是唯一的原因

Effects of Model Size Scaling

  • Scaling 在当代 LLM 的能力中扮演着核心角色
    • 随着模型规模的增加,(论文)所得出的结论是否继续成立仍然是一个重要问题
  • 对于许多大型模型,分离(isolating) RLVR 的影响是不可行的(即难以拿到 RLVR 过程前后的模型)
    • For Example
      • 对于 GPT-o1,其 Base Model 并非公开可访问
      • Qwen3-235B (2025) 通过多个阶段进行训练,包括 RLVR 和长上下文 CoT 监督微调,这使得无法单独分离 RLVR 的影响
      • 对于 Deepseek-R1-Zero,由于没有公开托管的 API,论文被迫自行托管模型,但在最大序列长度为 32k 的情况下,吞吐量被限制在每秒约 50 个 Token ,使得 pass@\(k\) 评估目前不可行
    • 作为一个更可行的替代方案,论文选择了 Magistral-Medium-2506 API 进行初步实验
      • 该模型使用纯 RL 训练,以 Mistral-Medium-3-2505 作为 starting model(起始模型,2025)
        • 尽管模型规模未公开,但 Magistral-Medium 的性能与 Deepseek-R1 相当,在推理能力方面定位接近前沿
  • 论文按照原论文的做法,使用最大 40k 的上下文长度查询模型
    • 论文再次观察到,RLVR 在低 \(k\) 值时提供了显著的增益,但在更高的 \(k\) 值下改善很小或没有改善
    • Specifically,在 \(k=1\) 时,与他的 Base Version 相比,RLVR 增强的模型在 AIME24 上多解决了大约 7 个问题,在 AIME25 上多解决了大约 8 个问题
    • However,随着 \(k\) 的增加,性能差距稳步缩小
  • 这些观察结果表明,即使对于当前高度强大、接近前沿的推理模型,论文的结论仍然成立
  • 随着更多计算(例如预训练规模预算)投入到 RL 训练中,这一趋势是否会持续下去,仍然是 LLM 推理未来的一个关键问题

Discussion

  • 在第 3 节和第 4 节中,论文确定了 RLVR 在提升 LLM 推理能力方面的关键局限性
  • 在本节中,论文探讨可能解释为什么 RLVR 仍然受限于 Base Model 推理能力的潜在因素

Discussion 1: 传统 RL 与 LLM 的 RLVR 之间的关键区别在于巨大的动作空间和预训练先验

  • Key Differences Between Traditional RL and RLVR for LLMs are Vast Action Space and Pretrained Priors
  • 传统 RL,如 AlphaGo Zero 和 DQN 系列 (2017, 2015, 2023),可以在围棋和 Atari 游戏等环境中没有显式上界(without an explicit upper bound)地持续改进策略性能
  • 传统 RL 与 LLM 的 RLVR 之间存在两个关键区别
    • First,语言模型中的动作空间比围棋或 Atari 游戏的动作空间指数级更大 (2023)
      • RL 算法最初并非设计用于处理如此巨大的动作空间,如果从零开始训练,几乎不可能有效探索奖励信号
    • Therefore, The Second Distinction is LLM 的 RLVR 从一个具有有用先验的预训练 Base Model 开始,而 Atari 和 GO 游戏中的传统 RL 通常是从零开始
    • 这种预训练先验指导 LLM 生成合理的 Response ,使得探索过程显著更容易,并且策略可以获得正向奖励反馈

Discussion 2: 在这个巨大动作空间中,先验是一把双刃剑

  • Priors as a Double-Edged Sword in This Vast Action Space
  • 由于 Response 的采样受到预训练先验的引导,策略可能难以探索超出先验已经提供内容的新推理模式
  • Specifically,在如此复杂且高度组合的空间中,通过朴素的 Token-level 采样探索(naive token-level sampling exploration)生成的大多数 Response 都受到 Base Model 先验的限制
    • 任何偏离先验的样本都极有可能产生无效或无意义的输出,从而导致负的结果奖励 (Negative outcome reward)
  • 如第 2.1 节所讨论的,策略梯度算法旨在最大化在先验内获得正奖励的 Response 的对数似然,同时最小化在先验外获得负奖励的 Response 的似然
    • As a result,训练后的策略倾向于产生已经存在于先验中的 Response ,将其推理能力限制在 Base Model 的边界内
  • 从这个角度看,从蒸馏模型开始训练 RL 模型可能暂时提供一个有益的解决方案,因为蒸馏有助于注入更好的先验
    • 理解:但蒸馏也会大幅度改变模型之前的分布,从而导致模型在其他方面的能力受到影响

Possible Future Work

  • 如上所述,巨大动作空间中的低效探索机制以及对二元结果奖励的依赖,可能是当前 RLVR 设置中所观察到局限性的根本原因
  • 为了从根本上应对这些挑战,以下几个方向可能值得探索:
    • 在高级抽象中进行高效探索策略 (Efficient exploration strategies in high-level abstraction)
      • 高级别的探索机制,例如在程序级抽象空间中进行自我演化的 AlphaEvolve (2025),可能对于驾驭巨大的动作空间至关重要
      • 此类策略可以促进发现先验外的推理模式和以前未见的知识结构
    • 通过课程学习扩展数据规模 (Data scale via curriculum)
      • 课程学习可以从训练较简单的子问题开始,使模型提高采样效率并获得必要的元技能
      • 通过在处理更难问题之前提高简单任务的成功率,这种课程可以分层减少探索空间,并在具有挑战性的父任务上使性能从接近零提升到非零,从而使 RLVR 能够获得有意义的奖励 (2025, 2025)
      • 尽管当前 RLVR 训练数据中偶尔会出现这种层次关系的痕迹,并且最近的工作中已经观察到了它们的效果 (2025),但要实现其全部潜力,将需要一个更加审慎、大规模的数据-RL 迭代流程,确保对元技能以及简单与困难问题之间适当关系的充分覆盖
    • 过程奖励和细粒度信用分配 (Process reward and fine-grained credit assignment)
      • 与纯粹的二元结果奖励相比,结合中间信号来指导推理轨迹可能会显著提高探索效率,并将探索引导向更有希望的解决方案路径
    • Agentic RL (理解:即基于经验探索的 RL)
      • 当前的 RLVR 推理仅限于单轮 Response ,而基于反馈的迭代细化对于 IMO 级别的推理至关重要 (2025)
      • 当前的 RLVR 推理也缺乏通过使用搜索工具或进行实验来主动收集新信息的能力
      • 一个多轮智能体 RL 范式,具有与环境反馈的更丰富交互,可以让模型生成新颖的经验并从中学习
      • 这个新兴的智能体框架被描述为“经验时代(era of experience)”的开端 (2025) Silver, D. and Sutton, R. S. Welcome to the era of experience. Google AI, 2025

Related Work

  • 论文在此总结了关于 RLVR 分析的关键相关工作,并在附录 B 中提供了更全面的讨论
  • 尽管最近的 RLVR 方法取得了令人印象深刻的经验结果 (2025, 2024),但其对推理的根本影响仍未得到充分探索
    • 一些研究 (2025, 2025, 2025) 表明,RLVR 模型中的反思行为源于 Base Model ,而不是通过 RL 学到的
    • Dang 等人 (2025) 观察到 RLVR 训练后 pass@\(k\) 性能下降,但他们的分析范围有限
      • More Importantly,他们没有探索 Base Model 与 RL 模型之间的关系
    • Deepseek-Math (2024) 也观察到了类似的趋势,但其研究仅限于单个指令微调模型和两个数学基准
  • In Contrast,论文的工作系统地调查了(systematically investigates)广泛的模型、任务和 RL 算法,以准确评估当前 RLVR 方法和模型的效果
  • 论文进一步提供了深入的分析,包括准确率分布、推理覆盖率、困惑度趋势以及与蒸馏模型的比较,提供了对 RLVR 能力和局限性的全面理解

附录 A:Implementation Details

A.1 RLVR Algorithms

  • 为了减少内存和计算开销,人们提出了几种无需 Critic 的变体
    • GRPO (2024) 通过同一问题的一组 Response 内的归一化奖励来估计优势值:
      $$ A_i = \frac{r_i - \text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}$$
      • 其中 \(\mathbf{r} = \{r_1, \ldots, r_G\}\) 表示一组 \(G\) 个采样 Response 的奖励集合
    • RLOO (2024) 则在每个批次 \(\mathcal{B}\) 内采用留一法(leave-one-out)基线
      • 其优势值定义为
        $$ A_i = r_i - \frac{1}{|\mathcal{B}|-1} \sum_{j \neq i} r_j$$

A.2 Low-Variance pass@k Estimation

  • 直接使用每个问题仅 \(k\) 个采样输出来计算 pass@\(k\) 可能会导致高方差
  • 为了缓解这个问题,论文遵循 Chen 等人 (2021) 提出的无偏估计方法
  • Specifically,对于评估数据集 \(\mathcal{D}\) 中的每个问题 \(x_i\),论文生成 \(n\) 个样本 (\(n \geq k\)),并将正确样本的数量记为 \(c_i\)
  • 数据集中 pass@\(k\) 的无偏估计量由下式给出:
    $$
    \text{pass@}k := \mathbb{E}_{x_i \sim \mathcal{D} } \left[1 - \frac{\binom{n-c_i}{k} }{\binom{n}{k} } \right]
    $$
    • 通过这个公式,我们可以轻松地以低方差估计所有 \(k \leq n\) 的 pass@\(k\) 值
  • 在论文的实验中,将 \(n\) 设置为 pass@\(k\) 曲线中最大的(即最右边的) \(k\) 值,通常是 128、256 或 1024
    • 例如,在图2中
      • 论文对 MATH500、Minerva 和 GSM8K 使用 \(n=128\)
      • 对 AMC23 和 AIME24 使用 \(n=1024\)
      • 对于 Olympiad 基准测试,由于 Base Model 能力相对较低
        • 论文为 Qwen 模型设置 \(n=128\)
        • 为 LLaMA-3.1-8B 设置 \(n=1024\)
    • 问题:这里其实说明在评估最大的 \(k\) 时, \(k\) 和 \(n\) 是相同的,此时方差应该不小

附录 B:More Related Works

Reinforcement Learning for LLM Reasoning

  • 自从 LLM 出现以来,Post-Training 阶段已被证明对于增强问题解决和推理能力至关重要 (2022)
  • Post-Training 阶段通常分为三个主要类别:
    • 使用人工整理或蒸馏数据进行监督微调 (2023),supervised fine-tuning using human-curated or distilled data
    • 自我改进迭代 (2022; 2023),self-improvement iteration
    • RL (2022)
  • Previously,人们使用奖励模型或 Response 对之间的偏好进行奖励建模 (2022; 2023)
  • Recently,RLVR 作为一种提高 LLM 在数学和编程等领域推理能力的方法,获得了显著的关注 (2024; 2024)
    • 一个鼓舞人心的里程碑工作是 OpenAI 的 o1 模型 (2024)
      • 这是首批大规模应用 RL 进行推理的模型之一,在发布时达到了当时的先进水平(achieving state-of-the-art results)
  • Following this,Deepseek-R1 (2025) 成为首个性能匹配或超越 o1 的开放权重模型
    • R1 引入的一个重要创新是 “Zero” 设置,即直接对 Base LLM 应用 RL ,绕过任何中间的监督调优
    • 这种方法启发了一波旨在复制或扩展 R1 方法并改进 RL 算法的开源努力 (2025; 2025a; 2025; 2025; 2025a; 2025)
  • 与此同时(In Parallel), RL 在多模态领域也获得了关注,推动了多模态推理(multimodal reasoning)的进步 (2025a; 2025; 2025)

Analysis of RLVR

  • 尽管在 RLVR 领域有许多优秀的开源工作和算法设计,但关于 RLVR 对 LLM 推理能力的根本影响及其从 Base Model 开始的局限性,仍然缺乏深入的理解
    • 几项研究 (2025a; 2025b; 2025) 强调,在 R1 类模型中观察到的反思行为实际上源于 Base Model ,而不是由 RLVR 训练引入的
    • Dang等人 (2025) 观察到了与论文的发现类似的现象:Pass@k 性能在 RL 后迅速恶化且无法恢复,但这仅限于一个有限的实验设置(在 GSM8K 上使用 Qwen-2.5-0.5B 模型)
    • More Importantly,他们没有探究 Base Model 与 RL 模型之间的关系
  • In Contrast,论文的论文通过系统和严谨的实验表明,不仅是反思行为,所有推理路径都早已嵌入在 Base Model 中
    • 论文进一步证明,RLVR 并未引出超越 Base Model 的新推理能力

附录 C:Detailed Experimental Results

C.1 More Results on Mathematics and Coding

  • 图 11:在AIME24上评估 Oat-Zero-7B 和 DAPO-32B,并与各自的 Base Model 进行比较
  • 图10:SimpleRLZoo 在 GSM8K 和 AMC23 上的更多结果

C.2 Validity of Chain-of-Thought on AIME24

  • 论文手动检查了最具挑战性的 AIME24 基准测试中的思维链
  • To Begin,论文引入一种过滤机制,旨在消除容易猜测的问题
    • Specifically,论文 Prompt Qwen2.5-7B-Base 模型直接回答问题,不使用思维链推理,并多次采样答案
    • 如果一个问题能够以低但非零的概率(例如,< 5%)被正确回答,论文将其视为可猜测并移除
    • 那些能以高概率直接正确回答的问题则保留,因为它们很可能更容易,并且可以通过有效的思维链解决
  • Base Model 和 RL 模型在这个经过过滤的 AIME24 数据集上的 pass@\(k\) 曲线在图 13 中,显示出与之前结果相似的趋势
  • 尽管这种过滤方法是启发式的,但它被证明是有效的
  • 将其应用于 AIME24(共 30 个问题)后,得到一个包含 18 个问题的子集
  • 然后论文 Prompt 模型使用思维链推理来回答这些过滤后的问题
  • 接着,论文手动检查了所有导致难题(平均正确率低于5%)得出正确答案的思维链
    • Base Model 回答了 7 个此类问题,其中 5/6 的问题包含至少一个正确的思维链(排除一个因跳过推理步骤而正确性模糊的情况)
    • Similarity,经过 RL 训练的模型回答了 6 个问题,其中 4 个包含至少一个正确的思维链
  • 这些结果表明,即使对于AIME24中最具挑战性的难题, Base Model 也能采样出有效的推理路径来解决问题

C.3 Accuracy Distribution Visualization

  • 图14:在使用 SimpleRLZoo 模型进行 RLVR 训练前后的准确率直方图

C.4 Perplexity Analysis

  • 为了分析困惑度在 RLVR 训练过程中如何演变,论文在第 4.3 节提到的 RL 训练过程中评估了三个 RLVR 检查点:早期、中期和最终(early, middle, and final)
  • 对于每个检查点,论文针对每个问题采样 32 个 Response ,计算 32 个困惑度值的中位数,并在表格中报告前 10 个问题的平均值
  • 正如预期的那样,论文观察到:
    • 随着 RL 训练的进行,\(\text{PPL}_{\text{Base} }(\boldsymbol{\mathbf{Y} }_{\text{RL} }|x)\) 逐渐降低
    • 这表明 RLVR 主要是锐化了 Base Model 先验分布内的分布,而不是扩展到其之外
  • 图15:RL训练期间的困惑度演变

C.5 Different RLVR Algorithms

  • 论文在图 8 中报告了关于不同 RLVR 算法的几个额外观察结果
  • First,DAPO 在所有三个数据集上都取得了略高的 pass@1 分数;
    • However,其动态采样策略在训练期间每批次所需的样本量比其他算法多大约 \(3 \sim 6\) 倍
    • Moreover,其在 \(k=256\) 时的性能显著下降
  • Second,RLOO 和 Reinforce++ 在整个 \(k\) 范围(从1到256)内表现一致良好,同时保持了高效的训练成本,在效果和效率之间取得了良好的平衡
  • Third,ReMax 在 pass@1 和 pass@256 上都表现出较低的性能
    • 论文推测(hypothesize)这是由于它使用了贪婪 Response 的奖励作为优势基线,而在 RLVR 设置中奖励是二元的(0 或 1)且高度可变
  • 这很可能导致训练期间梯度更新不稳定
  • 表 4:图 1(右)中不同 RL 训练步骤在 pass@1 和 pass@256 的详细数值

C.6 Effects of KL and Rollout Number

  • 图 16:关于 KL 损失和 Rollout Number \(n\) 的消融研究
    • 对于将 \(n\) 从8增加到32的情况,论文保持 Prompt 批次大小不变,这导致了每个训练步骤的计算量增加
    • 由于资源限制,论文在此设置下仅训练了220步,导致 pass@1 较低,因为模型尚未收敛
    • 尽管如此,\(n=32\) 的模型实现了更高的 pass@128,突显了较大的 Rollout Number 在提高较大 \(k\) 值时的 pass@\(k\) 性能方面的积极影响
    • 注:KL 散度的训练 Rollout Number 配置是 8
  • 表 5:AIME24 中可解决问题(从0开始)的索引
    • 可以观察到近似的子集关系:RL模型解决的大多数问题也都能被 Base Model 解决
  • 表 6:LiveCodeBench(范围从400到450,从0开始)中可解决问题的索引

C.7 Solvable Problem Coverage Analysis

  • 表2 统计了问题按四类情形划分的占比:
    • (1)两个模型均至少成功求解一次该问题
    • (2)仅基准模型成功求解
    • (3)仅RLVR模型成功求解
    • (4)在 \(k\) 次采样中,两个模型均未成功求解该问题
  • 结果表明,存在大量“基准模型可求解、但 RLVR 模型求解失败”的情形(情形 2),而 “RLVR 模型可求解、但基准模型求解失败” 的情形(情形 3)则极为罕见
  • 即便在情形 (3) 的少数案例中(例如在 MATH500 数据集里占比 1%,约对应 5 个问题),当采样次数提升至 1024 次时,基准模型也能完成所有这类问题的求解
  • 上述结果印证了我们的结论:RLVR模型很少能求解基准模型无法解决的问题,且通常会导致任务覆盖范围下降

C.8 Temperature and Entropy Analysis

  • 图17:论文发现当温度超过 1.0 时, Base Model 的性能会下降,因为它倾向于生成更随机、更不连贯的 Token
    • In Contrast,RL 模型的性能在不同温度设置下保持相对稳定
    • Therefore,论文在主要实验中使用 \(T=0.6\),因为它允许两个模型都展示其最佳的推理性能
  • 图18:输出熵匹配的 Base Model 与 RLVR 模型比较
    • 论文使用温度 \(T=0.6\) 评估 Base Model (Qwen2.5-7B) 在每个数据集上的表现,并在每个图的标题中报告其输出熵 \(E_{\text{base} }\)
    • 为了进行公平比较,论文增加 RLVR 模型 (SimpleRLZoo) 的温度,直到其输出熵近似匹配 \(E_{\text{base} }\)
    • For Example,在 AMC23 上,论文设置 \(T=0.9\) 以实现 \(E_{\text{RL} }=0.47\)
    • 论文还将 RLVR 在 \(T=0.6\) 时的结果作为额外基线,其熵更低(e.g., 在 AMC23 上为 0.22,在 MATH500 上为 0.33)

C.9 Training Dynamics

  • 图19:训练过程中的训练奖励、 Response 长度和生成熵曲线,对应于第 4 节的实验

附录 C.10 CoT Case Analysis

  • 图 20:Owen2.5-Base-7B 正确 Response - 案例 1
  • 图 21:Owen2.5-Base-7B 正确 Response - 案例 2

附录 D:Prompt Templates

  • 论文提供了实验中用于训练和评估的 Prompt 模板
  • 用于 SimpleRL 训练和评估的 Prompt 如图 22 所示
  • 用于 Oat-Zero 的 Prompt 如图 23 所示
  • 对于 Code-R1 训练,采用图 24 中的 Prompt
  • 对于 Code-R1 评估,论文遵循原始代码库,并采用基准测试的默认模板(核心:LiveCodeBench 需要添加 Prompt “```python” 作为结尾),包括 LiveCodeBench Prompt (图25)、HumanEval+ 和 MBPP+ Prompt (图26)
  • 用于 EasyR1 训练和评估的 Prompt 如图 27 所示
  • 对于使用 VeRL 训练的 RL 模型,如第 4.3 节和第 4.4 节所讨论的,训练和评估 Prompt 如图 28 所示
  • 对于在 AIME24/25 上评估 Mistral 和 Magistral 模型, Prompt 如图 29 所示
    • 为确保公平比较, Base Model 在评估时使用与其对应的 RL 训练模型相同的 Prompt

附录 E:Broader Impacts

  • 论文的方法的潜在负面社会影响与通常与通用 LLM 推理技术相关的那些影响一致
  • 论文强调在 LLM 系统中遵守公平和安全部署原则的重要性
1…323334…66
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

659 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4