Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

博客导航 · 分类目录

欢迎来到 Jiahong 的技术博客

包含操作系统、机器学习、深度学习、强化学习、NLP 和 LLM 等 计算机/AI 领域的学习笔记与实践总结

⭐ 论文解读 & 穿插个人评论/理解;⭐ 基础公式推导 & 数学原理分析;⭐ 实践技术思考 & 汇总整理;

📊 共计 659 篇技术文章 | 🏷️ 51 个分类领域

2017
66 篇
2018
122 篇
2019
102 篇
2020
48 篇
2021
33 篇
2022
40 篇
2023
34 篇
2024
50 篇
2025
127 篇
2026
36+ 篇

人工智能 & 机器学习

📖
自然语言处理 (NLP)
📝 208 篇文章
LLM、BERT、Transformer、文本处理等
🧠
大语言模型 (LLM)
📝 188 篇文章
GPT、BERT、ChatGPT等大模型技术
🎮 🌍
强化学习 (RL)
📝 131 篇文章
Q-Learning、PPO、TRPO、策略梯度等
🕸️
深度学习 (DL)
📝 92 篇文章
神经网络、CNN、RNN、Attention等
🤖
机器学习 (ML)
📝 50 篇文章
传统算法、特征工程、模型评估等
🔥
PyTorch
📝 28 篇文章
PyTorch框架使用与实践
📊
TensorFlow
📝 9 篇文章
TensorFlow框架使用与实践
👁️
计算机视觉 (CV)
📝 10 篇文章
图像处理、目标检测、生成模型等

广告 & 推荐

📢
计算广告 (CA)
📝 24 篇文章
广告系统、CTR预估、竞价策略、出价优化等
🔨
拍卖机制 (Auction)
📝 14 篇文章
拍卖理论、机制设计、竞价策略等
💰
竞价与出价 (Bidding)
📝 9 篇文章
出价策略、自动出价、预算分配等
⭐
推荐系统 (RS)
📝 23 篇文章
协同过滤、深度推荐、排序策略等

编程语言

🐍
Python
📝 85 篇文章
Python语法、库使用、最佳实践
☕
Java
📝 4 篇文章
Java编程与开发
🦫
Go
📝 3 篇文章
Go语言学习与实践
🚀
Scala
📝 1 篇文章
Scala函数式编程
🐚
Shell
📝 1 篇文章
Shell脚本编程

系统 & 运维

🐧
Linux
📝 29 篇文章
Linux系统、命令行工具使用
🐳
Docker
📝 5 篇文章
容器技术、镜像管理
🍎
Mac
📝 4 篇文章
macOS使用技巧
🐧
Ubuntu
📝 9 篇文章
Ubuntu 相关技术笔记
🐧
Centos
📝 6 篇文章
Centos 相关技术笔记

数学

📐
数学
📝 27 篇文章
线性代数、概率论、优化理论等

开发工具

🌿
Git
📝 8 篇文章
版本控制、协作开发
📝
Hexo
📝 5 篇文章
博客搭建与维护
✍️
Markdown
📝 1 篇文章
Markdown语法与技巧

其他

📦
其他
📝 44 篇文章
杂项笔记与技术分享
📁
Regex
📝 1 篇文章
Regex 相关技术笔记
📁
Anaconda
📝 4 篇文章
Anaconda 相关技术笔记
📁
Numpy
📝 4 篇文章
Numpy 相关技术笔记
📁
Jupyter
📝 6 篇文章
Jupyter 相关技术笔记
📁
Ray
📝 2 篇文章
Ray 相关技术笔记
📁
Pandas
📝 2 篇文章
Pandas 相关技术笔记
📁
DataFrame
📝 1 篇文章
DataFrame 相关技术笔记
📁
ACM
📝 1 篇文章
ACM 相关技术笔记
📁
KG
📝 3 篇文章
KG 相关技术笔记
📁
Neo4j
📝 1 篇文章
Neo4j 相关技术笔记
📁
GR
📝 11 篇文章
GR 相关技术笔记
📁
GBDT
📝 8 篇文章
GBDT 相关技术笔记
📁
Sklearn
📝 3 篇文章
Sklearn 相关技术笔记
📁
Hadoop
📝 1 篇文章
Hadoop 相关技术笔记
📁
Hive
📝 1 篇文章
Hive 相关技术笔记
📁
MySQL
📝 4 篇文章
MySQL 相关技术笔记
📁
CPT
📝 5 篇文章
CPT 相关技术笔记
📁
AI-Infra
📝 18 篇文章
AI-Infra 相关技术笔记
📁
Megatron
📝 7 篇文章
Megatron 相关技术笔记
📁
Rubrics
📝 14 篇文章
Rubrics 相关技术笔记
📁
Rubric
📝 1 篇文章
Rubric 相关技术笔记
📁
Agent
📝 1 篇文章
Agent 相关技术笔记
📁
HuggingFace
📝 1 篇文章
HuggingFace 相关技术笔记
📁
Spark
📝 2 篇文章
Spark 相关技术笔记

💡 提示:点击任意卡片即可查看该分类下的所有文章

📧 联系方式:JoeZJiahong@Foxmail.com | 🔗 GitHub: @JoeZJH

NLP——技术报告解读-MAI-Thinking-1

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(MAI-Thinking-1 Technical Report)MAI-Thinking-1: Building a Hill-Climbing Machine, 20260602
      • 名称理解:微软 AI,Microsoft AI,MAI

Paper Summary

  • 技术报告核心内容:
    • 评价:本技术报告可读性极高,因为包含非常详细的流程
    • 训练过程:Based on the technical report, the training process for MAI-Thinking-1 is: Pre-training → Mid-training (context extension) → RL (STEM, Agentic, and Helpfulness/Safety climbs) → Consolidation SFT → Consolidation RL
      • 后训练说明:
        • 三个专家模型独立训练完成后,再通过 SFT 蒸馏合并(consolidation SFT) 和 轻量级 consolidation RL 整合成最终的 MAI-Thinking-1 模型,详情见图 12
    • 本文作者认为,AI 进步的核心是持续改进模型的状态,本将模型开发当做一个系统级的优化问题
      • 这个优化问题的解决方案称是:构建一个能够快速改进的爬山机器 (hill-climbing machine)
    • 本文流程包括:
      • 一个面向预训练建模决策、以扩展为中心的框架
      • 一个能够支持长期、对数线性性能提升的稳健 RL 流程和使用指南
    • 本流程开发的第一个模型是 MAI-Thinking-1(1T-A35B)
      • 核心特点:在 STEM 推理和编码任务上,它在相似规模的模型中表现突出
      • MAI-Thinking-1 是从头开始训练的,完全使用干净的企业级数据,没有通过蒸馏从第三方模型获取能力

Introduction and Discussion

  • Pre-training 专注于一个简单的扩展方法,该方法强调对架构和数据进行经验驱动的迭代改进
  • RL 框架针对在数千步中持续的对数线性增长进行了优化(图 1:MAI-Thinking-1 在 RL 过程中的性能表现)
  • 本文作者遵循三个主要设计原则来开发模型:
    • 第一:能力应该是习得的,而非继承的
      • 尽管通过蒸馏可以更快地获得智能,但它缺乏对漫长、持久的爬升至关重要的可操纵性 (steerability) 和稳健性 (robustness)
    • 第二:简洁性 (simplicity) 是可持续的,作者倾向于
      • 简单的、可扩展的流程
      • 干净的、可信的数据
      • 透明的、共同支持从头开始爬升的 Infrastructure
    • 第三:科学严谨性 (scientific rigor) 可以避免走捷径
      • 每一个决策都必须通过数据驱动的梯子 (ladder)、消融实验 (ablation) 和评估来检验,这些方法能够揭示通往顶峰的可靠路径
  • MAI-Thinking-1 在 30T 个 Token 上进行了 Pre-training
    • 这些 Token 来自一个混合了公开可用和许可的人类生成数据的混合物,涵盖了网络数据、公共 GitHub 代码、书籍、学术论文、新闻、多语言文本以及特定领域材料
    • 这些来源中的每一个都是从头到尾在内部处理的
    • 作者选择在预训练期间不使用任何由语言模型生成的合成数据 ,并努力避免和移除收集到的数据源中的 AI 生成内容
      • 对于预训练,不使用任何开源训练数据集,并从训练数据中净化了常见的机器学习数据库
  • 在 Mid-training 中,进一步强调 STEM、数学和编码能力,为 Reasoning RL climb 建立坚实的基础
    • 在 Mid-training 之后,MAI-Thinking-1 实现了 256K 的最大上下文长度
  • Pre-training 和 Mid-training 为基础模型提供了广泛的预测能力和知识,但它们并未指定模型应如何行为、如何解决长时程任务或如何分配推理时的计算资源
  • 在 RL climb 过程中,教模型进行推理和响应
    • 模型学习利用 CoTs 来应对特定任务的反馈,使用外部工具与环境交互,并遵循人类偏好和安全信号
    • RL climb 是从零开始的,在没有任何先前推理痕迹 (Reasoning traces) 暴露的情况下学习推理
    • 一个稳健的 RL recipe、自蒸馏以及 Infrastructure 的改进,使作者能够将 RL 运行维持数千步
    • 使用这个流程,作者训练了三个特定领域的专家模型:
      • 一个用于 STEM 推理
      • 一个用于 Agentic 编码和工具使用
      • 一个用于帮助性和安全性
  • 开发 MAI-Thinking-1 时的一个关键技术挑战是在安全性(要求模型拒绝用户请求)和帮助性(要求模型遵从请求)之间取得平衡
    • 一个安全的模型需要提供有帮助的响应,同时保持符合安全策略和标准
    • 作者开发了内部安全基准来夯实我们的进展,并将帮助性和安全性训练纳入 RL climb 中
    • 作为负责任的部署的一部分,在整个模型开发过程中持续进行红队测试 (red-team),以便在发布前发现并修复漏洞
  • MAI-Thinking-1 是使用我们的爬山机器 (hill-climbing machine) 开发的第一个模型:
    • 这是一个集成的过程,包括构建数据 Pipeline 、训练 Infrastructure 、 RL 环境和奖励、评估套件以及安全测试,将模型开发转变为在特定领域上的实证优化循环

Pre-training(简述)

  • MAI-Base-1(1T-A35B)的预训练过程
  • MAI-Base-1 从零开始训练,未使用任何蒸馏数据 ,训练数据完全由内部构建(包含公开及授权数据),在 8K 张 GB200 GPU 上完成了 30T 主预训练 Token 和 3.55T Mid-training Token

模型架构

  • MAI-Base-1 采用 Decoder-only Transformer,具有以下特点:
    • 交替使用局部注意力(5层,滑动窗口大小为 512)和全局注意力(1层,无位置编码),采用 GQA(8个 KV 头)
    • 交替使用稀疏 MoE 层和密集 FFN 层,MoE 层采用 LatentMoE 设计,将 512 个专家中的 8 个激活于压缩潜在空间
    • 使用 SwiGLU 激活函数、RMSNorm、无偏置、输入输出嵌入绑定
    • 采用全局批负载均衡损失,并实现了无丢弃(dropless)MoE 变体以支持可变消息大小

模型消融方法

  • 为了评估设计决策,作者引入了缩放阶梯(Scaling Ladder)和效率增益(Efficiency Gain, EG) 的概念
    • 缩放阶梯 :在不同模型大小下,以恒定的每激活参数 Token 数(TPP)训练模型,比较缩放曲线
    • 效率增益 :衡量候选模型相对于基线模型达到相同评估损失所需的额外成本倍数,EG 的计算公式为:
      $$
      \text{EG} = \frac{f^{-1}(L’)}{C’}
      $$
      • 其中 \(L’\) 是候选模型的损失,\(C’\) 是其成本,\(f\) 是基线模型的缩放定律 \(L = f(C)\)
  • 两个消融示例表明:
    • MoE-每层布局在 FLOPs 上 EG 较高,但在考虑实际时间的 \(\text{EG}_{\text{Time} }\) 上劣于交替布局
    • 且随着专家数从 256 增加到 1024,模型架构保持了稳定的效率增益

评估方法

  • 预训练阶段主要使用负对数似然(NLL) 评估而非准确率,原因包括:
    • NLL 评估效率更高,成本更低
    • 对格式干扰等混杂因素更鲁棒
    • 构建成本更低
  • 评估基准分为 Code、STEM、Math、General Knowledge、Multilingual 五类,并按加权公式聚合:
    $$
    \text{Target} = 0.5\times \text{Coding} + 0.175\times \text{STEM} + 0.175\times \text{Math} + 0.1\times \text{General~knowledge} + 0.05\times \text{Multilingual}
    $$

预训练数据

  • 数据完全内部处理,来源包括 Web HTML、Web PDF、书籍期刊、公共 GitHub 代码,不使用开源训练集或 LLM 生成数据,且尽力去除 AI 生成内容
  • 知识截止日期为 2025 年 9 月至 2026 年 3 月
  • 数据处理流程包括:
    • HTML 提取 :针对不同领域使用结构化解析器、手工提取器甚至 LLM 处理
    • 去重 :多级去重策略(精确去重、MinHash LSH 模糊去重、模板页面去重、语义去重)
    • 过滤与分类 :利用元数据、启发式规则、学习分类器、Prompted LLM 进行过滤,并将数据分类到质量等级、语言、主题等“桶”中

选择训练数据混合(Data Mixture)

  • 作者将数据混合选择视为优化问题,目标是最小化上述加权 NLL 目标
    • 挑战 :效用定义、巨大搜索空间、尺度依赖效应、跨数据交互、多周期效应、计算成本高
    • 方法 :先基于预测的方法训练数千个小模型(760M-4B),观察发现混合质量的排序并非尺度不变(rank non-invariance)
      • 例如,在小规模上表现更好的 STEM-heavy 混合,在 23B 规模下反而被 Code-heavy 混合超越
      • 作者推测:前者中两个高 STEM 但低多样性的数据源在大规模下效用下降
    • 最终混合 :采用层次化局部+全局搜索,限制单数据重复最多 8 次
      • 最终混合中,Coding 数据占 16.4T(~2 epoch),Math 数据约 300B 但重复 5.28 次,Web 和 PDF 数据平均小于 1 epoch
    • Mid-training :从预训练数据中筛选更高质量子集,进一步偏向 STEM、Math、Code(STEM/Math 35%,Code 55%),并引入长上下文 NLL 评估

训练 Recipe

  • 多阶段训练 :
    • 主预训练 30T Token(上下文 16K) → Mid-training 1:3.4T(上下文 65K) → Mid-training 2:150B(上下文 262K)
  • 超参数 :
    • AdamW(\(\beta_1=0.95, \beta_2=0.925\))
    • 峰值学习率 \(2\times10^{-4}\) 余弦衰减至 \(2\times10^{-5}\)(最终/峰值比 0.1),Dropout 0.15,全局批大小 134M Token
  • 初始化技巧 :
    • 将注意力输出初始化为零(设置 RMSNorm 增益为 0),避免初期 Attention 输出坍缩为均值池化,从而减少 MoE 路由不平衡
  • 数值精度 :
    • 默认 BF16,GEMM 使用 FP8(E4M3/E5M2),敏感位置(如 Attention 分数、MoE 路由器 logits、残差流)使用 FP32

与同期模型比较

  • 在与 DeepSeek-V3.2、Kimi-K2、Gemma4-31B 等 Base 模型的 Bits-per-Byte (BPB) 对比中,MAI-Base-1 在四个内部 NLL 任务上均优于激活参数相似的模型

YOLO:大规模分布式训练框架

  • YOLO 是微软内部的大规模训练框架,与硬件和模型架构协同设计
  • 并行策略 :支持数据并行(自定义 ZeRO-1/2/3)、张量并行、上下文并行(Ulysses 风格)、专家并行
  • MoE 优化 :支持 dropless 模式,使用自定义 Grouped GEMM 和 CuTe DSL 通信内核
  • 确定性与容错 :
    • 强制 bit-wise 确定性(禁用 SHARP、使用稳定排序、确定性累积)
    • 采用分布式检查点(DCP)和异步检查点
    • 通过 Ray Actor 热备实现快速作业恢复
  • Model Architecture 和 Infrastructure 协同演化 :
    • 从 v2 到 v5 版本,虽然每次架构改进(如专家数从 192 到 512、Top-4 到 Top-8、引入 LatentMoE)初期会降低 MFU
    • 但通过 20+ 项系统优化(如 FlashAttention-4、ZeRO-2 回退、激活 Offload),最终使 1T-A35B 模型在 8K GB200 上保持了约 20% 的 MFU

The RL Climb

  • 预训练和 Mid-training 为 MAI-Base-1 赋予了广泛的预测能力和知识
    • 但它们并未规定模型应如何表现、如何解决长时程任务,或如何分配推理时的计算资源
  • RL climb 通过针对特定任务的反馈来优化模型,解决了这一问题,使模型能够在给出回答前生成思维链 CoT,使用外部工具,与环境交互,并遵循偏好和安全性信号
  • MAI-Thinking-1 是首个内部 Reasoning 模型,RL Climb 从一个未曾接触过任何 Reasoning traces 的检查点开始
    • 模型必须从零开始发展其推理能力,这使得长期训练稳定性成为一个核心挑战
    • 本文通过三种机制来实现这一点:
      • (i) 对 Group Relative Policy Optimization (GRPO) (2024) 进行两项简单但关键的调整
      • (ii) 在 RL Climb 崩溃或基础策略更新后,使用自蒸馏 (self-distillation) 来恢复 (Sec. 3.1)
        • 新颖的 IDEA
      • (iii) 消除训练与推理间数值不匹配的 Infrastructure 改进 (Sec. 3.6)
  • 为了实现并行开发 (问题:仅仅是为了实现并行开发吗?),本文训练了三个特定领域的专家模型:
    • 一个用于 STEM 和竞争性代码的模型 (Sec. 3.2)
    • 一个用于 Agentic 编码和工具使用的模型 (Sec. 3.3)
    • 一个用于帮助性和安全性的模型 (Sec. 3.4)
    • 所有专家模型的 RL Climb 都遵循相同的 Recipe,但在 Prompt 的分布和模型因何获得奖励方面有所不同
      • 超参数也一样吗?
  • 如图 12 所示,这些专家模型随后通过 SFT 被蒸馏到一个单一的合并模型中
    • 最后一轮轻量级 RL 将这个合并模型转化为 MAI-Thinking-1
    • 注:MAI-Thinking-1 是一个在所有领域都表现强劲的模型 (Sec. 3.5)
  • 图 12. RL Climb 的概览
    • 从 MAI-Base-1 开始,使用 RL 训练三个专家模型
    • 然后,这些专家模型通过简单的 SFT 被蒸馏到一个单一的合并模型中,该模型随后经历一个最终的 RL 阶段,以产生 MAI-Thinking-1

RL Recipe

RL Objective
  • RL Climb 从一个 Policy \(\pi_{\theta}\) (例如 Mid-training 模型) 开始
    • 对于一个 Prompt \(q\),Rollout 策略采样一组 \(G\) 个 Responses \(y_{1:G}\),每个 Response \(y_{i}\) 获得一个标量奖励 (Reward):
      $$R_{i} = R(q,y_{i}) \tag {4}$$
    • 奖励函数 \(R\) 是领域相关的
      • 通常,它要么基于代码执行,要么来自 Prompted AI Judge 或已训练好的奖励模型的反馈
  • 本文从 GRPO (2024) 推导出训练目标,并结合了 Token 级别的策略梯度 (2025):
    $$\mathcal{I}(\theta) = \mathbb{E}_{q\sim P(Q),y_{1:G}\sim \pi_{\text{old} } }\left[\frac{1}{\sum_{i = 1}^{G}|y_{i}|}\sum_{i = 1}^{G}\sum_{t = 1}^{|y_{i}|}\min \left(r_{i,t}(\theta)A_{i},\text{clip}\left(r_{i,t}(\theta),1 - \epsilon ,1 + \epsilon\right)A_{i}\right)\right] \tag {5}$$
    • \(P(Q)\) 是所有 Prompts 上的分布
    • \(\pi_{\text{old} }\) 表示用于生成 Rollouts 的策略
  • 在实践中,归一化是在全局训练批次 (across all data-parallel ranks) 上计算的,这样无论 Response 长度如何,每个 Token 的贡献都是平等的
    • 对于 Response \(y_{i}\) 和 Token 位置 \(t\),重要性采样比为
      $$r_{i,t}(\theta) = \frac{\pi_{\theta}(y_{i,t}\mid q,y_{i,< t})}{\pi_{\text{old} }(y_{i,t}\mid q,y_{i,< t})} \tag {6}$$
    • Response 级别的优势 \(A_{i} = \left(R_{i} - \text{mean}(R_{1:G})\right) / \text{std}(R_{1:G})\) 在 Response \(y_{i}\) 的所有 Tokens 中共享
  • 本文对此目标应用了两个修改:
    • 自适应熵控制 (adaptive entropy control):动态调整上限裁剪范围以维持目标策略熵
    • 一个外部比例裁剪 (outer ratio clip):限制了目标函数中未被裁剪的分支,以防止梯度范数爆炸
Adaptive entropy control
  • 类似于 Yu 等 (2025) 和 Mistral-AI 等 (2025),本文使用独立的下限和上限裁剪范围
  • 使用单个基础超参数 \(\epsilon\) (它控制基础信任区域宽度) 以及一个依赖于熵的松弛度 \(k\) (用于裁剪上限) 来参数化这些范围:
    $$r_{i,t}^{\text{tr} }(\theta) = \text{clip}\left(r_{i,t}(\theta),1 - \epsilon ,(1 - \epsilon)^{-1} + \color{red}{k}\right)$$
    • 理解:这里的上界使用的是 \(\frac{1}{1-\epsilon}\),不是常规的固定值
    • 作者发现:上限需要仔细调整,以避免当它太大时导致熵爆炸(注:观点可能错误) ,或当它太小时导致熵崩溃 (另见 2025; 2025)
      • 理解:当上界太大时,容易导致熵爆炸可能是错误的观点,这里从原论文给到的 两篇参考文章都没有提到过这个观点 !!!
        • 文章1:(Clip-Cov & KL-Cov)The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models, 20250528, Shanghai AI Lab & THU
        • 文章2:BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMsvia Balanced Policy Optimization with Adaptive Clipping, 20251021, Fudan
          • 通过调整 clip 上下界控制正负样本的贡献度,实现对熵的控制
          • 观点:低概率正样本未被裁剪时,会增大协方差,进而提升熵,BAPO 动态提升 clip 上界,可纳入更多此类样本,避免熵坍缩
    • 理解:上述的公式中,k 通过控制 clip 的上界来控制熵的生成
  • 为了解决这个问题,使用一个简单的积分 Controller ,基于当前策略的熵来动态调整 \(k\)
    • 在每个训练步骤,通过一个重要性加权的估计器来估计目标策略的每个 Token 的熵:
      $$\hat{H} (\pi_{\theta}) = \frac{1}{|\mathcal{T}|}\sum_{(i,t)\in \mathcal{T}} - \log \pi_{\theta}(y_{i,t}\mid q,y_{i,< t})\cdot r_{i,t}(\theta) \tag {7}$$
      • \(\mathcal{T}\) 表示当前训练批次中所有 (Response 索引, Token 索引) 对的集合
      • 理解:这里是 token 粒度的上,但是带了 \(r_{i,t}(\theta)\) 权重,因为在旧/Rollout 策略上采样的,所以熵的计算使用了这个重要性采样来修正当前步的熵(注意是每个训练步骤都重新计算,所以策略不一定等于 Rollout 策略)
  • 给定一个目标熵 \(H^{\star}\), Controller 在每个步骤后以步长 \(\delta \in \mathbb{R}^{+}\) 更新 \(k\):
    $$k\leftarrow \text{clip}\left(k + \delta \cdot \text{sign}\left(H^{\star} - \hat{H} (\pi_{\theta})\right),0,k_{\text{max} }\right) \tag {8}$$
    • 理解:类似 PID,但更简单,每次按照符号超某个方向更新一定步长,整体有上下界控制
  • 直观理解:
    • 当熵过低时,增加 \(k\) 会扩大上限裁剪范围,允许策略更激进地增加替代 Token 的概率
    • 当熵足够高时,减小 \(k\) 以收紧信任区域
    • 如图 13 所示,这种机制充当了一个自动熵正则化器,而无需在损失中显式添加熵奖励项,作者发现后者的效果不如自适应熵机制
  • 本文初始化 \(k = 0\),使得裁剪范围 \(1 - \epsilon\) 和 \((1 - \epsilon)^{- 1}\) 互为乘法逆元,从而使初始裁剪区间在对数比空间 (log-ratio space) 中是对称的,然后根据上述熵 Controller 在线更新 \(k\)
  • 图 13. 训练过程中的自适应熵控制
    • 上图:在 RL Climb 的 800 个步骤中,目标熵为 \(H^{\star} = 0.3\) 时观察到的熵 \(\hat{H} (\pi_{\theta})\)
      • 理解:上面的图有点反常,初始熵太低了,之前看到的大部分熵的初始值几乎也会在 0.4 以上(初始熵跟模型和数据集差异太大,不一定准确)
      • 注意:图中甚至出现了熵增加到 0.3 的情况(之后一直持平,确实很优雅)
    • 下图:对应的 \(k\) 值,其中 \(k_{\text{max} } = 1.0\):
      • 当观察到的熵超过目标时减小 \(k\),反之则增加
      • 调整 \(k\) 是调节策略熵的有效机制
Outer ratio clip, 外部比例裁剪
  • GRPO 目标故意留下两种未裁剪的情况:
    • (a) 优势为负且新策略赋予的概率高于旧策略 (即 \(A_{i}< 0\) 和 \(r_{i,t} > 1\))
    • (b) 优势为正且新策略赋予的概率较低 ( \(A_{i} > 0\) 和 \(r_{i,t}< 1\) )
    • 最初的动机 (2017) 是当策略在正确的方向上自我修正时不对其进行限制,只限制利用优势估计的移动
  • 然而,在实践中,作者发现这些未裁剪的分支有时会导致灾难性的梯度范数峰值
    • 本文通过添加一个应用于所有分支的硬性外部裁剪来解决这个问题:
      $$r_{i,t}^{\text{out} }(\theta) = \text{clip}\big(r_{i,t}(\theta),r_{\text{min} },r_{\text{max} }\big) \tag {9}$$
      • 其中 \(r_{\text{max} }\) 被设置为一个较大的值,而 \(r_{\text{min} }\) 可以不加限制
      • 这在精神上类似于 Ye 等 (2020) 提出的双裁剪 PPO (dual-clip PPO) 目标
    • 理解:这里未裁剪出现梯度范数峰值大部分应该是 A < 0 时,不控制 \(r_{i,t}\) 的上界导致的梯度爆炸
      • 这个做法的缺点是可能导致部分已经偏离 old 很远的策略回不来(但是实践上肯定是梯度范数稳定的)
      • 补充理解:本节最后的超参数配置中提到,设置 \(r_{\text{max} } = 50\),并保持 \(r_{\text{min} } = 0\) 不受约束,所以其实还好,我们一般使用的是 \(r_{\text{max} } = 10\),本文中已经比较放宽了
  • 这种两级策略丢弃了新旧概率之间存在极端差异的情况,同时为标准范围内的比例保留了标准的信任区域行为
    • 根据经验,作者发现这会带来更少的梯度范数峰值和更稳定的 Climb
Reward Design
  • 虽然本文的特定任务组件在特定领域的 RL Climb 中有所不同,但使用了相同的奖励分解方式:
    $$R(q,y_{i}) = R_{\text{task} }(q,y_{i}) + w_{\text{lang} }\cdot R_{\text{lang} }(y_{i}) - w_{\text{len} }\cdot R_{\text{len} }(y_{i}) \tag {10}$$
    • \(R_{\text{task} }\) 表示特定任务的奖励
    • \(R_{\text{lang} }\) 是语言一致性奖励
    • \(R_{\text{len} }\) 是长度惩罚
    • 系数 \(w_{\text{lang} }\) 和 \(w_{\text{len} }\) 是标量超参数
Language consistency reward,语言一致性
  • 随着 RL 中上下文长度的增加,本文观察到模型开始在它们的 CoT 中生成外语 Token
    • 这些混合语言的 CoT 与训练和推理策略之间的对数概率差异峰值相关,最终会破坏训练的稳定性
    • 本文使用了一个类似于 Guo 等 (2025) 的语言一致性奖励 \(R_{\text{lang} }(y_i)\)
    • 由于英语在训练分布中占主导地位,定义语言一致性时以英语为标准:
      $$R_{\text{lang} }(y_i) = \max \left(1 - \alpha \cdot n_{\text{non-english} }(y_i),0\right) \tag {11}$$
      • \(n_{\text{non-english} }(y_i)\) 是 Response \(y_i\) 的 CoT 中非英语单词的数量
        • 问题:是不是使用非英语单词的比例会更好些?使用绝对数量是不是有点对长样本不太公平,但因为这里使用了 \(\max(\cdot,0)\) ,所以还好,对于很长的文本也不会无限制的惩罚,但个人觉得还是使用相对比例会更好些
        • 推测:作者应该是在非常长的本文下,需要保证几乎不要出现其他语言,所以直接使用绝对值来进行惩罚,可以防止太长的文本下输出一两个其他语言而没有收到惩罚的现象
      • \(\alpha\) 是每个单词的惩罚
      • 在实践中的发现:top-\(p\) 采样在防止单个低概率外语 Token 方面同样有效
Length penalty
  • 遵循 Xiang 等 (2025),作者将长度惩罚定义为:
    $$R_{\text{len} }(y_i) = \rho_q\cdot \frac{|y_i|}{\ell_{\text{max} } }\tag{12}$$
    • \(\rho_{q}\) 是问题 \(q\) 的 Pass Rate
    • \(\ell_{\text{max} }\) 是最大 Rollout 长度
  • 该惩罚同时依赖于 Response 长度和问题难度
    • Pass Rate 低的高难度问题 会获得较弱的惩罚,允许模型探索更长的推理轨迹
    • 简单问题则会受到更强的惩罚,通过消除冗余循环和规避行为 (hedging behavior) 来鼓励简洁且成本效益高的推理
Sampling Strategy
  • 本文采用了几种采样策略来提高 RL Climb 的效率和稳定性
    • 这些策略在两个层面运作:
      • 选择哪些问题进行训练
      • 控制如何为这些问题生成 Rollouts
Problem sampling
  • 对于训练集中的每个问题 \(q\),从当前的推理模型生成一组 Rollouts
    • 为了降低推理成本,使用一个提前退出策略(early exit):
      • 首先采样 \(G_{\text{early} }< G\) 个 Responses,并计算它们的经验 Pass Rate ,即获得正奖励的 Response 的比例
      • 如果提前退出 Pass Rate 在一个可接受的范围内,就采样完整的 \(G\) 个 Responses;否则,丢弃该问题
        $$ [\rho_{\text{min} }^{\text{early} }, \rho_{\text{max} }^{\text{early} }] $$
    • 在生成全部 \(G\) 个 Responses 后,对完整组应用第二个 Pass Rate 过滤器
      $$ [\rho_{\text{min} }, \rho_{\text{max} }]$$
      • 只有完整 Pass Rate 落在此范围内的问题才用于训练
      • 这第二个过滤器的主要动机是移除低方差组:
        • 如果几乎所有的 Responses 都是正确的或错误的,那么该组提供的相对学习信号就很少
    • 理解:这样两阶段实现时,\([\rho_{\text{min} }^{\text{early} }, \rho_{\text{max} }^{\text{early} }]\) 的范围应该是更加宽泛的,即应该是 \([\rho_{\text{min} }^{\text{early} }, \rho_{\text{max} }^{\text{early} }] \subset [\rho_{\text{min} }, \rho_{\text{max} }] \)
      • 一开始,先少量采样,然后用很宽的阈值剔除极端的 Query,降低成本
      • 吐槽:微软也这么缺钱?
      • 补充:后文给出了超参数:
        • 设置总 Rollout 数为 \(G = 128\)
        • 早期 Rollout 数为 \(G_{\text{early} } = 16\),\([\rho_{\text{min} }^{\text{early} },\rho_{\text{max} }^{\text{early} }] = [0.05,0.8]\)
        • Pass Rate 过滤使用 \([\rho_{\text{min} },\rho_{\text{max} }] = [0.1,0.8]\)
Rollout sampling
  • 采用 top-p 采样 (2019) 使用 \(\pi_{\text{old} }\) 来采样 Rollouts \(y_{1:G}\)
  • 发现:继续对采样核 (nucleus) 外 Token 对应的 logits 进行反向传播会导致灾难性的 off-policy 失配(即发生训推不一致),在几个训练步骤内就会引起发散
    • 为了防止这种情况,在训练期间排除了这些 Token
      • 方法是复用来自 Rollout 采样的 top-p 截断掩码 :在 softmax 计算之前将所有被排除 Token 的 logits 设置为 \(- \infty\),遵循 DeepSeek-V3.2 (2025b) 的方法
      • 发现:top-p 掩码显著降低了 RL 训练期间的策略发散,代价是增加了掩码存储和重放的额外开销
    • 理解:这里的 top-p mask 本质和 DeepSeek-V3.2 中提到的方法一样
      • mask 的方式是:
        • 在推理时记录采样时(计算 Softmax 前)被 drop 掉的 token
        • 在训练引擎上,计算概率时 mask 掉这部分 token(mask 方式也是在计算 Softmax 前进行 mask,将 atten_score 置为 负无穷)
      • 对 mask 的理解:
        • 本质是防止训推不一致问题
        • 梯度视角的理解: 这部分 token 推理时不参与决策,训练时就不要回传梯度
          • 对部分 token 在计算 Softmax 前进行 mask 的本质是这部分 token 在 Softmax 处的梯度为 0,其 hidden_states 在 Softmax 这里不会被梯度影响(实际梯度接近 0)
  • 为了提高 Climb 早期阶段的训练效率,最初将最大 Rollout 长度限制在 8k Tokens
    • 随着训练的进行,以 2 的幂次增加这个限制,直到达到最终的 128k Tokens 输出长度
    • 这种长度扩展课程 (length extension curriculum) 显著降低了低性能阶段的推理成本,因为那时很少需要长推理轨迹,同时仍然允许模型随着其能力的提高逐渐适应更长的上下文
Self-Distillation
  • 从 Mid-training 检查点实现强劲的性能需要经过大量的 RL 步骤训练

    • 利用自蒸馏 (2022; 2022; 2023; 2026) 使这种长时间运行的 Climb 更加实用
  • 对于自蒸馏:

    • 收集 RL 期间生成的 Rollouts,并在一个 Mid-training 检查点上使用这些 Rollouts 进行 SFT
    • 得到的模型作为继续 RL Climb 的起点,同时保留了在先前 RL 阶段发现的能力
  • 使用自蒸馏有以下几个目的:

    • 对于初始 Climb ,使用领域或任务特定的 Prompts 来引出目标行为

      • 例如,图 14 显示了用于 STEM Climb 的初始原始文本 Prompt

        • Figure 14. Prompt template used for reasoning prior to the first round of self-distillation with {QUERY} being a placeholder for the actual user query (from Guo et al. (2025)).
          1
          2
          3
          4
          5
          A conversation between User and Assistant. The user asks a question, and the assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e.,
          <think> reasoning process here </think>
          <answer> answer here </answer>.
          User: {QUERY}
          Assistant: <think>
      • 自蒸馏允许通过简单地更新 SFT 数据的格式,从 Prompt 转换到使用自定义的原生聊天格式

    • 另一个主要用途是从偶发的运行失败中恢复

      • 在 RL 栈开发的早期,以及在引入 Sec. 3.6.4 中描述稳定性改进之前,训练和推理之间微小的数值差异有时会在训练过程中累积,导致 Climb 发散
      • 在这种情况下,自蒸馏提供了一种简单有效的方法,可以将一次 RL Climb 的进展延续到下一次
        • 从崩溃前的检查点恢复的替代方案通常不可行 ,因为一些不稳定性在实际崩溃发生之前的许多步骤就已经嵌入到模型参数中
  • 随着新的预训练和 Mid-training 检查点可用,自蒸馏允许我们将先前 Climb 的进展延续到下一代模型

    • 在自蒸馏过程中,可以应用过滤器来拒绝任何展示出不良 reward hacking 形式的样本
  • 图 15 说明了自蒸馏在 STEM Climb 中如何被用来从数值不稳定性中恢复以及更新基础策略

    • STEM Climb 期间在 AIME 2025 (左) 和 LiveCodeBench v6 的困难子集 (右) 上的性能
    • 自蒸馏通过 \(\star\) 标记表示;不同的预训练和 Mid-training 模型版本以不同颜色显示
    • 整个训练过程中的最大输出长度在底部标出
    • 自蒸馏是在崩溃后(表现为性能突然下降)重置数值和在运行期间更改基础策略的有效方法
    • 随着作者在整个 Climb 过程中对 Infrastructure 和算法进行改进,因运行崩溃而进行自蒸馏的情况变得不那么频繁
Key findings and best practices
  • 作者进行了广泛的消融实验,以了解如何在实践中最好地执行自蒸馏,作者的主要发现是:
    • \(\mathcal{O}(1M)\) 个推理轨迹足以匹配教师模型的性能,同时保留 SFT 的稳定性优势
      • 使用显著更大的数据集会带来递减的收益,并有过度约束策略的风险,从而缩小其输出分布,并在恢复 RL 时留下很小的探索空间 (2024; 2025)
    • 在包括那些导致最终答案错误的轨迹上进行训练,其效果与仅在成功轨迹上训练相似 (2025)
      • 由于本文的 RL 运行通常产生远超 \(\mathcal{O}(1M)\) 的成功轨迹,本文最终将训练限制在成功的轨迹上
    • 使用来自 Climb 后期阶段的轨迹很重要
      • 包含来自非常早期检查点的轨迹会导致明显的性能下降,并需要许多后续的 RL 步骤才能恢复
      • 仅从最终 RL 检查点生成轨迹会导致恢复 RL 后的性能较弱
      • 一个可能的解释是,跨越一系列强大检查点收集的轨迹比从单个最终策略生成的轨迹提供了更大的多样性 ,从而在 RL 期间实现更好的探索
        • 复用 RL 期间已生成的轨迹也避免了重新采样所需的额外计算和时间
    • 对于固定的 Token 预算,增加 Prompt 的多样性比增加每个 Prompt 的轨迹数量更有价值
      • 作者发现:简单的随机采样优于几种有偏选择策略,包括最短轨迹采样和类似于 Yang 等 (2025) 探索的启发式过滤方法
    • 在自蒸馏期间,模型可能会遗忘从 Mid-training 学到的长上下文行为,尤其是在推理轨迹是从使用较短最大长度训练的早期 RL 运行中收集的情况下
      • 为了缓解这个问题,在长度扩展之前的自蒸馏过程 中,将 Mid-training 数据与推理轨迹混合在一起
Hyperparameters
  • 下面报告了通常用于三个特定领域模型的主要 RL Climb 以及自蒸馏运行的超参数
RL climb
  • 使用 AdamW 进行训练,其中 \(\beta_{1} = \beta_{2} = 0.95\), \(\epsilon = 10^{-15}\),且不使用权重衰减
    • 问题:\(\beta_{2} = 0.95\) 说明确实比较稳了,否则 \(\beta_{2} = 0.999\) 会好些
  • 使用恒定的学习率 \(\eta = 10^{-6}\),没有预热或衰减
  • 全局批次大小为 7040 (打包后),未打包序列的最大数量上限为 12000
    • 这个 Batch Size 明显大于当前大多 RL 训练的,无论是 12000 或是 7040 都大多了
    • 而且这里对样本进行了打包,理论效率是更优的
  • 因为本文的 RL 栈是完全异步的,随着作者增加生成长度,Rollouts 的延迟会增加,而训练步骤时间由于许多短生成的存在不会成比例增加
    • 这意味着更长的 Rollouts (通常是最困难的问题) 的 off-policiness 会增加
    • 为了应对这一点,作者选择在更长的长度上将学习率降低到 \(9\times 10^{- 7}\),以减少 off-policiness 并增加稳定性
      • 理解:这同时也会导致学习这种长难样本的效率变低吧
    • 最大生成长度为 128k,但首先在 8k, 16k, 32k 和 64k 上进行训练
  • 对于带有自适应熵控制的 GRPO:
    • 设置 \(\epsilon = 0.6\), \(k_{\text{max} } = 2.5\),步长 \(\delta = 0.25\),目标熵 \(H^{\star} = 0.3\)
      • 理解:\(\epsilon\) 是 clip 的裁剪范围 \([1-\epsilon, (1-\epsilon)^-1]\) 的超参,0.6 这个值也太大了吧?
  • 对于外部裁剪
    • 设置 \(r_{\text{max} } = 50\),并保持 \(r_{\text{min} } = 0\) 不受约束
  • 对于语言一致性奖励,设置 \(w_{\text{lang} } = 0.5\),每个单词的惩罚 \(\alpha = 0.005\)
  • 对于长度惩罚,在达到 64k 长度扩展阶段之前固定 \(w_{\text{len} } = 0.25\)
    • 由于惩罚被 \(\ell_{\text{max} }\) 归一化,随着最大长度的增加,有效惩罚自然会减弱,允许模型在更大的 Token 预算下探索更长的推理轨迹
    • 在 128k 扩展阶段,本文移除了长度惩罚 \((w_{\text{len} } = 0)\)
  • 对于问题采样
    • 设置总 Rollout 数为 \(G = 128\)
    • 早期 Rollout 数为 \(G_{\text{early} } = 16\),\([\rho_{\text{min} }^{\text{early} },\rho_{\text{max} }^{\text{early} }] = [0.05,0.8]\)
    • Pass Rate 过滤使用 \([\rho_{\text{min} },\rho_{\text{max} }] = [0.1,0.8]\)
  • 对于 top-\(p\) 采样
    • 使用 \(p = 0.97\)
    • 较大的核值可以改善探索,但会增加传输采样掩码的 Infrastructure 开销
      • 发现: \(p = 0.97\) 在探索和训练效率之间提供了良好的平衡
  • 在推理模型更新之间执行 5 个梯度步骤,并丢弃任何生成策略比 8 次推理更新更陈旧 (即落后 40 个梯度步骤) 的 Rollout
    • 这稍微放宽了对 on-policy 新鲜度的要求,以换取显著更高的吞吐量
    • 使用 dropless MoE 训练,并将全局 MoE 负载均衡系数设置为 \(1\cdot 10^{- 5}\)
      • 注:本文是开着负载均衡的
      • 注:Dropless MoE(无丢弃混合专家模型)核心定义是:在 Token 路由和计算过程中,绝对不丢弃任何 Token,保证所有输入数据都能得到完整的计算
        • 在传统的 MoE(如 GShard、Switch Transformer)中,可能丢弃数据
          • 输入的一串 Token 会通过一个“路由器”分发给不同的专家进行处理,GPU 非常擅长处理形状固定的矩阵运算
          • 如果每个专家分到的 Token 数量忽多忽少,GPU 就必须频繁面对动态形状,导致计算效率极低
          • 传统解决方案——专家容量(Expert Capacity): 为了迎合 GPU,传统的做法是给每个专家设定一个“最大容纳上限”,超出部分的 Token 就会被直接丢弃(Dropped),跳过专家层(或者直接通过残差连接复制过去)
Self-distillation
  • 对于自蒸馏 SFT,使用打包序列,全局批次大小为 2,048,序列长度为 128k Tokens
  • 优化使用 AdamW,权重衰减为 0.001,以及余弦学习率调度
  • 最大学习率设置为 \(1.7\cdot 10^{-5}\),最小学习率设置为 \(5.2\cdot 10^{-6}\),学习率预热比例为 \(2%\)
    • 理解:这么精细的学习率,确实让人没想到,这是做过眼镜的消融得到的最优超参数?
  • 在自蒸馏期间仔细调整了两个超参数:dropout (2014) 和 MoE 负载均衡损失系数
    • 本文作者使用了相对较高的 dropout 率 0.15,这增加了熵并有助于防止模型崩溃,从而在后续的 RL 阶段提高了性能
    • 由于特定领域 RL 中的数据分布比预训练和 Mid-training 期间使用的混合物窄得多,RL 期间的专家选择可能会变得高度不平衡
      • 然而,在 RL 期间使用大的负载均衡系数也会损害稳定的性能提升
      • 为了解决这个问题,在自蒸馏期间使用了相对较大的负载均衡系数 \(1 \cdot 10^{-2}\),而在 RL 期间使用了小得多的系数 \(1 \cdot 10^{- 5}\)
      • 由于自蒸馏上下文是从 RL 运行本身生成的,因此遵循相似的分布,自蒸馏期间引发的专家平衡效应在 RL 期间得以保留

STEM Climb

  • STEM Climb 是三个特定领域 RL 训练运行中持续时间最长的,旨在加强模型在单轮问题解决环境中的核心推理能力
  • STEM Climb 涵盖了广泛的 STEM 领域,包括数学、物理、化学和竞争性编程
  • 作者也见证了 Climb 过程中 Rollouts 中反映的模型行为演变,在附录 C.1 中有更详细的描述
    • 由于数据质量是这次 Climb 成功的关键,作者专注于训练数据以及为构建、验证和过滤这些数据而建立的 Pipeline
  • 整个 STEM Climb 都在可验证的数据对 (pairs of verifiable data) 上运行:
    • 为了产生特定任务的奖励 \(R_{\text{task} }(q, y_i)\),从 \(y_i\) 中提取模型的最终答案,并将其与使用形式验证器 (如 SymPy (2017))、AI Judge 或 (对于竞争性编程) 针对一套特定问题的测试用例运行模型生成的代码片段的真实答案进行比较
    • 因此,每个 RL 数据实例要么包含一个查询和真实答案的对 \((q, a)\),要么包含一个查询和 \(n\) 个测试用例的对 \((q, \{t_1, \ldots , t_n\})\)
    • 在设计获取此类对的 Pipeline 时,考虑了三个主要标准:高质量、适当的难度和主题多样性
  • 使用本文 STEM 数据 Pipeline ,处理了数百万份文档,生成了包含超过 500 万个样本的 STEM Mix 数据集,用于本文的 STEM Climb
    • 该混合数据集中最具挑战性的部分包含超过 55 万个 \((q, a)\) 对,该数据集的一些特性如图 16 所示
  • 图 16. STEM Mix 数据集的分布,按原始问题格式 (左) 和主题分类 (右) 划分,其中 “Other” 汇总了每个占比低于 \(0.5%\) 的主题
    • 补充:图中的问题类型说明
      • Open Ended(开放式问题)
      • MCQ(Multiple Choice Question,多项选择题)
      • Proof(证明题)
      • 理解:MCQ 考察的是识别、记忆和理解,Open Ended 考察的是综合表达与发散思维,而 Proof 考察的是严密的逻辑演绎能力
    • 多项选择和证明题在收录过程中被转换为开放式形式 (如果转换不可行则被丢弃)
    • 作者保留了一小部分多项选择题,以便模型保持对该格式的熟悉度
Data Pipeline
  • 本文的 STEM 数据 Pipeline 将异构的原始来源转换为 \((q,a)\) 对的数据集:
    • 来源包括:教科书、学术 PDF、论坛讨论、竞赛档案以及从各种供应商处获得的问题
  • 该 Pipeline 围绕一个可组合的、基于阶段 (stage-based) 的架构构建:
    • 每个处理步骤都实现为一个独立的异步阶段
    • Pipeline 特定于源的实例化会根据需要选择和组合这些阶段的子集
  • 作者在下面描述几个 Pipeline 阶段,按照图 17 中所示的从长篇教科书和学术 PDF 中提取 \((q,a)\) 对的示例,将它们分组为四个阶段
    • 对噪声或幻觉敏感的阶段会多次运行并通过共识投票
Hierarchical parsing,分层解析
  • 该阶段包括将原始文档转换为初始 \((q,a)\) 对的步骤。根据文档类型,使用视觉语言模型或 OCR 服务执行 OCR。文档被分块,没有 STEM 内容的页面被丢弃,并移除样板文本 (boilerplate)。一个独立的阶段使用 OCR 输出中的结构线索构建分层表示,并修复破损的交叉引用、错位的编号以及跨页分割的伪影。最后,在问答 (QA) 提取阶段,一个 LLM 在清理后的文档结构中标记问题和答案的范围,产生候选的 \((q,a)\) 对
QA pairing
  • 对于问题和答案出现在不同位置的来源 (例如,章节末尾的练习,附录中的答案键),一个多轮配对阶段将每个问题与其对应的答案进行匹配。首先使用结构信号和语义相似性将问题与候选答案进行匹配;在检索到的候选中,一个 LLM 选择最匹配的答案并验证该配对
Curation
  • curation 阶段的步骤用于标注、过滤和重写 \((q,a)\) 对,以确保质量和格式一致性
  • 其中几个步骤是基于 LLM 的分类:
    • 验证 (Verification): 将 Item 分类为可验证或不可验证;不可验证的 Item (例如,没有可检查答案的开放式论坛讨论) 被丢弃
    • 问题类型 (Question type): 区分问题类型,包括开放式问题、多项选择题和证明题
    • 分类法 (Taxonomy): 一个分层主题分类器分配细粒度的 STEM 主题,涵盖数学、物理、化学、生物学、计算机科学和工程学
    • PII 检测 (PII detection): 一个专用的分类器标记个人身份信息;被标记的 Item 被丢弃
      • 问题:这里的专用分类器也是 GRM 吧
    • 答案泄漏 (Answer leakage): 检测并丢弃 \(a\) 被琐碎地包含在 \(q\) 中的 \((q,a)\) 对
  • 另外两个 curation 阶段将问题转换为更有利于 RL Climb 的形式
    • Conversion 阶段: 将多项选择和证明风格的问题重写为开放式形式
      • 多项选择题通常可以通过猜测来解决,提供不可靠的奖励信号,而证明很难在不依赖更强 AI Judge 的情况下直接验证
      • 此阶段运行三次,然后是一个共识阶段
      • 未达成共识的 Item 被视为无法可靠转换并被丢弃
    • Cleanup 阶段: 移除与问题无关的额外非数学文本和外部引用
Scoring
  • 这个最后阶段量化问题难度,并过滤其真实答案可能错误的 Item
  • 在 “solving” 阶段,每个问题由四个模型层级 (其 AIME 2025 性能作为能力代理) 分别求解 \(k\) 次
    • Pass Rate 用于将 Item 分组到难度等级
  • “盲审 (blind-grading)” 阶段用于防范错误的真实答案
    • 对于最强层级 Pass Rate 较低的 Item ,以随机顺序将该模型的共识答案(consensus answer)和真实答案呈现给一个 Judge
      • 如果 Judge 偏爱共识答案,则因真实答案可疑而丢弃该 Item
      • 如果 Judge 偏爱真实答案,将其保留为一个真正困难的问题(因为这里的答案都是 Pass Rate 较低的 Item)
    • 理解:这里是要求真实答案本身的指令很高
Competitive Coding Data
  • 对竞争性编程数据使用了一个专用的 Pipeline ,该 Pipeline 与本文主要的 STEM Pipeline 不同
    • 这是因为对于竞争性编程问题,需要为每个 Prompt 提供一组测试用例 \(t_1, \ldots , t_n\)
    • 包含全面测试用例的 Prompt 不太可能在非结构化来源 (如 PDF 文档) 中找到
    • 因此,依赖于有针对性的来源和供应商获取的数据 ,这省去了 STEM 数据 Pipeline 中使用的许多提取和过滤步骤
      • 理解:相当于这部分 Code 数据是买的
  • 对于每个问题,获取参考解决方案并验证它们能通过所有相关的测试用例
    • 总的来说,从多个来源收集了 16 万个问题,涵盖了多样化的主题,包括分治、动态规划、图和树算法以及搜索算法
    • 除了测试用例,每个问题还包括运行时和内存限制
    • 最终数据集支持 17 种编程语言,包括 Python、\(\mathbb{C} + +\)、\(\mathbb{C}\#\)、Java、JavaScript、Rust 和 TypeScript
Deduplication and Decontamination,去重+去污放到一个阶段
  • STEM Mix 数据集和竞争性编程数据集都进行了自我去重,并根据 Sec. G 中报告的基准测试以及内部跟踪的内部奥林匹克和研究生级别的 STEM 评估进行了去污处理
  • 本文使用一个三阶段 Pipeline 进行去重:
    • 1)第一步:精确去重 (Exact deduplication).
      • 使用 SHA-256 问题哈希识别精确重复项
    • 2)第二步:词法模糊去重 (Lexical fuzzy deduplication).
      • 使用字符级别的 \(n\)-gram 切片 (shingling),然后进行 MinHash 局部敏感哈希 (locality-sensitive hashing) 来识别近似重复的问题
      • Jaccard 相似度高于给定阈值的问题对被标记为重复
    • 3)第三步:向量去重 (Vector deduplication).
      • 使用一个轻量级嵌入模型对问题进行嵌入
      • 余弦相似度高于给定阈值的问题对被标记为重复
  • 仔细调整每个阶段的超参数,以在确保严格排除任何基准泄漏的同时,尽可能多地保留数据

Agentic Climb

  • Agentic Climb 训练 MAI-Thinking-1 去解决需要与外部环境交互的任务(而不是单次文本响应)
  • 在这种设置下,模型必须分解用户请求,选择工具或代码动作,观察结果,并在必要时跨多个步骤和轮次调整其计划
  • 训练信号结合了可验证的奖励,例如在软件环境中通过测试或数据库达到目标状态,以及用于行为方面 (如任务解释、帮助性和轨迹质量) 难以精确指定的 AI 反馈奖励
  • 本文专注于两个 Agentic 领域:
    • (i) Software Engineering(SWE) (Sec. 3.3.1),涉及从真实仓库构建的可执行软件工程环境
    • (ii) General Tool Use (Sec. 3.3.2),涉及在多步骤任务中调用结构化工具
  • 实践中混合了 Agentic 和以推理为重点的 STEM 任务 (包括竞争性编程混合物) 上联合 Climb
    • 发现:
      • 包含 STEM 任务有助于稳定 RL Climb ,并对多步骤软件工程和工具调用性能显示出正迁移
      • Agentic 任务对 STEM 相关的单次传递性能既没有正迁移也没有负迁移
    • 与 STEM Climb 类似,在整个 Climb 过程中观察到模型行为的演变,附录 C.2 中有示例
      • Agentic 设置与 STEM 设置的不同之处在于使用了多步骤 Rollouts 和容器化环境,如下节所述
Multi-step RL framework
  • Agentic 多步 RL 使用与 Sec. 3.1 中单步推理 RL 方案相同的核心目标,但将 Rollouts 从单个采样 Response 扩展到策略步骤和环境步骤 (观测) 的轨迹
  • 每个 RL 环境包括:
    • 一个任务规范
    • 一个用于执行工具的沙箱执行环境 (Sandbox Execution Environment, SEE) 会话
    • 一组用于评估任务完成情况的可验证或判断的奖励,同时跟踪环境状态
  • 在每个策略步骤,模型可以发出工具调用或生成最终答案
    • 工具调用在 SEE 会话内部执行,其输出在下一个策略步骤之前被附加到上下文中
    • 然后对整个轨迹进行正确性评分,并可选择性地给予 AI 反馈,之后对所有策略步骤中的所有 Token 统一应用信用分配
  • 编排框架是一个 ReAct 风格的循环 (2023):
    • 解析模型的推理和动作,将工具调用分派给 SEE,将返回的观测值附加到上下文,并将控制权返回给策略以进行下一个动作
      • 所有先前步骤的 Tokens 都保留在上下文中,并且它们是后续步骤的严格前缀
    • 同一个循环支持软件工程和通用工具使用的工作负载
      • 在 SWE 中,动作在特定于问题的容器镜像内部读取和编辑文件、运行 shell 命令以及检查仓库状态
      • 在通用工具使用中,动作调用由可变任务状态 (例如,种子数据集) 支持的结构化工具,并将工具输出作为下一个模型动作的观测值返回
    • 当模型不发出工具调用,或当 Rollout 超出步骤、上下文长度或时间预算时,循环终止
    • Rollout 及其对应的 SEE 被发送给评分器 (graders)
      • 评分器结合了格式检查、基于规则的检查、可执行测试、可验证状态比较和 AI Judge
    • 图 18 概述了 Agentic RL 框架
      • RL 环境来自两个主要领域:软件工程 (Sec. 3.3.1) 和通用工具使用 (Sec. 3.3.2)
Sandbox execution environment (SEE) ,沙箱执行环境
  • 沙箱执行环境按需提供大规模、隔离的容器环境
    • SEE 在 RL 期间用于为模型训练环境提供高度并行、低延迟的容器
    • SEE 每个 Agentic 任务提供一个全新的容器,并在任务完成后销毁它
      • 这确保了可重复性,实现了安全探索,并防止了任务间的状态泄漏
  • 容器默认是网络隔离的,确保训练 episodes 是确定性的,且不受外部副作用 (如速率限制或瞬时故障) 的影响
    • 当环境确实需要网络访问时 (例如,安装包),流量通过缓存代理和域白名单进行中介,以平衡环境保真度、训练可重复性和安全性的需求
Software Engineering
  • 训练一个前沿模型执行 SWE 任务,需要模型在真实的开发环境内部与真实的代码库进行交互
    • 大量高质量的编码环境对于训练一个强大的编码模型至关重要
  • 为了实现这一点,本文从对真实代码库的贡献中获取自然产生的数据
    • 为了构造 RL 环境仓库,依赖以下原语:
      • 一个大型的代码仓库数据集 (例如,公共 GitHub 代码),一个从真实世界的开源开发者拉取请求创建可执行软件工程问题的 Pipeline
      • 用于执行的沙箱容器服务 SEE
SWE RL environments, tasks, and tools
  • 每个 SWE RL 问题被打包为一个自包含的容器镜像,其中包括在特定提交状态下检出并预安装了所有依赖的仓库、一个问题陈述以及用于评分的单元测试
    • 因为镜像捕获了仓库的所有依赖,环境是确定性的,并且可以在 Rollout 开始时立即使用,无需任何设置
  • 在 Rollout 期间,模型通过工具调用与容器交互:读取和编辑文件、运行 shell 命令以及浏览仓库
  • 当模型发出完成信号或达到轮次限制时,一个评分器在同一个容器内部执行测试,并将结果与预期输出进行比较,产生一个可验证的奖励信号
  • 模型可以使用两个常用工具:
    • Bash:执行 bash 命令并返回标准输出和错误流的工具
    • String replace editor:允许模型通过精确字符串替换来编辑文件的工具
      • 注:String replace editor 避免了字符串操作时使用不符合人体工程学的 bash 工具 (Anthropic, 2025)
    • 完整的工具描述和参数模式在附录 D 中提供
In-house scalable SWE environment building,内部可扩展的 SWE 环境构建
  • 现有工作 (2024; 2026b; 2026) 探索了将来自互联网的原始代码仓库转换为 RL 环境
  • 本文使用公共 GitHub 仓库的 Issues 和拉取请求作为原始数据的来源
    • 并开发了一个可扩展的 Pipeline ,用于摄取真实世界的可验证 SWE 问题,其灵感来自 SWE-ReBench (2026a,b)
  • 为了构建高质量的 RL 环境,本文确保问题陈述为 Agent 正确实现解决方案提供足够的信息,而不会过度指定任务
  • 本文还确保评分器提供足够的覆盖率,同时避免过于具体的评估标准
  • 该 Pipeline 由以下阶段组成,额外的 Infrastructure 细节在附录 F 中提供:
    • 1) Public GitHub PR and issue collection Pipeline 从 102M 个公共 GitHub PR 开始
      • 第一步:过滤 PR 以获得适合环境构建的子集
        • 要包含在内,PR 必须已合并到其仓库的主分支,并且修改少于 15 个文件
        • 每个 PR 还必须包含代码和测试更改,以便评分器可以利用测试更改作为隐藏测试来评估模型修复问题的能力
        • 测试和代码更改根据补丁中的文件内容进行拆分
      • 第二步:进一步基于 Issues 链接过滤 PR,保留与 GitHub、Jira、Bugzilla、YouTrack、Phabricator、Launchpad 或 Linear Issues 关联的 PR
        • 在此阶段之后,获得了大约 4.87M 个带有链接 Issues 的 PR
    • 2) Automatic agentic environment building
      • 使用一个 LLM Agent 将选定的 PR 转换为可训练的环境,该 Agent 读取仓库状态并创建 Docker 文件以构建可执行的容器镜像
      • 通过执行测试套件来验证每个镜像,并丢弃存在依赖或环境错误的构建
    • 3) Reference grading signal extraction
      • 对于每个候选问题,通过针对基础提交在两个阶段执行仓库测试套件来推导参考测试结果:
        • 首先仅应用测试差异 (修复前)
        • 然后同时应用测试和代码差异 (修复后)
      • 从失败变为通过的测试 (fail-to-pass, F2P) 构成了问题解决信号,要求模型补丁翻转 (flip) 这些测试才能获得解决该问题的信用
      • 在两个阶段都保持通过的测试 (pass-to-pass, P2P) 构成了回归信号,确保生成的补丁不会破坏现有功能
      • 注:没有存活 F2P 测试的问题被丢弃
    • 4) Environment and grader verification
      • 在获得可执行环境、测试和代码更改、测试执行脚本以及预期的修复前和修复后结果后,在 RL 训练期间使用的相同 SEE 训练 Infrastructure 内重新验证这些环境
      • 这是针对环境构建沙箱和训练沙箱之间潜在差异的最终合理性检查
      • 验证一个空代码补丁无法通过评分器,而 Golden 解决方案补丁能够成功,每次验证都进行多次试验
      • 尽管上游补丁已知是正确的,但由于集群差异 (如网络出口策略、CPU/内存限制、执行超时),重新验证仍可能失败
      • 本文进一步过滤 在重复执行中表现出非确定性测试行为的环境,以减少奖励噪声
    • 5) Quality filtering and SWE environment rewriting
      • 仅靠正确执行和无懈可击的测试是不够的,因为许多环境仍然包含低质量或未充分陈述的问题
      • 例如,本文经常观察到简短模糊的错误描述、不完整的规范,或诸如 “修复问题” 之类的陈述,其中预期行为仅被隐式编码在隐藏测试中
      • 如果问题陈述与评分器运行的最终测试期望之间存在巨大差距,那么模型就必须猜测测试的要求
  • 为了改善环境质量,本文在同一个环境内部署一个 Agent 来检查问题陈述、仓库和测试,并根据规范清晰度、测试质量、泄漏风险和可行性对任务进行评分
    • 对于低质量的环境,Agent 会重写问题陈述,以更好地与测试要求对齐,同时避免不必要的信息泄漏或过度规范
  • 在最初的 4.87M 个候选问题中
    • 有 2.08M 个 (42.8%) 成功通过了自动 Agentic 环境构建
    • 745,452 个 (15.3%) 通过了参考评分信号提取
    • 265,617 个 (5.5%) 存活的环境和评分器验证
      • 注:这在 94,044 个唯一仓库中
Synthetic data
  • 虽然环境构建 Pipeline 生成的许多环境未能通过验证,但其中很大一部分仍然是有效的可执行环境
    • 在大多数情况下,失败是由于低质量的问题陈述或测试覆盖率不足,而不是无效的执行环境
  • 为了重用这些可执行环境,本文采用了受 BugPilot (2025)、SWE-Smith (2026) 和 SWE-Mirror (2025a) 启发的方法,从与成功构建但未能通过质量检查的 PR 相关联的环境中生成新的合成问题和相应的测试
Preventing reward hacking during RL training
  • 即使 SWE 环境使用可验证的、可执行的测试用例进行评分,它们仍然容易受到 Reward Hacking 的影响
  • 使用一个 LLM 监视器来审查 Rollouts,并对标记的示例进行人工审查
  • 这识别出三种主要的 Reward Hacking 类型:
    • 互联网搜索 (Internet search).
      • 由于 RL 环境源自 GitHub 上的公共仓库,PR (以及因此 Golden 解决方案) 通常可以通过搜索找到并检索
      • 本文通过对沙箱执行环境实施网络访问控制来防止这种情况,要么在问题自包含时禁用互联网,要么只允许问题所需的最基本网络访问
    • 本地 Git 历史搜索 (Local git history search).
      • Git 是软件仓库的组成部分
      • 有时 Agent 会搜索所有 Git 提交和日志,试图找到隐藏在本地 Git 数据库中的解决方案提交
      • 移除所有 Git 提交也是不可行的,因为 Git 是一项宝贵的技能,可以为解决问题提供必要的合法信息
      • 本文通过清除在问题基础提交之后发生的提交、引用和分支来完全清理环境,以创建仓库回到原始状态的“时间旅行”版本
    • 篡改测试 (Tampering with tests).
      • 遵循 SWE-Bench (2024) 中使用的评估协议,本文在评分前重置 Agent 修改过的所有测试文件,以防止 Agent 篡改测试用例使其通过评分
      • 本文还进一步在推理期间对 Agent 隐藏测试更改,并仅在评分时应用它们,以减少作弊的机会
        • 但仍然存在作弊的途径,例如,通过 monkey-patching 测试框架或修改等价行为,这些不能轻易地通过简单地重置测试文件或引入隐藏测试来防止
      • 本文使用 LLM 监视 Agent 行为,并不断加强测试文件检测、测试文件重置和其他反篡改启发式方法
General Tool Use
  • 与 SWE RL 环境相比,通用工具使用 RL 环境在可用工具和应用领域方面表现出更大的多样性
  • 它们涵盖了广泛的通用工具调用任务 (例如,库存管理、日程安排平台、报告创建、客户支持以及其他面向企业的场景),强调与外部系统的可靠和有状态的交互
Tool-use RL environments
  • 每个工具使用 RL 问题被实例化为一个交互式的、有状态的环境,并由模拟真实 API 或 MCP (Model Context Protocol, 2026) 行为的模拟后端支持
  • 具体来说,每个问题由以下几个部分组成
    • 一个 Query
    • 一组带有模式的可用工具
    • 一个初始环境状态
    • 一个评分器
  • SWE 通常只涉及少量工具的,工具使用环境模拟了丰富的真实世界服务交互,在单个环境中通常包含超过 50 个工具
    • 这种设置训练模型高效地选择适当的工具,并提高在多样化工具使用场景中的泛化能力
  • 本文模型在人工策划的环境和工具调用任务生成框架生成的合成环境上进行训练,如下所述
  • Synthetic environment,合成环境
    • 为了增加训练数据的规模和多样性,综合生成了自包含的封闭世界环境,其中包含种子数据库、工具定义和可验证的任务
      • 本文 Pipeline 只需要用简单的英语描述所需环境,就能端到端地生成完整的工具使用环境
      • 这种方法遵循了先前关于自动生成工具使用环境的工作 (2025; 2026; 2026; 2026),特别是 FunReason-MT Pipeline (2025b; 2025)
      • 总的来说,本文的目标是复制常见的企业和消费者工具使用场景,例如旅行预订和库存管理
    • 本文的 Pipeline 包含三个主要阶段:
      • (i) 环境引导 (environment bootstrapping),生成工具描述、实现函数并用相关实体填充种子数据库
      • (ii) 任务创建,采样可能的工具调用轨迹,创建与交互链相关的实体,并制定用户请求
      • (iii) 验证和改进,执行前一阶段生成的动作,并移除过于相似的任务
      • 每个阶段都涉及多次 LLM 调用,用于诸如实体生成和函数实现等任务
      • 本文还采用迭代的批判和改进循环来改进每个阶段的输出 (2023; 2023)
    • 本文生成特定环境的角色 (personas) (2024) 以进一步多样化任务
      • 为了减轻过度 eager 的工具调用行为,还增加了包含工具描述但不需要工具使用的任务
      • 总的来说,本文的 Pipeline 合成了超过 150 个环境和 130,000 个任务
  • Reward design
    • 在训练期间混合使用特定于环境的评分器和跨环境的评分器
    • 特定于环境的评分器基于最终环境状态、工具使用模式和最终答案来分配奖励
    • 对于合成环境,使用一个 LLM Judge 将任务分解为多个子任务,并独立对每个子任务进行评分
    • 本文还采用跨环境的评分器来鼓励高效的工具使用,包括在可能的情况下进行并行工具调用、避免重复调用以及使用有效参数类型和实参正确调用工具

Helpfulness and Safety Climb

  • 帮助性和安全性 RL Climb 根据人类偏好、指令遵循、可引导性 (steerability)、安全性、诚实性和风格来优化 MAI-Thinking-1 的通用帮助性 (2022; 2019; 2024a)
  • 这次 Climb 与其他 Climb 的不同之处在于,它侧重于那些性能不是客观定义且机器可验证的任务
  • 本文通过首先描述 RL Climb 期间使用的所有奖励信号 (Sec. 3.4.1),然后介绍每个领域的具体数据方案和奖励设计来组织本节
Rewards
  • 与其他 Climb 相比,帮助性和安全性 Climb 结合了更多样化的奖励类型来指导模型行为的主观方面
  • 结合使用了在人类偏好数据上训练的 Reward Model (2025)、AI Judge 反馈 (通常基于 Rubric) (2024) 以及额外的可验证奖励 (2025; 2026) 来形成聚合奖励信号 (2024; 2024c)
Reward model
  • 奖励模型基于 MAI-Base-1 的后训练版本,对其进行微调以预测表示为文本 Token 的人类偏好
    • 完全在来自多个供应商的人类标注员收集的人类偏好数据上进行训练
    • 采用 RRM (RRM: Robust Reward Model Training Mitigates Reward Hacking, 20240920, ICLR 2025, Google DeepMind) 中描述的鲁棒 Reward Hacking 缓解 Pipeline 来对抗训练数据中的相关偏见
  • Training
    • 对于一个上下文 \(c\) 和 \(k\) 路并排 (side-by-side) 响应 \(y_{1}, \ldots , y_{k}\),以及相应的分数 \(s_{1}, \ldots , s_{k} \in [1; 5]\),奖励模型的输入是
      $$c< |\text{im_sep}| > y_{1}< |\text{im_sep}| > y_{2}< |\text{im_sep}| > \ldots < |\text{im_sep}| > y_{k}< |\text{im_sep}| >$$
      • 其中,training 目标是序列 \(s_1\ldots s_k\),通过 SFT 进行训练
      • 问题:这里的训练数据如何构造?
        • 理解,这里相当于是个 GRM 的形式,每次预测训练目标是对应的分数序列
  • Inference
    • 将多个候选响应包含到单个奖励模型上下文中,可以更好地校准跨响应的点式质量分数
      • 但由于奖励模型的自回归特性,这也会增加分数 \(y_{i,i > 1}\) 的噪声
    • 为了应对这一点,本文循环应用奖励模型:
      • 对于给定的上下文 \(c\) 和 \(k\) 个响应 \(y_{1},\ldots ,y_{k}\),在响应排列 \((y_{1},\ldots ,y_{k})\), \((y_{2},\ldots ,y_{k},y_{1}),\ldots ,(y_{k},y_{1},\ldots ,y_{k - 1})\) 上提示奖励模型 \(k\) 次
        • 对于这 \(k\) 次推理调用中的每一次,仅解码第一个 Token ,并查看该 Token 的完整概率分布(理解:这个概率分布应该是 打分分布(比如在 [1,2,3,4,5] 词表上的分布))
        • 对于第 \(i\) 次调用,它对应于第 \(i\) 个候选响应的奖励分数 \(s_i\)
      • 理解:这里相当于是为了消除位置偏差,仅仅将第一个 token 作为识别第一个相应的概率
      • 奖励信号 \(R_{\text{RM} }(c,y_i)\) 则被设置为 \(y_{i}\) 被评为最高质量 \((s_i = 5)\) 的概率
    • 发现:这比本文考虑的其他替代方案提供了更稳定的 Climb 信号
  • Evaluation.
    • 使用由标注员评级的实际训练 Rollouts 和奖励模型训练数据的验证集来评估奖励模型
AI Judge
  • 除了微调奖励模型提供的人类偏好信号外,还采用 AI Judge (2024; 2025) 来获得可以快速调整并针对任何给定上下文进行定制的反馈
  • 特别是,AI 反馈提供了一个快速杠杆,可以以有针对性的方式塑造模型的行为,而无需因奖励模型数据收集和重新训练而导致的延迟
Verifiable rewards
  • 使用可验证奖励来提高在指令遵循等领域的能力,这些领域的约束遵守情况可以直接检查
    • 例如,对于要求“用一个段落回答”或“使用少于 10 个词”的上下文,会包含可验证奖励
  • 与不可验证奖励相比,可验证奖励更不容易受到 Reward Hacking (2025b; 2024) 的影响,对多轮次 (multi-epoching) 不那么敏感,并且通常对稳定训练有用
  • 可验证奖励也用于减轻不可验证奖励中的偏见
    • 例如,AI 反馈 Rubric 往往会对长度和风格元素产生向上压力 ,通过使用奖励模型和可验证奖励来减轻这种压力
    • 具体来说,对于长度,离线识别每个上下文可接受的 Response 长度分布 ,并对落在预定义分位数范围之外的 Response 进行惩罚
      • 这可以在训练过程中稳定 Response 长度,而不会过度约束响应或引入一个可以通过将 Response 压缩得过于简洁而被破解的奖励
Combining rewards
  • 在为帮助性和安全性 Climb 优化这些奖励时,会出现两个挑战 (2024c)
    • 首先,不同类型的奖励处于不同的尺度,不能直接比较
    • 其次,奖励分布本身依赖于上下文,对于某些 Prompts 来说很窄,对另一些来说很宽
  • 简单地求和这些奖励会导致幅度最大的信号主导一切,而不管其重要性如何
    • 此外,虽然我们希望联合优化奖励,但某些标准是无可争议的:
      • 例如,一个写得好但不安全的响应仍然是不可接受的,无论其质量如何
  • 本文通过两种互补的策略来解决这些挑战,并根据上下文选择性地应用它们
    • 词典奖励塑造 (Lexicographic reward shaping).
      • 对于一组上下文,只有当 Rollout 组中的所有响应在更高优先级的奖励上得分相同时,较低优先级的奖励才会被激活
      • 这引入了一个严格的优先级排序,其中只有当主要奖励在 Rollout 组内持平时,次要奖励才会影响梯度 (2022)
      • 因为它是基于组内相对比较进行操作的,所以这种形式也对每个奖励的绝对尺度保持不变
    • 门控奖励应用 (Gated reward application).
      • 对于其他上下文,更高优先级的奖励必须满足最低性能水平后,才能应用较低优先级的奖励 (2017)
      • 安全性是典型情况:一个不安全的 Response 会获得最低奖励,并且永远不会在响应质量上进行评分
Instruction Following and Steerability,指令遵循和可引导性
  • 指令遵循 (Instruction Following, IF) 是 LLM 的一项核心能力:
    • 模型应遵守用户在对话中直接指定的约束、API 用户通过开发者指令指定的约束,以及平台所有者通过特权系统指令指定的约束
    • 模型应根据预定义的优先级,能够跨这些格式和行为约束进行引导 (steerable) (2024)
    • 为了构建强大的指令遵循能力,本文构建了一个数据集,涵盖了一系列约束、场景和复杂程度,这些数据来自合成数据和专家人工标注
Data
  • 使用两个不同的数据来源:专家编写的上下文和合成数据
    • 发现:专家编写的 Prompt 中的复杂约束有助于引导能力的启动,而合成数据则能实现最大覆盖
  • Synthetic data generation
    • 受先前工作 (2025a; 2025) 的启发,本文构建了一个灵活的多阶段 Pipeline ,用于生成具有评估 Rubric 的真实指令和场景
      • 补充:
        • 参考工作1:(Evol-Instruct)WizardLM: Empowering large pre-trained language models to follow complex instructions, Microsoft & PKU, arXiv 20230424, 20230610, 20250527
        • 参考工作2:(AutoIF)Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models, ICLR 2025, Qwen Team
      • 首先使用 LLM 生成 Prompt 指令和模型规范,该 LLM 受到人工整理的约束分类法 (详见 Sec. E) 和一组多样化的种子的指导
      • 随后是生成场景
        • 这些场景是多语言的,涵盖短对话和扩展对话,包括包含系统、开发者和用户消息的情况,并跨越包括编码、写作、分析和旅行规划在内的 40 多个领域
        • 此外,还包括具有冲突的系统、开发者和用户指令的对抗性案例 ,以训练模型尊重指令层次结构
      • 最后一步是批判和重写,根据自然性、Rubric 对齐和 groundedness 来评估和更新每个场景
  • Data filtering
    • 通过多轮过滤、结合各种质量启发式方法、复杂度过滤和拒绝采样来保持高质量数据
    • 特别是,Rubrics 会根据其自洽性、明确性以及与既定约束的一致性进行验证,同时根据作者的安全策略筛选 Prompts\
    • 遵循 POLARIS: A POst-training recipe for scaling reinforcement Learning on Advanced ReasonIng modelS, 2025, UHK & ByteDance & Fudan,本文还通过 Pass Rate 分析来控制难度级别
      • 只保留那些对作者的模型来说具有挑战性但可解决的例子
  • Reward design
    • 为了在 RL 期间防止退化的响应和 Reward Hacking ,使用了混合奖励信号
      • 对于具有确定性验证器的约束,使用基于规则的检查
        • 这提供了快速、确定性和良好校准的奖励信号
      • 另外用一个 LLM Judge (Sec. 3.4.1) 独立评估原子 Rubrics ,每个 Rubric 产生一个二元判断
        • 为了鲁棒性,对多次判断传递的结果进行平均
      • 用训练好的奖励模型评估通用响应质量,以补充特定于约束的 IF Judge
    • 奖励使用 Sec. 3.4.1 中的词典评分聚合方案进行组合,其中特定于 IF 的奖励作为主要信号
      • 理解:即 词典奖励塑造 (Lexicographic reward shaping) 方案,只有在更高优先级的奖励上得分相同时,较低优先级奖励才会被激活
Safety
  • 根据对支持人类自主性的承诺,将安全性定义为模型提供符合政策的帮助性响应的能力 (Microsoft, 2022)
  • Data
    • 为了使训练与这一目标保持一致,为数据策划开发了一个分类法
    • 安全数据针对两种互补的失败模式:
      • 不安全遵从 (unsafe compliance),即模型满足了一个它应该拒绝的请求
      • 过度拒绝 (over-refusal),即不必要地拒绝了一个合法请求
    • 每个候选示例都根据政策分类法进行标注,并被分配到两个 Prompt 类别之一:
      • 有害 Prompts (Harmful prompts): 政策部分或完全禁止协助的请求
        • 响应策略是完全拒绝或部分拒绝 (拒绝不安全部分,同时提供安全替代方案)
      • 所属不清的 Prompts (Borderline prompts): 涉及敏感领域但仍在政策范围内可以回答的请求
        • 响应策略是不拒绝:提供有边界的、有帮助的答案,而不是回避或拒绝
  • Data sources
    • 表 8 总结了每个类别中 Prompts 的来源
      • 有害 Prompt 通过人工红队测试和自动对抗生成来收集
      • Borderline Prompt 来自跨数据世代延续的现有 “不拒绝” 切片,以及通过安全标注 Pipeline 路由并被选入 “不拒绝” 切片的能力数据,使模型接触应在政策范围内可回答的请求
  • Reward design
    • 每个模型响应由安全 Judge 沿着三个维度进行评分:
      • 政策合规性 (Policy compliance) 衡量响应是否违反了作者的安全政策
      • 响应参与度 (Response engagement) 将响应的参与度水平与预期目标 (拒绝、部分拒绝或不拒绝) 进行比较,惩罚过度拒绝和对严重请求的遵从
      • 响应风格 (Response style) 衡量响应是否遵循预期的语气和指导原则,例如,对于敏感的自我伤害请求,承认困难而不进行道德说教或向用户复述创伤性事件
    • Judge 的分数与奖励模型的奖励信号以及 (根据数据源) 额外的 AI Judge 信号相结合
      • 简单的加权平均是不够的:标量奖励在不符合政策的响应上可能仍然保持正值
      • 因此本文使用了一个安全门控聚合器:政策合规性字段按照 Sec. 3.4.1 中的描述对奖励进行门控
        • 如果安全 Judge 标记一个响应为不合规,则该 Rollout 无论其他分数如何都获得最低奖励;否则,使用正常的加权混合
Honesty
  • 本文将诚实性定义 为模型在知道答案时产生正确响应,并在不知道时适当规避 的能力
    • 同时,模型不应过度规避,因为仅最小化事实错误可能会简单地促使模型做出更少的断言 (2023)
    • 因此,目标必须平衡事实精确性与信息量
  • Data
    • 本文整理了一组多样化的数据,包括来自供应商的人工策划数据、经过 PII 过滤的消费者 Copilot 日志以及合成生成的数据
    • 受先前工作 (2024; 2024b,c) 的启发,本文的数据涵盖了一个难度范围:
      • (a) 已建立的事实查询,包括短格式和长格式,其响应可以对照参考答案进行精确验证
      • (b) 具有挑战性的事实查询,针对长尾或晦涩主题,预计模型覆盖率不一致,且参考标签通过搜索增强验证生成
      • (c) 错误前提查询,其中问题包含一个错误预设,并且不存在正确的肯定答案
      • 覆盖这些边界情况促使模型保持事实完整性,并且仅在缺乏知识时才进行规避
  • Reward design
    • 对于事实性评分,每个 RL 示例的参考标签通过检索增强生成和验证离线生成
    • 然后,每个模型响应由一个 LLM Judge 沿着两个维度 (事实性和置信度) 进行评分,产生五个类别之一:
      • CONFIDENT_CORRECT, UNCONFIDENT_CORRECT, NOT_ATTEMPTED, UNCONFIDENT_INCORRECT 和 CONFIDENT_INCORRECT
    • 这些通过加权求和组合成一个标量奖励:
      • 自信正确的响应获得最高奖励,自信的幻觉受到最严厉的惩罚,弃权获得中性奖励,而不自信但正确的响应获得较低的奖励以阻止过度规避
Style
  • 本文定义了一个风格指南,规定了好的输出是什么样的:
    • 热情而不谄媚,易于浏览的结构,以及根据上下文校准的语气,而不是简单地模仿用户
    • 风格指南还涵盖了何时以及如何使用表情符号、正式程度、数学和代码的表示法,以及一般的文本密度
  • 表 9 给出了训练模型遵循的指导原则的高级示例
  • Data
    • 风格是在一套广泛的、经过 PII 过滤的 Microsoft 消费者 Copilot 日志、供应商编写的上下文 (包括静态和交互式) 以及 Arena 对话上进行评分的
    • 这些数据涵盖了低到中等难度的 Prompts,排除了复杂的指令遵循、编码、数学和 STEM
    • Prompts 根据用户意图进行分类 (例如,创意写作、实用指导、信息寻找和闲聊),并积极收集模型表现薄弱的领域的 Prompts
    • 理解:这说明这里的风格是来自真实人类的倾向的,如果在 ChatBot 中添加一些真实反馈渠道,收集更多的反馈信号会更好
  • Reward design
    • 除了 Sec. 3.4.1 中介绍的奖励模型外,本文还使用 Prompted LLM Judge 沿着特定轴对输出进行评分,并惩罚不良行为
      • 这些 Prompted Judge 以 0、1 或 2 的整数尺度对响应进行评分,表示主要、次要或没有风格问题
    • 发现:粗粒度评分器优于更细粒度的评分器或特定于 Prompt 的 Rubric,因为它们给予 LLM Judge 更多的灵活性来为给定的 Prompt 和 Response 适当地解释 Rubric,使得模型更难 Hack 评分器
      • 风格评分器仅在可验证奖励和安全约束得到满足后应用,并根据领域与其他评分器一起加权

Consolidating Capabilities into a Single Model,将能力整合到单一模型中

  • 前面的部分描述了三个教师模型:
    • STEM 和竞争性编码 (Sec. 3.2)
    • Agentic 能力 (Sec. 3.3)
    • 帮助性和安全性 (Sec. 3.4) 独立训练
  • 本文分两个阶段将它们整合到一个单一模型中,如图 12 所示
    • SFT 阶段重用了 Sec. 3.1.4 中的自蒸馏 Pipeline ,并将其应用于每个专家教师,尽管三个教师需要不同的过滤和拒绝采样策略
      • 对于 STEM 和 Agentic 教师:
        • 按照 Sec. 3.1.4 中的多样性发现,对每次 Climb 的多个检查点进行 Rollout 采样,优先考虑较晚的检查点
        • 本文为每个上下文保留多个正确的 Rollouts,并仅应用轻量级过滤来移除退化的 CoT
      • 对于帮助性和安全性教师:
        • 使用 LLM Judge 和启发式过滤器,除了正确性之外,还对轨迹的风格、结构和已知缺陷进行评分
Consolidation SFT,整合 SFT
  • SFT 阶段将三个教师蒸馏到一个单一模型中
  • 本文迭代了数据混合和超参数,以平衡推理、Agentic 和通用帮助性能力,并在公共基准、内部基准和人工评估上进行评估
    • 表 10 报告了按样本和 Token 权重划分的最终混合结果
  • 发现:按样本权重平衡混合非常重要
    • Token 分布相应地由 STEM 和编码主导,这是由于它们的轨迹较长,在实践中这不会损害帮助性和安全性能力
  • 与本文的标准自蒸馏方案不同,整合 SFT 进行了 4 个轮次,从最大值 \(1\cdot 10^{- 5}\) 开始将学习率衰减 \(2\times\)
Consolidation RL,整合 RL
  • 最后一阶段的轻量级 RL 进一步提高了安全性、过度拒绝和风格
  • 该方案基于帮助性和安全性 Climb (Sec. 3.4),但进行了一些更改以保持推理性能
  • 以 128k Tokens 的最大序列长度进行训练,并在 RL 混合中保留一小部分 STEM 和编码数据
    • 发现:两者都很重要,因为否则复杂任务的推理性能会在 Climb 过程中缓慢下降
RL Infrastructure (Reinforcement Learning Infrastructure)
  • RL Climb 依赖于 Rocket
    • Rocket 是一个用于大规模异步分布式 RL 的内部框架,为 learner 使用 YOLO (Sec. 2.8),为模型推理使用 SGLang (2024)
    • 构建 Rocket 是因为需要在 MAI-Thinking-1 所需的数千个 GPU 规模上支持异步 RL 的能力,是现有的开源 RL 框架 (2020; 2024; 2024) 无法满足的
  • Rocket 的核心 RL 数据流围绕一个单一的 Controller、一个问题 Worker (problem worker) 和 Rollout Worker 池,以及产生模型生成的路由器 (router) 和推理服务器 (inference server) 进行组织
    • Controller 、问题 Worker 和 Rollout Worker 各自实现为单个 Python 进程 / Ray Actor,而路由和推理由基于 SGLang 的服务栈提供
    • Rocket 架构的概览如图 19 所示
Controller
  • Controller 加载 RL 任务并将它们发送给问题 Worker 进行处理
  • 对于每个任务, Controller 接收一组已完成的 Rollouts 以及相关的评分元数据 (通过/失败决策、奖励、归一化优势等)
  • Controller 过滤已完成的 Rollouts,并将它们作为批次发送给 Learner
  • Controller 的抽象允许 Rocket 在 on-policy 和 off-policy RL 之间切换不同的 Controller 实现
  • 在实践中,主要将 off-policy RL 用于大型运行 ,并将 on-policy RL 保留用于较小的实验和调试
Problem Worker
  • 当问题 Worker 从 Controller 接收到一个 RL 任务时,它会生成一组 Rollouts,为每个 Rollout 计算归一化优势,并将结果发送回 Controller
  • 问题 Worker 本身不处理 Rollout 生成,它向 Rollout Worker 发送一组请求(每个 Rollout 一个)
  • 问题 Worker 为大规模异步 RL 实现了容错,例如,如果 Rollout Worker 失败,则重试某个任务的 Rollouts
  • 对问题 Worker 的单个请求的典型流程是:
    • 1)提前退出 Rollouts (Early-exit rollouts).
      • 遵循 Sec. 3.1.3 中描述的提前退出策略,问题 Worker 从 Controller 接收一个 RL 任务,并向 Rollout Worker 发送 16 个请求,根据需要重试失败的请求
      • 每个 Rollout 都被评分,并将此信息聚合成任务的总体 Pass Rate
        • 如果总体 Pass Rate 在预定区间内,问题 Worker 继续进行完整 Rollout 阶段
        • 否则,RL 任务被中止
    • 2)完整 Rollouts (Full rollouts).
      • 问题 Worker 向 Rollout Worker 发送额外的 128 个请求,再次根据需要重试失败的请求
      • 每个 Rollout 都被评分,并将此信息聚合成任务的总体 Pass Rate
        • 如果总体 Pass Rate 在预定区间内,问题 Worker 继续进行后处理
        • 否则,RL 任务被中止
    • 3)后处理 (Postprocessing).
      • 问题 Worker 为每个 Rollout 计算归一化优势,以用于 RL 目标 (Sec. 3.1.1)
      • 根据具体问题,此步骤可能包括对长 Rollouts 应用长度惩罚、应用 GRPO 奖励归一化或其他启发式方法
Rollout Worker (Rollout Worker)
  • 当 Rollout Worker 从问题 Worker 收到请求时,它会生成单个 Rollout,可选择对其进行评分,然后将结果发送回调用者
  • 在典型流程中,Rollout Worker 首先生成一个初始模型 Prompt,并将其发送给模型推理服务器
    • 当响应返回时,Rollout Worker 解析它,执行任何工具调用,并将结果合并到对推理服务器的后续请求中
    • 此过程一直持续,直到模型停止发出工具调用并输出最终答案,或者超过某些预先确定的步骤数或 Rollout 时间限制
  • Rollout 完成后,下一步是对模型的输出进行评分
    • 评分器的输出包含一个数值奖励和一个可选的通过/失败判定
    • 根据问题的不同,评分可以在 Rollout Worker 或问题 Worker 上进行
      • 如果可以孤立地评估单个 Rollouts,则评分由 Rollout Worker 执行
        • 例如,在一个数学问题上,如果模型的输出在数学上等价于问题的真实答案,评分器可能输出 (1, pass),否则输出 (0, fail)
      • 一些评分器需要同时查看多个 Rollouts 的答案,例如,以便它们可以要求一个 LLM 对不同的模型答案进行成对比较
        • 在这种情况下,评分发生在问题 Worker 上
        • 单个问题可以有多个评分,在这种情况下,用户定义的策略将各个评分聚合为一个单一的总体奖励
Router and Inference
  • 推理是系统中最重要的组件之一:根据作业的规模和特性,推理 GPU 与 Learner GPU 的比例可高达 5:1
    • 在使用 4864 块 GB300 芯片的最大 RL 作业中,4096 块芯片专用于推理,而其余 768 块芯片专用于 Learner
    • 因此,推理性能和系统稳定性是首要关注点
  • Learner 和推理引擎之间的数值差异对于控制 RL 训练稳定性至关重要
Inference setup
  • 本文的 RL 推理栈构建在 SGLang 和 SGLang 路由器之上 (2024)
  • 选择 SGLang 是因为它满足本文对丰富 RL 服务功能集、针对开源模型的快速实验能力以及强大的生态系统发展速度的需求
  • 在单个 SGLang Worker 之上,使用 SGLang 路由器来处理负载均衡、流量控制和前缀缓存
Inference performance,推理性能
  • 由于作业的大部分 GPU 使用来自推理,因此优化推理吞吐量对于高效的 RL 至关重要
    • 注:最小化请求延迟对于控制陈旧度 (staleness) 也至关重要
  • 根据 Rollouts 是在单轮还是多轮中进行来专门化优化
    • 对于单轮工作负载,Prompts 通常很短,但生成 (包括思考) 可能长达 128k Tokens,因此主要瓶颈是 KV 缓存内存
      • 通过注意力机制的专家并行和数据并行来减少 KV 缓存和权重的占用
      • 禁用前缀缓存,以便在长生成期间可以完全驱逐滑动窗口注意力 Token (本文的模型架构 heavily relies on sliding window attention)
      • 本文进一步通过 MLP 层上的数据并行、DeepEP (Deep-EveryParallel) (2025a) 和 EPLB (Expert Parallelism Load Balancer) (DeepSeek-AI, 2025) 来减少通信开销
    • 对于多轮工作负载,Prompts 可能会变得非常长,而生成通常很短,这使得这些工作负载主要是预填充 (prefill) 密集型
      • 在这里,heavily rely on 前缀缓存:在生产 RL 运行中,前缀缓存命中率达到 \(97 - 98%\)
Inference system stability,推理稳定性
  • 在用于训练 MAI-Thinking-1 的拥有数千个推理芯片的 RL 规模下,单个副本 (replicas) 崩溃、挂起、变慢或因节点故障而失败是常态
    • 推理层必须能够优雅地降级和重启,而不是在发生这种情况时导致整个作业失败
  • 本文依赖三个层面的纵深防御
    • 在副本级别,每个 SGLang 服务器运行一个自我监控器 (self-watchdog),探测自己的生成端点和监控调度器内存
      • 一个不健康的副本会触发自身的优雅重启,以便编排器可以启动一个干净的替换
    • 在路由器级别,SGLang 路由器充当中断器 (circuit breaker):
      • 当后端副本变得不健康时,它停止接收新请求,在重新开放之前运行多阶段探测,并定期重新发现从其活动集中悄然掉落的副本
      • 每个副本的流控制 (per-replica flow control) 可防止慢副本积累会降低整个池性能的积压
    • 在作业级别,一个存活监控器 (liveness monitor) 跟踪每个类别 (推理副本、路由器、Rollout Worker 、 Learner ranks) 中活跃 Actor 的数量
      • 如果任何类别低于其允许的阈值,则使作业失败以进行干净重启
      • 一个正交的步骤进展监控器 (step-progress watchdog) 捕获更难处理的情况,即一切似乎都在运行但训练已停止进展
  • 当 Rollout Worker 向推理服务器的请求在半途中失败时,将针对另一个副本进行重试,因此单个副本的失败会降低池的吞吐量,但不会丢失 Rollouts
Numerics gap between inference and learner, 训推差异
  • RL 的一个关键方面是推理引擎和 Learner 之间的数值差异
    • YOLO ( Learner ) 和 SGLang (推理引擎) 使用不同的内核、调度和并行策略
    • 即使是很小的每 Token logprob 差异也会在长 Rollouts 中累积,并可能破坏 off-policy RL 中的重要性采样校正
  • 为了缓解这些问题,本文在 RL 运行中对 Learner 和推理引擎都使用 bf16
    • 这产生比本文评估的低精度替代方案小得多的数值差距和更稳定的训练
    • 在 bf16 之上,应用 MoE 路由重放 (2025) 和 top-\(p\) 掩码重放 (Sec. 3.1.3)
Weight Transfer,权重传输
  • 从同步 RL 转向异步 RL 将权重传输变成了一个重复出现的分布式同步问题:
    • 每 \(k\) 步,新鲜的 Learner 权重必须到达推理集群,而传输时间会带来推理空闲和额外的陈旧度
    • 核心困难在于 Learner 和推理分配以不同的方式对相同的张量进行分片:
      • 每一方可能使用不同的组合或程度的 FSDP、流水线并行、数据并行注意力以及张量布局,同时参数在精度、量化状态或矩阵布局上也可能不同
      • 因此,每次传输都必须同时重新分片字节并执行每张量变换
  • 传输计划 (Transfer plan).
    • 本文将重新分片、数据移动和每张量变换编译成一个单一的传输计划,在作业启动时计算一次,之后重复使用
    • 对于每个参数,规划器计算 Learner 和推理服务器分片布局的交集,并为每个非空的子分片重叠发出一个条目,记录源 rank、目标 rank、字节范围以及所需操作 (如 dtype 转换或布局排列)
      • 重新分片隐含在这个交集中
    • 每个 Learner rank 只发送其配对的推理 rank 需要的切片,从而消除了单独实现完整张量的需要
    • 变换在成本最小化的一侧运行,运行时通过流水线处理打包、传输和解包,使得连续的 sub-shards 在时间上重叠
      • 为了使规划与集群规模解耦,该计划针对一个理想化的拓扑 (一个 Learner 和一个推理服务器)
    • 在运行时,每个源-目标对扩展为一个覆盖目标 rank 所有活动副本的传输组,因此当副本加入、离开或被替换时,该计划仍然有效
      • 因为数据并行复制而不是分片参数,所以一个 DP 组已经拥有每个模型参数:计划不需要征用所有 \(D\) 个 Learner ranks
    • 本文将其限制在一个 DP 组的子集中,每个子集与一个不相交的推理副本切片配对,并独立运行
    • 一个 36 服务器的集群分成四组,并行执行 4 次 9 服务器传输,从而在提高吞吐量的同时控制故障爆炸半径

Evaluations

Benchmark Evaluations

  • 本文将 MAI-Thinking-1 的性能与各种开源和闭源的前沿模型在公共基准和人类并排评估上进行比较
    • 这些评估涵盖了广泛的领域,突显了模型在不同领域的多功能性:STEM、Agentic 编码、知识、指令遵循、长上下文、安全、健康、诚实和工具调用
  • 除非另有说明,MAI-Thinking-1 的所有基准评估结果均报告为 4 次运行的平均值,使用统一的推理设置,温度为 \(T = 1\),top-\(p\) 采样为 \(p = 0.97\)
  • 表 11 报告了作者在 STEM 和 Agentic 编码基准上的结果
    • 注:参考了其他模型的官方模型卡和发布公告中的数据
    • 综合来看,这些结果将 MAI-Thinking-1 置于其他流行 LLM 的竞争范围内:它并不领先,但在广泛的基准类别中提供了持续强劲的性能
    • 注意:MAI-Thinking-1 在 AIME 2025 上超过了 Claude Sonnet 4.6,并且在 SWE-Bench Pro 上的性能接近 Claude Opus 4.6
  • 此外,所有的 SWE Agentic 训练数据仅使用 bash 和字符串替换作为工具,不包括针对性的终端交互环境
    • 因此,模型当前的 Terminal-Bench 性能反映了从更广泛的 Agentic 训练中的泛化能力,而不是在类似 Terminal-Bench 的环境上的直接训练
Math, science, and competitive coding
  • 对于数学,在 2025 年和 2026 年的 AIME,以及 MathArena (2026) 的 2026 年 2 月 HMMT 基准上评估 MAI-Thinking-1
  • 对于科学,在 Graduate-Level Google-Proof Q&A benchmark (GPQA) (2023) 上进行评估,该基准包含知识密集型、研究生和研究级别的问题,主要来自 STEM 领域
  • 对于竞争性编码,在 LiveCodeBench v6 (LCB v6) (2024) 上进行评估,该基准包含最新的竞争性编码问题。更多评估细节见附录 G
Agentic coding and tool calling
  • 对于 Agentic 编码,在 SWE-bench Verified (2024)、SWE-Bench Pro (2025) 和 Terminal-Bench 2.0 (2026) 上评估 MAI-Thinking-1
  • 对于工具调用,在 BFCL v3 (2025) 上评估 MAI-Thinking-1
  • 与 STEM 评估不同,这些评估是多轮的,需要模型与环境交互
  • 对于所有三个基准,使用一个非常简单的 ReAct 风格 (2023) 循环来评估模型(理解:消息附加到图 18 所示的 Agent 循环中)
  • 对于 SWE-bench Verified 和 SWE-Bench Pro,启用了 bash 和字符串替换工具
  • 对于 Terminal-Bench 2.0,仅启用 bash 工具以模拟最基本的终端界面
    • 为了消除推理速度和 Infrastructure 混杂因素 (Segato, 2026),忽略了 Terminal-Bench 2.0 的预定义超时
  • 更多关于评估设置的细节在附录 H 中
General capabilities
  • 在表 12 中,报告了在涵盖知识、指令遵循、长上下文、安全、诚实、健康和工具调用的基准上的结果
  • 在这些领域的基准测试中,作者发现并非所有实验室都在模型卡或模型公告中报告官方结果
  • 为了提供一个与 MAI-Thinking-1 比较的基线,使用最大推理努力和最大序列长度在这些基准上评估了 Sonnet 4.6,并将这些结果也报告在表 12 中
  • 在大多数基准测试中,本文模型与 Sonnet 4.6 相当
  • 报告了以下部分:
    • 知识推理能力的 SimpleQA Verified (2026) 和 MMLU-Pro (2024b)
    • 指令遵循的 IFBench (2026)、AdvancedIF (2025) 和 MultiChallenge (2025)
    • 长上下文能力的 GraphWalks
    • 安全的 AIR-Bench (2024b) 和 CyberSecEval 4 (2024; 2024)
    • 诚实的 TruthfulQA (2022) 和 LongFact (2024c)
    • 健康知识任务的 HealthBench (2025) 和 MedXpertQA (2025)
  • 关于每个评估设置的描述,请参见附录 J

Human Side-by-Side Evaluations,人类并排评估

  • 为了补充上述以能力为中心的公共基准(这些基准侧重于狭窄且客观定义的质量标准),本文对各种真实世界任务进行了人工评估
    • 这些评估并排比较两个模型,整体上关注整体帮助性
    • 并排评估有助于发现单独审查响应时不明显的质量差异
Evaluation task selection
  • 评估任务来源于互补的来源,以确保全面覆盖真实的用户需求,并对比较模型具有强大的区分能力
    • 最终集合包含 1276 个任务,全部为英文,其中 \(30%\) 是多轮的
    • 有关任务分布的详细信息,请参见表 13
  • 任务的来源:
    • 第一个来源是专家撰写的 Prompt,遵循一个结构化的分类法,涵盖不同复杂度的真实用例,包括单轮和多轮对话
    • 第二个来源是来自微软消费者 Copilot 产品的日志,经过仔细过滤,排除了包含个人身份信息(PII)的 Prompt、不完整或缺乏必要对话上下文的 Prompt、对抗性 Prompt 以及需要自定义配置(如编码环境、图像生成能力或访问外部工具)的 Prompt
  • 本文使用分层抽样来确保用例覆盖,并在特定性和约束多样性等维度上平衡难度
Rater pool and evaluation process,评估人员池和评估过程
  • 为了进行这些模型评估,本文作者与信誉良好的数据标注供应商 Surge AI 管理的评估人员合作
    • 这些评估人员是来自不同通才和专业背景的英语母语者
    • 评估人员通过一个多阶段的资格筛选过程,该过程评估他们评估核心 LLM 能力和失败模式的能力,包括事实核查、阅读理解和指令遵循
    • 培训材料包括评级说明和常见失败模式的示例
  • 对于每个 Prompt,评估人员首先被要求仔细评估 MAI 和其他模型的响应,分别在几个维度上:
    • 指令遵循(显式和隐式)
    • 事实性(使用搜索引擎帮助事实核查)
    • 简洁性
    • 相关性
    • 完整性
    • 风格和语调
  • 对于每个维度,评估人员确定响应是否存在无、轻微或重大问题
    • 作为最后一步,评估人员在 7 点 Likert 量表上决定两个响应之间的总体偏好评级,范围从“远差于”(-1.5) 到“远优于”(1.5)
    • 观察:评估人员之间具有很强的一致性,验证了评级在可接受的噪声阈值内是一致的且可重复的
Results
  • 表 14 显示了在 \([- 1.5,1.5]\) 尺度上的总体成对偏好以及在 \([- 1,1]\) 尺度上的各个质量维度的差异的人工评估结果
  • 发现:评估人员更喜欢 MAI-Thinking-1 而不是 Sonnet 4.6,但更喜欢 Opus 4.6 而不是 MAI-Thinking-1
    • 与 Sonnet 4.6 相比,MAI-Thinking-1 在 \(49%\) 的比较中获胜,在 \(6%\) 中平局,在 \(45%\) 中失败
    • 与 Opus 4.6 相比,MAI-Thinking-1 在 \(43%\) 的比较中获胜,在 \(5%\) 中平局,在 \(52%\) 中失败
  • 在目标维度上,评估人员发现 MAI-Thinking-1 在简洁性和相关性以及风格和语调方面优于 Sonnet 4.6,在指令遵循、事实性和完整性方面大致相当(在噪声范围内)

Internal Safety Evaluation,内部安全评估

安全与过度拒绝 (Safety and over-refusal).
  • 本文构建了一个内部基准来测量在模型应该回答的低风险请求 Prompt 上的过度拒绝率
    • 然后,一个拒绝判断 (refusal judge) 根据规定的策略对每个响应进行评分,标记拒绝、回避或不合理的部分拒绝
  • 过度拒绝率是响应未能遵守的 Prompt 比例,帮助性报告为 1 减去该比率
  • 与高风险项上的安全 Pass Rate (判断安全得分 \(>3\),基于 1-5 Likert 量表)配对,这揭示了理想模型行为:
    • 在高风险、有害请求上更安全,在低风险、良性请求上更有帮助
    • 有关评估方法和数据集构建的详细解释,请参见附录 I
  • 图 20 绘制了 MAI-Thinking-1 与 Sonnet 4.6 的这种安全-帮助性平衡
    • 在八个类别中的五个中,MAI-Thinking-1 位于 Sonnet 4.6 的右上方,表明性能积极,其中在化学、生物、放射性和核 (CBRN)、自残 (Self Harm) 以及选举与政治 (Elections & Politics) 方面的增益最大
Jailbreaks,越狱
  • 本文作者从供应商、内部红队和开源基准(包括 HarmBench (2024) 和 StrongREJECT (2024))中获取 2.5K 个独特的种子场景,构建了一个内部越狱评估套件
  • 本文扩充了源 Prompt,生成了大约 9.5K 个越狱 Prompt 的最终评估集
  • 根据转换程度和攻击者自适应性将这些 Prompt 分为三组:基础 (Foundational)、组合 (Compositional) 和自适应 (Adaptive) 技术(定义见图 21)
    • 基础技术是通过简单的修改(如越狱包装器或 Prompt 模板)来保持有害意图的单步转换
    • 组合技术结合了多次转换或结构化重写,包括基于模板的攻击,如 PyRIT (2024)、PAP 风格转换 (2024a) 以及非英语或混合语言变体
    • 自适应技术引入了交互、搜索或多轮结构,包括 TAP (2024) 和多轮攻击 (2024)
  • 图 21 报告了这三个类别的攻击成功率(ASR);值越低表示安全性越强
    • 在这些 Prompt 转换类型中,MAI-Thinking-1 实现了与 Sonnet 4.6 和 Opus 4.6 相当的低 ASR

Safety Red Teaming,安全红队测试

  • 详情见原文

Cluster Environment

  • 详情见原文

Conclusion and Future Directions

  • 本文介绍了 hill-climbing machine,一种模型开发方法,它优化了 Pipeline 的每个组成部分,从数据和 Infrastructure 到 RL 配方的评估
    • MAI-Thinking-1 是这个机器生产的第一个模型:1T-A35B MoE,训练过程中完全未经第三方模型蒸馏
    • MAI-Thinking-1 在其重量级别中,在 STEM 推理和软件工程任务上属于最强模型之列
  • MAI-Thinking-1 是一个起点,而非终点
    • 未来作者计划将 Climb 扩展到更多的模态、更大的规模和更精细的能力
    • AI 的进步不是任何单一模型的产物;它是可以可靠改进的 Pipeline 的产物

附录 A:Pre‐training Data Pipeline Details

  • 详情见原文

NLP——LLM对齐微调-RDPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:
      • Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization, 20260513, LongCat

Paper Summary

  • 整体评价:
    • RDPO(Reward-Decorrelated Policy Optimization) 的目标是解决 LLM RL 中多任务和混合奖励的不稳定性问题
      • 注:不稳定性来源:异质的奖励分布和相关的(correlated)奖励维度 会破坏标量优势的稳定性
    • RDPO 设计围绕以下目标进行(个人理解):
      • Decorrelation:希望各个维度之间的信号不要互相影响
      • 等幅度假设:希望 Prompt 之间的更新权重(幅度)不要有偏(不要太偏向某个 Prompt 的 Rollout)
        • 希望极端值不敏感
      • 其他:希望各个维度奖励之间的信号权重不要有偏(不要过于偏向于某个维度)
    • RDPO 结合了两个创新以稳定混合奖励的 RL:
      • prompt 级别的幅度感知分位数归一化( MAQ 归一化,Magnitude-Aware Quantile normalization)
        • 使得 Prompt 之间等幅度
      • 马氏白化 (Mahalanobis whitening)
        • Decorrelation:实现各个维度之间的信号不要互相影响(使得不同维度奖励相互独立)
    • 实验:在 LongCat-Flash 模型上进行
      • 特别提到在后训练中提升了指令遵循、写作和 ArenaHard v2 的表现,同时在推理和代码评估上取得了广泛有竞争力的结果
  • RDPO 创新点:
    • 利用幅度感知分位数 (MAQ) 归一化 来稳定跨二元、分数和连续奖励的 prompt 级优势分配
    • 在每个活跃奖励子空间内应用 Mahalanobis whitening 来在聚合之前减轻相关性冗余

Introduction and Discussion

  • 本文展示了针对 LongCat-Flash 的 RDPO 后训练实验
  • 考虑一个标准但具有挑战性的强化学习设定:
    • 一次训练运行包含多种任务类型
    • 每个任务提供一组不同的奖励信号,例如正确性、指令跟随、评分标准满足度、偏好模型分数以及 Response 长度
    • 将这些异质信号聚合为单个标量优势常常会导致训练不稳定
    • 这种不稳定性源于这些奖励表现出不同的尺度、多样的分布形状以及非平凡的相关性
  • RDPO 通过一个轻量级的两步奖励处理流程来缓解这一挑战
    • 第一步:幅度感知分位数 (MAQ) 归一化 使 prompt 级优势对二元奖励、平局、偏态分布和异常值更加鲁棒
    • 第二步:Mahalanobis whitening 减少了在给定任务内共同出现的奖励维度之间的冗余方差

Method

Background

  • 实际部署中,LLM 必须同时优化多个目标,例如计算效率 (2025; 2025)、与人类偏好对齐 (2017) 以及 prompt 特定约束 (2025a)
  • 这种内在复杂性推动了近期在多任务和混合奖励设置中 RL 的进展 (2026; 2025; 2025b),其中单次 Rollout 可以产生多样、异质的奖励信号
  • 常用的方法有两种
GRPO
  • 对于给定的 prompt \(i\) 及其 \(G\) 个 Rollout,设第 \(j\) 个 Rollout 接收 \(n\) 个奖励,记为
    $$ r^{(i,j)} = (r_{1}^{(i,j)},\ldots ,r_{n}^{(i,j)})^{T}$$
  • GRPO (2024) 通过对原始奖励求和来聚合混合奖励反馈,然后在进行组级别归一化:
    $$ r_{\text{sum} }^{(i,j)} = \sum_{k = 1}^{n}r_{k}^{(i,j)} $$
    • 虽然当奖励尺度可比较时,这种直接策略是有效的,但当各个奖励维度的尺度和潜在分布不同时,它可能掩盖单个奖励维度的贡献
  • 表 1 奖励处理方法的比较
    • GRPO 直接对原始奖励求和而不进行归一化,掩盖了跨奖励维度的相对性能变化
    • GDPO 应用独立的 Z-分数归一化,但仍然容易受到 prompt 级优势主导和跨维度相关性的影响
    • RDPO 结合了用于稳定优势分配的幅度感知分位数归一化 (MAQ Normalization) 和用于在活跃奖励子空间内减少相关性的马氏白化 (Mahalanobis whitening)
    • 详细分析见第 2.3 节
GDPO
  • GDPO (2026) 通过在聚合之前独立地对每个奖励维度进行归一化来解决这种异质性问题,如表 1 所总结
  • 对于第 \(k\) 个奖励维度,它使用维度级别的 Z-分数归一化来计算优势
    • 然后通过对这些归一化的维度求和并应用 batch 级别的归一化来获得最终的标量优势
  • 尽管这种解耦方法相比原始求和有所改进,但它仍然独立处理每个奖励,使得该方法对非高斯奖励分布和奖励间相关性敏感

Effective Information Efficiency,有效信息效率

  • 本文引入有效信息效率 \((\eta_{\text{eff} })\) 作为一个诊断指标来评估混合奖励聚合
    • 该指标捕捉了混合标量优势的两个互补方面:
      • 聚合是否平衡了各个奖励维度的权重
      • 聚合后的奖励是否包含由相关奖励维度引起的冗余变异
    • 形式上,将其分解如下:
      $$\eta_{\text{eff} } = \eta_{\text{proj} }\times \eta_{\text{corr} }.$$
      • 注:这个分解遵循了有用混合奖励优势的两个基本期望
        • 第一:每个活跃奖励维度应在可比较的标准化尺度上做出贡献
        • 第二:求和后的信号不应重复计算相同的潜在变异
        • 所以 \(\eta_{\text{eff} }\) 可作为聚合质量的方法无关诊断指标
  • 第一项 \(\eta_{\text{proj} }\) 衡量聚合方向与标准化奖励空间中等权重投影的接近程度
    • 对于任意聚合权重向量 \(\mathbf{w}\) ,定义:
      $$\eta_{\text{proj} }(\mathbf{w}) = \cos^2 (\mathbf{w},\mathbf{1}) = \frac{(\mathbf{w}^T\mathbf{1})^2}{n\cdot|\mathbf{w}|^2}.$$
      • \(\mathbf{1}\) 为全 1 向量
      • 理解:\(\eta_{\text{proj} }\) 衡量实际聚合方向 \(\mathbf{w}\) 与等权重方向 \(\mathbf{1}\) 的一致性
        • 取值范围:\([0, 1]\)
          • \(\eta_{\text{proj} } = 1\) 当且仅当 \(\mathbf{w} \propto \mathbf{1}\),即各 Reward 维度权重相等
          • \(\eta_{\text{proj} } \to 0\) 当 \(\mathbf{w}\) 与 \(\mathbf{1}\) 正交或某些维度权重极大、其他极小
            • 注:这一点可通过求极限得出
      • 理解:为什么等权重方向是理想的?
        • 在标准化空间(\(z_k\) 均值为 0、方差为 1)中:
          • 每个 Reward 维度在数值上已经具有可比性
          • 如果某维度被赋予更大的权重,意味着该维度的微小变化会对 Advantage 产生不成比例的影响
          • 理想情况下,我们希望每个 Reward 维度的改善对最终优化的贡献大致相等 ,除非有明确的先验偏好
        • 因此,\(\eta_{\text{proj} }\) 反映了聚合方法是否尊重了标准化后的等重要性原则
  • 第二项 \(\eta_{\text{corr} }\) 量化了在求和相关的标准化奖励后保留的独立信息量
    • 正相关和负相关都意味着奖励维度之间的依赖性
    • 因此,使用逐元素绝对相关矩阵 \(|\Sigma_{z}|\) 来计算这一项:
      $$\eta_{\text{corr} } = \frac{n}{\mathbf{1}^T|\Sigma_z|\mathbf{1} }.$$
      • 理解:\(|\Sigma_z|\) 不是协方差矩阵的行列式,而是 元素级别的绝对相关系数矩阵 , \(\mathbf{1}^T |\Sigma_z| \mathbf{1}\) 是 \(\Sigma_z\) 矩阵的绝对值的元素和
        • 给定:
          • \(\mathbf{z} = (z_1, z_2, \dots, z_n)^T\) 是标准化后的 Reward 向量
            $$ z_{k} = \frac{r_{k} - \mu_{k}}{\sigma_{k}} $$
            • 每个 \(z_k\) 的均值为 0,方差为 1
          • \(\Sigma_z = \text{Cov}(\mathbf{z})\) 是 \(n \times n\) 的相关系数矩阵(因为方差为 1,协方差矩阵等于相关系数矩阵)
        • 则 \(\Sigma_z\) 为:
          $$
          |\Sigma_z| = \big( |\rho_{ij}| \big)_{i,j=1}^{n}
          $$
        • \(|\Sigma_z|\) 就是将 \(\Sigma_z\) 中的每个元素替换为其绝对值后得到的新矩阵
          $$
          |\Sigma_z|_{ij} = |\rho_{ij}| = \left| \frac{\text{Cov}(z_i, z_j)}{\sqrt{\text{Var}(z_i)\text{Var}(z_j)} } \right| = |\text{Corr}(z_i, z_j)|
          $$
        • 进一步,有 \(\mathbf{1}^T |\Sigma_z| \mathbf{1}\) 如下:
          $$
          \mathbf{1}^T |\Sigma_z| \mathbf{1} = \sum_{i=1}^n \sum_{j=1}^n |\rho_{ij}|
          $$
          • 分析:
            • 对角线项:\(|\rho_{ii}| = |1| = 1\),共 \(n\) 项
            • 非对角线项:\(|\rho_{ij}|\) 对于 \(i \neq j\),共 \(n(n-1)\) 项
          • 因此有最终结果:
            $$
            \mathbf{1}^T |\Sigma_z| \mathbf{1} = n + \sum_{i \neq j} |\rho_{ij}|
            $$
      • 理解:对于具有皮尔逊相关系数 \(\rho\) 的两个奖励情况
        • \(|\Sigma_z|\) 为:
          $$
          |\Sigma_z| = \begin{pmatrix} 1 & |\rho| \\ |\rho| & 1 \end{pmatrix}
          $$
        • 进一步有:
          $$
          \mathbf{1}^T |\Sigma_z| \mathbf{1} = 1 + |\rho| + |\rho| + 1 = 2 + 2|\rho|
          $$
        • 最终,有:
          $$\eta_{\text{corr} } = \frac{2}{2 + 2|\rho|} = \frac{1}{1 + |\rho|}.$$
      • 任何强的线性依赖性,无论是正还是负,都会减少求和的优势中存在的有效独立信息量
        • 理解:针对 皮尔逊相关系数 \(\rho\) 取了绝对值,所以负相关也会被累加
  • 现在应用这个指标来分析各种奖励处理策略
    • 在 GRPO 的情况下,可以将每个原始奖励表示为 \(r_k = \mu_k + \sigma_k z_k\),直接奖励求和得到:
      $$\sum_{k = 1}^{n}r_k = \sum_{k = 1}^{n}\mu_k + \sum_{k = 1}^{n}\sigma_kz_k.$$
      • 常数项 \(\sum_{k}\mu_{k}\) 被组级别优势归一化移除
      • 因此,标准化奖励空间中的有效聚合方向完全由 \(z_{k}\) 的系数决定
      • 因此,GRPO 隐式地依赖于权重向量 \(\mathbf{w}_{\text{GRPO} } = (\sigma_1,\sigma_2,\ldots ,\sigma_n)^T\)
      • 这给具有较高原始方差的奖励维度分配了不成比例的大有效权重
      • 将这个权重向量代入 \(\eta_{\text{proj} }\) 得到:
        $$\eta_{\text{proj} }(\mathbf{w}_{\text{GRPO} }) = \frac{(\sum_{k = 1}^{n}\sigma_k)^2}{n\sum_{k = 1}^{n}\sigma_k^2}.$$
        • 这个公式突出了奖励尺度的不平衡如何削弱某些维度的有效贡献
        • 理解:如果每个方差都相等 \(\sigma_k = c\),则 \(\eta_{\text{proj}}\) 的结果为 1
          $$
          \frac{(n c)^2}{n \cdot (n c^2)} = \frac{n^2 c^2}{n^2 c^2} = 1
          $$
    • GDPO 首先将每个奖励维度归一化为 ,然后再求和
      $$ A_{k} = (r_{k} - \mu_{k}) / \sigma_{k} = z_{k} $$
      • GDPO 聚合方向因此是
        $$ \mathbf{w}_{\text{GDPO} } = \mathbf{1}$$
        • 这与等权重参考方向完美对齐,并消除了 \(\eta_{\text{proj} }\) 在奖励维度层面捕捉到的方差缩放损失
      • 本质上,GDPO 做的不仅仅是重新缩放奖励,GDPO 恢复了实际优化方向与预期偏好方向之间的几何一致性
        • 这是其在混合奖励景观中有效性的基础
      • 然而,Z-分数归一化在 prompt 级别仍然可能不稳定
        • 当一个 prompt 级 Rollout 组包含偏态奖励、二元结果、平局或异常值时,GDPO Batch-level 归一化的优势质量可能会集中在一个 Rollout 上,而其余的 Rollout 获得接近零或被抑制的优势
        • 在这种情况下,策略更新实际上是由少数样本驱动的,即使在每个奖励标准化之后,等贡献的假设也变得不太可靠
        • GDPO 还假设奖励维度可以独立聚合,因此无法解决 \(\eta_{\text{corr} }\) 所捕捉的相关性损失
  • RDPO 旨在解决 \(\eta_{\text{eff} }\) 所测量的两种失效模式:
    • 幅度感知分位数 (Magnitude-Aware Quantile, MAQ) 使 prompt 级归一化优势对异质奖励尺度和异常值不那么敏感
    • 马氏白化 (Mahalanobis whitening) 减少了每个活跃奖励子空间中共同出现的奖励维度之间的冗余变异
    • 注:关于此机制的更多细节将在下一节提供
  • 图 1 报告了跨活跃任务子空间的平均 \(\eta_{\text{eff} }\)
    • 如图 1 所示,与 GDPO 归一化基线相比,RDPO 在整个训练过程中保持了更高的有效信息效率
    • 根据上述绝对相关定义,效率值为 1.0 作为独立奖励参考基线,更强的依赖性会单调地降低 \(\eta_{\text{corr} }\)
    • 图 1 中,对于四任务混合,首先评估每个活跃奖励子空间,然后聚合子空间值来计算平均 \(\eta_{\text{eff} }\)

RDPO:Reward-Decorrelated Policy Optimization,奖励 Decorrelated 策略优化

  • Decorrelated 表示 Decorrelated 含义
  • 本文首先为实验选择了四个代表性任务:
    • 指令跟随、通用写作、数学推理和代码生成
      • 注:所有这些任务都在一个统一的后训练运行中进行
    • 每个任务包含两到三个奖励
    • 这种配置使 RDPO 暴露于包含两个和三个奖励的子空间,以及二元、离散和连续奖励分布的混合
MAQ:Magnitude-Aware Quantile Normalization,幅度感知分位数归一化
The Problem
  • 投影项 \(\eta_{\text{proj} }\) 假设活跃奖励维度在聚合之前在可比较的标准化尺度上做出贡献
  • GDPO 尝试通过对每个奖励应用 per-reward Z-分数归一化来满足这一要求
    • 但这种线性变换仍然对每个 prompt 级 Rollout 组的分布形状高度敏感
  • 为了评估每个 prompt 内优势分配的稳定性,本文计算 prompt 级统计量并报告每个任务子空间的平均值
    • 对于归一化后的 Rollout 优势 \(\{A_{j}\}_{j = 1}^{G}\) ,使用 \(p_j\) 来衡量每个 Rollout 在 prompt 级绝对优势质量中的份额
      $$ p_{j} = \frac{|A_{j}|}{\sum_{\ell = 1}^{G}|A_{\ell}|} $$
      • 这给出了两个互补的诊断指标:
        • 优势主导度 \(\max_{j}p_{j}\) 衡量单个 Rollout 是否获得大部分更新信号
        • 有效 Rollout 参与度 \(\frac{1}{G\sum_{j}p_{j}^{2}}\) 衡量优势质量在 \(G\) 个 Rollout 之间的分布均匀程度
      • 这种方法突出了典型的 prompt 行为,而不是依赖于可能被少数极端组严重扭曲的汇集分布
    • 由于本文设置中的潜在奖励可以是二元、分数或连续的,因此即使在 Z-分数归一化之后,诸如偏态分布、平局和异常值等现象也可能将大部分归一化优势质量集中到单个 Rollout 上
    • 注:图 2 说明了这种失效模式:
      • GDPO 频繁表现出高 per-prompt 优势集中度和较低的有效 Rollout 参与度,表明策略更新可能由一小部分 Rollout 驱动,而不是稳定的组级别比较
      • 注:图 2 中,作者比较了 GDPO 的 Z-分数归一化与跨四个活跃任务子空间的 MAQ
        • 左图衡量每个 prompt 的优势主导度,定义为最大 Rollout 在绝对优势质量中所占的份额
        • 右图衡量有效 Rollout 参与度 \(\frac{1}{(G\sum_{j}p_{j}^{2})}\) ,其中 \(p_{j} \) 表示 prompt 内 Rollout \(j\) 的归一化绝对优势质量
        • MAQ 持续降低主导度并增加参与度,表明它使得异质奖励信号更具可比性,而不会让单个 Rollout 不成比例地主导 prompt 级更新
The Solution
  • 为了更好地满足非高斯奖励组下 \(\eta_{\text{proj} }\) 所依据的等贡献假设,本文提出了幅度感知分位数 (Magnitude-Aware Quantile, MAQ) 归一化
  • 当 prompt 级奖励统计量可靠时,Z-分数归一化提供了实现等尺度投影的最清晰的线性途径,但对于二元、平局、偏态或易于出现异常值的奖励,这一假设变得脆弱
  • MAQ 可以看作是一种鲁棒的替代方案
    • MAQ 将每个奖励维度映射到一个共同的有界正态得分尺度,从而使得到的优势在不同维度之间保持大致可比,同时对病态的组统计量不那么敏感
    • 与纯秩变换不同,MAQ 结合了幅度感知的间隙,以保留同一 prompt 内 Rollout 之间有意义的局部定量差异
    • 此外,与标准的 Z-分数归一化不同,它压缩了极端间隙,从而防止单个异常值主导 prompt 级优势分配
  • 对于每个 prompt \(i\) 和奖励 \(k\)
    • 给定一组排序后 的 \(G\) 个 Rollout 分数
      $$ r_1 \leq r_2 \leq \dots \leq r_G $$
    • 1)对数压缩 Gap (Log-compressed gaps) :计算相邻 Rollout 之间的间距:
      $$g a p_{j} = \log \left(1 + \frac{|r_{j + 1} - r_{j}|}{\beta\cdot\sigma_\text{global} }\right) \tag{1}$$
      • 其中 \(j = 1,\ldots ,G - 1\)
        • 特别注意:这里是有序的结果下计算的,不是随机顺序下计算
      • 这里,\(\sigma_\text{global}\) 是全局 batch 中奖励 \(k\) 的四分位距 (IQR,Inter-Quartile Range),作为一个鲁棒的尺度基准,\(\beta >0\) 控制压缩强度
        • 理解:这里用奖励的四分位距(一组数据的四分位距是: \(Q_3 - Q_1\),75 分位点 - 25 分位点),是在整个 Batch(而非单个 Prompt)内,针对同一个 Reward 维度(如 Math Reward、Length Reward),计算所有 Rollout 在该维度上分数的 IQR
        • 理解:相对标准差来说,IQR 是一个稳健的尺度估计量,不会因为少数 Outlier Rollout 而被拉偏
      • 这种对数压缩是鲁棒性的关键:它自然地限制了极端异常值的影响,同时对于小的、密集的间隙保持近似线性,以保留细微的组内差异
    • 2)CDF 分配 (CDF Allocation) :
      • 首先归一化 Gap
        $$ \text{norm_gap}_{j} = \frac{\text{gap}_{j}}{\sum_{j = 1}^{G - 1}\text{gap}_{j}} $$
      • 然后,将累积分布函数 (CDF) 位置 \(u_{(j)}\) 系统地按比例分配给这些归一化的间隙
      • 理解:即累积得到 CDF 位置:
        $$
        u_{(1)} = 0, \quad u_{(j+1)} = u_{(j)} + \text{norm_gap}_j, \quad u_{(G)} = 1
        $$
      • 理解:\(\{u_{(j)}\}_{j=1}^{G}\) 本质是一个从 [0-1] 的有序数组,共 G 个元素,其中间隔是第一步归一化过的 Gap,这里得到的结果是对 奖励 \(\{r_j\}_{j=1}^{G}\) 的 Outlier 不敏感的,且保原始奖励序的
    • 3)逆正态映射 (Inverse Normal Mapping) :最后,通过逆 CDF 将这些值映射到标准正态分布:
      $$A_{(j)} = \Phi^{-1}(u_{(j)}) \tag{2}$$
      • 理解:一般情况下,\(A_{(j)}\) 只是近似服从标准正态分布(不是严格服从),特别地,当 \(u_{(j)}\) 服从均匀分布时,\(A_{(j)}\) 服从标准正态分布
      • 理解:这里的 \(\Phi^{-1}\) 是标准真该分布 CDF 函数的反函数(CDF 的反函数也称为 (Percent Point Function,百分位点函数))
        • 设 \(Z\) 服从标准正态分布 \(N(0,1)\),其 CDF 为:
          $$
          \Phi(z) = P(Z \le z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi} } e^{-t^2/2} dt
          $$
          • CDF 是 从数值到概率 的映射:给定一个 Advantage 值 \(z\),输出在这个值左侧的累积概率(从负无穷到 \(z\) 的面积)
          • PPF 是 从概率到数值 的映射:给定一个累积概率 \(u \in [0,1]\),输出一个临界值 \(z\),使得累积概率恰好为 \(u\)
        • 数学关系:
          $$
          \Phi(z) = u \quad \Longleftrightarrow \quad z = \Phi^{-1}(u)
          $$
        • 直观例子(考试排名),假设某次考试成绩服从标准正态分布:
          • 考了 \(z=0\) 分,超过多少人:函数 CDF \(\Phi(0)\),比如 超过 50% 的人
          • 想超过 95% 的人,需要考多少分:函数 PPF \(\Phi^{-1}(0.95)\),比如 需要考 1.645 分
        • 在 MAQ 中,\(u\) 就是“想达到的排名位置” ,PPF 告诉我们应该分配多大的 Advantage \(A\) 给这个 Rollout
  • 如图 2 所示,MAQ 减少了跨四个任务子空间的 prompt 级优势主导度,并在归一化后保持了高有效 Rollout 参与度
    • 因此,MAQ 的作用不是直接 Decorrelate 奖励维度,而是在聚合之前产生一组更稳定、更具可比性的 per-reward 优势
    • 这支持了由 \(\eta_{\text{proj} }\) 捕捉的投影效率目标,同时将剩余的相关性冗余留给白化阶段
Mahalanobis Whitening,马氏白化
The Problem
  • 尽管 MAQ 在 prompt 级别稳定了单个奖励维度,但它本身并不能使不同的奖励维度相互独立
  • 这个限制正是 \(\eta_{\text{corr} }\) 所衡量的:
    • 如果两个共同出现的奖励包含重叠的信息,对它们求和可能会重复计算相同的变异
    • 如果它们负相关,求和可能会抵消有用的变异
  • 在本文的四个任务混合中,这种依赖性自然地在活跃奖励子空间内产生
    • 例如,数学奖励或代码奖励可能与长度奖励相关,ifeval 奖励可能与评分标准 (rubrics) 奖励相关,而 RM 奖励可能与评分标准奖励和长度奖励都相关
    • 更多细节在第 3.1 节中提供
    • 图 3 显示,在 GDPO 下,这些相关性是不可忽略的,特别是在代码生成、通用写作和数学推理子空间中
      • 图 3 展示了活跃任务子空间内的奖励相关性 (Reward correlation)
        • 每个面板对应一个任务条件下的奖励子空间
        • 本文报告了训练过程中共同出现的奖励维度之间的平均绝对皮尔逊相关系数
        • 与 GDPO 相比,RDPO 通过在 MAQ 归一化后应用马氏白化来降低子空间内的奖励相关性,有助于减少四任务训练混合中由 \(\eta_{\text{corr} }\) 捕捉的冗余
The Solution
  • 为了减轻奖励间相关性引起的冗余,RDPO 在 MAQ 归一化之后应用马氏白化
  • 在 MAQ 之后,每个 Rollout \((i,j)\) 由优势向量表示为:
    $$ \mathbf{A}^{(i,j)} = (A_{1}^{(i,j)},A_{2}^{(i,j)},\ldots ,A_{n}^{(i,j)})^{T}\in \mathbb{R}^{n}$$
    • 理解:\(\mathbf{A}^{(i,j)}\) 表示第 \(i\) 个 Prompt 的第 \(j\) 个 Rollout(response) 的所有奖励类别维度向量(\(n\) 代表奖励类型/维度数量),后续的马氏变换都是对这个向量的处理,最终结果是一个标量,即每个 Rollout \((i,j)\) 都有一个最终的结果
  • 马氏白化变换将其映射到一个 Decorrelated 向量:
    $$\mathbf{W}^{(i,j)} = \hat{\mathbf{\Sigma} }_{t}^{-1 / 2}\mathbf{A}^{(i,j)} \tag{3}$$
    • 其中 \(\hat{\mathbf{\Sigma} }_{t}^{- 1 / 2} = \mathbf{U}\mathbf{A}^{- 1 / 2}\mathbf{U}^{T}\) 通过运行协方差估计 \(\hat{\mathbf{\Sigma} }_{t} = \mathbf{U}\mathbf{A}\mathbf{U}^{T}\) 的特征分解计算
    • 给定一个准确的协方差估计,这个变换的目标是 \(\text{Cov}(\mathbf{W})\approx \mathbf{I}_{n}\) ,使活跃奖励维度趋向于不相关、单位方差的信号
    • 理解:对比 马氏白化和 Z-Score 标准化
      • Z-Score 标准化:减去均值,除以标准差,只消除了各维度的量纲差异
      • 马氏白化:减去均值,除以协方差矩阵的逆平方根,进一步消除了维度之间的线性依赖关系
    • 马氏白化的详细描述见附录:
      • 本文使用的不是原始的马氏白化(因为本文没有减去均值,仅仅除了协方差矩阵的逆平方根),原始的马氏白化是减去均值,除以协方差矩阵的逆平方根
  • Running Covariance Estimation,运行协方差估计
    • 在在线 RL 训练期间,真实的奖励协方差 \(\pmb{\Sigma}\) 是未知的,并且随着策略的演变而不断变化
    • 本文使用训练步骤上的指数移动平均 (Exponential Moving Average, EMA) 来维持一个稳定的估计:
      $$\hat{\mathbf{\Sigma} }_{t} = (1 - \alpha)\hat{\mathbf{\Sigma} }_{t - 1} + \alpha \hat{\mathbf{\Sigma} }_{\text{batch} } \tag{4}$$
      • \(\hat{\Sigma}_{\text{batch} }\) 是从当前 mini-batch 的 MAQ 归一化优势计算的样本协方差
      • \(\alpha \in (0,1)\) 是 EMA 衰减率
        • EMA 平滑了 batch 级别的噪声,并使白化矩阵能够跟踪缓慢演变的奖励相关结构
      • 为了在应用变换之前确保可靠的协方差估计,白化只在 \(T_{\text{warm} }\) 步的预热阶段之后才开始
      • 在本文的实现中,本文使用前五个训练步骤进行此预热
  • Subspace Whitening for Heterogeneous Tasks,针对异构任务的子空间白化
    • 在多任务设置中,单次 Rollout 很少能同时观察到所有 \(n\) 个奖励维度
      • 注:\(n\) 是指整个训练任务中所有可能的 reward 类型的总数
    • 当前的训练混合由四个活跃奖励子空间组成:{math, length},{code, length},{ifeval, rubrics} 和 {length, rm, rubrics}
      • 理解:接下来的归一化是分别在子空间上做的,对每个子空间分别进行马氏白化,所以虽然有求逆矩阵的过程,复杂度其实不会太高
      • 理解:对于每个子空间,每个奖励维度都有一个向量/变量,这个向量是所有这个子空间下,当前 Batch 的所有 Rollout 构成的,于是接下来才可以求不同维度之间的协方差,协方差矩阵的维度数就是 该子空间下的奖励维度数
    • 为了适应这种异构性,我们仅在观测到的子空间上应用白化:
      • 对于具有活跃奖励集 \(\mathcal{S}\) 的 Rollout
        $$\mathcal{S}\subseteq \{1,\ldots ,n\} $$
        • \(n\) 是指整个训练任务中所有可能的 reward 类型的总数
        • \(m\) 当前 rollout 实际观测到的 active reward 维度数
      • 提取主子矩阵
        $$\hat{\Sigma}_{\mathcal{S} }\in \mathbb{R}^{|\mathcal{S}|\times |\mathcal{S}|}$$
      • 并独立计算
        $$\hat{\Sigma}_{\mathcal{S} }^{- 1 / 2}$$
      • 这种方法确保仅当奖励维度在同一个任务内共同出现时才应用 Decorrelation,避免了从从未重叠的维度之间引入人为的协方差估计
  • Final Advantage
    • 用于 PPO/GRPO 策略梯度更新的标量优势通过对白化后的维度求和获得:
      $$A_{\text{sum} }^{(i,j)} = \sum_{k = 1}^{n}W_{k}^{(i,j)} = \mathbf{1}^{T}\mathbf{W}^{(i,j)} = \mathbf{1}^{T}\hat{\Sigma}_{t}^{-1 / 2}\mathbf{A}^{(i,j)} \tag{5}$$
  • 在理想的协方差估计下,其中 \(\text{Cov}(\mathbf{W}) = \mathbf{I}_n\) ,这个投影会捕捉到更少的跨维度冗余信息
    • 由于协方差是通过 EMA 在线估计并在特定的观测任务子空间内应用的,因此这个白化过程是减少相关性冗余的实用机制,而不是完美 Decorrelated 严格数学保证
    • 图 3 中的经验曲线显示,与 GDPO 相比,该机制在作者的训练混合中降低了平均绝对奖励相关性
      • 结合 MAQ,这种方法将聚合优势推向具有更高有效信息效率的、较少冗余的奖励机制
      • 与 GDPO 一样,本文随后应用 batch 级别的归一化以获得最终的优势估计

Training

Training Setup

  • 本文在 LongCat-Flash 的后训练阶段应用 RDPO
  • 策略在包含数学推理、代码生成、指令遵循和通用写作 prompt 的四个任务混合体上进行优化
  • 对于每个 prompt,模型采样一组 rollouts,接收为该任务定义的特定奖励信号子集,并从活跃奖励维度构建一个标量优势
  • 主模型采用完整的 RDPO 流程
    • 首先独立地对每个奖励维度应用 MAQ 归一化,以稳定 prompt 级别的优势分配
    • 然后在观察到的奖励子空间上执行马氏白化以减少相关冗余
    • 最后将得到的白化优势求和,并在策略梯度更新前进行批归一化
  • 这四个任务类别激活了不同的奖励子空间:
    • 数学推理样本使用 math+length
    • 代码生成样本使用 code+length
    • 指令遵循样本使用 ifeval+rubrics
    • 通用写作样本使用 length+rm+rubrics
    • 注:每个奖励的详细描述在下一节中提供
  • 这种异构设置代表了 RDPO 的预期用例
    • 由于不同的任务会暴露不同的奖励子集,活跃奖励在尺度、分布形状和相关性结构上可能存在显著差异

Reward Design

Rubrics Reward
  • 对于每个采样的 response,使用一个生成式奖励模型对其相关联的 rubric 集进行细粒度验证
  • 每个 rubric 的评估结果记录为一个二值变量,使用预定义的 rubric 权重计算加权平均值以获得最终的 rubric 奖励
    • 如果一个 response 未能满足任何标记为必要的标准,则总 rubric 奖励严格设置为 0
    • 否则,计算所有有效 rubric 上的归一化加权和,并将结果裁剪到 \([0,1]\) 区间
    • 这种设计确保了奖励既能覆盖明确的写作要求的广度,也能满足严格的关键约束
IFEval Reward
  • IFEval 奖励衡量 response 是否遵守明确的指令约束
  • 对于每个 response,作者调用与参考注释关联的基于规则的验证器,以评估格式、内容或行为要求
    • 标准的 IFEval 注释产生严格的通过/失败信号
    • 某些扩展数据集提供连续的分数
  • 在这两种情况下,此奖励为指令遵循能力提供直接监督,并主要反映对硬性任务约束的遵守情况
Math Reward
  • 数学奖励评估数学推理的正确性
  • 对于具有可验证最终答案的问题,评分器提取生成的答案,并使用精确匹配或特定任务的等价性检查将其与参考解决方案进行比较
  • 该指标为数学样本提供了主要的正确性信号,而 length 奖励则施加了补充性的压力以鼓励简洁推理
Code Reward
  • 代码奖励评估生成程序的功能正确性
  • 对于编码任务,评分器使用参考评估协议(例如,基于执行的检查或可用的特定任务验证器)评估生成的解决方案
  • 此奖励与 length 奖励配对,以确保面向代码的强化学习同时优化正确性和响应效率
RM Reward
  • RM 奖励由一个独立的奖励模型生成,以捕捉整体的 response 质量
  • 将 prompt 和 response 连接成一个完整的对话,并将其输入奖励模型以获得原始标量分数
  • 由于这些原始输出可能范围很广,将分数线性缩放到 \([0,1]\),以保持与其他奖励组件的数值一致性
  • 与基于规则的指标(如 rubrics 和 IFEval)不同,RM 奖励为流畅性、完整性、连贯性和主观质量提供了一个软偏好信号
    • RM Reward 作为补充信号而非硬性任务约束的替代
Length Reward
  • 长度奖励鼓励在不牺牲任务满意度的情况下生成简洁的 response
  • 对于每个 response,将生成的长度与参考统计数据进行比对:
    • 对于给定 Query,从基础模型的多次采样中,成功完成任务的平均长度
    • 该指标反映了基础模型的内在能力,并为后续训练建立了稳健的基线
  • 奖励设计:
    • 长度低于此阈值的 response 获得奖励 1
    • 长度超过阈值时,奖励会根据二次惩罚衰减,并被裁剪到 \([0,1]\) 区间
  • 这种表述避免了过度惩罚轻微的超长,同时对明显冗长的生成施加更严格的惩罚
Conditional Reward Handling
  • 在组合多个奖励之前,应用一个条件处理机制,以防止辅助信号补偿核心要求的失败
    • RM 奖励受 rubric 奖励约束:
      • 如果 rubric 奖励低于 0.5,RM 奖励被截断为 \(\min(r_{\text{rubric} },r_{\text{rm} })\)
      • 这确保了高的整体偏好分数不能掩盖对必要 rubrics 的违反
    • 对 length 奖励应用类似的门控规则
      • 对于指令遵循样本
        • 仅当满足 IFEval 约束时,length 奖励才被视为有效
        • 如果 IFEval 分数降至 0.5 以下,length 奖励会相应减少
      • 对于数学、代码和基于 rubric 的写作样本,当主要任务奖励低于 0.5 时,length 奖励也会被类似地截断
    • 理解:只有当 response 已经满足基本任务要求时,长度控制和整体偏好才能作为辅助优化信号

Evaluation

Evaluation Setup

  • 为了评估在训练任务类别上的表现,本文选择了一组多样化的挑战性基准,并将它们组织成四个评估集群:
    • 1)Instruction Following :此集群包括 IFEval (2023)、GuideBench (2025) 和 SOP-Maze (2025)
    • 2)Math and Knowledge Reasoning :此集群包括 AIME24、AIME25、GPQA (2024) 和 MATH500 (2023)
    • 3)Writing and Arena Evaluation :此集群包括 WritingBench (2025) 和 ArenaHard v2 (2024)
      • 对于 ArenaHard v2,报告两个互补的子集:AH-Hard 和 AH-Creative
    • 4)Coding :此集群包括 FullStackBench (2024)、HumanEval+ (2021)、MBPP+ (2021) 和 LiveCodeBench v6 (2024)

Small-Scale Validation on a Same-Family Smaller Model,在同系列小型模型上的小规模验证

  • 在将 RDPO 扩展到更大的 LongCat-Flash 后训练运行之前,本文首先在来自同一系列的一个较小的内部模型上验证该方法
    • 这个初步阶段有两个主要目的:评估完整的奖励解耦流程是否在相关基线上有所改进,并分离其两个核心组件(MAQ 归一化和马氏白化)的贡献
  • 表 2 和表 3 显示了初步性能,支持了更大规模的 LongCat-Flash 试验
    • 完整的流程在 IFEval、AIME24、AH-Hard、FullStackBench、HumanEval+ 和 MBPP+ 上相比 GDPO 基线有所改进
    • 此外,组件级别的分析表明,MAQ 和白化提供了互补的优势:
      • MAQ 在几个对分布敏感的指标(包括 AH-Creative)上表现强劲,而白化在相关性敏感的设定中有所帮助
    • 这些实证结果激发了为 LongCat-Flash 后训练运行采用完整 RDPO 方案
  • 表 2:在同系列小型模型上的小规模验证,在代表性指标上将 RDPO 与 GDPO、GRPO 以及 RL 初始化模型进行比较
  • 表 3:在相同小型模型设定下的组件验证,使用相同的代表性基准集来比较基础的 GDPO 设定、仅 MAQ (Q)、仅白化 (M) 以及组合的 RDPO 变体 \((Q + M)\)

Scaled LongCat-Flash Post-Training Results,扩展训练结果

  • 在小规模验证阶段之后,本文将完整的 RDPO 流程扩展到 LongCat-Flash
    • 本文的 LongCat-Flash 评估侧重于端到端的可扩展性
    • 本文研究了完整的奖励解耦优势构建在更大的后训练机制中是如何表现的
  • 如表 4 所示,LongCat-Flash RDPO 模型主要在与混合奖励训练目标一致的能力上取得了提升
    • 在评估的三个模型中,RDPO 在 IFEval 和 SOP-Maze 上获得了最高分,同时在 WritingBench 以及报告的两个 ArenaHard v2 子集(AH-Creative 和 AH-Hard)上也取得了显著的提升
    • 这些结果与前文的小规模验证一致:稳定 prompt 级别的优势分配和减少奖励冗余似乎对指令遵循以及开放式、偏好敏感的评估很有用
  • 在其余的推理和代码评估上,比较结果好坏参半但表现稳定
    • RDPO 在 MATH500 上达到了最高分,并在 AIME2025 和 GPQA 上保持竞争力
    • Init. 或 GRPO 在个别指标上可能仍然更强
  • 代码结果遵循类似的模式:
    • RDPO 在 MBPP\(^+\) 和 LiveCodeBench v6 上领先
    • GRPO 或 Init. 在 FullStackBench 和 HumanEval\(^+\) 上仍然更强
  • Scaled LongCat-Flash 实验表明,完整的 RDPO 方案可以从较小的模型验证中迁移过来,并在推理和代码结果上广泛保持稳定
  • 表 4:本文在涵盖指令遵循、数学与知识推理、写作与竞技场式评估以及代码的代表性基准上比较了 RL 初始化模型 (Init.)、GRPO 和 RDPO

附录:常见分布的 CDF 介绍

标准正态分布的 CDF

  • \(\Phi(z)\) 专门表示标准正态分布的 CDF :
    $$
    \Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi} } e^{-t^2/2} dt
    $$
    • 均值为 0
    • 方差为 1
    • 记作 \(N(0,1)\)
  • 这是统计学和机器学习论文中的通用约定

非标准正态分布的 CDF 表示方法

  • 对于一般正态分布 \(N(\mu, \sigma^2)\),CDF 通常用以下几种方式表示:
方法一:用 \(\Phi\) 标准化后表示
  • 比如:
    $$
    F_{X}(x) = \Phi\left(\frac{x - \mu}{\sigma}\right)
    $$
    • 这是最常见、最简洁的写法
    • 例如:
      • \(X \sim N(\mu, \sigma^2)\)
      • \(F_X(x) = P(X \le x) = \Phi\left(\frac{x - \mu}{\sigma}\right)\)
方法二:用 \(F\) 加下标
  • 比如:
    $$
    F_{N(\mu, \sigma^2)}(x) \quad \text{或} \quad F_X(x)
    $$
    • 然后用文字说明 “where \(X \sim N(\mu, \sigma^2)\)”
方法三:用不同字母区分
  • 具体方式对比:
    分布 CDF 符号 示例
    标准正态 \(N(0,1)\) \(\Phi(z)\) \(\Phi(1.96) \approx 0.975\)
    一般正态 \(N(\mu, \sigma^2)\) \(\Phi_{\mu,\sigma}(x)\) 或 \(F(x;\mu,\sigma)\) 不常用
    任意分布 \(F_X(x)\) 通用符号

补充:其他常见分布的 CDF 符号

  • 常见分布的 CDF 表示
    分布 CDF 符号 PPF 符号
    标准正态 \(N(0,1)\) \(\Phi(z)\) \(\Phi^{-1}(u)\)
    均匀分布 \(U(0,1)\) \(F(x) = x\) 或 \(U(x)\) \(U^{-1}(u) = u\)
    指数分布 \(\text{Exp}(\lambda)\) \(F(x) = 1 - e^{-\lambda x}\) \(F^{-1}(u) = -\frac{\ln(1-u)}{\lambda}\)
    任意分布 \(F_X(x)\) \(F_X^{-1}(u)\)

附录:马氏白化与 Z-Score 归一化的区别

  • 从纯粹的数学视角来看:
    • Z-Score 标准化只消除了各维度的量纲差异
    • 马氏白化(Mahalanobis Whitening)进一步消除了维度之间的线性依赖关系
  • 总结对照表
    性质 Z-Score 标准化 马氏白化
    变换后均值 零向量 零向量
    变换后各维度方差 1 1
    变换后各维度相关性 保留原相关矩阵 \(\mathbf{P}\) 完全消除,变为 0
    变换后的协方差矩阵 \(\mathbf{P}\)(相关矩阵) \(\mathbf{I}\)(单位阵)
    几何效果 各轴独立缩放,不旋转 旋转 + 缩放,得到球体
    旋转不变性 否 是
    对异常值敏感性 中等 高
    计算复杂度 \(O(d)\) \(O(d^3)\)
    需要估计的参数 \(d\) 个均值,\(d\) 个方差 \(d\) 个均值,\(d(d+1)/2\) 个协方差

数学定义

  • 设原始随机向量为
    $$\mathbf{x} = (x_1, x_2, \ldots, x_d)^T \in \mathbb{R}^d$$
    • 均值为 \(\boldsymbol{\mu}\)
    • 协方差矩阵为 \(\boldsymbol{\Sigma}\)
  • Z-Score 标准归一化 :
    • 对每个分量独立操作:
      $$
      x_i’ = \frac{x_i - \mu_i}{\sigma_i}
      $$
      • 其中 \(\sigma_i = \sqrt{\boldsymbol{\Sigma}_{ii} }\)
    • 写成向量形式:
      $$
      \mathbf{x}’ = \mathbf{D}^{-1/2} (\mathbf{x} - \boldsymbol{\mu})
      $$
      • 这里 \(\mathbf{D}\) 是对角矩阵
        $$ \mathbf{D} = \text{diag}(\boldsymbol{\Sigma}_{11}, \boldsymbol{\Sigma}_{22}, \ldots, \boldsymbol{\Sigma}_{dd})$$
  • 马氏白化 :
    • 利用完整的协方差矩阵:
      $$
      \mathbf{z} = \boldsymbol{\Sigma}^{-1/2} (\mathbf{x} - \boldsymbol{\mu})
      $$
      • 其中 \(\boldsymbol{\Sigma}^{-1/2}\) 是协方差矩阵的逆平方根
      • 计算方式:
        • 通常先对 \(\boldsymbol{\Sigma}\) 进行特征分解
          $$ \boldsymbol{\Sigma} = \mathbf{U} \boldsymbol{\Lambda} \mathbf{U}^T$$
        • 然后再计算:
          $$
          \boldsymbol{\Sigma}^{-1/2} = \mathbf{U} \boldsymbol{\Lambda}^{-1/2} \mathbf{U}^T
          $$

变换后的协方差结构

  • Z-Score 标准化后 :
    $$
    \text{Cov}(\mathbf{x}’) = \mathbf{D}^{-1/2} \boldsymbol{\Sigma} \mathbf{D}^{-1/2} = \mathbf{P}
    $$
    • 其中 \(\mathbf{P}\) 是相关矩阵 ,其对角线元素均为 1,但非对角线元素 \(\rho_{ij} = \frac{\boldsymbol{\Sigma}_{ij} }{\sqrt{\boldsymbol{\Sigma}_{ii}\boldsymbol{\Sigma}_{jj} } }\) 一般不为零
    • 即:各分量方差变为 1,但相关性依然保留
  • 马氏白化后 :
    $$
    \text{Cov}(\mathbf{z}) = \boldsymbol{\Sigma}^{-1/2} \boldsymbol{\Sigma} \boldsymbol{\Sigma}^{-1/2} = \mathbf{I}
    $$
    • 即变换后的向量各分量方差为 1,且协方差(相关性)为零 ,达到完全去相关

几何解释

  • 将 \(\mathbf{x}\) 视为高维空间中的一个数据点云,其分布呈椭球状
  • Z-Score 标准化 :将椭球的每个轴独立缩放至单位长度,但不旋转坐标轴
    • 结果是一个各轴长度相等但轴方向仍与原坐标轴平行的椭球
    • 如果原数据有倾斜的相关结构(即椭球主轴不与坐标轴对齐),标准化后的椭球仍然是倾斜的
  • 马氏白化 :
    • 先旋转坐标轴使其与椭球的主轴对齐(通过 \(\mathbf{U}^T\))
    • 再对各主轴缩放至单位长度(通过 \(\boldsymbol{\Lambda}^{-1/2}\))
    • 最后再旋转回原坐标系(通过 \(\mathbf{U}\))。结果是数据点云变成一个各向同性的球体 ,即所有方向上的方差相等且无相关性

对线性变换的敏感性

  • Z-Score 标准化 :对每个维度独立进行,因此在数据的正交变换(旋转)下不能保持形式不变
    • 如果对 \(\mathbf{x}\) 施加一个旋转矩阵 \(\mathbf{R}\),先旋转再标准化,与先标准化再旋转,结果不同
  • 马氏白化 :具有旋转不变性
    • 对 \(\mathbf{x}\) 施加任意可逆线性变换 \(\mathbf{A}\) 后再进行马氏白化,等价于先马氏白化再施加同一变换的某种规范化形式
    • 本质上,马氏距离 \(\sqrt{(\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})}\) 本身是旋转不变的,而白化是该距离的线性实现

对异常值的鲁棒性

  • Z-Score 标准化 :均值和标准差对异常值敏感
    • 一个极端 outlier 会拉大 \(\sigma_i\),导致正常数据被过度压缩到接近零的区域
  • 马氏白化 :更加敏感
    • 因为协方差矩阵 \(\boldsymbol{\Sigma}\) 对异常值极其敏感(异常值会产生大的协方差项),同时 \(\boldsymbol{\Sigma}^{-1/2}\) 的计算依赖特征分解,异常值可能严重扭曲特征空间
    • 因此,马氏白化通常要求数据已经经过预处理以去除明显异常值(本文中就是经过预处理的)

计算复杂度

  • Z-Score 标准化 :\(O(d)\) 时间和空间复杂度,仅需计算每个维度的均值和方差
  • 马氏白化 :\(O(d^3)\) 时间复杂度(特征分解)和 \(O(d^2)\) 空间复杂度(协方差矩阵存储)
    • 对于高维数据(如 \(d \gg 10^4\)),计算代价极高,甚至不可行

NLP——LLM对齐微调-TCOD

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents, 20260429, Tongyi Lab

Paper Summary

  • 个人整体总结:
    • 作者发现:vanilla OPD 在多轮 Agent 中的一个基本失效模式: Trajectory-Level KL Instability
      • 观察:KL 散度随着成功率的下降而增加,并且即使在收敛后,KL 散度仍然很高,导致训练不稳定
      • Trajectory-Level KL Instability 定义:跨轮的复合错误导致 KL 散度不断升级和不可靠的教师监督信号
        • 随着错误的累积,学生模型被推到了教师有效支持范围之外的状态 ,使得监督信号变得不可靠
    • 解决方法:TCOD (Temporal Curriculum On-Policy Distillation) 框架
      • TCOD 核心思路:控制暴露给学生的轨迹深度,并通过由可配置的课程增长率控制的步调策略 ,逐步将其从短轨迹扩展到长轨迹
      • TCOD 有两种变体:
        • Forward-to-Backward (TCOD-F2B):将学生限制在轨迹的早期步骤,并逐步将其扩展到最大探索 Horizon
        • Backward-to-Forward (TCOD-B2F):利用教师将 Agent 导航到接近终止状态,减轻早期步骤的错误累积,同时逐步将学生的 Rollout Horizon 向后扩展到初始阶段
    • 特殊发现:TCOD 性能可以超越教师
      • 在教师 pass@10 采样失败的 ALFWorld 困难划分上,TCOD-B2F 的成功率比教师高出 14 个百分点,展示了超越教师自身能力边界的泛化能力
      • 理解:这个可能和学生本身在特定场景针对自身策略采样和修正有关
        • 注意:本文的结论不太 Solid,这个能力不一定是 TCOD 带来的,因为 Vanilla OPD 也在 Hard 熵表现出了超越教师的能力(如 表 2 所示),说明 OPD 本身就已经拥有了超过教师的潜力了
        • 而且 表 3 中并没有看到学生模型超过教师模型
    • 注意:论文目标公式中使用的是 Forward KL,应该是写错了,收集样本使用 Student,所以计算得到的 KL 散度应该是 Backward KL
    • 创新思考:
      • 针对单轮的场景,也可以使用类似 TCOD 的方式解决长文本下的 OPD 问题,固定一批数据集,先训练前 4K 一个 epoch,再训练前 8 K 一个 epoch,再训练 12 K 一个 epoch,以此类推
        • 核心思路:让学生的前缀先贴近教师,再训练学生后面的分布贴近教师(此时教师能给出不错的信号指导了)

Introduction and Discussion

  • 当前主要 OPD 方法本质上是为静态的单轮推理设计的
  • 多轮机制中直接应用 vanilla OPD 会导致一种基本的失败模式:Trajectory-Level KL Instability
    • 通过在 ALFWorld (2020) 上的实验,发现
      • (i) 学生模型同时遭受 KL 散度升级和成功率崩溃的问题
      • (ii) 尽管它们最终收敛,但开始时 KL 散度非常高,这两者都会导致训练不稳定
    • 关键:图 1 (左) 揭示了其潜在机制:
      • 跨轮次的累积错误逐步将学生推向教师有效支持范围之外的状态
      • 结果导致教师对学生生成 Response 中的 Token 分配了更低的概率,表明每一轮的 KL 散度都在增加,使其监督信号变得不可靠
  • 图 1:
    • (左) 在多轮 Agent 的 OPD 中,随着轮次增加,教师对学生生成 Response 中的 Token 分配的概率逐渐降低,表明每一轮的 KL 散度都在增加,使得监督信号不可靠
    • (右) OPD 使用所有轮次,因此包含了累积错误,而 TCOD-F2B/B2F 逐步从短轨迹扩展到长轨迹,减轻了计算错误轮次的问题
  • TCOD 核心思想:控制暴露给学生的轨迹深度,并通过由可配置的课程增长率控制的步调策略 ,逐步将其从短轨迹扩展到长轨迹
    • 如图 1 (右) 引入了两个仅需最少代码修改的实用变体:
      • Forward-to-Backward (TCOD-F2B):将学生限制在轨迹的早期步骤,并逐步将其扩展到最大探索 Horizon
      • Backward-to-Forward (TCOD-B2F):利用教师将 Agent 导航到接近终止状态,减轻早期步骤的错误累积,同时逐步将学生的 Rollout Horizon 向后扩展到初始阶段
  • 基于 TCOD-F2B/B2F,在三个多轮 Agent 基准测试上评估了四个师生模型对:
    • 基准:ALFWorld (2020),WebShop (2022a) 和 ScienceWorld (2022)
    • 结论:TCOD 减轻了 KL 不稳定性,并通过将 Qwen3-1.7B 从接近零的成功率中恢复出来,并将较大的模型 (例如 Qwen2.5-7B) 的性能提升了高达 15.71 个成功率点,同时平均减少了 2.97 个行动轮次
  • 特别提到:
    • TCOD 不仅仅是模仿教师
      • 在教师 pass@10 采样失败的 ALFWorld 困难划分上,TCOD-B2F 的成功率比教师高出 14 个百分点,展示了超越教师自身能力边界的泛化能力
      • TCOD-F2B/B2F 对课程增长率具有鲁棒性,性能变化小于 2%,并且与 vanilla OPD 相比,总训练时间减少了高达 32%

Related Work 解读

LLM-based Multi-turn Agents

  • 多轮 Agent 的挑战:
    • 长期 Horizon 的信用分配 (2025)
    • 内存管理 (2026)
    • 稀疏奖励设定下强化学习的样本效率低下 (2025; 2026)

On-Policy Distillation and its Limitations

  • OPD 的改进包括目标设计 (2026; 2026)、优化启发式方法 (2026) 以及替代监督源 (2026; 2026)
  • 提高 OPD 训练稳定性和收敛性的方法:
    • 平衡前向和后向 KL 项 (2026; 2026)
    • 整合 RL 风格的启发式方法如奖励裁剪 (2026)
  • 注:这些方法主要针对单轮设定设计,并未直接解决多轮 Agent 环境的问题

Curriculum Learning

  • 课程学习 (Curriculum learning) (2009) 是一种训练策略,模型随着其能力的增长而逐渐接触更难的样本
  • 本文通过定义随轨迹深度增加而增加的难度来避免这两种情况,仅使用学生生成的数据,保持训练简单、on-policy 且更稳定

Preliminary

  • 本文考虑在有限 Horizon 内与环境交互的多轮自主 Agent
    • 令 \(t\in \{0,\ldots ,T - 1\}\) 表示轨迹内的轮次索引,其中 \(T\) 是最大交互步数
    • 在每个轮次 \(t\) ,Agent 接收一个观察 \(o_{t}\) ,生成一个 Response \(a_{t}\) ,然后环境返回下一个观察 \(o_{t + 1}\)
    • 每个 Response \(a_{t}\) 由一个思维链推理轨迹后跟一个可执行动作组成(遵循最近的 Agent 框架 (2025a))

History State for Multi-turn Agent

  • 由于环境通常是部分可观测的,将 Agent 状态定义为直到当前观察的完整交互历史:
    $$h_{t} = (o_{0},a_{0},o_{1},a_{1},\ldots ,o_{t - 1},a_{t - 1},o_{t}). \tag {1}$$
  • 一个完整的轨迹则为
    $$\tau = (h_{0},a_{0},h_{1},a_{1},\ldots ,h_{T - 1},a_{T - 1})$$
    • 当采取终止动作或达到 Horizon \(T\) 时终止

On-Policy Distillation for Multi-turn Agent

  • 给定一个教师策略 \(\pi_{\phi}\) 和一个学生策略 \(\pi_{\theta}\) ,on-policy 蒸馏的目标是在学生自身的状态分布下,使学生与教师对齐,目标是:
    $$\mathcal{L}_{\text{OPD} }(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta} }\left[\sum_{t = 0}^{T - 1}\mathcal{D}_{\text{KL} }(\pi_{\phi}(a_t\mid h_t)\parallel \pi_{\theta}(a_t\mid h_t))\right], \tag {2}$$
    • 问题:传统 OPD 中不应该是使用 下面的 Reverse KL 表达式吗?
      $$ \mathcal{L}_{\text{OPD} }(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta} }\left[\sum_{t = 0}^{T - 1}\mathcal{D}_{\text{KL} }(\color{red}{\pi_{\theta}(a_t\mid h_t)\parallel \pi_{\phi}(a_t\mid h_t)})\right] $$
      • 推测1:作者确实刻意使用了 Forward KL
      • 推测2:作者笔误了,不然无法解释后续方法的采样轨迹是 Student 采样的(On-Policy)收集数据
  • 其中 \(\mathcal{D}_{\text{KL} }(\pi_{\phi}\parallel \pi_{\theta})\) 是衡量教师策略 \(\pi_{\phi}\) 和学生策略 \(\pi_{\theta}\) 之间差异的 KL 散度:
    $$ \mathcal{D}_{\text{KL} }(\pi_{\phi}\parallel \pi_{\theta}) = \sum_{a_{t} }\pi_{\phi}(a_{t}\mid h_{t})\log \frac{\pi_{\phi}(a_{t}\mid h_{t})}{\pi_{\theta}(a_{t}\mid h_{t})}$$

TCOD: Temporal Curriculum On-Policy Distillation

  • 观察:OPD 在多轮 Agent 设定中的一个关键限制,称为 Trajectory-Level KL Instability
    • OPD 在长期交互中存在不稳定性,其中累积错误导致 KL 散度升级和性能下降
  • TCOD:时间课程策略,在训练过程中逐步控制轨迹深度,以提高多轮蒸馏的稳定性和有效性

Trajectory-Level KL Instability in Multi-Turn On-Policy Distillation

  • 在 ALFWorld 检查 OPD 在多轮设定下的行为
  • 系统地评估了跨越 Qwen3 和 Qwen2.5 模型家族的师生模型对,包括更大规模和领域适应的教师
    • 对于 Qwen3,使用 Qwen3-30B-A3B-Instruct 作为教师,Qwen3-{0.6, 1.7, 4}B 作为学生
    • 对于 Qwen2.5,采用一个 GRPO 训练的 Qwen2.5-7B 模型作为教师,Qwen2.5-{0.5, 1.5, 3, 7}B 作为学生
  • 图 2: ALFWorld 上不同师生对的轨迹级 KL 分析
    • (a)(b) 显示 KL 散度在整个训练过程中升级,任务完成率崩溃
      • 理解:(b) 中可以看到蓝色线一开始还能成功一些,训练到后期完全失败了
      • 问题:图 2(b)中的纵轴是成功率,而不是竖轴写着的 Rollout Env Done Mean?
    • (c) 显示 OPD 训练期间初始和收敛的 KL 散度之间存在巨大差距
    • (d) 揭示了根本原因:KL 散度随轮次索引增长,表明错误在轨迹上被复合放大
Observation 1: KL escalation and success rate collapse co-occur during training,KL 升级和成功率崩溃在训练过程中同时发生(理解:这个现象是在较小 Student 模型中观察到的)
  • 多轮与单轮场景的 KL 表现不同
    • 单轮设定 (如数学或问答) 中:KL 散度在整个训练过程中持续收敛和下降
    • 多轮 Agent 场景中:KL 散度随着训练步数的增加而升级
  • 如图 2a 和 2b 所示,当学生模型 (Qwen3-{0.6,1.7}B) 在强大的教师 (Qwen3-30B-A3B-Instruct) 下使用 vanilla OPD 进行训练时,轨迹级 KL 散度迅速升级,任务成功率崩溃到接近零
    • 理解:这个现象是在较小 Student 模型中观察到的
Observation 2: Although KL divergence converges, it suffers from a prohibitively high initial value
  • 在不同的学生模型上进行实验,观察到尽管它们的 KL 散度最终收敛,但开始时的值高得令人望而却步
    • 问题:Observation 1 中不是说 KL 会变大吗?怎么 Observation 2 又收敛了
    • 理解:Observation 1 中的这个现象是在较小 Student 模型中观察到的;Observation 的 Student 模型都偏大一些
  • 如图 2c 所示,在不同的师生对中 (从 Qwen3-30B-A3B-Instruct 蒸馏的 Qwen3-3B,以及从 GRPO 训练的 Qwen2.5-7B 模型蒸馏的 Qwen2.5-{3,7}B)
    • 初始 KL 散度 ( \(\sim 1000\) ) 通常比其收敛值 ( \(\sim 60\) ) 大几个数量级,表明在多轮 OPD 训练期间存在严重的不稳定性
    • 更多细节参见附录 B
补充 附录 B Additional Observation
  • 对于 Qwen3,使用 Qwen3-30B-A3B-Instruct 作为 Teacher,Qwen3-{0.6, 1.7, 4}B 作为学生

  • 对于 Qwen2.5,采用 GRPO 训练的 Qwen2.5-7B 模型作为 Teacher,Qwen2.5-{0.5, 1.5, 3, 7}B 作为学生

  • Observation 1: KL escalation and success rate collapse co-occur in small models (<3B)

    • 观察 1:小模型(<3B)中 KL 升级(KL escalation)和成功率崩溃(success rate collapse)同时发生
    • 在单轮设置中 KL 散度通常在训练过程中减少并稳定,在多轮 Agent 环境中观察到了根本不同的行为
    • 如图 7 所示,当使用 vanilla OPD 训练小型学生模型(Qwen3-0.6B, 1.7B 和 Qwen2.5-0.5B, 1.5B)时,轨迹级别的 KL 散度随着训练进程急剧增加
      • 这种升级伴随着成功率几乎降至零的同时崩溃
    • Response 长度在各轮次中稳步增长,表明误差复合和越来越偏离分布的轨迹
      • 这些结果表明,在多轮设置中,小模型无法在其自身的 Rollout 分布下保持与 Teacher 的对齐,导致训练动态不稳定和无效的监督信号
  • 图 7:跨教师-学生对的 KL 升级(KL Escalation)和成功率(注:学生模型小于 3B)

    • 在 ALFWorld 上使用 vanilla OPD 评估 Qwen3-{0.6B, 1.7B}(教师:Qwen3-30B-AB3-Instruc)和 Qwen2.5-{0.5B, 1.5B}(教师:Qwen2.5-7B-RL)
  • Observation 2: Teacher–student matching matters; stronger teachers are not always better

    • 观察 2:教师-学生匹配很重要;更强的 Teacher 并不总是更好
    • 图 8 中进一步研究了教师-学生配对的影响
      • 对于 3B 学生,在强 30B Teacher 和 7B RL Teacher 下训练会导致类似的结果:
        • KL 散度稳定下降,成功率以相当的速率提高,表明将 Teacher 强度增加到某点以上并不会带来额外的好处
      • 当学生容量与 Teacher 更匹配时(7B 学生与 7B RL Teacher),KL 散度收敛显著更快,成功率上升更迅速,优于两种 3B 学生设置
        • 这表明适当的师生容量匹配比绝对的 Teacher 强度更关键;过强的 Teacher 不一定能提高,甚至可能限制多轮设置中的蒸馏效率
  • 图 8:跨教师-学生对的 Horizon 诱导的 KL 升级(Horizon-Induced KL Escalation),注:学生模型大于等于 3B

    • 在 ALFWorld 上使用 vanilla OPD 评估 Qwen2.5-{3B, 7B}(教师:Qwen3-30B-AB3-Instruct, Qwen2.5-7B-RL)
The underlying mechanism: Compounding error amplification over the trajectory
  • 直接将 OPD 应用于 Agent 为何会导致这种 KL 升级和训练不稳定性?
    • 图 2d 可视化了从 GRPO 训练的 Qwen2.5-7B 和 Qwen3-30B-A3B-Instruct 蒸馏 Qwen2.5-3B 时每一轮的 KL 散度,并观察到随着轮次索引持续增加
    • 无论增加的 KL 散度是反映了学生模仿教师能力的不足,还是学生进入教师变得不确定的分布外状态的结果,根本问题都是一样的:跨轮次的错误累积
  • 这是长期 Horizon 多轮 Agent 的一个固有属性:
    • 学生生成的动作和观察被附加到历史 \(h_t\) 中,导致跨轮次的因果耦合,并导致 KL 散度上升的趋势
      • 理解:当学生分布和教师分布差异较大时,学生生成的轨迹长度越长,教师模型能作为参考的能力越弱(因为教师自身不可能生成这种轨迹)
        • 注:毕竟教师模型训练目标是生成优质的轨迹,并不是修正学生模型的任意长度错误轨迹
  • 基本观察:
    • 对于小型学生来说,这是灾难性的
    • 对于较大的学生,它被部分容忍但仍然非常低效
    • 注:这也和上面的理解差不多一致
Remark 1
  • Long-CoT 增加了在相同环境状态下的 Response 长度
    • 多轮 Agent 通过在每个交互中整合新的观察和动作来更新环境状态,从而在轨迹上放大复合错误
    • 理解:多轮 Agent 难度可能是更高的,因为多轮 Agent 中不同模型输出得到的环境反馈可能是完全不同的,这可能更容易导致教师模型从未见过类似的状态
  • 上述观察和分析提出了一个挑战:作者如何才能保留 OPD 密集信号的益处,同时避免长期交互中累积错误导致的不稳定?
    • 为了解决这个问题,转向课程学习,其中模型首先在简单问题上训练,然后逐步接触难题

Our Proposal: Temporal Curriculum On-Policy Distillation

  • 基于前一部分的观察和见解,TCOD,这是一种原则性的方法,在训练过程中控制 Agent 交互的轨迹深度
  • 具体来说,引入了两个变体:TCOD-F2B 和 TCOD-B2F,它们分别在前向和后向课程中明确施加步数约束
  • 图 3:
    • TCOD-F2B/B2F 概览
      • vanilla on-policy 蒸馏与 TCOD 的比较
    • 左图是 OPD,中图是 TCOD-F2B 的图示,右图是 TCOD-B2F
      • \(k\) 是控制轨迹长度的线性步调
    • 蓝色步骤由学生执行,红色步骤由教师执行且梯度停止
Forward-to-Backward Induced Temporal Curriculum On-Policy Distillation (TCOD-F2B)
  • 通过在训练过程中限制轨迹的最大交互步数来实现一种“浅到深”的课程
  • 如图 3 (中) 所示,在 TCOD-F2B 中,学生策略 \(\pi_{\theta}\) 最多 Rollout \(k\) 步来完成任务,其中 \(k\) 从一个较小的数字开始,逐步增加到一个较大的数字,目标如下:
    $$\mathcal{L}_{T C O D - F2B}(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta} }\left[\sum_{t = 0}^{k - 1}\mathcal{D}_{K L}\left(\pi_{\phi}(a_{t}|h_{t})\parallel \pi_{\theta}(a_{t}|h_{t})\right)\right], \tag {3}$$
  • 其中学生首先专注于早期轮次的学习信号,然后逐步端到端地完成任务,从而减轻复合错误并防止 Horizon 引起的 KL 崩溃
    • 但确定最佳的步长大小和起点是具有挑战性的,因为不同的环境和模型表现出不同的推理能力,为了解决这个问题,采用跨训练步骤的线性步调:
      $$k = k_{\text{start} } + \lfloor n / \eta \rfloor ,n\in 1,\ldots ,N, \tag {4}$$
      • \(n\) 表示当前训练步数 Global Step
      • \(N\) 是总训练步数(总计 Step)
      • \(k_{\text{start} }\) 定义初始交互步数
      • \(\eta\) 控制课程增长率
  • 这种方法只需要很少的代码更改,整个算法如下:
  • 此外,为了更好地利用教师模型,提出了 TCOD-B2F,它利用教师来避免早期轮次的错误累积
Backward-to-Forward Induced Temporal Curriculum On-Policy Distillation(TCOD-B2F)
  • 在这个变体中,教师策略 \(\pi_{\phi}\) 充当一个“导航器(Navigator)”
  • 通过执行使用教师策略 \(\pi_{\phi}\) 预先收集的成功轨迹 \(\tau^{*}\) 的初始前缀 ,将环境初始化到一个中间状态,并让 Agent 从这个状态开始交互
  • 如图 3 所示,教师在其成功轨迹 \(\tau^{*}\) 中执行前 \(L - k\) 步,之后学生策略 \(\pi_{\theta}\) 从这个即时状态接手继续规划和执行,目标如下:
    $$\mathcal{L}_{\text{TCOD_B2F} }(\theta) = \mathbb{E}_{\tau \sim (\pi_{\phi},\pi_{\theta})}\left[\sum_{t = L - k + 1}^{T - 1}\mathcal{D}_{KL}\left(\pi_{\phi}(a_t|h_t)\parallel \pi_{\theta}(a_t|h_t)\right)\right], \tag {5}$$
    • \(L\) 表示给定任务的成功轨迹 \(\tau^{*}\) 的长度
    • \(k\) 如公式 4 定义,在整个训练过程中单调扩展,直到学生端到端地完成任务
    • 这种实现同样轻量级,只需要一个简单的预热循环,如下所示
  • 注意:在 TCOD-B2F 中使用的是 Teacher 能够成功的轨迹作为候选轨迹
    • 问题:如果是确定性环境的话,在 Algorithm2 的第 7 行是不是不需要从头执行一遍了,直接截断教师轨迹中的前半部分就可以作为初始轨迹状态,直接进入学生轨迹收集吧
  • 这种机制通过确保学生仅在由教师验证的成功前缀发起的轨迹上进行优化,有效地绕过了复合动作错误
    • 至关重要的是,轨迹中的教师步骤不贡献梯度,仅用于将学生置于“成功的门槛上”
    • 详细算法见附录 C
Discussion of the train-test mismatch in TCOD-B2F
  • 在训练期间,学生从一个由教师导航的检查点开始,而在测试时,它必须从头开始端到端地行动
  • 本文逐步将教师前缀从 \(L - 1\) 步减少到零,确保在训练结束时,学生从初始状态执行完整的轨迹,无需教师干预,从而使训练和测试分布完全对齐
  • 如附录 D.5 所示,测试集上的端到端成功率随训练步数稳步增加,确认了平滑的课程转换在实践中有效地防止了灾难性的分布偏移
  • 注:增加讨论:
    • TCOD-B2F 会引发不是 On-policy 的数据吗?答案是不会,因为前面由教师得到的轨迹不参与更新策略 \(\pi_\theta\),相当于是固定的某个 Prompt
补充 附录 C:Algorithm for TCOD-F2B/B2F
  • 算法 3 和算法 4 分别展示了 TCOD-F2B 和 TCOD-B2F 的完整训练过程,集成了第 4.2 节中描述的课程进度策略和实现细节
    • 吐槽:算法 3 和 算法 1 一模一样;算法 4 和算法 2 一模一样
  • 在 TCOD-F2B(算法 3)中,学生策略 \(\pi_{\theta}\) 在每次训练迭代中 Rollout 轨迹 \(k\) 步,其中 \(k\) 根据方程 4 中的线性进度计划逐步扩展
    • 通过将蒸馏信号集中在训练初期的早期轮次状态,并逐步扩展 Horizon,学生在暴露于完整轨迹之前建立了坚实的基础,有效地减轻了复合误差并防止了 KL 崩溃
  • 在 TCOD-B2F(算法 4)中,教师策略 \(\pi_{\phi}\) 首先从预先收集的成功轨迹 \(\tau^{*}\) 中重放初始的 \(L - k\) 步而不贡献梯度,将学生置于一个经过核验的检查点状态
    • 然后学生接管剩余的 \(k\) 步,学习从随着 \(k\) 增加而越来越早的起点完成任务
    • 到训练结束时,教师前缀被完全消除(\(k = L\)),确保学生端到端地执行完整轨迹,并完全弥合训练-测试分布差距

Asynchronous Training Details for Stability,异步训练细节 For 稳定性

  • TCOD 核心框架在概念上很简单,但几个实际的设计选择会显著影响现实部署中的训练稳定性和效率
    • 所有实验均在 \(8 \times\) NVIDIA H20 (96GB) GPU 上进行
  • 关键实现策略:
    • Asynchronous Rollout and Training,异步 Rollout 和训练
      • 为了最大化 GPU 利用率,作将轨迹收集和模型优化解耦到独立的异步进程中
      • 使用一个 Actor 进程池进行 Rollout 以持续采样轨迹,而一个中心 Learner 进程进行训练,使用共享缓冲区中的这些轨迹并执行梯度更新
      • 使用无锁环形缓冲区来最小化同步开销
      • 在的实验中
        • 分配 4 个 H20 GPU 给 Actor,2 个 H20 GPU 给 Learner,剩余的 2 个 H20 GPU 用于教师
      • 问题:此时不需要使用使用重要性采样修正吗?
        • 本文似乎使用强制 Staleness 为 2 左右来实现近似 On-policy,但是如果要严格坚持 On-Policy 的定义,本文实际上是一个 近似 On-Policy 或 Near On-Policy 的方法,不算是纯粹的 On-policy,可能会留下其他坑?(总之数学目标已经发生了改变)
    • Staleness-Aware Sub-trajectory Experience Replay,具有陈旧性感知的子轨迹经验回放
      • 为了在多轮环境中最大化样本效率,将每个完整轨迹分解为一组递归子轨迹
        • 具体做法:对于一个长度为 \(n\) 的轨迹,将每个前缀序列 \(\tau_{1:t} = (s_0, a_0, \ldots , s_t)\) 作为独立的经验条目存储在回放缓冲区中
          • 其中 \(t \in \{1, \ldots , n\}\)
      • 为了防止输入上下文超过模型的有效内存限制从而导致训练不稳定,将交互历史封装在 Prompt 中作为结构化上下文
        • 所以:每批生成的 Rollout 数量是动态的,取决于收集到的轨迹的不同长度
      • 在的异步设置中,每个轨迹都标记有用于收集的策略 \(\pi_{\theta_n}\) 的版本号 \(n\)
        • 本文实现了一个陈旧性过滤器,丢弃任何满足 \(n_{\text{current} } - n_{\text{old} } > \Delta_{\text{max} }\) 的经验
        • 经验发现: \(\Delta_{\text{max} } = 2\) 在样本效率和 on-policy 约束的严格性之间提供了最佳平衡

Experiments

  • Q1: 与 vanilla OPD 相比,TCOD 如何缓解 KL escalation 并恢复小型学生模型的性能,以及如何增强较大学生模型的训练稳定性和性能?
  • Q2: TCOD 能否使学生模型有效地泛化到超出教师自身能力边界的任务?
  • Q3: TCOD 对课程的增长率的敏感性如何,并且在训练效率方面与 vanilla OPD 相比如何?

Experimental Setup

Benchmarks
  • 在三个基准上进行实验
    • 具身导航环境 ALFWorld (2020)
    • 电子商务平台 WebShop (2022a)
    • 科学推理 ScienceWorld (2022)
  • 如表 1 所示,涵盖了从简单到复杂的推理能力谱系
  • Max turns 表示每个任务的最大探索步数
    • 对于 ALFWorld,在 seen 和 unseen 划分上都进行了评估,其中 unseen 划分包含训练期间未遇到的新颖房间布局和物体组合,作为本文的 OOD 评估
    • 额外构建了一个 Hard 集合,包含教师模型在训练集上 pass@10 采样下失败的任务,以测试 TCOD 是否能泛化到超出教师自身能力边界的情况
    • 更多基准细节请参考附录 D.1
Training Details
  • 对于 ALFWorld 上的主要实验,使用 Qwen2.5-3B 和 Qwen2.5-7B 作为学生模型,并使用通过在 ALFWorld 领域上通过 GRPO 微调的 Qwen2.5-7B 作为教师模型
  • 对于跨基准评估,采用 Qwen3-1.7B 和 Qwen3-4B 作为学生模型,使用 Qwen3-30B-A3B-Instruct 作为教师模型
  • 所有实验均在 \(8 \times\) NVIDIA H20 GPU 上进行
  • 基于 Reinforcement Fine-Tuning 框架 Trinity-RFT (2025) 实现了 TCOD
  • 对于 TCOD-B2F 初始化所需的专家轨迹收集,采用教师模型的 pass@10 采样策略,仅保留成功的轨迹
  • 为简单起见,固定 \(k_{\text{start} } = 1\) 和 \(\eta = 2\),并在第 5.4 节中检查了来自 \(\{2, 4, 6\}\) 的不同 \(\eta\) 的影响
  • 对于基线,报告零样本学生作为经验下限,教师策略作为理论上限 (Oracle)
  • 其他:将 TCOD 与标准的知识迁移范式进行比较,包括 SFT 和 vanilla on-policy distillation (OPD)
    • 对于评估,使用成功率 (SR) 测试所有基准,该指标衡量成功完成任务的比例,其中任务完成被视为二元结果
    • 更多细节见附录 D

Q1:Alleviating KL Escalation and Improving Performance,缓解 KL 升级并提升性能

  • 表 2 展示了 TCOD 在 ALFWorld 上使用学生模型 (Qwen2.5-3B, Qwen2.5-7B) 和 GRPO 训练的 Qwen2.5-7B 教师模型的结果,报告了成功率 (SR) 和平均动作步数
    • TCOD-F2B 和 B2F 在模型规模上显著优于 vanilla OPD 和 SFT
    • TCOD 将平均动作步数减少了 2.97 步,同时与 OPD 相比将 SR 提高了多达 15.71
      • 这表明基于轨迹的教师课程学习带来了更好的性能
    • 图 4a、4b 和 5b 进一步显示,与 vanilla OPD 相比,TCOD 在成功率和优势上实现了更快的收敛,同时保持了更稳定的 KL 散度
  • 理解:图 5(b) 中 advantages 是负的
    • 一般来说在 OPD 场景下,采样是通过学生采的,所以教师的概率均值是低于学生的,这一点详情见 NLP——LLM对齐微调-Revisiting-OPD,所以 Advantage 作为 \(\pi_\text{teacher} - pi_\text{student}\) 应该是小于 0 的
      • 注:这里的 Advantage 一般来说都是负的,与本文的 Forward KL 错误书写没关系
        • 如果真是 Forward KL,那么收集数据一定是 Teacher,此时 Advantage 是负的 KL 散度估计,也就是 \(\pi_\text{student} - pi_\text{teacher}\) ,此时这也应该小于 0 才对(采样策略肯定更倾向于自己概率高的 Token)
        • 因为收集数据是 Student,就决定了不可能是 Forward KL 了
      • 思考:正因为 OPD 的 Advantages 均值倾向于小于 0,所以 Student 的熵一般不会降低,甚至会上涨(许多高概率 Token 降低自身概率带来的是熵增),少数 Token 会被提升概率,带来熵减
        • 熵增现象详情见 NLP——LLM对齐微调-Revisiting-OPD 图 8 图 9 和 NLP——LLM对齐微调-Rethinking-OPD 的 图 12
Different Benchmarks and Model Sizes
  • 表 3 使用学生模型 Qwen3-1.7B 和 Qwen3-4B 以及教师模型 Qwen3-30B-A3B-Instruct,在三个基准上评估了 TCOD
    • TCOD-F2B 和 TCOD-B2F 取得了与 vanilla OPD 相当的性能
  • 如图 4c 和 4d 所示
    • 在 \(\eta = \{3,6\}\) 两种设置下,TCOD-F2B 在整个训练过程中都保持了稳定的 KL,并实现了持续增长的成功率,有效地缓解了 KL 升级并将平均成功率提高了 18.67
  • 图 5c 和 5d 展示了额外的训练指标,其中 TCOD 能够从 Response 长度的爆炸中恢复,同时策略梯度损失平滑下降

Q2:Generalizing Beyond the Teacher‘s Capability Boundary,泛化超出教师能力边界

  • 除了 TCOD 带来的性能提升和 KL 稳定性之外,本文进一步研究 TCOD 是否能够使学生模型超越教师本身
  • 表 2 报告了在 unseen 环境划分和 hard 划分上的性能
    • hard 划分包含来自 ALFWorld 的 121 个具有挑战性的任务,教师在这些任务上表现不佳
    • 在 unseen 划分上,TCOD 已经以高达 2.5 个百分点的 SR 超过了教师
    • 在 Train Hard 划分上,TCOD-B2F 和 TCOD-F2B 都显著超过了教师 6.61 的 SR,其中 TCOD-B2F 取得了高达 14 个百分点的增益
    • 这表明 TCOD 不仅仅是模仿教师,而是发展了一个更鲁棒的策略,能够泛化到超出教师能力边界之外
  • 注意:本文的结论不太 Solid,这个能力不一定是 TCOD 带来的,因为 Vanilla OPD 也在 Hard 熵表现出了超越教师的能力(如表 2 所示),说明 OPD 本身就已经拥有了超过教师的潜力了
    • 理解:这个可能和学生本身在特定场景针对自身策略采样和修正有关
    • 而且 表 3 中并没有看到学生模型超过教师模型

Q3:Robustness, Sensitivity, and Efficiency Analysis of TCOD,鲁棒性、敏感性和效率分析

Curriculum’s Growth Rate \(\eta\) Ablation
  • 表 3 报告了在不同基准上改变课程增长率 \(\eta \in \{2,4,6\}\) 的效果
    • 在所有设置中,性能始终强于 vanilla OPD,成功率变化小于 \(2%\),这表明 TCOD-F2B/B2F 对 \(\eta\) 的具体选择不敏感
      • 这种鲁棒性使得 TCOD 在实践中易于部署,无需 extensive 的超参数调整
    • 如图 4d 所示,较大的 \(\eta\) 会在训练期间带来更稳定的 KL 散度 ,因为学生在课程推进到更长 Horizon 之前会花费更多的迭代来掌握当前的轨迹深度
      • 在实践中,建议从一个较小的 \(\eta\) 开始,让课程在早期阶段快速推进,如果在训练期间观察到 KL 散度不稳定,则增加 \(\eta\)
Domain-Specific vs. Larger Teacher
  • 比较表 2 和表 3 可发现:教师质量强烈影响 TCOD 的上限
    • 在表 2 中,教师是在 ALFWorld 上经过 GRPO 调优的 Qwen2.5-7B,达到了 \(85.71%\) 的成功率
      • 在这种设置下,使用相同 7B 骨干网络的 TCOD-B2F 甚至以 0.7 个百分点略微超过了教师
    • 在表 3 中,教师是 Qwen3-30B-A3B-Instruct,一个在目标领域上性能较弱的通用模型
      • 在这种情况下,vanilla OPD 和 TCOD 都无法超过教师,大约有 2 个百分点的差距
    • 这表明教师模型在目标任务上的性能比单纯的模型规模更重要,能够使学生模型得到提升
TCOD is computationally efficient,TCOD 计算效率高
  • 图 6 比较了 TCOD 和 vanilla OPD 在 ALFWorld 和 ScienceWorld 上的总训练成本
  • 在两个基准上,与 vanilla OPD 相比,TCOD-F2B 和 TCOD-B2F 将总训练时间减少了近 \(32%\)
  • 这一增益来自于 TCOD 中基于步数的课程:
    • 在训练早期,学生模型采取更少的步数,生成更短的轨迹并加快数据收集速度
    • TCOD-F2B 比 TCOD-B2F 更高效
    • 因为 TCOD-F2B 将最大交互步数限制为 \(k\),而 TCOD-B2F 尽管从中间状态开始,但仍然会导致学生模型采取额外的探索性动作,从而产生更长的轨迹
    • 图 5a 进一步验证了 TCOD-F2B 使用的 Rollout 动作步数比 TCOD-B2F 少,并且两者所需的步数都比 vanilla OPD 少

附录 A:Limitations and Future Work

  • TCOD-B2F 依赖于预先收集的成功 Teacher 轨迹,这可能需要额外的轨迹收集开销
    • 在这种情况下,前向到后向的变体(TCOD-F2B)提供了一个无需演示的即插即用替代方案
  • 本文在经验上观察到 TCOD 的固定课程计划在本文三个基准和模型规模上都是稳健的,但最佳进度可能随不同环境或学生-教师对而变化
    • 一种基于学生学习进度(例如通过 KL 散度的指数移动平均)自动调整 Horizon 的自适应机制可以进一步提高通用性
      • 作者认为这是未来研究的一个有前景的方向
  • 本文的评估侧重于三个基于文本的多轮基准
    • 将 TCOD 扩展到多模态或物理具身环境是评估其通用性的重要下一步

附录 B:额外观察 (Additional Observation)

  • 前文第 4.1 节已经补充

附录 C:Algorithm for TCOD-F2B/B2F

  • 前文第 4.2 节 已经补充

附录 D:Experiment Details

D.1 Benchmark Environments

  • ALFWorld (2020) 是一个基于文本的具身环境,需要跨六类家庭任务进行导航和物体操作
    • ALFWorld 提供了可见(seen)和未见(unseen)分区:
      • 可见分区测试在训练期间存在的环境中的性能
      • 未见分区要求 Agent 在新的房间布局和物体组合中操作,作为本文的 OOD 评估
    • 对于 ALFWorld,本文进一步构建了一个包含 121 个挑战性任务的困难集(Hard set),在这些任务中,Teacher 在训练集上的 pass@10 采样下失败
      • 这个集合作为一个更具挑战性的 OOD 评估,用于测试 TCOD 是否能够泛化超越 Teacher 自身的能力边界
  • WebShop (2022a) 是一个基于网络的环境,要求 Agent 在模拟的电子商务平台上,通过多轮交互搜索并选择与给定用户指令匹配的产品
  • ScienceWorld (2022) 是一个基于文本的环境,测试跨 30 种与基础科学课程一致的任务类型的科学推理能力
    • Agent 根据任务完成情况,在每项任务结束时获得 0 到 100 之间的分数

D.2 Baselines

  • 为严格评估 TCOD 的有效性,本文针对以下范式进行基准测试,为学生模型建立清晰的性能边界:
  • Teacher (Upper Bound):
    • 专家策略(\(\pi_{\theta}\))的性能直接在环境中进行评估
    • 在标准蒸馏中,这代表了理论上的上限,因为主要目标是在更小的学生模型中恢复这种能力
    • 本文在训练困难集(Train Hard split)(第 5.3 节)上的评估调查了 TCOD 是否甚至能泛化超越这个上限
  • Zero-Shot Student (Lower Bound):
    • 基础学生模型(\(\pi_{\theta}\))直接在交互式任务上进行评估,没有任何特定任务的微调或蒸馏
    • 这是学生模型在 Agentic 环境中推理能力的绝对起点
  • SFT
    • 基本的模仿学习基线
    • 学生模型通过标准的负对数似然(NLL)损失在预先从 Teacher 收集的成功轨迹(\(\tau^{*}\))上进行 2 个 Epoch 的微调,存在多轮设置中众所周知的暴露偏差(exposure bias)问题
  • Vanilla On-Policy Distillation(OPD)
    • 近期 OPD 方法的标准多轮适应
    • 学生在自己生成的完整轨迹(完整 Rollout)上,被训练以最小化其分布与 Teacher 分布在 Token 级别的 KL 散度,没有任何 Horizon 约束或时间课程
    • 这作为直接基线,以展示轨迹级别的 KL 不稳定性(Trajectory-Level KL Instability)

D.3 Training Hyperparameters

  • 三个基于文本的交互式环境:ALFWorld、ScienceWorld 和 WebShop 上进行训练,训练配置总结在表 4 中

D.4 Evaluation Hyperparameters

  • 在三个测试集上评估模型性能:test_unseen、test 和 train_hard(仅 ALFWorld)
  • 所有环境的评估超参数一致,如表 5 所示

D.5 More experiments results

  • TCOD-B2F 的详细成功率
    • 如图 9 和图 10 所示,TCOD-B2F 表现出特有的非单调训练动态
    • Rollout 成功率最初很高,因为训练从短 Horizon 开始,然后随着课程扩展到更长的轨迹而下降,最后随着学生适应增加的难度而恢复(图 9 右侧图)
      • 在 valid seen 分区中也观察到类似的模式,成功率在训练中期也会下降然后再改善(图 10 右侧图)
      • 在 valid unseen 和训练困难(train hard)分区在整个训练过程中保持相对稳定,没有明显的下降(图 10 左、中图)
    • 这表明中间的性能下降不是由于过拟合或不稳定,而是反映了受控的课程过渡
      • 这些结果表明 TCOD-B2F 在 Horizon 扩展时引入了暂时的难度,但保持了稳定的泛化能力,同时最终提高了性能,验证了渐进式 Horizon 扩展的有效性
  • 图 9:TCOD-B2F(\(\eta = 2\))的训练动态,包括 KL 散度、学生动作 Horizon 和成功率
    • 在 ALFWorld 上,从 GRPO 训练的 Qwen2.5-7B Teacher 蒸馏 Qwen2.5-7B 学生
  • 图 10:TCOD-B2F(\(\eta = 2\))的成功率,包括训练困难(左)、valid unseen(中)和valid seen(右)
    • 在 ALFWorld 上,从 GRPO 训练的 Qwen2.5-7B Teacher 蒸馏 Qwen2.5-7B 学生

附录 E:Environment Prompts

  • 详情见原论文

NLP——技术报告解读-DeepSeek-V4

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(DeepSeek-V4 Technical Report)DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence, 20260424, DeepSeek-AI

整体总结

  • 核心卖点:DeepSeek-V4 系列 实现了 1M Token 上下文 的高效支持 ,主要技术为:
    • 混合压缩注意力(CSA/HCA)
    • 流形约束超连接(mHC)
    • Muon优化器
    • 大量工程优化
  • DeepSeek-V4 流程梳理:
    • Pre-Trianing(Student 起点) -> Post-Training(训练各个 Teacher,包含 SFT 和 RL)-> OPD
      • Pre-Training (32T/33T tokens, 4K→1M context)
      • Post-Training: Specialist Training (Base -> Domain SFT -> Domain RL for Math/Code/Agent/Writing/White-Collar, plus SFT-only for Search)
        • 注意:跟 MiMo-V2-Flash 技术报告一样,这里针对 Search Agent 场景,仅使用了 SFT-only 训练,没有走 RL 过程
      • On-Policy Distillation (OPD, multi-teacher reverse KL distillation into unified student model)
  • V4-Pro-Max 在知识、推理、长上下文、Agent 等任务上全面超越现有开源模型 ,并显著缩小了与闭源前沿模型的差距
  • V4-Flash 以更少激活参数达到接近的推理能力,极具成本效益
  • 核心宣传点:打破超长上下文(1M Token 级别)处理中的效率瓶颈,实现高效推理与训练,并有利于测试时扩展和 long-horizon 任务提效
  • 本次开源两版模型
    • DeepSeek-V4-Pro :1.6T-A49B
    • DeepSeek-V4-Flash :284B-A13B
    • 两者均支持 1M Token 上下文 ,并在长上下文中大幅降低计算和显存开销

架构创新

  • 继承 DeepSeek-V3 的 DeepSeekMoE 和 MTP
  • 引入三项关键改进:
    • mHC
    • 混合注意力机制(CSA + HCA)
    • Muon 优化器
Manifold-Constrained Hyper-Connections (mHC)
  • 出自之前 DeepSeek 发的文章
  • 增强残差连接,通过将映射矩阵约束为双随机矩阵(Birkhoff 多面体),使谱范数 ≤1,提升信号传播稳定性
  • 动态生成输入、残差、输出映射,并用 Sinkhorn-Knopp 算法实现双随机约束
混合注意力机制(CSA + HCA)
  • 为应对超长上下文,设计了两种高效注意力架构:Compressed Sparse Attention(CSA)和 Heavily Compressed Attention (HCA)
Compressed Sparse Attention (CSA)
  • 将每 m 个 Token 压缩为一个KV条目(压缩率 m=4)
  • 使用轻量索引器(Lightning Indexer)选择 top-k 压缩KV条目
  • 多查询注意力(MQA)+ 分组输出投影
  • 结合滑动窗口注意力(窗口大小 128)增强局部依赖
Heavily Compressed Attention (HCA)
  • 更大压缩率(m’=128),无稀疏选择
  • 同样采用 MQA 和分组投影
其他实现细节
  • 查询/KV 归一化(RMSNorm)
  • Partial RoPE 位置编码(仅后 64 维)
  • Attention Sink 机制(可学习 logits)调整注意力总和
  • 滑动窗口分支保证因果性和局部性
  • sigmoid 激活改为 sqrt softplus 激活(Sqrt(Softplus(·))) 激活
    • sqrt softplus 的值域范围更广,但实测 loss 效果有限
Muon优化器
  • 替代大部分模块的 AdamW,提供更快收敛和更稳定训练
  • 使用混合 Newton-Schulz 迭代进行正交化
  • 嵌入层、预测头、RMSNorm 等仍保留 AdamW

工程与基础设施优化

专家并行(EP)中的细粒度通信-计算重叠
  • 将专家划分为“波”(waves),实现通信与计算流水化
  • 可容忍更低互联带宽,提升推理和 RL rollout 效率
  • 开源 MegaMoE 内核(基于 CUDA)
TileLang DSL 加速内核开发
  • 支持主机代码生成(Host Codegen),降低调用开销
  • 集成 Z3 SMT 求解器进行整数分析,优化向量化、内存访问等
  • 支持确定性、批无关(batch-invariant)和可重现的数值计算
FP4量化感知训练(QAT)
  • 对 MoE 专家权重和 CSA 索引器的 QK 路径进行 FP4 量化
  • 前向:FP4 -> FP8(无损),反向:STE 更新 FP32 主权重
    • 注:STE 是 Straight-Through Estimator 的缩写,中文常译为直通估计器
    • 量化存在的问题:量化过程通常包含一个不可微分的操作,例如四舍五入、取整、截断等
    • STE 的做法:在前向传播中使用真实的量化函数(不可微),但在反向传播时,假装这个函数是恒等映射或简单的阶梯函数,直接将梯度“直通”过去
  • 推理和 RL rollout 中直接使用 FP4 权重,减少显存和加速

训练框架增强

  • Muon + ZeRO混合策略 :对稠密参数限制 ZeRO 并行度,对 MoE 专家独立优化
  • mHC优化 :重计算 + 融合 kernel + 流水线调度,额外开销仅 6.7%
  • 上下文并行(CP) :两阶段通信处理压缩 KV 的跨 rank 边界
  • 张量级激活重计算 :基于 TorchFX 的细粒度控制,减少显存

推理框架

  • 异构 KV 缓存管理 :区分 CSA/HCA 压缩 KV、SWA 状态缓存、未压缩尾部 Token
  • 磁盘 KV 缓存 :支持共享前缀复用,针对 SWA 实现三种缓存策略(全缓存、周期检查点、无缓存)

Pre-training

Pre-Training 数据与策略
  • 训练数据 >32T Token ,涵盖网页、数学、代码、长文档、多语言等
  • 采用 Token 切分、填充中间(FIM)、样本级注意力掩码
  • 序列长度从 4K 逐步扩展至 1M;先用密集注意力 warmup,后引入稀疏注意力
模型配置
  • 两版模型参数详情:
    参数 V4-Flash V4-Pro
    层数 43 61
    隐藏维度 4096 7168
    CSA压缩率 m 4 4
    HCA压缩率 m’ 128 128
    激活专家数 6 6
    总/激活参数 284B / 13B 1.6T / 49B
训练稳定性
  • Anticipatory Routing :使用历史参数计算路由索引 ,打破路由与主干网络的同步更新,避免 loss 尖峰
  • SwiGLU Clamping :将线性部分限制在 [-10, 10],门控部分上限为 10,消除异常值
预训练结果
  • V4-Flash-Base :参数远少于 V3.2-Base,但在多数基准上超越后者,尤其在长上下文和知识任务
  • V4-Pro-Base :全面超越 V3.2-Base 和 V4-Flash-Base,成为 DeepSeek 系列最强基础模型

Post-Training

两阶段流程
  • 阶段 1)专家训练(Specialist Training) :
    • 对数学、代码、Agent、指令跟随等域分别进行 SFT + RL(GRPO)
    • 支持三种推理模式:Non-think、Think High、Think Max(最大推理 Effort )
    • 引入生成式奖励模型(GRM)替代标量奖励模型
    • 新增工具调用 schema(XML 格式)和 <think> 标签
  • 阶段 2)同策略蒸馏(On-Policy Distillation, OPD) :
    • 多个教师模型(> 10个专家)蒸馏为一个统一学生模型
    • 使用全词汇 KL 散度而非 Token 级估计,提高稳定性
    • 教师模型权重存储在分布式存储,按需加载,减少显存

工程支持

  • FP4 量化加速 Rollout 和推理
  • 全词汇 OPD:缓存教师最后一层 Hidden State,动态计算 logits
  • 可抢占、容错的 rollout 服务( Token 级 WAL)
  • 百万 Token RL 优化:轻量元数据 + 共享内存数据加载
  • DSec 沙箱平台 :支持函数、容器、microVM、fullVM 四种执行环境,用于 Agent 训练和评估

评估结果(部分内容)

知识
  • V4-Pro-Max 在 SimpleQA、Chinese-SimpleQA 上大幅领先所有开源模型,但仍落后于 Gemini-3.1-Pro
  • MMLU-Pro、GPQA、HLE 等教育与推理任务上,V4-Pro-Max 略优于 Kimi、GLM,但落后于闭源前沿模型
推理
  • V4-Pro-Max 在推理基准上优于 GPT-5.2 和 Gemini-3.0-Pro,但略逊于 GPT-5.4 和 Gemini-3.1-Pro(约落后 3~6 个月)
  • V4-Flash-Max 在更大思考预算下可达类似推理性能,成本更低
长上下文(1M Token )
  • V4-Pro 在 MRCR 任务上优于 Gemini-3.1-Pro,接近 Claude Opus 4.6
  • 128K 以内检索性能稳定,1M 时仍显著强于竞品
Agent 能力
  • 在Terminal Bench、SWE-Verified 等基准上,V4-Pro-Max 与领先开源模型持平,略差于闭源模型
  • 内部评估中,V4-Pro-Max 超越 Claude Sonnet 4.5,接近 Opus 4.5
  • 研发编码任务(内部 30 道题):Pass rate 76%,接近 Opus 4.5(77%),优于 Sonnet 4.5(67%)
真实任务
  • 中文写作 :功能写作胜率 62.7% vs Gemini 34.1%;创意写作质量胜率 77.5%
  • 搜索 :Agentic Search 显著优于 RAG,成本略高
  • 白领任务(White-Collar Task)(分析/生成/编辑):V4-Pro-Max vs Opus-4.6-Max,non-loss rate 63%,任务完成度和内容质量领先
    • 理解:non-loss rate 是胜率+平收率,即模型不输给对手的比例

局限与未来方向

  • 架构复杂度高 :保留了较多验证过的技巧,未来希望简化
  • 训练稳定性机制 :Anticipatory Routing 和 SwiGLU Clamping 虽有效,但原理尚不清晰
  • 未来计划 :
    • 更稀疏的嵌入模块
    • 更低延迟的长上下文部署
    • 多模态能力
    • 更好的数据合成策略
    • 更深入的长时Agent任务研究

Post-Training(原文详解)

Post-Training Pipeline

  • 训练流程很大程度上与 DeepSeek-V3.2 相似,仅做了一个关键的范式替换:
    • 混合 RL 阶段完全被 On-Policy Distillation (OPD) 取代
Specialist Training
  • 调整 DeepSeek-V3.2 的训练流程开发 领域专家
    • 每个模型都通过初始微调阶段和后续由领域特定 prompts 和 reward 信号引导的 RL 进行顺序优化
    • 在 RL 阶段,实现了 Group Relative Policy Optimization (GRPO) 算法,保持与先前研究密切相关的超参数 (2024; 2025)
Reasoning Efforts
  • 众所周知:模型在推理任务上的表现从根本上受限于所投入的计算 Effort
  • 本文作者在不同的 RL 配置下训练了不同的专家模型,以促进针对不同推理能力优化的模型的开发
  • 如表 2 所示:
    • DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 都支持三种特定的推理 Effort 模式
    • 对于每种模式,在 RL 训练期间应用不同的长度惩罚和上下文窗口,使得不同模式在推理时输出 Token 长度不同
    • 利用由 <think> 和 </think> Token 分隔的专用响应格式(整合不同的推理 Effort 模式)
  • 对于 “Think Max” 模式,在系统提示的开头添加一个特定的指令来引导模型的推理过程,如表 3 所示
  • Reasoning Efforts 理解:
    • Non-think :</think> summary
      • 即输入 [Query]</think> ,然后让模型续写
    • Think High :<think> thinking tokens </think> summary
      • 即输入 [Query]<think> ,然后让模型续写,模型会自动完成 Thinking 过程
    • Think Max :[special system prompt] + <think> thinking tokens </think> summary
      • 即输入 [special system prompt][Query]<think> ,然后让模型续写,模型会自动完成 Thinking 过程
  • Table 3 | Instruction injected into the system prompt for the “Think Max” mode
    1
    2
    3
    Reasoning Effort: Absolute maximum with no shortcuts permitted.
    You MUST be very thorough in your thinking and comprehensively decompose the problem to resolve the root cause, rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.
    Explicitly write out your entire deliberation process, documenting every intermediate step, considered alternative, and rejected hypothesis to ensure absolutely no assumption is left unchecked.
Generative Reward Model
  • 传统:RM 跟任务可验证性有关
    • 易于验证的任务:可以使用简单的基于规则的验证器或测试用例进行有效优化
    • 难以验证的任务:传统上依赖于 RLHF(需要大量的人工标注来训练一个标量奖励模型)
  • 在 DeepSeek-V4 系列的后训练阶段,
    • 完全摒弃了这些传统的基于标量的奖励模型
    • 为了解决难以验证的任务,使用了基于评分细则 (rubric-guided) 的 RL 数据 ,并采用生成式奖励模型 (GRM) 来评估策略轨迹
  • 关键:直接将 RL 优化应用于 GRM 本身
    • 在这个范式中,Actor 网络本身作为 GRM ,使得模型的评估(判断)能力与其标准生成能力能够联合优化
    • 通过统一这些角色,模型的内在推理能力被固有地融合到其评估过程中,从而产生高度鲁棒的评分
    • 这种方法仅需最少量的多样化人工标注就能实现卓越的性能,因为模型利用其自身的逻辑来泛化复杂的任务
  • 理解:训练 RL 的流程是:
    • 1)提前准备好 Query 和 Rubrics
    • 2)训练时使用 Actor 作为 Verifier(GRM)
Tool-call Schema and Special Token
  • 与之前的版本一致,使用专用的 <think></think> 标签来划分推理路径
  • 在 DeepSeek-V4 系列中,引入一种新的工具调用模式
    • 该模式使用一个特殊的 “|DSML|” Token ,并采用基于 XML 的格式进行工具调用 ,如表 4 所示
  • 实验表明,XML 格式有效缓解了转义失败并减少了工具调用错误,为模型-工具交互提供了更鲁棒的接口
  • Table 4 | Tool-call schema for DeepSeek-V4 series
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    ## Tools
    You have access to a set of tools to help answer the user’s question. You can invoke tools by writing a "<|DSML|tool_calls>" block like the following:
    <|DSML|tool_calls>
    <|DSML|invoke name="$TOOL_NAME">
    <|DSML|parameter name="$PARAMETER_NAME" string="true|false">$PARAMETER_VALUE</|DSML|parameter>
    ...
    </|DSML|invoke>
    <|DSML|invoke name="$TOOL_NAME2">
    ...
    </|DSML|invoke>
    </|DSML|tool_calls>
    String parameters should be specified as is and set ‘string="true"‘. For all other types (numbers, booleans, arrays, objects), pass the value in JSON format and set ‘string="false"‘.
    If thinking_mode is enabled (triggered by <think>), you MUST output your complete reasoning inside <think>...</think> BEFORE any tool calls or final response.
    Otherwise, output directly after </think> with tool calls or final response.
    ### Available Tool Schemas
    {Tool Definition...}
    You MUST strictly follow the above defined tool name and parameter schemas to invoke tool calls.
Interleaved Thinking
  • DeepSeek-V3.2 (2025) 引入了一种上下文管理策略,该策略在工具结果轮次之间保留推理轨迹,但在新的用户消息到达时丢弃它们
    • 这种方式有效,但这在复杂的 Agentic 工作流中仍然导致了不必要的 Token 浪费
      • 每个新的用户轮次都会清除所有累积的推理内容,迫使模型从头重建其问题解决状态
  • 利用 DeepSeek-V4 系列扩展的 1M Token 上下文窗口,本文进一步完善了这一机制,以最大化交错式思维在 Agentic 环境中的有效性:
    • Tool-Calling
      • 如图 7(a) 所示,所有推理内容在整个对话过程中被完全保留
      • 与 DeepSeek-V3.2 在每个新用户轮次丢弃思维轨迹不同,DeepSeek-V4 系列保留了跨所有轮次的完整推理历史,包括跨用户消息边界
      • 这允许模型在长时程 Agent 任务上维持连贯、累积的思维链
    • General Conversational,通用对话场景
      • 如图 7(b) 所示,原始策略得以保留:
        • 当新的用户消息到达时,先前轮次的推理内容被丢弃,从而使上下文在持久推理轨迹益处有限的环境中保持简洁
  • 与 DeepSeek-V3.2 一样,通过用户消息模拟工具交互的 Agent 框架(例如 Terminus)可能不会触发工具调用上下文路径,因此可能无法从增强的推理持久性中受益
    • 继续推荐在此类架构中使用非思维 (non-think) 模型
Quick Instruction,快速指令
  • 在聊天场景中,许多 辅助任务(例如,确定是否触发网络搜索、意图识别等)必须在生成响应之前执行
    • 传统上,这些任务由一个单独的小模型处理
    • 由于无法重用现有的 KV 缓存,需要冗余的预过滤
      • 理解:如何理解这里的无法重用现有的 KV 缓存?
  • 为了克服这个限制,本文作者引入了快速指令 (Quick Instruction)
    • 将一组专用的特殊 Token 直接附加到输入序列中,每个 Token 对应一个特定的辅助任务
    • 通过直接重用已计算好的 KV 缓存,这种机制完全避免了冗余的预过滤,并允许某些任务(例如,生成搜索查询、确定权威性和领域)并行执行
    • 这种方法显著减少了用户感知的到首个 Token 的时间 (time-to-first-token, TTFT),并消除了维护和迭代额外小模型的工程开销
  • 表 5 总结了支持的快速指令 Token
On-Policy Distillation (OPD)
  • 在通过专门的微调和强化学习训练了多个领域特定的专家之后,作者采用多教师 On-Policy Distillation (OPD) 作为将专家能力合并到最终模型的主要技术
  • OPD 已经成为一种有效的后训练范式
    • 用于将领域专家的知识和能力高效地转移到一个统一的模型中
    • 注:OPD 通过让学生模型在其自身生成的轨迹上学习教师模型的输出分布来实现的
  • 形式上,给定一组 \(N\) 个专家模型 \(\{\pi_{E_1}, \pi_{E_2}, \ldots, \pi_{E_N}\}\),OPD 目标函数定义为:
    $$
    \mathcal{L}_{\text{OPD} }(\theta) = \sum_{i=1}^{N} w_i \cdot D_{\text{KL} }\left( \pi_{\theta} |\ \pi_{E_i} \right).
    \tag{29}
    $$
    • \(w_i\) 表示为每个专家分配的权重,通常由专家的相对重要性决定
    • 问题:不应该是不同领域的数据使用不同的专家吗? MiMo-V2-Flash 技术报告中提到的就是指定领域的数据上使用该领域的教师模型
      • 理解:这里可以理解为更数学的表达,当 \(w_i\) 是取值为 \(\{0,1\}\) 时,即与 MiMo 的设计一致
  • 计算反向 KL 散度 \(D_{\text{KL} }(\pi_{\theta} |\ \pi_{E_i})\) 需要从学生模型 \(\pi_{\theta}\) 中采样训练轨迹以保持 On-Policy 学习
    • 其内在逻辑是确保统一策略 \(\pi_{\theta}\) 能够根据当前任务上下文选择性地从相关专家那里学习
    • 例如:为数学推理任务与数学专家对齐,为编程任务与编码专家对齐
  • 通过这种机制,来自物理上不同的专家权重的知识通过 logits 级别的对齐被整合到一个统一的参数空间中,实际上规避了传统权重合并或混合 RL 技术中经常遇到的性能下降
    • 注:这里没有强调,但本质就是 MOPD 方法
  • 在此阶段,使用覆盖多个领域的十多个教师模型来蒸馏一个学生模型
  • 本文的特别选择:
    • 之前工作通常将全词汇表 KL 损失简化为每个 Token 位置上的 Token 级 KL 估计,并通过在策略损失计算中将 下面的比例作为每个 Token 的优势估计来重用 RL 框架:
      $$ \text{sg}\left(\log \frac{\pi_{E_i}(y_t | x, y_{ < t})}{\pi_{\theta}(y_t | x, y_{ < t})}\right) $$
      • 其中 \(\text{sg}\) 表示停止梯度操作
    • 虽然这种方法资源高效,但梯度估计存在高方差,经常引起训练不稳定
    • 本文在 OPD 中采用全词汇表 logit 蒸馏 ,保留完整的 logit 分布来计算反向 KL 损失能产生更稳定的梯度估计,并确保教师知识的忠实蒸馏
  • 注:下一小节中,将描述使大规模全词汇表 OPD 成为可能的工程努力

RL and OPD Infrastructures

  • 后训练基础设施建立在为 DeepSeek-V3.2 开发的可扩展框架之上
  • 集成了原论文第 3.5 节中描述的相同分布式训练栈,以及之前介绍的用于高效自回归采样的 Rollout 引擎
  • 本文在次基础上引入了以下主要的增强功能
    • 注:这些设计能够高效执行涉及十个以上不同教师模型的超长上下文 RL 和 OPD 合并任务,从而显著加快模型发布的迭代周期
FP4 Quantization Integration,FP4 量化集成
  • 应用 FP4 (MXFP4) 量化来加速 Rollout 和所有仅推理的前向传播,包括教师模型和参考模型的,从而减少内存流量和采样延迟
  • 如原论文第 3.4 节所述
    • 在 Rollout 和推理阶段直接使用原生的 FP4 权重
    • 对于训练步骤,通过无损的 FP4 到 FP8 反量化步骤来模拟 FP4 量化,允许无缝重用现有的 FP8 混合精度框架和 FP32 主权重,并且不需要修改反向传播流程
Efficient Teacher Scheduling for Full-Vocabulary OPD,面向全词汇表 OPD 的高效教师调度
  • 本文框架支持全词汇表 OPD,可以使用数量不受限制的教师模型,每个教师模型可能包含数万亿参数
  • 所有教师权重都被卸载到集中式分布式存储中,并在教师前向传播期间按需加载,同时采用类似 ZeRO 的参数分片来减轻 I/O 和 DRAM 压力
  • 即使将 logits 卸载到磁盘(spooled to disk),在词汇量大小 \(|V| > 100k\) 的所有教师中直接实现 logits 也是不可行的
    • 本文通过在前向传播期间仅将最后一层的教师隐藏状态缓存在集中式缓冲区中 来解决这个问题
      • 在训练时,这些缓存的状态被检索,并通过相应的预测头模块传递,以即时重建完整的 logits
    • 这种设计产生了可忽略的重计算开销,同时完全规避了与显式 logits 实现相关的内存负担
    • 为了减轻教师预测头的 GPU 内存占用,在数据分发期间按教师索引对训练样本进行排序
    • 这种安排确保每个不同的教师头在每个 mini-batch 中只被加载一次,并且在任何给定时间,设备内存中最多驻留一个教师头
    • 所有参数和隐藏状态的加载/卸载操作都在后台异步进行,不会阻塞关键路径上的计算
  • 教师和学生 logits 之间的精确 KL 散度使用专门的 TileLang 内核计算
    • 加速计算并减少了动态内存分配
Preemptible and Fault-Tolerant Rollout Service,可抢占和容错的 Rollout 服务
  • 为最大化 GPU 资源利用率,同时为高优先级任务实现快速的硬件配置,GPU 集群采用了一个集群范围的可抢占任务调度器,其中任何正在运行的任务都可能随时被抢占
  • 硬件故障在大规模 GPU 集群中普遍存在,所以为 RL/OPD Rollout 实现了一个可抢占且容错的 LLM 生成服务
  • 具体做法:
    • 为每个生成请求实现了一个 Token 粒度的预写日志 (token-granular Write-Ahead Log,WAL)
      • 每当为一个请求生成一个新 Token 时,立即将其附加到该请求的 WAL 中
    • 在抢占期间,暂停推理引擎并保存未完成请求的 KV 缓存
    • 恢复后,使用持久化的 WAL 和保存的 KV 缓存继续解码
    • 即使发生致命的硬件错误,也可以使用 WAL 中持久化的 Token 重新运行预填充阶段来重建 KV 缓存
  • 特别说明:
    • 从头开始重新生成未完成的请求在数学上是不正确的,因为这引入了长度偏差
      • 因为较短的响应更有可能在中断中幸存下来,所以每当发生中断时从头开始重新生成 这种做法会使模型更倾向于产生更短的序列
      • 理解:这里应该是指每次中断后都对已经完整生成的序列进行训练这种方式本身是有长度偏好的
    • 如果推理栈是批次不变 (batch-invariant) 和确定性的,这个正确性问题也可以通过使用采样器中伪随机数生成器的一致种子进行重新生成来解决
      • 问题:这里所说的方法是确保训练使用 的样本是随机挑选的 ,而不是有长度偏好的?【重新随机采样能去除中断导致的长度偏好】
      • 但这种方法仍然会产生重新运行解码阶段的额外成本,使其效率远低于本文 Token 粒度 WAL 方法
Scaling RL Framework for Million-Token Context
  • 本文引入了针对百万 Token 序列上高效 RL 和 OPD 的定向优化
  • 在 Rollout 阶段,采用了第 5.2.3 节中详述的可抢占和容错 Rollout 服务
  • 对于推理和训练阶段,将 Rollout 数据格式分解为 lightweight 元数据和 heavy Per-Token 字段
    • 在数据分发期间,可以加载整个 Rollout 数据的元数据以执行全局 shuffle 和打包布局计算
    • heavy Per-Token 字段通过共享内存数据加载器加载,以消除节点内的数据冗余,并在 mini-batch 粒度上消费后立即释放,从而大大减少了 CPU 和 GPU 的内存压力
    • 设备上 mini-batch 的数量根据工作负载动态确定,允许在计算吞吐量和 I/O 重叠之间进行有效的权衡
Sandbox Infrastructure for Agentic AI, 面向 Agentic AI 的沙箱基础设施
  • 为满足后训练和评估期间 Agentic AI 的多样化执行需求,本文作者构建了一个生产级沙箱平台,DeepSeek Elastic Compute (DSec)
  • DSec 由三个 Rust 组件组成
    • API 网关 (Apiserver)
    • Per-host Agent (Edge)
    • 集群监视器 (Watcher)
  • 以上三个组件通过自定义 RPC 协议互连,并在 3FS 分布式文件系统 (2025) 之上水平扩展
    • 在生产环境中,单个 DSec 集群管理着数十万个并发的沙箱实例
  • DSec 的设计基于四个观察结果:
    • (1) Agentic 工作负载高度异构,范围从 lightweight 函数调用到具有不同操作系统和安全要求的完整软件工程流程
    • (2) 环境镜像数量众多且体积庞大,但必须快速加载并支持迭代定制
    • (3) 高密度部署要求高效的 CPU 和内存利用率
    • (4) 沙箱生命周期必须与 GPU 训练计划协调,包括抢占和基于检查点的恢复。基于这些观察,作者逐一详细阐述 DSec 的四个核心设计
Four Execution Substrates Behind One Unified Interface,一个统一接口背后的四个执行底层
  • DSec 公开了一个统一的 Python SDK (libdsec),它抽象了四个执行底层
    • Function Call :将无状态调用分派到预热的容器池中,消除了冷启动开销
    • Container :完全兼容 Docker,并利用 EROFS (2019) 按需加载以实现高效的镜像组装
    • microVM :构建在 Firecracker (2020) 之上,为安全敏感、高密度的部署增加了 VM 级别的隔离
    • fullVM :构建在 QEMU (2005) 之上,支持任意客户操作系统
    • 这四个底层共享一个通用的 API 接口——命令执行、文件传输和 TTY 访问(在它们之间切换只需要更改一个参数)
Fast Image Loading via Layered Storage,通过分层存储实现快速镜像加载
  • DSec 通过分层按需加载来协调快速启动与庞大且不断增长的镜像库
    • 对于容器,基础镜像和文件系统提交作为 3FS 支持的只读 EROFS 层存储,直接挂载到 overlay lowerdirs 中
      • 在挂载时将文件元数据保留在本地磁盘上
      • 数据块在请求时从 3FS 获取
    • 对于 microVM,DSec 使用 overlaydb (2020) 磁盘格式:
      • 只读基础层位于 3FS 上以跨实例共享,而写入则转到本地的写时复制层
    • 这种快照是可链接的,有助于高效的版本控制和毫秒级的恢复
Density Optimizations Under Massive Concurrency,大规模并发下的密度优化
  • 为容纳每个集群数十万个沙箱,DSec 解决了两个资源瓶颈
    • 第一:DSec 减轻了虚拟化环境中重复的页面缓存占用,并应用内存回收以实现安全的超额订阅
    • 第二:减轻了容器运行时中的自旋锁争用,从而降低了每个沙箱的 CPU 开销,显著提高了每主机的打包密度
Trajectory Logging and Preemption-Safe Resumption,轨迹记录和可安全抢占的恢复
  • DSec 为每个沙箱维护一个全局有序的轨迹日志,持久记录每个命令调用及其结果
  • 该轨迹有三个目的:
    • (1) 客户端快进 (client fast-forwarding)
      • 当一个训练任务被抢占时,沙箱资源仍然保留
      • 恢复后,DSec 为先前完成的命令重放缓存的结果 ,加速任务恢复,同时防止因重新执行非幂等操作而导致的错误
    • (2) 细粒度的来源追踪 (fine-grained provenance)
      • 每个状态变化的来源和相应结果都是可追溯的
    • (3) 确定性重放 (deterministic replay)
      • 任何历史会话都可以从其轨迹忠实地重现

Standard Benchmark Evaluation

Evaluation Setup
Knowledge and Reasoning,知识和推理
  • 知识和推理数据集包括 MMLU-Pro (2024b)、GPQA (2023)、Human Last Exam (2025)、Simple-QA Verified (2025)、Chinese-SimpleQA (2024)、LiveCodeBench-v6 (2024)、CodeForces (内部基准)、HMMT 2026 Feb、Apex (2025)、Apex Shortlist (2025)、IMOAnswerBench (2025) 和 PutnamBench (2024)
  • 对于代码
    • 本文在 LiveCodeBench-v6 和一个内部的 Codeforces 基准上评估 DeepSeek-V4 系列
    • 对于 Codeforces
      • 收集了 14 场 Codeforces Division 1 比赛,包含 114 个问题(2025 年 5 月 - 2025 年 11 月)
      • Elo 评分计算如下
        • 对于每场比赛,为每个问题生成 32 个候选解决方案
        • 对于每个问题,独立地无放回地采样 10 个解决方案,并将它们随机排序以形成提交序列
          • 每个提交都根据由领域专家构建的测试套件进行评判
        • 一个已解决问题的得分遵循 OpenAI (2025) 的惩罚方案:
          • 模型获得解决了同一问题且先前失败尝试次数相同的人类参与者的中位数得分
            • 这为每个采样的提交序列产生一个比赛总分,然后通过标准的 Codeforces 评分系统将其转换为比赛排名,随后转换为估计的评分
        • 比赛级别的预期评分定义为在所有可能的 10 个提交的随机选择和排序上,该估计评分的期望值
        • 模型的总体评分是所有 14 场比赛中这些上下文级别预期评分的平均值
  • 对于推理和知识任务
    • 温度设置为 1.0
    • 上下文窗口分别设置为 8K、128K 和 384K Token ,对应 Non-think、 High 和 Max 模式
  • 对于数学任务(例如 HMMT、IMOAnswerBench、Apex 和 HLE)
    • 使用以下模板进行评估:
      • “{question}\nPlease reason step by step, and put your final answer within \boxed{}. ”
    • 对于 DeepSeek-V4-Pro-Max 在数学任务上,使用以下模板来引出更深入的推理:
      • “Solve the following problem. The problem may ask you to prove a statement, or ask for an answer. If finding an answer is required, you should come up with the answer, and your final solution should also be a rigorous proof of that answer being valid.\n\n{question}”
  • 对于形式化数学任务
    • 在 Lean v4.28.0-rcl (2021) 上的 Agentic 环境中进行评估,可以访问 Lean 编译器和语义策略搜索引擎,最多运行 500 次工具调用,并采用最大推理 Effort
    • 本文评估了一个计算量更大的流程,其中首先生成候选的自然语言解决方案,并通过自验证 (2025) 进行过滤,然后将保留的解决方案作为指导提供给形式化 Agent,以证明相应的 Lean 陈述
      • 该设计使用非形式化推理来改进探索,同时通过形式化验证保持严格的正确性
      • 只有当严格的验证器 Comparator 在两种设置下都接受时,提交才被计为正确
  • 本文为 K2.6 和 GLM-5.1 留了一些空白,因为它们的 API 过于繁忙,无法返回对本文查询的响应
    • 问题:这些模型开源了,可以自己部署了测试一下吧
1M-Token Context
  • DeepSeek-V4 系列支持 1M Token 上下文,本文通过选择 OpenAI MRCR (2024b) 和 CorpusQA (2026) 作为基准来评估长上下文场景下的模型性能
  • 本文在这些任务上重新评估了 Claude Opus 4.6 和 Gemini 3.1 Pro,目标是标准化所有模型的配置
  • 本文没有评估 GPT-5.4,因为其 API 未能对本文的大部分查询做出响应
Agent
  • Agent 数据集包括 Terminal Bench 2.0 (2026)、SWE-Verified (2024e)、SWE Multilingual (2025)、SWE-Pro (2025)、BrowseComp (2025)、MCPAtlas 的公共评估集 (2026)、GDPval-AA (AA, 2025; 2025) 和 Tool-Decathlon (2025)
  • 对于代码 Agent 任务 (SWE-Verified, Terminal-Bench, SWE-Pro, SWE Multilingual)
    • 使用内部开发的评估框架评估 DeepSeek-V4 系列
      • 该框架提供了一组最小工具(一个 bash 工具和一个文件编辑工具)
      • 最大交互步数设置为 500,最大上下文长度设置为 512K Token
    • 关于 Terminal-Bench 2.0,作者承认 GLM-5.1 指出的环境相关问题
      • 注:这个是在 GLM-5 的 TR 里面提到的(不是 GLM-5.1),Terminal-Bench 2.0 版本上有些模糊指令的修复
      • 尽管如此,为了保持一致性,文章还是报告了在原始 Terminal-Bench 2.0 数据集上的性能
      • 在 Terminal-Bench 2.0 Verified 子集上,DeepSeek-V4-Pro 的得分约为 72.0
  • 对于搜索 Agent 任务 (BrowseComp, HLE w/ tool)
    • 也使用带有网络搜索和 Python 工具的内部测试工具,并将最大交互步数设置为 500,最大上下文长度设置为 512K Token
    • 对于 BrowseComp,本文使用与 DeepSeek-V3.2 (2025) 相同的丢弃所有上下文管理策略
Evaluation Results
  • 表 6 展示了 DeepSeek-V4-Pro-Max 与其他闭源/开源模型的比较
  • 表 7 展示了 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 的不同模式
Knowledge
  • 在通用世界知识的评估中,DeepSeek-V4-Pro-Max(DeepSeek-V4-Pro 的最大推理 Effort 模式)在开源大语言模型中建立了新的最高水平
    • 如 SimpleQA-Verified 所示,DeepSeek-V4-Pro-Max 显著优于所有现有的开源基线,高出 20 个绝对百分点,但仍落后于 Gemini-3.1-Pro
  • 在教育知识和推理领域,DeepSeek-V4-Pro-Max 在 MMLU-Pro、GPQA 和 HLE 基准上略微优于 Kimi 和 GLM,落后于领先的专有模型
  • 在基于知识的任务上,DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 之间存在显著的性能差距
    • 这是意料之中的,因为更大的参数数量有助于在预训练期间保留更多知识
    • 当分配更高的推理 Effort 时,两个模型在知识基准上都表现出改进的结果
1M-Token Context
  • DeepSeek-V4-Pro 在 MRCR 任务上优于 Gemini-3.1-Pro,该任务衡量上下文检索能力,但仍落后于 Claude Opus 4.6
  • 如图 9 所示,在 128K 上下文窗口内,检索性能保持高度稳定
  • 虽然在 128K Token 之后性能下降变得可见,但该模型在 1M Token 处的检索能力与专有和开源同行相比仍然非常强大
  • 与 MRCR 不同,CorpusQA 更类似于真实场景
    • 评估结果表明 DeepSeek-V4-Pro 优于 Gemini-3.1-Pro
Reasoning Effort
  • 如表 7 所示,Max 模式(在 RL 中采用更长的上下文和减少的长度惩罚)在最具挑战性的任务上优于 High 模式
  • 图 10 展示了 DeepSeek-V4-Pro、DeepSeek-V4-Flash 和 DeepSeek-V3.2 在代表性推理和 Agentic 任务上的性能和成本比较
    • 通过扩展测试时计算,DeepSeek-V4 系列相比其前身取得了显著的改进
    • 在像 HLE 这样的推理任务上,DeepSeek-V4-Pro 显示出比 DeepSeek-V3.2 更高的 Token 效率

Performance on Real-World Tasks

  • 标准化基准测试通常难以捕捉多样化真实世界任务的复杂性,从而在测试结果和实际用户体验之间产生差距
  • 为了弥合这一差距,本文作者特别开发了专有的内部指标,优先考虑真实世界的使用模式而非传统基准
  • 这种方法确保本文的优化转化为实实在在的好处
  • 本文的评估框架特别针对 DeepSeek API 和 Chatbot 的主要用例,使模型性能与实际需求保持一致
Chinese Writing(中文写作)
  • DeepSeek 的主要用例之一是中文写作,对功能性写作和创意写作进行了严格的评估
  • 表 12 展示了 DeepSeek-V4-Pro 和 Gemini-3.1-Pro 在功能性写作任务上的 Pairwise 比较
    • 这些任务包括日常写作查询,其中 prompts 通常简洁明了
    • Gemini-3.1-Pro 被选为基线是因为它在评估中是中文写作方面表现最佳的外部模型
    • 结果表明,DeepSeek-V4-Pro 以 \(62.7%\) 对比 \(34.1%\) 的总体胜率优于基线
    • 这主要是因为 Gemini 在中文写作场景中偶尔会允许其固有的风格偏好覆盖用户的明确要求
  • 表 13 展示了创意写作比较,该比较沿着两个轴进行评估:
    • 指令遵循和写作质量
    • 与 Gemini-3.1-Pro 相比,DeepSeek-V4-Pro 在指令遵循方面达到了 \(60.0%\) 的胜率,在写作质量方面达到了 \(77.5%\) 的胜率,表明指令遵循方面略有改进,而写作质量方面有显著提升
  • DeepSeek-V4-Pro 在汇总的用户案例分析中产生了更优的结果,但仅限于最具挑战性的 prompts(特别是那些涉及高复杂性约束或多轮场景的 prompts)的评估显示,Claude Opus 4.5 相对于 DeepSeek-V4-Pro 保持了性能优势
  • 如表 14 所示,Claude Opus 4.5 实现了 \(52.0%\) 的胜率,而 DeepSeek-V4-Pro 为 \(45.9%\)
Search
  • 搜索增强的问答是 DeepSeek 聊天机器人的核心能力
  • 在 DeepSeek 网页和应用上,“non-think” 模式采用 RAG,而“thinking” 模式利用 Agentic 搜索
    • 理解:所以平时我们没有打开 Thinking 模式时,搜索问答都是 RAG 模式的吗?
Retrieval Augmented Search(RAG)
  • 进行了一项 Pairwise 评估,比较 DeepSeek-V4-Pro 和 DeepSeek-V3.2 在客观和主观问答类别上的表现
  • 如表 11 所示,DeepSeek-V4-Pro 以显著的幅度优于 DeepSeek-V3.2,在两个类别上都显示出一致的优势
    • 最显著的提升出现在单值搜索和规划与策略任务中,表明 DeepSeek-V4-Pro 擅长定位精确的事实答案并从检索到的上下文中合成结构化计划
    • 但 DeepSeek-V3.2 在比较和推荐任务上仍然具有相对竞争力,表明 DeepSeek-V4-Pro 在需要对搜索结果进行平衡、多角度推理的场景中仍有改进空间
Agentic Search
  • 与标准 RAG 不同,Agentic 搜索使模型能够针对每个查询迭代调用搜索和获取工具,从而显著提高整体搜索性能
  • 对于 DeepSeek-Chat 中的思维模式,本文优化了 Agentic 搜索功能,以在预定义的“思维预算”内最大化响应准确性
  • 如表 9 所示,Agentic 搜索在复杂任务上始终优于 RAG
    • 而且其成本仍然非常高效,Agentic 搜索仅比标准 RAG 略贵(见表 10)
White-Collar Task,白领任务
  • 为了严格评估模型在复杂企业生产力场景中的效用,本文作者构建了一套包含 30 个高级中文专业任务的综合套件
    • 这些工作流程有意包含了高层次的认知需求,包括深入的信息分析、全面的文档生成和细致的文档编辑,涵盖了 13 个关键行业(例如,金融、教育、法律和技术)的多样化领域
    • 评估在一个配备了基本工具(包括 Bash 和网络搜索)的内部 Agent 工具架中进行
  • 鉴于这些任务的开放性,自动化指标通常无法捕捉高质量响应的细微差别
    • 本文进行了人工评估,比较 DeepSeek-V4-Pro-Max 和 Opus-4.6-Max 的性能
    • 标注者盲目评估了模型输出的四个维度:
      • 任务完成度 (Task Completion) :核心问题是否成功解决
      • 指令遵循 (Instruction Following) :对特定约束和指令的遵守情况
      • 内容质量 (Content Quality) :事实准确性、逻辑连贯性和专业语气
      • 格式美观度 (Formatting Aesthetics) :布局可读性和视觉呈现
  • 如图 11 所示
    • DeepSeek-V4-Pro-Max 在多样化的中文白领任务上优于 Opus-4.6-Max,实现了 \(63%\) 的不败率,并在分析、生成和编辑任务中展现出一致的优势
  • 图 12 中显示的详细维度分数突出了模型在任务完成度和内容质量方面的主要优势
    • DeepSeek-V4-Pro-Max 通过经常提供补充见解和自我验证步骤,主动预测用户的隐性意图
    • DeepSeek-V4-Pro-Max 还在长文本生成方面表现出色,提供深入、连贯的叙述,而不是依赖 Opus-4.6-Max 经常产生的过于简单的要点
      • 且该模型严格遵守正式的专业惯例,例如标准化的中文层次编号
    • 弱势项:
      • 在指令遵循方面,DeepSeek-V4-Pro-Max 偶尔会忽略特定的格式约束,略微落后于 Opus
      • DeepSeek-V4-Pro-Max 将大量文本输入压缩为简洁摘要的能力较差
  • DeepSeek-V4-Pro-Max 格式美观度在演示幻灯片的整体视觉设计方面仍有很大的改进空间
    • 图 13、14 和 15 展示了几个测试用例(注:由于某些输出的长度过长,仅显示部分页面)
Code Agent
  • For 代码 Agent 能力,本文从真实的内部研发工作负载中整理了任务
  • 从 \(50+\) 名内部工程师那里收集了 \(\sim 200\) 个具有挑战性的任务
    • 涵盖功能开发、错误修复、重构和诊断,涉及多种技术栈,包括 PyTorch、CUDA、Rust 和 C++
      • 问题:DeepSeek 内部的工作主要是 Python,Rust 和 C++ 等
    • 每个任务都附有其原始仓库、相应的执行环境以及人工标注的评分细则
    • 经过严格的质量过滤后,保留了 30 个任务作为评估集
  • 如表 8 所示,DeepSeek-V4-Pro 显著优于 Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平
  • 在一项针对 DeepSeek 内部(在日常工作中使用 DeepSeek-V4-Pro 进行 Agentic 编码的经验)开发者和研究人员 \((N = 85)\) 的调查中
    • 询问与其他前沿模型相比,DeepSeek-V4-Pro 是否已准备好作为他们的默认和主要编码模型:
      • \(52%\) 的人回答“是”,\(39%\) 的人“倾向于是”,只有不到 \(9%\) 的人回答“否”
    • 受访者发现 DeepSeek-V4-Pro 在大多数任务上都能提供令人满意的结果
      • 但存在琐碎的错误、对模糊 prompts 的误解以及偶尔的过度思考

NLP——Reasoning2Agentic-Credit-Assignment

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Reasoning2Agentic-Credit-Assignment)From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models, 20260410-20240413, Independent Researcher
      • 注:作者是独作,且为独立研究者
    • 代码地址:github.com/xxzcc/Awesome-Credit-Assignment-in-LLM-RL
      • 注:该地址维护了一个精选论文列表

Paper Summary

  • 本文对 LLM 强化学习中的 Credit Assignment 进行了专门的综述,追溯了从 Reasoning RL 到 Agentic RL 的演变,并讨论了驱动方法论创新的根本挑战
  • 针对 LLM 的 RL 越来越依赖稀疏的、结果层面的奖励
    • 确定长轨迹中的哪些行为导致了该结果非常困难
    • 这个信用分配(Credit Assignment, CA)问题体现在两种情形中:
      • Reasoning RL(reasoning RL):信用必须分配到单个思维链生成(500-30K+ token)中的 token 和步骤上
      • Agentic RL(agentic RL):多轮环境交互引入了随机转移、部分可观测性以及 100+ 轮(100K-1M token)的时域
        • 使得 Episode 层面的信用越来越缺乏信息量
  • 本文调研了 47 种信用分配方法(41 种核心方法,6 种相邻使能方法),这些方法发表于 2024 年至 2026 年初
    • 作者按两个维度的分类法对它们进行了组织:
      • 分配粒度(token、segment、step、turn、multi-agent)
      • 方法论(Monte Carlo、时序差分、基于模型、博弈论、信息论)
    • 除了调研本身,作者还贡献了三个可复用的资源:
      • (1)一个结构化的、机器可读的论文清单,其中包含分类标签、基线族和证据等级
      • (2)一个针对未来 CA 论文的报告清单,该清单根据已审文献进行了验证,以识别系统性的方法论空白
      • (3)一个基准测试协议规范,包含任务族、元数据需求和受控分岔任务,并附带一个方法选择决策树
  • 从推理到 Agentic RL 的转变使得信用分配问题更加复杂并重塑了其格局:
    • 推理 CA 正围绕过程奖励模型(Process Reward Model, PRM)
    • 无 critic 的组比较方法趋于成熟,而 Agentic CA 则催生了真正的新方法
      • 事后反事实分析(hindsight counterfactual analysis)
      • 特权非对称 critic(privileged asymmetric critic)
      • Turn-level MDP 重构
    • 这些方法在 Reasoning RL 中没有直接先例
  • 五个关键要点(用 Evidence-level 注释:[SE] = 强经验性,[LS] = 有限但具有启发性,[AS] = 作者综合):
    • 1)Credit Assignment 是 LLM RL 的核心挑战 [SE]
      • 而且 Credit Assignment 的重要性随着从推理环境转向 Agentic 环境而增长
      • 从单次生成轨迹 ( \(\sim 1\text{K} - 30\text{K}\) 个 Token) 到多轮 Agent 交互 ( \(\sim 100\text{K} - 1\text{M}\) 个 Token) 的转变,将 Credit Assignment 从优化便利性转变为训练必要性
    • 2)在 Reasoning RL 中,Credit Assignment 正在成熟 [SE]
      • Token-level (VinePPO)、Segment-level (SPO, SCAR) 和 Step-level (PURE, HICRA, SPRO) 方法在转移是确定性的、轨迹是单次生成且结果可验证时提供了有效的解决方案
      • PRM 范式和无需 Critic 的组比较代表了鲁棒、可扩展的方法
    • 3)在 Agentic RL 中,Credit Assignment 尚处起步阶段 [LS]
      • 质量上更困难挑战需要新的方法
        • 挑战包括:随机环境、部分可观测性、异质 Action、超长时域和不可验证的中间状态
      • 事后/反事实方法 (HCAPO, C3, CCPO) 和分层架构 (ArCHer, CARL) 代表了社区的新兴回应,但仍有许多工作要做
    • 4)LLM-as-Critic 似乎是一个独特的范式 [LS]
      • 在经典 RL 中没有直接镜像
      • 使用 LLM 对中间状态进行语义评估的能力 (CAPO, SWEET-RL, LaRe, HCAPO, CriticSearch) 开辟了一个似乎是 LLM 时代特有的方法论轴心
      • 这种方法是否会被证明比传统的基于价值的方法更有效,仍然需要继续探索
    • 5)该领域正在加速发展 [AS——文献计量学观察]
      • 仅 2026 年 3 月一周内就出现了三篇关于反事实 Credit Assignment 的独立论文,本文的分类法包含了仅两年(2024–2026 年)内发表的 47 种方法(41 种核心 CA,6 种辅助使能技术)
      • 多 Agent Credit Assignment(现在作者的清单中有 6 篇专门论文)已从一个新兴领域发展成为一个活跃的研究前沿
  • 随着 LLM 从推理引擎演变为在真实环境中运行的自主 Agent
    • Credit Assignment 的问题从 “哪个推理步骤是正确的?” 转变为 “哪个 Action 以正确的方式改变了世界?”
  • 本 Survey 的核心论点
    • 作者认为,从 Reasoning RL 到 Agentic RL 的转变不仅仅是将现有方法扩展到更困难的任务
      • 这个转变实质性地重塑了 Credit Assignment 问题
    • 推理 CA 在一个相对温和的环境中运作(确定性转移、可验证步骤、较短的时域)
    • Agentic CA 在一个更具挑战性的环境中运作(随机环境、不可验证状态、\(100+\) 轮时域)
    • 这种质的转变正在产生真正的新方法:
      • 事后反事实分析、特权非对称 Critic、基于熵的关键 Action 识别以及 Turn-level MDP 重构
      • 作者预计 2026–2027 年该领域的活动将不断增加

Introduction and Discussion

  • LLM 强化学习的两波浪潮
    • 第一波浪潮:Reasoning RL
      • 展示了 RL 可以显著提升 LLM 解决数学问题、编写代码以及执行逻辑推理的能力(2025;2024)
      • 像 DeepSeek-R1 和 OpenAI 的 o1 这样的模型表明,使用结果层面的奖励(“最终答案是否正确?”)进行训练可以激发复杂的思维链推理
    • 第二波浪潮:Agentic RL
      • 此范式扩展到多轮交互式任务:浏览网页(2024a)、使用工具(2024)、编写和调试代码以及与其他 Agent 协作的 LLM Agent
      • 从推理到 Agentic(agency)的转变代表了 RL 问题复杂性的一次质的飞跃
    • 这两波浪潮的核心是一个共同的瓶颈:信用分配
    • 当唯一的反馈是一个稀疏的终端奖励(“问题解决”或“任务完成”)时,如何确定中间行为(哪些 token、哪些推理步骤、哪些工具调用)如何影响了结果呢
  • 信用分配问题是核心瓶颈,且信用分配问题的严重性随轨迹复杂度而增大:
    • 在 Reasoning RL 中,一条典型轨迹是单个 LLM 生成
      • 范围从 \(\sim 500\) 个 token(GSM8K 级别的问题)到硬性竞赛数学题的 10,000-30,000+ 个 token
        • 例如,在 AIME 2025 上,DeepSeek-R1 平均约 \(\sim 23\text{K}\) 个 token(2025)
      • 这种情况下,信用必须分配到 token 和推理段上
      • 像 GRPO(2024)和 REINFORCE 这样的 Episode-level 方法将相同的优势分配给每个 token(这种粗略的近似对于较短的轨迹有效)
    • 在 Agentic RL 中,轨迹跨越 10-100+ 轮,每轮都涉及一次 LLM 调用加上环境交互
      • 总 token 数通常达到 100K-500K+
        • 例如,在一个报告的 SWE-bench 设置中,Agent 平均约 \(64\) 轮,消耗约 \(131\text{K}\) 个 token(2025d)
      • Episode-level 信用变得越来越没有信息量:
        • 在第 3 轮的一个错误工具调用会与几十个正确的后续行为受到相同的惩罚
  • 在 2024 年至 2026 年初期间,47 篇论文(41 篇提出核心 CA 方法,6 篇贡献 CA 相关的使能方法)提出了各种方法,从 Monte Carlo Token-level 价值估计(2025)到基于 Shapley 值的奖励分解(2025;2026b),从过程奖励模型(2025;2025)到事后反事实分析(2026;2026;2026c)
    • 仅在 2026 年 3 月的一周内,出现了三篇关于反事实/事后信用分配的独立论文,这表明学术界对这个问题越来越感兴趣

Scope and inclusion criteria

  • 本文核心纳入的文章是主要贡献是为 LLM RL 提供新颖信用分配机制 的方法
    • 核心 CA 方法(core CA methods):提出跨行为分配信用的新算法(例如,VinePPO、HCAPO、CARL)
    • CA 相关使能方法(CA-adjacent enablers):解决相关问题(训练基础设施、奖励 shaping、Agent 框架),其中信用分配是几个组成部分之一(例如,Agent Lightning、RAGEN、PRS)
  • 以上这两类都会被回顾,但在本文比较表和论文计数中会标记其区别
    • 当引用“47 种方法”时,指的是这两类的并集
    • 参见后面第 1.1 节了解完整的搜索和筛选方案

Scope and narrative

  • 与将信用分配视为子主题(2025a)或关注经典 RL(2023)的现有工作不同,本文以信用分配为中心视角来审视 LLM RL
  • 本文的叙述脉络是:
    • 经典 RL(Classical RL)\(\rightarrow\) Reasoning RL(Reasoning RL)\(\rightarrow\) Agentic RL(Agentic RL)\(\rightarrow\) 未来:多 Agent 系统(Future: Multi-Agent Systems)
  • 在每个阶段,信用分配问题都变得更加困难,并且出现新的方法来应对挑战

Contributions

  • 本文做出了三种不同类型的贡献:
I. Survey with taxonomy,带分类法的调研
  • 1)专门分析:本文提供了一个专注于 LLM RL 中信用分配的专门调研,涵盖了推理和 Agentic 两种设置(第 3 节和第 5 节)
  • 2)二维分类法:本文按粒度 \(\times\) 方法论组织了 47 种方法,揭示了系统性的模式和空白(第 2.4 节)
  • 3)推理 \(\rightarrow\) Agentic 分析:本文明确刻画了为什么 Agentic RL 使信用分配在质量上更加困难,以及这需要哪些新技术(第 4 节)
  • 4)系统比较:本文在计算成本、辅助模型需求、适用场景和实证性能方面比较了各种方法,包括一个结构化的 GRPO 系列元比较(第 7 节)
II. Reusable structured artifact,可复用结构化 Artifact
  • 5)机器可读清单:提供了所有 47 种方法的结构化清单,包含分类标签、基线族、证据等级和主要基准测试(第 B 节),设计用于直接复
    • 所有结构化数据将在发表后以可下载的 CSV/JSON 格式发布(见第 9.5 节)
III. Standardization proposals,标准化 Proposal
  • 6)报告清单:为未来的 CA 论文提出了一个具体的报告清单,并根据现有文献进行了验证,以识别最常见的方法论空白(第 C 节)
  • 7)基准测试协议:概述了信用分配评估套件的最低规格,包括任务族、所需元数据和受控分岔任务(第 9 节)
  • 8)研究路线图:识别了前沿的开放问题——多 Agent 信用、超长时域、探索-信用 interplay——并将 Agentic RL 视为未来创新的可能驱动力(第 9 节)

Relation to existing work

  • A Survey of Temporal Credit Assignment in Deep Reinforcement Learning, 2023, University College London & Google DeepMind 对经典深度 RL 中的时域信用分配进行了极好的回顾(56 页,2023),但完全早于 LLM 时代
  • The Landscape of Agentic Reinforcement Learning for LLMs: A Survey, 20250902-20260417, Oxford & Shanghai AI Lab & NUS提供了针对 LLM 的 Agentic RL 的全面概述(100 页,500+ 篇论文),但仅将信用分配作为众多子主题之一处理,缺乏深度
  • 几篇关于 Reasoning RL 的工作(2025b)广泛涵盖了 RL 算法,但未聚焦于信用分配
  • 现有工作没有系统地审视跨推理和 Agentic LLM RL 的信用分配问题

Paper organization

  • 第 2 节介绍背景、问题表述和分类法
  • 第 3 节回顾 Reasoning RL 的信用分配方法
  • 第 4 节刻画为什么 Agentic RL 使信用分配问题复杂化并重塑其格局
  • 第 5 节回顾针对 Agentic 的信用分配方法
  • 第 6 节涵盖多 Agent 信用分配
  • 第 7 节提供系统比较
  • 第 8 节将信用定位置于更广泛的 Agentic RL 训练流程中
  • 第 9 节讨论开放问题和未来方向
  • 第 10 节总结

How to use this survey

  • 本文旨在以不同方式服务不同读者:
  • 为特定任务选择 CA 方法的从业者:从决策树(图 4)和推荐表(表 8)开始,然后阅读相关方法章节获取详细信息
  • 寻求开放问题的研究人员:阅读第 4 节了解核心挑战,然后阅读第 9 节了解研究路线图
    • 基准测试协议(第 9 节)和报告清单(第 C 节)可能有助于设计实验
  • 评审者和元研究人员:结构化清单(第 B 节)提供了所有 47 种方法的机器可读元数据
    • 清单验证(第 C 节)记录了当前的报告空白
  • LLM RL 信用分配的新入门者:阅读第 2 节了解基础知识,然后跟随第 3 节和第 5 节的叙述脉络

1.1 Literature Coverage, 文献覆盖范围

  • 本文涵盖了 2024 年 1 月至 2026 年 4 月期间发表的针对 LLM RL 的信用分配方法
  • 通过在 arXiv、Semantic Scholar 和 Google Scholar 上进行关键词搜索来识别论文,将信用分配术语(“credit assignment”,“process reward”,“reward decomposition”,“turn-level reward”)与 LLM/RL 术语相结合
  • 通过从基础工作(VinePPO、ArCHer、GRPO、DeepSeek-R1)向前/向后追溯引用,以及系统性地监控主要会议(NeurIPS、ICML、ICLR、ACL 2025)和 HuggingFace Daily Papers 来补充这些搜索
  • 本文纳入那些主要贡献是新颖信用分配机制的方法,并区分核心 CA 方法(41 篇论文)和 CA 相关使能方法(6 篇论文)
    • CA 相关使能方法中的信用分配是多个组成部分之一
    • 如果一篇论文的主要算法贡献是一种将稀疏奖励分配到行为上的新方法,则将其归类为“核心”
    • “相关”论文为 CA 生态系统(基础设施、奖励 shaping、Agent 框架)做出贡献,但没有提出新的分解算法
    • 边界情况(例如,跨越推理/Agentic 设置的方法)在第 9.4 节中讨论
  • 所有 47 篇论文的完整清单及其分类标签在第 B 节中提供
    • 包括详细搜索查询和筛选决策在内的补充材料将在发表后发布(第 9.5 节)
  • 作者承认,作为单人调研,本文的覆盖范围可能存在空白
    • 详见第 9.4 节的讨论

Background and Problem Formulation

From Reasoning RL to Agentic RL: A Brief History

  • RL 在 LLM 上的应用经历了几个不同的阶段,每个阶段都引入了新的信用分配挑战
阶段 1:RLHF(2022-2023)
  • InstructGPT(2022)提出了 RLHF(基于 PPO)
  • 这个场景中,轨迹是中等长度(\(\sim 500\) 个 token)的单轮响应,奖励模型为整个响应提供一个密集的标量信号
  • 此时的信用分配是隐式的:
    • PPO 学习到的价值函数提供 Token-level 基线,尽管这些基线在高维 LLM 行为空间中的质量仍有争议
阶段 2:Reasoning RL(2023-2025)
  • 一个突破:使用可验证的结果奖励(没有任何奖励模型)通过 RL 训练 LLM 可以激发复杂的推理行为
  • DeepSeek-R1(2025)证明,在数学问题上使用带有二元正确性奖励的 GRPO 可以产生能够进行扩展思维链推理的模型
    • OpenAI 的 o1 和 o3 模型展示了类似的能力
  • 这个场景下,轨迹是单次生成,范围从 \(\sim 500\) 个 token(简单数学)到 30,000+ 个 token(困难竞赛题;在 AIME 上,DeepSeek-R1 平均约 \(\sim 23\text{K}\) 个 token(2025))
    • 奖励纯粹是终端奖励(正确或错误)
  • 此时信用分配是:
    • 单个结果奖励应如何分配到数千个推理 token 上?
    • 这个问题催生了第一波针对 LLM 的 CA 方法,包括过程奖励模型(2024;2024)、 Token-level 价值估计(2025)和步骤级优势计算(2025)
  • 图 1:用于 LLM 的 RL 的演化及相应的信用分配挑战
    • 每个阶段都引入了更长的轨迹、更复杂的环境和更困难的信用分配问题
    • 从推理到 Agentic RL 的转变代表了 CA 难度的一次质的飞跃
阶段 3:Agentic RL(2024-至今)
  • Agentic RL 阶段将 RL 扩展到多轮、环境交互的 Setting 中
  • ArCHer(2024c)在 2024 年初开创了用于 LLM Agent 的分层多轮 RL
  • 2025 年,Agentic RL 爆炸式增长:
    • 系统训练了用于网页导航(2024a)、软件工程(SWE-bench)、科学实验和多 Agent 协作的 Agent
  • 在这个场景中,轨迹跨越 10-100+ 轮,每轮之间有环境交互,总 token 数达到 \(10^{5} - 10^{6}\),奖励保持稀疏和终端
  • 信用分配问题现在在质量上更加困难(见第 4 节),这推动了第二波创新浪潮:
    • 专注于 Turn-level 和基于 hindsight 的方法(2026;2026;2026c;2025;2025;2025b)

Problem Formulation: Two MDP Abstractions

Reasoning RL as a token-level MDP
  • 在 Reasoning RL 中,模型针对一个 Prompt \(x\) 生成单个响应 \(y = (y_{1}, y_{2}, \ldots , y_{L})\)
  • 这可以建模为一个 MDP,其中:
    • 状态 \(s_{t} = (x, y_{1}, \ldots , y_{t - 1})\) 是提示加上迄今为止生成的 token
    • 行为 \(a_{t} = y_{t}\) 是下一个 token
    • 转移是确定性 的(自回归生成)
    • 奖励 \(R\) 仅在终端状态给出(例如,答案正确性)
  • 这里的信用分配意味着:推理链中的哪些 token(或 token 组)促成了正确答案?
Agentic RL as a turn-level POMDP
  • 在 Agentic RL 中,模型与环境在 \(T\) 轮中进行交互:
    • 状态 \(s_{t}\) 包括对话历史、环境状态(部分可观测)和检索到的上下文
    • 行为 \(a_{t}\) 是模型在第 \(t\) 轮的完整响应(其本身包含许多 token)
    • 转移是随机 的:环境响应取决于工具执行、网页状态等
    • 奖励 \(R\) 是稀疏且终端的(任务成功/失败)
  • 这种场景下,信用分配是双重分层的:
    • (1) 哪一轮是关键?
    • (2) 在该轮中,哪些 token 重要?
  • 表 1:本文使用的主要符号总结
  • The multi-granularity action hierarchy
    • 此时是 多粒度行为层次结构
      $$\tau_{\text{Episode} } = \underbrace{[\text{Turn}_{1},\ldots,\text{Turn}_{T}]}_{\text{Turn level} } = \underbrace{[\text{Seg}_{1,1},\ldots]}_{\text{Segment level} } = \underbrace{[a_{1,1,1},\ldots]}_{\text{Token level} } \tag {1}$$

Why GRPO’s Episode-Level Credit is Insufficient,Why Episode-level 信用不够

  • GRPO 估计器(2024)计算一个组优势:
    $$\hat{A}_i^{\text{GRPO} } = R(\tau_i) - \frac{1}{G}\sum_{j = 1}^{G}R(\tau_j) \tag {2}$$
    • \(\tau_{i}\) 中的每个 token 都收到相同的优势 \(\hat{A}_i^{\text{GRPO} }\)
  • 对于一个长度为 \(L\) 的轨迹:
    • Reasoning RL(\(L \sim 10^{3} - 10^{4}\) 个 token,1 轮): Episode-level 方法(GRPO,REINFORCE)工作得相当好,因为“关键决策”的数量相对于总 token 数较少,且信噪比保持在可控范围内
    • Agentic RL(\(L \sim 10^{5} - 10^{6}\) 个 token,10-100+ 轮): Episode-level 方法将一个关键的“选择正确的 API”行为和一个琐碎的“格式化输出”行为分配相同的信用
      • 信噪比崩溃
      • 问题:如何理解这里的信噪比?
        • 理解:信噪比(Signal-to-Noise Ratio, SNR)是一个从通信和信号处理领域借用的概念,主要用来衡量模型在处理信息或进行训练时,“有用的目标信息(信号)”与“无用的干扰信息(噪声)”之间的比例
  • 实证上,Zhou 等人(2024c)表明
    • 使用 Episode-level 奖励的标准 PPO 未能学习有效的多轮策略
    • 使用分层信用的方法成功了
    • Wang 等人(2025d)报告了类似的发现,将其失败归因于他们所谓的“回声陷阱”(echo trap)
  • 更正式地,在带有基线 \(b\) 的 REINFORCE 估计器中,单个行为 \(a_{t}\) 的策略梯度方差与 \((R(\tau) - b)^{2}\) 成比例
    • 当相同的基线应用于所有 \(T\) 个行为时,总梯度方差按 \(\mathcal{O}(T \cdot \text{Var}[R])\) 缩放
    • GRPO 和其他 Episode-level 方法通过组归一化部分缓解了这个问题,但根本问题仍然存在:
      • 对于 \(T = 100\) 轮和二元奖励,每个行为的信噪比大约比单轮推理设置差 \(100\) 倍
    • 实证上,Wang 等人(2025d)通过“回声陷阱”现象证明了这一点:
      • 在 Episode-level 信用下,Agentic 模型收敛到重复行为,因为梯度信号太嘈杂,无法区分有成效的行为和冗余的行为

Taxonomy Overview

  • 本文沿着两个正交轴组织方法(图 2):
    • 1)粒度轴(Granularity axis):信用在哪个级别分配?
      • Token-level (Token-level):生成过程中的单个 token
      • Segment-level (Segment-level):语义上有意义的跨度(例如,一个推理步骤)
      • 步骤/ Turn-level (Step/Turn-level):一个完整的 LLM 响应或工具调用周期
      • 多 Agent 级(Multi-agent level):跨协作 Agent 的信用分解
    • 2)方法论轴(Methodology axis):信用如何计算?
      • Monte Carlo (MC):从中间状态进行 Rollout
      • 时序差分(Temporal Difference, TD):学习到的价值函数与自举
      • 基于模型 / LLM 作为 Critic(Model-based / LLM-as-Critic):LLM 评估中间状态
      • 博弈论(Game-theoretic):Shapley 值,反事实基线
      • 信息论(Information-theoretic):信息增益,基于熵的度量

Classical Credit Assignment: A Brief Primer,经典信用分配简要入门

  • 在 LLM 时代之前,深度 RL 为信用分配开发了丰富的工具包,许多针对 LLM 的方法直接建立在这些基础之上
    • 注:本文简要介绍,关于更全面的内容推荐参考 A Survey of Temporal Credit Assignment in Deep Reinforcement Learning, 2023, University College London & Google DeepMind
Temporal Difference learning and value baselines
  • 最广泛使用的方法估计一个状态价值函数 \(V(s)\) 并使用优势 \(A(s,a) = Q(s,a) - V(s)\) 来分配信用
  • GAE(Generalized Advantage Estimation)(2016)通过参数 \(\lambda\) 在高偏差(TD(0))和高方差(MC)估计之间插值:
    $$\hat{A}_t^{\text{GAE}(\gamma ,\lambda)} = \sum_{l = 0}^{\infty}(\gamma \lambda)^l\delta_{t + l},\quad \delta_t = r_t + \gamma V(s_{t + 1}) - V(s_t) \tag {3}$$
  • 在 LLM 设置中,AgentPRM(2025)直接应用 TD+GAE 来学习 Agent 的 Turn-level 价值函数,而 ArCHe(2024c)使用带有 TD 更新的 off-policy critic
Return decomposition,Return 分解
  • RUDDER(2019)通过训练一个序列模型从部分轨迹预测回报,将 episodic 回报分解为每个步骤的贡献
  • 步骤 \(t\) 的贡献是预测回报的变化:
    $$c_{t} = \hat{R} (s_{0:t}) - \hat{R} (s_{0:t - 1})$$
  • 这个想法直接启发了 LLM 方法,如 RED(2024a)( Token-level 再分配)、SPA-RL(2025b)(基于 MLP 的进度估计)和 IGPO(2025a)(信息增益作为信用)
Hindsight credit assignment
  • HCA(2019)根据观察到的结果重新加权过去的行为,利用“知道未来会改变作者对哪些过去行为重要的估计”这一见解
  • 这种“向后看”的原则是 HCAPO(2026)的核心,它通过生成式验证将事后信用扩展到 LLM Agent
Counterfactual baselines, 反事实
  • 差异奖励通过将实际结果与反事实基线进行比较来评估一个行为的贡献:
    • “如果这个行为被默认行为替换,会发生什么?” 这需要环境重新执行或基于模型的近似
  • 在 LLM 设置中,C3(2026)和 CCPO(2026c)通过对 Agent 轮次进行留一分析来实现反事实信用,而 SCAR(2025)使用 Shapley 值——反事实基线的博弈论泛化
Key mapping to LLM RL
  • 经典范式映射到特定于 LLM 的方法如下:
    • TD/GAE \(\rightarrow\) 学习到的 critic(ArCHer, AgentPRM)
    • 回报分解 \(\rightarrow\) 奖励再分配(RED, SPA-RL)
    • 事后(hindsight)\(\rightarrow\) 回顾性分析(HCAPO)
    • 反事实(counterfactual)\(\rightarrow\) 留一和 Shapley(C3, SCAR)
  • LLM Setting 引入了一个经典 RL 中不存在的独特能力:
    • LLM 本身可以作为 critic,提供对中间状态的自然语言评估(2025;2025;2025)
    • 这种 LLM-as-Critic 范式没有直接对应的经典类比,并代表了信用分配方法论的一个独特轴
  • 图 3:本调研中回顾的所有 47 种信用分配方法的分层分类法
    • 方法按设置(Reasoning / Agentic / Multi-Agent)组织,然后按方法论族组织
  • 缩写的方法论标签显示在括号中
    • 详情见表 5
  • Process Reward Models Are Credit Assignment
    • 一个关键的概念澄清:过程奖励模型(Process Reward Models, PRMs)不仅仅是一种奖励建模技术
      • PRMs 从根本上说是一种信用分配机制:一个为每个推理步骤 \(i\) 打分 \(r_i\) 的 PRM 正在对终端奖励 \(R(\tau)\) 执行步骤级的信用分解
      • 因此,PRM 文献(Math-Shepherd, OmegaPRM, PURE)和 CA 文献(VinePPO, SPRO, SCAR)是同一潜在问题的两个视角
    • 在本文采用 CA 视角,将 PRM 视为分配信用的几种方法论之一

RL Algorithms for LLMs: A Brief Overview

  • 信用分配方法不是孤立运作的
    • 信用分配是更广泛 RL 算法内部的组成部分
  • 本节简要回顾用于 LLM 训练的主要 RL 算法,重点说明每个算法与信用分配的关系
PPO
  • PPO 是 RLHF 的主力,用于 InstructGPT、ChatGPT 和 Claude
  • PPO 训练一个学习到的价值函数 \(V_{\phi}(s)\) 作为基线,通过 GAE 计算 Token-level 优势
  • 价值函数本身就是一个信用分配机制(其质量直接决定了训练效率)
  • 问题:为 LLM 规模的状态空间训练一个准确的价值函数是出了名的困难:
    • 价值网络必须处理数千个 token 的序列并产生可靠的标量估计,这一挑战催生了无 critic 的替代方案
REINFORCE and REINFORCE with baseline
  • 最简单的策略梯度方法,REINFORCE 计算
    $$ \nabla_{\theta}J = \mathbb{E}[\sum_{t}\nabla_{\theta}\log \pi_{\theta}(a_{t}|s_{t})\cdot R(\tau)]$$
    • 将完整回报作为信用分配给每个行为
  • 添加一个基线 \(b\)(例如,平均回报)可以减少方差,但不能提供每个行为的信用区分
  • 因为这类方法实现简单,带有学习到基线的 REINFORCE 被用于最近的一些 LLM RL 系统中,尽管它的信用分配是所有方法中最粗糙的
GRPO
  • GRPO(2024)与 DeepSeek-R1 一起推出,用组比较基线取代了学习到的价值函数:
    • 对于来自同一提示的一批 \(G\) 条轨迹,优势为
      $$\hat{A}_{i} = R(\tau_{i}) - \frac{1}{G}\sum_{j}R(\tau_{j})$$
    • 这完全消除了对 critic 网络的需求,使 GRPO 在计算上很有吸引力
  • 但 GRPO 仅提供 Episode-level 信用(一条轨迹中的每个 token 都收到相同的优势)
    • 这是本文中提到的大多数方法旨在改进的信用分配限制
DPO
  • DPO(2023)通过直接从偏好对优化策略来绕过显式的奖励建模
    • 正如 “From \(r\) to \(Q^{*}\)”(2024)所示,DPO 隐式地学习了 Token-level Q 值,提供了一种隐式的信用分配形式
    • 像 iStar(2025)和 ITPO(2026)这样的方法利用这一见解,从经过 DPO 训练的模型中提取步骤级的信用,而无需显式的奖励计算
The credit assignment perspective on RL algorithms,RL 算法上的信用分配视角
  • 从 CA 的角度来看,这些算法形成了一个谱系:
    • REINFORCE/GRPO 提供 Episode-level 信用(最粗糙)
    • PPO 通过学习到的 critic 提供 Token-level 信用(更精细但近似)
    • DPO 提供隐式的 Token-level 信用(理论优雅但难以提取)
  • 本文调研的方法可以看作是对这些基础算法的信用分配质量的增强,例如:
    • VinePPO 用 MC 估计取代了 PPO 的学习到的 critic
    • HCAPO 在 GRPO 之上增加了事后分析
    • CARL 在任何基础算法中选择性地应用信用
Other related algorithms
  • 在 LLM 训练中使用的其他几种 RL 和自我改进算法没有被深入覆盖,因为它们的信用分配特性属于上述范围之内
  • RLOO(REINFORCE Leave-One-Out)使用留一基线
    $$ b_{i} = \frac{1}{G - 1}\sum_{j\neq i}R(\tau_{j})$$
    • 这是一种与 GRPO 的组基线密切相关的方差 reduction 技术
    • 从 CA 的角度来看,它仍然是 Episode-level
  • REINFORCE++ 向 REINFORCE 添加了一个 Token-level KL 惩罚
    • 介于 REINFORCE 和 PPO 之间,但没有引入新的信用分解机制
  • Online DPO、IPO 和 KTO 是偏好优化变体,它们共享 DPO 的隐式信用结构
    • 它们的 CA 属性继承自上述的“From \(r\) to \(Q^{*}\)”分析
  • ReST、Expert Iteration 和 STaR 是迭代式的自我改进方法,它们基于结果质量过滤或精炼训练数据
    • 它们间接地与信用分配交互(通过策划要从中学习的轨迹),但不会分解轨迹内的信用
  • 本文关注 PPO、GRPO、REINFORCE 和 DPO
    • 它们涵盖了信用分配方法设计空间的核心部分

Credit Assignment in Reasoning RL

  • 在 Reasoning RL 中
    • LLM 生成单条思维链响应
    • 轨迹是一次生成中的 token 序列
  • 这里的 credit assignment 方法在 Token-level 和 segment/ Step-level 上运作,将结果奖励分配到整个推理链中

Token-Level Methods

Monte Carlo Token-Level Estimation
  • VinePPO
    • VinePPO (ICML 2025) 将 PPO 中学习到的价值网络替换为 Token-level 无偏蒙特卡洛价值估计
    • 关键 Insight:对于自回归 LLM,从任何中间前缀生成 rollout 都非常便宜(只需从模型中继续采样即可)
    • 在每个 token 位置 \(t\),VinePPO 分叉出 \(K\) 条独立的延续(“藤蔓”),根据结果奖励评估每条延续,并估计
      $$ V(s_t) \approx \frac{1}{K} \sum_{k = 1}^{K} R(\tau_k^{(k)})$$
    • Token-level 优势为
      $$\hat{A}_t = R(\tau) - V(s_t)$$
      • 这提供了无偏的优势,没有学习到的 critic 的函数近似误差
  • 在 GSM8K 和 MATH 上,VinePPO 显著优于使用学习到的价值函数的标准 PPO,证明了 credit assignment 质量(而非策略优化)是主要的瓶颈
  • 主要的限制是计算成本:每个训练轨迹需要 \(\mathcal{O}(K \cdot L)\) 次额外的前向传播,其中 \(L\) 是序列长度
Reward Redistribution
  • RED
    • RED(Reward Redistribution to Token Level)采用了一种务实的方法:
      • 给定一个为 RLHF 训练的现成 RM,它通过线性回归探测 RM 的内部表示来估计 Token-level 奖励贡献
      • 具体做法:训练一个轻量级探针(问题:似乎不需要重新训练吧,即使训练也没有中间标记的样本啊),利用 RM 的隐藏状态来预测每个 token 对整体奖励分数的边际贡献
      • 设生成序列长度为 \( T \),\( \mathcal{R}_{\phi}(x, y_{\leq t}) \) 为奖励模型对前 \( t \) 个 token 的输出分数,定义 token 级别的奖励为:
        $$
        \tilde{r}_t^{RM} = \mathcal{R}_{\phi}(x, y_{\leq t}) - \mathcal{R}_{\phi}(x, y_{\leq t-1}), \quad \text{for } 0 \leq t \leq T
        $$
        • 其中令 \( \mathcal{R}_{\phi}(x, y_{\leq -1}) = 0 \),则有:
          $$
          \sum_{t=0}^{T} \tilde{r}_t^{RM} = \mathcal{R}_{\phi}(x, y_{\leq T})
          $$
          • 即所有 token 奖励之和等于原序列的整体奖励
      • RED 方法可与 PPO、RLOO 等 RL 算法无缝集成,最终每个 token 的奖励为:
        $$
        r_t^{\text{final} } = \tilde{r}_t^{RM} - \beta \cdot r_t^{KL}
        $$
    • 注:不需要额外的 RL 训练(再分配完全是事后进行的)
    • RED 提供了一种 surprisingly effective 的 Token-level 信号,相比均匀 credit assignment 能改善 PPO 训练,这表明预训练的奖励模型已经编码了丰富的、未被充分利用的 credit assignment 信息
  • T-REG
    • T-REG(Token-Level Reward Regularization)在没有任何外部模型的情况下生成 Token-level 奖励信号
    • T-REG 使用一种对比性自提示策略:
      • 对于一个给定的问题,模型生成正确和不正确的解决方案,然后比较 Token-level 对数概率差异,以识别哪些 token 最具区分性
      • 在正确和错误解决方案之间差异最大的 token 获得更高的 credit
      • 这种自监督方法非常简洁,不需要奖励模型、critic 或额外的 rollout
Implicit Token-Level Credit,隐式 Token-level Credit
  • From \(r\) to \(Q^*\)
    • 这项工作为偏好训练模型中的隐式 credit assignment 提供了理论基础
    • 文章表明:DPO 隐式地学习了一个 Token-level Q 函数:
      • 在训练模型和参考模型之间,每个 token 位置的对数概率比率对应于贝尔曼方程下的 soft Q 值
        $$
        Q^{*}(s_t, a_t) = \beta \log \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\text{ref} }(a_t | s_t)} + \beta \log Z(s_t)
        $$
        • \(\beta\) 是 DPO 温度参数,\(Z\) 是一个归一化配分函数
    • 这一 Insight 意味着
      • 任何经过偏好训练的 LLM 已经内在地编码了 credit assignment 信息,而提取这种隐式 credit 可能比学习显式的奖励模型更高效
      • 注:这个 Insight 的实际意义是深远的:credit assignment 可能是对齐训练的一个“免费”副产品

Segment-Level Methods

  • SPO
    • SPO(Segment Policy Optimization)在 Token-level 和 Episode-level credit 之间找到了一个实用的中间地带
    • SPO 将推理链在“切割点”处划分为语义上有意义的 segments(即按照一些转义 Token 等来划分)
      • 这些 Segment 划分边界位置是推理在不同子问题或方法之间过渡的地方(例如,在建立方程和解方程之间)
      • 对于每个 segment,SPO 通过比较共享该 segment 之前相同前缀的轨迹的结果来计算 MC 优势
      • 这种 segment 级别的粒度自然地与数学推理的结构对齐,其中每个“步骤”是一个连贯的单元,同时避免了 Token-level MC 估计的过高成本
  • TEMPO
    • TEMPO(Tree-Structured Credit Assignment)将推理的线性链结构推广到树
    • 在模型本可以采取不同路径的决策点
      • TEMPO 将轨迹分支成一棵树,每个分支代表一个备选延续
      • 然后应用分支门控 TD 校正:
        • 叶节点(完成的轨迹)上的 MC 估计通过使用 TD 风格的自举在内部节点向上传播
    • 这种混合方法结合了叶节点的 MC 无偏性和内部节点的 TD 方差减少
    • 注:TEMPO 是无 critic 的
      • TEMPO 不需要学习价值函数,而是使用树结构本身来提供多分辨率 credit 信号
  • SCAR
    • SCAR(Shapley Credit Assignment Rewards)将合作博弈论引入 credit assignment
    • SCAR 将推理链视为一个联盟博弈,Shapley Value 的解释见:Math——博弈论-Shapley-Value
      • 其中每个 segment 是一个“玩家”,结果奖励是博弈的价值
      • 每个 segment 的 credit 是其 Shapley 值
        • 即在所有可能的 segments 排序中,其平均边际贡献
      • Shapley 值是唯一满足效率(credits 总和等于总奖励)、对称性(平等贡献者获得平等 credit)和虚拟玩家属性(非贡献者获得零 credit)的归因方法
      • 主要挑战是计算量:对于 \(n\) 个 segments,精确的 Shapley 值需要评估 \(2^{n}\) 个联盟
      • SCAR 使用基于抽样的近似,用精确性换取可处理性
      • SCAR 提供了一个理论上严谨的 credit assignment,可以作为评估更便宜的启发式方法的黄金标准参考

Step-Level Methods in Reasoning

  • 这些方法将每个“推理步骤”(例如,一行数学推导)视为 credit 的单位
Process Reward Models, PRMs
Background: Math-Shepherd and OmegaPRM
  • 过程奖励模型 (PRM) 范式最初是为推理验证引入的,为 Step-level credit assignment 提供了一个自然的框架
    • Math-Shepherd (2024) 开创了自动化的 Step-level 标注:对于每个推理步骤,它对多个 continuations 进行采样,如果有足够比例的 continuations 能到达正确答案,则将该步骤标记为“正确”
    • OmegaPRM (2024) 使用分治策略扩展了这种方法,该策略有效地探索了可能的延续树
    • 这些 PRM 基础为下游 CA 方法构建所依赖的 Step-level 监督提供了基础,并且它们基于 MC 的标注策略直接与经典的回报分解范式相关联
PURE
  • 原始论文:(PURE)Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning (ICML 2025)
  • PURE 对基于 PRM 的 credit 做出了一个微妙但重要的理论贡献
  • 标准 PRM 将 Step-level 价值分配为未来奖励的期望总和:
    $$ V(s_{t}) = \mathbb{E}[\sum_{t^{\prime} = t}^{T}r_{t^{\prime} }]$$
    • 理解:状态价值等于未来奖励的总和的期望
    • PURE 认为这种“求和形式”的 credit 容易受到 Reward Hacking 的影响
      • 模型可以学习产生“安全”的中间步骤来增加期望总和,而实际上并不对正确性做出贡献
    • PURE 提出了最小形式 credit:
      $$ V(s_{t}) = \mathbb{E}[\min_{t^{\prime} \geq t} r_{t^{\prime} }]$$
      • 含义:状态的价值由最差的未来步骤决定
        • 问题:比如未来如果有一步会导致得到 0 分,那么前面的状态价值就是 0 分
      • 问题:这改变了 RL 最大化未来累计奖励的目标
      • 这可以防止模型将错误“隐藏”在高分步骤之后,并提供更稳健的 Step-level credit 信号
    • 理论分析表明,最小形式 credit 能导致更好校准的过程奖励并减少过度优化
SPRO
  • 原始论文:(SPRO)Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning, 20250703, Terminus Group & HKUST
  • SPRO(Self-Guided Process Reward)引入了一种自监督的 Step-level credit 方法,不需要外部 PRM 或奖励模型
  • SPRO 核心机制是掩码步骤优势:
    • 在解决方案中,对于每个步骤 \(i\),SPRO 掩码(移除)该步骤并重新评估解决方案达到正确答案的可能性
    • 步骤 \(i\) 的 credit 是其移除导致的性能下降:
      $$ c_{i} = P(\text{correct}|\text{full solution}) - P(\text{correct}|\text{solution without step } i)$$
    • 这种留一法方法提供了对每个步骤必要性的直观衡量
    • SPRO 报告称,与标准 GRPO 相比,训练效率提高了 \(3.4 \times\),表明即使是简单的自监督 credit 信号也能极大地加速学习
FinePO
  • FinePO (2026) 是用于图表理解的 SketchVL 框架的一部分
  • FinePO 证明了 PRM 范式可以在特定领域设置中被推到子步骤粒度
  • 在一个视觉推理流程中,FinePO 对每个推理步骤中 的单个操作 进行评分,提供了比标准 Step-level PRM 更精细的 credit 信号
  • FinePO 是为特定领域(图表和图示理解,而非一般数学推理)开发的,但其 credit assignment 机制(将 Step-level 奖励分解为子步骤贡献 )说明了一个可能推广到其他推理步骤具有内部结构的设置的方向
PRL
  • PRL(Process Reward Learning, 2026)在过程奖励与最优策略的结构之间提供了一个理论上优雅的联系
  • PRL 从熵正则化 RL 目标的分解中推导出 Step-level 过程奖励,表明在熵正则化最优策略下,每个步骤的最优过程奖励等于优势函数
  • 这种理论依据意味着 PRL 的 credit 信号不是启发式的,而是在特定假设下被证明是最优的,为 Step-level credit assignment 提供了一个有原则的基础
InT
  • InT(自我提出干预,Self-Proposed Interventions, 2026)在推理 credit assignment 中采用了一种独特的方法:
    • 模型自己提出干预:
      • 对特定推理步骤的反事实修改,并评估这些干预是否会改变结果
    • 给分:
      • 那些改变结果的步骤获得高 credit
      • 那些无关紧要的步骤获得低 credit
      • 理解:这里指的 Credit 不是奖励,而是造成当前结果的影响权重(所以 高 credit 不意味着高 Reward,也可能是更置信的 低 Reward 结果)
    • 这种自我提出的干预机制提供了一种有原则的、模型内在的步骤重要性度量,无需外部奖励模型
Attribution-Based and Curriculum Methods,基于归因和课程的方法
ACPO
  • ACPO(Attribution-based Credit for RLVR,2025)将 credit assignment 与课程学习相结合
  • ACPO 使用归因方法(例如,基于梯度的显著性)计算分解的层次化奖励,将结果奖励分解为步骤贡献,然后使用这些 Step-level 信号构建一个难度感知的训练课程
  • credit 集中在少数步骤上(清晰的分叉点)的问题在训练早期被优先考虑,而 credit 分散的问题(许多步骤贡献相等)在后期引入
  • credit assignment 和数据选择之间的这种协同作用体现了一个更广泛的趋势:
    • CA 不仅仅是关于奖励再分配,而是关于使整个训练流程更高效
LLM-as-Critic for Reasoning
CAPO
  • CAPO(Credit Assignment Policy Optimization, 2025)利用了 LLM 设置中独有的能力:
    • 模型可以作为自己的 critic
  • CAPO 使用 LLM 作为生成式 PRM (GenPRM)
    • 给定一个推理轨迹,同一个 LLM(或其 Prompted 版本)会生成对每个步骤的自然语言批判,评估其正确性、相关性和对最终答案的贡献
    • 这些批判被转换为标量的 Step-level 奖励,用于驱动策略优化
  • 主要优势是自包含:
    • 不需要单独的奖励模型、critic 网络或 MC rollouts
  • 主要风险是:
    • 自我评估偏差(模型可能系统地高估自己的步骤)
    • 注:CAPO 通过校准技术来缓解这一点
Hierarchy-Aware Methods in Reasoning
HICRA
  • HICRA(层次感知 Credit Assignment,2025)研究了 RL 如何在 LLM 中发展层次化推理
  • HICRA 识别出一个两阶段的学习动态:
    • 模型首先获得 procedural 技能(常规计算),然后发展出 Strategic Planning(高层次的问题分解)
  • HICRA 建议将 credit 集中在高影响力的规划 token 上,而不是均匀地分布学习信号,表明这种层次感知的方法显著优于平坦的 credit assignment
  • HICRA 是在 Reasoning RL 背景下开发的,但其 Insight 与 Agentic Setting 高度相关(见第 5.4 节),Agentic Setting 中战略决策和常规执行之间的区别甚至更为明显
    • Insight 内容:Token 的不同功能角色(planning vs. procedural)应该得到不同的 credit 处理

Discussion: The State of Credit Assignment in Reasoning RL

  • 本节回顾的方法揭示了一个成熟的格局,具有清晰的权衡:
    • Token-level 方法(VinePPO,RED,T-REG)提供了最精细的 credit 粒度,但面临计算挑战
      • VinePPO 的 MC 方法在理论上严谨但代价高昂
      • RED 和 T-REG 提供了更便宜的替代方案,但代价是信用信号的严谨性较低
    • Segment/ Step-level 方法代表了当前的主流
      • PRM(PURE,SPRO)和层次感知方法(HICRA)在 credit 质量和计算成本之间提供了实用的平衡
      • FinePO (2026) 这样的特定领域扩展表明,在结构化领域中,子步骤粒度是可行的
    • LLM 作为 Critic 范式(CAPO)正在成为一种独特的、LLM 原生的方法,在经典 RL 中没有直接的类似物
  • 一个关键的观察是,所有 Reasoning RL credit assignment 方法都隐式地依赖于三个假设:
    • 1)确定性转移 :从前缀生成下一个 token 总是产生相同的状态,这使得廉价的 MC 估计成为可能
      • 否则随机性比较高的 Setting ,方差较大,需要采样更多的样本才能做较为准确的 MC 估计
    • 2)单次生成轨迹 :整个轨迹是一次自回归生成,没有环境交互
    • 3)可验证的结果 :最终答案(以及通常的中间步骤)可以根据 ground truth 进行检查
  • 当这些假设中的任何一个被违反时(就像在 Agentic RL 中那样),上述方法就会面临根本性的限制:
    • VinePPO 的藤蔓扩展需要重新执行环境交互
    • PRM 需要步骤级验证,但 Agentic 任务很少能提供这种验证
      • 理解:更多是需要最后才知道是否成功
  • Reasoning RL 中 credit assignment 的成功提出了一个自然的问题:
    • 问题:当 LLM 与现实环境交互时,同样的方法能否工作?
    • 回答:回答基本上是否定的,Agentic RL 引入了质的不同挑战,需要不同的方法

Why Agentic RL Fundamentally Reshapes Credit Assignment,Agentic RL 重塑 Credit Assignment

  • 本节回答是什么使得 Agentic RL 中的 credit assignment 与 Reasoning RL 有质的不同

Challenge 1: Stochastic Environment Transitions

  • 在 Reasoning RL 中,转移函数是确定性的:
    • 给定一个前缀 \((x,y_{1},\ldots ,y_{t - 1})\),生成 token \(y_{t}\) 后的下一个状态就是 \((x,y_{1},\ldots ,y_{t})\)
    • 这种确定性是 credit assignment 的强大推动因素
      • 像 VinePPO (2025) 这样的方法可以通过从任何前缀分叉多条延续来廉价地估计 \(V(s_{t})\),因为知道“环境”(LLM 自身的生成)是完全可控和确定性的
  • 在 Agentic RL 中,这个假设从根本上被打破了
    • 在 Agent 发出一个动作(例如,工具调用、网络请求、代码执行命令)后,环境的响应是随机的:
      • API 调用可能失败、超时或返回限流响应
      • 自上次访问以来,网页可能已经更改,或者由于 A/B 测试而加载不同
      • 代码执行可能产生非确定性输出(例如,浮点变化、竞态条件)
      • 在对话设置中,用户的响应本质上是不可预测的
  • 这种随机性对 credit assignment 有直接的影响
    • 基于 MC 的方法需要从中间状态重新执行环境交互,这通常是昂贵的(需要沙盒环境)或不可能的(环境状态可能无法被 checkpoint)
      • 个人补充:随机也会导致方差变大,从而需要采样更多样本用于 MC 估计才合适?
    • 基于 TD 的方法必须应对 TD 误差中更高的方差
      $$ \delta_{t} = r_{t} + \gamma V(s_{t + 1}) - V(s_{t})$$
      • 因为 \(s_{t + 1}\) 现在是一个随机变量
  • 这就是为什么 Agentic CA 方法越来越青睐事后分析(hindsight)方法 (2026)
    • 在收集完轨迹后进行分析,而不是需要反事实重新执行

Challenge 2: Partial Observability,部分可观测性

  • Reasoning RL 在一个完全可观测的 MDP 中运行:
    • 状态(提示 + 到目前为止生成的 token)对模型是完全可见的
  • Agentic RL 本质上是一个部分可观测的 MDP (POMDP)
    • Agent 通过一个通常是损失性的文本观测函数 \(o_{t} = \mathcal{O}(s_{t})\) 来感知环境:
      • 数据库的完整状态是不可见的(Agent 只看到查询结果)
      • 文件系统内容只能通过显式的 ls 或 cat 命令来观测
      • 在多 Agent 设置中,其他 Agent 的内部状态和推理是隐藏的
      • 网页状态包括不可见元素(JavaScript 状态、会话数据、服务器端逻辑)
  • 部分可观测性从根本上使 credit assignment 复杂化,因为它在决策质量和信息可用性之间引入了模糊性
    • 一个事后看来“糟糕”的动作(例如,调用了错误的 API)可能基于 Agent 当时的信息是最优的
    • 一个正确的 credit assignment 系统必须区分:
      • 1)决策错误 :Agent 拥有足够的信息但做出了糟糕的选择
      • 2)信息差距 :Agent 缺乏关键信息,并且没有可用的行动可以弥补这一差距
      • 3)探索性动作 :Agent 正确地选择了收集信息,即使即时的结果是负面的
  • 大多数当前的 CA 方法没有明确地处理这种区分,而是根据结果而不是相对于可用信息的决策质量来分配 credit
    • 解决这个差距是一个重要的开放问题(见第 9 节)

Challenge 3: Vastly Longer Horizons,更长的视野

  • Reasoning RL 和 Agentic RL 之间在轨迹长度上的定量差异是巨大的:
  • 表 2:推理和 Agentic RL 设置中的轨迹复杂性
    • Agentic 任务涉及更多的 turns、tokens 和决策点,为 credit assignment 带来了质的变化
  • 这不仅仅是一个数量上的差异:这为 credit assignment 创造了一个质的障碍
    • 具有常数基线的 REINFORCE 估计器的方差缩放为
      $$ \mathcal{O}(T\cdot \text{Var}[R]) $$
      • \(T\) 是决策点的数量
    • 从 \(T = 10\)(简单推理)到 \(T = 100\)(复杂 Agentic,例如 SWE-bench)会使梯度方差增加 \(10 \times\),需要成比例更多的 rollouts 才能达到相同的梯度质量
      • 在实践中,这表现为训练不稳定、 Reward Hacking 和 Echo Trap (2025d),即 Agent 收敛到重复的安全行为
  • 此外,长视野创造了一个时间距离问题:
    • 早期决策(例如,在第 1 轮选择问题解决策略)的影响在许多轮之后才会显现
    • 动作和结果之间的因果链变得越来越间接,使得 MC 和 TD 方法都效率降低

Challenge 4: Heterogeneous Action Types,异构动作类型

  • 在 Reasoning RL 中,动作是同质的:
    • 每个动作都是“生成下一个 token”或“产生下一个推理步骤”
    • 动作的 credit 分布相对均匀(每个步骤都对解决方案做出增量贡献)
  • Agentic RL 引入了根本性的动作异质性,在单个轨迹中,一个 Agent 可能执行:
    • 规划动作 :制定高层次策略(“我应该先搜索 API 文档,然后编写测试,然后实现函数”)
    • 工具选择 :选择调用哪个工具(搜索 vs. 计算器 vs. 代码执行)
    • 工具参数化 :决定如何调用工具(搜索什么查询,运行什么代码)
    • 通信 :向用户或其他 Agent 发送消息
    • 错误恢复 :检测失败并决定如何重试或转向
    • 记录性动作 :格式化输出、更新内部状态、记录进度
  • 这些动作类型具有截然不同的“credit 分布”
    • 在关键时刻选错工具可能是灾难性的(导致完全错误的解决路径),而次优的输出格式则是微不足道的
      • 注:之前的 Episode-level credit 对两者赋予相同的权重
    • 这种异质性催生了一些新的方法:
      • CARL (2025) 这样的方法,使用动作熵 来识别高影响力的决策点并将 credit 集中于此
      • HICRA (2025c),它在推理设置中区分了“Planning tokens”和“Procedural tokens”

Challenge 5: Non-Verifiable Intermediate States,不可验证的中间状态

  • Reasoning RL 中 credit assignment 的一个关键推动因素是步骤级别的可验证性
    • 在数学推理中,每个中间步骤通常可以被检查:
      • “这个代数操作正确吗?”
      • “这个方程是从前一个推导出来的吗?”这种可验证性支撑着整个过程奖励模型 (PRM) 范式 (2024;2024;2025),
      • 步骤级别的标签 \((+ / - )\) 为 credit assignment 提供了密集的监督
  • 在 Agentic RL 中,中间验证几乎是不可能的:
    • 工具调用 :“search(‘Python web scraping’)” 是一个好动作吗?这完全取决于搜索返回什么,这在执行前是未知的
    • 代码生成 :生成的代码正确吗?只有在执行后才能验证,即使那样,部分正确性也难以量化
    • 导航 :点击链接 X 是否有效?取决于它指向哪里
    • 通信 :“向用户寻求澄清”有帮助吗?主观且依赖于上下文
  • 缺乏中间可验证性意味着在 Reasoning RL 中最成熟的 PRM 风格方法无法直接迁移到 Agentic 设置
    • 这种差距推动了替代方法的发展:
      • 基于事后分析的 credit (2026)(在结果出现后评估动作)、通过 DPO 的隐式 credit (2025)(完全避免显式的步骤级评估)以及特权 critic (2025)(使用仅在训练时可用的信息来提供步骤级信号)
  • 个人理解:这里的挑战其实两者都有,且 Agentic 中也有类似可以验证的中间步骤,比如最经典的问题 “带领阿根廷获的 2022 年世界杯冠军的队长,其出生年份中国的 GDP 是多少?”
    • 中间奖励可以是:是否定位到这个队长是梅西;是否定位到 1987

Challenge 6: The Bifurcation Point Problem,分叉点问题

  • Reasoning RL 中,分叉点是中等频率的(Moderate frequency)
  • Agentic RL 中,分叉点是稀有的,但往往是决定性的(Rare but decisive)
  • 将分叉点 定义为一个状态,其中 Agent 的动作对轨迹结果产生超大的影响
    • 一个“道路的岔路口”,不同的选择会导致截然不同的结果
    • 在 Agentic RL 中,分叉点具有独特的特征:
      • 稀有性 :Agentic 轨迹中的大多数动作都是“常规的”
        • 遵循明显的后续步骤、格式化输出、进行标准的 API 调用
        • CARL (2025) 中的实证分析表明,分叉点可能只发生在决策点的一小部分
      • 决定性 :尽管稀有,但分叉点可能占结果方差的绝大部分
        • 选择正确的调试策略、为任务选择正确的工具或制定有效的搜索查询,通常是区分成功与失败的动作
      • 非显而易见性 :分叉点通常无法提前识别
        • 分叉点的重要性只有在事后回顾轨迹如何展开时才变得清晰
  • Episode-level credit (GRPO) 对分叉点是盲目的:
    • GRPO 对关键的工具选择和琐碎的格式化动作赋予相同的 credit
  • 这激发了两种互补的策略:
    • (1) 识别分叉点并将 credit 集中于此
      • CARL (2025) 使用动作熵作为代理
      • HICRA (2025c) 区分 Planning 动作和 Procedural 动作
    • (2) 事后评估分叉点
      • HCAPO (2026) 使用事后分析
      • C3 (2026) 使用反事实比较

Summary: The Agentic Credit Assignment Gap,Agentic Credit Assignment 差距

  • 表 3:Credit assignment 挑战: Reasoning RL vs. Agentic RL
  • 理解:
    • 中间状态验证(Intermediate verification)部分,其实部分场景的 Agentic RL,如 Search Agent 中也可以通过只是图谱等方式拆解出来一些中间验证步骤
    • 分叉点(Bifurcation points)部分,Reasoning RL 中应该也有,但是不清晰(比如类似 But,So 等连词)

Credit Assignment in Agentic RL

  • 本节总结专门为 Agentic RL 设计或适用于 Agentic RL 的方法,其中多轮环境交互是核心
  • Agentic RL 方法总结:

Turn-Level Process Reward Models

AgentPRM
  • AgentPRM (2025) 通过用 \(TD + GAE\) 值的估计取代基于 MC 的步骤标记(labeling),将 PRM 范式从推理适应到 Agentic 设置
  • AgentPRM 的关键洞察在于,MC 标记在 Agentic 设置中代价非常高
    • 因为它需要重新执行环境交互(启动沙盒环境、发起真实 API 调用等)
    • 注:这里 MC 标记指的是从每个步骤采样 continuations 以估计步骤正确性
  • AgentPRM 使用时序差分学习来训练一个步骤级 Critic:
    $$ V(s_t) \leftarrow V(s_t) + \alpha [r_t + \gamma V(s_{t + 1}) - V(s_t)]$$
    • 并使用 GAE 进行优势估计
  • AgentPRM 应用于工具使用、代码生成和网页导航任务,AgentPRM 报告称与基于 MC 的 PRM 训练相比,样本效率提高了 \(8 \times\)
  • 这项工作表明,当环境重执行代价高昂时,TD 范式(尽管通过 bootstrapping 引入了偏差)在实践中是必需的
SWEET-RL
  • SWEET-RL(Meta/FAIR,2025)引入了特权(非对称)Critic 的概念,用于多轮 LLM Agent 训练
    • 特权 Critic:Privileged Critic
  • SWEET-RL 的核心思想利用了训练/推理的不对称性:
    • 在训练时,可以访问 Agent 在推理时没有的信息
    • 信息包括:ground truth 答案、完整的未来轨迹,以及可能的环境状态变量
  • SWEET-RL 训练一个以这些特权信息为条件的 Critic,以提供高质量的 Turn-level 奖励信号,然后这些信号被用于 Actor 的 DPO 风格优化(Actor 仅能看到标准观测)
  • 这种方法巧妙地规避了不可验证性的挑战(第 4.5 节):
    • 即使中间状态无法从 Agent 的视角进行验证,特权 Critic 也可以使用仅在训练时可用的信息来评估它们
    • 非对称设计确保了:
      • Actor 的策略针对实际的(部分可观测)Setting 进行优化(所以训练完不需要 Privileged 信息就能使用)
      • credit 信号则受益于训练期间可用的完整信息
Turn-Level Reward Design
  • Turn-Level Reward Design (NeurIPS 2025)提出了一种混合奖励设计,将奖励类型与动作类型相匹配
  • 对于输出可验证的轮次(例如,代码执行结果、数据库查询输出、数学计算),Turn-Level Reward Design 使用自动验证来提供精确的 Turn-level 奖励
  • 对于输出主观或难以验证的轮次(例如,规划、信息综合、通信),Turn-Level Reward Design 采用 LLM-as-Judge 来提供近似的 Turn-level 分数
  • Turn-Level Reward Design 框架将多轮 Agent 训练形式化为一个具有异构奖励源的 MDP
    • 结果表名:这种混合方法显著优于纯基于验证的和纯基于 LLM-judge 的奖励 ,因为每种奖励类型都应用在它 Most Reliable 地方
Turn-PPO
  • Turn-PPO(2025 & EACL 2026)将多轮 Agent RL 重新表述为一个 Turn-level MDP
    • 其中每一轮(完整的 LLM 响应 + 环境反馈)被视为单个宏动作
  • 在这个表述下,Turn-PPO 使用 Turn-level 值函数计算 Turn-level 优势估计,用 Turn-level 重要性比率取代了标准的 Token-level 重要性采样
  • 这种重新表述消除了在多轮间由 Token-level credit 引入的巨大方差
  • 在 WebShop 和 Sokoban 上的评估表明
    • Turn-PPO 比标准 PPO 具有更好的稳定性和最终性能,证实了轮次是多轮 Agent credit 的自然原子单元
SORL
  • SORL(Stabilizing Off-Policy RL for Long-Horizon Agent Training,2025)解决了多轮 Agent RL 中由两个来源引起的不稳定性:
    • (1) Token-level 优化与轮次结构化交互之间的粒度不匹配
    • (2) 来自 off-policy 采样的高方差梯度更新
  • SORL 提出了 Turn-level 重要性采样结合裁剪触发归一化,以两种算法实例化(SO-PPO 和 SO-GRPO),使策略优化与多轮交互的结构对齐,并自适应地抑制不可靠的 off-policy 更新
  • 在多轮搜索基准上的评估表明,SORL 为 “为什么 Turn-level CA 需要专门构建的优化算法而不是简单地应用标准 PPO 或 GRPO” 提供了理论基础
TARL
  • TARL(Turn-level Adjudicated Reinforcement Learning,Turn-level 裁决 RL, 2025)为交互式多模态工具使用 Agent 提出了一个过程监督的 RL 框架
  • TARL 核心机制采用 LLM as a Judge 在训练期间提供 Turn-level 评估,解决了长时域 Agentic 任务中的 credit 分配挑战
  • 实验:结合一个混合任务训练课程(该课程整合了数学推理问题),TARL 报告称:
    • 在 \(\tau\)-bench 基准测试上,与强 RL 基线相比,任务通过率提高了 \(6% +\),证明了 Turn-level 过程监督对多模态 Agent 的价值
ITPO
  • 原始论文:(ITPO)Implicit Turn-Wise Policy Optimization for Proactive User-LLM Interaction, Meta AI, 20260321
  • ITPO(Implicit Turn-Level Process Rewards,隐式 Turn-level 过程奖励,202603)从稀疏的结果信号中推导出隐式 Turn-level 过程奖励,无需训练单独奖励模型
  • 基于 “From \(r\) to \(Q^{*}\)” 的洞察 (2024),ITPO 从模型自身在各轮次间的对数概率变化中提取 Turn-level 奖励,将策略本身视为一个隐式 Critic
  • 实验:应用于主动式多轮交互设置(辅导、推荐),ITPO 表明:
    • 隐式 Turn-level credit 与显式训练的 Turn-level Critic 相比具有竞争力,而计算成本仅为其一小部分

Hindsight and Counterfactual Methods,事后和反事实方法

  • 这些方法利用了事后分析的一个关键优势:轨迹完成后,可以回溯并思考哪些因素是重要的
HCAPO
  • HCAPO(Hindsight Credit Assignment for Policy Optimization,用于策略优化的事后 Credit 分配,202603)通过回顾性分析直接解决了 Agentic RL 的不可验证性挑战
  • 在收集到一条轨迹后,HCAPO 使用一个 LLM Critic,在知晓完整轨迹结果的情况下 评估每一轮的贡献
    • 该 Critic 执行生成式验证:
      • 对于每一轮 \(t\),它生成反事实的 continuations(“如果这一轮的动作不同了会发生什么?”)并比较预期的结果
      • 这种事后方法对于 Agentic RL 尤其强大,因为它不需要环境重执行(反事实分析完全在 LLM 的“想象”中执行)
    • 关键 Insight:事后 credit 比前向 credit 提供更多信息:
      • 知道结果使得 Critic 能够区分偶然成功的动作(尽管次优但碰巧有效)和真正好的动作(有决定性因果关系地促成了成功)
C3
  • C3(Contextual Counterfactual Credit Assignment,上下文反事实 Credit 分配,202603)
    • 通过一个留一法框架形式化了 credit 分配
  • 对于一条有 \(T\) 轮的轨迹,轮次 \(t\) 的 credit 被估计为实际结果与将轮次 \(t\) 的动作替换为“默认”动作后期望结果之间的差值:
    $$ c_{t} = R(\tau) - R(\tau_{t})$$
    • 其中 \(\tau_{t}\) 表示反事实轨迹
  • 由于为每个反事实重新执行环境代价高昂,C3 使用基于模型的近似:
    • 一个 LLM 通过推理 “如果没有轮次 \(t\) 的特定动作轨迹将如何展开” 来估计 \(R(\tau_{t})\)
    • C3 最初为多 Agent LLM 协作开发,其框架自然扩展到将轮次视为合作博弈中“玩家”的单 Agent 设置
CCPO
  • CCPO(Counterfactual Credit Policy Optimization,反事实 Credit 策略优化,202603)为 Agentic credit 分配提供了一个正式的结构因果模型视角
  • CCPO 将轨迹建模为一个结构因果模型(SCM),其中每一轮的动作是处理变量,结果是效应
    • Turn-level credit 则是每个动作的平均处理效应(ATE),通过 do-演算(do-calculus)或实际近似来估计
  • CCPO 的形式化框架在特定的因果假设下(轨迹内没有未观测的混杂因素,当完整对话历史可用时这是合理的)提供了 credit 准确性的理论保证
  • 原文讨论:在 2026 年 3 月的一周内同时出现三篇独立的事后/反事实论文(HCAPO, C3, CCPO)是社区趋同的一个显著信号:
    • 该领域已共同将回顾性反事实分析确定为 Agentic credit 分配的自然范式
CriticSearch
  • CriticSearch(2025)将回顾性 credit 分配专门应用于搜索 Agent
    • 即发出搜索查询、处理结果并迭代优化其答案的 LLM
  • 冻结的、非对称的 critique LLM 使用特权信息(完整轨迹和 golden 答案)回顾性地评估每个搜索轮次,将这些评估转换为密集的、 Turn-level 奖励
    • 这与 SWEET-RL 的特权 Critic 设计(第 5.1 节)密切相关,但专门针对每个轮次涉及独特查询-结果周期的搜索领域
  • CriticSearch 报告称,在多跳推理基准测试上提高了收敛速度和稳定性,证明了回顾性 Critic 即使在以信息检索为中心的 Agent 任务中也是有效的

Critic-Free Step-Level Methods

GiGPO
  • GiGPO(组中组策略优化,NeurIPS 2025)以一种优雅的、无需 Critic 的方式,将 GRPO 的组比较原则从 Episode-level 扩展到了步级
  • GiGPO 引入了一个两层的优势估计:
    • 在外层,轨迹像标准 GRPO 一样被分组和比较
    • 在内层,单条轨迹内的步骤通过锚定状态分组进行比较
      • 共享相似前缀(锚定状态)的步骤被分到同一组,每个步骤的优势相对于其组均值计算
    • 这种“组中组”结构在不需学习值函数的情况下提供了步级 credit
  • 在 Agentic 基准测试(ALFWorld, WebShop)上的评估表明,GiGPO 相比 GRPO 分别取得了超过 12% 和 9% 的提升,证实了无需 Critic 的步级 credit 能够显著改善多轮 Agent 训练
POAD
  • POAD(Policy Optimization with Action Decomposition,带动作分解的策略优化,2024)解决了 Agentic RL 中一个细微的问题:
    • 动作级和 Token-level 优化之间的差异
      • 在 Agentic Setting 中,每个“动作”(例如,一个工具调用或响应)是一个可变长度的 Token 序列,然而标准 RL 将其视为原子操作
  • POAD 推导了带动作分解的 Bellman Backup,它将 credit 分配在两个层面上进行整合:
    • 动作内部(将 credit 分配到单个动作内的各个 Token)
    • 动作之间(将 credit 分配到序列化的动作之间)
  • 这种分解在 PPO 内部实现,增强了学习效率和泛化能力
  • POAD 是早期(2024 年 5 月)形式化 LLM Agent 的动作到 Token credit 分解问题的方法之一,值得关注

Hierarchical Methods

  • Agentic 任务具有自然的层级结构(计划 \(\rightarrow\) 执行 \(\rightarrow\) 验证),这些方法利用了这一结构
ArCHer
  • ArCHer(ICML 2024)是用于多轮 LLM Agent 的层级 credit 分配的开创性工作
  • ArCher 引入了一个明确的两层架构:
    • 一个高层的 off-policy Critic,学习一个 Turn-level Q-函数
      $$ Q^{H}(s_{t},a_{t})$$
      • 其中 \(a_{t}\) 是第 \(t\) 轮的完整 LLM 响应
    • 一个低层的 on-policy Actor,它优化每一轮内的 Token-level 策略
      $$\pi_{\theta}(y|s_{t})$$
      • 高层 Critic 通过 off-policy TD 更新进行训练,能够从过往轨迹的回放缓冲区中高效学习
    • 低层 Actor 使用高层 Q-值作为 Turn-level 奖励进行 on-policy 优化
    • 这种解耦架构直接解决了双重层级的 credit 分配挑战:
      • 高层 Critic 处理哪些轮次是重要的,而低层 Actor 处理这些轮次中的哪些 Token 是重要的
      • ArCHer 是第一个正式认识到多轮 LLM RL 需要与单轮 Reasoning RL 根本不同的 credit 分配的方法
  • 注:在第 3 节中回顾的 HICRA (2025c),为层级感知的 credit 分配提供了 Reasoning RL 的基础,这直接为本节的 Agentic 方法提供了信息
    • 其对 Planning Token 和 Procedural Token 的区分为理解 Agentic 轨迹中的功能角色提供了概念基础
PilotRL
  • PilotRL (Global Planning-Guided Progressive RL, 2025) 将分层原则扩展为一个三阶段渐进式框架:
    • (1) plan-level RL,即 credit 被分配给高层级的 plan 组件
    • (2) step-level RL,即 credit 在每个 plan 组件内部进行细化
    • (3) token-level RL,即 credit 进一步级联到单个 Token
  • credit 在各个阶段之间从粗粒度流向细粒度,每个阶段为下一阶段提供 reward 信号
    • 这种级联方法专为在执行任务前明确制定 plan 的 Agent 而设计(例如:“步骤 1:搜索相关文件;步骤 2:理解代码库;步骤 3:实现修复”)
CARL
  • CARL (NeurIPS 2025) 针对异构动作问题(第 4.4 节)提出了一种非常简洁的解决方案
  • CARL 与为每个动作分配细粒度 credit 不同,CARL 识别出关键动作(即 Agent 的决策对结果产生巨大影响的分叉点)
    • 并仅在这些点上进行 RL 更新
  • 其识别机制基于动作熵:
    • 在每个决策点,CARL 测量策略动作分布的熵 ( H(\pi(\cdot|s_t)) )
      • 高熵状态是“关键的”(模型不确定,因此选择很重要)
      • 低熵状态是“常规的”(模型很确信,因此任何一个合理动作都足够)
  • 通过将梯度更新限制在熵最高的少数动作上,CARL 实现了减少 72% 的梯度更新且性能无下降(如作者所述)
  • 这一结果表明,绝大多数 Agentic 动作可能具有可忽略的 credit,优化它们会浪费计算资源

Information-Theoretic Methods

  • IGPO(信息增益策略优化,Information Gain Policy Optimization, 2025)采用信息论的方法进行 Turn 级信用分配
    • 对于每个 Turn \( t \),IGPO 将信用定义为关于任务成功的信息增益:
      $$c_t = \log P(\text{success}|h_{1:t}) - \log P(\text{success}|h_{1:t-1}) \quad (4)$$
      • \( h_{1:t} \) 表示到 Turn \( t \) 为止的历史
      • 直觉解释:如果一个 Turn 能够显著提高任务成功的概率(即它提供了朝向目标的“有用信息”),那么它就会获得高信用
      • 这种公式化方法天然适用于 Agentic 环境,其中每个 Turn 都会逐步揭示关于任务状态的信息(例如,一个搜索查询揭示了相关文档,一次代码执行揭示了 Bug)
    • 概率 \( P(\text{success}|h) \) 由一个学习到的验证器或 LLM 本身来估计
  • IGPO 的主要局限性:
    • 它要求在每个 Turn 都有一个可靠的 Success 概率估计器 ,而这对于所有 Agentic 任务来说可能并不都可用

Implicit and DPO-Based Methods

  • iStar(Implicit Step Rewards, 2025)解决了在不存在中间验证器的 Agentic 环境中提供 Step-level 信用的挑战
  • iStar 利用轨迹级的 DPO:
    • 给定成对的轨迹(一条成功,一条不成功),iStar 通过比较每个 Turn 的对数概率比来提取隐式的 Step-level Reward
  • 基于 “From \( r \) to \( Q^* \)” 的 Insight (2024)
    • Turn \( t \) 的隐式 Advantage 是从模型自身的概率评估中推导出来的
  • iStar 进一步引入了多级 Advantage 融合,通过加权聚合的方式结合了 Turn 级和 Token 级的隐式信号
  • iStar 主要优势在于 iStar 不需要显式的 Reward 模型、Critic 或环境重执行,使其适用于所有其他信用分配机制都过于昂贵的 Agentic 任务

StepAgent

  • StepAgent (2024) 将隐式 RL 与逆强化学习(Inverse RL)相结合,用于 Agentic 环境中的 Step-level 反馈
  • 给定专家演示(成功的轨迹),它使用逆强化学习来推断专家隐式优化的 Step-level Reward ,然后使用这些推断出的 Reward 来训练 Agent
  • 随着 Agent Step-level 表现的提高,一个从新手到专家的课程逐渐增加任务的难度
  • 这种方法特别适用于那些有专家演示可用(例如,记录的人类与工具或网站的交互)但显式 Reward 函数难以定义的 Agentic 任务

Infrastructure and Practical Methods

Agent Lightning
  • Agent Lightning(Microsoft Research)为基于 RL 的 LLM Agent 训练引入了一种解耦的训练架构
  • Agent Lightning 的核心贡献是 LightningRL 算法
    • LightningRL 算法将 Agent 轨迹分解为带有专用信用分配模块的训练 Transition
  • Agent Lightning 框架将 Agent 执行与训练完全解耦,支持与流行的 Agent 框架(LangChain, AutoGen)集成,而无需修改 Agent 的推理代码
  • 在 Text-to-SQL、检索增强生成和数学工具使用任务上的评估表明
    • 将“信用分配到哪里”的问题与“如何生成轨迹”的问题分离开 可能与信用分配算法本身同样重要
    • 问题:如何理解这里这句话?
RAGEN/StarPO
  • RAGEN(2025) 引入了 StarPO(Star 策略优化,Star Policy Optimization)框架来训练推理 Agent,并提供了关于为何 Episode-level 信用在 Agentic 环境中会失败的最详细的实证分析之一
  • RAGEN 核心贡献是识别出了“回声陷阱”(echo trap):
    • 当使用 GRPO 训练时,Agent 会收敛到重复的 Action 序列(例如,使用相同参数反复调用同一个工具),因为嘈杂的 Episode-level 梯度无法区分高效的探索与冗余的重复
  • StarPO 通过基于不确定性的过滤来解决这个问题:
    • 在其信用估计中具有高不确定性的 Action 在策略更新期间会被降低权重,从而防止噪声信号破坏训练的稳定性
    • RAGEN 还提供了开源的基准测试和训练框架,后续几个 Agentic CA 论文都基于此构建
SPA-RL
  • SPA-RL(Stepwise 进度归因,Stepwise Progress Attribution, 2025)训练一个轻量级的 MLP 进度估计器,它将中间状态映射到一个标量的“进度”分数
    $$ p_t \in [0, 1] $$
  • 然后 Step-level 信用就是进度增量:
    $$ c_t = p_t - p_{t-1} $$
  • 这种方法受到 RUDDER 的 Return 分解 (2019) 的启发,但针对 LLM Agent 进行了调整
    • MLP 与策略一起进行端到端训练,终端 Reward 提供监督信号 \( (p_T = R(\tau)) \)
  • SPA-RL 的主要优势是极高的计算效率:
    • 与 LLM-as-Critic 方法相比,一个小型 MLP 增加的开销可以忽略不计,使其适用于大规模训练,在这种训练中每一次浮点运算都很宝贵
SCRIBE
  • SCRIBE(2026)通过结构化的中级监督(structured mid-level supervision)来提供信用
  • SCRIBE 维护一个“技能原型”(skill prototypes)库
    • 常见 Agentic 子任务(例如,“搜索并提取信息”、“编写和测试代码”、“格式化并提交输出”)的模板,每个模板都关联着预期的 Reward 特征
  • 当 Agent 执行一个 Action 时,SCRIBE 将其与最近的技能原型进行匹配,并根据该 Action 在多大程度上满足原型的预期行为来分配信用
  • 这种方法在单个 Token 和完整轨迹之间的语义层级上提供信用,将信用信号建立在关于“良好”Agent 行为看起来是什么样的结构化知识之上
LaRe
  • LaRe(AAAI 2025)通过使用 LLM 生成自然语言的信用解释来桥接 LLM 推理和信用分配
    • 对于轨迹中的每一步,LaRe 会提示一个 LLM 来解释该 Step 为何是有帮助或有害的,产生一个文本的理由,然后将其转换为标量 Reward
    • LaRe 的方法最初是为符号化 RL 任务(例如,网格世界、简单游戏)开发的,它在概念上适用于任何 Action 具有 LLM 可以评估的语义含义的 Agentic 环境
    • 自然语言解释也提供了可解释性,使从业者能够理解为什么某些 Action 会获得高或低的信用,这对于调试 Agent 行为非常有价值
PRS + VSPO
  • PRS(Progressive Reward Shaping, 2025)通过课程式的 Reward 演化来解决信用问题
    • 在训练初期,密集的 Reward 关注格式正确性
    • 在后期阶段,Reward 转向任务准确性
  • VSPO(Value-based Sampling Policy Optimization)通过优先训练那些信用信号信息量最大的轨迹来补充 PRS
    • PRS 是一种 Reward 塑形方法而非纯粹的信用分配算法,但 PRS 渐进的 Reward 密集化过程在训练过程中有效地执行了从粗到细的信用分配
Adaptive Segment-Level Reward
  • Adaptive Segment-Level Reward(2024) 使用语义分割来将轨迹划分为长度均衡的 Segment ,而不管其长度如何 ,从而确保 Reward 粒度的一致性
  • 自适应分割防止了病理情况 ,即长轨迹获得实际上均匀的信用 ,而短轨迹获得过于嘈杂的信用

Discussion: Emerging Patterns in Agentic CA

  • Agentic 信用分配的格局揭示了几种将其与 Reasoning RL 区分开来的独特模式:
    • 1)Hindsight 正成为一种突出的方法
      • 三种最新的方法(HCAPO、C3、CCPO)都使用了事后回顾分析
      • 这种趋同性表明,在 Agentic RL 中,后向分析(“鉴于所发生的事情,这个 Action 有多重要?”)可能比前向预测(“这个状态有多大的价值?”)更实用,后者由于随机转移和部分可观测性而不可靠
    • 2)LLM-as-Critic 显得特别强大
      • 与经典 RL 不同(其中 Critic 是学习得到的、推理能力有限的神经网络),LLM Agent 可以利用 LLM 本身(或另一个 LLM)来对中间状态执行复杂的语义评估
        • CAPO、SWEET-RL、HCAPO、CriticSearch 和 LaRe 都利用了这种能力
      • LLM-as-Critic 范式在经典 RL 中没有直接的对等物,它代表了一个似乎是 LLM 时代所特有的方法论轴
    • 3)层级结构至关重要
      • ArCHer、PilotRL 和 CARL 都表明,尊重 Agentic 任务的层级结构(规划 \( \rightarrow \) 执行 \( \rightarrow \) 验证)能够改善信用分配
      • HICRA(2025)虽然是为 Reasoning RL 开发的,但提供了为这些 Agentic 方法提供信息的基础性 Insight
        • 将所有 Action 一视同仁的扁平化方法会遗漏重要的结构信息
    • 4)关键 Action 识别优于均匀信用分配
      • CARL 中有一个发现:将信用集中在高熵 Action 上可以在远少于全信用分配所需的更新次数下达到匹配的性能
        • 这表明 Agentic CA 的目标不必是为每个 Action 分配完美的信用,而是要识别并关注那些重要的 Action
        • 这种“稀疏信用”的视角比密集信用分配更高效,也可能更鲁棒
    • 5)实际考虑因素占主导地位
      • Agent Lightning、SPA-RL 和 RAGEN 表明,在生产环境中,简单高效的方法 (解耦的训练架构、基于 MLP 的进度估计、基于不确定性的过滤)可能与复杂的信用算法同等重要
      • 信用质量与计算成本之间的权衡是 Agentic CA 的一级设计考量

Multi-Agent Credit Assignment

  • 随着 LLM 系统向多 Agent 架构演进(编排器 + 专家 Agent、辩论框架、协作推理),credit 除需在时间维度上分解外,还必须在 Agent 之间进行分解

Multi-Agent Methods

M-GRPO
  • M-GRPO(Multi-Agent GRPO, 2025)将 GRPO 框架扩展到多 Agent LLM 系统
  • 在一个具有一个主 Agent 和 \(K\) 个子 Agent 的系统中,M-GRPO 引入了一个两层的 credit 分解:
    • (1)Agent 间 credit:一个元级优势,用于确定每个 Agent 对团队结果的总体贡献,通过比较不同团队组成下的结果来计算
    • (2)Agent 内 credit:每个 Agent 轨迹内部的标准 GRPO 风格优势
  • M-GRPO 支持解耦训练:
    • Agent 可以使用它们的 Agent 间 credit 作为奖励信号独立更新,避免了联合优化的协调开销
LLM-MCA
  • LLM-MCA(2025)用一个基于 LLM 的集中式 Critic 取代了传统的多 Agent credit 分配机制(QMIX, VDN, COMA 混合网络)
  • 给定所有 Agent 的完整交互历史,LLM Critic 阅读对话,识别每个 Agent 的贡献,并生成关于每个 Agent credit 的自然语言评估
    • 然后将这些评估转换为标量奖励用于策略更新
  • 关键优势在于语义理解:
    • LLM Critic 能够以纯数值混合函数无法做到的方式,推理 Agent 角色、通信质量和战略贡献
QLLM
  • QLLM(2025)采用了一种 Meta-level 方法:
    • QLLM 不让 LLM 评估 credit,而是让 LLM 生成 credit 分配函数本身
  • 给定一个任务描述和示例轨迹,QLLM 提示一个 LLM 编写一个 Python 函数,该函数计算每个 Agent 的 credit 分数
    • 这个生成的函数随后以零边际成本应用于所有训练轨迹
  • QLLM 方法无需训练且高度灵活,尽管其质量取决于 LLM 生成正确 credit 函数的能力
  • 理解:QLLM 方法本身很有想法,相当于允许 LLM 去通过调用或编写脚本来判断 Critic,但这可能导致得到的结果不太符合预期,对 LLM 的代码能力要求很高
SHARP
  • SHARP(Shapley Credit-based Optimization,基于 Shapley Credit 的优化,202602)将原则性的 Shapley 值分解引入多 Agent LLM 系统
    • 对比之前的方法 SCAR:
      • SCAR(第 3.2 节)将 Shapley 值应用于推理段
      • SHARP 将其应用于 Agent 之间
  • SHARP 框架将奖励分解为三个部分:
    • (1)用于整体任务完成的全局 broadcast-accuracy 奖励
    • (2)通过 coalition 分析计算每个 Agent 特定贡献的、基于 Shapley 的边际 credit 奖励
    • (3)用于执行效率的工具过程奖励
  • 通过对轨迹组进行 Agent 特定优势的归一化来稳定训练
  • SHARP 报告称,相比单 Agent 基线平均提高了 23.7%,相比多 Agent 基线提高了 14.1%,为迄今为止基于 Shapley 的 credit 能改善多 Agent LLM 训练提供了最强有力的实证证据
MAPPA
  • MAPPA(Multiagent Per-Action Process Awards,多 Agent 每个动作的过程奖励,202601)通过提供来自 AI 反馈的每个动作的过程奖励,解决多 Agent 微调中的 credit 分配和样本效率问题
  • MAPPA 不等待终端任务结果,而是使用一个 AI Judge 单独评估每个 Agent 的动作 ,从每次 rollout 中提取最大的训练信号
  • MAPPA 在数学竞赛中表现:
    • 在 AIME 上达到了 \(+5.0 - 17.5\) 个百分点
    • 在 AMC 上达到了 \(+7.8 - 17.2\) 个百分点的提升
  • 在数据分析任务上 MAPPA 成功率提高了 \(+16.7\) 个百分点
  • 这些是多 Agent CA 方法中报告的最大增益之一,证明了每个动作的粒度对于多 Agent 系统至关重要
Dr.MAS
  • Dr.MAS(202602)识别出将 GRPO 扩展到多 Agent 系统时的一个特定失败模式:
    • 全局归一化基线偏离了异构 Agent 的奖励分布,造成梯度不稳定
  • 解决方案是 Agent 级别的优势归一化
    • 每个 Agent 的优势使用该 Agent 自身的奖励统计量 而非全局统计量进行归一化
    • 这使得梯度规模在不同 Agent(例如,一个代码专家 vs. 一个搜索专家)之间得到校准 ,减少了梯度尖峰
  • Dr.MAS 报告称在数学任务上获得了 \(+5.6%\) 的平均@16 性能,同时实现了稳定的收敛,而标准的多 Agent GRPO 则会发散

C3(再次讨论) (2026). C3 的反事实框架自然扩展到多 Agent credit:Agent \(k\) 的 credit 为 \(c_{k} = R(\tau) - R(\tau_{k})\),其中 \(\tau_{k}\) 是没有 Agent \(k\) 的反事实轨迹。这种留一法方法提供了满足自然公平属性的清晰分解

Discussion: Multi-Agent CA as an Emerging Frontier, 多 Agent CA 作为一个新兴前沿领域

  • 多 Agent credit 分配已从一个新兴领域发展为一个快速发展的领域,在本文的盘点中有 6 篇专门论文(M-GRPO, LLM-MCA, QLLM, SHARP, MAPPA, Dr. MAS),加上 C3 的跨场景框架
  • 目前,Multi-Agent CA 关键的开放问题包括:
    • 通信 credit: Agent 是否应该因发送有用消息而获得 credit?
      • 当前方法仅将 credit 分配给与任务相关的动作,忽略了 Agent 间的通信价值
    • 异构架构: 当 Agent 具有不同的能力时(例如,一个代码专家和一个搜索专家),应如何公平地分解 credit?
    • 可扩展性: 对于 \(K\) 个 Agent,留一法方法需要 \(K\) 次反事实评估
      • 对于拥有数十个 Agent 的系统,需要可扩展的近似方法
    • 与经典 MARL 的联系: 经典的多 Agent RL 拥有丰富的 credit 分配文献(QMIX, COMA, MAPPO),但这些都假设动作空间是固定维度的
      • 将它们适应于可变长度的文本动作并非易事
  • 随着多 Agent 系统在生产环境中的快速部署,面向 LLM 的多 Agent credit 分配将在 2026-2027 年成为一个重要的增长领域

Systematic Comparison

Unified Comparison Table

  • 注:原文这里确少内容

Benchmark Landscape

Reasoning RL benchmarks
  • Reasoning RL 的 Credit Assignment 方法受益于完善的基准测试:
    • GSM8K(小学数学,8.5K 个测试问题)
    • MATH(竞赛数学,5 个难度级别的 5K 个问题)
    • AIME(美国 Invitational 数学考试)
    • CodeContests(编程竞赛)
  • 这些基准测试提供了可验证的真实结果,使得能够直接比较 CA 方法
  • 几篇论文 (VinePPO, PURE, SPRO) 在重叠的子集上报告了结果,尽管基础模型、训练数据和超参数的差异使得完美比较变得困难
Agentic RL benchmarks
  • Agentic CA 的基准测试格局明显更加碎片化:
    • 网页导航:WebArena (2024a), Mind2Web, WebShop
    • 工具使用:ToolBench, API-Bank, Gorilla
    • 交互式编码:SWE-bench, HumanEval+, MBPP+
    • 具身/模拟:ALFWorld, ScienceWorld, Minecraft
    • 多 Agent (Multi-Agent):ChatDev, MetaGPT 评估套件
  • 很少有 Agentic CA 论文使用相同的基准测试,这使得系统比较几乎不可能
  • 这种碎片化本身就是进步的主要障碍:没有共享的评估,社区就无法确定哪些 CA 方法真正更好,而哪些只是受益于有利的基准测试选择
  • 理解:主要还是 Agentic RL 场景太多,大家都更多只关注自己的领域吧,而且像 SWE-Bench 等其实已经比较广泛被关注和使用了,应该是会覆盖到的?

Quantitative Performance Comparison,定量性能比较

  • 尽管基础模型和训练配置存在差异,本文仍整理了可用的定量结果,以提供 CA 方法所实现收益的具体情况
  • 表 6 和表 7 总结了原始论文中报告的结果
    • 注意:不同基础模型的结果不能直接比较;相对于每篇论文自身基线(通常是 GRPO 或 PPO)的增益是最有意义的比较
  • Descriptive Pattern: CA Improvements and Trajectory Length,描述性模式:CA 改进与轨迹长度
    • Evidence-level:有限但具有启发性 (Agentic RL 方向有 6 中方法,跨 6 种方法,异质条件)
    • 在基于 GRPO 基线的方法中,Agentic 子集显示出比推理子集更高的平均 \(\Delta\)
      • Agentic:\(+8.5\), \(n = 5\), 2 种方法
      • Reasoning:\(+6.0\), \(n = 8\), 4 种方法
      • 该现象对单一异常值剔除是稳健的
        • 修正后的差距: \(+7.5\) vs. \(+4.5\)
        • 这与理论预期一致,尽管并非证明,即 Episode-level Credit 随着轨迹长度的增加而更严重地退化
    • 其他关键混淆因素:
      • (1) 不同的基础模型
      • (2) 推理基准测试可能具有较低的提高空间
      • (3) Agentic 子集由 GiGPO 主导 (3/5 个数据点)
    • 本文仅将此作为对本文叙述性主张的粗略压力测试,而不是单独作为充分的证据
      • AgentPRM 的 \(+19.0%\) (相对于 ORM 基线) 和 SWEET-RL 的 \(+6.0%\) (相对于 DPO 基线) 被排除在外,但与该模式一致

Key Trade-offs Across the Spectrum,整个范围内的关键权衡

  • 本文的分析揭示了四个基本权衡,它们构成了 CA 方法的设计空间
  • 本文用 Evidence-level 注释每一点:
    • [SE] = 强经验性(Strong Empirical),[LS] = 有限但具有启发性(Limited but Suggestive),[AS] = 作者合成(Authors’ Synthesis)
  • 本文的标准:
    • [SE] 需要来自 \(\geq 3\) 篇独立论文的趋同发现,或 \(\geq 2\) 篇具有多基准评估和明确消融研究的论文
    • [LS] 表示 1-2 篇论文、狭窄的基准测试或实质性的混淆因素
    • [AS] 表示未经比较性证据直接建立的概念性综合
Granularity vs. computational cost [SE]
  • 粒度 vs. 计算成本
  • 更细的 Credit 粒度(Token-level)提供更精确的训练信号,但计算成本更高
    • VinePPO 需要 \(\mathcal{O}(K\cdot L)\) 次额外的 Forward Pass
    • SCAR 需要指数级的联盟评估
  • Turn-level 方法 (CARL, SWEET-RL) 为 Agentic RL 提供了一个实用的最佳平衡点
  • Episode-level 方法 (GRPO) 最便宜但信息量最少
Forward estimation vs. hindsight analysis [AS]
  • 前向估计 vs. 事后分析
  • 前向方法 (PRM, VinePPO, AgentPRM) 从当前状态估计价值,需要环境重新执行或学习到的近似
  • 事后方法 (HCAPO, C3, CCPO) 在轨迹收集后分析 Credit
  • 事后方法具有严格的信息优势,但引入了延迟,并可能遭受事后偏差
Auxiliary model requirements [SE]
  • Auxiliary model requirements 方法涵盖了一个广泛的范围:
    • 有些不需要辅助模型 (CARL, iStar, GiGPO)
    • 有些需要轻量级辅助模型 (SPA-RL 的 MLP)
    • 有些需要单独 Critic 或 PRM (ArCHer, AgentPRM, PURE)
    • 还有一些需要 LLM 规模的评估 (CAPO, HCAPO, LLM-MCA)
  • 辅助模型需求直接影响可扩展性
Reasoning-specific vs. agent-general [LS]
  • 在 Reasoning RL 背景下开发的方法 (VinePPO, PURE, HICRA) 利用了在 Agentic 环境下会失效的假设(确定性转移、可验证步骤)
  • 为 Agentic RL 开发的方法 (HCAPO, SWEET-RL, CARL, GiGPO) 做出的此类假设较少

Practical Guidance: Matching Methods to Scenarios,实践指导:根据场景匹配方法

  • 表 8 提供了一个基于任务特征选择 CA 方法的实用指南
    • 这些建议反映了本文作者对文献的综合,实际性能可能因基础模型、数据分布和训练基础设施而异
  • 图 4 提供了一个补充的决策树,将表 8 操作化为一个逐步选择过程
Retrospective validation,回顾性验证
  • 本文作者追踪了 6 个已知的(任务,方法)对通过决策树:
    • SPO 在 GSM8K 上
    • HICRA 在 AIME’24 上
    • VinePPO 在 MATH 上
    • GiGPO 在 ALFWorld 上
    • SWEET-RL 在 ColBench 上
    • HCAPO 在长时域 Agentic 任务上
  • 所有 6 个都被成功回溯 (6/6)
    • 这验证了内部一致性

Credit Assignment in the Agentic RL Training Pipeline

  • Credit Assignment 不是孤立运作的
    • Credit Assignment 是一个五阶段流程中的一个组件:
      • (1) 环境构建(沙盒执行)
      • (2) Rollout 生成(多轮 Agent-环境交互)
      • (3) 奖励计算(Terminal 任务成功)
      • (4) Credit Assignment(本文的重点)
      • (5) 策略更新 (PPO/GRPO/DPO)
  • 本节关注 CA 与其他阶段之间的交互,这些交互经常被忽视

Interactions Between Credit Assignment and Other Pipeline Components

CA × Rollout efficiency,效率
  • 更好的 Credit Assignment 会减少有效学习所需的 Rollout 数量
    • CARL (2025) 直接证明了这一点:
      • 通过将 Credit 集中在关键 Action 上,以 \(72%\) 更少的梯度更新实现了等效性能,这转化为比例更少的 Rollout
  • 更广泛地说,细粒度的 Credit 降低了梯度方差,使得更小的批量大小和更快的收敛成为可能
    • 这创造了一个良性循环:
      • 将计算投入更好的 CA(例如,运行 VinePPO 的 Vine 扩展)可以通过减少 Rollout 需求来回收
    • 在 “更多 Rollout 配合粗糙 Credit” 和 “更少 Rollout 配合精确 Credit” 之间计算的最佳分配是一个关键的空缺问题(见第 9 节)
      • 理解:即把时间/算力更多分配给 Rollout 还是 Credit 是一个需要谈的问题
CA × Reward Design
  • Credit Assignment 方法有时会隐含地重新定义奖励函数
    • PRS (2025) 明确地用渐进式密集奖励替换了 Terminal 奖励
    • IGPO (2025a) 将二元成功信号转换为信息增益增量
  • 这模糊了“奖励设计”和“Credit Assignment”之间的界限
    • 两者都是为策略优化器提供有用训练信号的机制
  • 本文作者观点:CA 不应被视为对固定奖励的后处理步骤,CA 应被视为奖励工程的一个组成部分
CA × Exploration
  • Credit 信号原则上可以指导探索:
    • Agent 应优先探索 Credit Assignment 不确定(Credit 估计的高方差)的状态,因为这些状态是需要更多信息来改进策略的状态
    • IGPO (2025a) 通过信息论的术语定义 Credit,朝这个方向做出了示意,但目前没有方法明确使用 CA 不确定性来驱动探索
  • 这是一个重大的错失机会

Infrastructure Challenges Specific to Agentic RL

  • Agentic RL 训练面临 Reasoning RL 中不存在的、直接影响 Credit Assignment 的基础设施挑战:
    • 环境重置成本 (Environment reset cost)
      • 重置一个沙盒环境(启动 Docker 容器、初始化浏览器会话、加载代码库)可能需要数秒到数分钟
      • 重置一个沙盒环境 比“重置”一个推理任务(加载一个新的 Prompt)的可忽略成本高出几个数量级
      • 后果:基于 MC 的 CA 方法(需要从中间状态重新执行环境)尤其昂贵
    • 不可微的转移 (Non-differentiable transitions)
      • 环境交互(API 调用、代码执行)中断了计算图,阻止了基于梯度的 Credit 归因
      • 所有 CA 方法必须与黑盒环境转移一起工作,依赖价值估计、事后分析或基于 LLM 的评估,而不是梯度流
      • 理解:在 Agentic RL 中,不可微分的外部操作(如 API 调用、代码执行、用户交互)切断了从最终成败结果反向追溯到具体 Action 参数的自动微分路径
        • 导致:不能用简单的反向传播训练:因为梯度传不回来,所以不能像训练神经网络那样直接训练 Agent 做决策,必须使用 RL 的 Credit 分配
    • 训练期间的安全性 (Safety during training)
      • Agentic RL Rollout 可能有现实世界的影响:发送实际的 API 请求、修改文件、发布到网络
      • 训练 Rollout 期间的安全约束可能与探索要求冲突,并且对于“安全但次优”与“有风险但信息丰富”的 Action 的 Credit Assignment 是一个未被充分探索的挑战
    • 异步训练 (Asynchronous training)
      • 现代 Agentic RL 系统 (AReaL, Laminar) 使用异步 Rollout 生成和策略更新来最大化 GPU 利用率
      • 异步训练引入了策略滞后:
        • 当 Credit 被计算时,策略可能已经改变
        • CA 方法必须对这种陈旧性具有鲁棒性,偏爱 Off-policy 兼容的方法 (ArCHer 的 Off-policy Critic,重要性采样校正)

Open Problems and Future Directions

The Agentic Frontier: Where Credit Assignment Must Go, Agentic 前沿:CA 的未来

Ultra-Long Horizon Agents,超长时域 Agent
  • 当前的 Credit Assignment 方法已在 5-30 轮的轨迹上进行了评估
  • 现实世界的 Agent 会更多,比如处理 SWE-bench 问题的软件工程助手通常会执行 50-100+ 轮,消耗 100K-500K 个 Token (2025d; 2025),自主研究 Agent 进行多天实验,桌面自动化 Agent 需要 50-100 步及大量上下文
  • 在这些规模下,即使是 Turn-level Credit Assignment 也可能不足:
    • 轮数之多使得每轮 Credit 估计计算量巨大且统计上不可靠
  • 本文作者推测分层方法 (ArCHer, HICRA, PilotRL) 代表了最有前途的方向,但当前的层次太浅(通常为 2 层)
    • 超长时域 Agent 可能需要更深、更灵活的层次结构,能够动态适应任务复杂性
    • 或许可以 Mirroring Agent 自身使用的分层规划结构
Open-World Agents Without Verifiable Rewards,没有可验证奖励的开放世界 Agent
  • 大多数 Credit Assignment 方法假设可以访问二元或标量的 Terminal 奖励(任务成功/失败)
  • 这个假设对于定义良好的任务(数学、编码、具有明确目标的网页导航)成立,但对于开放世界 Agent 则失效:
    • 个人助手(“用户满意吗?”)
    • 创意写作 Agent(“这个故事好吗?”)
    • 研究助手(“这个实验有信息量吗?”)
  • 在这些设置中,Terminal “奖励”本身是不确定的、主观的,或无限期延迟
    • 在奖励模型本身具有显著不确定性的情况下进行 Credit Assignment 基本上仍未解决
    • 一个有希望的方向是将 CA 方法与 RLHF 奖励模型连接起来,使用奖励模型的置信度作为 Credit 信号的加权因子
Multi-Agent Systems at Scale
  • 如第 6.2 节所讨论的,多 Agent Credit Assignment 尚处起步阶段
  • 随着 LLM 系统扩展到数十个具有不同专长的协作 Agent,Credit 分解问题呈指数级增长
  • 三个具体挑战尤为突出:
    • (1) 可扩展分解:基于 LOO 的方法 (C3) 需要 \(K\) 次反事实评估来处理 \(K\) 个 Agent;需要亚线性近似
    • (2) 沟通的 Credit:当前方法仅对任务 Action 进行 Credit 归因,忽略了 Agent 间消息的价值
    • (3) 部分团队可观测性下的 Credit:每个 Agent 仅看到自己的交互,使得在分散部署中进行集中式 Credit 计算具有挑战性

Theoretical Frontiers

Credit Assignment Meets Exploration
  • 更好的 Credit Assignment 应该能够实现更有针对性的探索,然而当前的方法将 CA 和探索视为独立的问题
  • 这种联系是自然的:
    • Credit Assignment 最不确定的状态正是 Agent 应该探索的状态,因为需要更多信息来解决模糊性
  • IGPO (2025a) 通过信息论的术语定义 Credit 提供了一个起点,但目前没有方法明确使用 Credit 不确定性来驱动探索
  • 本文作者认为这是最有前途的研究方向之一,因为它可以同时提高样本效率和 Credit 质量
Formal Guarantees,形式化保证
  • 大多数用于 LLM RL 的 Credit Assignment 方法缺乏形式化的收敛保证
    • VinePPO (2025) 证明了其 MC 估计是无偏的
    • PURE (2025) 分析了在特定条件下 Min-form Credit 的最优性
    • CCPO (2026c) 在因果假设下提供了保证
    • 但大多数方法(特别是 LLM-as-Critic 方法 (CAPO, HCAPO, LaRe))只有经验验证
  • 在基于 LLM 策略的 POMDP 中发展 Credit Assignment 质量的理论分析是一个完全开放的挑战
    • 关键问题包括:
      • 在什么条件下,近似的 Credit Assignment 能收敛的策略优化?
      • 从 imperfect Credit 信号中学习的样本复杂度是多少?
The Computation-Signal Trade-off,计算-信号权衡
  • 一个基本问题贯穿整个领域:
    • 给定固定的计算预算,下面那个选项更好:
      • (a) 生成更多 Rollout 配合粗糙的 Episode-level Credit (GRPO)
      • (b) 生成更少 Rollout 配合精确的细粒度 Credit (VinePPO, HCAPO)
    • 这就是“CA 效率前沿”,类似于改变了监督学习的计算最优 Scaling Laws
    • 没有论文提供系统的答案
  • 本文作者推测,随着轨迹长度的增加,最优分配会向细粒度 Credit 转移:
    • 对于短推理任务,更多 Rollout 可能更有效
    • 对于长 Agentic 任务,更好的 Credit 可能值得其成本

Practical Frontiers

Unified Benchmarks for Credit Assignment
  • 缺乏评估 CA 方法的标准基准测试是进步的主要障碍
  • 论文使用不同的任务、基础模型、训练配方和评估指标,使得比较几乎不可能
  • 本文作者呼吁建立一个统一的 CA 基准测试套件,涵盖:
    • (1) 具有已知真实步骤 Credit 的推理任务(通过穷举 MC 评估)
    • (2) 具有受控分叉点的 Agentic 任务(可计算“正确” Credit 的合成环境)
    • (3) 具有设计好的 Credit 结构的多 Agent 任务
  • 这样的基准测试将能够实现同类比较并加速方法论进展
Credit Assignment and Memory
  • 长上下文 Agent 越来越多地使用记忆机制(显式检索、草稿本、长期数据库)
  • 应如何对与记忆相关的 Action(存储信息、检索过去上下文、更新摘要)进行 Credit Assignment?
  • 一个在第 5 轮看似无用的检索 Action 可能在第 25 轮当存储的信息变得相关时被证明至关重要
  • 这种记忆 Credit 的时间跨度远远超过了当前 CA 方法的典型前瞻范围,需要全新的方法
    • 可能借鉴经典 RL 中的资格迹,并将其扩展到 LLM Agent 的语义记忆
From Reasoning to Agentic: Transfer and Adaptation
  • 推理 CA 方法能否有效地适配到 Agentic 环境?
    • VinePPO 的 Vine 扩展可以应用于 Agentic 轮次(在轮边界而非 Token 位置分支),但需要环境检查点
    • PURE 的 Min-form Credit 可以扩展到用于 Agent 的 Turn-level PRM
    • HICRA 的规划-程序性区分可以应用于 Agentic 轨迹,其中功能区分更加显著
  • 系统地研究哪些推理 CA 技术可以迁移到 Agentic 环境(以及需要什么修改)将是一个有价值的贡献,连接起本文分类法的两半

Threats to Validity

  • 对本 Survey 结论有效性的几个威胁:
    • 预印本波动性 (Preprint volatility)
      • 所审查的论文大多数是尚未经过同行评审的 arXiv 预印本
      • 它们的方法、结果甚至标题都可能改变
      • 本文将分析快照定格在 2026 年 4 月
    • Selection bias
      • 尽管采用了系统的搜索协议(第 1.1 节),但可能遗漏了非索引场所、行业报告或作者截止日期后的并发预印本中的相关工作
    • Non-comparability of results,不可比结果
      • 定量表格汇集了来自不同基础模型、基准测试和训练配置的结果
      • 跨论文比较是说明性的,而非受控实验
    • Taxonomy boundary ambiguity,分类方法边界模糊
      • 本文将方法分类为推理 vs. Agentic RL,以及核心 vs. 辅助,涉及判断
      • 一些方法跨越边界
    • Single-coder limitation
      • 所有的筛选、分类和 Evidence-level 编码均由单一作者完成?【真厉害】

Supplementary Material Release

  • 为了最大化本 Survey 的复用价值,作者承诺在发布时提供以下补充材料:
    • 结构化清单 (CSV 和 JSON) :包含所有 47 篇论文的完整清单,包含所有分类法标签、基线系列、 Evidence-level 、主要基准测试和 arXiv 标识符,采用机器可读格式,适用于程序化分析、筛选和扩展
    • 筛选日志 (Screening log) :来自作者搜索协议(第 1.1 节)的候选论文完整列表,包含包含/排除的决定和理由,使得能够验证和扩展作者的覆盖范围
    • 分类法标签 (Taxonomy labels) :每种方法的粒度 \(\times\) 方法论分类,采用允许自动生成分类法网格(图 2)和比较表(表 5)的格式
    • 报告检查表模板 (Reporting checklist template) :一个独立的 PDF/LaTeX 模板的报告检查表(表 11),作者可以在论文投稿中作为补充自查包含
    • 基准测试协议模式 (Benchmark protocol schema) :用于提议的基准测试元数据格式(第 9 节)的 JSON schema 文件,使得 CA 评估结果的标准化报告成为可能
  • 注:所有材料将托管在一个公共 GitHub 仓库上

附录 A:方法快速参考索引

  • 表 9 提供了本文回顾的所有方法的字母顺序索引,包含全名、arXiv 标识符(如有)以及章节参考,方便快速查阅
    缩写 全名 参考文献 章节
    ACPO Attribution-based Credit for RLVR Yin 等 (2025) §3.3
    AgentPRM Process Reward Model for LLM Agents Xi 等 (2025) §5.1
    ArCHer Actor-Critic with Hierarchical Evaluation Zhou 等 (2024c) §5.4
    C3 Contextual Counterfactual Credit Chen 等 (2026) §5.2
    CAPO Credit Assignment Policy Optimization Xie 等 (2025) §3.3
    CARL Critical Action Reinforcement Learning Shen 等 (2025) §5.4
    CCPO Counterfactual Credit Policy Optimization Li 等 (2026c) §5.2
    CriticSearch Retrospective Critic for Search Agents Zhang 等 (2025c) §5.2
    Dr. MAS Stable RL for Multi-Agent LLMs Feng 等 (2026) §6
    FinePO Fine-Grained Process Reward (SketchVL) Huang 等 (2026) §3.3
    From r to Q* Implicit Token-Level Credit via DPO Rafailov 等 (2024) §3.1
    GiGPO Group-in-Group Policy Optimization Feng 等 (2025) §5.3
    HCAPO Hindsight Credit Assignment PO Tan 等 (2026) §5.2
    HICRA Hierarchy-Aware Credit Assignment Wang 等 (2025c) §3.3
    IGPO Information Gain Policy Optimization Wang 等 (2025a) §5.5
    InT Self-Proposed Interventions for CA Yang 等 (2026) §3.3
    iStar Implicit Step Rewards Liu 等 (2025) §5.6
    ITPO Implicit Turn-Level Process Rewards Wang 等 (2026) §5.1
    LaRe Latent Reward Qu 等 (2025) §5.7
    Lightning Agent Lightning / LightningRL Luo 等 (2025) §5.7
    LLM-MCA LLM-based Multi-Agent CA Nagpal 等 (2025) §6
    M-GRPO Multi-Agent GRPO Hong 等 (2025) §6
    MAPPA Multiagent Per-Action Process Awards Li 等 (2026a) §6
    PilotRL Global Planning-Guided Progressive RL Lu 等 (2025) §5.4
    POAD Policy Optimization with Action Decomposition Wen 等 (2024) §5.3
    PRL Process Reward Learning Yao 等 (2026) §3.3
    PURE Min-Form Process Reward Cheng 等 (2025) §3.3
    QLLM LLM-Generated Credit Functions Li 等 (2025c) §6
    RAGEN/StarPO Star Policy Optimization Wang 等 (2025d) §5.7
    RED Reward Redistribution to Token Level Li 等 (2024a) §3.1
    SCAR Shapley Credit Assignment Rewards Cao 等 (2025) §3.2
    SHARP Shapley Credit-based Multi-Agent Optimization Li 等 (2026b) §6
    SCRIBE Structured Mid-Level Supervision Jiang and Ferraro (2026) §5.7
    SPA-RL Stepwise Progress Attribution Wang 等 (2025b) §5.7
    SPO Segment Policy Optimization Guo 等 (2025) §3.2
    SPRO Self-Guided Process Reward Fei 等 (2025) §3.3
    SORL Stabilizing Off-Policy RL (SO-PPO/SO-GRPO) Li 等 (2025a) §5.1
    StepAgent Step-Wise IRL Agent Deng 等 (2024) §5.6
    SWEET-RL Privileged Critic for Multi-Turn Agents Zhou 等 (2025) §5.1
    TARL Turn-Level Adjudicated RL Tan 等 (2025) §5.1
    TEMPO Tree-Structured Credit Assignment Tran 等 (2025) §3.2
    T-REG Token-Level Reward Regularization Zhou 等 (2024b) §3.1
    Turn-PPO Turn-Level Optimized PPO Li 等 (2025b) §5.1
    VinePPO Monte Carlo Token-Level PPO Kazemnejad 等 (2025) §3.1

附录 B:完整论文清单

  • 表 10 提供了本 Survey 回顾的所有 47 篇论文的完整清单,并附有分类标签和结构化元数据
    • 类型: C = 核心 CA 方法, E = CA- 相关辅助方法
    • Setting: R = Reasoning RL, A = Agentic RL, M = 多 Agent
    • BL (Baseline Family): G = GRPO, P = PPO, D = DPO, O = ORM, T = TD
    • Ev. (Evidence Level): S = 强实证, L = 有限但有启发性, A = 主要为分析性
  • 分类说明: 回顾的 47 篇论文包括 41 篇核心 CA 方法(#1-35, #42-47)和 6 篇 CA 相关辅助方法(#36-41)
    • 分类编码由本文作者完成
    • 本文作者在第 9.4 节中承认这是一个局限性,并且这个分类不是唯一有效的
    • 基础性论文(Math-Shepherd, OmegaPRM, GRPO, DeepSeek-R1)在背景章节中讨论,但不计入 47 种回顾方法中
  • Complete paper inventory with taxonomy labels (41 core + 6 adjacent = 47 total)
    # 方法 类型 Setting Gran. 方法论 BL Ev. 主要 Benchmarks
    Reasoning RL — 核心 CA 方法 (15)
    1 VinePPO C R Token MC P S GSM8K, MATH
    2 RED C R Token Redistribution P L MATH
    3 T-REG C R Token Self-generated P L GSM8K, MATH
    4 From r to Q* C R Token Implicit D A 理论分析
    5 SPO C R Segment MC G S MATH-500, GSM8K
    6 SCAR C R Segment Game-theoretic G L MATH
    7 TEMPO C R Token/Segment Tree-TD P L MATH, GSM8K
    8 PURE C R Step Min-form PRM G S MATH-500, AIME’24
    9 SPRO C R Step Masked Adv. G S MATH-500, AMC
    10 CAPO C R Step LLM-as-Critic G S MATH-500, AIME’24
    11 ACPO C R Step Attribution G L MATH
    12 HICRA C R Step Hierarchy G S AIME’24, AIME’25
    13 PRL C R Step Entropy-RL G L MATH, GSM8K
    14 InT C R Step Intervention G L MATH
    15 FinePO C R Sub-step Fine PRM — L 特定领域 (visual)
    Agentic RL — 核心 CA 方法 (20)
    16 ArCHer C A Turn TD (hierarchical) T S 多轮对话
    17 StepAgent C A Step Implicit+IRL G L 工具使用任务
    18 POAD C A Token/Turn Action Decomp. P S 交互式任务
    19 GiGPO C A Step MC (group) G S ALFWorld, WebShop
    20 SWEET-RL C A Turn Privileged Critic D S ColBench Backend
    21 AgentPRM C A Step TD+GAE O S WebShop, TextCraft
    22 Turn-Level C A Turn Hybrid G L Web 导航
    23 Turn-PPO C A Turn Turn-level MDP G S WebShop
    24 SORL C A Turn Bias-corrected G L 多轮搜索
    25 TARL C A Turn LLM-Judge G S τ-bench
    26 ITPO C A Turn Implicit D L 对话任务
    27 IGPO C A Turn Info-theoretic G L Agentic 任务
    28 CARL C A Step Entropy-based G S HotpotQA, 2WikiMQA
    29 iStar C A Step Implicit DPO D L 轨迹对
    30 PilotRL C A Step Progressive G L Agentic 规划
    31 LaRe C A Step LLM-Critic G L 符号 + Agentic
    32 HCAPO C A Turn Hindsight G S Agentic 任务
    33 C3 C A/M Turn Counterfactual G L 多 Agent + Agentic
    34 CCPO C A/M Turn Counterfactual G L Agentic 任务
    35 CriticSearch C A Turn Retrospective Critic G S 多跳 QA
    Agentic RL — CA-相关辅助方法 (6)
    36 SPA-RL E A Step MLP estimator G L Agentic 任务
    37 Lightning E A Step Decoupled Arch. G L 多轮 Agent
    38 RAGEN E A Step Uncertainty G S Benchmark 套件
    39 SCRIBE E A Step Skill-prototype G L Agentic 任务
    40 PRS E A Step Progressive G S 渐进式任务
    41 AdaptSeg E A Segment Segmentation G L Agentic 任务
    多 Agent — 核心 CA 方法 (6)
    42 M-GRPO C M Multi-Agent Hierarchical G L 多 Agent 任务
    43 LLM-MCA C M Multi-Agent LLM-Critic G L 多 Agent 评估
    44 QLLM C M Multi-Agent LLM-generated G L 多 Agent 任务
    45 SHARP C M Multi-Agent Shapley G S 多 Agent 任务
    46 MAPPA C M Multi-Agent Per-action PRM G S AIME, AMC
    47 Dr. MAS C M Multi-Agent Agent-wise Adv. G S 数学任务
    背景 / 基础性 (不计入 47 种方法)
    Math-Shepherd — R Step MC labeling — S GSM8K, MATH
    OmegaPRM — R Step MC labeling — S MATH
    GRPO — R Episode Group baseline — S 数学, 代码
    DeepSeek-R1 — R Episode GRPO — S AIME, 数学, 代码

附录 C:未来 Credit Assignment 论文的报告清单

  • 注:详情见原文

NLP——LLM对齐微调-Rethinking-OPD

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Rethinking-OPD)Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe, THU, 20260414-20260415

Paper Summary

  • 整体说明:
    • 本文对 On-policy distillation(OPD) 进行了系统分析,OPD 的成功需要满足两个条件:
      • 思维模式一致性 (thinking-pattern consistency)
        • 理解:学生和教师应共享兼容的思维模式(thinking pattern)
      • 存在超越学生训练所见范围的真正新知识 (genuinely new knowledge)
        • 理解:即使思维模式一致且得分更高,教师也还必须提供学生在其训练中未曾见过的真正新能力
    • 当上述条件不满足时可以有一些补救措施:
      • Off-policy 冷启动
        • 注:附录 C.1 中证明了:SFT 冷启动导致了 student 和 teacher 之间更好、更稳定的匹配
      • 教师对齐的 Prompt 选择 (Teacher-aligned prompt selection)
        • 注意:这里的 Prompt 不是数据(Query),是 Prompt 模板
        • 从实验看,这里的 Prompt Template 对 OPD 的影响不小,详情见 6.2
    • 其他:OPD 在长轨迹上会发生奖励退化现象
      • 本文观点:OPD 中看似免费的密集 Token-level 奖励是有代价的,OPD 在长轨迹上会消失
      • 理解:教师遇到学生的长文时,是懵的,因为他自己不一定会生成这个前缀(没人考核他的这个能力),所以教师此时的信号对学生的可参考性不高,继续训练可能导致模型崩溃
        • 举例:学生做数学题时,如果已经写了很多错误的步骤了,老师可能也看不懂了,不知道怎么教导学生了
        • 注:这在长 CoT 和 多步 Agentic 场景中要尤为注意
      • Agentic 中的一个改进思路:
        • 推测:如果教师具备从错误步骤中恢复的能力(即不管从哪里续写都可以成功的教师),那么这种教师应该不太会受这种情况影响
        • 训练教师时就给教师一些从错误中恢复的能力,这样可以避免遇到错误的步骤,教师不知道怎么办
    • 本文的有趣实验:
      • 从弱到强的反向蒸馏实验:
        • 从学生视角看,同家族的 1.5B 和 7B 教师在分布上是不可区分的
        • 从 Token 层面看,成功的 OPD 的特点是在学生访问的状态上,高概率 Token 的渐进对齐,以及一个集中的共享 Token 集,该集合集中了绝大部分(97%-99%)的概率质量
  • 个人思考:
    • 可以考虑提出一种新的方法,针对不同长度的 Token 使用不同的 Advantage,比如前面的 Token 使用 OPD 的损失,后面的 Token 使用传统的 GRPO Advantage?

Introduction and Discussion

  • Qwen3 (2025)、MiMo (2026) 和 GLM-5 (2026) 等都在其后训练流程中采用了 OPD
  • Thinking Machines Lab (2025) 以极小的 RL 计算成本复现了 Qwen3 OPD 的配方,独立证实了同策略、密集的监督是一种实用高效的替代方案
  • OPD 的一个失败模式:
    • 一个更强的教师可能反而无法改进学生
    • 注:很少有研究探讨为什么教师的 Token-level 信号能将学生分布导向期望的方向,或者它失败的条件

Phenomenology,现象学

  • 本文第三节识别了 OPD 成功的关键因素:
    • (i) 思维模式一致性(thinking-pattern consistency) :
      • 学生和教师应共享一致的思维模式(例如,它们在 Top-\(k\) Token 分布上有更高的重叠率)
      • 即使教师获得了更高的基准分数,不匹配的思维模式会产生较低的重叠率,且训练无法完全恢复
    • (ii) 更高的分数 不等于 新知识 :
      • 即使思维模式一致且基准分数更高,教师也应提供学生尚未获得的知识
      • 当两个模型在相同的数据和配方上训练 时,它们会收敛到各自规模下的相似分布 ,导致 教师几乎没有可迁移的信号
      • 只有当教师拥有学生未曾见过的知识时,OPD 才能产生显著的收益
  • 本文通过反向蒸馏实验验证了这两个条件
    • 说明 OPD 学习的是思维模式,而不仅仅是受益于模式一致性,并且训练动态可以完全与基准分数解耦

Mechanism

  • 本文第四节进行了 Token-level 机制研究
  • 成功的 OPD 都表现出一个一致的特征(在所有研究的设置中):
    • 在学生访问的状态上,学生和教师的分布变得越来越相似
    • 高概率 Token 越来越多地重合(重叠率从 \(72%\) 上升到 \(91%\)),两个分布之间的熵差距缩小,且共享的 Top-\(k\) Token 集中了 \(97 - 99%\) 的组合概率质量
    • 成功模式的表现总结:重叠率稳步上升, Token-level 优势改善,熵差距缩小
  • 失败的运行从一开始就表现出停滞的重叠率和持续的熵不匹配
    • 将监督限制在重叠 Token 上就能匹配完整的 Top-\(k\) 性能,证实了重叠集是 OPD 梯度信号的主要作用点

Recipe

  • 第五节提出了两种互补的策略,可以在原本失败的配置中恢复 OPD:
    • (i) Off-policy 冷启动(off-policy cold start)
      • 在 OPD 之前,在教师生成的 Rollout 上进行一个预热 SFT 阶段,通过提高初始重叠率来弥合思维模式差距
      • 附录 C.1 中证明了:SFT 冷启动导致了 student 和 teacher 之间更好、更稳定的匹配
    • (ii) 与教师对齐的 Prompt 选择(teacher-aligned prompt selection)
      • 使用来自教师 Post-training 数据的 Prompt,以锐化高概率 Token 上的对齐
      • 注:但代价是学生熵显著降低,需要与分布外的 Prompt 混合使用
    • 在这两种情况下,恢复后的运行都表现出与 第四节 中自然成功的运行相同的动态特征:重叠率稳步上升, Token-level 优势改善,熵差距缩小

OPD 密集监督的代价

  • 奖励质量随着轨迹深度系统地下降,并且不稳定性起源于较后的 Token,然后反向传播到整个轨迹
  • 即使是失败的教师也能提供与 Rollout 正确性全局相关的奖励 ,这表明失败的原因不在于信号质量,而在于局部优化几何
  • 一个较大的教师可能诱导出一个在学生策略周围局部平坦的奖励景观,使得 Token-level 梯度无效(尽管存在一个信息丰富的全局信号)
  • 这些发现揭示了监督密度和监督可靠性之间的基本矛盾,并指出了当前 OPD 在长时程推理和 Agentic 设置中的局限性

Preliminaries

Notation

  • 令:
    • \(x = (x_{1},\ldots ,x_{n})\) 表示一个输入 Prompt
    • \(y = (y_{1},\ldots ,y_{m})\) 表示一个 Response
  • 将 \(y_{< t}\) 记为到第 \(t\) 步为止的前缀:
    $$ y_{< t}\triangleq (y_{1},\ldots ,y_{t - 1}) $$
  • 考虑两个 LLM:学生 \(\pi_{\theta}\) 和教师 \(\pi_{T}\)
    • 每个都定义了一个在词表 \(\mathcal{V}\) 上的下一个 Token 分布 \(\pi (\cdot \mid x,y_{< t})\)
  • 将 \(y\sim \pi_{\theta}(\cdot \mid x)\) 记为从学生自回归采样得到的一个 Response
    • \(\mathcal{D}\) 为 一个固定的,包含教师生成的输出的 Prompt-Response 对数据集 :
      $$\mathcal{D} = \{(x^{(i)},y^{(i)})\}_{i = 1}^{N}$$
      • 理解:\(y^{(i)}\) 是教师生成的
    • \(\mathcal{D}_x\) 为对应的 Prompt 集合:
      $$ \mathcal{D}_x\triangleq \{x^{(i)}\}_{i = 1}^{N} $$
  • 知识蒸馏(knowledge distillation,KD)通过最小化两个分布之间的散度来将知识从 \(\pi_{T}\) 转移到 \(\pi_{\theta}\)
    • 一个标准的选择是 Kullback-Leibler(KL)散度,对于 \(\mathcal{V}\) 上的两个分布 \(P\) 和 \(Q\),定义为
      $$ D_{\text{KL} }(P| Q) = \sum_{v\in \mathcal{V} }P(v)\log \frac{P(v)}{Q(v)} $$

On-Policy Distillation

  • OPD 在当前学生 \(\pi_{\theta}\) 采样的轨迹上计算监督
  • 给定一个 Prompt
    $$ x\sim \mathcal{D}_x$$
  • 学生采样一个 Response
    $$ \hat{y} = (\hat{y}_1,\ldots ,\hat{y}_T)\sim \pi_{\theta}(\cdot \mid x)$$
    • 其中 \(T\triangleq |\hat{y} |\) 表示 Rollout 长度
  • 然后在学生生成的前缀 \(\hat{y}_{< t}\) 上评估两个模型,在每个步骤 \(t\) 产生两个下一个 Token 分布:对于 \(\nu \in \mathcal{V}\),有
    $$
    p_t(\nu)\triangleq \pi_{\theta}(\nu \mid x,\hat{y}_{< t})\\
    q_t(\nu)\triangleq \pi_T(\nu \mid x,\hat{y}_{< t})
    $$
  • 一个标准的公式是在学生生成的轨迹上最小化序列级别的反向 KL:
    $$\mathcal{L}_{\text{OPD} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x}\left[D_{\text{KL} }(\pi_{\theta}(\cdot \mid x)\parallel \pi_T(\cdot \mid x))\right] \tag {1}$$
  • 利用自回归分解,这个序列级别的目标允许精确的 Token-level 分解:
    $$\mathcal{L}_{\text{OPD} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x,\hat{y}\sim \pi_{\theta}(\cdot |x)}\left[\sum_{t = 1}^{T}D_{\text{KL} }(p_t| q_t)\right] \tag {2}$$
  • 实践中不同的实现在如何计算这个精确的 Per-Token 反向 KL 上有所不同:
    • 全词表(Full-vocabulary) OPD 直接优化公式 (2)
    • Sampled-token OPD 使用 Per-Token-level KL 项的无偏蒙特卡洛估计
    • Top-\(k\) OPD 则用基于子集的近似替换全词表 KL
Sampled-Token OPD
  • 最轻量级的变体仅评估学生采样的 Token,也是先前同策略蒸馏工作中最常见的实现 (2025; 2026; 2026b)
  • 给定 \(\hat{y}_t\sim p_t\), Per-Token 的损失是
    $$ \ell_t^{\text{sample} }\triangleq \log p_t(\hat{y}_t) - \log q_t(\hat{y}_t)$$
  • 聚合为:
    $$\mathcal{L}_{\text{OPD} }^{\text{sample} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x,\hat{y}\sim \pi_{\theta}(\cdot |x)}\left[\sum_{t = 1}^{T}\ell_t^{\text{sample} }\right] \tag {3} $$
  • 此时每个 \(\ell_t^{\text{sample} }\) 都是 Token-level 反向 KL 的一个无偏单样本估计量
    • 证明:
      $$ \mathbb{E}_{\hat{y}\sim p_t}[\ell_t^{\text{sample} }] = D_{\text{KL} }(p_t| q_t)$$
      • 注:这里的 \(p_t\) 就对应上述的 Student 模型 \(\pi_\theta(\cdot|x)\)
Full-Vocabulary OPD
  • Full-Vocabulary 在每个前缀上计算整个词表上的散度:
    $$\mathcal{L}_{\text{OPD} }^{\text{full} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x,\hat{y}\sim \pi_{\theta}(\cdot |x)}\left[\sum_{t = 1}^{T}D_{\text{KL} }(p_t| q_t)\right] \tag {4} $$
    • 与 Sampled-Token OPD 相比,这产生了更密集的梯度,但代价是对于批次大小 \(B\)、序列长度 \(T\) 和词表大小 \(M = |\mathcal{V}|\),需要 \(O(BTM)\) 的内存
Top-\(k\) OPD
  • Top-\(k\) OPD 通过在子集 \(S_t\subseteq \mathcal{V}\) 上限制散度计算,提供了 Sampled-Token 和全词表 OPD 之间的中间设计
  • 这里关注学生 Top-\(k\) 变体,选择在学生下概率最高的 \(k\) 个 Token,即
    $$ S_t = \text{TopK}(p_t,k)$$
    • 注:(Revisiting-OPD)Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes, 20260326, CASIA(解读博客见:NLP——LLM对齐微调-Revisiting-OPD)中还消融了其他版本,最终结论是各有优劣:
      • Teacher top-K 具有竞争力
      • Student top-K 在几个单独的数据集上表现强劲(平均值优于 Teacher Top-K)
      • Teacher top-K 加上 Sampled-token 在比较中取得了最佳平均分
  • 定义在 \(S_t\) 上重新归一化的学生和教师分布为:
    $$\bar{p}_t^{(S_t)}(\nu) = \frac{p_t(\nu)\mathbf{1}[\nu\in S_t]}{\sum_{u\in S_t}p_t(u)},\qquad \bar{q}_t^{(S_t)}(\nu) = \frac{q_t(\nu)\mathbf{1}[\nu\in S_t]}{\sum_{u\in S_t}q_t(u)}。$$
  • 然后通过最小化子集 KL 散度 \(D_{\text{KL} }(\bar{p}_t^{(S_t)}| \bar{q}_t^{(S_t)})\) 来进行蒸馏,得到轨迹级别的目标:
    $$\mathcal{L}_{\text{OPD} }^{\text{top - k} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x,\hat{y}\sim \pi_{\theta}(\cdot |x)}\left[\sum_{t = 1}^{T}D_{\text{KL} }(\bar{p}_t^{(S_t)}| \bar{q}_t^{(S_t)})\right] \tag {5} $$
    • 这个公式丢弃了 \(S_t\) 之外的质量,因此仍然是全词表反向 KL 的一个近似,但它显著降低了教师查询成本,同时保留了学生高概率区域上的多 Token 监督

Dynamic Metrics

  • 在第 \(t\) 步将学生和教师的 Top-\(k\) 集定义为 \(S_t^{(p)} = \text{TopK}(p_t,k)\) 和 \(S_t^{(q)} = \text{TopK}(q_t,k)\)
  • 在后续实验中将在整个 OPD 训练过程中监控以下指标
    • 重叠率(Overlap Ratio)
      • 量化学生和教师候选空间之间的对齐程度,定义为同时出现在学生和教师 Top-\(k\) 集中的 Token 的平均比例:
        $$\mathcal{M}_{\text{overlap} }\triangleq \mathbb{E}_t\left[\frac{|S_t^{(p)}\cap S_t^{(q)}|}{k}\right] \tag {6} $$
      • 低重叠率表明学生的概率质量集中在与教师不相交的 Token 集上,表明显著的政策差异或“模式不匹配”
      • 接近 1.0 的比率意味着学生已成功定位到教师支持的 Region
    • 重叠 Token 优势(Overlap-Token Advantage)
      • 为衡量重叠 Token 内的分布一致性,定义
        $$ A_{t}(\nu) \triangleq \bar{p}_{t}(\nu) (\log \bar{q}_{t}(\nu) - \log \bar{p}_{t}(\nu))$$
        • 其中 \(\bar{p}_{t}, \bar{q}_{t}\) 是在 \(S_{t}^{(p)} \cap S_{t}^{(q)}\) 上重新归一化的学生和教师分布
      • 该指标平均了这个量:
        $$\mathcal{M}_{\text{adv} }\triangleq \mathbb{E}_{t}\left[\frac{1}{|S_{t}^{(p)}\cap S_{t}^{(q)}|}\sum_{\nu \in S_{t}^{(p)}\cap S_{t}^{(q)} }A_{t}(\nu)\right] \tag {7} $$
      • 接近零的值表示高质量的对齐,即学生以适当的置信度将质量放在教师偏好的 Token 上
      • 大的负值表示在交集内,与教师相比学生过于自信(高 \(p_{t}\) 但较低的 \(q_{t}\))
    • Entropy and Entropy Gap
      • 为监控策略的分布特性,追踪学生的熵 \(H(p_{t})\) 和教师的熵 \(H(q_{t})\) 在学生 Rollout 上的情况,并定义熵差距为:
        $$\Delta H_{t} = |H(q_{t}) - H(p_{t})| \tag {8} $$
      • \(\Delta H_{t}\) 是模式对齐的一个特定状态指标
        • 大的差距表明在相同访问状态上,学生和教师在置信度和多样性方面存在显著的不匹配,而收敛到零表明学生已经匹配了其生成轨迹上教师的不确定性剖面

Phenomenology of On-Policy Distillation,OPD 的现象学

  • 在调查 OPD 的 Token-level 机制之前,本文首先提出一个更广泛的问题:
    • 什么条件决定了 OPD 的有效性?
    • 一个自然的假设是更强的教师应该总是产生更好的蒸馏结果,然而本文观察到一些配置中情况并非如此
  • Takeaways
    • 思维模式一致性
      • 学生和教师应共享兼容的思维模式
      • 即使教师获得了更高的基准分数,大的不匹配也会削弱 Token-level 蒸馏信号(第 3.1 节)
    • 更高的分数 不等于 新知识
      • 教师应提供学生在训练中未见过的知识
      • 即使思维模式一致且分数更高,教师也可能没有提供真正的新知识,使得 OPD 缺乏驱动信号(第 3.2 节)

Thinking-Pattern Consistency

  • 本节研究 OPD 是否要求学生和教师之间具有兼容的思维模式
    • 更强的教师并不能保证更好的蒸馏:推理模式上的巨大不匹配会削弱蒸馏信号,无论教师的基准优势如何
Setup
  • 使用 Qwen3-1.7B-Base (2025) 作为学生,并比较两个教师:
    • Qwen3-4B(Non-thinking) (2025)
    • GRPO 教师:Qwen3-4B-Base-GRPO (这是通过对 Qwen3-4B-Base 应用 Zero-RL(使用 GRPO (2024))获得的(详细的训练设置在附录 A.1 中提供)
      • 问题:这里所说的 Qwen3-1.7B-Base 和 Qwen3-4B-Base-GRPO 都是 Thinking 模型吗?推测不是使用 Thinking 模式?
  • 由于学生也是一个 Base 模型,这里期望其思维模式更接近经过 GRPO 训练的教师
  • 使用 DAPO-Math-17K 数据集 (2025) 进行了两个 OPD 实验,仅在教师模型的选择上有所不同
  • 所有实验都使用附录 A.2 中描述的默认超参数(另有不同的点会指明),并在 AIME 2024 (2024)、AIME 2025 (2025) 和 AMC 2023 (2024) 上进行评估
    • 每个问题采样 16 个 Rollout
    • 温度为 0.7
    • Top-\(p\) 为 0.95
    • 最大验证 Response 长度为 31,744 个 Token
    • 本文报告 16 个样本的平均准确率(avg@16)作为主要评估指标
Results
  • 如图 2 所示,来自 Qwen3-4B-Base-GRPO 的蒸馏始终优于来自 Qwen3-4B(Non-thinking)的蒸馏
    • 注:Qwen3-4B(Non-thinking)自身的 Accuracy 是高于 Qwen3-4B-Base-GRPO 的(图 2 左)
  • GRPO 教师在基准测试中表现不佳(图 2 左),但 GRPO 教师表现出更高的初始重叠率(图 2 右)
    • 表明 GRPO 教师 思维模式与学生更一致
    • 问题:这里 GRPO 教师思维模式与学生更一致的原因是两者都是 Base 模型吗?Qwen3-4B 是 Instruct 模型
  • 两个重叠曲线在训练后期趋于收敛(重叠率差异几乎消失),但性能差距持续存在
    • 表明早期思维模式的不匹配导致了蒸馏效益的损失,且无法在后期恢复
  • 附录 A.3 中分别报告了每个基准的验证准确率,相同的总体趋势在所有数据集中都成立

New Knowledge, Not Just Scale

  • 仅凭思维模式一致性并不能解释所有的观察结果
    • 即使教师得分更高且与学生共享一致的思维模式,OPD 仍然可能失败
Setup
  • 在不同模型家族中构建了两个受控比较
    • 在 DeepSeek 家族中,使用 DeepSeek-R1-Distill-Qwen-1.5B(R1-Distill-1.5B) (2025) 作为学生,并比较两个教师:
      • DeepSeek-R1-Distill-Qwen-7B(R1-Distill-7B) (2025)
      • Skywork-OR1-Math-7B (2025b)(通过对 R1-Distill-7B 应用 RL 后训练获得的)
    • 在 Qwen 家族中,使用 Qwen3-1.7B(Non-thinking) (2025) 作为学生,并比较两个教师:
      • Qwen3-4B(Non-thinking)
      • Qwen3-4B-Non-Thinking-RL-Math (2026b)(通过在 DeepMath (2025c) 的 57K 子集上对 Qwen3-4B(Non-thinking)应用 RL 获得的)
  • 在这两种设置中,关键对比在于来自相同训练流程的教师与通过进一步 RL 获得了额外能力的教师之间
    • 所有运行都使用与之前相同的数据集和训练配方
Results
  • 如图 4 所示,两个家族都表现出一致的模式
    • 相同流程的教师带来的改进有限, Post-trained 教师在所有基准测试中都产生了显著更强的收益
  • Post-trained 教师不仅取得了更高的绝对性能,而且通过差距恢复率衡量,恢复了更大比例的师生差距,其中差距恢复率定义如下:
    $$ (\text{Acc}_{\text{after OPD} } - \text{Acc}_{\text{before OPD} })/(\text{Acc}_{\text{teacher} } - \text{Acc}_{\text{before OPD} }) $$
  • 这表明:
    • 这些教师获得的额外能力通过 OPD 实现了迁移
  • 注:由于 Post-trained 教师源自相同的基础检查点,它们的思维模式仍然大致对齐(这也通过重叠率动态观察到),从而让学生学习到了教师通过 RL 获得的新能力

Validation via Reverse Distillation

  • 本文设计了一个反向蒸馏(reverse-distillation)实验作为同时验证这两个条件的比较,并揭示了对 OPD 本质的更深入见解
Setup
  • JustRL-DeepSeek-1.5B(JustRL-1.5B) (2025a) 是通过对 R1-Distill-1.5B 应用 RL 获得的
    • 本文现在反转这个方向,使用 JustRL-1.5B 作为学生,并从 R1-Distill-1.5B(其自身的 RL 前检查点)进行蒸馏
      • 理解:R1-Distill-1.5B 作为教师,JustRL-1.5B 作为学生,JustRL-1.5B 是 基于 R1-Distill-1.5B 训练的
    • 比较组:使用 R1-Distill-7B 作为教师进行比较
      • 注:R1-Distill-7B 的基准分数略高于 JustRL-1.5B,而 R1-Distill-1.5B 则明显更弱
Results
  • 图 5 揭示了两个惊人的现象
    • 第一:将 JustRL-1.5B 向其自身的 RL 前检查点 R1-Distill-1.5B 蒸馏,导致学生几乎完全回归到其 RL 前的性能,消除了通过 RL 获得的所有收益
    • 第二:当用 R1-Distill-7B(一个来自同一家族的规模明显更大甚至略强的模型)替换教师时,训练轨迹几乎无法区分:
      • 在基准测试中得分高于 JustRL-1.5B,但 R1-Distill-7B 却将学生驱动到与较弱的 1.5B 教师相同的回归水平
      • 注:从图 5 中可以看到,R1-Distill-7B 本身的性能非常高,(特别是在 AIME 2025 上比 JustRL-1.5B 还高,但是 JustRL-1.5B 无法从 R1-Distill-7B 上通过 OPD 学到知识)
        • 理解:我的推测是有两种情况:
          • 可能一:这里应该是短期内出现的坍缩现象,由于学生模型和教师模型差异过大,导致训练中途时,模型短期内被拉到了一个既不像学生,又不像教师的中间地带,只要学生的分布是不断接近教师的,继续训练下去,分数会逐渐回来(后续有资源可以考虑继续实验)
          • 可能二:学生模型在当前评测的这些指标上过拟合了,让他学习教师模型反而导致短期内的下降
    • 由于 OPD 在学生生成的轨迹上最小化反向 KL 散度,这种收敛意味着这两个教师在学生访问的状态上诱导出几乎相同的局部目标分布,尽管它们的规模不同
  • 这些结果得出几个结论:
    • 思维模式很重要,并且 OPD 从根本上学习思维模式
      • 从 R1-Distill-1.5B 蒸馏到 JustRL-1.5B 导致 JustRL-1.5B 回归到其 RL 前的性能
      • 这表明 OPD 主动获取教师的思维模式并覆盖学生自身的模式
      • 这正是思维模式一致性重要的原因:如果差距太大,学生可能无法有效学习
      • 问题:这里有点不好理解,只能说明 从 R1-Distill-1.5B 蒸馏到 JustRL-1.5B 导致 JustRL-1.5B 回归到其 RL 前的性能,并不能说明思维模式很重要啊!这里的思维模式定义是什么?应该是两者的 top-k Token 重叠率这样的指标吧
    • 基准性能不能预测 OPD 的结果
      • R1-Distill-7B 得分高于 JustRL-1.5B,但蒸馏没有产生改进,反而导致回归
      • 这表明 OPD 的训练动态可以完全独立于教师的基准性能,甚至可能向相反方向移动
      • 理解:这里可以理解为,如果教师和学生的思维模式(覆盖度)相差过大,那么朴素而鲁莽的把学生往教师的分布上拉动,收益可能是负的(学生会走到既不像自己,又不像教师的尴尬境地,至少在短时间内,学生没有完全学到教师的分布之前,下游评测分数应该是下降的)
        • 问题:这里 In-Domain 的分数应该是上涨的吧,OOD 的分数倒是应该是下降的?
    • 更高的分数并不意味着 OPD 的新知识
      • R1-Distill-7B 和 R1-Distill-1.5B 属于同一模型家族,仅在规模上有所不同
      • 这两个模型对学生产生无法区分的影响已经证实了:
        • (i) 更高的分数(R1-Distill-7B)可能仅仅反映了对相同数据的不同程度的拟合,而不是真正新颖的能力
          • 为了使 OPD 产生收益,教师应该拥有学生在其训练中尚未见过的知识
          • 问题:这里应该是因为 R1-Distill-7B 跟 学生 JustRL-1.5B 的思考模式差异过大?所以 没法用 R1-Distill-7B 作为教师教授学生 JustRL-1.5B
        • (ii) 规模不同,R1-Distill-7B 和 R1-Distill-1.5B 表现出相同的思维模式
      • 吐槽:这个结论 基准性能不能预测 OPD 的结果 的结论类似,都是想表明 R1-Distill-7B 的指标不错,但无法蒸馏到 JustRL-1.5B 上
  • 反向蒸馏实验以及第 3.1 和 3.2 节中的正向比较巩固了这两个条件
    • 思维模式一致性与更高的初始重叠率和更强的 OPD 结果相关
    • 新知识(例如来自进一步的后训练)即使在重叠率已经很高时也能实现更大的可迁移收益

Mechanism of On-Policy Distillation

  • 第 3 节确定了两个条件,即思维模式一致性和超出相同模型家族的新知识,它们决定了 OPD 的有效性
  • 本节研究在训练过程中这些条件得以体现的 Token-level 机制
    • 通过比较成功和失败的 OPD 运行,本文表明有效的蒸馏 是由高概率 Token 上的渐进对齐 驱动的
  • Takeaways
    • 渐进对齐 (Progressive alignment)
      • 在学生访问的状态下,学生和教师的高概率 top-\(k\) Token 之间的重叠在整个训练过程中稳步增加
      • 失败的运行从一开始就表现出停滞的重叠
    • 重叠充分性 (Overlap sufficiency)
      • 几乎所有优化的效果 都集中在共享的 top-\(k\) Token 上
      • 仅优化这些重叠 Token 就足以匹配标准的 OPD(即:非重叠 Token 的贡献很小)

Progressive Alignment of High-Probability Tokens,高概率 Token 的渐进对齐

  • 比较在相同设置下,从两个不同教师蒸馏同一个学生的动态,一个产生了明显的改进,而另一个没有产生任何改进
    • 发现:成功的 OPD 本质上是由学习学生和教师之间共享的高概率 Token 驱动的
Setup
  • 选择 R1-Distill-1.5B 作为学生,并比较两个教师:
    • JustRL-1.5B(在 R1-Distill-1.5B 进一步训练的模型)
    • R1-Distill-7B
    • 注:这两个教师表现出相当的数学性能,R1-Distill-7B 略强一些
  • 使用与之前相同的 DAPO-Math-17K 数据集和训练设置,并在训练期间监控三个动态指标
Results
  • 图 6 显示了截然不同的结果
    • 从 JustRL-1.5B 蒸馏带来了持续的收益,最终学生恢复了超过 \(80%\) 的与教师的性能差距
    • 从 R1-Distill-7B 蒸馏则未能带来任何改进(尽管教师整体上更强)
  • 训练动态(图 6,底部)揭示了潜在的差异
    • 在成功的运行中,重叠率稳步上升,重叠 Token 优势向零改善,熵差距缩小
      • 表明学生逐渐定位了教师的高概率区域,在该区域内校准其质量,并匹配了教师的局部置信度
    • 在失败的运行中,所有三个指标都停滞不前
      • 个人补充:熵差距还是缩小了一些的,但是会波动
  • 有两个观察值得强调
    • 第一:在整个训练过程中,重叠 Token 承载了两种模型总概率质量的 \(97% - 99%\)(见附录 B.1)
      • 因此不断上升的重叠反映了概率上占主导地位的 Token 上的对齐,而不仅仅是集合层面的重合
    • 第二:重叠 Token 优势的改善表明 OPD 的主要优化信号在于在重叠区域内重新分配概率,而不是在区域外的 Token 上
  • 附录 B.2 中报告了辅助优化指标(策略损失、梯度范数和极端优势 Token 概率差异),这些指标显示了一致的次要模式:
    • 成功的运行表现出递减的损失和持续的梯度幅度
    • 失败的运行则显示出微弱的梯度和持续的概率差异
  • 附录 B.3 中进一步验证了这些发现在不同的模型对之间具有普遍性
    • 使用 R1-Distill-7B 作为学生,在相同设置下使用两个不同的教师

Optimizing Shared Tokens Alone Suffice,仅优化共享 Token 就够

  • 上述分析表明,高概率 Token 对齐与 OPD 成功相关
  • 本节进一步研究这种相关性是否具有因果性:
    • 重叠区域是否不仅是对齐出现的地方,而且是驱动优化的区域
  • 本文设计了一个有针对性的消融实验,将 top-\(k\) 支持分解为其重叠和非重叠部分,并单独对每个部分进行训练
Setup
  • 使用第 4.1 节中成功的 OPD 设置 (JustRL-1.5B \(\rightarrow\) R1-Distill-1.5B),本文比较了三种变体,它们的区别仅在于蒸馏损失覆盖哪些 Token:
    • (i) Student Top-\(k\):在完整的 student top-\(k\) 支持 \(S_{t}^{(p)}\) 上进行优化
    • (ii) Overlap Top-\(k\):将优化限制在 student 和 teacher top-\(k\) 集合的交集 \(S_{t}^{(p)}\cap S_{t}^{(q)}\) 上
    • (iii) Non-Overlap Top-\(k\):将优化限制在它们的对称差集 \(S_{t}^{(p)}\Delta S_{t}^{(q)}\) 上(即 学生独有支持集)
  • 补充:将默认的 \(k\) 设置为 16
Results
  • 如图 7 所示,仅优化重叠区域就足以在所有三个基准测试上恢复标准 Student Top-\(k\) OPD 的几乎全部收益,而 Non-Overlap Top-\(k\) 则始终较弱
    • 这表明 OPD 的主要收益来自于共享高概率区域上的梯度,而不是非重叠 Token
    • 这也解释了为什么 Student Top-\(k\) 和 Overlap Top-\(k\) 表现得如此相似
      • 学生独有支持中的额外 Token 携带的概率质量非常少
    • Student Top-\(k\) 和 Overlap Top-\(k\) 的重叠 Token 优势曲线几乎无法区分,Non-Overlap Top-\(k\) 的幅度则小得多
      • 表明在重叠 Token 上的有效梯度要弱得多(更正错误:这里是 非重叠 Token 吧)
  • 重叠优化是自我强化的 (self-reinforcing)
    • Student Top-\(k\) 和 Overlap Top-\(k\) 都将重叠率从约 \(72%\) 稳步提高到 \(91%\) 以上
      • Non-Overlap Top-\(k\) 先下降,然后仅部分恢复(图 7,左下)
    • 这揭示了一种自我强化的动态:
      • 一旦一个 Token 进入共享的高概率区域并受到教师青睐,reverse-KL 更新就会将更多的质量集中在它上面,逐渐将竞争性的非重叠 Token 推出学生的 top-\(k\) 集合
      • 因此,重叠区域的扩大并非与优化过程相悖,反而正是优化所导致,由此形成一个良性循环,在整个训练过程中持续维持对齐。
  • 这些结果支持了 OPD 的一个统一机制:
    • OPD 主要效果是在学生访问的状态下,逐步优化学生在教师支持的高概率 Token 上的分布
    • 这种对齐既是 OPD 成功的标志,也是其操作的核心所在,其中仅优化重叠 Token 就足够了,而非重叠 Token 贡献很小
      • 当满足第 3 节中确定的条件时,这种自我强化的动态驱动着稳定的改进
      • 当不满足时,重叠停滞,训练无法取得进展

Practical Recipe

  • 第 3 节确定了成功进行 OPD 的两个条件
  • 拥有新知识是教师的内在属性,但教师和学生之间的思维模式差距可以通过训练设计来缩小
  • 本节提出了两种互补的策略,通过改善重叠动态来恢复在其他情况下会失败的 OPD 配置
  • Takeaways
    • Off-policy 冷启动
      • 在 OPD 之前,对学生在教师生成的 Rollout 上进行微调,可以弥合初始的思维模式差距,从而从一开始就获得更高的重叠率和持续更强的最终性能
    • 教师对齐的提示
      • 使用来自教师后训练数据的 Prompt 可以加强在高概率 Token 上的对齐
        • 注:单独使用教师后代价是学生熵显著降低,需要将此类 Prompt 应与分布外的 Prompt 混合使用,以防止熵崩溃

Off-Policy Distillation from Teacher Rollouts as Cold Start

  • 当学生和教师具有显著不同的思维模式时,纯粹的 OPD 可能无效,因为教师提供的 Token-level 监督信号难以被学生从其初始策略中利用
  • 为了减轻这种不匹配,本文提出可考虑一个两阶段框架:
    • 第一阶段:通过 SFT 学生在教师生成的 Rollout 上来进行 off-policy 蒸馏,使其更接近教师的思维模式
    • 第二阶段:使用标准 OPD 继续训练
Setup
  • 模型选择:使用 Qwen3-1.7B-Base 作为学生,Qwen3-4B (Non-thinking) 作为教师
  • 数据选择:使用 OpenThoughts3-1.2M (2025) 的数学领域子集作为 SFT 的 Prompt 来源
  • 具体做法:
    • 教师在此数据集的一个子集上生成 200K 个 Response,使用这些教师 Rollout 对学生进行 SFT 作为冷启动,得到 Qwen3-1.7B-SFT
    • 从该 SFT 初始化开始,使用在排除 SFT Prompt 子集 后剩余的 OpenThoughts Prompt(约 30K 个 Prompt)继续进行 OPD 训练
    • 对照组:一个纯 OPD 基线,该基线直接从 Qwen3-1.7B-Base 开始,使用相同的教师和 OPD Prompt 集,但在 OPD 之前不进行冷启动蒸馏
      • 详细的离线 Rollout 和 SFT 配置在附录 C.1 中提供
Results
  • 如图 8 所示,两阶段方法显著优于纯 OPD
  • 从 Qwen3-1.7B-SFT 开始始终比直接从 Qwen3-1.7B-Base 开始产生更好的验证性能
  • 性能差距在整个训练过程中持续存在,表明 off-policy 冷启动不仅改善了早期的优化,还提高了后续 OPD 的最终性能上限
    • 问题:
      • 看着图 8 中,各种指标都是 SFT 带来的,SFT 的样本太多了吧,导致整体效果其实在 SFT 后就收敛到 Teacher 上了,表现在 Overlap Ratio 其实一直处于收敛的情况(也就是说 Student 已经被 SFT 大幅拉倒 OPD 上了)
      • 而且 SFT 看到的数据,纯 OPD 看不到,也不够公平
  • 重叠动态支持了相同的结论:
    • SFT-initialized 学生开始时具有高得多的重叠率,并保持平滑、稳定的轨迹,而基础初始化的学生起点较低,并在逐渐恢复之前表现出明显的不稳定性
  • SFT-initialized 学生的熵差距也小得多
    • 表明从一开始 SFT-initialized 学生就与教师的置信度分布更匹配
  • 结论:
    • off-policy 蒸馏减少了初始的模式不匹配,使得一旦 OPD 开始,教师的 Token-level 监督信号就可以立即被利用
    • 附录 C.2 中对重叠质量动态进行了更详细的分析

Leveraging Teacher Post-Training Prompts

  • 由于教师的策略受到后训练期间所见 Prompt 的影响,在 OPD 期间使用与教师对齐的 Prompt 可以产生更有效的监督
Setup
  • 本文在两个粒度上进行实验:
    • 匹配 Prompt 模板是否重要
    • 匹配 Prompt 内容是否重要
Prompt template
  • 教师是 JustRL-1.5B,学生是 R1-Distill-1.5B

  • Prompt 集是 DAPO-Math-17K,仅 Prompt 模板不同

  • 原始模板是之前所有实验中使用的标准 DAPO 格式(除非另有说明),而与教师对齐的模板则与 JustRL 后训练期间使用的格式相匹配:

    • Original DAPO Template:

      1
      2
      3
      4
      Solve the following math problem step by step. The last line of your response should be of the form Answer: 
      $Answer (without quotes) where $Answer is the answer to the problem.
      {Question}
      Remember to put your answer on its own line after “Answer:”
    • Teacher-Aligned Template

      1
      {Question} Please reason step by step, and put your final answer within \boxed{}.
    • 两次运行(消融 Prompt 模板)包含相同的数学问题,但任务呈现给模型的方式不同

      • 这种设计隔离了 Prompt 模板与教师对齐的影响,同时保持底层问题内容不变
Prompt Content
  • 教师是第 3.1 节中介绍的 Qwen3-4B-Base-GRPO,学生是 Qwen3-1.7B-Base
  • 比较两个大小匹配的 Prompt 集:
    • DAPO-Math-17K(与教师的 RL 训练数据集对齐)
    • DeepMath 的一个子集(该子集与 DAPO-Math-17K 去重(见附录 C.3))
    • 此设计测试了 OPD 是否受益于使用与教师后训练数据完全相同的 Prompt,而不仅仅是领域内的 Prompt
Results
  • 图 9 中的 Prompt 模板设置显示,仅仅切换到与教师对齐的模板就能提高在所有三个基准测试上的验证性能
  • 重叠动态支持了这一结果:
    • 与教师对齐的模板运行开始时具有更高的重叠率,并收敛到更高的水平
    • 这表明即使是 Prompt 模板的微小变化,也能通过使学生生成的状态与教师更兼容,从而显著影响 OPD
    • 附录 C.4 中的基准测试详细分解显示了相同的趋势
  • 图 10 中的 Prompt 内容设置显示了类似的 downstream 优势,但有一个细微差别:
    • 与教师对齐的 Prompt 在整个训练过程中产生的重叠率较低
    • 但学生在重叠 Token 上的累积概率质量显著更高,表明学生将其质量集中在更少但共享程度更高的 Token 上
    • 即使重叠集更小,高概率 Token 上的有效对齐也更强
  • 观察:使用与教师对齐的 Prompt 会导致训练期间学生的熵显著降低
    • 这表明,仅在教师后训练期间见过的 Prompt 上进行 OPD 可能并不总是理想的,因为它会过度降低策略熵
    • 在实践中,一个更稳健的策略可能是将与教师对齐的 Prompt 与教师后训练数据之外的 Prompt 混合,以保持策略熵并维持学生的探索能力
  • 这些结果表明 OPD 不仅受益于合适的教师,还受益于匹配良好的 Prompt 集
    • 更接近教师后训练数据的 Prompt 可以提高下游性能,并加强在最重要的共享 Token 上的对齐,但应谨慎使用,以避免过度抑制学生的熵

Discussion

  • OPD 的吸引力在于其密集的监督信号,即 Per-Token 都从教师那里获得一个奖励信号
    • 这与 RL 中使用的稀疏的 Outcome-level 奖励形成对比
  • 但这种增加的监督密度是有代价的
    • 上述所有章节都隐含地依赖于教师在学生访问的状态下的 Token-level 奖励是可靠的,但本文已经看到这个假设可能会失效
    • 本节研究奖励信号本身,并考察其属性和局限性

Reward Quality Degrades with Trajectory Depth,奖励质量随轨迹深度退化

  • 本节研究教师的奖励质量如何随响应长度变化
响应长度存在一个最佳区间 (sweet spot)
  • 位置 \(t\) 的监督依赖于教师在学生生成的 Prefix \(y_{< t}\) 下的条件概率 \(\pi_{T}(y_{t} \mid x, y_{< t})\)
    • 而该 Prefix 可能会偏离教师自然产生的轨迹
  • 本文在六种最大响应长度下,针对 JustRL-1.5B 训练 R1-Distill-1.5B 200 步
  • 如图 11(a) 所示
    • 非常短的响应 (0.5K 和 1K) 提供的监督 Token 太少,无法进行样本高效的学习,而中等长度 (3K 和 7K) 产生了最强的结果
    • 超出此范围 (10K 和 15K),性能趋于平稳或下降
  • 图 12 中的训练动态证实
    • 中等长度产生平滑的重叠率增长,而 10K 和 15K 则表现出后期崩溃,重叠率急剧下降,同时伴随着学生熵和梯度范数的峰值
不稳定性源于较后的 Token (later tokens)
  • 这种崩溃从何开始?在 15K 设置中,分析整个训练步骤中作为输出位置函数的学生熵,揭示了一个清晰的从后向前的模式:
    • 如图 13 所示,高熵首先出现在响应的末端,并在训练过程中逐渐向前面的 Token 传播
    • 教师熵表现出类似的从后缀到前缀的趋势 (见附录 D.1)
      • 这与教师在较后位置遇到越来越不熟悉的 Prefix 并使产生的奖励噪声更大 ,进而破坏学生的稳定性 这一观点一致
教师延续 (teacher continuation) 能力随 Prefix 深度增加而下降
  • 本文通过测试当从学生生成的 Prefix 开始时,教师是否仍然能够改进学生的延续来进一步探究这一点
  • 从 DAPO-Math-17K 中采样 2K 个 Prompt,生成完整的学生 Rollout,并选择那些超过 16K Token 的 Rollout
    • 然后在多个位置截断每个 Rollout,并让教师从生成的 Prefix 继续生成
    • 图 11(b) 显示,教师的准确率优势单调下降,从 1K Prefix 处的 \(+0.37\) 下降到 16K Prefix 处的仅 \(+0.02\)
  • 这些结果揭示了 OPD 的 Token-level 监督中的一个基本权衡
    • 密集奖励在中等长度的推理轨迹上有效,但其可靠性随深度增加而下降,因为学生 Prefix 会进一步偏离教师熟悉的 States
    • 这表明 OPD 可能无法干净地扩展到更长 Horizon 的设置,例如扩展的 Chain-of-Thought 或 Agentic 多轮交互
  • 理解:教师遇到学生的长文时,是懵的,因为他自己不一定会生成这个前缀(没人考核他的这个能力),所以教师此时的信号对学生的可参考性不高,继续训练可能导致模型崩溃
    • 举例:学生做数学题时,如果已经写了很多错误的步骤了,老师可能也看不懂了,不知道怎么教导学生了

Globally Informative Reward Does Not Guarantee Local Exploitability,全局信息性奖励不能保证局部可利用性

  • 上一小节表明奖励质量随轨迹深度而下降
    • 一个自然的问题是:在失败的 OPD 配置中,奖励信号是根本无信息量的,还是失败的原因在于其他地方?
Setup
  • 重新审视第 4.1 节中的控制比较,以 R1-Distill-1.5B 为学生,两个教师:
    • JustRL-1.5B (成功 OPD)
    • R1-Distill-7B (失败 OPD)
  • 对于每个学生 Rollout \(y\),计算序列平均奖励 (基于 Sampled-Token OPD )
    $$\begin{array}{r}\bar{r} (y) = \frac{1}{T}\sum_{t = 1}^{T}\left[\log \pi_{T}(y_t\mid x,y_{< t}) - \log \pi_{\theta}(y_t\mid x,y_{< t})\right] \end{array}$$
    • 接下来比较正确和错误 Rollout 之间 \(\bar{r} (y)\) 的分布
    • 注:上述序列平均奖励仅仅是用来统计了对比的,不是损失函数
Global reward structure is preserved in both settings,全局奖励结构在两种设置中都得以保留
  • 图 14 显示
    • 对于两个教师,正确的 Rollout 始终获得比错误 Rollout 更高的序列平均奖励,具有可比的 AUROC 值 (JustRL-1.5B 为 0.73,R1-Distill-7B 为 0.75)
      • 理解:这说明对于两个教师,均有教师在正确 Rollout 上的输出概率比学生更高(符合预期)
    • 失败的 7B 教师并未产生更弱的全局信号,该信号与 Rollout 正确性的相关性同样高
      • 理解:
        • 这里的相关性是指:即使在失败的 7B 教师上,也能看到其在正确 Rollout 上的输出概率比学生更高
        • 这里的 全局信号是使用上述 Sequence 平均奖励来评估的

A hypothesis on local optimization geometry,关于局部优化几何的假设

  • 如果奖励在两种情况下都是全局信息性的,那么为什么 OPD 在 7B 教师时会失败?
    • 第 4.1 节的训练动态提供了一个线索
  • 如图 6 所示
    • 当 R1-Distill-7B 作为教师时,在训练的后期阶段,Overlap-Token Advantage 的幅度比 JustRL 教师时的更大,然而梯度范数仍然持续较小 (见附录 B.2)
      • 理解:图 6 中第二行第二列的图所示,这里的 幅度是偏离 0 的程度,看着图中是负的,所以深红色的线幅度更大
  • 一种可能的解释是:
    • 7B 教师 的 Per-Token 优势虽然个体较大,但在每个序列内的不同位置之间是各向异性的 (anisotropic)
      • 当这些异质信号聚合成一个梯度更新时,它们会部分抵消,导致尽管 Per-Token 的奖励很大,但有效的梯度却很小
      • 理解:说明部分 Token 被鼓励,部分 Token 被打压,且针对同一个参数也有不同的反馈信号,导致参数的有效梯度信号变小
    • 与学生具有兼容思维模式的 JustRL-1.5B ,可能将其优势集中在更连贯的 Token 子集上
      • 由此产生的梯度,虽然由更小的 Per-Token 信号组成,但指向一个一致的方向,反向 KL 可以通过其 Mode-seeking 行为放大该方向
      • 理解:比如一个序列上的每个 Token 都被鼓励,从而整体梯度方向也在提升,导致有效梯度信号相对较大
  • 注:本文尚未直接验证这个各向异性假设,这样做需要分析 Per-Token 梯度的方向结构,本文作者将这个问题留给未来的工作
    • 高 Per-Token 优势 与低梯度范数 同时出现是暗示性的,并指出了一个重要的区别:
      • 全局信息性奖励并不能保证局部可利用的奖励
    • 理解 OPD 奖励 landscape 的几何结构,以及开发能够利用各向异性奖励结构的目标函数,仍然是一个悬而未决的问题

Sampled-Token Reward Is Already Sufficient,Sampled-Token Reward 已经足够

  • 关于 OPD 的奖励,一个自然的问题是每个位置需要多少个 Token 来计算有用的梯度
  • Top-\(k\) OPD 将每个位置上 \(k\) 个最高概率 Token 的奖励聚合起来,人们可能期望更大的支持集总能带来更好或更稳定的学习
  • 通过改变 \(k\) 并将其与更简单的 Sampled-Token OPD 进行比较来研究这一点
    • 注:Sampled-Token OPD 在每个位置仅使用从学生分布中抽取的单个 Token
Setup
  • 本文使用 R1-Distill-1.5B 作为学生,JustRL-1.5B 作为教师,并将 Top-\(k\) OPD (\(k \in \{1, 4, 16, 64\}\)) 与 Sampled-Token OPD 进行比较,保持所有其他超参数固定
Results
  • 图 15 显示,在三个基准测试的平均值上, Sampled-Token OPD 实现了与 Top-\(k\) 设置相当的性能
    • 唯一明显更差的配置是 Top-1,其表现始终不佳
    • 将 \(k\) 增大到超过 4 会带来可忽略不计的额外收益,同时导致更大的计算开销
      • 理解:这里说的超过 4 是指,Top-8 和 Top-16 相对 Top-4 收益几乎可忽略(甚至微降)
      • 结论:Top-4 就够了
  • 图 16 显示了训练动态,并揭示了差异产生的地方
    • Top-1 表现出不稳定的重叠增长,伴随着熵和梯度范数的急剧峰值
    • Top-4 明显更稳定,但仍显示出后期下降
    • Top-16 和 Top-64 在整个过程中保持平滑
    • 结论:Top-K 的 K 越大,训练越稳定,上和梯度都没有峰值(注意:梯度范数和熵的 spike 趋势是一致的)
    • 思考:正因为 OPD 的 Advantages 均值倾向于小于 0,所以 Student 的熵一般不会降低,甚至会上涨(许多高概率 Token 降低自身概率带来的是熵增),少数 Token 会被提升概率,带来熵减
      • OPD 的 Advantages 均值倾向于小于 0 见本文 图 7 和 图 8 中
      • 注:这一点也可以见 NLP——LLM对齐微调-Revisiting-OPD
  • 这些结果表明,只要避免退化的 Top-1 设置,支持集大小可能不是 OPD 的关键设计选择
    • Sampled-Token OPD 之所以效果良好,尽管每个位置只使用一个 Token,是因为它按比例于学生自身的分布在每一步抽取一个不同的 Token,从而在训练过程中为高概率区域提供无偏覆盖
    • Top-1 则相反,它总是选择 ArgMax Token,从而将奖励集中在一个单一模式上
      • 小的策略变化可能会翻转哪个 Token 占据第一名(理解:比如第一第二名 Token 概率相近时),从而创建一个不稳定的奖励信号,该信号在训练过程中不会平均化
      • 理解:但这里的理解只是相对 Top-K 而言的,相对 Sampled-Token 而言,更多是下面的原因(Top-1 选择本身是有偏的估计,而 Sampled-Token 本身是无偏的估计)
    • Top-1 的失败不在于使用太少的 Token,而在于使用了一个有偏的、集中于单一模式的选择规则

Related Work

Knowledge Distillation

  • 知识蒸馏 (KD) (2015) 通过训练学生网络学习教师的软输出分布,将知识从大模型转移到小模型
  • 对于自回归序列模型,Kim 和 Rush (2016) 将其扩展到序列级蒸馏,通过在教师生成的输出上训练学生,建立了主导的 Off-policy 蒸馏基线 (2020;2019;2020)
  • SFT 已被直接应用于提高各种下游任务的性能 (2024;2021;2021)
  • 所有 Off-policy 方法共有的一个基本限制是训练-推理分布不匹配
  • 学生在教师生成或参考序列上被优化,但在推理时必须从其自身的分布生成,这是暴露偏差 (exposure bias) (2015) 的一个实例,会在长生成过程中累积错误
    • 这种不匹配促使将蒸馏转移到学生自己的 On-policy 分布上,这正是 On-policy 蒸馏的核心思想

On-Policy Distillation

  • MiniLLM (2023) 首次在反向 KL 目标下为 LLM 形式化了 OPD,该目标通过策略梯度进行优化,认为反向 KL 的 Mode-seeking 行为可以防止学生将概率质量分散到教师认为不太可能的区域
  • GKD (2024) 引入了一个统一框架,在多种散度上对 On-policy 和 Off-policy 数据进行插值,展示了相对于其他 KD 基线的一致改进
  • Yang 等 (2026b) 后来在理论上将 OPD 形式化为密集 KL 约束 RL 的一个特例,表明教师的 Per-Token 对数比率构成了一个隐式奖励,并且将此奖励扩展到其标准权重之外可以推动学生超越教师的性能边界
  • OPD 此后已被工业界采纳用于 Post-training 流程 (2026;2026;2026;2026;2025;2026;2025,2026b;2026),并扩展到可扩展的自蒸馏 (Ding,2026;2026;2026;2026;2026;2026;2026;2026a;2026a;2026a),其中单个模型通过以特权信息 (如 Ground-truth 解决方案或执行反馈) 为条件,充当自己的教师
  • 尽管这方面的工作越来越多,但现有研究主要集中在展示 OPD 的前景,例如密集奖励和缓解的暴露偏差,在不同的目标、任务和师生对上,而没有系统地分析 OPD 何时或为何失败

Capacity Gap and Distillability

  • 在知识蒸馏中,一个反复出现的观察是,较大的师生能力差距会降低甚至逆转蒸馏的益处
  • Cho 和 Hariharan (2019) 证明,当教师能力显著更强时,蒸馏可能会损害学生表现,Mirzadeh 等 (2020) 提出了一个中等规模的教师助手 (teacher assistant) 来弥合差距
  • Busbridge 等 (2025) 通过蒸馏缩放定律 (distillation scaling laws) 提供了定量处理,表明学生损失作为教师质量、学生规模和数据量的幂律函数,识别出一个 U 型能力区域,其中教师能力过强会降低蒸馏效率
  • 对于 LLM 推理,Li 等 (2025) 记录了一个“可学习性差距”,表明在来自强推理教师的长 Chain-of-Thought 轨迹上训练小模型始终不如更简单的方法,这表明教师输出的推理复杂性必须与学生能力相匹配。这些发现提醒人们对蒸馏的普适性持谨慎态度
  • 然而,现有的分析主要集中在 Off-policy 知识蒸馏上。特别是,能力差距和可蒸馏性在 OPD 中的问题仍未得到充分探索

Future Work

Beyond Mathematical Reasoning

  • 注:本工作的所有实验都是在数学基准上进行的
  • 后续开放问题:OPD 的相同条件和 Token-level 机制是否在代码和开放式设置等其他领域中也适用?

Impact of Pre-Training

  • “新知识”条件隐含地依赖于预训练语料库的差异,但隔离这个因素具有挑战性
  • 当前的研究主要依赖于跨家族蒸馏 (例如,Qwen \(\rightarrow\) LLaMA),这混淆了数据差异与 Tokenizer 不匹配和架构差异,而受控的预训练消融研究仍然代价高昂
  • 衡量预训练数据对 OPD 的影响仍然是一个悬而未决的问题

Self-Distillation Dynamics

  • 最近的工作越来越多地采用自蒸馏,其中单个模型在给定特权信息的情况下充当自己的教师
  • 将这些见解扩展到自蒸馏机制 (思维模式一致性得到保证,但知识新颖性源于特权访问而非单独的教师) 是顺理成章的下一步

Long-Horizon and Agentic Settings

  • 第 6 节提到的轨迹长度上限激励了混合方法,该方法将短段上的密集 Token-level 监督与更长 Horizon 的稀疏 Outcome-level 奖励相结合,以及在训练过程中逐步扩展监督 Horizon 的课程学习策略

附录 A:Details for Section 3

A.1. GRPO Training Details

  • Base Model :Qwen3-4B-Base

  • Training Dataset :使用处理后的 DAPO-Math-17K 数据集进行 GRPO 训练

    • 具体来说,每个问题都添加了以下指令:
      • GRPO dataset template
        1
        {Question} Please reason step by step, and put your final answer within \boxed{}.
  • Training and Evaluation Settings

    • 使用 GRPO 训练教师模型
    • 在训练期间,为每个 prompt 采样 \(n = 8\) 个 responses
    • 最大 prompt 长度和最大 response 长度分别设置为 1,024 和 7,168 个 tokens
    • 训练在 8 张 A800 80G GPU 上进行一个 epoch
    • 学习率为 \(1 \times 10^{- 6}\)
    • 将 student 采样温度和 teacher 温度都设置为 1.0
    • 重复惩罚设为 1.0
    • 禁用 KL 正则化
    • 采用 token-mean 损失聚合。主要超参数总结在表 1 中

A.2. Experimental Setup

  • 所有实验均使用表 2 中列出的默认 OPD 超参数(特殊说明除外)

A.3. Benchmark-wise breakdown of thinking-pattern compatibility,思维模式兼容性的基准逐项分解

  • 图 2 展示的是平均结果,这里图 17 展示了基准逐项的分解
  • 从 Qwen3-4B-Base-GRPO 进行蒸馏的优势在各个数据集上普遍存在(不是由单个基准驱动)
    • 在 AMC 2023 和 AIME 2024 上差距更明显,在 AIME 2025 上差距较小但仍普遍存在
    • 这种按基准划分的视图支持了以下解释:
      • 更好的早期思维模式兼容性会导致更好的下游蒸馏性能,而早期不匹配造成的损失在训练后期无法完全恢复

附录 B:Details for Section 4

B.1. Additional Analysis of Token Overlap Mass

  • 为量化每个模型分配给重叠 top-\(k\) 区域的概率质量,本文定义 \(\mathcal{M}_{\text{overlap-mass} }^{(p)}\) 为:
    $$\mathcal{M}_{\text{overlap-mass} }^{(p)} = \mathbb{E}_t\left[\sum_{\nu \in S_t^{(p)}\cap S_t^{(q)} }p_t(\nu)\right] \tag {9}$$
  • 定义 \(\mathcal{M}_{\text{overlap-mass} }^{(q)}\) 为:
    $$\mathcal{M}_{\text{overlap-mass} }^{(q)} = \mathbb{E}_t\left[\sum_{\nu \in S_t^{(p)}\cap S_t^{(q)} }q_t(\nu)\right] \tag {10}$$
  • 这衡量了 student 和 teacher 分别分配给其 top-\(k\) 集合中共享 token 的总概率质量的分数
    • 在本文实验中,如图 18 所示,在整个训练过程中,重叠 token 为两个模型承载了 \(97% -99%\) 的总概率质量

B.2. Auxiliary Optimization Dynamics,辅助优化动态

  • 本节补充第 4.1 节的分析,针对相同的对比设置报告了几个额外的优化诊断指标
  • 固定 student 为 R1-Distill-1.5B,并在相同的 Student Top-\(k\) OPD 训练方案下比较两个 teachers:
    • JustRL-1.5B(产生成功的运行)
    • R1-Distill-7B(在其它匹配条件下产生失败的运行)
    • 这些诊断指标并非主要证据,它们提供了关于成功和失败的 OPD 之间优化信号差异的补充视图
Diagnostics,诊断
  • 监测三个额外的量
    • 第一个是批次平均的 OPD 训练损失,在图 19 中表示为 PG Loss
    • 第二个是梯度范数,它衡量到达 student 的更新信号的整体幅度
    • 第三个是具有最大绝对优势的 token 上的概率差 \(p_t(v) - q_t(v)\)
      • 跟踪 student 是否能够减少在携带最强优化信号的 token 上与 teacher 最显著的局部不一致
  • 这些指标有助于区分成功和失败的 OPD:
    • 在成功 OPD 中,student 接收到可用的信号并逐步减少不匹配
    • 在失败 OPD 中,信号太弱或对齐太差,无法推动实质性改进
Results
  • 图 19 中的趋势与第 4.1 节的主要结论一致
  • 损失视角:
    • 成功 OPD:使用 JustRL-1.5B 的成功运行显示出训练损失在优化过程中显著减少
      • 从一个更大的初始不匹配开始,损失在训练的大部分时间里稳步下降,然后稳定在一个较低的值
    • 失败 OPD:使用 R1-Distill-7B 的失败运行开始时损失小得多,之后变化不大
      • 这种模式表明,失败运行中较小的损失并不表示优化更好
      • 较小的 损失反映了从一开始 teacher 诱导的训练信号就较弱,该信号仍然太小,无法推动显著的政策改进
  • 梯度范数视角:(梯度范数显示了两个运行之间更清晰的分离)
    • 成功 OPD:梯度范数初始很大,并在训练的很大一部分时间里保持较大
      • 表明 student 持续接收到有意义的修正信号
    • 失败 OPD:梯度范数始终小得多,随时间变化也有限
      • 即使在相同算法和训练预算下进行优化,针对 R1-Distill-7B 训练的 student 经历的更新信号要弱得多
    • 这一观察结果与以下发现一致:
      • 失败与高概率 token 上的对齐性差有关
      • 当 student 没有实质性地进入 teacher 支持的区域时,产生的梯度仍然很弱
  • 最大绝对优势的 Token 概率视角:
    • 成功 OPD:成功的运行稳步减少了具有最大绝对优势的 token 上的概率差异
      • 说明:当 OPD 成功时,student 逐步纠正了在 teacher 诱导的优势信号下最重要的局部错误
    • 失败 OPD:失败的运行在整个训练过程中保持了明显更大的差距
      • 说明:当 OPD 失败时,这些高优势的差异持续存在而未能解决
    • 这再次与以下解释一致:
      • OPD 中的决定性信号位于一小部分高概率、高优势的 token 上,当 student 无法有效利用该信号时就会发生失败
  • 以上这些辅助动态强化了第 4.1 节中提出的解释
    • 成功的 OPD 不仅以高概率 token 上的重叠增加为特征,而且还以训练机制为特征
      • 在该机制中,student 接收到足够幅度的梯度,以减少最重要的局部分布不匹配
    • 失败的 OPD 伴随着弱梯度、有限的损失减少以及在具有最强优势信号的 token 上持续存在的分歧
      • 虽然这些诊断指标是支持性的而非核心,但它们提供了一个优化层面的视图,该视图与以下观点完全一致:
        • OPD 有用的学习信号集中在 student 访问状态下的高概率 token 上,当该信号太弱或对齐太差而无法驱动有效更新时,训练就会退化

B.3. Cross-Model Validation of High-Probability-Token Alignment,高概率 Token 对齐的跨模型验证

  • 本节测试第 4.1 节中的现象是否能推广到另一对模型
  • 将 student 模型固定为 R1-Distill-7B,并选择 Skywork-OR1-Math-7B 和 DeepSeek-R1-Distill-Qwen-14B (R1-Distill-14B) 作为 teachers,使用与第 4.1 节相同的训练和评估设置
Results
  • 图 20 显示了与图 6 相同的模式
    • 以 Skywork-OR1-Math-7B 为 teacher,蒸馏提高了 student 的性能,并伴随着重叠率的稳步增加、重叠 token 优势趋近于零以及较小的熵差
    • 以 R1-Distill-14B 为 teacher,训练几乎没有改进,对齐指标仍然较差或不稳定
    • 这提供了额外的证据,表明成功的 OPD 始终与 student 访问状态下高概率 token 对齐的出现相吻合
      • 理解:图 20 中,成功的运行再次伴随着高概率 token 对齐的增加,而停滞的运行则没有

附录 C:Details for Section 5

C.1. Cold-Start Distillation Details

Offline teacher rollout
  • 为了构建冷启动 SFT 数据,本文从 OpenThoughts3-1.2M (2025) 的数学子集中采样了 20 万个数学 prompts,并使用 Qwen3-4B (Non-thinking) 为每个 prompt 生成一个离线 response

  • 对于每个 prompt,作者使用以下模板:

    • Teacher rollout template
      1
      {Question} Please reason step by step, and put your final answer within \boxed{boxed{} }
  • 解码超参:温度 0.7、top-\(p = 0.95\)、top-\(k = - 1\) 和最大生成长度 12,288 个 tokens 进行解码

  • 生成后,过滤掉不完整的 responses(例如,未正确完成的截断输出)和退化的重复 responses

    • 剩余的 prompt-response 对用作监督蒸馏语料库来训练 student
Student SFT
  • 从 Qwen3-1.7B-Base 开始,使用 LLaMA-Factory 框架 (2024) 在过滤后的 20 万个 teacher 生成的样本上进行全参数 SFT,产生 Qwen3-1.7B-SFT
  • 将详细的超参数总结在表 3 中

C.2. Additional Analysis of Overlap Mass,重叠质量的额外分析

  • 为了更好地理解为什么基础初始化的 student 有时会表现出相当甚至稍好的重叠 token 优势 (Overlap-Token Advantage),但整体表现仍不佳,本文进一步从 student 和 teacher 两方面检查重叠集覆盖的概率质量
  • 如图 21 所示
    • SFT-initialized student 在整个训练过程中始终保持 student 重叠质量和 teacher 重叠质量在较高水平
      • 这表明重叠 token 覆盖了 student 和 teacher 分布的大部分高概率区域,表明从 OPD 开始就存在强烈且稳定的对齐
    • 而基础初始化的 student 表现出显著较低且更不稳定的重叠质量,尤其是在训练早期阶段
  • 这种分析有助于解释为什么重叠 token 优势 (Overlap-Token Advantage) 有时可能具有误导性
    • 由于它仅在重叠 token 上平均,即使重叠集本身缺失了相当一部分 teacher 的高概率 token,它也可能看起来相对有利
    • 重叠质量通过揭示共享支持是否真正覆盖了两个分布最重要的部分来补充这一观点
  • 从这个角度来看,SFT 冷启动导致了 student 和 teacher 之间更好、更稳定的匹配

C.3. Deduplication Details for the DeepMath Subset,DeepMath 子集的去重细节

  • 对于跨规模设置,构建了一个与 DAPO-Math-17K 去重后的 DeepMath 子集,以便比较与 teacher 的 RL 后训练数据对齐的 prompts 和仅在领域内的 prompts
  • 本文的去重分两个阶段执行:精确匹配去重和语义去重
Question extraction
  • 对于 DAPO-Math-17K 和 DeepMath,提取问题内容并移除 prompt 中的指令后缀,以便仅基于问题文本进行去重
Stage 1: Exact-match deduplication
  • 将所有提取的 DAPO-Math-17K 问题收集到一个集合中,并移除其提取的问题与该 DAPO 问题精确匹配的任何 DeepMath 样本
Stage 2: Semantic deduplication
  • Stage 2 进一步移除近似重复的 prompts
    • 使用句子嵌入模型 all-mpnet-base-v2 (Reimers and Gurevych, 2019) 对 DAPO-Math-17K 和 DeepMath 的问题进行编码
    • 对嵌入进行 L2 归一化,并在 DAPO 嵌入上构建一个 FAISS 内积索引,使得内积对应于余弦相似度
  • 对于每个 DeepMath 问题
    • 在 DAPO-Math-17K 中检索其最接近的邻居
    • 如果与最近 DAPO 问题的余弦相似度至少为 0.6,将该 DeepMath 样本标记为语义重复并将其移除
Final retained subset
  • 移除任何被精确匹配或语义去重标记的 DeepMath 样本
  • 得到的子集在领域内,但与 DAPO-Math-17K 去重
    • 能够在与 teacher 后训练数据重叠的 prompts 和仅在领域内的 prompts 之间进行受控比较

C.4. Benchmark-wise breakdown of prompt-template alignment,Prompt 模板对齐的基准逐项分解

  • 图 9 中展示的是平均结果,图 22 展示了基准逐项的分解
    • teacher 对齐的模板在各个数据集上产生了一致的改进,在两个 AIME 集上增益更大,在 AMC 2023 上影响较小但仍是正向的
      • 使用 teacher 对齐的模板在三个基准上始终匹配或优于原始 DAPO 模板
    • *使用 teacher 对齐的模板 *还允许 student 恢复 teacher 性能的更大一部分,从大约 \(80%\) 增加到大约 \(85%\)
  • 结合第 5.2 节中的重叠率结果,这表明 prompt 模板对齐通过使 student 生成的状态与 teacher 更兼容来改进 OPD

附录 D:Details for Section 6

D.1. Teacher entropy by output position,按输出位置划分的 Teacher 熵

  • 为补充第 6.1 节中的 student 熵分析,本节可视化了在最大 response 长度为 \(15K\) 的设置下,训练步骤中作为输出位置函数的 teacher 熵(见图 23)
    • 与 student 类似,teacher 熵首先在较后的解码位置增加,然后随着训练的进行逐渐向前面的 token 传播
    • 理解:升高的熵首先出现在后缀部分,然后随着训练的进行逐渐向前面的输出位置传播,说明是后面的 Token 先出现问题(教师信号不置信,逐步引起前面的 Token 崩溃)

NLP——Claude模型API-Prompt缓存功能

  • 注:本文主要描述 Claude 模型 API Prompt 缓存功能,也称为 前缀缓存功能、Prefix 缓存 或 Prefix Caching 功能

Claude API Prompt Caching 功能介绍

  • Claude 官方提供了前缀缓存的能力(注意是严格匹配)
  • 第一次存放缓存需要多花钱(约提升 25%),后续命中 Cache 会大幅度缩小(节省约 90%)
  • 注意:每次都要添加缓存标签才能成功

Claude API Prompt Caching 功能如何使用?

开启 Prompt Caching 的方法

  • 在 API 请求中,对需要缓存的内容块添加 cache_control 参数即可
  • 注:不需要额外开关 ,只需在 system、messages 或 tools 中标记缓存断点
代码示例1:在 System 中添加缓存点
  • Python SDK 示例:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    import anthropic

    client = anthropic.Anthropic()

    response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    system=[
    {
    "type": "text",
    "text": "你是一个很长的系统提示...(大量文本)...",
    "cache_control": {"type": "ephemeral"} # 标记缓存断点
    }
    ],
    messages=[
    {"role": "user", "content": "你的问题"}
    ]
    )
代码示例2:在 messages 中添加缓存点(Python SDK)
  • Python SDK 示例:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    system="你是一个助手",
    messages=[
    {
    "role": "user",
    "content": [
    {
    "type": "text",
    "text": "这是一篇很长的文档内容...(几万字)...",
    "cache_control": {"type": "ephemeral"} # 👈 缓存断点
    }
    ]
    },
    {
    "role": "assistant",
    "content": "好的,我已阅读这篇文档。请问有什么问题?"
    },
    {
    "role": "user",
    "content": "请总结第三章的内容" # 这条不缓存,每次变化
    }
    ]
    )
代码示例3:多轮对话中缓存历史消息
  • Python SDK 示例
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    messages = [
    {"role": "user", "content": [{"type": "text", "text": "长文档..."}]},
    {"role": "assistant", "content": "回答1..."},
    {"role": "user", "content": [{"type": "text", "text": "追问1..."}]},
    {"role": "assistant", "content": "回答2..."},
    {
    "role": "user",
    "content": [
    {
    "type": "text",
    "text": "追问2...",
    "cache_control": {"type": "ephemeral"} # 👈 缓存到此为止的所有历史
    }
    ]
    },
    {"role": "assistant", "content": "回答3..."},
    {"role": "user", "content": "新问题(不缓存)"}
    ]
使用关键点
  • content 必须用数组格式([{"type": "text", "text": "...", "cache_control": ...}]),不能用纯字符串
  • 缓存是前缀式的:系统会缓存从请求开头到断点之间的所有内容(包括 system、tools、以及断点之前的所有 messages)

一些要求

  • 可缓存位置包括:
    • system 消息中的内容块
    • messages 中的用户消息内容块(如包含大量上下文的对话)
    • tools 定义列表
  • 可以设置最多 4 个 cache_control 断点
    • 系统会缓存从请求开头到每个断点之间的所有内容
    • 注意:缓存是严格前缀匹配的,如果是设置了前 4 轮缓存,但只命中 前 2 轮前缀,不会触发缓存,解决方案是在第 2 轮也加一个缓存标记
  • 支持的模型
    • Claude Opus 4 / 4.5
    • Claude Sonnet 4 / 3.5
    • Claude Haiku 3.5
  • 最低 Token 要求:缓存内容必须达到最低 token 数才能生效:
    • Claude Opus 4 / 4.5 :2048 tokens
    • Claude Sonnet 4 / 3.5 : 1024 tokens
    • Claude Haiku 3.5 : 1024 tokens
  • 缓存 TTL(生存时间)
    • 默认 5 分钟
    • 每次缓存命中(cache hit)会刷新 TTL
    • 即只要持续使用,缓存会一直有效
  • 每次都要添加缓存标签才能成功,举例:
    • 第一次:[system + cache_control] [user: “问题1”] → 缓存写入
    • 第二次:[system + cache_control] [user: “问题2”] → 缓存命中 (system 部分从缓存读取)
    • 第三次:[system 无标记] [user: “问题3”] → 缓存未命中 (全部按普通输入)

缓存计费方式

  • Prompt Caching 有三种 token 类型,计费不同:
    Token 类型 说明 费率(相对于基础输入价格)
    Cache Write 首次写入缓存 基础输入价格的 125%(即贵 25%)
    Cache Read 缓存命中读取 基础输入价格的 10%(即便宜 90%)
    普通 Input 未缓存的输入 基础输入价格的 100%
  • 以 Claude Sonnet 4 为例
    类型 价格(每百万 token)
    普通输入 $3.00
    Cache Write $3.75
    Cache Read $0.30
  • 首次请求多付 25%(写入缓存),后续请求节省 90%
    • 对于多轮对话、大量系统提示等场景,整体成本大幅下降

响应中如何查看缓存情况

  • API 响应的 usage 字段会返回:

    1
    2
    3
    4
    5
    6
    7
    8
    {
    "usage": {
    "input_tokens": 50,
    "output_tokens": 200,
    "cache_creation_input_tokens": 1500,
    "cache_read_input_tokens": 3000
    }
    }
    • cache_creation_input_tokens > 0 :发生了缓存写入
    • cache_read_input_tokens > 0 :缓存命中

缓存实现的最佳实践

  • 1)把不变的内容放前面 :system prompt、tools 定义、长文档等放在请求开头并标记缓存
  • 2)变化的内容放后面 :用户的具体问题放在最后
  • 3)多轮对话场景 :在最后一个 user message 的前一条消息上设置 cache_control,这样整个对话历史都会被缓存
  • 4)大文档分析 :将文档放入 system 或首条 user message 中缓存,后续问答极大节省成本

NLP——Rethinking-Generalization-In-Reasoning-SFT

注:本文包含 AI 辅助创作

  • 参考链接:
    • 相关论文:Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability, 20260408, SJTU & USTC
    • 相关博客:github.com/Nebularaid2000/rethink_sft_generalization

Paper Summary

  • 本文打破了传统对 SFT 的一些观点,有非常丰富的实践参考意义:
    • 传统观点:SFT 会记忆,而 RL 会泛化
    • 本文观点:SFT 在一定条件下也是可以泛化的,之前的失败案例是优化不足的产物
  • Reasoning SFT 中的跨领域泛化并非不存在,而是有条件的,取决于下面三个条件:
    • 1)优化的充分性:短周期检查点可能会低估最终的泛化增益
      • 表现:跨域性能先下降,然后在延长训练后恢复并提升(一种“下降-恢复(dip-and-recovery)”模式)
    • 2)数据的质量和结构:经过验证的、带有程序性推理模式的长 CoT 数据能产生更强的迁移
      • 表现:低质量的解决方案普遍损害泛化能力,而经过验证的长 CoT 轨迹则能带来一致的跨域收益
    • 3)基础模型的能力:能力更高的模型比主要模仿冗长表达的较弱模型更有效地内化这些模式
      • 表现:
        • 更强的模型能够内化可迁移的程序性模式(例如,回溯)(文中实验证明,即使是从一个玩具算术游戏(Countdown)中学习也可以迁移)
        • 较弱的模型则只会模仿表面的冗长
  • 注:本文主要关注 带有长 CoT 监督的推理 SFT,实验也主要集中在这些数据和场景上
  • 注:但是本文 SFT 实验也发现,这种泛化是不对称的:
    • 推理能力的提升始终伴随着安全性的下降(即训练过程中推理能力提升的同时,安全性会下降)
    • 理解:这里的不对称是指:在部分指标性能上泛化了,但是在安全性上没有泛化

Introduction and Discussion

  • 流行观点:SFT 能提升域内性能但容易导致记忆,而 RL 的泛化能力更好
    • 一些工作在合成任务上确立了具有影响力的“SFT 记忆,RL 泛化”的框架
    • 一些工作在更现实的场景(如数学推理)中也报告了类似的模式
  • 本文观察到,给出这些结论包含了大量的特定实验场景问题:
    • 部分训练没有使用长 CoT 监督
    • 部分训练 epoch 相对较短
    • 部分训练使用的数据 Response 质量不均
    • 部分训练使用了小型或早期的基础模型
    • 此外,还有一些点:
      • 许多 SFT 与 RL 的比较关注的是保留能力(即微调是否会降低现有能力),而不是获取新的泛化能力
      • 许多 SFT 和 RL 通常从指令微调模型开始,这使得对齐带来的混杂因素难以解耦
  • 这些在优化、数据、模型能力和起始检查点上的纠缠不清的差异,使得我们不清楚所报告的泛化失败是 SFT 固有的,还是仅仅是特定实验条件的产物
  • 这个问题对于推理 SFT 尤其紧迫,因为模型通常是在长 CoT 轨迹上训练的
    • 长 CoT 轨迹在数据结构上有所不同,比短形式的目标更难拟合,并且对模型能力要求更高
    • 推理 SFT 是一个优化、数据和模型因素至关重要且可以被更清晰研究的场景
  • 本文表明推理 SFT 中的泛化并非训练目标本身的内在属性,而是一个由优化动态、训练数据和模型能力共同塑造的条件性现象
    • 本文系统地改变每个因素,以确定推理 SFT 何时以及如何在跨域泛化,以及当它泛化时会产生哪些权衡
    • 注:本文采用仅在预训练基础模型上进行数学推理 SFT 作为测试平台
      • 这个设置提供了易于验证的 Response,并且可以与先前的研究直接比较
  • 本文评估了在域内数学推理、 OOD 推理(例如,代码、科学)、通用能力(例如,指令遵循)和安全性方面的泛化能力,整体发现如下:
    • 表观上的非泛化可能是优化不足的(under-optimization)产物
      • 在长 CoT SFT 过程中,泛化性能表现出一种“下降-恢复(dip-and-recovery)”模式:
        • 先下降,然后在延长训练后恢复并最终超越基础模型:
          • 这表明短训练检查点可能会系统地低估 SFT 的泛化潜力
        • 在匹配的计算预算下,长 CoT 数据从重复学习中比从单遍覆盖中受益更多 ,并且只有在激进的训练计划下才会出现明显的过拟合症状
        • 说明:在该场景下,优化不足可能比过优化更普遍
    • 训练数据对泛化至关重要
      • 数据质量:在低质量解决方案上进行 SFT 会广泛损害性能,而经过验证的长 CoT 轨迹则能带来一致的跨域收益
      • 数据结构:在强大的基础模型上,来自一个玩具算术游戏(Countdown)的长 CoT 轨迹可以提升在多个推理基准(例如,数学、代码、科学)上的性能,甚至可能优于包含多样化数学问题的无 CoT 数据集
      • 结论:长 CoT 轨迹中的程序性模式(例如回溯和验证) 可能是超越数学内容本身进行泛化的关键
        • 理解:也就是说,通过 SFT 来训练 CoT 数据时,CoT 中的类似回溯和验证的能力和模式可以被学到,从而实现能力的泛化
    • 泛化需要足够的模型能力
      • 给定相同的长 CoT 数据:
        • 更强的模型展现出广泛的跨域泛化能力,而较弱的模型则显示出边际或负面的收益(即使在域内数学任务上),并且倾向于产生冗长的 Response
        • 结论:较弱的模型可能只是模仿推理的表面形式(例如,冗长),而没有内化驱动跨域泛化的模式
    • 泛化是不对称的(asymmetric)
      • 尽管有广泛的收益,但长 CoT SFT 会削弱安全性,这与关于推理模型自我越狱(self-jailbreaking)的发现一致 (2025; 2025)
      • 训练后,模型在思考过程中会自我合理化(例如,“出于教育目的”),并最终生成有害内容
      • 在本文控制的对比中,使用 CoT 的安全性下降比不使用 CoT 时大得多
      • 结论:这种退化是由程序性模式而非领域内容驱动的
  • 以上的这些结果表明,“SFT 是否能泛化?”这个问题需要重新定义和思考
    • SFT 是否能泛化是与优化充分性、数据质量与结构以及基础模型能力有关的
    • 当这些因素中的任何一个缺失时(例如,评估早期检查点、在低质量数据上训练、或使用弱基础模型),得出的结论可能会将实验设置的产物误认为是 SFT 的固有局限性
  • 可以理解为:本文在尝试回答 “在什么条件下推理 SFT 会泛化?”

Experimental Setup

Model, dataset, and training protocol

  • 主要实验使用 Qwen3-14B-Base 和 Qwen3-8B-Base 作为基础模型
    • 注:跨模型家族的实验:使用 InternLM2.5-20B-Base (2024) 和 Qwen2.5 基础模型 (2024)
    • 注:所有模型都是指令微调之前的预训练检查点,这最大限度地减少了来自对齐或偏好优化的混杂影响
    • 注:后续章节还会考察更小的模型(例如,4B 和 1.7B)以研究模型能力的作用(第 5 节)
  • 默认训练数据集 Math-CoT-20k 包含 20,480 个带有长 CoT 的数学推理示例
    • Query 是从 OpenR1-Math-220k (2025) 的默认子集中采样得到的
    • Response 是由启用了思考功能的 Qwen3-32B 生成的
    • 每个 Response 包含一个思考过程,后跟逐步的最终总结和答案
    • 本文为每个 Query 生成多个 Response ,并使用 math-verify (2024) 仅保留答案正确的 Response
    • 最大 Response 长度设置为 16,384 个 Token
    • 完整的数据生成设置请参见附录 B.1
  • 所有模型均使用标准 SFT 目标进行训练
    • 最小化 Response Token 上的负对数似然
  • 基础实验默认配置:
    • 使用 AdamW 优化器
    • 学习率为 5e-5
    • 批量大小为 256
    • 余弦学习率调度
    • 8 个训练 Epoch

Evaluation suite

  • In-Domain (ID) 推理
    • MATH500 (2021) 和 AIME24 用于评估数学推理能力,与训练领域直接对齐
  • Out-Of-Domain (OOD) 推理
    • LiveCodeBench (LCB) v2 (2025) 用于评估编程能力,GPQA-Diamond (2024) 用于评估研究生级别的科学推理能力,MMLU-Pro (2024) 用于评估广泛的知识密集型推理能力
    • 这些任务需要的推理能力在训练数据中并未出现
  • 通用能力
    • IFEval (2023) 衡量指令遵循的准确性
    • AlpacaEval 2.0 (2023b; 2024) 衡量开放式 Response 的质量
    • HaluEval (2023a) 和 TruthfulQA (2022) 衡量真实性
    • 这些基准测试用于检验推理 SFT 是增强还是破坏了更广泛的行为
  • 安全性
    • HEX-PHI (2024) 通过攻击成功率(Attack Success Rate, ASR)和有害性评分来评估模型对有害 Query 的抵抗能力
  • 默认情况下,使用温度 0.6 和最大生成长度 32,768 个 Token 进行解码
    • 对于 IFEval、HaluEval 和 MMLU-Pro:报告 pass@1
    • 对于 MATH500、LiveCodeBench v2 和 GPQA-Diamond:报告 avg@3
    • 对于 AIME24:报告 avg@10
    • 对于 IFEval:使用严格的指令级准确率
    • 对于 AlpacaEval 2.0:报告来自 Llama-3.1-8B-Instruct-RM-RB2 奖励模型的平均奖励分数
    • 对于 TruthfulQA:使用官方评判模型来评估有益性和真实性
    • 对于 HEX-PHI:遵循原始论文,使用 GPT-4.1 作为评判模型
    • 作者将评分 5 视为一次成功的攻击
    • 所有模型均以零样本(Zero-shot)方式进行评估
    • 完整的评估细节在附录 B.3 中提供

Optimization Dynamics of Reasoning SFT

  • 先前研究的一个常见发现是,SFT 能提升域内性能,但不能很好地泛化到 OOD 任务,甚至可能降低 OOD 能力 (2025; 2025)
  • 本节表明这一结论有时是由于对训练轨迹的不完整观察导致的
    • 长 CoT 推理数据比短形式的目标更难内化,并且从基础模型到训练有素的推理模型的路径涉及 non-trivial 动态,这些动态很容易被误读

Apparent non-generalization may be an under-optimization artifact

Replication of previous findings,本节先复现之前文章的发现
  • 首先在相同的短 Epoch 协议下复现了先前关于推理 SFT 跨域泛化能力弱的发现 (2025):
    • 在 Math-CoT-20k 上训练 Qwen3-14B-Base 一个 Epoch
  • 如图 2 所示,域内数学性能大幅提升,而在某些 OOD 基准(例如,LCB v2, GPQA-D)上 OOD 收益有限,在其他基准(例如,IFEval, AlpacaEval)上甚至变为负收益
    • 这种弱泛化在使用更小的学习率时更为明显(附录 C.1)
Cross-domain generalization evolves non-monotonically,跨域泛化呈非单调演变
  • 将训练 Epoch 数扩展到 8(本文的默认设置),并跟踪了 Qwen3-14B/8B-Base 和 InternLM2.5-20B-Base 在整个训练过程中的基准性能
  • 图 3(顶部)显示了性能随训练步数的变化,展示了一种典型的“下降-恢复(dip-and-recovery)”模式
  • 在域内数学推理任务(MATH500, AIME24)上,性能在某些设置下出现了短暂的早期下降,随后迅速恢复(在 AIME24 上,由于基准测试规模小且难度高,早期波动更明显,但总体上升趋势保持一致)并呈现明显的上升趋势
  • 几个 OOD 基准(例如,LCB v2, GPQA, IFEval 和 AlpacaEval 2.0)也表现出类似的模式,通常下降更深,恢复更慢,并在延长训练后最终提升到超越基础模型的水平
  • 这种模式并非特定于某个教师模型
    • 使用 DeepSeek-R1 生成的 Response (相同的 20k 数学 Query )重复相同的设置,得到了类似的结果,仅在绝对分数上有适度差异(见附录 C.2)
    • 结论:先前报告的一些 SFT 泛化局限性可能是优化不足的产物,而非 SFT 本身的内在限制
      • 长 CoT 数据对优化具有挑战性,需要扩展训练并展现出微妙的动态

Response length as a diagnostic of optimization stage,Response 长度是优化阶段的诊断指标

  • 为了更好地理解“下降-恢复(dip-and-recovery)”动态,本文追踪了各检查点的 Response 长度,并将其与性能进行比较
  • 如图 3(底部)所示, Response 长度在训练初期急剧上升,然后逐渐下降
  • 这种上升-下降趋势通常与性能变化同时发生:
    • 最长的 Response 往往与最弱的性能同时出现,而随着性能恢复, Response 变得更简洁
Interpretation
  • 在长 CoT SFT 的早期,模型首先学习一个显著的表面模式 :
    • 它们会产生冗长的、类似思考 的痕迹,然后才能可靠地学习更精细的推理模式,如分解、回溯或自我评估(见附录 C.3 的示例)
    • 这个阶段以两种方式损害性能:
      • (1) 对长 CoT 的浅层模仿限制了即使在推理任务上的迁移
      • (2) 冗长的输出加上偶尔的格式错误(例如,缺少 </think> 标签)会影响指令遵循和对齐方面的结果
      • 随着持续优化,模型会学习到更多可迁移的程序性模式和更精细的语言风格,从而产生更短、更有针对性的输出和更强的跨域泛化能力
  • Response 长度可以作为长 CoT SFT 中优化进展的一个粗略但实用的诊断指标:
    • Response 长度仍在显著缩短的检查点通常尚未完全优化,即使域内性能看起来已经合理

Why longer training helps: repeated exposure or simply more steps?

  • 本节回答问题:为什么更长的训练有帮助:重复学习还是仅仅更多步数?
Setup
  • 拟合长 CoT 数据的难度引发了一个自然的问题:
    • 在小数据集上训练多个 Epoch,还是在更大的数据集上训练单个 Epoch 更有效?
    • 本文设计了三个设置的对照实验,均使用 Qwen3-14B-Base 并固定总梯度步数(640 步):
      • 设置 1:默认,20k 示例,批量大小 256,8 Epochs
      • 设置 2:2.5k 示例,批量大小 32,8 Epochs
      • 设置 3:20k 示例,批量大小 32,1 Epoch
    • 关键的比较是在设置 2 和设置 3 之间:它们的训练预算匹配,但数据暴露模式不同(8 次重复 vs. 1 次覆盖)
Repeated exposure is more effective,重复学习更有效
  • 表 1 显示:整体趋势是 设置 1 > 设置 2 > 设置 3
    • 在不同的基准上,设置 2 的表现都显著优于设置 3,这表明在相同的训练预算下,对于长 CoT 推理 SFT,重复学习比单次覆盖更有效
    • 当 Epoch 数和步数固定时,设置 1 进一步优于设置 2,这表明更大的数据多样性仍然能增加价值

From underfitting to overfitting: symptoms and regimes,从欠拟合到过拟合:症状与区间

Setup
  • 上述结果表明,在的默认长 CoT 设置中,欠拟合的信号比过拟合更明显
  • 为了闭环验证,在 Qwen3-14B-Base 上使用 Math-CoT-20k 对训练激进程度进行了压力测试,采用四种设置:
    • 设置 1(默认,LR 5e-5,8 Epochs,余弦 LR 调度)
    • 设置 2(LR 5e-5,16 Epochs,余弦 LR)
    • 设置 3(LR 5e-5,16 Epochs,恒定 LR)
    • 设置 4(LR 1e-4,16 Epochs,恒定 LR)
    • 这些设置将优化强度从温和增加到激进
Overfitting symptoms and regimes
  • 如图 4(顶部)所示
    • 在大多数基准上,设置 2 在整个训练过程中保持了稳定的性能或持续改进
    • 设置 3 开始在部分 OOD 套件上显示出后期性能下降
    • 设置 4 显示出最清晰的过拟合样模式:
      • OOD 性能普遍下降,甚至域内数学性能也下降,同时 Response 长度再次开始上升(图 4(底部))
  • 本文设置中,明显的过拟合症状主要出现在组合的激进计划下(高学习率、无 LR 衰减、长 Epochs) ,通常伴随着广泛的性能下降(包括域内数学)和 Response 长度的反弹

How Training Data Shapes Generalization,训练数据如何塑造泛化性能

  • 上一节表明,充分训练的推理 SFT 可以实现跨领域泛化
  • 本节将展示,这种泛化关键地依赖于训练数据的质量和结构

Setup

  • 在默认训练设置下比较了四种数据配置
  • 除了默认的 Math-CoT-20k 数据集外,引入了三个变体:
    • Math-NoCoT-20k:
      • Math-CoT-20k 移除了 <think>...</think> 部分,仅保留最终的逐步总结和答案
      • 理解:其实不太公平,因为原本就有 CoT 的数据,去掉 CoT 会出现一些问题,比如先给答案,再给推理过程
        • 所以后面补充了 NuminaMath-20k 这样自然的没有 CoT 的数据
    • NuminaMath-20k:
      • 20k 个示例,来源于 NuminaMath-1.5 (2024),使用与 Math-CoT-20k 相同的 Query ,但采用的是人工编写的解决方案,且没有长 CoT
      • 这些解决方案通常较短且质量参差不齐(例如,缺少步骤)
      • 这被先前关于 SFT 泛化的工作 (2026; 2026) 广泛使用
    • Countdown-CoT-20k:
      • 20k 个 Countdown (2025) 示例,带有由 Qwen3-32B 生成的 长 CoT Response
      • 这是一个需要试错的简单算术游戏

The role of long CoT traces

  • 比较 Math-CoT-20k 和 Math-NoCoT-20k 可以隔离长 CoT 轨迹的影响:
    • 这两个变体共享相同的 Query 和最终的逐步解决方案,而 Math-NoCoT-20k 省略了探索过程
  • 表 2 显示
    • 长 CoT 监督在推理密集型任务上产生了更强的泛化能力(特别是在数学推理方面)
    • 在 OOD 推理任务(LCB v2, GPQA-D, MMLU-Pro)上,对于较大的模型,相同的趋势仍然可见,而对于较小的 Qwen3-8B 模型,增益则较弱
    • 在 IFEval 和 AlpacaEval 2.0 上,Math-NoCoT-20k 的表现通常略优于 Math-CoT-20k,因为这些基准测试更强调指令遵循和对齐相关行为,而非长程推理

Data quality matters,数据质量至关重要

  • 在无长 CoT 的设置中,本文进一步比较了 Math-NoCoT-20k 和 NuminaMath-20k,以隔离数据质量的影响
  • 表 2 显示
    • Math-NoCoT-20k 的表现始终更好,而 NuminaMath-20k 表现出广泛的 OOD 性能下降,并且在领域内数学推理上几乎没有增益
  • 表 20 显示
    • NuminaMath 在第 3 节所述的“下降-恢复(dip-and-recovery)”动态中几乎没有表现出恢复
  • 结论:低质量数据会显著降低 SFT 的效用,而在低质量数据上训练可能会造成 SFT 不泛化的错误印象

Procedural generalization: evidence from Countdown

  • Countdown-CoT 数据集测试了长 CoT SFT 是否能迁移超越领域特定知识的抽象推理程序
    • Countdown-CoT 是一个算术游戏,模型必须使用基本运算 \( (+,- ,\times ,\div) \) 组合一组给定的数字以达到目标值
    • Countdown-CoT 中的 Response 轨迹包含结构化的探索性程序,如分解、回溯和验证,但没有明确的领域知识
  • 表 2 显示,对于两个 Qwen3 模型,Countdown-CoT-20k 在推理任务上相比基础模型都有所提升,甚至在数学任务上优于 Math-NoCoT-20k,尽管其算术范围狭窄
  • 这表明推理程序的结构,而非领域内容,可能是泛化的关键驱动因素
  • 但这并非普遍成立:
    • 对于 InternLM2.5-20B,Countdown-CoT 仅在数学上产生了边际增益
      • 这表明程序性泛化的有效性也依赖于基础模型的能力
      • 本文将在第 5 节研究这个因素
    • 而且,Countdown 并不能同样地泛化到所有任务
      • 比如 IFEval 分数可能会下降

How Model Capability Affects Generalization

Setup

  • 在相同的 Math-CoT-20k 数据和相同的训练协议下,训练了四个规模递增的 Qwen3 基础模型(1.7B, 4B, 8B, 14B)
  • 在这个受控设置中,泛化行为的差异可以归因于模型能力的差异

Higher-capability models generalize better,能力越高的模型泛化能力越好

  • 图 5 显示了在匹配的数据和训练设置下,一个清晰的能力依赖趋势
    • 14B 模型表现出显著的“下降-恢复(dip-and-recovery)”轨迹,并最终在多个领域获得广泛提升
    • 8B 和 4B 模型也显示出恢复阶段,但改进较小,而 1.7B 模型即使在后期检查点上,在所有基准测试上也仅显示出边际增益甚至负增益
    • 这种模式表明,仅凭优化和数据并不能保证泛化:
      • 能力越高的模型更有可能内化可迁移的推理模式,而能力较低的模型则倾向于模仿表面形式
      • 这些结果还表明,第 3.1 节中的“下降-恢复(dip-and-recovery)”动态本身也依赖于模型能力
      • 其余基准测试和 Qwen2.5 模型的结果见附录 C.5

Response length and model capability

  • 图 5 还显示,即使经过长时间训练,较小的模型仍保持较长的 Response 长度,而较大模型的 Response 长度收缩得更快,并稳定在较低的值
  • 如第 3.2 节所讨论的, Response 长度可以作为学习阶段的一个粗略诊断:
    • 停留在 “长 Response” 阶段的模型很可能尚未超越学习表面模式
    • 较小的模型更有可能停留在这个阶段,这表明从模仿长 Response 模式到内化真实推理模式的能力有限(案例研究和分析见附录 C.6 和 C.7)
    • 这一结果也与先前的观察一致:较小的蒸馏推理模型(例如,Deepseek-Distill-Qwen-1.5B)通常比较大的蒸馏模型(7B 和 14B)表现出更长的 Response 长度 (2025)

Asymmetric Generalization: Safety Under Long-CoT SFT,不对称泛化:长 CoT SFT 下的安全性

  • 前面章节已经说明:长 CoT 推理 SFT 会跨领域迁移
  • 本节说明,这种迁移是不对称的:相同的训练会持续削弱安全性和拒答能力
  • 一个有控制的 CoT 与无 CoT 的对比(使用匹配的 Query 和答案)进一步表明,这种性能下降源于长 CoT 轨迹中的程序性模式

Setup

  • 本文评估了三个模型(Qwen3-14B-Base, Qwen3-8B-Base 和 InternLM2.5-20B-Base)在 HEX-PHI 上的安全性表现如何变化
  • 具体细节:将基础模型与在 Math-CoT-20k 和 Math-NoCoT-20k 上训练的 SFT 检查点进行比较

Safety degradation under long-CoT SFT

  • 图 6 (a) 显示,使用长 CoT 数据(Math-CoT-20k)训练导致所有三个模型上的 ASR 大幅增加
  • 在无 CoT 数据(Math-NoCoT-20k)上训练导致的安全性下降要小得多
  • 由于 Math-CoT-20k 和 Math-NoCoT-20k 包含相同的 Query 和最终解决方案
    • 这表明观察到的安全性下降与长 CoT 轨迹中的程序性模式的关系比与数学内容本身的关系更密切

How long-CoT SFT changes refusal behavior: a case study,long-CoT SFT 改变拒答行为

  • 为了理解这种性能下降,本文比较了模型在长 CoT SFT 前后如何回答相同的有害 Query (图 6 (b))
    • 基础模型通常直接发出简短的拒答(这个拒答是正确的,不能回答有害的 Response)
  • 经过长 CoT SFT 后,模型以警告开始,然后在思考过程中自我合理化(例如,“出于教育目的”),并最终提供包裹在警告中的有害细节
    • 矛盾的是,这也可能是一种泛化形式
    • 理解:这种开始回答错误信息的可能
  • 本文推测,长 CoT SFT 强化了一个持续的问题解决先验:
    • 探索替代方案,寻找可行的路径,并坚持克服障碍
    • 对于有害 Query ,障碍变成了拒答策略本身,而扩展的推理为绕过安全护栏提供了空间

Related Work

  • 部分工作在合成任务上建立了有影响力的“SFT 记忆,RL 泛化”框架
    • 与本文工作最直接相关的是,
      • 部分工作评估了数学推理 SFT 的跨领域可迁移性,并发现了有限的增益(本文在相同的短训练协议下重复了这一发现,尽管更长的优化导致了性质不同的结果)
    • 一个密切相关的研究方向将 RL 的优势理解为减少了遗忘或恢复在 SFT 期间退化的能力 ,并将其归因于 on-policy 数据 (2025),向 KL-最小策略的模式寻求更新 (2024; 2026),通过奖励方差进行隐式正则化 (2026),以及保持权重空间结构 (2025; 2025)
    • 本文的工作是互补的:
      • 本文没有比较 SFT 和 RL,而是研究了推理 SFT 本身何时能跨领域迁移,并确定了对泛化至关重要的几个较少受到关注的因素
      • 与关注遗忘的先前工作不同,本文从预训练基础模型而非指令微调模型开始,以更好地区分新获得的泛化能力与现有能力的保留
  • 另一条工作路线试图修改 SFT 目标以改善泛化
    • 几项研究通过 RL 或分布匹配的视角重新解释了 SFT (2025; 2026),并提出了替代的加权策略 (2026; 2026; 2025; 2026)
    • 这些研究与本文的研究是正交的:
      • 本文保持标准的 SFT 目标不变,并表明泛化不是该目标的内在属性,而是共同依赖于优化的充分性、数据质量和结构以及模型能力
  • 有几项工作研究了与 SFT 泛化相关的个别因素
    • 部分研究表明,在微调过程中,记忆和泛化可以共存
    • 部分研究发现,Prompt 多样性和 CoT 监督可以改善 SFT 泛化(仅在合成任务中得到验证)
    • 部分研究 (2026) 揭示,在最终答案错误的长 CoT 轨迹上进行 SFT 仍然可以提高推理性能
    • 一项并发工作 (2026) 发现,在长 CoT SFT 中,数据重复比单次遍历扩展更有效,这与本文的第 3.3 节一致
    • 部分研究 (2025) 表明,循环在较小模型中更为常见 ,这与本文关于模型能力的观察结果相呼应
  • 本文没有单独研究个别因素,而是系统地变化优化、数据和模型能力,同时保持其他因素不变,描述了它们如何共同塑造推理 SFT 中的泛化
    • 本文的受控设置还揭示了新的现象,例如跨领域性能的“下降-恢复(dip-and-recovery)”动态及其对数据质量和模型能力的依赖性
  • 先前的其他工作还表明,扩展推理可能诱导自我越狱并降低安全性 (2025; 2025)
    • 本文从泛化的角度出发,并在匹配的 Query 和答案下对 CoT 和无 CoT 监督进行了有控制的比较,将安全性下降因果地归因于程序性模式

NLP——LLM对齐微调-Revisiting-OPD

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Revisiting-OPD)Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes, 20260326, CASIA
    • 原始 OPD 博客:On-Policy Distillation, Thinking Machines Lab, 20251027

Paper Summary

  • 前置问题:Token-level OPD 跟 Sampled-Token Comparison(Sampled-Token OPD) 本身是不等价的
    • Sampled-Token OPD 强调的是:
      • 在估计每个位置的 KL 散度时,只使用学生实际采样出来的那一个 Token ,而不是对整个词表做求和或期望
      • 这是一种估计方式的刻画
      • Sampled-Token OPD 的反面是对全词表求和
    • Token-level OPD 强调的是:
      • 在计算当前 Token \( y_t \) 的梯度时,只使用当前位置的即时奖励 \( r_t \) ,而不使用未来的奖励信号 \( r_{t+1}, r_{t+2}, \dots \)
      • 这是一种梯度结构的刻画
      • Token-level OPD 的反面是计算当前 Token 梯度时,考虑未来的奖励
    • 这两个概念在逻辑上是正交的,但本文中似乎认为 Token-level OPD 中包含了 Sampled-Token OPD
    • 在最早的 OPD 博客中(或者说传统的 OPD)既是 Sampled-Token OPD,也是 Token-level OPD
      • 因为传统的 OPD 仅不考虑未来 Token 的奖励,且仅仅针对 Sampled-Token 计算梯度(估计 KL 时不考虑词表中的其他 Token)
  • 本文的中心是:长 horizon 后训练中的 OPD
  • 在长 horizon 设定下,常见的 Sampled-token OPD 变体非常脆弱:
    • Sampled-token OPD 变体将分布匹配简化为单 Token 信号
    • 当 Rollout 偏离 Teacher 经常访问的前缀时,会变得愈发不可靠
      • 理解:这里其实没有问题吧,无论如何,我们的目标都是让 Student 的分布更贴近 Teacher 的分布,并不一定要 Rollout 是 Teacher 会经常访问的
  • Insight:
    • 理论上, Token-level OPD 相对于 Sequence-level 反向 KL 是有偏的,但其最坏情况下的方差界要紧得多
      • 实验证明:更强的未来奖励耦合会产生更高的梯度方差和更不稳定的学习
    • 实验上,本文识别出 Sampled-token OPD 的三种失效模式:
      • 不平衡的单 Token 信号
      • 在 Student 生成的前缀上不可靠的 Teacher 指导
      • 由 Tokenizer 或 Special-Token 不匹配导致的失真
  • 本文通过 Teacher Top-K 局部支持匹配(teacher top-K local support matching)来解决这些问题
    • Teacher Top-K 局部支持匹配方法通过 Top-\(p\) Rollout 采样和 Special-Token 掩码实现为截断的反向 KL
    • 在单任务数学推理和多任务 Agentic-plus-math 训练中,该目标函数比 Sampled-token OPD 产生了更稳定的优化和更好的下游性能

Introduction and Discussion

  • On-policy distillation (OPD) 在由 Student 自身的 Rollout 上进行训练,同时使用更强的 Teacher 模型评估局部反馈
    • OPD 在长 horizon 推理和 Agentic 后训练中颇具吸引力,因为在这些场景中 Student 很快会到达在固定 Teacher 轨迹中罕见或缺失的前缀 (2024; 2024)
      • 理解:这里是说 OPD 本身是从 Student 自身采样的轨迹中学习的,相对于固定的 Teacher(类似 SFT)的场景,更不容易陷入
    • 实际的问题不在于原则上 On-policy Teacher 监督是否有用,而在于训练由 Student 生成的轨迹驱动时,Teacher 监督目标函数仍然是可靠的
      • 理解:这里是说在 On-policy 采样轨迹下,使用 Teacher 的监督信号是有效的
  • 目前 LLM 中的 OPD 通常实现为 Sampled-token Comparison:
    • 在每个解码步骤, Student 仅通过其 Sampled-token 上的对数比率进行更新
    • 理解:Sampled-token Comparison 表示这里本质是一种比较,而不是一种估计
  • 这种近似计算成本低,但至少存在下面三个问题(导致训练变得脆弱)
    • Sampled-token OPD 将分布级别的差异变成了一个高度不平衡的单 Token 信号
    • Sampled-token OPD 可能在 Student 常见但 Teacher 不常见的前缀上过度信任 Teacher
    • Sampled-token 很容易因 Tokenizer 或 Special-Token 不匹配而失真
  • 存在一个相应的估计器权衡:
    • 一个更序列耦合的目标函数可以恢复 Token-level OPD 丢弃的信息,但更强的奖励耦合也可能使优化变得嘈杂得多
  • 本文首先在估计器层面研究这种权衡
    • Sequence-level 反向 KL 将每个 Token 的更新与未来的奖励耦合起来
      • Token-level OPD 则丢弃了这些项
    • Token-level OPD 相对于 Sequence-level 目标是有偏的,但它具有更紧的最坏情况方差界
  • 本文实验展示了相同的模式:
    • 随着未来奖励耦合的增加,梯度方差上升,优化变得不那么稳定
    • 这为长 horizon 后训练提出了一个简单的设计目标:保持足够的局部监督以控制方差,同时使局部比较比单 Token 点估计更不脆弱
  • 本文用 Teacher Top-K 局部支持匹配 取代了 Sampled-token 监督
    • 在每个前缀处,在 Teacher 局部合理的支持集上 比较 Teacher 和 Student 的分布(不是仅仅是采样的 Token 上给出奖励)
    • 本文将此目标函数实现为带有 Top-\(p\) Rollout 采样和 Special-Token 掩码的截断反向 KL
    • 得到的更新仍然是局部且简洁的,但比 Sampled-token OPD 对特异的采样续接和 Tokenization 伪影更不敏感
  • 贡献总结:
    • 分析了 OPD 中的估计器权衡:
      • Token-level OPD 相对于 Sequence-level OPD 是有偏的,但其最坏情况方差随序列长度的增长要慢得多,这在长 horizon LLM 后训练中很重要
    • 识别了 Sampled-token OPD 的三种实践失效模式:
      • 不平衡的单 Token 信号
      • 在 Student 生成的前缀上不可靠的 Teacher 指导
      • 由 Tokenizer 或 Special-Token 不匹配导致的失真
    • 提出了 Teacher Top-K 局部支持匹配,实现为带有 Top-\(p\) Rollout 和 Special-Token 掩码的截断反向 KL
      • 在单任务数学推理和多任务 Agentic-plus-math 训练中展示了比 Sampled-token OPD 更强的优化行为和下游性能

Related Work(待后续补充)


Understanding Sampled-token OPD: Tradeoffs and Failure Modes,Sampled-token OPD 的 Tradeoffs 与失效模式

From reverse-KL to token-level OPD

  • 从 OPD 背后的 Sequence-level 目标开始
  • 对于一个 Prompt \(x\),反向 KL 目标函数为
    $$J_{\text{OPD} }(\theta) = \mathbb{E}_{x\sim D}[D_{\text{KL} }(\pi_{\theta}(\cdot \mid x)| q(\cdot \mid x))] $$
    • \(\pi_{\theta}\) 表示 Student 模型
    • \(q\) 表示 Teacher 模型
  • 使用得分函数恒等式,其梯度可以写为
    $$\nabla_{\theta}J_{\text{OPD} }(\theta) = \mathbb{E}_{x,y\sim \pi_{\theta}(\cdot |x)}\left[\left(\log \pi_{\theta}(y\mid x) - \log q(y\mid x)\right)\nabla_{\theta}\log \pi_{\theta}(y\mid x)\right] $$
  • 对于每个解码步骤 \(t\),定义前缀上下文 \(c_t\)、梯度 \(g_t\) 和奖励 \(r_t\):
    $$
    \begin{align}
    c_{t} &= (x, y_{ < t}) \\
    g_{t} &= \nabla_{\theta}\log \pi_{\theta}(y_{t}\mid c_{t}) \\
    r_{t} &= \log \frac{\pi_{\theta}(y_{t}\mid c_{t})}{q(y_{t}\mid c_{t})}
    \end{align}
    $$
  • 使用自回归分解可得:
    $$\begin{align}
    \log \pi_{\theta}(y\mid x) - \log q(y\mid x) &= \sum_{t^{\prime} = 1}^{T}r_{t^{\prime} }\\
    \nabla_{\theta}\log \pi_{\theta}(y\mid x) &= \sum_{t = 1}^{T}g_{t}
    \end{align}$$
  • 得到 Sequence-level 估计器(梯度估计器,\(\hat{g}_{\text{seq} }\) 中的 hat 标签表示蒙特卡罗估计)
    $$\hat{g}_{\text{seq} } = \sum_{t = 1}^{T}\left(\sum_{t^{\prime} = 1}^{T}r_{t^{\prime} }\right)g_{t} \tag {1}$$
    • 注:为便于理解,这里展开完整的形式是
      $$
      \begin{align}
      \nabla_{\theta}J_{\text{OPD} }(\theta) &\approx \hat{g}_{\text{seq} } \\
      &= \sum_{t = 1}^{T}\left(\sum_{t^{\prime} = 1}^{T}\log \frac{\pi_{\theta}(y_{t^\prime}\mid c_{t^\prime})}{q(y_{t^\prime}\mid c_{t^\prime})}\right)\nabla_{\theta}\log \pi_{\theta}(y_{t}\mid c_{t})
      \end{align}
      $$
  • 在上式中,对于 \(t^{\prime}< t\),有
    $$\mathbb{E}[r_{t^{\prime} }g_{t}] = 0$$
    • 注:这里不太规范,没有明确期望 \(\mathbb{E}\) 是在什么策略下采样的,但根据上下文可以推导得到函数是:
      $$ \mathbb{E}_{x,y \sim \pi_\theta(\cdot|x)}[\cdot]$$
    • 因为 \(r_{t^{\prime} }\) 仅依赖于步骤 \(t\) 之前的前缀,而
      $$\mathbb{E}[g_t\mid x,y_{ < t}] = \sum_{y_t}\pi_\theta (y_t\mid c_t)\nabla_\theta \log \pi_\theta (y_t\mid c_t) = 0 $$
      • 注:这里为 0 的原因是得分函数的性质,证明可参考 NLP——LLM对齐微调-Rethinking-KL-Regularization
  • 相同的梯度也可以写成因果的 return-to-go 形式:
    $$\mathbb{E}[\hat{g}_{\text{seq} }] = \mathbb{E}\left[\sum_{t = 1}^{T}\left(\sum_{t^{\prime} = t}^{T}r_{t^{\prime} }\right)g_{t}\right] $$
  • LLM 训练中一个常见的近似是在每个位置仅保留即时项:
    $$\hat{g}_{\text{tok} } = \sum_{t = 1}^{T}r_{t}g_{t} \tag {2}$$
    • 这里将 (2) 称为 Token-level OPD(注意:上述公式隐含了使用蒙特卡洛估计来估计梯度,所以本身是 Sampled-Token OPD)
    • 这种近似去除了未来奖励耦合(其实之前的奖励耦合也去除了,但是因为之前的奖励下值梯度值为 0,所以不用关注)
      • 因此 Token \(y_{t}\) 的更新仅依赖于其即时奖励
      • 理解:这里相当于移除了 Sequence-level OPD 中的未来奖励部分对当前的梯度加权
    • Token-level 的梯度估计相对于 Sequence-level 反向 KL 估计器是有偏的
      • 但在长 horizon 设定中具有更低的方差
      • 这种差异反映在它们的方差缩放上:
        • 在有界奖励和有界得分函数梯度的条件下, Token-level OPD 的最坏情况方差上界缩放为 \(O(T^{2})\),而 Sequence-level 估计器的缩放为 \(O(T^{4})\)
        • 附录 B 中提供了详细的推导
  • 为了在这两个极端之间进行插值,本文考虑折扣 return-to-go 估计器
    $$\hat{g}_{\gamma} = \sum_{t = 1}^{T}\left(\sum_{t^{\prime} = t}^{T}\gamma^{t^{\prime} - t}r_{t^{\prime} }\right)g_{t},\qquad \gamma \in [0,1] \tag {3}$$
    • \(\gamma = 0\) 的情况恢复了 Token-level OPD
    • \(\gamma = 1\) 则恢复了因果 Sequence-level 估计器
    • 进行了一个双任务的 Toy 实验,观察到:增加 \(\gamma\) 会导致显著更高的梯度方差和更不稳定的优化
      • 见图 1 的图示和附录 C 的额外实验细节
  • 图 1: 实验中增加 \(\gamma\) 的效果
    • 更大的 \(\gamma\) 会产生更高且更持久的方差区间,并且在 Sequence-level 极限下,状态空间中的策略会漂移

Why Sampled-token OPD is brittle in practice,Sampled-token OPD 的问题

  • 从偏差-方差的角度来看,Token-level OPD 很有吸引力,但 Sampled-token 的比较在实践中可能很脆弱
    • 问题:Token-level OPD 跟 Sampled-Token Comparison(Sampled-Token OPD) 本身是不等价的
      • Sampled-Token OPD 强调的是:
        • 在估计每个位置的 KL 散度时,只使用学生实际采样出来的那一个 Token ,而不是对整个词表做求和或期望
        • 这是一种估计方式的刻画
        • Sampled-Token OPD 的反面是对全词表求和
      • Token-level OPD 强调的是:
        • 在计算当前 Token \( y_t \) 的梯度时,只使用当前位置的即时奖励 \( r_t \) ,而不使用未来的奖励信号 \( r_{t+1}, r_{t+2}, \dots \)
        • 这是一种梯度结构的刻画
        • Token-level OPD 的反面是计算当前 Token 梯度时,考虑未来的奖励
      • 这两个概念在逻辑上是正交的,但本文中似乎认为 Token-level OPD 中包含了 Sampled-Token OPD
  • 本文分离出三个不同的问题:
    • (1) 蒸馏信号高度不平衡
    • (2) Teacher 信号在 Student 生成的前缀上变得不太可靠
    • (3) Tokenizer 和 Special-Token 的不匹配会进一步扭曲单 Token 的比较
A highly imbalanced sampled-token signal
  • 在 Sampled-token OPD 中,步骤 \(t\) 的更新由单个 Sampled-token 上的对数比率驱动:
    $$\log q(y_t|c_t) - \log \pi_\theta (y_t|c_t) $$
    • 当 Student 给一个 Sampled-token 赋予比 Teacher 更高的概率时,就会产生负奖励
  • 如图 2 所示,大多数采样的 Token 获得负奖励,而正向的学习信号则集中在少数具有正优势的 Token 子集上
    • 结果是一个不平衡的训练信号,其中优化不成比例地由少数局部有利的 Token 驱动
    • 训练可能随后对 Teacher 局部偏好的短续接变得敏感,例如填充词或犹豫标记,即使这些 Token 对整体轨迹质量的贡献很小
    • 理解:产生这个问题的原因是因为 轨迹是由 Student 采样的,Student 采样时倾向于采样自身高概率的 Token(而这些 Token 在 Teacher 上的概率不一定大)
    • 理解:正因为 OPD 的 Advantages 均值倾向于小于 0,所以 Student 的熵一般不会降低,甚至会上涨(许多高概率 Token 降低自身概率带来的是熵增),少数 Token 会被提升概率,带来熵减
      • 熵增现象详情见 本文 图 8 图 9 和 NLP——LLM对齐微调-Rethinking-OPD 的 图 12
  • 图 2: Token 概率的散点图 ( Student vs. Teacher )
    • 在 Qwen2.5-7B-It (2025) 上的第一次训练迭代时,使用 OpenThinker3-7B (2025) 作为 Teacher 模型的 Sampled-token OPD
    • Sampled-token 信号严重偏向于惩罚当前的 Student Token,而不是提供平衡的奖励
The teacher signal can become unreliable on student-generated prefixes
  • 这一点可以描述为:Teacher 信号在 Student 生成的前缀(不是 Teacher 生成的前缀)上可能变得不可靠
  • Sampled-token OPD 隐含地假设 Teacher 对 Student 生成 Token 赋予的概率是其轨迹质量的有用代理
    • 当 Rollout 进入 Student 常见但 Teacher 不常见 的前缀时,这个假设会减弱
    • 在这样的前缀上, Teacher 可能给看似合理的 Token 赋予高概率,而此时轨迹已经偏离了期望的方向
      • 在本文实验的日志中,这种行为与诸如重复循环、自重置推理和格式错误的续接等模式相关联
  • 问题:这个点真的算是问题吗?可能是问题
    • 首先:简单理解下,不论前缀为何,假设 Teacher 认为这个前缀上后续生成的 Token 都应该近似输出某个特定 Token,那 Student 就应该被学到这个 Teacher 的知识,这和前缀在 Teacher 中是否常见没有关系
    • 实际上:如果 Teacher 甚至没有训练过这个 Prefix,那么确实可能会有问题,因为 Teacher 可能会输出乱码(此时 Teacher 出现类似 OOD 错误),此时 Teacher 确实无法胜任奖励信号的角色
  • 图 3 和 附录 D 的观察表明存在一个目标层面的不匹配:
    • OPD 鼓励 Token-level 上与 Teacher 达成一致,但这种代理并不一定对应于轨迹级别的质量,尤其是在 Teacher 分布外 (out-of-distribution) 的前缀上
    • 本文推测有两个因素放大了这个问题
      • 第一:Teacher 分布通常很尖锐,因此即使 Student 和 Teacher 之间稍有分歧,也可能产生很大的对数比率值
      • 第二:Teacher 的生成模式与 Student 的生成模式之间的差异使得 Student 的前缀更可能落在 Teacher 的典型上下文之外
    • 同样的失效也体现在 Teacher 信号随位置变化的方式上
      • 图 4 显示了跨 Token 位置的 Teacher-Student 对数概率差距的分布
        • 在早期位置相对集中,并在序列的后期逐渐变宽,在长 Rollout 上出现更极端的值
  • 图 3: Student 陷入重复循环
    • 但Teacher 模型在重复的 Token 上与 Student 模型保持高度一致,表明对此类行为缺乏适当的惩罚 (注:无色的 Token 多,说明两者输出的概率几乎一致)
  • 图 4: 跨 Token 位置的 Teacher-Student 对数概率差距的分布
    • 较后的位置显示出更宽的分布和更极端的值 ,表明在长的 Student 生成 Rollout 上 Teacher 信号更嘈杂
    • 问题:为什么单数长度的 Token 位置方差明显小于双数长度的 Token(比如 15k 相比 16k 长度,差异很大,但 15k 相对 0k 差异很小)
Tokenizer and special-token mismatch
  • Sampled-token OPD 使用 Teacher 的分布来比较 Student 生成的确切 Token
  • 当两个模型使用不同的 Tokenization 时,相同的原始文本可能被分割成不同的方式,因此 Student 生成的 Token 在 Teacher 的 Token 体系下可能不对应于一个自然的 Token
    • 例如,Student 可能将 <think> 生成为 <, think, >,而 Teacher 期望的是 <th, ink, >
    • 那么 Token < 从 Teacher 那里获得低概率,即使两个模型产生了相同的语义内容
  • 类似的 mismatch 也会出现在 Special-Token 上,例如序列结束标记
    • 在这种情况下,单 Token 的比较会将语义分歧与 Tokenizer 不匹配混淆起来
  • 本节的以上这些观察激发了超越单 Token 监督的动机:
    • 在每个前缀处,我们不仅仅比较采样的 Token,而是在一组合理的 Next-Token Continuations 上比较 Teacher 和 Student ,同时保留 Token-level 更新以保证稳定性
  • 图 5: Token-level 比较可能因 Tokenizer 不匹配而惩罚语义正确的输出
    • 理解:图中,因为 Token 是按照 Student 的 Tokenizer 来划分的,所以部分 Special Token 是 Student 和 Teacher 不同的,这些 Token 下,按照 Student 划分后,Teacher 出现这些 Token 的概率很低(按照 Teacher 的 Tokenizer 划分则出现概率很高)
      • 这个现象本质上是一种 Special-Token mismatch

Method

  • 本文的方法保留了 Token-level OPD,但在每个前缀上用一个基于 Teacher 选择的 support 集合的分布级比较取代了单 token 监督
    • 产生一个截断的 reverse-KL 目标,在保持计算效率的同时改善了训练信号的平衡

Teacher top-K local support matching,Teacher top-K 局部 support 匹配

  • 本文的方法不是在单个 Sampled-token 上比较 Teacher 和 Student ,而是在一个 Teacher 定义的局部 support 上对它们进行比较
  • 一个自然的起点是在前缀 \(c_{t}\) 处的全词表 reverse-KL:
    $$\mathcal{L}_{\text{full} }(c_t) = \sum_{v\in \mathcal{V} }\pi_\theta (v|c_t)\log \frac{\pi_\theta(v|c_t)}{q(v|c_t)} \tag {4}$$
  • Sampled-token OPD 可以被视为对这个量的单样本 Monte Carlo 近似:
    $$\mathcal{L}_{\text{sample} }(c_t,y_t) = \log \frac{\pi_\theta(y_t|c_t)}{q(y_t|c_t)},\qquad y_t\sim \pi_\theta (\cdot |c_t) \tag {5}$$
    • 这种近似在计算上很有吸引力,但将整个更新集中在一个采样的 token 上
  • 本文做法:在每个前缀上,在一个 Teacher 支持的 token 集合上比较 Teacher 和 Student
    • 对于每个 prompt \(x\),使用 Student 推理策略采样一组输出
      $$\{o_i\}_{i = 1}^G$$
    • 令为输出 \(o_{i}\) 在位置 \(t\) 处的前缀为:
      $$ c_{i,t} = (x,y_{i, < t}) $$
    • 定义 Teacher support 集合
      $$S(c_{i,t}) = \text{TopK}_q(c_{i,t}) \tag {6}$$
      • 这包含了在该前缀下 Teacher 认为(Next-token 候选)概率最高的 \(K\) 个 token
  • 本文在这个局部 support 内部对 Teacher 和 Student 的分布进行重新归一化:
    $$\begin{align}
    \hat{\pi}_{\theta}(v\mid c_{i,t}) &= \frac{\pi_{\theta}(v\mid c_{i,t})}{\sum_{u\in S(c_{i,t})}\pi_{\theta}(u\mid c_{i,t})}\\
    \hat{q} (v\mid c_{i,t}) &= \frac{q(v\mid c_{i,t})}{\sum_{u\in S(c_{i,t})}q(u\mid c_{i,t})}
    \end{align}
    \tag {7}$$
  • 训练目标是对所有 Rollout 位置的平均截断 reverse-KL:
    $$\mathcal{L}_{\text{LSM} } = \mathbb{E}_{x,\{o_i\} \sim \pi_{\theta ,\text{infer} } }\left[\frac{1}{\sum_{i = 1}^{G}|o_i|}\sum_{i = 1}^{G}\sum_{v\in S(c_{i,t})}\hat{\pi}_{\theta}(v\mid c_{i,t})\log \frac{\hat{\pi}_{\theta}(v\mid c_{i,t})}{\hat{q}(v\mid c_{i,t})}\right] \tag {8}$$
    • 相对于 Sampled-token OPD,这个目标在 Teacher 支持的局部区域内进行分布级比较,而不是仅仅奖励或惩罚一个采样的 token
    • 由此产生的更新将正向和负向调整重新分配到前缀中所有 Teacher 支持的候选 token 上,产生了一个更平衡的训练信号,同时仍然比全词表 KL Cheap 得多
  • 问题:为什么是 Teacher 的 Top 概率子集,不是 Student 的 Top-K 候选 Token?
    • 推测使用 Student 的 Top 概率子集会更好,因为这里是为了扩展采样到的 Token
    • 而且,采样到的 Token 理论上一定包含在 Student 的 Top-K 候选 Token 中,却不一定包含在 Teacher 的 Top-K 候选 Token 中(毕竟轨迹是从 Student 采样得到的)
    • 补充:下文中会有消融实验,两者在不同领域上收益有胜有负,另外,针对 Teacher 的 Top-K 候选 Token 可能不包含 Sampled Token 的情况,可以强行将 Sampled Token 添加到 Teacher 的 Top-K 候选 Token 集合中

Practical stabilization choices,实际生产中选择的稳定化选择

Support-set renormalization
  • 重新归一化是必要的,因为目标是在截断的 support 上而非完整词汇上进行评估
  • 没有重新归一化,优化可能会变得不稳定,因为 support 内部的 Teacher 和 Student 概率质量无法直接比较
    • 理解:不归一化时,两者的子集上的分布和(对应归一化分母)是不一样的
    • 问题:这种归一化改变了原始的 Teacher 和 Student 的 Token 概率(本身似乎有问题)
Top-\(p\) rollout sampling
  • 使用 top-\(p\) 采样生成 Rollout
  • 无约束采样偶尔会产生极低概率的 token,这反过来会 Create 一些前缀,在这些前缀上 Teacher 分布的信息量较少,而 Student 分布已经在恶化
    • 理解:一些极低概率的 Token 确实会导致生成的轨迹变得极端(无约束时有一定概率采样到极低概率的 Token)
  • Top-\(p\) 采样使轨迹更接近典型的延续,并使 Teacher 信号更可靠
Special-token masking
  • 屏蔽有问题的 Special-Token ,以减少由不兼容的分词约定引起的假阴性
    • 注意:这里不是修正,而是直接屏蔽
    • 理解:这里所谓 有问题的 Special-Token 是指 Teacher 和 Student Tokenization 方式不一致的 Token
  • 这是一个正交的工程修复:
    • 在本文的实验中,这个修复实质性地帮助了 Sampled-token OPD 基线,而局部 support 目标对其敏感度要低得多
  • In Principle,也可以合并多 token marker 变体或对等效的分词进行平均,但本文在此不采用这些特定于分词器的补救措施,因为掩码是最简单的与模型无关的修正
    • 理解:这里是指一些底层的 Token 修复方式了

Experiments

Setup

  • 本文在现有的 OPD 训练流程之上实现了局部 support 匹配,使用 Qwen2.5-7B-Instruct (2025) 作为 Student
  • 考虑两种 Setting:
    • (1) 一个单任务数学推理 Setting
      • OpenThinker3-7B (2025) 作为 Teacher
      • 训练使用 DAPO-Math-17K (2025) 的英文部分
      • 最大上下文长度为 16K
    • (2) 一个多任务 Setting
      • 在数学推理和基于 ALFWorld (2021) 的多轮 Agentic 任务之间交替进行
      • 数学任务使用 OpenThinker3-7B (2025) 作为 Teacher
      • Agentic 任务使用发布的 GiGPO-Qwen2.5-7B-Instruct-ALFWorld checkpoint (2025) 作为 Teacher
  • 所有运行默认使用:
    • batch size 128
    • mini-batch size 64
    • 学习率 \(2\times 10^{- 6}\)
    • 温度 1
    • Rollout 使用 top-\(p = 0.9\) 进行采样
  • 指标:
    • 在数学基准测试上报告 pass@1,在 ALFWorld 上报告成功率
    • 少数情况下还会为数学评估额外报告 average@32

Single-task math reasoning

  • 表 1 显示,在单任务数学推理中,局部 support 匹配相比 Sampled-token OPD 有所改进
    • Sampled-token OPD 已将平均分从 28.2 提高到 36.4
      • 注:但仍远落后于 Teacher
    • 在 Sampled-token OPD 上,仅使用 Special-Token 掩码就将采样式基线进一步改进到 40.7
      • 表明分词伪影是该问题的重要组成部分
    • 本文的完整方法达到 41.5
    • 掩码对本文方法影响不大 (41.0 对比 41.5),这与分布级 support 匹配 对分词器不匹配的敏感度低于单 token 监督 的结论一致

Multi-task agentic-plus-math training, Agentic 加数学联合

  • 表 2 显示了交替多任务训练中一个更不对称的模式
    • Sampled-token OPD 基线在 ALFWorld 上已经很强,主要的改进空间在于数学方面
  • 本文方法的无掩码版本将 Math500 从 76.0(Sampled-token OPD w/ mask)提高到 82.0,并将数学平均分从 36.6 提高到 41.7,同时在 ALFWorld 上保持竞争力
  • 带掩码的版本取得了最佳的 ALFWorld 结果 97.7,但牺牲了一部分数学增益
    • 理解:说明两个领域存在一些冲突,有一个 trade-off 的过程
  • 这些结果表明:
    • 局部 support 匹配在长 horizon Token-level 监督最脆弱的领域帮助最大,同时保留了强大的 Agentic 性能
    • 理解:这里的 长 horizon Token-level 监督最脆弱的领域 主要指的是数学领域上

Training dynamics and alignment,训练动态与对齐

  • 图 6、7 和 8 提供了优化动态的更详细视图
    • 注:图 6 的评测结果和 表 1 结果对不齐
    • 注:从 图 6 - 图 8 的整个评估分数看来,同一个方案训练过程中波动较大,实际上继续训练下去,结论可能回又不一样
Better learning curves
  • 在数学推理上,本文的方法在整个训练过程中都提高了训练奖励和评估性能,而不仅仅是在最后的 checkpoint
    • 这种模式在单任务设置和交替多任务设置中都成立
More stable optimization
  • 本文的方法产生了更小的梯度范数和更低的裁剪边界比例,同时保持了足够的策略熵,这表明优化更加稳定
  • 可以观察到, Special-Token 掩码在训练早期和中期显著降低了 Sampled-token OPD 的裁剪边界比例,而对本文的方法影响很小
Improved teacher-student alignment
  • 在 Sampled-token 上的 Teacher-Student 对数概率差距也变小了
    • 这表明截断的局部 support 目标即使在使用基线的采样式 token 诊断指标下,也改善了对齐性

Ablations

  • 表 3 和图 9 表明,本文方法拿到的这些增益源于多个设计选择,而非任何单一修改
  • 仅靠 Teacher top-K 比较是不够的:
    • Rollout 策略也必须保持在一个稳定区域,添加 top-p 采样将一个初始较弱的 top-K 变体变成了一个更强的配置
    • 在截断的 support 内部进行重新归一化是必不可少的,移除它会导致快速崩溃
    • 当 support 空间 \(K\) 足够大时,性能对确切的 support 大小并不特别敏感
    • 当 support 空间 \(K\) 太小或 Rollout 完全不受约束时,训练会变得不稳定
Top-K support variants
  • 本文的主要实验在 Teacher 的 top-K support 上定义了截断期望
    • 一个自然的问题是,这个选择本身是否关键,或者相近的 support 定义是否表现类似
  • 本文比较了三种变体:
    • Teacher top-K(主要结果中使用)
    • Student top-K
    • Teacher top-K 加上 Student 采样的 token
  • 表 4 表明,这种益处在不同相近的 support 定义下都相当稳健
    • 没有哪个单一选择在所有基准测试中占主导地位:
      • Teacher top-K 仍然具有竞争力
      • Student top-K 在几个单独的数据集上表现强劲(平均值优于 Teacher Top-K)
      • Teacher top-K 加上 Sampled-token 在这个初步比较中取得了最佳平均分
    • 这表明主要益处来自于用局部分布级匹配取代单 token 比较
      • 暂时没有唯一最优的 support 集合选择
    • 注:这个比较仍然是初步的,因此对 support 集合设计进行更系统的端到端研究仍然是重要的未来工作

Discussion and Limitations

  • 当前的目标仍然是一个截断的代理
    • 本文的局部 support 损失是在一个受限的 token 子集上,以及在由诸如 top-\(p\) 采样等 Rollout 策略生成的前缀上进行评估的
    • 这并不等同于全词表 reverse-KL,也没有明确校正产生训练前缀的采样过程
    • 这个局限性在本文的研究中仍未充分探索的两个地方最为重要:
      • 如何在扩充 Teacher top-\(K\) support 时纳入采样的 token
      • 当 Rollout 策略和训练策略不同时是否需要重要性加权式的校正
    • 作者将当前的公式视为一个实际的设计方案,而不是关于 support 集合构建的最终答案
  • Reward Hacking 的解释仍然是一个机制性假设
    • 本文的定性案例使失败模式具体化,但它们并未分离出一个完整的因果机制
    • 特别地,关于尖锐的 Teacher 分布和分布外前缀共同产生误导性局部奖励的假设,应被视为一个有证据支持的可能解释,而非一个完全确定的因果说明
  • Teacher 匹配仍然是任务成功的一个不完美代理
    • 即使 OPD 被明确定义为 Teacher 匹配目标,由此产生的奖励仍然可能与潜在的成功行为概念存在差异
    • 本文的 Reward Hacking 案例具体化了这种差距:
      • 局部上 Teacher 偏好的延续即使在整个轨迹已经无益甚至有害时,仍然可以获得奖励
      • 在本文的实验中,与 Teacher 之间仍存在显著差距,这表明更好的局部监督只是蒸馏问题的一部分,尤其是在 Teacher 和 Student 差异显著时
      • 缩小这一差距可能需要更强的 Rollout 控制、更好地处理分布偏移、更好地利用 Teacher 的不确定性,以及与可验证结果的奖励相结合

附录 A:Future Directions

OPD versus RL in multi-task transfer,OPD 与 RL 比较

  • 本文的多任务结果激励了对 OPD 和 RL 作为迁移机制进行更直接的比较
    • 在 RL 中,正迁移或负迁移可以直接从跨任务的环境奖励中读取
    • 在 OPD 中,优化目标仍然是 Teacher 派生的,因此迁移是通过 Teacher 认为是局部偏好的行为来过滤的
  • 这种区别可能有助于解释为什么本文的多任务增益在数学方面最强,以及为什么在此设置中附近的支持集定义变得不那么统一
    • OPD 和 RL 之间的任务匹配、计算匹配的比较将有助于阐明 Teacher 引导的迁移何时能跟踪环境级别的泛化,以及 Teacher 奖励差距何时成为瓶颈

Continual learning as a testbed,测试平台

  • 持续学习是 OPD 的另一个自然 Setting
  • Teacher 引导的 On-Policy 目标可以作为一种保留机制,同时 Student 适应新任务,但这种机制也将正好承受本文所揭示的问题:
    • 分布偏移、Teacher 过时以及在长适应视界上近似误差的累积
  • 建议测试 OPD 探究局部支持匹配是否能减轻遗忘,还可探究 Student 不断远离 Teacher 的原始领域时,基于 Teacher 的目标是否仍然有用

Relation to other stabilization directions,与其他稳定化方向的关系

  • 本文方法与下面方向是互补的:
    • Reward-Hacking 缓解
    • 使用 EMA 锚定和 Top-K KL (2026)
    • 基于扰动的 Off-Policy 校正 (2026)
    • Teacher 和 Student Rollout 之间的 Logit 级融合 (2026)
  • 这些方法解决了同一更广泛问题的不同部分:
    • 当 Teacher 和 Student 策略开始出现分歧,如何保持 Teacher 派生的学习信号有用
    • 将局部支持匹配视为该更大工具箱中的一个组成部分,而不是那些稳定化策略的替代品

附录 B: Bias and variance analysis of token-level versus sequence-level OPD,Token-level 与 Sequence-level OPD 的偏差和方差分析

B.1 Bias of the token-level estimator

  • 回顾因果 Return-to-go 形式的 Sequence-level 估计器
    $$\hat{\delta}_{\text{seq} } = \sum_{t = 1}^{T}\left(\sum_{t^{\prime} = t}^{T}r_{t^{\prime} }\right)g_{t} $$
  • 展开内部和得到
    $$\hat{\delta}_{\text{seq} } = \sum_{t = 1}^{T}r_{t}g_{t} + \sum_{t = 1}^{T}\sum_{t^{\prime} = t + 1}^{T}r_{t^{\prime} }g_{t} $$
  • 由于 Token-level 估计器只保留第一项,
    $$\hat{\delta}_{\text{tok} } = \sum_{t = 1}^{T}r_{t}g_{t} $$
  • 它们的期望差距是
    $$\mathbb{E}[\hat{\delta}_{\text{seq} }] - \mathbb{E}[\hat{\delta}_{\text{tok} }] = \mathbb{E}\left[\sum_{t = 1}^{T}\sum_{t^{\prime} = t + 1}^{T}r_{t^{\prime} }g_{t}\right] $$
  • 这明确表明 Token-level OPD 移除了未来奖励耦合项,因此通常相对于 Sequence-level 目标是有偏差的

B.2 Worst-case variance upper bounds,最坏情况方差上界

  • 假设存在常数 \(B_{r},B_{g} > 0\) 使得对所有 \(t\) 有
    $$|r_t|\leq B_r,\qquad | g_t| \leq B_g\quad \text{for all }t $$
  • 对于 Token-level 估计器,
    $$| \hat{g}_{\text{tok} }| \leq \sum_{t = 1}^{T}|r_t|| g_t| \leq TB_rB_g$$
    • 于是有:
      $$\mathbb{E}| \hat{g}_{\text{tok} }| ^2\leq T^2 B_r^2 B_g^2$$
    • 使用 \(\operatorname {Var}(X)\leq \mathbb{E}| X| ^2\) 可得到
      $$\operatorname {Var}(\hat{g}_{\text{tok} }) = O(T^2)$$
  • 对于 Sequence-level 估计器,定义
    $$R = \sum_{t = 1}^{T}r_{t},\qquad G = \sum_{t = 1}^{T}g_{t},\qquad \hat{g}_{\text{seq} } = RG $$
    • 于是又:
      $$|R|\leq TB_r,\qquad | G| \leq TB_g $$
    • 进一步有:
      $$| \hat{g}_{\text{seq} }| \leq T^2 B_rB_g,\qquad \mathbb{E}| \hat{g}_{\text{seq} }| ^2\leq T^4 B_r^2 B_g^2 $$
    • 最终有:
      $$\operatorname {Var}(\hat{g}_{\text{seq} }) = O(T^4) $$
  • 两者核心区别在于是否包含未来的所有奖励(包含时方差会变大)

B.3 Discussion

  • Sequence-level 估计器更接近精确的轨迹级目标
    • 但它将每个 Score 项与许多未来奖励耦合在一起
  • 在最坏情况下的缩放中,这将方差增长从序列长度的二次方改变为四次方
    • 这个论证是有意保守的,但它说明了为什么更强的奖励耦合在长视界后训练中可能成为问题

附录 C:Toy experiment details

C.1 Environment

  • 使用一个双任务一维连续控制环境来可视化更强的奖励耦合如何改变 OPD 优化
  • Student 策略是一个三层 MLP,大约有 4K 个参数
  • 输入是一个三维向量,包含任务标识、当前位置和归一化时间步长
  • 该策略输出高斯动作分布的均值和标准差,状态转移为
    $$s_{t + 1} = s_t + \delta ,\qquad \delta \sim \mathcal{N}(\mu ,\sigma) $$
  • 这两个任务是彼此的镜像:
    • 左任务从 \(+2\) 开始,目标是 \(-3\)
    • 右任务从 \(-2\) 开始,目标是 \(+3\)
  • 本文首先使用 REINFORCE 训练独立的 Teacher,然后通过交替任务 OPD 将它们蒸馏到一个共享的 Student 中

C.2 Gradient variance estimation

  • 在每个训练步骤,将一批 \(B = 64\) 条轨迹分成 \(M = 8\) 个 Micro-batch
  • 对于每个 Micro-batch \(m\),计算损失 \(\mathcal{L}_{m}\) 和输出层参数上对应的梯度向量 \(\mathbf{g}_{m}\)
  • 通过下式估计梯度方差
    $$\operatorname {Var}(\mathbf{g}) = \frac{1}{M}\sum_{m = 1}^{M}| \mathbf{g}_m - \bar{\mathbf{g} }| ^2,\qquad \bar{\mathbf{g} } = \frac{1}{M}\sum_{m = 1}^{M}\mathbf{g}_m $$
  • 仅将此量用作一个定性指标,但比较不同 \(\gamma\) 设置下的相对方差已经足够

C.3 Toy Additional Results of Toy Experiments

  • 图 A1、A2 和 A3 报告了不同 OPD 估计器 (\(\gamma \in \{0.0, 0.25, 0.5, 0.75, 1.0\}\)) 在三个随机种子下的梯度方差曲线和相应的状态访问热图
    • 尽管具体数值因种子而异,但定性模式是一致的
    • 所有 Setting 在优化初期都表现出较大的方差峰值,并且较大的 \(\gamma\) 通常在训练后期保持在较高的方差水平
    • 在几次运行中,\(\gamma = 0.75\) 或 \(\gamma = 1.0\) 下的方差比较小 \(\gamma\) 值下的方差保持高出一到几个数量级
    • 在所有运行中, Token-level OPD (\(\gamma = 0\)) 始终能学习到向两个任务的目标状态移动的轨迹
    • \(\gamma\) 的中间值在性质上保持相似,但变得更加分散
    • 当 \(\gamma\) 接近 Sequence-level 情况 (\(\gamma = 1.0\)) 时,学习到的轨迹常常偏离期望的方向,并在状态空间的次优区域附近稳定下来

附录 D:Qualitative OPD reward-hacking case study,定性研究

  • 为了补充正文中的代表性失败案例,这里总结一个来自 Sampled-token OPD 下多任务训练的较长轨迹
  • 按时间顺序阅读,该案例以几种形式表现出相同的模式:
    • 模型在已经有答案后仍然继续分析,陷入重复循环(例如“wait”),漂移到格式错误的延续中,并且仍然在这些 Token 上获得高的局部 Teacher 概率
  • 1)失败首先表现为过度延续
    • 即使在答案已经有效可用之后,局部信号仍然将大量质量放在通用的推理填充词和连接 Token 上,鼓励模型继续生成而不是干净地停止
    • 同样的模式稍后出现在诸如 “confirm” 这样的前缀上,局部信号仍然偏好额外的验证而不是终止
    • 这种行为的一部分也可能反映了 Teacher 自身的输出习惯
    • 图 A4 展示了几个代表性案例
  • 2)轨迹发展为犹豫循环和低信息延续
    • 重复的 “wait” Token、大量标点符号的延续以及其他语义薄弱的填充词可能保持局部可奖励,即使整个轨迹已经变得无益
    • 这与第 3.2 节中关于重复循环的讨论一致
    • 图 A5 中提供了两个类似的案例
  • 3)当 Student 进一步漂移到分布外,局部信号可能保持误导性的正向而不是自我纠正
    • 在案例研究中,这表现为退化和乱码输出,然而许多 Token 仍然获得高的 Teacher 概率
    • 图 A6 展示了一个例子
12…67
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

662 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4