Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

博客导航 · 分类目录

欢迎来到 Jiahong 的技术博客

包含操作系统、机器学习、深度学习、强化学习、NLP 和 LLM 等 计算机/AI 领域的学习笔记与实践总结

⭐ 论文解读 & 穿插个人评论/理解;⭐ 基础公式推导 & 数学原理分析;⭐ 实践技术思考 & 汇总整理;

📊 共计 648 篇技术文章 | 🏷️ 51 个分类领域

2017
65 篇
2018
122 篇
2019
102 篇
2020
48 篇
2021
32 篇
2022
41 篇
2023
33 篇
2024
50 篇
2025
126 篇
2026
28+ 篇

人工智能 & 机器学习

📖
自然语言处理 (NLP)
📝 200 篇文章
LLM、BERT、Transformer、文本处理等
🧠
大语言模型 (LLM)
📝 180 篇文章
GPT、BERT、ChatGPT等大模型技术
🕸️
深度学习 (DL)
📝 92 篇文章
神经网络、CNN、RNN、Attention等
🎮 🌍
强化学习 (RL)
📝 127 篇文章
Q-Learning、PPO、TRPO、策略梯度等
🤖
机器学习 (ML)
📝 50 篇文章
传统算法、特征工程、模型评估等
🔥
PyTorch
📝 28 篇文章
PyTorch框架使用与实践
📊
TensorFlow
📝 9 篇文章
TensorFlow框架使用与实践
👁️
计算机视觉 (CV)
📝 10 篇文章
图像处理、目标检测、生成模型等

广告 & 推荐

📢
计算广告 (CA)
📝 23 篇文章
广告系统、CTR预估、竞价策略、出价优化等
🔨
拍卖机制 (Auction)
📝 14 篇文章
拍卖理论、机制设计、竞价策略等
💰
竞价与出价 (Bidding)
📝 9 篇文章
出价策略、自动出价、预算分配等
⭐
推荐系统 (RS)
📝 23 篇文章
协同过滤、深度推荐、排序策略等

编程语言

🐍
Python
📝 86 篇文章
Python语法、库使用、最佳实践
☕
Java
📝 4 篇文章
Java编程与开发
🦫
Go
📝 3 篇文章
Go语言学习与实践
🚀
Scala
📝 1 篇文章
Scala函数式编程
🐚
Shell
📝 1 篇文章
Shell脚本编程

系统 & 运维

🐧
Linux
📝 28 篇文章
Linux系统、命令行工具使用
🐳
Docker
📝 5 篇文章
容器技术、镜像管理
🍎
Mac
📝 3 篇文章
macOS使用技巧
🐧
Ubuntu
📝 9 篇文章
Ubuntu 相关技术笔记
🐧
Centos
📝 6 篇文章
Centos 相关技术笔记

数学

📐
数学
📝 26 篇文章
线性代数、概率论、优化理论等

开发工具

🌿
Git
📝 8 篇文章
版本控制、协作开发
📝
Hexo
📝 5 篇文章
博客搭建与维护
✍️
Markdown
📝 1 篇文章
Markdown语法与技巧

其他

📦
其他
📝 44 篇文章
杂项笔记与技术分享
📁
Regex
📝 1 篇文章
Regex 相关技术笔记
📁
Anaconda
📝 4 篇文章
Anaconda 相关技术笔记
📁
Numpy
📝 4 篇文章
Numpy 相关技术笔记
📁
Jupyter
📝 6 篇文章
Jupyter 相关技术笔记
📁
Ray
📝 2 篇文章
Ray 相关技术笔记
📁
Pandas
📝 2 篇文章
Pandas 相关技术笔记
📁
DataFrame
📝 1 篇文章
DataFrame 相关技术笔记
📁
ACM
📝 1 篇文章
ACM 相关技术笔记
📁
KG
📝 3 篇文章
KG 相关技术笔记
📁
Neo4j
📝 1 篇文章
Neo4j 相关技术笔记
📁
GR
📝 11 篇文章
GR 相关技术笔记
📁
GBDT
📝 8 篇文章
GBDT 相关技术笔记
📁
Sklearn
📝 3 篇文章
Sklearn 相关技术笔记
📁
Hadoop
📝 1 篇文章
Hadoop 相关技术笔记
📁
Hive
📝 1 篇文章
Hive 相关技术笔记
📁
MySQL
📝 4 篇文章
MySQL 相关技术笔记
📁
CPT
📝 5 篇文章
CPT 相关技术笔记
📁
AI-Infra
📝 18 篇文章
AI-Infra 相关技术笔记
📁
Megatron
📝 7 篇文章
Megatron 相关技术笔记
📁
Rubrics
📝 14 篇文章
Rubrics 相关技术笔记
📁
Rubric
📝 1 篇文章
Rubric 相关技术笔记
📁
Agent
📝 1 篇文章
Agent 相关技术笔记
📁
HuggingFace
📝 1 篇文章
HuggingFace 相关技术笔记
📁
Spark
📝 2 篇文章
Spark 相关技术笔记

💡 提示:点击任意卡片即可查看该分类下的所有文章

📧 联系方式:JoeZJiahong@Foxmail.com | 🔗 GitHub: @JoeZJH

NLP——技术报告解读-DeepSeek-V4

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(DeepSeek-V4 Technical Report)DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence, 20260424, DeepSeek-AI

整体总结

  • DeepSeek-V4 系列 通过 混合压缩注意力(CSA/HCA) 、流形约束超连接(mHC) 、Muon优化器 及 大量工程优化 ,实现了1M Token 上下文的高效支持
  • V4-Pro-Max 在知识、推理、长上下文、Agent 等任务上全面超越现有开源模型 ,并显著缩小了与闭源前沿模型的差距
  • V4-Flash 以更少激活参数达到接近的推理能力,极具成本效益
  • 核心宣传点:打破超长上下文(1M Token 级别)处理中的效率瓶颈,实现高效推理与训练,并有利于测试时扩展和 long-horizon 任务提效
  • 本次开源两版模型
    • DeepSeek-V4-Pro :1.6T-A49B
    • DeepSeek-V4-Flash :284B-A13B
    • 两者均支持 1M Token 上下文 ,并在长上下文中大幅降低计算和显存开销

架构创新

  • 继承 DeepSeek-V3 的 DeepSeekMoE 和 MTP
  • 引入三项关键改进:
    • mHC
    • 混合注意力机制(CSA + HCA)
    • Muon 优化器
Manifold-Constrained Hyper-Connections (mHC)
  • 出自之前 DeepSeek 发的文章
  • 增强残差连接,通过将映射矩阵约束为双随机矩阵(Birkhoff 多面体),使谱范数 ≤1,提升信号传播稳定性
  • 动态生成输入、残差、输出映射,并用 Sinkhorn-Knopp 算法实现双随机约束
混合注意力机制(CSA + HCA)
  • 为应对超长上下文,设计了两种高效注意力架构:Compressed Sparse Attention(CSA)和 Heavily Compressed Attention (HCA)
Compressed Sparse Attention (CSA)
  • 将每 m 个 Token 压缩为一个KV条目(压缩率 m=4)
  • 使用轻量索引器(Lightning Indexer)选择 top-k 压缩KV条目
  • 多查询注意力(MQA)+ 分组输出投影
  • 结合滑动窗口注意力(窗口大小 128)增强局部依赖
Heavily Compressed Attention (HCA)
  • 更大压缩率(m’=128),无稀疏选择
  • 同样采用 MQA 和分组投影
其他实现细节
  • 查询/KV 归一化(RMSNorm)
  • Partial RoPE 位置编码(仅后 64 维)
  • Attention Sink 机制(可学习 logits)调整注意力总和
  • 滑动窗口分支保证因果性和局部性
Muon优化器
  • 替代大部分模块的 AdamW,提供更快收敛和更稳定训练
  • 使用混合 Newton-Schulz 迭代进行正交化
  • 嵌入层、预测头、RMSNorm 等仍保留 AdamW

工程与基础设施优化

专家并行(EP)中的细粒度通信-计算重叠
  • 将专家划分为“波”(waves),实现通信与计算流水化
  • 可容忍更低互联带宽,提升推理和 RL rollout 效率
  • 开源 MegaMoE 内核(基于 CUDA)
TileLang DSL 加速内核开发
  • 支持主机代码生成(Host Codegen),降低调用开销
  • 集成 Z3 SMT 求解器进行整数分析,优化向量化、内存访问等
  • 支持确定性、批无关(batch-invariant)和可重现的数值计算
FP4量化感知训练(QAT)
  • 对 MoE 专家权重和 CSA 索引器的 QK 路径进行 FP4 量化
  • 前向:FP4 → FP8(无损),反向:STE 更新 FP32 主权重
    • 注:STE 是 Straight-Through Estimator 的缩写,中文常译为直通估计器
    • 量化存在的问题:量化过程通常包含一个不可微分的操作,例如四舍五入、取整、截断等
    • STE 的做法:在前向传播中使用真实的量化函数(不可微),但在反向传播时,假装这个函数是恒等映射或简单的阶梯函数,直接将梯度“直通”过去
  • 推理和 RL rollout 中直接使用 FP4 权重,减少显存和加速

训练框架增强

  • Muon + ZeRO混合策略 :对稠密参数限制 ZeRO 并行度,对 MoE 专家独立优化
  • mHC优化 :重计算 + 融合 kernel + 流水线调度,额外开销仅 6.7%
  • 上下文并行(CP) :两阶段通信处理压缩 KV 的跨 rank 边界
  • 张量级激活重计算 :基于 TorchFX 的细粒度控制,减少显存

推理框架

  • 异构 KV 缓存管理 :区分 CSA/HCA 压缩 KV、SWA 状态缓存、未压缩尾部 Token
  • 磁盘 KV 缓存 :支持共享前缀复用,针对 SWA 实现三种缓存策略(全缓存、周期检查点、无缓存)

Pre-training

Pre-Training 数据与策略
  • 训练数据 >32T Token ,涵盖网页、数学、代码、长文档、多语言等
  • 采用 Token 切分、填充中间(FIM)、样本级注意力掩码
  • 序列长度从 4K 逐步扩展至 1M;先用密集注意力 warmup,后引入稀疏注意力
模型配置
  • 两版模型参数详情:
    参数 V4-Flash V4-Pro
    层数 43 61
    隐藏维度 4096 7168
    CSA压缩率 m 4 4
    HCA压缩率 m’ 128 128
    激活专家数 6 6
    总/激活参数 284B / 13B 1.6T / 49B
训练稳定性
  • Anticipatory Routing :使用历史参数计算路由索引 ,打破路由与主干网络的同步更新,避免 loss 尖峰
  • SwiGLU Clamping :将线性部分限制在 [-10, 10],门控部分上限为 10,消除异常值
预训练结果
  • V4-Flash-Base :参数远少于 V3.2-Base,但在多数基准上超越后者,尤其在长上下文和知识任务
  • V4-Pro-Base :全面超越 V3.2-Base 和 V4-Flash-Base,成为 DeepSeek 系列最强基础模型

Post-Training

两阶段流程
  • 阶段 1)专家训练(Specialist Training) :
    • 对数学、代码、Agent、指令跟随等域分别进行 SFT + RL(GRPO)
    • 支持三种推理模式:Non-think、Think High、Think Max(最大推理 Effort )
    • 引入生成式奖励模型(GRM)替代标量奖励模型
    • 新增工具调用 schema(XML 格式)和 <think> 标签
  • 阶段 2)同策略蒸馏(On-Policy Distillation, OPD) :
    • 多个教师模型(> 10个专家)蒸馏为一个统一学生模型
    • 使用全词汇 KL 散度而非 Token 级估计,提高稳定性
    • 教师模型权重存储在分布式存储,按需加载,减少显存

工程支持

  • FP4 量化加速 Rollout 和推理
  • 全词汇 OPD:缓存教师最后一层 Hidden State,动态计算 logits
  • 可抢占、容错的 rollout 服务( Token 级 WAL)
  • 百万 Token RL 优化:轻量元数据 + 共享内存数据加载
  • DSec 沙箱平台 :支持函数、容器、microVM、fullVM 四种执行环境,用于 Agent 训练和评估

评估结果(部分内容)

知识
  • V4-Pro-Max 在 SimpleQA、Chinese-SimpleQA 上大幅领先所有开源模型,但仍落后于 Gemini-3.1-Pro
  • MMLU-Pro、GPQA、HLE 等教育与推理任务上,V4-Pro-Max 略优于 Kimi、GLM,但落后于闭源前沿模型
推理
  • V4-Pro-Max 在推理基准上优于 GPT-5.2 和 Gemini-3.0-Pro,但略逊于 GPT-5.4 和 Gemini-3.1-Pro(约落后 3~6 个月)
  • V4-Flash-Max 在更大思考预算下可达类似推理性能,成本更低
长上下文(1M Token )
  • V4-Pro 在 MRCR 任务上优于 Gemini-3.1-Pro,接近 Claude Opus 4.6
  • 128K 以内检索性能稳定,1M 时仍显著强于竞品
Agent 能力
  • 在Terminal Bench、SWE-Verified 等基准上,V4-Pro-Max 与领先开源模型持平,略差于闭源模型
  • 内部评估中,V4-Pro-Max 超越 Claude Sonnet 4.5,接近 Opus 4.5
  • 研发编码任务(内部 30 道题):Pass rate 76%,接近 Opus 4.5(77%),优于 Sonnet 4.5(67%)
真实任务
  • 中文写作 :功能写作胜率 62.7% vs Gemini 34.1%;创意写作质量胜率 77.5%
  • 搜索 :Agentic Search 显著优于 RAG,成本略高
  • 白领任务(White-Collar Task)(分析/生成/编辑):V4-Pro-Max vs Opus-4.6-Max,non-loss rate 63%,任务完成度和内容质量领先
    • 理解:non-loss rate 是胜率+平收率,即模型不输给对手的比例

局限与未来方向

  • 架构复杂度高 :保留了较多验证过的技巧,未来希望简化
  • 训练稳定性机制 :Anticipatory Routing 和 SwiGLU Clamping 虽有效,但原理尚不清晰
  • 未来计划 :
    • 更稀疏的嵌入模块
    • 更低延迟的长上下文部署
    • 多模态能力
    • 更好的数据合成策略
    • 更深入的长时Agent任务研究

Post-Training(原文详解)

Post-Training Pipeline

  • 训练流程很大程度上与 DeepSeek-V3.2 相似,仅做了一个关键的范式替换:
    • 混合 RL 阶段完全被 On-Policy Distillation (OPD) 取代
Specialist Training
  • 调整 DeepSeek-V3.2 的训练流程开发 领域专家
    • 每个模型都通过初始微调阶段和后续由领域特定 prompts 和 reward 信号引导的 RL 进行顺序优化
    • 在 RL 阶段,实现了 Group Relative Policy Optimization (GRPO) 算法,保持与先前研究密切相关的超参数 (2024; 2025)
Reasoning Efforts
  • 众所周知:模型在推理任务上的表现从根本上受限于所投入的计算 Effort
  • 本文作者在不同的 RL 配置下训练了不同的专家模型,以促进针对不同推理能力优化的模型的开发
  • 如表 2 所示:
    • DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 都支持三种特定的推理 Effort 模式
    • 对于每种模式,在 RL 训练期间应用不同的长度惩罚和上下文窗口,使得不同模式在推理时输出 Token 长度不同
    • 利用由 <think> 和 </think> Token 分隔的专用响应格式(整合不同的推理 Effort 模式)
  • 对于 “Think Max” 模式,在系统提示的开头添加一个特定的指令来引导模型的推理过程,如表 3 所示
  • Reasoning Efforts 理解:
    • Non-think :</think> summary
      • 即输入 [Query]</think> ,然后让模型续写
    • Think High :<think> thinking tokens </think> summary
      • 即输入 [Query]<think> ,然后让模型续写,模型会自动完成 Thinking 过程
    • Think Max :[special system prompt] + <think> thinking tokens </think> summary
      • 即输入 [special system prompt][Query]<think> ,然后让模型续写,模型会自动完成 Thinking 过程
  • Table 3 | Instruction injected into the system prompt for the “Think Max” mode
    1
    2
    3
    Reasoning Effort: Absolute maximum with no shortcuts permitted.
    You MUST be very thorough in your thinking and comprehensively decompose the problem to resolve the root cause, rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.
    Explicitly write out your entire deliberation process, documenting every intermediate step, considered alternative, and rejected hypothesis to ensure absolutely no assumption is left unchecked.
Generative Reward Model
  • 传统:RM 跟任务可验证性有关
    • 易于验证的任务:可以使用简单的基于规则的验证器或测试用例进行有效优化
    • 难以验证的任务:传统上依赖于 RLHF(需要大量的人工标注来训练一个标量奖励模型)
  • 在 DeepSeek-V4 系列的后训练阶段,
    • 完全摒弃了这些传统的基于标量的奖励模型
    • 为了解决难以验证的任务,使用了基于评分细则 (rubric-guided) 的 RL 数据 ,并采用生成式奖励模型 (GRM) 来评估策略轨迹
  • 关键:直接将 RL 优化应用于 GRM 本身
    • 在这个范式中,Actor 网络本身作为 GRM ,使得模型的评估(判断)能力与其标准生成能力能够联合优化
    • 通过统一这些角色,模型的内在推理能力被固有地融合到其评估过程中,从而产生高度鲁棒的评分
    • 这种方法仅需最少量的多样化人工标注就能实现卓越的性能,因为模型利用其自身的逻辑来泛化复杂的任务
  • 理解:训练 RL 的流程是:
    • 1)提前准备好 Query 和 Rubrics
    • 2)训练时使用 Actor 作为 Verifier(GRM)
Tool-call Schema and Special Token
  • 与之前的版本一致,使用专用的 <think></think> 标签来划分推理路径
  • 在 DeepSeek-V4 系列中,引入一种新的工具调用模式
    • 该模式使用一个特殊的 “|DSML|” Token ,并采用基于 XML 的格式进行工具调用 ,如表 4 所示
  • 实验表明,XML 格式有效缓解了转义失败并减少了工具调用错误,为模型-工具交互提供了更鲁棒的接口
  • Table 4 | Tool-call schema for DeepSeek-V4 series
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    ## Tools
    You have access to a set of tools to help answer the user’s question. You can invoke tools by writing a "<|DSML|tool_calls>" block like the following:
    <|DSML|tool_calls>
    <|DSML|invoke name="$TOOL_NAME">
    <|DSML|parameter name="$PARAMETER_NAME" string="true|false">$PARAMETER_VALUE</|DSML|parameter>
    ...
    </|DSML|invoke>
    <|DSML|invoke name="$TOOL_NAME2">
    ...
    </|DSML|invoke>
    </|DSML|tool_calls>
    String parameters should be specified as is and set ‘string="true"‘. For all other types (numbers, booleans, arrays, objects), pass the value in JSON format and set ‘string="false"‘.
    If thinking_mode is enabled (triggered by <think>), you MUST output your complete reasoning inside <think>...</think> BEFORE any tool calls or final response.
    Otherwise, output directly after </think> with tool calls or final response.
    ### Available Tool Schemas
    {Tool Definition...}
    You MUST strictly follow the above defined tool name and parameter schemas to invoke tool calls.
Interleaved Thinking
  • DeepSeek-V3.2 (2025) 引入了一种上下文管理策略,该策略在工具结果轮次之间保留推理轨迹,但在新的用户消息到达时丢弃它们
    • 这种方式有效,但这在复杂的 Agentic 工作流中仍然导致了不必要的 Token 浪费
      • 每个新的用户轮次都会清除所有累积的推理内容,迫使模型从头重建其问题解决状态
  • 利用 DeepSeek-V4 系列扩展的 1M Token 上下文窗口,本文进一步完善了这一机制,以最大化交错式思维在 Agentic 环境中的有效性:
    • Tool-Calling
      • 如图 7(a) 所示,所有推理内容在整个对话过程中被完全保留
      • 与 DeepSeek-V3.2 在每个新用户轮次丢弃思维轨迹不同,DeepSeek-V4 系列保留了跨所有轮次的完整推理历史,包括跨用户消息边界
      • 这允许模型在长时程 Agent 任务上维持连贯、累积的思维链
    • General Conversational,通用对话场景
      • 如图 7(b) 所示,原始策略得以保留:
        • 当新的用户消息到达时,先前轮次的推理内容被丢弃,从而使上下文在持久推理轨迹益处有限的环境中保持简洁
  • 与 DeepSeek-V3.2 一样,通过用户消息模拟工具交互的 Agent 框架(例如 Terminus)可能不会触发工具调用上下文路径,因此可能无法从增强的推理持久性中受益
    • 继续推荐在此类架构中使用非思维 (non-think) 模型
Quick Instruction,快速指令
  • 在聊天场景中,许多 辅助任务(例如,确定是否触发网络搜索、意图识别等)必须在生成响应之前执行
    • 传统上,这些任务由一个单独的小模型处理
    • 由于无法重用现有的 KV 缓存,需要冗余的预过滤
      • 理解:如何理解这里的无法重用现有的 KV 缓存?
  • 为了克服这个限制,本文作者引入了快速指令 (Quick Instruction)
    • 将一组专用的特殊 Token 直接附加到输入序列中,每个 Token 对应一个特定的辅助任务
    • 通过直接重用已计算好的 KV 缓存,这种机制完全避免了冗余的预过滤,并允许某些任务(例如,生成搜索查询、确定权威性和领域)并行执行
    • 这种方法显著减少了用户感知的到首个 Token 的时间 (time-to-first-token, TTFT),并消除了维护和迭代额外小模型的工程开销
  • 表 5 总结了支持的快速指令 Token
On-Policy Distillation (OPD)
  • 在通过专门的微调和强化学习训练了多个领域特定的专家之后,作者采用多教师 On-Policy Distillation (OPD) 作为将专家能力合并到最终模型的主要技术
  • OPD 已经成为一种有效的后训练范式
    • 用于将领域专家的知识和能力高效地转移到一个统一的模型中
    • 注:OPD 通过让学生模型在其自身生成的轨迹上学习教师模型的输出分布来实现的
  • 形式上,给定一组 \(N\) 个专家模型 \(\{\pi_{E_1}, \pi_{E_2}, \ldots, \pi_{E_N}\}\),OPD 目标函数定义为:
    $$
    \mathcal{L}_{\text{OPD} }(\theta) = \sum_{i=1}^{N} w_i \cdot D_{\text{KL} }\left( \pi_{\theta} |\ \pi_{E_i} \right).
    \tag{29}
    $$
    • \(w_i\) 表示为每个专家分配的权重,通常由专家的相对重要性决定
    • 问题:不应该是不同领域的数据使用不同的专家吗? MiMo-V2-Flash 技术报告中提到的就是指定领域的数据上使用该领域的教师模型
      • 理解:这里可以理解为更数学的表达,当 \(w_i\) 是取值为 \(\{0,1\}\) 时,即与 MiMo 的设计一致
  • 计算反向 KL 散度 \(D_{\text{KL} }(\pi_{\theta} |\ \pi_{E_i})\) 需要从学生模型 \(\pi_{\theta}\) 中采样训练轨迹以保持 On-Policy 学习
    • 其内在逻辑是确保统一策略 \(\pi_{\theta}\) 能够根据当前任务上下文选择性地从相关专家那里学习
    • 例如:为数学推理任务与数学专家对齐,为编程任务与编码专家对齐
  • 通过这种机制,来自物理上不同的专家权重的知识通过 logits 级别的对齐被整合到一个统一的参数空间中,实际上规避了传统权重合并或混合 RL 技术中经常遇到的性能下降
    • 注:这里没有强调,但本质就是 MOPD 方法
  • 在此阶段,使用覆盖多个领域的十多个教师模型来蒸馏一个学生模型
  • 本文的特别选择:
    • 之前工作通常将全词汇表 KL 损失简化为每个 Token 位置上的 Token 级 KL 估计,并通过在策略损失计算中将 下面的比例作为每个 Token 的优势估计来重用 RL 框架:
      $$ \text{sg}\left(\log \frac{\pi_{E_i}(y_t | x, y_{ < t})}{\pi_{\theta}(y_t | x, y_{ < t})}\right) $$
      • 其中 \(\text{sg}\) 表示停止梯度操作
    • 虽然这种方法资源高效,但梯度估计存在高方差,经常引起训练不稳定
    • 本文在 OPD 中采用全词汇表 logit 蒸馏 ,保留完整的 logit 分布来计算反向 KL 损失能产生更稳定的梯度估计,并确保教师知识的忠实蒸馏
  • 注:下一小节中,将描述使大规模全词汇表 OPD 成为可能的工程努力

RL and OPD Infrastructures

  • 后训练基础设施建立在为 DeepSeek-V3.2 开发的可扩展框架之上
  • 集成了原论文第 3.5 节中描述的相同分布式训练栈,以及之前介绍的用于高效自回归采样的 Rollout 引擎
  • 本文在次基础上引入了以下主要的增强功能
    • 注:这些设计能够高效执行涉及十个以上不同教师模型的超长上下文 RL 和 OPD 合并任务,从而显著加快模型发布的迭代周期
FP4 Quantization Integration,FP4 量化集成
  • 应用 FP4 (MXFP4) 量化来加速 Rollout 和所有仅推理的前向传播,包括教师模型和参考模型的,从而减少内存流量和采样延迟
  • 如原论文第 3.4 节所述
    • 在 Rollout 和推理阶段直接使用原生的 FP4 权重
    • 对于训练步骤,通过无损的 FP4 到 FP8 反量化步骤来模拟 FP4 量化,允许无缝重用现有的 FP8 混合精度框架和 FP32 主权重,并且不需要修改反向传播流程
Efficient Teacher Scheduling for Full-Vocabulary OPD,面向全词汇表 OPD 的高效教师调度
  • 本文框架支持全词汇表 OPD,可以使用数量不受限制的教师模型,每个教师模型可能包含数万亿参数
  • 所有教师权重都被卸载到集中式分布式存储中,并在教师前向传播期间按需加载,同时采用类似 ZeRO 的参数分片来减轻 I/O 和 DRAM 压力
  • 即使将 logits 卸载到磁盘(spooled to disk),在词汇量大小 \(|V| > 100k\) 的所有教师中直接实现 logits 也是不可行的
    • 本文通过在前向传播期间仅将最后一层的教师隐藏状态缓存在集中式缓冲区中 来解决这个问题
      • 在训练时,这些缓存的状态被检索,并通过相应的预测头模块传递,以即时重建完整的 logits
    • 这种设计产生了可忽略的重计算开销,同时完全规避了与显式 logits 实现相关的内存负担
    • 为了减轻教师预测头的 GPU 内存占用,在数据分发期间按教师索引对训练样本进行排序
    • 这种安排确保每个不同的教师头在每个 mini-batch 中只被加载一次,并且在任何给定时间,设备内存中最多驻留一个教师头
    • 所有参数和隐藏状态的加载/卸载操作都在后台异步进行,不会阻塞关键路径上的计算
  • 教师和学生 logits 之间的精确 KL 散度使用专门的 TileLang 内核计算
    • 加速计算并减少了动态内存分配
Preemptible and Fault-Tolerant Rollout Service,可抢占和容错的 Rollout 服务
  • 为最大化 GPU 资源利用率,同时为高优先级任务实现快速的硬件配置,GPU 集群采用了一个集群范围的可抢占任务调度器,其中任何正在运行的任务都可能随时被抢占
  • 硬件故障在大规模 GPU 集群中普遍存在,所以为 RL/OPD Rollout 实现了一个可抢占且容错的 LLM 生成服务
  • 具体做法:
    • 为每个生成请求实现了一个 Token 粒度的预写日志 (token-granular Write-Ahead Log,WAL)
      • 每当为一个请求生成一个新 Token 时,立即将其附加到该请求的 WAL 中
    • 在抢占期间,暂停推理引擎并保存未完成请求的 KV 缓存
    • 恢复后,使用持久化的 WAL 和保存的 KV 缓存继续解码
    • 即使发生致命的硬件错误,也可以使用 WAL 中持久化的 Token 重新运行预填充阶段来重建 KV 缓存
  • 特别说明:
    • 从头开始重新生成未完成的请求在数学上是不正确的,因为这引入了长度偏差
      • 因为较短的响应更有可能在中断中幸存下来,所以每当发生中断时从头开始重新生成 这种做法会使模型更倾向于产生更短的序列
      • 理解:这里应该是指每次中断后都对已经完整生成的序列进行训练这种方式本身是有长度偏好的
    • 如果推理栈是批次不变 (batch-invariant) 和确定性的,这个正确性问题也可以通过使用采样器中伪随机数生成器的一致种子进行重新生成来解决
      • 问题:这里所说的方法是确保训练使用 的样本是随机挑选的 ,而不是有长度偏好的?【重新随机采样能去除中断导致的长度偏好】
      • 但这种方法仍然会产生重新运行解码阶段的额外成本,使其效率远低于本文 Token 粒度 WAL 方法
Scaling RL Framework for Million-Token Context
  • 本文引入了针对百万 Token 序列上高效 RL 和 OPD 的定向优化
  • 在 Rollout 阶段,采用了第 5.2.3 节中详述的可抢占和容错 Rollout 服务
  • 对于推理和训练阶段,将 Rollout 数据格式分解为 lightweight 元数据和 heavy Per-Token 字段
    • 在数据分发期间,可以加载整个 Rollout 数据的元数据以执行全局 shuffle 和打包布局计算
    • heavy Per-Token 字段通过共享内存数据加载器加载,以消除节点内的数据冗余,并在 mini-batch 粒度上消费后立即释放,从而大大减少了 CPU 和 GPU 的内存压力
    • 设备上 mini-batch 的数量根据工作负载动态确定,允许在计算吞吐量和 I/O 重叠之间进行有效的权衡
Sandbox Infrastructure for Agentic AI, 面向 Agentic AI 的沙箱基础设施
  • 为满足后训练和评估期间 Agentic AI 的多样化执行需求,本文作者构建了一个生产级沙箱平台,DeepSeek Elastic Compute (DSec)
  • DSec 由三个 Rust 组件组成
    • API 网关 (Apiserver)
    • Per-host Agent (Edge)
    • 集群监视器 (Watcher)
  • 以上三个组件通过自定义 RPC 协议互连,并在 3FS 分布式文件系统 (2025) 之上水平扩展
    • 在生产环境中,单个 DSec 集群管理着数十万个并发的沙箱实例
  • DSec 的设计基于四个观察结果:
    • (1) Agentic 工作负载高度异构,范围从 lightweight 函数调用到具有不同操作系统和安全要求的完整软件工程流程
    • (2) 环境镜像数量众多且体积庞大,但必须快速加载并支持迭代定制
    • (3) 高密度部署要求高效的 CPU 和内存利用率
    • (4) 沙箱生命周期必须与 GPU 训练计划协调,包括抢占和基于检查点的恢复。基于这些观察,作者逐一详细阐述 DSec 的四个核心设计
Four Execution Substrates Behind One Unified Interface,一个统一接口背后的四个执行底层
  • DSec 公开了一个统一的 Python SDK (libdsec),它抽象了四个执行底层
    • Function Call :将无状态调用分派到预热的容器池中,消除了冷启动开销
    • Container :完全兼容 Docker,并利用 EROFS (2019) 按需加载以实现高效的镜像组装
    • microVM :构建在 Firecracker (2020) 之上,为安全敏感、高密度的部署增加了 VM 级别的隔离
    • fullVM :构建在 QEMU (2005) 之上,支持任意客户操作系统
    • 这四个底层共享一个通用的 API 接口——命令执行、文件传输和 TTY 访问(在它们之间切换只需要更改一个参数)
Fast Image Loading via Layered Storage,通过分层存储实现快速镜像加载
  • DSec 通过分层按需加载来协调快速启动与庞大且不断增长的镜像库
    • 对于容器,基础镜像和文件系统提交作为 3FS 支持的只读 EROFS 层存储,直接挂载到 overlay lowerdirs 中
      • 在挂载时将文件元数据保留在本地磁盘上
      • 数据块在请求时从 3FS 获取
    • 对于 microVM,DSec 使用 overlaydb (2020) 磁盘格式:
      • 只读基础层位于 3FS 上以跨实例共享,而写入则转到本地的写时复制层
    • 这种快照是可链接的,有助于高效的版本控制和毫秒级的恢复
Density Optimizations Under Massive Concurrency,大规模并发下的密度优化
  • 为容纳每个集群数十万个沙箱,DSec 解决了两个资源瓶颈
    • 第一:DSec 减轻了虚拟化环境中重复的页面缓存占用,并应用内存回收以实现安全的超额订阅
    • 第二:减轻了容器运行时中的自旋锁争用,从而降低了每个沙箱的 CPU 开销,显著提高了每主机的打包密度
Trajectory Logging and Preemption-Safe Resumption,轨迹记录和可安全抢占的恢复
  • DSec 为每个沙箱维护一个全局有序的轨迹日志,持久记录每个命令调用及其结果
  • 该轨迹有三个目的:
    • (1) 客户端快进 (client fast-forwarding)
      • 当一个训练任务被抢占时,沙箱资源仍然保留
      • 恢复后,DSec 为先前完成的命令重放缓存的结果 ,加速任务恢复,同时防止因重新执行非幂等操作而导致的错误
    • (2) 细粒度的来源追踪 (fine-grained provenance)
      • 每个状态变化的来源和相应结果都是可追溯的
    • (3) 确定性重放 (deterministic replay)
      • 任何历史会话都可以从其轨迹忠实地重现

Standard Benchmark Evaluation

Evaluation Setup
Knowledge and Reasoning,知识和推理
  • 知识和推理数据集包括 MMLU-Pro (2024b)、GPQA (2023)、Human Last Exam (2025)、Simple-QA Verified (2025)、Chinese-SimpleQA (2024)、LiveCodeBench-v6 (2024)、CodeForces (内部基准)、HMMT 2026 Feb、Apex (2025)、Apex Shortlist (2025)、IMOAnswerBench (2025) 和 PutnamBench (2024)
  • 对于代码
    • 本文在 LiveCodeBench-v6 和一个内部的 Codeforces 基准上评估 DeepSeek-V4 系列
    • 对于 Codeforces
      • 收集了 14 场 Codeforces Division 1 比赛,包含 114 个问题(2025 年 5 月 - 2025 年 11 月)
      • Elo 评分计算如下
        • 对于每场比赛,为每个问题生成 32 个候选解决方案
        • 对于每个问题,独立地无放回地采样 10 个解决方案,并将它们随机排序以形成提交序列
          • 每个提交都根据由领域专家构建的测试套件进行评判
        • 一个已解决问题的得分遵循 OpenAI (2025) 的惩罚方案:
          • 模型获得解决了同一问题且先前失败尝试次数相同的人类参与者的中位数得分
            • 这为每个采样的提交序列产生一个比赛总分,然后通过标准的 Codeforces 评分系统将其转换为比赛排名,随后转换为估计的评分
        • 比赛级别的预期评分定义为在所有可能的 10 个提交的随机选择和排序上,该估计评分的期望值
        • 模型的总体评分是所有 14 场比赛中这些上下文级别预期评分的平均值
  • 对于推理和知识任务
    • 温度设置为 1.0
    • 上下文窗口分别设置为 8K、128K 和 384K Token ,对应 Non-think、 High 和 Max 模式
  • 对于数学任务(例如 HMMT、IMOAnswerBench、Apex 和 HLE)
    • 使用以下模板进行评估:
      • “{question}\nPlease reason step by step, and put your final answer within \boxed{}. ”
    • 对于 DeepSeek-V4-Pro-Max 在数学任务上,使用以下模板来引出更深入的推理:
      • “Solve the following problem. The problem may ask you to prove a statement, or ask for an answer. If finding an answer is required, you should come up with the answer, and your final solution should also be a rigorous proof of that answer being valid.\n\n{question}”
  • 对于形式化数学任务
    • 在 Lean v4.28.0-rcl (2021) 上的 Agentic 环境中进行评估,可以访问 Lean 编译器和语义策略搜索引擎,最多运行 500 次工具调用,并采用最大推理 Effort
    • 本文评估了一个计算量更大的流程,其中首先生成候选的自然语言解决方案,并通过自验证 (2025) 进行过滤,然后将保留的解决方案作为指导提供给形式化 Agent,以证明相应的 Lean 陈述
      • 该设计使用非形式化推理来改进探索,同时通过形式化验证保持严格的正确性
      • 只有当严格的验证器 Comparator 在两种设置下都接受时,提交才被计为正确
  • 本文为 K2.6 和 GLM-5.1 留了一些空白,因为它们的 API 过于繁忙,无法返回对本文查询的响应
    • 问题:这些模型开源了,可以自己部署了测试一下吧
1M-Token Context
  • DeepSeek-V4 系列支持 1M Token 上下文,本文通过选择 OpenAI MRCR (2024b) 和 CorpusQA (2026) 作为基准来评估长上下文场景下的模型性能
  • 本文在这些任务上重新评估了 Claude Opus 4.6 和 Gemini 3.1 Pro,目标是标准化所有模型的配置
  • 本文没有评估 GPT-5.4,因为其 API 未能对本文的大部分查询做出响应
Agent
  • Agent 数据集包括 Terminal Bench 2.0 (2026)、SWE-Verified (2024e)、SWE Multilingual (2025)、SWE-Pro (2025)、BrowseComp (2025)、MCPAtlas 的公共评估集 (2026)、GDPval-AA (AA, 2025; 2025) 和 Tool-Decathlon (2025)
  • 对于代码 Agent 任务 (SWE-Verified, Terminal-Bench, SWE-Pro, SWE Multilingual)
    • 使用内部开发的评估框架评估 DeepSeek-V4 系列
      • 该框架提供了一组最小工具(一个 bash 工具和一个文件编辑工具)
      • 最大交互步数设置为 500,最大上下文长度设置为 512K Token
    • 关于 Terminal-Bench 2.0,作者承认 GLM-5.1 指出的环境相关问题
      • 注:这个是在 GLM-5 的 TR 里面提到的(不是 GLM-5.1),Terminal-Bench 2.0 版本上有些模糊指令的修复
      • 尽管如此,为了保持一致性,文章还是报告了在原始 Terminal-Bench 2.0 数据集上的性能
      • 在 Terminal-Bench 2.0 Verified 子集上,DeepSeek-V4-Pro 的得分约为 72.0
  • 对于搜索 Agent 任务 (BrowseComp, HLE w/ tool)
    • 也使用带有网络搜索和 Python 工具的内部测试工具,并将最大交互步数设置为 500,最大上下文长度设置为 512K Token
    • 对于 BrowseComp,本文使用与 DeepSeek-V3.2 (2025) 相同的丢弃所有上下文管理策略
Evaluation Results
  • 表 6 展示了 DeepSeek-V4-Pro-Max 与其他闭源/开源模型的比较
  • 表 7 展示了 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 的不同模式
Knowledge
  • 在通用世界知识的评估中,DeepSeek-V4-Pro-Max(DeepSeek-V4-Pro 的最大推理 Effort 模式)在开源大语言模型中建立了新的最高水平
    • 如 SimpleQA-Verified 所示,DeepSeek-V4-Pro-Max 显著优于所有现有的开源基线,高出 20 个绝对百分点,但仍落后于 Gemini-3.1-Pro
  • 在教育知识和推理领域,DeepSeek-V4-Pro-Max 在 MMLU-Pro、GPQA 和 HLE 基准上略微优于 Kimi 和 GLM,落后于领先的专有模型
  • 在基于知识的任务上,DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 之间存在显著的性能差距
    • 这是意料之中的,因为更大的参数数量有助于在预训练期间保留更多知识
    • 当分配更高的推理 Effort 时,两个模型在知识基准上都表现出改进的结果
1M-Token Context
  • DeepSeek-V4-Pro 在 MRCR 任务上优于 Gemini-3.1-Pro,该任务衡量上下文检索能力,但仍落后于 Claude Opus 4.6
  • 如图 9 所示,在 128K 上下文窗口内,检索性能保持高度稳定
  • 虽然在 128K Token 之后性能下降变得可见,但该模型在 1M Token 处的检索能力与专有和开源同行相比仍然非常强大
  • 与 MRCR 不同,CorpusQA 更类似于真实场景
    • 评估结果表明 DeepSeek-V4-Pro 优于 Gemini-3.1-Pro
Reasoning Effort
  • 如表 7 所示,Max 模式(在 RL 中采用更长的上下文和减少的长度惩罚)在最具挑战性的任务上优于 High 模式
  • 图 10 展示了 DeepSeek-V4-Pro、DeepSeek-V4-Flash 和 DeepSeek-V3.2 在代表性推理和 Agentic 任务上的性能和成本比较
    • 通过扩展测试时计算,DeepSeek-V4 系列相比其前身取得了显著的改进
    • 在像 HLE 这样的推理任务上,DeepSeek-V4-Pro 显示出比 DeepSeek-V3.2 更高的 Token 效率

Performance on Real-World Tasks

  • 标准化基准测试通常难以捕捉多样化真实世界任务的复杂性,从而在测试结果和实际用户体验之间产生差距
  • 为了弥合这一差距,本文作者特别开发了专有的内部指标,优先考虑真实世界的使用模式而非传统基准
  • 这种方法确保本文的优化转化为实实在在的好处
  • 本文的评估框架特别针对 DeepSeek API 和 Chatbot 的主要用例,使模型性能与实际需求保持一致
Chinese Writing(中文写作)
  • DeepSeek 的主要用例之一是中文写作,对功能性写作和创意写作进行了严格的评估
  • 表 12 展示了 DeepSeek-V4-Pro 和 Gemini-3.1-Pro 在功能性写作任务上的 Pairwise 比较
    • 这些任务包括日常写作查询,其中 prompts 通常简洁明了
    • Gemini-3.1-Pro 被选为基线是因为它在评估中是中文写作方面表现最佳的外部模型
    • 结果表明,DeepSeek-V4-Pro 以 \(62.7%\) 对比 \(34.1%\) 的总体胜率优于基线
    • 这主要是因为 Gemini 在中文写作场景中偶尔会允许其固有的风格偏好覆盖用户的明确要求
  • 表 13 展示了创意写作比较,该比较沿着两个轴进行评估:
    • 指令遵循和写作质量
    • 与 Gemini-3.1-Pro 相比,DeepSeek-V4-Pro 在指令遵循方面达到了 \(60.0%\) 的胜率,在写作质量方面达到了 \(77.5%\) 的胜率,表明指令遵循方面略有改进,而写作质量方面有显著提升
  • DeepSeek-V4-Pro 在汇总的用户案例分析中产生了更优的结果,但仅限于最具挑战性的 prompts(特别是那些涉及高复杂性约束或多轮场景的 prompts)的评估显示,Claude Opus 4.5 相对于 DeepSeek-V4-Pro 保持了性能优势
  • 如表 14 所示,Claude Opus 4.5 实现了 \(52.0%\) 的胜率,而 DeepSeek-V4-Pro 为 \(45.9%\)
Search
  • 搜索增强的问答是 DeepSeek 聊天机器人的核心能力
  • 在 DeepSeek 网页和应用上,“non-think” 模式采用 RAG,而“thinking” 模式利用 Agentic 搜索
    • 理解:所以平时我们没有打开 Thinking 模式时,搜索问答都是 RAG 模式的吗?
Retrieval Augmented Search(RAG)
  • 进行了一项 Pairwise 评估,比较 DeepSeek-V4-Pro 和 DeepSeek-V3.2 在客观和主观问答类别上的表现
  • 如表 11 所示,DeepSeek-V4-Pro 以显著的幅度优于 DeepSeek-V3.2,在两个类别上都显示出一致的优势
    • 最显著的提升出现在单值搜索和规划与策略任务中,表明 DeepSeek-V4-Pro 擅长定位精确的事实答案并从检索到的上下文中合成结构化计划
    • 但 DeepSeek-V3.2 在比较和推荐任务上仍然具有相对竞争力,表明 DeepSeek-V4-Pro 在需要对搜索结果进行平衡、多角度推理的场景中仍有改进空间
Agentic Search
  • 与标准 RAG 不同,Agentic 搜索使模型能够针对每个查询迭代调用搜索和获取工具,从而显著提高整体搜索性能
  • 对于 DeepSeek-Chat 中的思维模式,本文优化了 Agentic 搜索功能,以在预定义的“思维预算”内最大化响应准确性
  • 如表 9 所示,Agentic 搜索在复杂任务上始终优于 RAG
    • 而且其成本仍然非常高效,Agentic 搜索仅比标准 RAG 略贵(见表 10)
White-Collar Task,白领任务
  • 为了严格评估模型在复杂企业生产力场景中的效用,本文作者构建了一套包含 30 个高级中文专业任务的综合套件
    • 这些工作流程有意包含了高层次的认知需求,包括深入的信息分析、全面的文档生成和细致的文档编辑,涵盖了 13 个关键行业(例如,金融、教育、法律和技术)的多样化领域
    • 评估在一个配备了基本工具(包括 Bash 和网络搜索)的内部 Agent 工具架中进行
  • 鉴于这些任务的开放性,自动化指标通常无法捕捉高质量响应的细微差别
    • 本文进行了人工评估,比较 DeepSeek-V4-Pro-Max 和 Opus-4.6-Max 的性能
    • 标注者盲目评估了模型输出的四个维度:
      • 任务完成度 (Task Completion) :核心问题是否成功解决
      • 指令遵循 (Instruction Following) :对特定约束和指令的遵守情况
      • 内容质量 (Content Quality) :事实准确性、逻辑连贯性和专业语气
      • 格式美观度 (Formatting Aesthetics) :布局可读性和视觉呈现
  • 如图 11 所示
    • DeepSeek-V4-Pro-Max 在多样化的中文白领任务上优于 Opus-4.6-Max,实现了 \(63%\) 的不败率,并在分析、生成和编辑任务中展现出一致的优势
  • 图 12 中显示的详细维度分数突出了模型在任务完成度和内容质量方面的主要优势
    • DeepSeek-V4-Pro-Max 通过经常提供补充见解和自我验证步骤,主动预测用户的隐性意图
    • DeepSeek-V4-Pro-Max 还在长文本生成方面表现出色,提供深入、连贯的叙述,而不是依赖 Opus-4.6-Max 经常产生的过于简单的要点
      • 且该模型严格遵守正式的专业惯例,例如标准化的中文层次编号
    • 弱势项:
      • 在指令遵循方面,DeepSeek-V4-Pro-Max 偶尔会忽略特定的格式约束,略微落后于 Opus
      • DeepSeek-V4-Pro-Max 将大量文本输入压缩为简洁摘要的能力较差
  • DeepSeek-V4-Pro-Max 格式美观度在演示幻灯片的整体视觉设计方面仍有很大的改进空间
    • 图 13、14 和 15 展示了几个测试用例(注:由于某些输出的长度过长,仅显示部分页面)
Code Agent
  • For 代码 Agent 能力,本文从真实的内部研发工作负载中整理了任务
  • 从 \(50+\) 名内部工程师那里收集了 \(\sim 200\) 个具有挑战性的任务
    • 涵盖功能开发、错误修复、重构和诊断,涉及多种技术栈,包括 PyTorch、CUDA、Rust 和 C++
      • 问题:DeepSeek 内部的工作主要是 Python,Rust 和 C++ 等
    • 每个任务都附有其原始仓库、相应的执行环境以及人工标注的评分细则
    • 经过严格的质量过滤后,保留了 30 个任务作为评估集
  • 如表 8 所示,DeepSeek-V4-Pro 显著优于 Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平
  • 在一项针对 DeepSeek 内部(在日常工作中使用 DeepSeek-V4-Pro 进行 Agentic 编码的经验)开发者和研究人员 \((N = 85)\) 的调查中
    • 询问与其他前沿模型相比,DeepSeek-V4-Pro 是否已准备好作为他们的默认和主要编码模型:
      • \(52%\) 的人回答“是”,\(39%\) 的人“倾向于是”,只有不到 \(9%\) 的人回答“否”
    • 受访者发现 DeepSeek-V4-Pro 在大多数任务上都能提供令人满意的结果
      • 但存在琐碎的错误、对模糊 prompts 的误解以及偶尔的过度思考

NLP——Reasoning2Agentic-Credit-Assignment

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Reasoning2Agentic-Credit-Assignment)From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models, 20260410-20240413, Independent Researcher
      • 注:作者是独作,且为独立研究者
    • 代码地址:github.com/xxzcc/Awesome-Credit-Assignment-in-LLM-RL
      • 注:该地址维护了一个精选论文列表

Paper Summary

  • 本文对 LLM 强化学习中的 Credit Assignment 进行了专门的综述,追溯了从 Reasoning RL 到 Agentic RL 的演变,并讨论了驱动方法论创新的根本挑战
  • 针对 LLM 的 RL 越来越依赖稀疏的、结果层面的奖励
    • 确定长轨迹中的哪些行为导致了该结果非常困难
    • 这个信用分配(Credit Assignment, CA)问题体现在两种情形中:
      • Reasoning RL(reasoning RL):信用必须分配到单个思维链生成(500-30K+ token)中的 token 和步骤上
      • Agentic RL(agentic RL):多轮环境交互引入了随机转移、部分可观测性以及 100+ 轮(100K-1M token)的时域
        • 使得 Episode 层面的信用越来越缺乏信息量
  • 本文调研了 47 种信用分配方法(41 种核心方法,6 种相邻使能方法),这些方法发表于 2024 年至 2026 年初
    • 作者按两个维度的分类法对它们进行了组织:
      • 分配粒度(token、segment、step、turn、multi-agent)
      • 方法论(Monte Carlo、时序差分、基于模型、博弈论、信息论)
    • 除了调研本身,作者还贡献了三个可复用的资源:
      • (1)一个结构化的、机器可读的论文清单,其中包含分类标签、基线族和证据等级
      • (2)一个针对未来 CA 论文的报告清单,该清单根据已审文献进行了验证,以识别系统性的方法论空白
      • (3)一个基准测试协议规范,包含任务族、元数据需求和受控分岔任务,并附带一个方法选择决策树
  • 从推理到 Agentic RL 的转变使得信用分配问题更加复杂并重塑了其格局:
    • 推理 CA 正围绕过程奖励模型(Process Reward Model, PRM)
    • 无 critic 的组比较方法趋于成熟,而 Agentic CA 则催生了真正的新方法
      • 事后反事实分析(hindsight counterfactual analysis)
      • 特权非对称 critic(privileged asymmetric critic)
      • Turn-level MDP 重构
    • 这些方法在 Reasoning RL 中没有直接先例
  • 五个关键要点(用 Evidence-level 注释:[SE] = 强经验性,[LS] = 有限但具有启发性,[AS] = 作者综合):
    • 1)Credit Assignment 是 LLM RL 的核心挑战 [SE]
      • 而且 Credit Assignment 的重要性随着从推理环境转向 Agentic 环境而增长
      • 从单次生成轨迹 ( \(\sim 1\text{K} - 30\text{K}\) 个 Token) 到多轮 Agent 交互 ( \(\sim 100\text{K} - 1\text{M}\) 个 Token) 的转变,将 Credit Assignment 从优化便利性转变为训练必要性
    • 2)在 Reasoning RL 中,Credit Assignment 正在成熟 [SE]
      • Token-level (VinePPO)、Segment-level (SPO, SCAR) 和 Step-level (PURE, HICRA, SPRO) 方法在转移是确定性的、轨迹是单次生成且结果可验证时提供了有效的解决方案
      • PRM 范式和无需 Critic 的组比较代表了鲁棒、可扩展的方法
    • 3)在 Agentic RL 中,Credit Assignment 尚处起步阶段 [LS]
      • 质量上更困难挑战需要新的方法
        • 挑战包括:随机环境、部分可观测性、异质 Action、超长时域和不可验证的中间状态
      • 事后/反事实方法 (HCAPO, C3, CCPO) 和分层架构 (ArCHer, CARL) 代表了社区的新兴回应,但仍有许多工作要做
    • 4)LLM-as-Critic 似乎是一个独特的范式 [LS]
      • 在经典 RL 中没有直接镜像
      • 使用 LLM 对中间状态进行语义评估的能力 (CAPO, SWEET-RL, LaRe, HCAPO, CriticSearch) 开辟了一个似乎是 LLM 时代特有的方法论轴心
      • 这种方法是否会被证明比传统的基于价值的方法更有效,仍然需要继续探索
    • 5)该领域正在加速发展 [AS——文献计量学观察]
      • 仅 2026 年 3 月一周内就出现了三篇关于反事实 Credit Assignment 的独立论文,本文的分类法包含了仅两年(2024–2026 年)内发表的 47 种方法(41 种核心 CA,6 种辅助使能技术)
      • 多 Agent Credit Assignment(现在作者的清单中有 6 篇专门论文)已从一个新兴领域发展成为一个活跃的研究前沿
  • 随着 LLM 从推理引擎演变为在真实环境中运行的自主 Agent
    • Credit Assignment 的问题从 “哪个推理步骤是正确的?” 转变为 “哪个 Action 以正确的方式改变了世界?”
  • 本 Survey 的核心论点
    • 作者认为,从 Reasoning RL 到 Agentic RL 的转变不仅仅是将现有方法扩展到更困难的任务
      • 这个转变实质性地重塑了 Credit Assignment 问题
    • 推理 CA 在一个相对温和的环境中运作(确定性转移、可验证步骤、较短的时域)
    • Agentic CA 在一个更具挑战性的环境中运作(随机环境、不可验证状态、\(100+\) 轮时域)
    • 这种质的转变正在产生真正的新方法:
      • 事后反事实分析、特权非对称 Critic、基于熵的关键 Action 识别以及 Turn-level MDP 重构
      • 作者预计 2026–2027 年该领域的活动将不断增加

Introduction and Discussion

  • LLM 强化学习的两波浪潮
    • 第一波浪潮:Reasoning RL
      • 展示了 RL 可以显著提升 LLM 解决数学问题、编写代码以及执行逻辑推理的能力(2025;2024)
      • 像 DeepSeek-R1 和 OpenAI 的 o1 这样的模型表明,使用结果层面的奖励(“最终答案是否正确?”)进行训练可以激发复杂的思维链推理
    • 第二波浪潮:Agentic RL
      • 此范式扩展到多轮交互式任务:浏览网页(2024a)、使用工具(2024)、编写和调试代码以及与其他 Agent 协作的 LLM Agent
      • 从推理到 Agentic(agency)的转变代表了 RL 问题复杂性的一次质的飞跃
    • 这两波浪潮的核心是一个共同的瓶颈:信用分配
    • 当唯一的反馈是一个稀疏的终端奖励(“问题解决”或“任务完成”)时,如何确定中间行为(哪些 token、哪些推理步骤、哪些工具调用)如何影响了结果呢
  • 信用分配问题是核心瓶颈,且信用分配问题的严重性随轨迹复杂度而增大:
    • 在 Reasoning RL 中,一条典型轨迹是单个 LLM 生成
      • 范围从 \(\sim 500\) 个 token(GSM8K 级别的问题)到硬性竞赛数学题的 10,000-30,000+ 个 token
        • 例如,在 AIME 2025 上,DeepSeek-R1 平均约 \(\sim 23\text{K}\) 个 token(2025)
      • 这种情况下,信用必须分配到 token 和推理段上
      • 像 GRPO(2024)和 REINFORCE 这样的 Episode-level 方法将相同的优势分配给每个 token(这种粗略的近似对于较短的轨迹有效)
    • 在 Agentic RL 中,轨迹跨越 10-100+ 轮,每轮都涉及一次 LLM 调用加上环境交互
      • 总 token 数通常达到 100K-500K+
        • 例如,在一个报告的 SWE-bench 设置中,Agent 平均约 \(64\) 轮,消耗约 \(131\text{K}\) 个 token(2025d)
      • Episode-level 信用变得越来越没有信息量:
        • 在第 3 轮的一个错误工具调用会与几十个正确的后续行为受到相同的惩罚
  • 在 2024 年至 2026 年初期间,47 篇论文(41 篇提出核心 CA 方法,6 篇贡献 CA 相关的使能方法)提出了各种方法,从 Monte Carlo Token-level 价值估计(2025)到基于 Shapley 值的奖励分解(2025;2026b),从过程奖励模型(2025;2025)到事后反事实分析(2026;2026;2026c)
    • 仅在 2026 年 3 月的一周内,出现了三篇关于反事实/事后信用分配的独立论文,这表明学术界对这个问题越来越感兴趣

Scope and inclusion criteria

  • 本文核心纳入的文章是主要贡献是为 LLM RL 提供新颖信用分配机制 的方法
    • 核心 CA 方法(core CA methods):提出跨行为分配信用的新算法(例如,VinePPO、HCAPO、CARL)
    • CA 相关使能方法(CA-adjacent enablers):解决相关问题(训练基础设施、奖励 shaping、Agent 框架),其中信用分配是几个组成部分之一(例如,Agent Lightning、RAGEN、PRS)
  • 以上这两类都会被回顾,但在本文比较表和论文计数中会标记其区别
    • 当引用“47 种方法”时,指的是这两类的并集
    • 参见后面第 1.1 节了解完整的搜索和筛选方案

Scope and narrative

  • 与将信用分配视为子主题(2025a)或关注经典 RL(2023)的现有工作不同,本文以信用分配为中心视角来审视 LLM RL
  • 本文的叙述脉络是:
    • 经典 RL(Classical RL)\(\rightarrow\) Reasoning RL(Reasoning RL)\(\rightarrow\) Agentic RL(Agentic RL)\(\rightarrow\) 未来:多 Agent 系统(Future: Multi-Agent Systems)
  • 在每个阶段,信用分配问题都变得更加困难,并且出现新的方法来应对挑战

Contributions

  • 本文做出了三种不同类型的贡献:
I. Survey with taxonomy,带分类法的调研
  • 1)专门分析:本文提供了一个专注于 LLM RL 中信用分配的专门调研,涵盖了推理和 Agentic 两种设置(第 3 节和第 5 节)
  • 2)二维分类法:本文按粒度 \(\times\) 方法论组织了 47 种方法,揭示了系统性的模式和空白(第 2.4 节)
  • 3)推理 \(\rightarrow\) Agentic 分析:本文明确刻画了为什么 Agentic RL 使信用分配在质量上更加困难,以及这需要哪些新技术(第 4 节)
  • 4)系统比较:本文在计算成本、辅助模型需求、适用场景和实证性能方面比较了各种方法,包括一个结构化的 GRPO 系列元比较(第 7 节)
II. Reusable structured artifact,可复用结构化 Artifact
  • 5)机器可读清单:提供了所有 47 种方法的结构化清单,包含分类标签、基线族、证据等级和主要基准测试(第 B 节),设计用于直接复
    • 所有结构化数据将在发表后以可下载的 CSV/JSON 格式发布(见第 9.5 节)
III. Standardization proposals,标准化 Proposal
  • 6)报告清单:为未来的 CA 论文提出了一个具体的报告清单,并根据现有文献进行了验证,以识别最常见的方法论空白(第 C 节)
  • 7)基准测试协议:概述了信用分配评估套件的最低规格,包括任务族、所需元数据和受控分岔任务(第 9 节)
  • 8)研究路线图:识别了前沿的开放问题——多 Agent 信用、超长时域、探索-信用 interplay——并将 Agentic RL 视为未来创新的可能驱动力(第 9 节)

Relation to existing work

  • A Survey of Temporal Credit Assignment in Deep Reinforcement Learning, 2023, University College London & Google DeepMind 对经典深度 RL 中的时域信用分配进行了极好的回顾(56 页,2023),但完全早于 LLM 时代
  • The Landscape of Agentic Reinforcement Learning for LLMs: A Survey, 20250902-20260417, Oxford & Shanghai AI Lab & NUS提供了针对 LLM 的 Agentic RL 的全面概述(100 页,500+ 篇论文),但仅将信用分配作为众多子主题之一处理,缺乏深度
  • 几篇关于 Reasoning RL 的工作(2025b)广泛涵盖了 RL 算法,但未聚焦于信用分配
  • 现有工作没有系统地审视跨推理和 Agentic LLM RL 的信用分配问题

Paper organization

  • 第 2 节介绍背景、问题表述和分类法
  • 第 3 节回顾 Reasoning RL 的信用分配方法
  • 第 4 节刻画为什么 Agentic RL 使信用分配问题复杂化并重塑其格局
  • 第 5 节回顾针对 Agentic 的信用分配方法
  • 第 6 节涵盖多 Agent 信用分配
  • 第 7 节提供系统比较
  • 第 8 节将信用定位置于更广泛的 Agentic RL 训练流程中
  • 第 9 节讨论开放问题和未来方向
  • 第 10 节总结

How to use this survey

  • 本文旨在以不同方式服务不同读者:
  • 为特定任务选择 CA 方法的从业者:从决策树(图 4)和推荐表(表 8)开始,然后阅读相关方法章节获取详细信息
  • 寻求开放问题的研究人员:阅读第 4 节了解核心挑战,然后阅读第 9 节了解研究路线图
    • 基准测试协议(第 9 节)和报告清单(第 C 节)可能有助于设计实验
  • 评审者和元研究人员:结构化清单(第 B 节)提供了所有 47 种方法的机器可读元数据
    • 清单验证(第 C 节)记录了当前的报告空白
  • LLM RL 信用分配的新入门者:阅读第 2 节了解基础知识,然后跟随第 3 节和第 5 节的叙述脉络

1.1 Literature Coverage, 文献覆盖范围

  • 本文涵盖了 2024 年 1 月至 2026 年 4 月期间发表的针对 LLM RL 的信用分配方法
  • 通过在 arXiv、Semantic Scholar 和 Google Scholar 上进行关键词搜索来识别论文,将信用分配术语(“credit assignment”,“process reward”,“reward decomposition”,“turn-level reward”)与 LLM/RL 术语相结合
  • 通过从基础工作(VinePPO、ArCHer、GRPO、DeepSeek-R1)向前/向后追溯引用,以及系统性地监控主要会议(NeurIPS、ICML、ICLR、ACL 2025)和 HuggingFace Daily Papers 来补充这些搜索
  • 本文纳入那些主要贡献是新颖信用分配机制的方法,并区分核心 CA 方法(41 篇论文)和 CA 相关使能方法(6 篇论文)
    • CA 相关使能方法中的信用分配是多个组成部分之一
    • 如果一篇论文的主要算法贡献是一种将稀疏奖励分配到行为上的新方法,则将其归类为“核心”
    • “相关”论文为 CA 生态系统(基础设施、奖励 shaping、Agent 框架)做出贡献,但没有提出新的分解算法
    • 边界情况(例如,跨越推理/Agentic 设置的方法)在第 9.4 节中讨论
  • 所有 47 篇论文的完整清单及其分类标签在第 B 节中提供
    • 包括详细搜索查询和筛选决策在内的补充材料将在发表后发布(第 9.5 节)
  • 作者承认,作为单人调研,本文的覆盖范围可能存在空白
    • 详见第 9.4 节的讨论

Background and Problem Formulation

From Reasoning RL to Agentic RL: A Brief History

  • RL 在 LLM 上的应用经历了几个不同的阶段,每个阶段都引入了新的信用分配挑战
阶段 1:RLHF(2022-2023)
  • InstructGPT(2022)提出了 RLHF(基于 PPO)
  • 这个场景中,轨迹是中等长度(\(\sim 500\) 个 token)的单轮响应,奖励模型为整个响应提供一个密集的标量信号
  • 此时的信用分配是隐式的:
    • PPO 学习到的价值函数提供 Token-level 基线,尽管这些基线在高维 LLM 行为空间中的质量仍有争议
阶段 2:Reasoning RL(2023-2025)
  • 一个突破:使用可验证的结果奖励(没有任何奖励模型)通过 RL 训练 LLM 可以激发复杂的推理行为
  • DeepSeek-R1(2025)证明,在数学问题上使用带有二元正确性奖励的 GRPO 可以产生能够进行扩展思维链推理的模型
    • OpenAI 的 o1 和 o3 模型展示了类似的能力
  • 这个场景下,轨迹是单次生成,范围从 \(\sim 500\) 个 token(简单数学)到 30,000+ 个 token(困难竞赛题;在 AIME 上,DeepSeek-R1 平均约 \(\sim 23\text{K}\) 个 token(2025))
    • 奖励纯粹是终端奖励(正确或错误)
  • 此时信用分配是:
    • 单个结果奖励应如何分配到数千个推理 token 上?
    • 这个问题催生了第一波针对 LLM 的 CA 方法,包括过程奖励模型(2024;2024)、 Token-level 价值估计(2025)和步骤级优势计算(2025)
  • 图 1:用于 LLM 的 RL 的演化及相应的信用分配挑战
    • 每个阶段都引入了更长的轨迹、更复杂的环境和更困难的信用分配问题
    • 从推理到 Agentic RL 的转变代表了 CA 难度的一次质的飞跃
阶段 3:Agentic RL(2024-至今)
  • Agentic RL 阶段将 RL 扩展到多轮、环境交互的 Setting 中
  • ArCHer(2024c)在 2024 年初开创了用于 LLM Agent 的分层多轮 RL
  • 2025 年,Agentic RL 爆炸式增长:
    • 系统训练了用于网页导航(2024a)、软件工程(SWE-bench)、科学实验和多 Agent 协作的 Agent
  • 在这个场景中,轨迹跨越 10-100+ 轮,每轮之间有环境交互,总 token 数达到 \(10^{5} - 10^{6}\),奖励保持稀疏和终端
  • 信用分配问题现在在质量上更加困难(见第 4 节),这推动了第二波创新浪潮:
    • 专注于 Turn-level 和基于 hindsight 的方法(2026;2026;2026c;2025;2025;2025b)

Problem Formulation: Two MDP Abstractions

Reasoning RL as a token-level MDP
  • 在 Reasoning RL 中,模型针对一个 Prompt \(x\) 生成单个响应 \(y = (y_{1}, y_{2}, \ldots , y_{L})\)
  • 这可以建模为一个 MDP,其中:
    • 状态 \(s_{t} = (x, y_{1}, \ldots , y_{t - 1})\) 是提示加上迄今为止生成的 token
    • 行为 \(a_{t} = y_{t}\) 是下一个 token
    • 转移是确定性 的(自回归生成)
    • 奖励 \(R\) 仅在终端状态给出(例如,答案正确性)
  • 这里的信用分配意味着:推理链中的哪些 token(或 token 组)促成了正确答案?
Agentic RL as a turn-level POMDP
  • 在 Agentic RL 中,模型与环境在 \(T\) 轮中进行交互:
    • 状态 \(s_{t}\) 包括对话历史、环境状态(部分可观测)和检索到的上下文
    • 行为 \(a_{t}\) 是模型在第 \(t\) 轮的完整响应(其本身包含许多 token)
    • 转移是随机 的:环境响应取决于工具执行、网页状态等
    • 奖励 \(R\) 是稀疏且终端的(任务成功/失败)
  • 这种场景下,信用分配是双重分层的:
    • (1) 哪一轮是关键?
    • (2) 在该轮中,哪些 token 重要?
  • 表 1:本文使用的主要符号总结
  • The multi-granularity action hierarchy
    • 此时是 多粒度行为层次结构
      $$\tau_{\text{Episode} } = \underbrace{[\text{Turn}_{1},\ldots,\text{Turn}_{T}]}_{\text{Turn level} } = \underbrace{[\text{Seg}_{1,1},\ldots]}_{\text{Segment level} } = \underbrace{[a_{1,1,1},\ldots]}_{\text{Token level} } \tag {1}$$

Why GRPO’s Episode-Level Credit is Insufficient,Why Episode-level 信用不够

  • GRPO 估计器(2024)计算一个组优势:
    $$\hat{A}_i^{\text{GRPO} } = R(\tau_i) - \frac{1}{G}\sum_{j = 1}^{G}R(\tau_j) \tag {2}$$
    • \(\tau_{i}\) 中的每个 token 都收到相同的优势 \(\hat{A}_i^{\text{GRPO} }\)
  • 对于一个长度为 \(L\) 的轨迹:
    • Reasoning RL(\(L \sim 10^{3} - 10^{4}\) 个 token,1 轮): Episode-level 方法(GRPO,REINFORCE)工作得相当好,因为“关键决策”的数量相对于总 token 数较少,且信噪比保持在可控范围内
    • Agentic RL(\(L \sim 10^{5} - 10^{6}\) 个 token,10-100+ 轮): Episode-level 方法将一个关键的“选择正确的 API”行为和一个琐碎的“格式化输出”行为分配相同的信用
      • 信噪比崩溃
      • 问题:如何理解这里的信噪比?
        • 理解:信噪比(Signal-to-Noise Ratio, SNR)是一个从通信和信号处理领域借用的概念,主要用来衡量模型在处理信息或进行训练时,“有用的目标信息(信号)”与“无用的干扰信息(噪声)”之间的比例
  • 实证上,Zhou 等人(2024c)表明
    • 使用 Episode-level 奖励的标准 PPO 未能学习有效的多轮策略
    • 使用分层信用的方法成功了
    • Wang 等人(2025d)报告了类似的发现,将其失败归因于他们所谓的“回声陷阱”(echo trap)
  • 更正式地,在带有基线 \(b\) 的 REINFORCE 估计器中,单个行为 \(a_{t}\) 的策略梯度方差与 \((R(\tau) - b)^{2}\) 成比例
    • 当相同的基线应用于所有 \(T\) 个行为时,总梯度方差按 \(\mathcal{O}(T \cdot \text{Var}[R])\) 缩放
    • GRPO 和其他 Episode-level 方法通过组归一化部分缓解了这个问题,但根本问题仍然存在:
      • 对于 \(T = 100\) 轮和二元奖励,每个行为的信噪比大约比单轮推理设置差 \(100\) 倍
    • 实证上,Wang 等人(2025d)通过“回声陷阱”现象证明了这一点:
      • 在 Episode-level 信用下,Agentic 模型收敛到重复行为,因为梯度信号太嘈杂,无法区分有成效的行为和冗余的行为

Taxonomy Overview

  • 本文沿着两个正交轴组织方法(图 2):
    • 1)粒度轴(Granularity axis):信用在哪个级别分配?
      • Token-level (Token-level):生成过程中的单个 token
      • Segment-level (Segment-level):语义上有意义的跨度(例如,一个推理步骤)
      • 步骤/ Turn-level (Step/Turn-level):一个完整的 LLM 响应或工具调用周期
      • 多 Agent 级(Multi-agent level):跨协作 Agent 的信用分解
    • 2)方法论轴(Methodology axis):信用如何计算?
      • Monte Carlo (MC):从中间状态进行 Rollout
      • 时序差分(Temporal Difference, TD):学习到的价值函数与自举
      • 基于模型 / LLM 作为 Critic(Model-based / LLM-as-Critic):LLM 评估中间状态
      • 博弈论(Game-theoretic):Shapley 值,反事实基线
      • 信息论(Information-theoretic):信息增益,基于熵的度量

Classical Credit Assignment: A Brief Primer,经典信用分配简要入门

  • 在 LLM 时代之前,深度 RL 为信用分配开发了丰富的工具包,许多针对 LLM 的方法直接建立在这些基础之上
    • 注:本文简要介绍,关于更全面的内容推荐参考 A Survey of Temporal Credit Assignment in Deep Reinforcement Learning, 2023, University College London & Google DeepMind
Temporal Difference learning and value baselines
  • 最广泛使用的方法估计一个状态价值函数 \(V(s)\) 并使用优势 \(A(s,a) = Q(s,a) - V(s)\) 来分配信用
  • GAE(Generalized Advantage Estimation)(2016)通过参数 \(\lambda\) 在高偏差(TD(0))和高方差(MC)估计之间插值:
    $$\hat{A}_t^{\text{GAE}(\gamma ,\lambda)} = \sum_{l = 0}^{\infty}(\gamma \lambda)^l\delta_{t + l},\quad \delta_t = r_t + \gamma V(s_{t + 1}) - V(s_t) \tag {3}$$
  • 在 LLM 设置中,AgentPRM(2025)直接应用 TD+GAE 来学习 Agent 的 Turn-level 价值函数,而 ArCHe(2024c)使用带有 TD 更新的 off-policy critic
Return decomposition,Return 分解
  • RUDDER(2019)通过训练一个序列模型从部分轨迹预测回报,将 episodic 回报分解为每个步骤的贡献
  • 步骤 \(t\) 的贡献是预测回报的变化:
    $$c_{t} = \hat{R} (s_{0:t}) - \hat{R} (s_{0:t - 1})$$
  • 这个想法直接启发了 LLM 方法,如 RED(2024a)( Token-level 再分配)、SPA-RL(2025b)(基于 MLP 的进度估计)和 IGPO(2025a)(信息增益作为信用)
Hindsight credit assignment
  • HCA(2019)根据观察到的结果重新加权过去的行为,利用“知道未来会改变作者对哪些过去行为重要的估计”这一见解
  • 这种“向后看”的原则是 HCAPO(2026)的核心,它通过生成式验证将事后信用扩展到 LLM Agent
Counterfactual baselines, 反事实
  • 差异奖励通过将实际结果与反事实基线进行比较来评估一个行为的贡献:
    • “如果这个行为被默认行为替换,会发生什么?” 这需要环境重新执行或基于模型的近似
  • 在 LLM 设置中,C3(2026)和 CCPO(2026c)通过对 Agent 轮次进行留一分析来实现反事实信用,而 SCAR(2025)使用 Shapley 值——反事实基线的博弈论泛化
Key mapping to LLM RL
  • 经典范式映射到特定于 LLM 的方法如下:
    • TD/GAE \(\rightarrow\) 学习到的 critic(ArCHer, AgentPRM)
    • 回报分解 \(\rightarrow\) 奖励再分配(RED, SPA-RL)
    • 事后(hindsight)\(\rightarrow\) 回顾性分析(HCAPO)
    • 反事实(counterfactual)\(\rightarrow\) 留一和 Shapley(C3, SCAR)
  • LLM Setting 引入了一个经典 RL 中不存在的独特能力:
    • LLM 本身可以作为 critic,提供对中间状态的自然语言评估(2025;2025;2025)
    • 这种 LLM-as-Critic 范式没有直接对应的经典类比,并代表了信用分配方法论的一个独特轴
  • 图 3:本调研中回顾的所有 47 种信用分配方法的分层分类法
    • 方法按设置(Reasoning / Agentic / Multi-Agent)组织,然后按方法论族组织
  • 缩写的方法论标签显示在括号中
    • 详情见表 5
  • Process Reward Models Are Credit Assignment
    • 一个关键的概念澄清:过程奖励模型(Process Reward Models, PRMs)不仅仅是一种奖励建模技术
      • PRMs 从根本上说是一种信用分配机制:一个为每个推理步骤 \(i\) 打分 \(r_i\) 的 PRM 正在对终端奖励 \(R(\tau)\) 执行步骤级的信用分解
      • 因此,PRM 文献(Math-Shepherd, OmegaPRM, PURE)和 CA 文献(VinePPO, SPRO, SCAR)是同一潜在问题的两个视角
    • 在本文采用 CA 视角,将 PRM 视为分配信用的几种方法论之一

RL Algorithms for LLMs: A Brief Overview

  • 信用分配方法不是孤立运作的
    • 信用分配是更广泛 RL 算法内部的组成部分
  • 本节简要回顾用于 LLM 训练的主要 RL 算法,重点说明每个算法与信用分配的关系
PPO
  • PPO 是 RLHF 的主力,用于 InstructGPT、ChatGPT 和 Claude
  • PPO 训练一个学习到的价值函数 \(V_{\phi}(s)\) 作为基线,通过 GAE 计算 Token-level 优势
  • 价值函数本身就是一个信用分配机制(其质量直接决定了训练效率)
  • 问题:为 LLM 规模的状态空间训练一个准确的价值函数是出了名的困难:
    • 价值网络必须处理数千个 token 的序列并产生可靠的标量估计,这一挑战催生了无 critic 的替代方案
REINFORCE and REINFORCE with baseline
  • 最简单的策略梯度方法,REINFORCE 计算
    $$ \nabla_{\theta}J = \mathbb{E}[\sum_{t}\nabla_{\theta}\log \pi_{\theta}(a_{t}|s_{t})\cdot R(\tau)]$$
    • 将完整回报作为信用分配给每个行为
  • 添加一个基线 \(b\)(例如,平均回报)可以减少方差,但不能提供每个行为的信用区分
  • 因为这类方法实现简单,带有学习到基线的 REINFORCE 被用于最近的一些 LLM RL 系统中,尽管它的信用分配是所有方法中最粗糙的
GRPO
  • GRPO(2024)与 DeepSeek-R1 一起推出,用组比较基线取代了学习到的价值函数:
    • 对于来自同一提示的一批 \(G\) 条轨迹,优势为
      $$\hat{A}_{i} = R(\tau_{i}) - \frac{1}{G}\sum_{j}R(\tau_{j})$$
    • 这完全消除了对 critic 网络的需求,使 GRPO 在计算上很有吸引力
  • 但 GRPO 仅提供 Episode-level 信用(一条轨迹中的每个 token 都收到相同的优势)
    • 这是本文中提到的大多数方法旨在改进的信用分配限制
DPO
  • DPO(2023)通过直接从偏好对优化策略来绕过显式的奖励建模
    • 正如 “From \(r\) to \(Q^{*}\)”(2024)所示,DPO 隐式地学习了 Token-level Q 值,提供了一种隐式的信用分配形式
    • 像 iStar(2025)和 ITPO(2026)这样的方法利用这一见解,从经过 DPO 训练的模型中提取步骤级的信用,而无需显式的奖励计算
The credit assignment perspective on RL algorithms,RL 算法上的信用分配视角
  • 从 CA 的角度来看,这些算法形成了一个谱系:
    • REINFORCE/GRPO 提供 Episode-level 信用(最粗糙)
    • PPO 通过学习到的 critic 提供 Token-level 信用(更精细但近似)
    • DPO 提供隐式的 Token-level 信用(理论优雅但难以提取)
  • 本文调研的方法可以看作是对这些基础算法的信用分配质量的增强,例如:
    • VinePPO 用 MC 估计取代了 PPO 的学习到的 critic
    • HCAPO 在 GRPO 之上增加了事后分析
    • CARL 在任何基础算法中选择性地应用信用
Other related algorithms
  • 在 LLM 训练中使用的其他几种 RL 和自我改进算法没有被深入覆盖,因为它们的信用分配特性属于上述范围之内
  • RLOO(REINFORCE Leave-One-Out)使用留一基线
    $$ b_{i} = \frac{1}{G - 1}\sum_{j\neq i}R(\tau_{j})$$
    • 这是一种与 GRPO 的组基线密切相关的方差 reduction 技术
    • 从 CA 的角度来看,它仍然是 Episode-level
  • REINFORCE++ 向 REINFORCE 添加了一个 Token-level KL 惩罚
    • 介于 REINFORCE 和 PPO 之间,但没有引入新的信用分解机制
  • Online DPO、IPO 和 KTO 是偏好优化变体,它们共享 DPO 的隐式信用结构
    • 它们的 CA 属性继承自上述的“From \(r\) to \(Q^{*}\)”分析
  • ReST、Expert Iteration 和 STaR 是迭代式的自我改进方法,它们基于结果质量过滤或精炼训练数据
    • 它们间接地与信用分配交互(通过策划要从中学习的轨迹),但不会分解轨迹内的信用
  • 本文关注 PPO、GRPO、REINFORCE 和 DPO
    • 它们涵盖了信用分配方法设计空间的核心部分

Credit Assignment in Reasoning RL

  • 在 Reasoning RL 中
    • LLM 生成单条思维链响应
    • 轨迹是一次生成中的 token 序列
  • 这里的 credit assignment 方法在 Token-level 和 segment/ Step-level 上运作,将结果奖励分配到整个推理链中

Token-Level Methods

Monte Carlo Token-Level Estimation
  • VinePPO
    • VinePPO (ICML 2025) 将 PPO 中学习到的价值网络替换为 Token-level 无偏蒙特卡洛价值估计
    • 关键 Insight:对于自回归 LLM,从任何中间前缀生成 rollout 都非常便宜(只需从模型中继续采样即可)
    • 在每个 token 位置 \(t\),VinePPO 分叉出 \(K\) 条独立的延续(“藤蔓”),根据结果奖励评估每条延续,并估计
      $$ V(s_t) \approx \frac{1}{K} \sum_{k = 1}^{K} R(\tau_k^{(k)})$$
    • Token-level 优势为
      $$\hat{A}_t = R(\tau) - V(s_t)$$
      • 这提供了无偏的优势,没有学习到的 critic 的函数近似误差
  • 在 GSM8K 和 MATH 上,VinePPO 显著优于使用学习到的价值函数的标准 PPO,证明了 credit assignment 质量(而非策略优化)是主要的瓶颈
  • 主要的限制是计算成本:每个训练轨迹需要 \(\mathcal{O}(K \cdot L)\) 次额外的前向传播,其中 \(L\) 是序列长度
Reward Redistribution
  • RED
    • RED(Reward Redistribution to Token Level)采用了一种务实的方法:
      • 给定一个为 RLHF 训练的现成 RM,它通过线性回归探测 RM 的内部表示来估计 Token-level 奖励贡献
      • 具体做法:训练一个轻量级探针(问题:似乎不需要重新训练吧,即使训练也没有中间标记的样本啊),利用 RM 的隐藏状态来预测每个 token 对整体奖励分数的边际贡献
      • 设生成序列长度为 \( T \),\( \mathcal{R}_{\phi}(x, y_{\leq t}) \) 为奖励模型对前 \( t \) 个 token 的输出分数,定义 token 级别的奖励为:
        $$
        \tilde{r}_t^{RM} = \mathcal{R}_{\phi}(x, y_{\leq t}) - \mathcal{R}_{\phi}(x, y_{\leq t-1}), \quad \text{for } 0 \leq t \leq T
        $$
        • 其中令 \( \mathcal{R}_{\phi}(x, y_{\leq -1}) = 0 \),则有:
          $$
          \sum_{t=0}^{T} \tilde{r}_t^{RM} = \mathcal{R}_{\phi}(x, y_{\leq T})
          $$
          • 即所有 token 奖励之和等于原序列的整体奖励
      • RED 方法可与 PPO、RLOO 等 RL 算法无缝集成,最终每个 token 的奖励为:
        $$
        r_t^{\text{final} } = \tilde{r}_t^{RM} - \beta \cdot r_t^{KL}
        $$
    • 注:不需要额外的 RL 训练(再分配完全是事后进行的)
    • RED 提供了一种 surprisingly effective 的 Token-level 信号,相比均匀 credit assignment 能改善 PPO 训练,这表明预训练的奖励模型已经编码了丰富的、未被充分利用的 credit assignment 信息
  • T-REG
    • T-REG(Token-Level Reward Regularization)在没有任何外部模型的情况下生成 Token-level 奖励信号
    • T-REG 使用一种对比性自提示策略:
      • 对于一个给定的问题,模型生成正确和不正确的解决方案,然后比较 Token-level 对数概率差异,以识别哪些 token 最具区分性
      • 在正确和错误解决方案之间差异最大的 token 获得更高的 credit
      • 这种自监督方法非常简洁,不需要奖励模型、critic 或额外的 rollout
Implicit Token-Level Credit,隐式 Token-level Credit
  • From \(r\) to \(Q^*\)
    • 这项工作为偏好训练模型中的隐式 credit assignment 提供了理论基础
    • 文章表明:DPO 隐式地学习了一个 Token-level Q 函数:
      • 在训练模型和参考模型之间,每个 token 位置的对数概率比率对应于贝尔曼方程下的 soft Q 值
        $$
        Q^{*}(s_t, a_t) = \beta \log \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\text{ref} }(a_t | s_t)} + \beta \log Z(s_t)
        $$
        • \(\beta\) 是 DPO 温度参数,\(Z\) 是一个归一化配分函数
    • 这一 Insight 意味着
      • 任何经过偏好训练的 LLM 已经内在地编码了 credit assignment 信息,而提取这种隐式 credit 可能比学习显式的奖励模型更高效
      • 注:这个 Insight 的实际意义是深远的:credit assignment 可能是对齐训练的一个“免费”副产品

Segment-Level Methods

  • SPO
    • SPO(Segment Policy Optimization)在 Token-level 和 Episode-level credit 之间找到了一个实用的中间地带
    • SPO 将推理链在“切割点”处划分为语义上有意义的 segments(即按照一些转义 Token 等来划分)
      • 这些 Segment 划分边界位置是推理在不同子问题或方法之间过渡的地方(例如,在建立方程和解方程之间)
      • 对于每个 segment,SPO 通过比较共享该 segment 之前相同前缀的轨迹的结果来计算 MC 优势
      • 这种 segment 级别的粒度自然地与数学推理的结构对齐,其中每个“步骤”是一个连贯的单元,同时避免了 Token-level MC 估计的过高成本
  • TEMPO
    • TEMPO(Tree-Structured Credit Assignment)将推理的线性链结构推广到树
    • 在模型本可以采取不同路径的决策点
      • TEMPO 将轨迹分支成一棵树,每个分支代表一个备选延续
      • 然后应用分支门控 TD 校正:
        • 叶节点(完成的轨迹)上的 MC 估计通过使用 TD 风格的自举在内部节点向上传播
    • 这种混合方法结合了叶节点的 MC 无偏性和内部节点的 TD 方差减少
    • 注:TEMPO 是无 critic 的
      • TEMPO 不需要学习价值函数,而是使用树结构本身来提供多分辨率 credit 信号
  • SCAR
    • SCAR(Shapley Credit Assignment Rewards)将合作博弈论引入 credit assignment
    • SCAR 将推理链视为一个联盟博弈,Shapley Value 的解释见:Math——博弈论-Shapley-Value
      • 其中每个 segment 是一个“玩家”,结果奖励是博弈的价值
      • 每个 segment 的 credit 是其 Shapley 值
        • 即在所有可能的 segments 排序中,其平均边际贡献
      • Shapley 值是唯一满足效率(credits 总和等于总奖励)、对称性(平等贡献者获得平等 credit)和虚拟玩家属性(非贡献者获得零 credit)的归因方法
      • 主要挑战是计算量:对于 \(n\) 个 segments,精确的 Shapley 值需要评估 \(2^{n}\) 个联盟
      • SCAR 使用基于抽样的近似,用精确性换取可处理性
      • SCAR 提供了一个理论上严谨的 credit assignment,可以作为评估更便宜的启发式方法的黄金标准参考

Step-Level Methods in Reasoning

  • 这些方法将每个“推理步骤”(例如,一行数学推导)视为 credit 的单位
Process Reward Models, PRMs
Background: Math-Shepherd and OmegaPRM
  • 过程奖励模型 (PRM) 范式最初是为推理验证引入的,为 Step-level credit assignment 提供了一个自然的框架
    • Math-Shepherd (2024) 开创了自动化的 Step-level 标注:对于每个推理步骤,它对多个 continuations 进行采样,如果有足够比例的 continuations 能到达正确答案,则将该步骤标记为“正确”
    • OmegaPRM (2024) 使用分治策略扩展了这种方法,该策略有效地探索了可能的延续树
    • 这些 PRM 基础为下游 CA 方法构建所依赖的 Step-level 监督提供了基础,并且它们基于 MC 的标注策略直接与经典的回报分解范式相关联
PURE
  • 原始论文:(PURE)Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning (ICML 2025)
  • PURE 对基于 PRM 的 credit 做出了一个微妙但重要的理论贡献
  • 标准 PRM 将 Step-level 价值分配为未来奖励的期望总和:
    $$ V(s_{t}) = \mathbb{E}[\sum_{t^{\prime} = t}^{T}r_{t^{\prime} }]$$
    • 理解:状态价值等于未来奖励的总和的期望
    • PURE 认为这种“求和形式”的 credit 容易受到 Reward Hacking 的影响
      • 模型可以学习产生“安全”的中间步骤来增加期望总和,而实际上并不对正确性做出贡献
    • PURE 提出了最小形式 credit:
      $$ V(s_{t}) = \mathbb{E}[\min_{t^{\prime} \geq t} r_{t^{\prime} }]$$
      • 含义:状态的价值由最差的未来步骤决定
        • 问题:比如未来如果有一步会导致得到 0 分,那么前面的状态价值就是 0 分
      • 问题:这改变了 RL 最大化未来累计奖励的目标
      • 这可以防止模型将错误“隐藏”在高分步骤之后,并提供更稳健的 Step-level credit 信号
    • 理论分析表明,最小形式 credit 能导致更好校准的过程奖励并减少过度优化
SPRO
  • 原始论文:(SPRO)Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning, 20250703, Terminus Group & HKUST
  • SPRO(Self-Guided Process Reward)引入了一种自监督的 Step-level credit 方法,不需要外部 PRM 或奖励模型
  • SPRO 核心机制是掩码步骤优势:
    • 在解决方案中,对于每个步骤 \(i\),SPRO 掩码(移除)该步骤并重新评估解决方案达到正确答案的可能性
    • 步骤 \(i\) 的 credit 是其移除导致的性能下降:
      $$ c_{i} = P(\text{correct}|\text{full solution}) - P(\text{correct}|\text{solution without step } i)$$
    • 这种留一法方法提供了对每个步骤必要性的直观衡量
    • SPRO 报告称,与标准 GRPO 相比,训练效率提高了 \(3.4 \times\),表明即使是简单的自监督 credit 信号也能极大地加速学习
FinePO
  • FinePO (2026) 是用于图表理解的 SketchVL 框架的一部分
  • FinePO 证明了 PRM 范式可以在特定领域设置中被推到子步骤粒度
  • 在一个视觉推理流程中,FinePO 对每个推理步骤中 的单个操作 进行评分,提供了比标准 Step-level PRM 更精细的 credit 信号
  • FinePO 是为特定领域(图表和图示理解,而非一般数学推理)开发的,但其 credit assignment 机制(将 Step-level 奖励分解为子步骤贡献 )说明了一个可能推广到其他推理步骤具有内部结构的设置的方向
PRL
  • PRL(Process Reward Learning, 2026)在过程奖励与最优策略的结构之间提供了一个理论上优雅的联系
  • PRL 从熵正则化 RL 目标的分解中推导出 Step-level 过程奖励,表明在熵正则化最优策略下,每个步骤的最优过程奖励等于优势函数
  • 这种理论依据意味着 PRL 的 credit 信号不是启发式的,而是在特定假设下被证明是最优的,为 Step-level credit assignment 提供了一个有原则的基础
InT
  • InT(自我提出干预,Self-Proposed Interventions, 2026)在推理 credit assignment 中采用了一种独特的方法:
    • 模型自己提出干预:
      • 对特定推理步骤的反事实修改,并评估这些干预是否会改变结果
    • 给分:
      • 那些改变结果的步骤获得高 credit
      • 那些无关紧要的步骤获得低 credit
      • 理解:这里指的 Credit 不是奖励,而是造成当前结果的影响权重(所以 高 credit 不意味着高 Reward,也可能是更置信的 低 Reward 结果)
    • 这种自我提出的干预机制提供了一种有原则的、模型内在的步骤重要性度量,无需外部奖励模型
Attribution-Based and Curriculum Methods,基于归因和课程的方法
ACPO
  • ACPO(Attribution-based Credit for RLVR,2025)将 credit assignment 与课程学习相结合
  • ACPO 使用归因方法(例如,基于梯度的显著性)计算分解的层次化奖励,将结果奖励分解为步骤贡献,然后使用这些 Step-level 信号构建一个难度感知的训练课程
  • credit 集中在少数步骤上(清晰的分叉点)的问题在训练早期被优先考虑,而 credit 分散的问题(许多步骤贡献相等)在后期引入
  • credit assignment 和数据选择之间的这种协同作用体现了一个更广泛的趋势:
    • CA 不仅仅是关于奖励再分配,而是关于使整个训练流程更高效
LLM-as-Critic for Reasoning
CAPO
  • CAPO(Credit Assignment Policy Optimization, 2025)利用了 LLM 设置中独有的能力:
    • 模型可以作为自己的 critic
  • CAPO 使用 LLM 作为生成式 PRM (GenPRM)
    • 给定一个推理轨迹,同一个 LLM(或其 Prompted 版本)会生成对每个步骤的自然语言批判,评估其正确性、相关性和对最终答案的贡献
    • 这些批判被转换为标量的 Step-level 奖励,用于驱动策略优化
  • 主要优势是自包含:
    • 不需要单独的奖励模型、critic 网络或 MC rollouts
  • 主要风险是:
    • 自我评估偏差(模型可能系统地高估自己的步骤)
    • 注:CAPO 通过校准技术来缓解这一点
Hierarchy-Aware Methods in Reasoning
HICRA
  • HICRA(层次感知 Credit Assignment,2025)研究了 RL 如何在 LLM 中发展层次化推理
  • HICRA 识别出一个两阶段的学习动态:
    • 模型首先获得 procedural 技能(常规计算),然后发展出 Strategic Planning(高层次的问题分解)
  • HICRA 建议将 credit 集中在高影响力的规划 token 上,而不是均匀地分布学习信号,表明这种层次感知的方法显著优于平坦的 credit assignment
  • HICRA 是在 Reasoning RL 背景下开发的,但其 Insight 与 Agentic Setting 高度相关(见第 5.4 节),Agentic Setting 中战略决策和常规执行之间的区别甚至更为明显
    • Insight 内容:Token 的不同功能角色(planning vs. procedural)应该得到不同的 credit 处理

Discussion: The State of Credit Assignment in Reasoning RL

  • 本节回顾的方法揭示了一个成熟的格局,具有清晰的权衡:
    • Token-level 方法(VinePPO,RED,T-REG)提供了最精细的 credit 粒度,但面临计算挑战
      • VinePPO 的 MC 方法在理论上严谨但代价高昂
      • RED 和 T-REG 提供了更便宜的替代方案,但代价是信用信号的严谨性较低
    • Segment/ Step-level 方法代表了当前的主流
      • PRM(PURE,SPRO)和层次感知方法(HICRA)在 credit 质量和计算成本之间提供了实用的平衡
      • FinePO (2026) 这样的特定领域扩展表明,在结构化领域中,子步骤粒度是可行的
    • LLM 作为 Critic 范式(CAPO)正在成为一种独特的、LLM 原生的方法,在经典 RL 中没有直接的类似物
  • 一个关键的观察是,所有 Reasoning RL credit assignment 方法都隐式地依赖于三个假设:
    • 1)确定性转移 :从前缀生成下一个 token 总是产生相同的状态,这使得廉价的 MC 估计成为可能
      • 否则随机性比较高的 Setting ,方差较大,需要采样更多的样本才能做较为准确的 MC 估计
    • 2)单次生成轨迹 :整个轨迹是一次自回归生成,没有环境交互
    • 3)可验证的结果 :最终答案(以及通常的中间步骤)可以根据 ground truth 进行检查
  • 当这些假设中的任何一个被违反时(就像在 Agentic RL 中那样),上述方法就会面临根本性的限制:
    • VinePPO 的藤蔓扩展需要重新执行环境交互
    • PRM 需要步骤级验证,但 Agentic 任务很少能提供这种验证
      • 理解:更多是需要最后才知道是否成功
  • Reasoning RL 中 credit assignment 的成功提出了一个自然的问题:
    • 问题:当 LLM 与现实环境交互时,同样的方法能否工作?
    • 回答:回答基本上是否定的,Agentic RL 引入了质的不同挑战,需要不同的方法

Why Agentic RL Fundamentally Reshapes Credit Assignment,Agentic RL 重塑 Credit Assignment

  • 本节回答是什么使得 Agentic RL 中的 credit assignment 与 Reasoning RL 有质的不同

Challenge 1: Stochastic Environment Transitions

  • 在 Reasoning RL 中,转移函数是确定性的:
    • 给定一个前缀 \((x,y_{1},\ldots ,y_{t - 1})\),生成 token \(y_{t}\) 后的下一个状态就是 \((x,y_{1},\ldots ,y_{t})\)
    • 这种确定性是 credit assignment 的强大推动因素
      • 像 VinePPO (2025) 这样的方法可以通过从任何前缀分叉多条延续来廉价地估计 \(V(s_{t})\),因为知道“环境”(LLM 自身的生成)是完全可控和确定性的
  • 在 Agentic RL 中,这个假设从根本上被打破了
    • 在 Agent 发出一个动作(例如,工具调用、网络请求、代码执行命令)后,环境的响应是随机的:
      • API 调用可能失败、超时或返回限流响应
      • 自上次访问以来,网页可能已经更改,或者由于 A/B 测试而加载不同
      • 代码执行可能产生非确定性输出(例如,浮点变化、竞态条件)
      • 在对话设置中,用户的响应本质上是不可预测的
  • 这种随机性对 credit assignment 有直接的影响
    • 基于 MC 的方法需要从中间状态重新执行环境交互,这通常是昂贵的(需要沙盒环境)或不可能的(环境状态可能无法被 checkpoint)
      • 个人补充:随机也会导致方差变大,从而需要采样更多样本用于 MC 估计才合适?
    • 基于 TD 的方法必须应对 TD 误差中更高的方差
      $$ \delta_{t} = r_{t} + \gamma V(s_{t + 1}) - V(s_{t})$$
      • 因为 \(s_{t + 1}\) 现在是一个随机变量
  • 这就是为什么 Agentic CA 方法越来越青睐事后分析(hindsight)方法 (2026)
    • 在收集完轨迹后进行分析,而不是需要反事实重新执行

Challenge 2: Partial Observability,部分可观测性

  • Reasoning RL 在一个完全可观测的 MDP 中运行:
    • 状态(提示 + 到目前为止生成的 token)对模型是完全可见的
  • Agentic RL 本质上是一个部分可观测的 MDP (POMDP)
    • Agent 通过一个通常是损失性的文本观测函数 \(o_{t} = \mathcal{O}(s_{t})\) 来感知环境:
      • 数据库的完整状态是不可见的(Agent 只看到查询结果)
      • 文件系统内容只能通过显式的 ls 或 cat 命令来观测
      • 在多 Agent 设置中,其他 Agent 的内部状态和推理是隐藏的
      • 网页状态包括不可见元素(JavaScript 状态、会话数据、服务器端逻辑)
  • 部分可观测性从根本上使 credit assignment 复杂化,因为它在决策质量和信息可用性之间引入了模糊性
    • 一个事后看来“糟糕”的动作(例如,调用了错误的 API)可能基于 Agent 当时的信息是最优的
    • 一个正确的 credit assignment 系统必须区分:
      • 1)决策错误 :Agent 拥有足够的信息但做出了糟糕的选择
      • 2)信息差距 :Agent 缺乏关键信息,并且没有可用的行动可以弥补这一差距
      • 3)探索性动作 :Agent 正确地选择了收集信息,即使即时的结果是负面的
  • 大多数当前的 CA 方法没有明确地处理这种区分,而是根据结果而不是相对于可用信息的决策质量来分配 credit
    • 解决这个差距是一个重要的开放问题(见第 9 节)

Challenge 3: Vastly Longer Horizons,更长的视野

  • Reasoning RL 和 Agentic RL 之间在轨迹长度上的定量差异是巨大的:
  • 表 2:推理和 Agentic RL 设置中的轨迹复杂性
    • Agentic 任务涉及更多的 turns、tokens 和决策点,为 credit assignment 带来了质的变化
  • 这不仅仅是一个数量上的差异:这为 credit assignment 创造了一个质的障碍
    • 具有常数基线的 REINFORCE 估计器的方差缩放为
      $$ \mathcal{O}(T\cdot \text{Var}[R]) $$
      • \(T\) 是决策点的数量
    • 从 \(T = 10\)(简单推理)到 \(T = 100\)(复杂 Agentic,例如 SWE-bench)会使梯度方差增加 \(10 \times\),需要成比例更多的 rollouts 才能达到相同的梯度质量
      • 在实践中,这表现为训练不稳定、 Reward Hacking 和 Echo Trap (2025d),即 Agent 收敛到重复的安全行为
  • 此外,长视野创造了一个时间距离问题:
    • 早期决策(例如,在第 1 轮选择问题解决策略)的影响在许多轮之后才会显现
    • 动作和结果之间的因果链变得越来越间接,使得 MC 和 TD 方法都效率降低

Challenge 4: Heterogeneous Action Types,异构动作类型

  • 在 Reasoning RL 中,动作是同质的:
    • 每个动作都是“生成下一个 token”或“产生下一个推理步骤”
    • 动作的 credit 分布相对均匀(每个步骤都对解决方案做出增量贡献)
  • Agentic RL 引入了根本性的动作异质性,在单个轨迹中,一个 Agent 可能执行:
    • 规划动作 :制定高层次策略(“我应该先搜索 API 文档,然后编写测试,然后实现函数”)
    • 工具选择 :选择调用哪个工具(搜索 vs. 计算器 vs. 代码执行)
    • 工具参数化 :决定如何调用工具(搜索什么查询,运行什么代码)
    • 通信 :向用户或其他 Agent 发送消息
    • 错误恢复 :检测失败并决定如何重试或转向
    • 记录性动作 :格式化输出、更新内部状态、记录进度
  • 这些动作类型具有截然不同的“credit 分布”
    • 在关键时刻选错工具可能是灾难性的(导致完全错误的解决路径),而次优的输出格式则是微不足道的
      • 注:之前的 Episode-level credit 对两者赋予相同的权重
    • 这种异质性催生了一些新的方法:
      • CARL (2025) 这样的方法,使用动作熵 来识别高影响力的决策点并将 credit 集中于此
      • HICRA (2025c),它在推理设置中区分了“Planning tokens”和“Procedural tokens”

Challenge 5: Non-Verifiable Intermediate States,不可验证的中间状态

  • Reasoning RL 中 credit assignment 的一个关键推动因素是步骤级别的可验证性
    • 在数学推理中,每个中间步骤通常可以被检查:
      • “这个代数操作正确吗?”
      • “这个方程是从前一个推导出来的吗?”这种可验证性支撑着整个过程奖励模型 (PRM) 范式 (2024;2024;2025),
      • 步骤级别的标签 \((+ / - )\) 为 credit assignment 提供了密集的监督
  • 在 Agentic RL 中,中间验证几乎是不可能的:
    • 工具调用 :“search(‘Python web scraping’)” 是一个好动作吗?这完全取决于搜索返回什么,这在执行前是未知的
    • 代码生成 :生成的代码正确吗?只有在执行后才能验证,即使那样,部分正确性也难以量化
    • 导航 :点击链接 X 是否有效?取决于它指向哪里
    • 通信 :“向用户寻求澄清”有帮助吗?主观且依赖于上下文
  • 缺乏中间可验证性意味着在 Reasoning RL 中最成熟的 PRM 风格方法无法直接迁移到 Agentic 设置
    • 这种差距推动了替代方法的发展:
      • 基于事后分析的 credit (2026)(在结果出现后评估动作)、通过 DPO 的隐式 credit (2025)(完全避免显式的步骤级评估)以及特权 critic (2025)(使用仅在训练时可用的信息来提供步骤级信号)
  • 个人理解:这里的挑战其实两者都有,且 Agentic 中也有类似可以验证的中间步骤,比如最经典的问题 “带领阿根廷获的 2022 年世界杯冠军的队长,其出生年份中国的 GDP 是多少?”
    • 中间奖励可以是:是否定位到这个队长是梅西;是否定位到 1987

Challenge 6: The Bifurcation Point Problem,分叉点问题

  • Reasoning RL 中,分叉点是中等频率的(Moderate frequency)
  • Agentic RL 中,分叉点是稀有的,但往往是决定性的(Rare but decisive)
  • 将分叉点 定义为一个状态,其中 Agent 的动作对轨迹结果产生超大的影响
    • 一个“道路的岔路口”,不同的选择会导致截然不同的结果
    • 在 Agentic RL 中,分叉点具有独特的特征:
      • 稀有性 :Agentic 轨迹中的大多数动作都是“常规的”
        • 遵循明显的后续步骤、格式化输出、进行标准的 API 调用
        • CARL (2025) 中的实证分析表明,分叉点可能只发生在决策点的一小部分
      • 决定性 :尽管稀有,但分叉点可能占结果方差的绝大部分
        • 选择正确的调试策略、为任务选择正确的工具或制定有效的搜索查询,通常是区分成功与失败的动作
      • 非显而易见性 :分叉点通常无法提前识别
        • 分叉点的重要性只有在事后回顾轨迹如何展开时才变得清晰
  • Episode-level credit (GRPO) 对分叉点是盲目的:
    • GRPO 对关键的工具选择和琐碎的格式化动作赋予相同的 credit
  • 这激发了两种互补的策略:
    • (1) 识别分叉点并将 credit 集中于此
      • CARL (2025) 使用动作熵作为代理
      • HICRA (2025c) 区分 Planning 动作和 Procedural 动作
    • (2) 事后评估分叉点
      • HCAPO (2026) 使用事后分析
      • C3 (2026) 使用反事实比较

Summary: The Agentic Credit Assignment Gap,Agentic Credit Assignment 差距

  • 表 3:Credit assignment 挑战: Reasoning RL vs. Agentic RL
  • 理解:
    • 中间状态验证(Intermediate verification)部分,其实部分场景的 Agentic RL,如 Search Agent 中也可以通过只是图谱等方式拆解出来一些中间验证步骤
    • 分叉点(Bifurcation points)部分,Reasoning RL 中应该也有,但是不清晰(比如类似 But,So 等连词)

Credit Assignment in Agentic RL

  • 本节总结专门为 Agentic RL 设计或适用于 Agentic RL 的方法,其中多轮环境交互是核心
  • Agentic RL 方法总结:

Turn-Level Process Reward Models

AgentPRM
  • AgentPRM (2025) 通过用 \(TD + GAE\) 值的估计取代基于 MC 的步骤标记(labeling),将 PRM 范式从推理适应到 Agentic 设置
  • AgentPRM 的关键洞察在于,MC 标记在 Agentic 设置中代价非常高
    • 因为它需要重新执行环境交互(启动沙盒环境、发起真实 API 调用等)
    • 注:这里 MC 标记指的是从每个步骤采样 continuations 以估计步骤正确性
  • AgentPRM 使用时序差分学习来训练一个步骤级 Critic:
    $$ V(s_t) \leftarrow V(s_t) + \alpha [r_t + \gamma V(s_{t + 1}) - V(s_t)]$$
    • 并使用 GAE 进行优势估计
  • AgentPRM 应用于工具使用、代码生成和网页导航任务,AgentPRM 报告称与基于 MC 的 PRM 训练相比,样本效率提高了 \(8 \times\)
  • 这项工作表明,当环境重执行代价高昂时,TD 范式(尽管通过 bootstrapping 引入了偏差)在实践中是必需的
SWEET-RL
  • SWEET-RL(Meta/FAIR,2025)引入了特权(非对称)Critic 的概念,用于多轮 LLM Agent 训练
    • 特权 Critic:Privileged Critic
  • SWEET-RL 的核心思想利用了训练/推理的不对称性:
    • 在训练时,可以访问 Agent 在推理时没有的信息
    • 信息包括:ground truth 答案、完整的未来轨迹,以及可能的环境状态变量
  • SWEET-RL 训练一个以这些特权信息为条件的 Critic,以提供高质量的 Turn-level 奖励信号,然后这些信号被用于 Actor 的 DPO 风格优化(Actor 仅能看到标准观测)
  • 这种方法巧妙地规避了不可验证性的挑战(第 4.5 节):
    • 即使中间状态无法从 Agent 的视角进行验证,特权 Critic 也可以使用仅在训练时可用的信息来评估它们
    • 非对称设计确保了:
      • Actor 的策略针对实际的(部分可观测)Setting 进行优化(所以训练完不需要 Privileged 信息就能使用)
      • credit 信号则受益于训练期间可用的完整信息
Turn-Level Reward Design
  • Turn-Level Reward Design (NeurIPS 2025)提出了一种混合奖励设计,将奖励类型与动作类型相匹配
  • 对于输出可验证的轮次(例如,代码执行结果、数据库查询输出、数学计算),Turn-Level Reward Design 使用自动验证来提供精确的 Turn-level 奖励
  • 对于输出主观或难以验证的轮次(例如,规划、信息综合、通信),Turn-Level Reward Design 采用 LLM-as-Judge 来提供近似的 Turn-level 分数
  • Turn-Level Reward Design 框架将多轮 Agent 训练形式化为一个具有异构奖励源的 MDP
    • 结果表名:这种混合方法显著优于纯基于验证的和纯基于 LLM-judge 的奖励 ,因为每种奖励类型都应用在它 Most Reliable 地方
Turn-PPO
  • Turn-PPO(2025 & EACL 2026)将多轮 Agent RL 重新表述为一个 Turn-level MDP
    • 其中每一轮(完整的 LLM 响应 + 环境反馈)被视为单个宏动作
  • 在这个表述下,Turn-PPO 使用 Turn-level 值函数计算 Turn-level 优势估计,用 Turn-level 重要性比率取代了标准的 Token-level 重要性采样
  • 这种重新表述消除了在多轮间由 Token-level credit 引入的巨大方差
  • 在 WebShop 和 Sokoban 上的评估表明
    • Turn-PPO 比标准 PPO 具有更好的稳定性和最终性能,证实了轮次是多轮 Agent credit 的自然原子单元
SORL
  • SORL(Stabilizing Off-Policy RL for Long-Horizon Agent Training,2025)解决了多轮 Agent RL 中由两个来源引起的不稳定性:
    • (1) Token-level 优化与轮次结构化交互之间的粒度不匹配
    • (2) 来自 off-policy 采样的高方差梯度更新
  • SORL 提出了 Turn-level 重要性采样结合裁剪触发归一化,以两种算法实例化(SO-PPO 和 SO-GRPO),使策略优化与多轮交互的结构对齐,并自适应地抑制不可靠的 off-policy 更新
  • 在多轮搜索基准上的评估表明,SORL 为 “为什么 Turn-level CA 需要专门构建的优化算法而不是简单地应用标准 PPO 或 GRPO” 提供了理论基础
TARL
  • TARL(Turn-level Adjudicated Reinforcement Learning,Turn-level 裁决 RL, 2025)为交互式多模态工具使用 Agent 提出了一个过程监督的 RL 框架
  • TARL 核心机制采用 LLM as a Judge 在训练期间提供 Turn-level 评估,解决了长时域 Agentic 任务中的 credit 分配挑战
  • 实验:结合一个混合任务训练课程(该课程整合了数学推理问题),TARL 报告称:
    • 在 \(\tau\)-bench 基准测试上,与强 RL 基线相比,任务通过率提高了 \(6% +\),证明了 Turn-level 过程监督对多模态 Agent 的价值
ITPO
  • 原始论文:(ITPO)Implicit Turn-Wise Policy Optimization for Proactive User-LLM Interaction, Meta AI, 20260321
  • ITPO(Implicit Turn-Level Process Rewards,隐式 Turn-level 过程奖励,202603)从稀疏的结果信号中推导出隐式 Turn-level 过程奖励,无需训练单独奖励模型
  • 基于 “From \(r\) to \(Q^{*}\)” 的洞察 (2024),ITPO 从模型自身在各轮次间的对数概率变化中提取 Turn-level 奖励,将策略本身视为一个隐式 Critic
  • 实验:应用于主动式多轮交互设置(辅导、推荐),ITPO 表明:
    • 隐式 Turn-level credit 与显式训练的 Turn-level Critic 相比具有竞争力,而计算成本仅为其一小部分

Hindsight and Counterfactual Methods,事后和反事实方法

  • 这些方法利用了事后分析的一个关键优势:轨迹完成后,可以回溯并思考哪些因素是重要的
HCAPO
  • HCAPO(Hindsight Credit Assignment for Policy Optimization,用于策略优化的事后 Credit 分配,202603)通过回顾性分析直接解决了 Agentic RL 的不可验证性挑战
  • 在收集到一条轨迹后,HCAPO 使用一个 LLM Critic,在知晓完整轨迹结果的情况下 评估每一轮的贡献
    • 该 Critic 执行生成式验证:
      • 对于每一轮 \(t\),它生成反事实的 continuations(“如果这一轮的动作不同了会发生什么?”)并比较预期的结果
      • 这种事后方法对于 Agentic RL 尤其强大,因为它不需要环境重执行(反事实分析完全在 LLM 的“想象”中执行)
    • 关键 Insight:事后 credit 比前向 credit 提供更多信息:
      • 知道结果使得 Critic 能够区分偶然成功的动作(尽管次优但碰巧有效)和真正好的动作(有决定性因果关系地促成了成功)
C3
  • C3(Contextual Counterfactual Credit Assignment,上下文反事实 Credit 分配,202603)
    • 通过一个留一法框架形式化了 credit 分配
  • 对于一条有 \(T\) 轮的轨迹,轮次 \(t\) 的 credit 被估计为实际结果与将轮次 \(t\) 的动作替换为“默认”动作后期望结果之间的差值:
    $$ c_{t} = R(\tau) - R(\tau_{t})$$
    • 其中 \(\tau_{t}\) 表示反事实轨迹
  • 由于为每个反事实重新执行环境代价高昂,C3 使用基于模型的近似:
    • 一个 LLM 通过推理 “如果没有轮次 \(t\) 的特定动作轨迹将如何展开” 来估计 \(R(\tau_{t})\)
    • C3 最初为多 Agent LLM 协作开发,其框架自然扩展到将轮次视为合作博弈中“玩家”的单 Agent 设置
CCPO
  • CCPO(Counterfactual Credit Policy Optimization,反事实 Credit 策略优化,202603)为 Agentic credit 分配提供了一个正式的结构因果模型视角
  • CCPO 将轨迹建模为一个结构因果模型(SCM),其中每一轮的动作是处理变量,结果是效应
    • Turn-level credit 则是每个动作的平均处理效应(ATE),通过 do-演算(do-calculus)或实际近似来估计
  • CCPO 的形式化框架在特定的因果假设下(轨迹内没有未观测的混杂因素,当完整对话历史可用时这是合理的)提供了 credit 准确性的理论保证
  • 原文讨论:在 2026 年 3 月的一周内同时出现三篇独立的事后/反事实论文(HCAPO, C3, CCPO)是社区趋同的一个显著信号:
    • 该领域已共同将回顾性反事实分析确定为 Agentic credit 分配的自然范式
CriticSearch
  • CriticSearch(2025)将回顾性 credit 分配专门应用于搜索 Agent
    • 即发出搜索查询、处理结果并迭代优化其答案的 LLM
  • 冻结的、非对称的 critique LLM 使用特权信息(完整轨迹和 golden 答案)回顾性地评估每个搜索轮次,将这些评估转换为密集的、 Turn-level 奖励
    • 这与 SWEET-RL 的特权 Critic 设计(第 5.1 节)密切相关,但专门针对每个轮次涉及独特查询-结果周期的搜索领域
  • CriticSearch 报告称,在多跳推理基准测试上提高了收敛速度和稳定性,证明了回顾性 Critic 即使在以信息检索为中心的 Agent 任务中也是有效的

Critic-Free Step-Level Methods

GiGPO
  • GiGPO(组中组策略优化,NeurIPS 2025)以一种优雅的、无需 Critic 的方式,将 GRPO 的组比较原则从 Episode-level 扩展到了步级
  • GiGPO 引入了一个两层的优势估计:
    • 在外层,轨迹像标准 GRPO 一样被分组和比较
    • 在内层,单条轨迹内的步骤通过锚定状态分组进行比较
      • 共享相似前缀(锚定状态)的步骤被分到同一组,每个步骤的优势相对于其组均值计算
    • 这种“组中组”结构在不需学习值函数的情况下提供了步级 credit
  • 在 Agentic 基准测试(ALFWorld, WebShop)上的评估表明,GiGPO 相比 GRPO 分别取得了超过 12% 和 9% 的提升,证实了无需 Critic 的步级 credit 能够显著改善多轮 Agent 训练
POAD
  • POAD(Policy Optimization with Action Decomposition,带动作分解的策略优化,2024)解决了 Agentic RL 中一个细微的问题:
    • 动作级和 Token-level 优化之间的差异
      • 在 Agentic Setting 中,每个“动作”(例如,一个工具调用或响应)是一个可变长度的 Token 序列,然而标准 RL 将其视为原子操作
  • POAD 推导了带动作分解的 Bellman Backup,它将 credit 分配在两个层面上进行整合:
    • 动作内部(将 credit 分配到单个动作内的各个 Token)
    • 动作之间(将 credit 分配到序列化的动作之间)
  • 这种分解在 PPO 内部实现,增强了学习效率和泛化能力
  • POAD 是早期(2024 年 5 月)形式化 LLM Agent 的动作到 Token credit 分解问题的方法之一,值得关注

Hierarchical Methods

  • Agentic 任务具有自然的层级结构(计划 \(\rightarrow\) 执行 \(\rightarrow\) 验证),这些方法利用了这一结构
ArCHer
  • ArCHer(ICML 2024)是用于多轮 LLM Agent 的层级 credit 分配的开创性工作
  • ArCher 引入了一个明确的两层架构:
    • 一个高层的 off-policy Critic,学习一个 Turn-level Q-函数
      $$ Q^{H}(s_{t},a_{t})$$
      • 其中 \(a_{t}\) 是第 \(t\) 轮的完整 LLM 响应
    • 一个低层的 on-policy Actor,它优化每一轮内的 Token-level 策略
      $$\pi_{\theta}(y|s_{t})$$
      • 高层 Critic 通过 off-policy TD 更新进行训练,能够从过往轨迹的回放缓冲区中高效学习
    • 低层 Actor 使用高层 Q-值作为 Turn-level 奖励进行 on-policy 优化
    • 这种解耦架构直接解决了双重层级的 credit 分配挑战:
      • 高层 Critic 处理哪些轮次是重要的,而低层 Actor 处理这些轮次中的哪些 Token 是重要的
      • ArCHer 是第一个正式认识到多轮 LLM RL 需要与单轮 Reasoning RL 根本不同的 credit 分配的方法
  • 注:在第 3 节中回顾的 HICRA (2025c),为层级感知的 credit 分配提供了 Reasoning RL 的基础,这直接为本节的 Agentic 方法提供了信息
    • 其对 Planning Token 和 Procedural Token 的区分为理解 Agentic 轨迹中的功能角色提供了概念基础
PilotRL
  • PilotRL (Global Planning-Guided Progressive RL, 2025) 将分层原则扩展为一个三阶段渐进式框架:
    • (1) plan-level RL,即 credit 被分配给高层级的 plan 组件
    • (2) step-level RL,即 credit 在每个 plan 组件内部进行细化
    • (3) token-level RL,即 credit 进一步级联到单个 Token
  • credit 在各个阶段之间从粗粒度流向细粒度,每个阶段为下一阶段提供 reward 信号
    • 这种级联方法专为在执行任务前明确制定 plan 的 Agent 而设计(例如:“步骤 1:搜索相关文件;步骤 2:理解代码库;步骤 3:实现修复”)
CARL
  • CARL (NeurIPS 2025) 针对异构动作问题(第 4.4 节)提出了一种非常简洁的解决方案
  • CARL 与为每个动作分配细粒度 credit 不同,CARL 识别出关键动作(即 Agent 的决策对结果产生巨大影响的分叉点)
    • 并仅在这些点上进行 RL 更新
  • 其识别机制基于动作熵:
    • 在每个决策点,CARL 测量策略动作分布的熵 ( H(\pi(\cdot|s_t)) )
      • 高熵状态是“关键的”(模型不确定,因此选择很重要)
      • 低熵状态是“常规的”(模型很确信,因此任何一个合理动作都足够)
  • 通过将梯度更新限制在熵最高的少数动作上,CARL 实现了减少 72% 的梯度更新且性能无下降(如作者所述)
  • 这一结果表明,绝大多数 Agentic 动作可能具有可忽略的 credit,优化它们会浪费计算资源

Information-Theoretic Methods

  • IGPO(信息增益策略优化,Information Gain Policy Optimization, 2025)采用信息论的方法进行 Turn 级信用分配
    • 对于每个 Turn \( t \),IGPO 将信用定义为关于任务成功的信息增益:
      $$c_t = \log P(\text{success}|h_{1:t}) - \log P(\text{success}|h_{1:t-1}) \quad (4)$$
      • \( h_{1:t} \) 表示到 Turn \( t \) 为止的历史
      • 直觉解释:如果一个 Turn 能够显著提高任务成功的概率(即它提供了朝向目标的“有用信息”),那么它就会获得高信用
      • 这种公式化方法天然适用于 Agentic 环境,其中每个 Turn 都会逐步揭示关于任务状态的信息(例如,一个搜索查询揭示了相关文档,一次代码执行揭示了 Bug)
    • 概率 \( P(\text{success}|h) \) 由一个学习到的验证器或 LLM 本身来估计
  • IGPO 的主要局限性:
    • 它要求在每个 Turn 都有一个可靠的 Success 概率估计器 ,而这对于所有 Agentic 任务来说可能并不都可用

Implicit and DPO-Based Methods

  • iStar(Implicit Step Rewards, 2025)解决了在不存在中间验证器的 Agentic 环境中提供 Step-level 信用的挑战
  • iStar 利用轨迹级的 DPO:
    • 给定成对的轨迹(一条成功,一条不成功),iStar 通过比较每个 Turn 的对数概率比来提取隐式的 Step-level Reward
  • 基于 “From \( r \) to \( Q^* \)” 的 Insight (2024)
    • Turn \( t \) 的隐式 Advantage 是从模型自身的概率评估中推导出来的
  • iStar 进一步引入了多级 Advantage 融合,通过加权聚合的方式结合了 Turn 级和 Token 级的隐式信号
  • iStar 主要优势在于 iStar 不需要显式的 Reward 模型、Critic 或环境重执行,使其适用于所有其他信用分配机制都过于昂贵的 Agentic 任务

StepAgent

  • StepAgent (2024) 将隐式 RL 与逆强化学习(Inverse RL)相结合,用于 Agentic 环境中的 Step-level 反馈
  • 给定专家演示(成功的轨迹),它使用逆强化学习来推断专家隐式优化的 Step-level Reward ,然后使用这些推断出的 Reward 来训练 Agent
  • 随着 Agent Step-level 表现的提高,一个从新手到专家的课程逐渐增加任务的难度
  • 这种方法特别适用于那些有专家演示可用(例如,记录的人类与工具或网站的交互)但显式 Reward 函数难以定义的 Agentic 任务

Infrastructure and Practical Methods

Agent Lightning
  • Agent Lightning(Microsoft Research)为基于 RL 的 LLM Agent 训练引入了一种解耦的训练架构
  • Agent Lightning 的核心贡献是 LightningRL 算法
    • LightningRL 算法将 Agent 轨迹分解为带有专用信用分配模块的训练 Transition
  • Agent Lightning 框架将 Agent 执行与训练完全解耦,支持与流行的 Agent 框架(LangChain, AutoGen)集成,而无需修改 Agent 的推理代码
  • 在 Text-to-SQL、检索增强生成和数学工具使用任务上的评估表明
    • 将“信用分配到哪里”的问题与“如何生成轨迹”的问题分离开 可能与信用分配算法本身同样重要
    • 问题:如何理解这里这句话?
RAGEN/StarPO
  • RAGEN(2025) 引入了 StarPO(Star 策略优化,Star Policy Optimization)框架来训练推理 Agent,并提供了关于为何 Episode-level 信用在 Agentic 环境中会失败的最详细的实证分析之一
  • RAGEN 核心贡献是识别出了“回声陷阱”(echo trap):
    • 当使用 GRPO 训练时,Agent 会收敛到重复的 Action 序列(例如,使用相同参数反复调用同一个工具),因为嘈杂的 Episode-level 梯度无法区分高效的探索与冗余的重复
  • StarPO 通过基于不确定性的过滤来解决这个问题:
    • 在其信用估计中具有高不确定性的 Action 在策略更新期间会被降低权重,从而防止噪声信号破坏训练的稳定性
    • RAGEN 还提供了开源的基准测试和训练框架,后续几个 Agentic CA 论文都基于此构建
SPA-RL
  • SPA-RL(Stepwise 进度归因,Stepwise Progress Attribution, 2025)训练一个轻量级的 MLP 进度估计器,它将中间状态映射到一个标量的“进度”分数
    $$ p_t \in [0, 1] $$
  • 然后 Step-level 信用就是进度增量:
    $$ c_t = p_t - p_{t-1} $$
  • 这种方法受到 RUDDER 的 Return 分解 (2019) 的启发,但针对 LLM Agent 进行了调整
    • MLP 与策略一起进行端到端训练,终端 Reward 提供监督信号 \( (p_T = R(\tau)) \)
  • SPA-RL 的主要优势是极高的计算效率:
    • 与 LLM-as-Critic 方法相比,一个小型 MLP 增加的开销可以忽略不计,使其适用于大规模训练,在这种训练中每一次浮点运算都很宝贵
SCRIBE
  • SCRIBE(2026)通过结构化的中级监督(structured mid-level supervision)来提供信用
  • SCRIBE 维护一个“技能原型”(skill prototypes)库
    • 常见 Agentic 子任务(例如,“搜索并提取信息”、“编写和测试代码”、“格式化并提交输出”)的模板,每个模板都关联着预期的 Reward 特征
  • 当 Agent 执行一个 Action 时,SCRIBE 将其与最近的技能原型进行匹配,并根据该 Action 在多大程度上满足原型的预期行为来分配信用
  • 这种方法在单个 Token 和完整轨迹之间的语义层级上提供信用,将信用信号建立在关于“良好”Agent 行为看起来是什么样的结构化知识之上
LaRe
  • LaRe(AAAI 2025)通过使用 LLM 生成自然语言的信用解释来桥接 LLM 推理和信用分配
    • 对于轨迹中的每一步,LaRe 会提示一个 LLM 来解释该 Step 为何是有帮助或有害的,产生一个文本的理由,然后将其转换为标量 Reward
    • LaRe 的方法最初是为符号化 RL 任务(例如,网格世界、简单游戏)开发的,它在概念上适用于任何 Action 具有 LLM 可以评估的语义含义的 Agentic 环境
    • 自然语言解释也提供了可解释性,使从业者能够理解为什么某些 Action 会获得高或低的信用,这对于调试 Agent 行为非常有价值
PRS + VSPO
  • PRS(Progressive Reward Shaping, 2025)通过课程式的 Reward 演化来解决信用问题
    • 在训练初期,密集的 Reward 关注格式正确性
    • 在后期阶段,Reward 转向任务准确性
  • VSPO(Value-based Sampling Policy Optimization)通过优先训练那些信用信号信息量最大的轨迹来补充 PRS
    • PRS 是一种 Reward 塑形方法而非纯粹的信用分配算法,但 PRS 渐进的 Reward 密集化过程在训练过程中有效地执行了从粗到细的信用分配
Adaptive Segment-Level Reward
  • Adaptive Segment-Level Reward(2024) 使用语义分割来将轨迹划分为长度均衡的 Segment ,而不管其长度如何 ,从而确保 Reward 粒度的一致性
  • 自适应分割防止了病理情况 ,即长轨迹获得实际上均匀的信用 ,而短轨迹获得过于嘈杂的信用

Discussion: Emerging Patterns in Agentic CA

  • Agentic 信用分配的格局揭示了几种将其与 Reasoning RL 区分开来的独特模式:
    • 1)Hindsight 正成为一种突出的方法
      • 三种最新的方法(HCAPO、C3、CCPO)都使用了事后回顾分析
      • 这种趋同性表明,在 Agentic RL 中,后向分析(“鉴于所发生的事情,这个 Action 有多重要?”)可能比前向预测(“这个状态有多大的价值?”)更实用,后者由于随机转移和部分可观测性而不可靠
    • 2)LLM-as-Critic 显得特别强大
      • 与经典 RL 不同(其中 Critic 是学习得到的、推理能力有限的神经网络),LLM Agent 可以利用 LLM 本身(或另一个 LLM)来对中间状态执行复杂的语义评估
        • CAPO、SWEET-RL、HCAPO、CriticSearch 和 LaRe 都利用了这种能力
      • LLM-as-Critic 范式在经典 RL 中没有直接的对等物,它代表了一个似乎是 LLM 时代所特有的方法论轴
    • 3)层级结构至关重要
      • ArCHer、PilotRL 和 CARL 都表明,尊重 Agentic 任务的层级结构(规划 \( \rightarrow \) 执行 \( \rightarrow \) 验证)能够改善信用分配
      • HICRA(2025)虽然是为 Reasoning RL 开发的,但提供了为这些 Agentic 方法提供信息的基础性 Insight
        • 将所有 Action 一视同仁的扁平化方法会遗漏重要的结构信息
    • 4)关键 Action 识别优于均匀信用分配
      • CARL 中有一个发现:将信用集中在高熵 Action 上可以在远少于全信用分配所需的更新次数下达到匹配的性能
        • 这表明 Agentic CA 的目标不必是为每个 Action 分配完美的信用,而是要识别并关注那些重要的 Action
        • 这种“稀疏信用”的视角比密集信用分配更高效,也可能更鲁棒
    • 5)实际考虑因素占主导地位
      • Agent Lightning、SPA-RL 和 RAGEN 表明,在生产环境中,简单高效的方法 (解耦的训练架构、基于 MLP 的进度估计、基于不确定性的过滤)可能与复杂的信用算法同等重要
      • 信用质量与计算成本之间的权衡是 Agentic CA 的一级设计考量

Multi-Agent Credit Assignment

  • 随着 LLM 系统向多 Agent 架构演进(编排器 + 专家 Agent、辩论框架、协作推理),credit 除需在时间维度上分解外,还必须在 Agent 之间进行分解

Multi-Agent Methods

M-GRPO
  • M-GRPO(Multi-Agent GRPO, 2025)将 GRPO 框架扩展到多 Agent LLM 系统
  • 在一个具有一个主 Agent 和 \(K\) 个子 Agent 的系统中,M-GRPO 引入了一个两层的 credit 分解:
    • (1)Agent 间 credit:一个元级优势,用于确定每个 Agent 对团队结果的总体贡献,通过比较不同团队组成下的结果来计算
    • (2)Agent 内 credit:每个 Agent 轨迹内部的标准 GRPO 风格优势
  • M-GRPO 支持解耦训练:
    • Agent 可以使用它们的 Agent 间 credit 作为奖励信号独立更新,避免了联合优化的协调开销
LLM-MCA
  • LLM-MCA(2025)用一个基于 LLM 的集中式 Critic 取代了传统的多 Agent credit 分配机制(QMIX, VDN, COMA 混合网络)
  • 给定所有 Agent 的完整交互历史,LLM Critic 阅读对话,识别每个 Agent 的贡献,并生成关于每个 Agent credit 的自然语言评估
    • 然后将这些评估转换为标量奖励用于策略更新
  • 关键优势在于语义理解:
    • LLM Critic 能够以纯数值混合函数无法做到的方式,推理 Agent 角色、通信质量和战略贡献
QLLM
  • QLLM(2025)采用了一种 Meta-level 方法:
    • QLLM 不让 LLM 评估 credit,而是让 LLM 生成 credit 分配函数本身
  • 给定一个任务描述和示例轨迹,QLLM 提示一个 LLM 编写一个 Python 函数,该函数计算每个 Agent 的 credit 分数
    • 这个生成的函数随后以零边际成本应用于所有训练轨迹
  • QLLM 方法无需训练且高度灵活,尽管其质量取决于 LLM 生成正确 credit 函数的能力
  • 理解:QLLM 方法本身很有想法,相当于允许 LLM 去通过调用或编写脚本来判断 Critic,但这可能导致得到的结果不太符合预期,对 LLM 的代码能力要求很高
SHARP
  • SHARP(Shapley Credit-based Optimization,基于 Shapley Credit 的优化,202602)将原则性的 Shapley 值分解引入多 Agent LLM 系统
    • 对比之前的方法 SCAR:
      • SCAR(第 3.2 节)将 Shapley 值应用于推理段
      • SHARP 将其应用于 Agent 之间
  • SHARP 框架将奖励分解为三个部分:
    • (1)用于整体任务完成的全局 broadcast-accuracy 奖励
    • (2)通过 coalition 分析计算每个 Agent 特定贡献的、基于 Shapley 的边际 credit 奖励
    • (3)用于执行效率的工具过程奖励
  • 通过对轨迹组进行 Agent 特定优势的归一化来稳定训练
  • SHARP 报告称,相比单 Agent 基线平均提高了 23.7%,相比多 Agent 基线提高了 14.1%,为迄今为止基于 Shapley 的 credit 能改善多 Agent LLM 训练提供了最强有力的实证证据
MAPPA
  • MAPPA(Multiagent Per-Action Process Awards,多 Agent 每个动作的过程奖励,202601)通过提供来自 AI 反馈的每个动作的过程奖励,解决多 Agent 微调中的 credit 分配和样本效率问题
  • MAPPA 不等待终端任务结果,而是使用一个 AI Judge 单独评估每个 Agent 的动作 ,从每次 rollout 中提取最大的训练信号
  • MAPPA 在数学竞赛中表现:
    • 在 AIME 上达到了 \(+5.0 - 17.5\) 个百分点
    • 在 AMC 上达到了 \(+7.8 - 17.2\) 个百分点的提升
  • 在数据分析任务上 MAPPA 成功率提高了 \(+16.7\) 个百分点
  • 这些是多 Agent CA 方法中报告的最大增益之一,证明了每个动作的粒度对于多 Agent 系统至关重要
Dr.MAS
  • Dr.MAS(202602)识别出将 GRPO 扩展到多 Agent 系统时的一个特定失败模式:
    • 全局归一化基线偏离了异构 Agent 的奖励分布,造成梯度不稳定
  • 解决方案是 Agent 级别的优势归一化
    • 每个 Agent 的优势使用该 Agent 自身的奖励统计量 而非全局统计量进行归一化
    • 这使得梯度规模在不同 Agent(例如,一个代码专家 vs. 一个搜索专家)之间得到校准 ,减少了梯度尖峰
  • Dr.MAS 报告称在数学任务上获得了 \(+5.6%\) 的平均@16 性能,同时实现了稳定的收敛,而标准的多 Agent GRPO 则会发散

C3(再次讨论) (2026). C3 的反事实框架自然扩展到多 Agent credit:Agent \(k\) 的 credit 为 \(c_{k} = R(\tau) - R(\tau_{k})\),其中 \(\tau_{k}\) 是没有 Agent \(k\) 的反事实轨迹。这种留一法方法提供了满足自然公平属性的清晰分解

Discussion: Multi-Agent CA as an Emerging Frontier, 多 Agent CA 作为一个新兴前沿领域

  • 多 Agent credit 分配已从一个新兴领域发展为一个快速发展的领域,在本文的盘点中有 6 篇专门论文(M-GRPO, LLM-MCA, QLLM, SHARP, MAPPA, Dr. MAS),加上 C3 的跨场景框架
  • 目前,Multi-Agent CA 关键的开放问题包括:
    • 通信 credit: Agent 是否应该因发送有用消息而获得 credit?
      • 当前方法仅将 credit 分配给与任务相关的动作,忽略了 Agent 间的通信价值
    • 异构架构: 当 Agent 具有不同的能力时(例如,一个代码专家和一个搜索专家),应如何公平地分解 credit?
    • 可扩展性: 对于 \(K\) 个 Agent,留一法方法需要 \(K\) 次反事实评估
      • 对于拥有数十个 Agent 的系统,需要可扩展的近似方法
    • 与经典 MARL 的联系: 经典的多 Agent RL 拥有丰富的 credit 分配文献(QMIX, COMA, MAPPO),但这些都假设动作空间是固定维度的
      • 将它们适应于可变长度的文本动作并非易事
  • 随着多 Agent 系统在生产环境中的快速部署,面向 LLM 的多 Agent credit 分配将在 2026-2027 年成为一个重要的增长领域

Systematic Comparison

Unified Comparison Table

  • 注:原文这里确少内容

Benchmark Landscape

Reasoning RL benchmarks
  • Reasoning RL 的 Credit Assignment 方法受益于完善的基准测试:
    • GSM8K(小学数学,8.5K 个测试问题)
    • MATH(竞赛数学,5 个难度级别的 5K 个问题)
    • AIME(美国 Invitational 数学考试)
    • CodeContests(编程竞赛)
  • 这些基准测试提供了可验证的真实结果,使得能够直接比较 CA 方法
  • 几篇论文 (VinePPO, PURE, SPRO) 在重叠的子集上报告了结果,尽管基础模型、训练数据和超参数的差异使得完美比较变得困难
Agentic RL benchmarks
  • Agentic CA 的基准测试格局明显更加碎片化:
    • 网页导航:WebArena (2024a), Mind2Web, WebShop
    • 工具使用:ToolBench, API-Bank, Gorilla
    • 交互式编码:SWE-bench, HumanEval+, MBPP+
    • 具身/模拟:ALFWorld, ScienceWorld, Minecraft
    • 多 Agent (Multi-Agent):ChatDev, MetaGPT 评估套件
  • 很少有 Agentic CA 论文使用相同的基准测试,这使得系统比较几乎不可能
  • 这种碎片化本身就是进步的主要障碍:没有共享的评估,社区就无法确定哪些 CA 方法真正更好,而哪些只是受益于有利的基准测试选择
  • 理解:主要还是 Agentic RL 场景太多,大家都更多只关注自己的领域吧,而且像 SWE-Bench 等其实已经比较广泛被关注和使用了,应该是会覆盖到的?

Quantitative Performance Comparison,定量性能比较

  • 尽管基础模型和训练配置存在差异,本文仍整理了可用的定量结果,以提供 CA 方法所实现收益的具体情况
  • 表 6 和表 7 总结了原始论文中报告的结果
    • 注意:不同基础模型的结果不能直接比较;相对于每篇论文自身基线(通常是 GRPO 或 PPO)的增益是最有意义的比较
  • Descriptive Pattern: CA Improvements and Trajectory Length,描述性模式:CA 改进与轨迹长度
    • Evidence-level:有限但具有启发性 (Agentic RL 方向有 6 中方法,跨 6 种方法,异质条件)
    • 在基于 GRPO 基线的方法中,Agentic 子集显示出比推理子集更高的平均 \(\Delta\)
      • Agentic:\(+8.5\), \(n = 5\), 2 种方法
      • Reasoning:\(+6.0\), \(n = 8\), 4 种方法
      • 该现象对单一异常值剔除是稳健的
        • 修正后的差距: \(+7.5\) vs. \(+4.5\)
        • 这与理论预期一致,尽管并非证明,即 Episode-level Credit 随着轨迹长度的增加而更严重地退化
    • 其他关键混淆因素:
      • (1) 不同的基础模型
      • (2) 推理基准测试可能具有较低的提高空间
      • (3) Agentic 子集由 GiGPO 主导 (3/5 个数据点)
    • 本文仅将此作为对本文叙述性主张的粗略压力测试,而不是单独作为充分的证据
      • AgentPRM 的 \(+19.0%\) (相对于 ORM 基线) 和 SWEET-RL 的 \(+6.0%\) (相对于 DPO 基线) 被排除在外,但与该模式一致

Key Trade-offs Across the Spectrum,整个范围内的关键权衡

  • 本文的分析揭示了四个基本权衡,它们构成了 CA 方法的设计空间
  • 本文用 Evidence-level 注释每一点:
    • [SE] = 强经验性(Strong Empirical),[LS] = 有限但具有启发性(Limited but Suggestive),[AS] = 作者合成(Authors’ Synthesis)
  • 本文的标准:
    • [SE] 需要来自 \(\geq 3\) 篇独立论文的趋同发现,或 \(\geq 2\) 篇具有多基准评估和明确消融研究的论文
    • [LS] 表示 1-2 篇论文、狭窄的基准测试或实质性的混淆因素
    • [AS] 表示未经比较性证据直接建立的概念性综合
Granularity vs. computational cost [SE]
  • 粒度 vs. 计算成本
  • 更细的 Credit 粒度(Token-level)提供更精确的训练信号,但计算成本更高
    • VinePPO 需要 \(\mathcal{O}(K\cdot L)\) 次额外的 Forward Pass
    • SCAR 需要指数级的联盟评估
  • Turn-level 方法 (CARL, SWEET-RL) 为 Agentic RL 提供了一个实用的最佳平衡点
  • Episode-level 方法 (GRPO) 最便宜但信息量最少
Forward estimation vs. hindsight analysis [AS]
  • 前向估计 vs. 事后分析
  • 前向方法 (PRM, VinePPO, AgentPRM) 从当前状态估计价值,需要环境重新执行或学习到的近似
  • 事后方法 (HCAPO, C3, CCPO) 在轨迹收集后分析 Credit
  • 事后方法具有严格的信息优势,但引入了延迟,并可能遭受事后偏差
Auxiliary model requirements [SE]
  • Auxiliary model requirements 方法涵盖了一个广泛的范围:
    • 有些不需要辅助模型 (CARL, iStar, GiGPO)
    • 有些需要轻量级辅助模型 (SPA-RL 的 MLP)
    • 有些需要单独 Critic 或 PRM (ArCHer, AgentPRM, PURE)
    • 还有一些需要 LLM 规模的评估 (CAPO, HCAPO, LLM-MCA)
  • 辅助模型需求直接影响可扩展性
Reasoning-specific vs. agent-general [LS]
  • 在 Reasoning RL 背景下开发的方法 (VinePPO, PURE, HICRA) 利用了在 Agentic 环境下会失效的假设(确定性转移、可验证步骤)
  • 为 Agentic RL 开发的方法 (HCAPO, SWEET-RL, CARL, GiGPO) 做出的此类假设较少

Practical Guidance: Matching Methods to Scenarios,实践指导:根据场景匹配方法

  • 表 8 提供了一个基于任务特征选择 CA 方法的实用指南
    • 这些建议反映了本文作者对文献的综合,实际性能可能因基础模型、数据分布和训练基础设施而异
  • 图 4 提供了一个补充的决策树,将表 8 操作化为一个逐步选择过程
Retrospective validation,回顾性验证
  • 本文作者追踪了 6 个已知的(任务,方法)对通过决策树:
    • SPO 在 GSM8K 上
    • HICRA 在 AIME’24 上
    • VinePPO 在 MATH 上
    • GiGPO 在 ALFWorld 上
    • SWEET-RL 在 ColBench 上
    • HCAPO 在长时域 Agentic 任务上
  • 所有 6 个都被成功回溯 (6/6)
    • 这验证了内部一致性

Credit Assignment in the Agentic RL Training Pipeline

  • Credit Assignment 不是孤立运作的
    • Credit Assignment 是一个五阶段流程中的一个组件:
      • (1) 环境构建(沙盒执行)
      • (2) Rollout 生成(多轮 Agent-环境交互)
      • (3) 奖励计算(Terminal 任务成功)
      • (4) Credit Assignment(本文的重点)
      • (5) 策略更新 (PPO/GRPO/DPO)
  • 本节关注 CA 与其他阶段之间的交互,这些交互经常被忽视

Interactions Between Credit Assignment and Other Pipeline Components

CA × Rollout efficiency,效率
  • 更好的 Credit Assignment 会减少有效学习所需的 Rollout 数量
    • CARL (2025) 直接证明了这一点:
      • 通过将 Credit 集中在关键 Action 上,以 \(72%\) 更少的梯度更新实现了等效性能,这转化为比例更少的 Rollout
  • 更广泛地说,细粒度的 Credit 降低了梯度方差,使得更小的批量大小和更快的收敛成为可能
    • 这创造了一个良性循环:
      • 将计算投入更好的 CA(例如,运行 VinePPO 的 Vine 扩展)可以通过减少 Rollout 需求来回收
    • 在 “更多 Rollout 配合粗糙 Credit” 和 “更少 Rollout 配合精确 Credit” 之间计算的最佳分配是一个关键的空缺问题(见第 9 节)
      • 理解:即把时间/算力更多分配给 Rollout 还是 Credit 是一个需要谈的问题
CA × Reward Design
  • Credit Assignment 方法有时会隐含地重新定义奖励函数
    • PRS (2025) 明确地用渐进式密集奖励替换了 Terminal 奖励
    • IGPO (2025a) 将二元成功信号转换为信息增益增量
  • 这模糊了“奖励设计”和“Credit Assignment”之间的界限
    • 两者都是为策略优化器提供有用训练信号的机制
  • 本文作者观点:CA 不应被视为对固定奖励的后处理步骤,CA 应被视为奖励工程的一个组成部分
CA × Exploration
  • Credit 信号原则上可以指导探索:
    • Agent 应优先探索 Credit Assignment 不确定(Credit 估计的高方差)的状态,因为这些状态是需要更多信息来改进策略的状态
    • IGPO (2025a) 通过信息论的术语定义 Credit,朝这个方向做出了示意,但目前没有方法明确使用 CA 不确定性来驱动探索
  • 这是一个重大的错失机会

Infrastructure Challenges Specific to Agentic RL

  • Agentic RL 训练面临 Reasoning RL 中不存在的、直接影响 Credit Assignment 的基础设施挑战:
    • 环境重置成本 (Environment reset cost)
      • 重置一个沙盒环境(启动 Docker 容器、初始化浏览器会话、加载代码库)可能需要数秒到数分钟
      • 重置一个沙盒环境 比“重置”一个推理任务(加载一个新的 Prompt)的可忽略成本高出几个数量级
      • 后果:基于 MC 的 CA 方法(需要从中间状态重新执行环境)尤其昂贵
    • 不可微的转移 (Non-differentiable transitions)
      • 环境交互(API 调用、代码执行)中断了计算图,阻止了基于梯度的 Credit 归因
      • 所有 CA 方法必须与黑盒环境转移一起工作,依赖价值估计、事后分析或基于 LLM 的评估,而不是梯度流
      • 理解:在 Agentic RL 中,不可微分的外部操作(如 API 调用、代码执行、用户交互)切断了从最终成败结果反向追溯到具体 Action 参数的自动微分路径
        • 导致:不能用简单的反向传播训练:因为梯度传不回来,所以不能像训练神经网络那样直接训练 Agent 做决策,必须使用 RL 的 Credit 分配
    • 训练期间的安全性 (Safety during training)
      • Agentic RL Rollout 可能有现实世界的影响:发送实际的 API 请求、修改文件、发布到网络
      • 训练 Rollout 期间的安全约束可能与探索要求冲突,并且对于“安全但次优”与“有风险但信息丰富”的 Action 的 Credit Assignment 是一个未被充分探索的挑战
    • 异步训练 (Asynchronous training)
      • 现代 Agentic RL 系统 (AReaL, Laminar) 使用异步 Rollout 生成和策略更新来最大化 GPU 利用率
      • 异步训练引入了策略滞后:
        • 当 Credit 被计算时,策略可能已经改变
        • CA 方法必须对这种陈旧性具有鲁棒性,偏爱 Off-policy 兼容的方法 (ArCHer 的 Off-policy Critic,重要性采样校正)

Open Problems and Future Directions

The Agentic Frontier: Where Credit Assignment Must Go, Agentic 前沿:CA 的未来

Ultra-Long Horizon Agents,超长时域 Agent
  • 当前的 Credit Assignment 方法已在 5-30 轮的轨迹上进行了评估
  • 现实世界的 Agent 会更多,比如处理 SWE-bench 问题的软件工程助手通常会执行 50-100+ 轮,消耗 100K-500K 个 Token (2025d; 2025),自主研究 Agent 进行多天实验,桌面自动化 Agent 需要 50-100 步及大量上下文
  • 在这些规模下,即使是 Turn-level Credit Assignment 也可能不足:
    • 轮数之多使得每轮 Credit 估计计算量巨大且统计上不可靠
  • 本文作者推测分层方法 (ArCHer, HICRA, PilotRL) 代表了最有前途的方向,但当前的层次太浅(通常为 2 层)
    • 超长时域 Agent 可能需要更深、更灵活的层次结构,能够动态适应任务复杂性
    • 或许可以 Mirroring Agent 自身使用的分层规划结构
Open-World Agents Without Verifiable Rewards,没有可验证奖励的开放世界 Agent
  • 大多数 Credit Assignment 方法假设可以访问二元或标量的 Terminal 奖励(任务成功/失败)
  • 这个假设对于定义良好的任务(数学、编码、具有明确目标的网页导航)成立,但对于开放世界 Agent 则失效:
    • 个人助手(“用户满意吗?”)
    • 创意写作 Agent(“这个故事好吗?”)
    • 研究助手(“这个实验有信息量吗?”)
  • 在这些设置中,Terminal “奖励”本身是不确定的、主观的,或无限期延迟
    • 在奖励模型本身具有显著不确定性的情况下进行 Credit Assignment 基本上仍未解决
    • 一个有希望的方向是将 CA 方法与 RLHF 奖励模型连接起来,使用奖励模型的置信度作为 Credit 信号的加权因子
Multi-Agent Systems at Scale
  • 如第 6.2 节所讨论的,多 Agent Credit Assignment 尚处起步阶段
  • 随着 LLM 系统扩展到数十个具有不同专长的协作 Agent,Credit 分解问题呈指数级增长
  • 三个具体挑战尤为突出:
    • (1) 可扩展分解:基于 LOO 的方法 (C3) 需要 \(K\) 次反事实评估来处理 \(K\) 个 Agent;需要亚线性近似
    • (2) 沟通的 Credit:当前方法仅对任务 Action 进行 Credit 归因,忽略了 Agent 间消息的价值
    • (3) 部分团队可观测性下的 Credit:每个 Agent 仅看到自己的交互,使得在分散部署中进行集中式 Credit 计算具有挑战性

Theoretical Frontiers

Credit Assignment Meets Exploration
  • 更好的 Credit Assignment 应该能够实现更有针对性的探索,然而当前的方法将 CA 和探索视为独立的问题
  • 这种联系是自然的:
    • Credit Assignment 最不确定的状态正是 Agent 应该探索的状态,因为需要更多信息来解决模糊性
  • IGPO (2025a) 通过信息论的术语定义 Credit 提供了一个起点,但目前没有方法明确使用 Credit 不确定性来驱动探索
  • 本文作者认为这是最有前途的研究方向之一,因为它可以同时提高样本效率和 Credit 质量
Formal Guarantees,形式化保证
  • 大多数用于 LLM RL 的 Credit Assignment 方法缺乏形式化的收敛保证
    • VinePPO (2025) 证明了其 MC 估计是无偏的
    • PURE (2025) 分析了在特定条件下 Min-form Credit 的最优性
    • CCPO (2026c) 在因果假设下提供了保证
    • 但大多数方法(特别是 LLM-as-Critic 方法 (CAPO, HCAPO, LaRe))只有经验验证
  • 在基于 LLM 策略的 POMDP 中发展 Credit Assignment 质量的理论分析是一个完全开放的挑战
    • 关键问题包括:
      • 在什么条件下,近似的 Credit Assignment 能收敛的策略优化?
      • 从 imperfect Credit 信号中学习的样本复杂度是多少?
The Computation-Signal Trade-off,计算-信号权衡
  • 一个基本问题贯穿整个领域:
    • 给定固定的计算预算,下面那个选项更好:
      • (a) 生成更多 Rollout 配合粗糙的 Episode-level Credit (GRPO)
      • (b) 生成更少 Rollout 配合精确的细粒度 Credit (VinePPO, HCAPO)
    • 这就是“CA 效率前沿”,类似于改变了监督学习的计算最优 Scaling Laws
    • 没有论文提供系统的答案
  • 本文作者推测,随着轨迹长度的增加,最优分配会向细粒度 Credit 转移:
    • 对于短推理任务,更多 Rollout 可能更有效
    • 对于长 Agentic 任务,更好的 Credit 可能值得其成本

Practical Frontiers

Unified Benchmarks for Credit Assignment
  • 缺乏评估 CA 方法的标准基准测试是进步的主要障碍
  • 论文使用不同的任务、基础模型、训练配方和评估指标,使得比较几乎不可能
  • 本文作者呼吁建立一个统一的 CA 基准测试套件,涵盖:
    • (1) 具有已知真实步骤 Credit 的推理任务(通过穷举 MC 评估)
    • (2) 具有受控分叉点的 Agentic 任务(可计算“正确” Credit 的合成环境)
    • (3) 具有设计好的 Credit 结构的多 Agent 任务
  • 这样的基准测试将能够实现同类比较并加速方法论进展
Credit Assignment and Memory
  • 长上下文 Agent 越来越多地使用记忆机制(显式检索、草稿本、长期数据库)
  • 应如何对与记忆相关的 Action(存储信息、检索过去上下文、更新摘要)进行 Credit Assignment?
  • 一个在第 5 轮看似无用的检索 Action 可能在第 25 轮当存储的信息变得相关时被证明至关重要
  • 这种记忆 Credit 的时间跨度远远超过了当前 CA 方法的典型前瞻范围,需要全新的方法
    • 可能借鉴经典 RL 中的资格迹,并将其扩展到 LLM Agent 的语义记忆
From Reasoning to Agentic: Transfer and Adaptation
  • 推理 CA 方法能否有效地适配到 Agentic 环境?
    • VinePPO 的 Vine 扩展可以应用于 Agentic 轮次(在轮边界而非 Token 位置分支),但需要环境检查点
    • PURE 的 Min-form Credit 可以扩展到用于 Agent 的 Turn-level PRM
    • HICRA 的规划-程序性区分可以应用于 Agentic 轨迹,其中功能区分更加显著
  • 系统地研究哪些推理 CA 技术可以迁移到 Agentic 环境(以及需要什么修改)将是一个有价值的贡献,连接起本文分类法的两半

Threats to Validity

  • 对本 Survey 结论有效性的几个威胁:
    • 预印本波动性 (Preprint volatility)
      • 所审查的论文大多数是尚未经过同行评审的 arXiv 预印本
      • 它们的方法、结果甚至标题都可能改变
      • 本文将分析快照定格在 2026 年 4 月
    • Selection bias
      • 尽管采用了系统的搜索协议(第 1.1 节),但可能遗漏了非索引场所、行业报告或作者截止日期后的并发预印本中的相关工作
    • Non-comparability of results,不可比结果
      • 定量表格汇集了来自不同基础模型、基准测试和训练配置的结果
      • 跨论文比较是说明性的,而非受控实验
    • Taxonomy boundary ambiguity,分类方法边界模糊
      • 本文将方法分类为推理 vs. Agentic RL,以及核心 vs. 辅助,涉及判断
      • 一些方法跨越边界
    • Single-coder limitation
      • 所有的筛选、分类和 Evidence-level 编码均由单一作者完成?【真厉害】

Supplementary Material Release

  • 为了最大化本 Survey 的复用价值,作者承诺在发布时提供以下补充材料:
    • 结构化清单 (CSV 和 JSON) :包含所有 47 篇论文的完整清单,包含所有分类法标签、基线系列、 Evidence-level 、主要基准测试和 arXiv 标识符,采用机器可读格式,适用于程序化分析、筛选和扩展
    • 筛选日志 (Screening log) :来自作者搜索协议(第 1.1 节)的候选论文完整列表,包含包含/排除的决定和理由,使得能够验证和扩展作者的覆盖范围
    • 分类法标签 (Taxonomy labels) :每种方法的粒度 \(\times\) 方法论分类,采用允许自动生成分类法网格(图 2)和比较表(表 5)的格式
    • 报告检查表模板 (Reporting checklist template) :一个独立的 PDF/LaTeX 模板的报告检查表(表 11),作者可以在论文投稿中作为补充自查包含
    • 基准测试协议模式 (Benchmark protocol schema) :用于提议的基准测试元数据格式(第 9 节)的 JSON schema 文件,使得 CA 评估结果的标准化报告成为可能
  • 注:所有材料将托管在一个公共 GitHub 仓库上

附录 A:方法快速参考索引

  • 表 9 提供了本文回顾的所有方法的字母顺序索引,包含全名、arXiv 标识符(如有)以及章节参考,方便快速查阅
    缩写 全名 参考文献 章节
    ACPO Attribution-based Credit for RLVR Yin 等 (2025) §3.3
    AgentPRM Process Reward Model for LLM Agents Xi 等 (2025) §5.1
    ArCHer Actor-Critic with Hierarchical Evaluation Zhou 等 (2024c) §5.4
    C3 Contextual Counterfactual Credit Chen 等 (2026) §5.2
    CAPO Credit Assignment Policy Optimization Xie 等 (2025) §3.3
    CARL Critical Action Reinforcement Learning Shen 等 (2025) §5.4
    CCPO Counterfactual Credit Policy Optimization Li 等 (2026c) §5.2
    CriticSearch Retrospective Critic for Search Agents Zhang 等 (2025c) §5.2
    Dr. MAS Stable RL for Multi-Agent LLMs Feng 等 (2026) §6
    FinePO Fine-Grained Process Reward (SketchVL) Huang 等 (2026) §3.3
    From r to Q* Implicit Token-Level Credit via DPO Rafailov 等 (2024) §3.1
    GiGPO Group-in-Group Policy Optimization Feng 等 (2025) §5.3
    HCAPO Hindsight Credit Assignment PO Tan 等 (2026) §5.2
    HICRA Hierarchy-Aware Credit Assignment Wang 等 (2025c) §3.3
    IGPO Information Gain Policy Optimization Wang 等 (2025a) §5.5
    InT Self-Proposed Interventions for CA Yang 等 (2026) §3.3
    iStar Implicit Step Rewards Liu 等 (2025) §5.6
    ITPO Implicit Turn-Level Process Rewards Wang 等 (2026) §5.1
    LaRe Latent Reward Qu 等 (2025) §5.7
    Lightning Agent Lightning / LightningRL Luo 等 (2025) §5.7
    LLM-MCA LLM-based Multi-Agent CA Nagpal 等 (2025) §6
    M-GRPO Multi-Agent GRPO Hong 等 (2025) §6
    MAPPA Multiagent Per-Action Process Awards Li 等 (2026a) §6
    PilotRL Global Planning-Guided Progressive RL Lu 等 (2025) §5.4
    POAD Policy Optimization with Action Decomposition Wen 等 (2024) §5.3
    PRL Process Reward Learning Yao 等 (2026) §3.3
    PURE Min-Form Process Reward Cheng 等 (2025) §3.3
    QLLM LLM-Generated Credit Functions Li 等 (2025c) §6
    RAGEN/StarPO Star Policy Optimization Wang 等 (2025d) §5.7
    RED Reward Redistribution to Token Level Li 等 (2024a) §3.1
    SCAR Shapley Credit Assignment Rewards Cao 等 (2025) §3.2
    SHARP Shapley Credit-based Multi-Agent Optimization Li 等 (2026b) §6
    SCRIBE Structured Mid-Level Supervision Jiang and Ferraro (2026) §5.7
    SPA-RL Stepwise Progress Attribution Wang 等 (2025b) §5.7
    SPO Segment Policy Optimization Guo 等 (2025) §3.2
    SPRO Self-Guided Process Reward Fei 等 (2025) §3.3
    SORL Stabilizing Off-Policy RL (SO-PPO/SO-GRPO) Li 等 (2025a) §5.1
    StepAgent Step-Wise IRL Agent Deng 等 (2024) §5.6
    SWEET-RL Privileged Critic for Multi-Turn Agents Zhou 等 (2025) §5.1
    TARL Turn-Level Adjudicated RL Tan 等 (2025) §5.1
    TEMPO Tree-Structured Credit Assignment Tran 等 (2025) §3.2
    T-REG Token-Level Reward Regularization Zhou 等 (2024b) §3.1
    Turn-PPO Turn-Level Optimized PPO Li 等 (2025b) §5.1
    VinePPO Monte Carlo Token-Level PPO Kazemnejad 等 (2025) §3.1

附录 B:完整论文清单

  • 表 10 提供了本 Survey 回顾的所有 47 篇论文的完整清单,并附有分类标签和结构化元数据
    • 类型: C = 核心 CA 方法, E = CA- 相关辅助方法
    • Setting: R = Reasoning RL, A = Agentic RL, M = 多 Agent
    • BL (Baseline Family): G = GRPO, P = PPO, D = DPO, O = ORM, T = TD
    • Ev. (Evidence Level): S = 强实证, L = 有限但有启发性, A = 主要为分析性
  • 分类说明: 回顾的 47 篇论文包括 41 篇核心 CA 方法(#1-35, #42-47)和 6 篇 CA 相关辅助方法(#36-41)
    • 分类编码由本文作者完成
    • 本文作者在第 9.4 节中承认这是一个局限性,并且这个分类不是唯一有效的
    • 基础性论文(Math-Shepherd, OmegaPRM, GRPO, DeepSeek-R1)在背景章节中讨论,但不计入 47 种回顾方法中
  • Complete paper inventory with taxonomy labels (41 core + 6 adjacent = 47 total)
    # 方法 类型 Setting Gran. 方法论 BL Ev. 主要 Benchmarks
    Reasoning RL — 核心 CA 方法 (15)
    1 VinePPO C R Token MC P S GSM8K, MATH
    2 RED C R Token Redistribution P L MATH
    3 T-REG C R Token Self-generated P L GSM8K, MATH
    4 From r to Q* C R Token Implicit D A 理论分析
    5 SPO C R Segment MC G S MATH-500, GSM8K
    6 SCAR C R Segment Game-theoretic G L MATH
    7 TEMPO C R Token/Segment Tree-TD P L MATH, GSM8K
    8 PURE C R Step Min-form PRM G S MATH-500, AIME’24
    9 SPRO C R Step Masked Adv. G S MATH-500, AMC
    10 CAPO C R Step LLM-as-Critic G S MATH-500, AIME’24
    11 ACPO C R Step Attribution G L MATH
    12 HICRA C R Step Hierarchy G S AIME’24, AIME’25
    13 PRL C R Step Entropy-RL G L MATH, GSM8K
    14 InT C R Step Intervention G L MATH
    15 FinePO C R Sub-step Fine PRM — L 特定领域 (visual)
    Agentic RL — 核心 CA 方法 (20)
    16 ArCHer C A Turn TD (hierarchical) T S 多轮对话
    17 StepAgent C A Step Implicit+IRL G L 工具使用任务
    18 POAD C A Token/Turn Action Decomp. P S 交互式任务
    19 GiGPO C A Step MC (group) G S ALFWorld, WebShop
    20 SWEET-RL C A Turn Privileged Critic D S ColBench Backend
    21 AgentPRM C A Step TD+GAE O S WebShop, TextCraft
    22 Turn-Level C A Turn Hybrid G L Web 导航
    23 Turn-PPO C A Turn Turn-level MDP G S WebShop
    24 SORL C A Turn Bias-corrected G L 多轮搜索
    25 TARL C A Turn LLM-Judge G S τ-bench
    26 ITPO C A Turn Implicit D L 对话任务
    27 IGPO C A Turn Info-theoretic G L Agentic 任务
    28 CARL C A Step Entropy-based G S HotpotQA, 2WikiMQA
    29 iStar C A Step Implicit DPO D L 轨迹对
    30 PilotRL C A Step Progressive G L Agentic 规划
    31 LaRe C A Step LLM-Critic G L 符号 + Agentic
    32 HCAPO C A Turn Hindsight G S Agentic 任务
    33 C3 C A/M Turn Counterfactual G L 多 Agent + Agentic
    34 CCPO C A/M Turn Counterfactual G L Agentic 任务
    35 CriticSearch C A Turn Retrospective Critic G S 多跳 QA
    Agentic RL — CA-相关辅助方法 (6)
    36 SPA-RL E A Step MLP estimator G L Agentic 任务
    37 Lightning E A Step Decoupled Arch. G L 多轮 Agent
    38 RAGEN E A Step Uncertainty G S Benchmark 套件
    39 SCRIBE E A Step Skill-prototype G L Agentic 任务
    40 PRS E A Step Progressive G S 渐进式任务
    41 AdaptSeg E A Segment Segmentation G L Agentic 任务
    多 Agent — 核心 CA 方法 (6)
    42 M-GRPO C M Multi-Agent Hierarchical G L 多 Agent 任务
    43 LLM-MCA C M Multi-Agent LLM-Critic G L 多 Agent 评估
    44 QLLM C M Multi-Agent LLM-generated G L 多 Agent 任务
    45 SHARP C M Multi-Agent Shapley G S 多 Agent 任务
    46 MAPPA C M Multi-Agent Per-action PRM G S AIME, AMC
    47 Dr. MAS C M Multi-Agent Agent-wise Adv. G S 数学任务
    背景 / 基础性 (不计入 47 种方法)
    Math-Shepherd — R Step MC labeling — S GSM8K, MATH
    OmegaPRM — R Step MC labeling — S MATH
    GRPO — R Episode Group baseline — S 数学, 代码
    DeepSeek-R1 — R Episode GRPO — S AIME, 数学, 代码

附录 C:未来 Credit Assignment 论文的报告清单

  • 注:详情见原文

NLP——LLM对齐微调-Rethinking-OPD

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Rethinking-OPD)Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe, THU, 20260414-20260415

Paper Summary

  • 整体说明:
    • 本文对 On-policy distillation(OPD) 进行了系统分析,OPD 的成功需要满足两个条件:
      • 思维模式一致性 (thinking-pattern consistency)
        • 理解:学生和教师应共享兼容的思维模式(thinking pattern)
      • 存在超越学生训练所见范围的真正新知识 (genuinely new knowledge)
        • 理解:即使思维模式一致且得分更高,教师也还必须提供学生在其训练中未曾见过的真正新能力
    • 当上述条件不满足时可以有一些补救措施:
      • Off-policy 冷启动
        • 注:附录 C.1 中证明了:SFT 冷启动导致了 student 和 teacher 之间更好、更稳定的匹配
      • 教师对齐的 Prompt 选择 (Teacher-aligned prompt selection)
        • 注意:这里的 Prompt 不是数据(Query),是 Prompt 模板
        • 从实验看,这里的 Prompt Template 对 OPD 的影响不小,详情见 6.2
    • 其他:OPD 在长轨迹上会发生奖励退化现象
      • 本文观点:OPD 中看似免费的密集 Token-level 奖励是有代价的,OPD 在长轨迹上会消失
      • 理解:教师遇到学生的长文时,是懵的,因为他自己不一定会生成这个前缀(没人考核他的这个能力),所以教师此时的信号对学生的可参考性不高,继续训练可能导致模型崩溃
        • 举例:学生做数学题时,如果已经写了很多错误的步骤了,老师可能也看不懂了,不知道怎么教导学生了
        • 注:这在长 CoT 和 多步 Agentic 场景中要尤为注意
      • Agentic 中的一个改进思路:
        • 推测:如果教师具备从错误步骤中恢复的能力(即不管从哪里续写都可以成功的教师),那么这种教师应该不太会受这种情况影响
        • 训练教师时就给教师一些从错误中恢复的能力,这样可以避免遇到错误的步骤,教师不知道怎么办
    • 本文的有趣实验:
      • 从弱到强的反向蒸馏实验:
        • 从学生视角看,同家族的 1.5B 和 7B 教师在分布上是不可区分的
        • 从 Token 层面看,成功的 OPD 的特点是在学生访问的状态上,高概率 Token 的渐进对齐,以及一个集中的共享 Token 集,该集合集中了绝大部分(97%-99%)的概率质量
  • 个人思考:
    • 可以考虑提出一种新的方法,针对不同长度的 Token 使用不同的 Advantage,比如前面的 Token 使用 OPD 的损失,后面的 Token 使用传统的 GRPO Advantage?

Introduction and Discussion

  • Qwen3 (2025)、MiMo (2026) 和 GLM-5 (2026) 等都在其后训练流程中采用了 OPD
  • Thinking Machines Lab (2025) 以极小的 RL 计算成本复现了 Qwen3 OPD 的配方,独立证实了同策略、密集的监督是一种实用高效的替代方案
  • OPD 的一个失败模式:
    • 一个更强的教师可能反而无法改进学生
    • 注:很少有研究探讨为什么教师的 Token-level 信号能将学生分布导向期望的方向,或者它失败的条件

Phenomenology,现象学

  • 本文第三节识别了 OPD 成功的关键因素:
    • (i) 思维模式一致性(thinking-pattern consistency) :
      • 学生和教师应共享一致的思维模式(例如,它们在 Top-\(k\) Token 分布上有更高的重叠率)
      • 即使教师获得了更高的基准分数,不匹配的思维模式会产生较低的重叠率,且训练无法完全恢复
    • (ii) 更高的分数 不等于 新知识 :
      • 即使思维模式一致且基准分数更高,教师也应提供学生尚未获得的知识
      • 当两个模型在相同的数据和配方上训练 时,它们会收敛到各自规模下的相似分布 ,导致 教师几乎没有可迁移的信号
      • 只有当教师拥有学生未曾见过的知识时,OPD 才能产生显著的收益
  • 本文通过反向蒸馏实验验证了这两个条件
    • 说明 OPD 学习的是思维模式,而不仅仅是受益于模式一致性,并且训练动态可以完全与基准分数解耦

Mechanism

  • 本文第四节进行了 Token-level 机制研究
  • 成功的 OPD 都表现出一个一致的特征(在所有研究的设置中):
    • 在学生访问的状态上,学生和教师的分布变得越来越相似
    • 高概率 Token 越来越多地重合(重叠率从 \(72%\) 上升到 \(91%\)),两个分布之间的熵差距缩小,且共享的 Top-\(k\) Token 集中了 \(97 - 99%\) 的组合概率质量
    • 成功模式的表现总结:重叠率稳步上升, Token-level 优势改善,熵差距缩小
  • 失败的运行从一开始就表现出停滞的重叠率和持续的熵不匹配
    • 将监督限制在重叠 Token 上就能匹配完整的 Top-\(k\) 性能,证实了重叠集是 OPD 梯度信号的主要作用点

Recipe

  • 第五节提出了两种互补的策略,可以在原本失败的配置中恢复 OPD:
    • (i) Off-policy 冷启动(off-policy cold start)
      • 在 OPD 之前,在教师生成的 Rollout 上进行一个预热 SFT 阶段,通过提高初始重叠率来弥合思维模式差距
      • 附录 C.1 中证明了:SFT 冷启动导致了 student 和 teacher 之间更好、更稳定的匹配
    • (ii) 与教师对齐的 Prompt 选择(teacher-aligned prompt selection)
      • 使用来自教师 Post-training 数据的 Prompt,以锐化高概率 Token 上的对齐
      • 注:但代价是学生熵显著降低,需要与分布外的 Prompt 混合使用
    • 在这两种情况下,恢复后的运行都表现出与 第四节 中自然成功的运行相同的动态特征:重叠率稳步上升, Token-level 优势改善,熵差距缩小

OPD 密集监督的代价

  • 奖励质量随着轨迹深度系统地下降,并且不稳定性起源于较后的 Token,然后反向传播到整个轨迹
  • 即使是失败的教师也能提供与 Rollout 正确性全局相关的奖励 ,这表明失败的原因不在于信号质量,而在于局部优化几何
  • 一个较大的教师可能诱导出一个在学生策略周围局部平坦的奖励景观,使得 Token-level 梯度无效(尽管存在一个信息丰富的全局信号)
  • 这些发现揭示了监督密度和监督可靠性之间的基本矛盾,并指出了当前 OPD 在长时程推理和 Agentic 设置中的局限性

Preliminaries

Notation

  • 令:
    • \(x = (x_{1},\ldots ,x_{n})\) 表示一个输入 Prompt
    • \(y = (y_{1},\ldots ,y_{m})\) 表示一个 Response
  • 将 \(y_{< t}\) 记为到第 \(t\) 步为止的前缀:
    $$ y_{< t}\triangleq (y_{1},\ldots ,y_{t - 1}) $$
  • 考虑两个 LLM:学生 \(\pi_{\theta}\) 和教师 \(\pi_{T}\)
    • 每个都定义了一个在词表 \(\mathcal{V}\) 上的下一个 Token 分布 \(\pi (\cdot \mid x,y_{< t})\)
  • 将 \(y\sim \pi_{\theta}(\cdot \mid x)\) 记为从学生自回归采样得到的一个 Response
    • \(\mathcal{D}\) 为 一个固定的,包含教师生成的输出的 Prompt-Response 对数据集 :
      $$\mathcal{D} = \{(x^{(i)},y^{(i)})\}_{i = 1}^{N}$$
      • 理解:\(y^{(i)}\) 是教师生成的
    • \(\mathcal{D}_x\) 为对应的 Prompt 集合:
      $$ \mathcal{D}_x\triangleq \{x^{(i)}\}_{i = 1}^{N} $$
  • 知识蒸馏(knowledge distillation,KD)通过最小化两个分布之间的散度来将知识从 \(\pi_{T}\) 转移到 \(\pi_{\theta}\)
    • 一个标准的选择是 Kullback-Leibler(KL)散度,对于 \(\mathcal{V}\) 上的两个分布 \(P\) 和 \(Q\),定义为
      $$ D_{\text{KL} }(P| Q) = \sum_{v\in \mathcal{V} }P(v)\log \frac{P(v)}{Q(v)} $$

On-Policy Distillation

  • OPD 在当前学生 \(\pi_{\theta}\) 采样的轨迹上计算监督
  • 给定一个 Prompt
    $$ x\sim \mathcal{D}_x$$
  • 学生采样一个 Response
    $$ \hat{y} = (\hat{y}_1,\ldots ,\hat{y}_T)\sim \pi_{\theta}(\cdot \mid x)$$
    • 其中 \(T\triangleq |\hat{y} |\) 表示 Rollout 长度
  • 然后在学生生成的前缀 \(\hat{y}_{< t}\) 上评估两个模型,在每个步骤 \(t\) 产生两个下一个 Token 分布:对于 \(\nu \in \mathcal{V}\),有
    $$
    p_t(\nu)\triangleq \pi_{\theta}(\nu \mid x,\hat{y}_{< t})\\
    q_t(\nu)\triangleq \pi_T(\nu \mid x,\hat{y}_{< t})
    $$
  • 一个标准的公式是在学生生成的轨迹上最小化序列级别的反向 KL:
    $$\mathcal{L}_{\text{OPD} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x}\left[D_{\text{KL} }(\pi_{\theta}(\cdot \mid x)\parallel \pi_T(\cdot \mid x))\right] \tag {1}$$
  • 利用自回归分解,这个序列级别的目标允许精确的 Token-level 分解:
    $$\mathcal{L}_{\text{OPD} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x,\hat{y}\sim \pi_{\theta}(\cdot |x)}\left[\sum_{t = 1}^{T}D_{\text{KL} }(p_t| q_t)\right] \tag {2}$$
  • 实践中不同的实现在如何计算这个精确的 Per-Token 反向 KL 上有所不同:
    • 全词表(Full-vocabulary) OPD 直接优化公式 (2)
    • Sampled-token OPD 使用 Per-Token-level KL 项的无偏蒙特卡洛估计
    • Top-\(k\) OPD 则用基于子集的近似替换全词表 KL
Sampled-Token OPD
  • 最轻量级的变体仅评估学生采样的 Token,也是先前同策略蒸馏工作中最常见的实现 (2025; 2026; 2026b)
  • 给定 \(\hat{y}_t\sim p_t\), Per-Token 的损失是
    $$ \ell_t^{\text{sample} }\triangleq \log p_t(\hat{y}_t) - \log q_t(\hat{y}_t)$$
  • 聚合为:
    $$\mathcal{L}_{\text{OPD} }^{\text{sample} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x,\hat{y}\sim \pi_{\theta}(\cdot |x)}\left[\sum_{t = 1}^{T}\ell_t^{\text{sample} }\right] \tag {3} $$
  • 此时每个 \(\ell_t^{\text{sample} }\) 都是 Token-level 反向 KL 的一个无偏单样本估计量
    • 证明:
      $$ \mathbb{E}_{\hat{y}\sim p_t}[\ell_t^{\text{sample} }] = D_{\text{KL} }(p_t| q_t)$$
      • 注:这里的 \(p_t\) 就对应上述的 Student 模型 \(\pi_\theta(\cdot|x)\)
Full-Vocabulary OPD
  • Full-Vocabulary 在每个前缀上计算整个词表上的散度:
    $$\mathcal{L}_{\text{OPD} }^{\text{full} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x,\hat{y}\sim \pi_{\theta}(\cdot |x)}\left[\sum_{t = 1}^{T}D_{\text{KL} }(p_t| q_t)\right] \tag {4} $$
    • 与 Sampled-Token OPD 相比,这产生了更密集的梯度,但代价是对于批次大小 \(B\)、序列长度 \(T\) 和词表大小 \(M = |\mathcal{V}|\),需要 \(O(BTM)\) 的内存
Top-\(k\) OPD
  • Top-\(k\) OPD 通过在子集 \(S_t\subseteq \mathcal{V}\) 上限制散度计算,提供了 Sampled-Token 和全词表 OPD 之间的中间设计
  • 这里关注学生 Top-\(k\) 变体,选择在学生下概率最高的 \(k\) 个 Token,即
    $$ S_t = \text{TopK}(p_t,k)$$
    • 注:(Revisiting-OPD)Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes, 20260326, CASIA(解读博客见:NLP——LLM对齐微调-Revisiting-OPD)中还消融了其他版本,最终结论是各有优劣:
      • Teacher top-K 具有竞争力
      • Student top-K 在几个单独的数据集上表现强劲(平均值优于 Teacher Top-K)
      • Teacher top-K 加上 Sampled-token 在比较中取得了最佳平均分
  • 定义在 \(S_t\) 上重新归一化的学生和教师分布为:
    $$\bar{p}_t^{(S_t)}(\nu) = \frac{p_t(\nu)\mathbf{1}[\nu\in S_t]}{\sum_{u\in S_t}p_t(u)},\qquad \bar{q}_t^{(S_t)}(\nu) = \frac{q_t(\nu)\mathbf{1}[\nu\in S_t]}{\sum_{u\in S_t}q_t(u)}。$$
  • 然后通过最小化子集 KL 散度 \(D_{\text{KL} }(\bar{p}_t^{(S_t)}| \bar{q}_t^{(S_t)})\) 来进行蒸馏,得到轨迹级别的目标:
    $$\mathcal{L}_{\text{OPD} }^{\text{top - k} }(\theta) = \mathbb{E}_{x\sim \mathcal{D}_x,\hat{y}\sim \pi_{\theta}(\cdot |x)}\left[\sum_{t = 1}^{T}D_{\text{KL} }(\bar{p}_t^{(S_t)}| \bar{q}_t^{(S_t)})\right] \tag {5} $$
    • 这个公式丢弃了 \(S_t\) 之外的质量,因此仍然是全词表反向 KL 的一个近似,但它显著降低了教师查询成本,同时保留了学生高概率区域上的多 Token 监督

Dynamic Metrics

  • 在第 \(t\) 步将学生和教师的 Top-\(k\) 集定义为 \(S_t^{(p)} = \text{TopK}(p_t,k)\) 和 \(S_t^{(q)} = \text{TopK}(q_t,k)\)
  • 在后续实验中将在整个 OPD 训练过程中监控以下指标
    • 重叠率(Overlap Ratio)
      • 量化学生和教师候选空间之间的对齐程度,定义为同时出现在学生和教师 Top-\(k\) 集中的 Token 的平均比例:
        $$\mathcal{M}_{\text{overlap} }\triangleq \mathbb{E}_t\left[\frac{|S_t^{(p)}\cap S_t^{(q)}|}{k}\right] \tag {6} $$
      • 低重叠率表明学生的概率质量集中在与教师不相交的 Token 集上,表明显著的政策差异或“模式不匹配”
      • 接近 1.0 的比率意味着学生已成功定位到教师支持的 Region
    • 重叠 Token 优势(Overlap-Token Advantage)
      • 为衡量重叠 Token 内的分布一致性,定义
        $$ A_{t}(\nu) \triangleq \bar{p}_{t}(\nu) (\log \bar{q}_{t}(\nu) - \log \bar{p}_{t}(\nu))$$
        • 其中 \(\bar{p}_{t}, \bar{q}_{t}\) 是在 \(S_{t}^{(p)} \cap S_{t}^{(q)}\) 上重新归一化的学生和教师分布
      • 该指标平均了这个量:
        $$\mathcal{M}_{\text{adv} }\triangleq \mathbb{E}_{t}\left[\frac{1}{|S_{t}^{(p)}\cap S_{t}^{(q)}|}\sum_{\nu \in S_{t}^{(p)}\cap S_{t}^{(q)} }A_{t}(\nu)\right] \tag {7} $$
      • 接近零的值表示高质量的对齐,即学生以适当的置信度将质量放在教师偏好的 Token 上
      • 大的负值表示在交集内,与教师相比学生过于自信(高 \(p_{t}\) 但较低的 \(q_{t}\))
    • Entropy and Entropy Gap
      • 为监控策略的分布特性,追踪学生的熵 \(H(p_{t})\) 和教师的熵 \(H(q_{t})\) 在学生 Rollout 上的情况,并定义熵差距为:
        $$\Delta H_{t} = |H(q_{t}) - H(p_{t})| \tag {8} $$
      • \(\Delta H_{t}\) 是模式对齐的一个特定状态指标
        • 大的差距表明在相同访问状态上,学生和教师在置信度和多样性方面存在显著的不匹配,而收敛到零表明学生已经匹配了其生成轨迹上教师的不确定性剖面

Phenomenology of On-Policy Distillation,OPD 的现象学

  • 在调查 OPD 的 Token-level 机制之前,本文首先提出一个更广泛的问题:
    • 什么条件决定了 OPD 的有效性?
    • 一个自然的假设是更强的教师应该总是产生更好的蒸馏结果,然而本文观察到一些配置中情况并非如此
  • Takeaways
    • 思维模式一致性
      • 学生和教师应共享兼容的思维模式
      • 即使教师获得了更高的基准分数,大的不匹配也会削弱 Token-level 蒸馏信号(第 3.1 节)
    • 更高的分数 不等于 新知识
      • 教师应提供学生在训练中未见过的知识
      • 即使思维模式一致且分数更高,教师也可能没有提供真正的新知识,使得 OPD 缺乏驱动信号(第 3.2 节)

Thinking-Pattern Consistency

  • 本节研究 OPD 是否要求学生和教师之间具有兼容的思维模式
    • 更强的教师并不能保证更好的蒸馏:推理模式上的巨大不匹配会削弱蒸馏信号,无论教师的基准优势如何
Setup
  • 使用 Qwen3-1.7B-Base (2025) 作为学生,并比较两个教师:
    • Qwen3-4B(Non-thinking) (2025)
    • GRPO 教师:Qwen3-4B-Base-GRPO (这是通过对 Qwen3-4B-Base 应用 Zero-RL(使用 GRPO (2024))获得的(详细的训练设置在附录 A.1 中提供)
      • 问题:这里所说的 Qwen3-1.7B-Base 和 Qwen3-4B-Base-GRPO 都是 Thinking 模型吗?推测不是使用 Thinking 模式?
  • 由于学生也是一个 Base 模型,这里期望其思维模式更接近经过 GRPO 训练的教师
  • 使用 DAPO-Math-17K 数据集 (2025) 进行了两个 OPD 实验,仅在教师模型的选择上有所不同
  • 所有实验都使用附录 A.2 中描述的默认超参数(另有不同的点会指明),并在 AIME 2024 (2024)、AIME 2025 (2025) 和 AMC 2023 (2024) 上进行评估
    • 每个问题采样 16 个 Rollout
    • 温度为 0.7
    • Top-\(p\) 为 0.95
    • 最大验证 Response 长度为 31,744 个 Token
    • 本文报告 16 个样本的平均准确率(avg@16)作为主要评估指标
Results
  • 如图 2 所示,来自 Qwen3-4B-Base-GRPO 的蒸馏始终优于来自 Qwen3-4B(Non-thinking)的蒸馏
    • 注:Qwen3-4B(Non-thinking)自身的 Accuracy 是高于 Qwen3-4B-Base-GRPO 的(图 2 左)
  • GRPO 教师在基准测试中表现不佳(图 2 左),但 GRPO 教师表现出更高的初始重叠率(图 2 右)
    • 表明 GRPO 教师 思维模式与学生更一致
    • 问题:这里 GRPO 教师思维模式与学生更一致的原因是两者都是 Base 模型吗?Qwen3-4B 是 Instruct 模型
  • 两个重叠曲线在训练后期趋于收敛(重叠率差异几乎消失),但性能差距持续存在
    • 表明早期思维模式的不匹配导致了蒸馏效益的损失,且无法在后期恢复
  • 附录 A.3 中分别报告了每个基准的验证准确率,相同的总体趋势在所有数据集中都成立

New Knowledge, Not Just Scale

  • 仅凭思维模式一致性并不能解释所有的观察结果
    • 即使教师得分更高且与学生共享一致的思维模式,OPD 仍然可能失败
Setup
  • 在不同模型家族中构建了两个受控比较
    • 在 DeepSeek 家族中,使用 DeepSeek-R1-Distill-Qwen-1.5B(R1-Distill-1.5B) (2025) 作为学生,并比较两个教师:
      • DeepSeek-R1-Distill-Qwen-7B(R1-Distill-7B) (2025)
      • Skywork-OR1-Math-7B (2025b)(通过对 R1-Distill-7B 应用 RL 后训练获得的)
    • 在 Qwen 家族中,使用 Qwen3-1.7B(Non-thinking) (2025) 作为学生,并比较两个教师:
      • Qwen3-4B(Non-thinking)
      • Qwen3-4B-Non-Thinking-RL-Math (2026b)(通过在 DeepMath (2025c) 的 57K 子集上对 Qwen3-4B(Non-thinking)应用 RL 获得的)
  • 在这两种设置中,关键对比在于来自相同训练流程的教师与通过进一步 RL 获得了额外能力的教师之间
    • 所有运行都使用与之前相同的数据集和训练配方
Results
  • 如图 4 所示,两个家族都表现出一致的模式
    • 相同流程的教师带来的改进有限, Post-trained 教师在所有基准测试中都产生了显著更强的收益
  • Post-trained 教师不仅取得了更高的绝对性能,而且通过差距恢复率衡量,恢复了更大比例的师生差距,其中差距恢复率定义如下:
    $$ (\text{Acc}_{\text{after OPD} } - \text{Acc}_{\text{before OPD} })/(\text{Acc}_{\text{teacher} } - \text{Acc}_{\text{before OPD} }) $$
  • 这表明:
    • 这些教师获得的额外能力通过 OPD 实现了迁移
  • 注:由于 Post-trained 教师源自相同的基础检查点,它们的思维模式仍然大致对齐(这也通过重叠率动态观察到),从而让学生学习到了教师通过 RL 获得的新能力

Validation via Reverse Distillation

  • 本文设计了一个反向蒸馏(reverse-distillation)实验作为同时验证这两个条件的比较,并揭示了对 OPD 本质的更深入见解
Setup
  • JustRL-DeepSeek-1.5B(JustRL-1.5B) (2025a) 是通过对 R1-Distill-1.5B 应用 RL 获得的
    • 本文现在反转这个方向,使用 JustRL-1.5B 作为学生,并从 R1-Distill-1.5B(其自身的 RL 前检查点)进行蒸馏
      • 理解:R1-Distill-1.5B 作为教师,JustRL-1.5B 作为学生,JustRL-1.5B 是 基于 R1-Distill-1.5B 训练的
    • 比较组:使用 R1-Distill-7B 作为教师进行比较
      • 注:R1-Distill-7B 的基准分数略高于 JustRL-1.5B,而 R1-Distill-1.5B 则明显更弱
Results
  • 图 5 揭示了两个惊人的现象
    • 第一:将 JustRL-1.5B 向其自身的 RL 前检查点 R1-Distill-1.5B 蒸馏,导致学生几乎完全回归到其 RL 前的性能,消除了通过 RL 获得的所有收益
    • 第二:当用 R1-Distill-7B(一个来自同一家族的规模明显更大甚至略强的模型)替换教师时,训练轨迹几乎无法区分:
      • 在基准测试中得分高于 JustRL-1.5B,但 R1-Distill-7B 却将学生驱动到与较弱的 1.5B 教师相同的回归水平
      • 注:从图 5 中可以看到,R1-Distill-7B 本身的性能非常高,(特别是在 AIME 2025 上比 JustRL-1.5B 还高,但是 JustRL-1.5B 无法从 R1-Distill-7B 上通过 OPD 学到知识)
        • 理解:我的推测是有两种情况:
          • 可能一:这里应该是短期内出现的坍缩现象,由于学生模型和教师模型差异过大,导致训练中途时,模型短期内被拉到了一个既不像学生,又不像教师的中间地带,只要学生的分布是不断接近教师的,继续训练下去,分数会逐渐回来(后续有资源可以考虑继续实验)
          • 可能二:学生模型在当前评测的这些指标上过拟合了,让他学习教师模型反而导致短期内的下降
    • 由于 OPD 在学生生成的轨迹上最小化反向 KL 散度,这种收敛意味着这两个教师在学生访问的状态上诱导出几乎相同的局部目标分布,尽管它们的规模不同
  • 这些结果得出几个结论:
    • 思维模式很重要,并且 OPD 从根本上学习思维模式
      • 从 R1-Distill-1.5B 蒸馏到 JustRL-1.5B 导致 JustRL-1.5B 回归到其 RL 前的性能
      • 这表明 OPD 主动获取教师的思维模式并覆盖学生自身的模式
      • 这正是思维模式一致性重要的原因:如果差距太大,学生可能无法有效学习
      • 问题:这里有点不好理解,只能说明 从 R1-Distill-1.5B 蒸馏到 JustRL-1.5B 导致 JustRL-1.5B 回归到其 RL 前的性能,并不能说明思维模式很重要啊!这里的思维模式定义是什么?应该是两者的 top-k Token 重叠率这样的指标吧
    • 基准性能不能预测 OPD 的结果
      • R1-Distill-7B 得分高于 JustRL-1.5B,但蒸馏没有产生改进,反而导致回归
      • 这表明 OPD 的训练动态可以完全独立于教师的基准性能,甚至可能向相反方向移动
      • 理解:这里可以理解为,如果教师和学生的思维模式(覆盖度)相差过大,那么朴素而鲁莽的把学生往教师的分布上拉动,收益可能是负的(学生会走到既不像自己,又不像教师的尴尬境地,至少在短时间内,学生没有完全学到教师的分布之前,下游评测分数应该是下降的)
        • 问题:这里 In-Domain 的分数应该是上涨的吧,OOD 的分数倒是应该是下降的?
    • 更高的分数并不意味着 OPD 的新知识
      • R1-Distill-7B 和 R1-Distill-1.5B 属于同一模型家族,仅在规模上有所不同
      • 这两个模型对学生产生无法区分的影响已经证实了:
        • (i) 更高的分数(R1-Distill-7B)可能仅仅反映了对相同数据的不同程度的拟合,而不是真正新颖的能力
          • 为了使 OPD 产生收益,教师应该拥有学生在其训练中尚未见过的知识
          • 问题:这里应该是因为 R1-Distill-7B 跟 学生 JustRL-1.5B 的思考模式差异过大?所以 没法用 R1-Distill-7B 作为教师教授学生 JustRL-1.5B
        • (ii) 规模不同,R1-Distill-7B 和 R1-Distill-1.5B 表现出相同的思维模式
      • 吐槽:这个结论 基准性能不能预测 OPD 的结果 的结论类似,都是想表明 R1-Distill-7B 的指标不错,但无法蒸馏到 JustRL-1.5B 上
  • 反向蒸馏实验以及第 3.1 和 3.2 节中的正向比较巩固了这两个条件
    • 思维模式一致性与更高的初始重叠率和更强的 OPD 结果相关
    • 新知识(例如来自进一步的后训练)即使在重叠率已经很高时也能实现更大的可迁移收益

Mechanism of On-Policy Distillation

  • 第 3 节确定了两个条件,即思维模式一致性和超出相同模型家族的新知识,它们决定了 OPD 的有效性
  • 本节研究在训练过程中这些条件得以体现的 Token-level 机制
    • 通过比较成功和失败的 OPD 运行,本文表明有效的蒸馏 是由高概率 Token 上的渐进对齐 驱动的
  • Takeaways
    • 渐进对齐 (Progressive alignment)
      • 在学生访问的状态下,学生和教师的高概率 top-\(k\) Token 之间的重叠在整个训练过程中稳步增加
      • 失败的运行从一开始就表现出停滞的重叠
    • 重叠充分性 (Overlap sufficiency)
      • 几乎所有优化的效果 都集中在共享的 top-\(k\) Token 上
      • 仅优化这些重叠 Token 就足以匹配标准的 OPD(即:非重叠 Token 的贡献很小)

Progressive Alignment of High-Probability Tokens,高概率 Token 的渐进对齐

  • 比较在相同设置下,从两个不同教师蒸馏同一个学生的动态,一个产生了明显的改进,而另一个没有产生任何改进
    • 发现:成功的 OPD 本质上是由学习学生和教师之间共享的高概率 Token 驱动的
Setup
  • 选择 R1-Distill-1.5B 作为学生,并比较两个教师:
    • JustRL-1.5B(在 R1-Distill-1.5B 进一步训练的模型)
    • R1-Distill-7B
    • 注:这两个教师表现出相当的数学性能,R1-Distill-7B 略强一些
  • 使用与之前相同的 DAPO-Math-17K 数据集和训练设置,并在训练期间监控三个动态指标
Results
  • 图 6 显示了截然不同的结果
    • 从 JustRL-1.5B 蒸馏带来了持续的收益,最终学生恢复了超过 \(80%\) 的与教师的性能差距
    • 从 R1-Distill-7B 蒸馏则未能带来任何改进(尽管教师整体上更强)
  • 训练动态(图 6,底部)揭示了潜在的差异
    • 在成功的运行中,重叠率稳步上升,重叠 Token 优势向零改善,熵差距缩小
      • 表明学生逐渐定位了教师的高概率区域,在该区域内校准其质量,并匹配了教师的局部置信度
    • 在失败的运行中,所有三个指标都停滞不前
      • 个人补充:熵差距还是缩小了一些的,但是会波动
  • 有两个观察值得强调
    • 第一:在整个训练过程中,重叠 Token 承载了两种模型总概率质量的 \(97% - 99%\)(见附录 B.1)
      • 因此不断上升的重叠反映了概率上占主导地位的 Token 上的对齐,而不仅仅是集合层面的重合
    • 第二:重叠 Token 优势的改善表明 OPD 的主要优化信号在于在重叠区域内重新分配概率,而不是在区域外的 Token 上
  • 附录 B.2 中报告了辅助优化指标(策略损失、梯度范数和极端优势 Token 概率差异),这些指标显示了一致的次要模式:
    • 成功的运行表现出递减的损失和持续的梯度幅度
    • 失败的运行则显示出微弱的梯度和持续的概率差异
  • 附录 B.3 中进一步验证了这些发现在不同的模型对之间具有普遍性
    • 使用 R1-Distill-7B 作为学生,在相同设置下使用两个不同的教师

Optimizing Shared Tokens Alone Suffice,仅优化共享 Token 就够

  • 上述分析表明,高概率 Token 对齐与 OPD 成功相关
  • 本节进一步研究这种相关性是否具有因果性:
    • 重叠区域是否不仅是对齐出现的地方,而且是驱动优化的区域
  • 本文设计了一个有针对性的消融实验,将 top-\(k\) 支持分解为其重叠和非重叠部分,并单独对每个部分进行训练
Setup
  • 使用第 4.1 节中成功的 OPD 设置 (JustRL-1.5B \(\rightarrow\) R1-Distill-1.5B),本文比较了三种变体,它们的区别仅在于蒸馏损失覆盖哪些 Token:
    • (i) Student Top-\(k\):在完整的 student top-\(k\) 支持 \(S_{t}^{(p)}\) 上进行优化
    • (ii) Overlap Top-\(k\):将优化限制在 student 和 teacher top-\(k\) 集合的交集 \(S_{t}^{(p)}\cap S_{t}^{(q)}\) 上
    • (iii) Non-Overlap Top-\(k\):将优化限制在它们的对称差集 \(S_{t}^{(p)}\Delta S_{t}^{(q)}\) 上(即 学生独有支持集)
  • 补充:将默认的 \(k\) 设置为 16
Results
  • 如图 7 所示,仅优化重叠区域就足以在所有三个基准测试上恢复标准 Student Top-\(k\) OPD 的几乎全部收益,而 Non-Overlap Top-\(k\) 则始终较弱
    • 这表明 OPD 的主要收益来自于共享高概率区域上的梯度,而不是非重叠 Token
    • 这也解释了为什么 Student Top-\(k\) 和 Overlap Top-\(k\) 表现得如此相似
      • 学生独有支持中的额外 Token 携带的概率质量非常少
    • Student Top-\(k\) 和 Overlap Top-\(k\) 的重叠 Token 优势曲线几乎无法区分,Non-Overlap Top-\(k\) 的幅度则小得多
      • 表明在重叠 Token 上的有效梯度要弱得多(更正错误:这里是 非重叠 Token 吧)
  • 重叠优化是自我强化的 (self-reinforcing)
    • Student Top-\(k\) 和 Overlap Top-\(k\) 都将重叠率从约 \(72%\) 稳步提高到 \(91%\) 以上
      • Non-Overlap Top-\(k\) 先下降,然后仅部分恢复(图 7,左下)
    • 这揭示了一种自我强化的动态:
      • 一旦一个 Token 进入共享的高概率区域并受到教师青睐,reverse-KL 更新就会将更多的质量集中在它上面,逐渐将竞争性的非重叠 Token 推出学生的 top-\(k\) 集合
      • 因此,重叠区域的扩大并非与优化过程相悖,反而正是优化所导致,由此形成一个良性循环,在整个训练过程中持续维持对齐。
  • 这些结果支持了 OPD 的一个统一机制:
    • OPD 主要效果是在学生访问的状态下,逐步优化学生在教师支持的高概率 Token 上的分布
    • 这种对齐既是 OPD 成功的标志,也是其操作的核心所在,其中仅优化重叠 Token 就足够了,而非重叠 Token 贡献很小
      • 当满足第 3 节中确定的条件时,这种自我强化的动态驱动着稳定的改进
      • 当不满足时,重叠停滞,训练无法取得进展

Practical Recipe

  • 第 3 节确定了成功进行 OPD 的两个条件
  • 拥有新知识是教师的内在属性,但教师和学生之间的思维模式差距可以通过训练设计来缩小
  • 本节提出了两种互补的策略,通过改善重叠动态来恢复在其他情况下会失败的 OPD 配置
  • Takeaways
    • Off-policy 冷启动
      • 在 OPD 之前,对学生在教师生成的 Rollout 上进行微调,可以弥合初始的思维模式差距,从而从一开始就获得更高的重叠率和持续更强的最终性能
    • 教师对齐的提示
      • 使用来自教师后训练数据的 Prompt 可以加强在高概率 Token 上的对齐
        • 注:单独使用教师后代价是学生熵显著降低,需要将此类 Prompt 应与分布外的 Prompt 混合使用,以防止熵崩溃

Off-Policy Distillation from Teacher Rollouts as Cold Start

  • 当学生和教师具有显著不同的思维模式时,纯粹的 OPD 可能无效,因为教师提供的 Token-level 监督信号难以被学生从其初始策略中利用
  • 为了减轻这种不匹配,本文提出可考虑一个两阶段框架:
    • 第一阶段:通过 SFT 学生在教师生成的 Rollout 上来进行 off-policy 蒸馏,使其更接近教师的思维模式
    • 第二阶段:使用标准 OPD 继续训练
Setup
  • 模型选择:使用 Qwen3-1.7B-Base 作为学生,Qwen3-4B (Non-thinking) 作为教师
  • 数据选择:使用 OpenThoughts3-1.2M (2025) 的数学领域子集作为 SFT 的 Prompt 来源
  • 具体做法:
    • 教师在此数据集的一个子集上生成 200K 个 Response,使用这些教师 Rollout 对学生进行 SFT 作为冷启动,得到 Qwen3-1.7B-SFT
    • 从该 SFT 初始化开始,使用在排除 SFT Prompt 子集 后剩余的 OpenThoughts Prompt(约 30K 个 Prompt)继续进行 OPD 训练
    • 对照组:一个纯 OPD 基线,该基线直接从 Qwen3-1.7B-Base 开始,使用相同的教师和 OPD Prompt 集,但在 OPD 之前不进行冷启动蒸馏
      • 详细的离线 Rollout 和 SFT 配置在附录 C.1 中提供
Results
  • 如图 8 所示,两阶段方法显著优于纯 OPD
  • 从 Qwen3-1.7B-SFT 开始始终比直接从 Qwen3-1.7B-Base 开始产生更好的验证性能
  • 性能差距在整个训练过程中持续存在,表明 off-policy 冷启动不仅改善了早期的优化,还提高了后续 OPD 的最终性能上限
    • 问题:
      • 看着图 8 中,各种指标都是 SFT 带来的,SFT 的样本太多了吧,导致整体效果其实在 SFT 后就收敛到 Teacher 上了,表现在 Overlap Ratio 其实一直处于收敛的情况(也就是说 Student 已经被 SFT 大幅拉倒 OPD 上了)
      • 而且 SFT 看到的数据,纯 OPD 看不到,也不够公平
  • 重叠动态支持了相同的结论:
    • SFT-initialized 学生开始时具有高得多的重叠率,并保持平滑、稳定的轨迹,而基础初始化的学生起点较低,并在逐渐恢复之前表现出明显的不稳定性
  • SFT-initialized 学生的熵差距也小得多
    • 表明从一开始 SFT-initialized 学生就与教师的置信度分布更匹配
  • 结论:
    • off-policy 蒸馏减少了初始的模式不匹配,使得一旦 OPD 开始,教师的 Token-level 监督信号就可以立即被利用
    • 附录 C.2 中对重叠质量动态进行了更详细的分析

Leveraging Teacher Post-Training Prompts

  • 由于教师的策略受到后训练期间所见 Prompt 的影响,在 OPD 期间使用与教师对齐的 Prompt 可以产生更有效的监督
Setup
  • 本文在两个粒度上进行实验:
    • 匹配 Prompt 模板是否重要
    • 匹配 Prompt 内容是否重要
Prompt template
  • 教师是 JustRL-1.5B,学生是 R1-Distill-1.5B

  • Prompt 集是 DAPO-Math-17K,仅 Prompt 模板不同

  • 原始模板是之前所有实验中使用的标准 DAPO 格式(除非另有说明),而与教师对齐的模板则与 JustRL 后训练期间使用的格式相匹配:

    • Original DAPO Template:

      1
      2
      3
      4
      Solve the following math problem step by step. The last line of your response should be of the form Answer: 
      $Answer (without quotes) where $Answer is the answer to the problem.
      {Question}
      Remember to put your answer on its own line after “Answer:”
    • Teacher-Aligned Template

      1
      {Question} Please reason step by step, and put your final answer within \boxed{}.
    • 两次运行(消融 Prompt 模板)包含相同的数学问题,但任务呈现给模型的方式不同

      • 这种设计隔离了 Prompt 模板与教师对齐的影响,同时保持底层问题内容不变
Prompt Content
  • 教师是第 3.1 节中介绍的 Qwen3-4B-Base-GRPO,学生是 Qwen3-1.7B-Base
  • 比较两个大小匹配的 Prompt 集:
    • DAPO-Math-17K(与教师的 RL 训练数据集对齐)
    • DeepMath 的一个子集(该子集与 DAPO-Math-17K 去重(见附录 C.3))
    • 此设计测试了 OPD 是否受益于使用与教师后训练数据完全相同的 Prompt,而不仅仅是领域内的 Prompt
Results
  • 图 9 中的 Prompt 模板设置显示,仅仅切换到与教师对齐的模板就能提高在所有三个基准测试上的验证性能
  • 重叠动态支持了这一结果:
    • 与教师对齐的模板运行开始时具有更高的重叠率,并收敛到更高的水平
    • 这表明即使是 Prompt 模板的微小变化,也能通过使学生生成的状态与教师更兼容,从而显著影响 OPD
    • 附录 C.4 中的基准测试详细分解显示了相同的趋势
  • 图 10 中的 Prompt 内容设置显示了类似的 downstream 优势,但有一个细微差别:
    • 与教师对齐的 Prompt 在整个训练过程中产生的重叠率较低
    • 但学生在重叠 Token 上的累积概率质量显著更高,表明学生将其质量集中在更少但共享程度更高的 Token 上
    • 即使重叠集更小,高概率 Token 上的有效对齐也更强
  • 观察:使用与教师对齐的 Prompt 会导致训练期间学生的熵显著降低
    • 这表明,仅在教师后训练期间见过的 Prompt 上进行 OPD 可能并不总是理想的,因为它会过度降低策略熵
    • 在实践中,一个更稳健的策略可能是将与教师对齐的 Prompt 与教师后训练数据之外的 Prompt 混合,以保持策略熵并维持学生的探索能力
  • 这些结果表明 OPD 不仅受益于合适的教师,还受益于匹配良好的 Prompt 集
    • 更接近教师后训练数据的 Prompt 可以提高下游性能,并加强在最重要的共享 Token 上的对齐,但应谨慎使用,以避免过度抑制学生的熵

Discussion

  • OPD 的吸引力在于其密集的监督信号,即 Per-Token 都从教师那里获得一个奖励信号
    • 这与 RL 中使用的稀疏的 Outcome-level 奖励形成对比
  • 但这种增加的监督密度是有代价的
    • 上述所有章节都隐含地依赖于教师在学生访问的状态下的 Token-level 奖励是可靠的,但本文已经看到这个假设可能会失效
    • 本节研究奖励信号本身,并考察其属性和局限性

Reward Quality Degrades with Trajectory Depth,奖励质量随轨迹深度退化

  • 本节研究教师的奖励质量如何随响应长度变化
响应长度存在一个最佳区间 (sweet spot)
  • 位置 \(t\) 的监督依赖于教师在学生生成的 Prefix \(y_{< t}\) 下的条件概率 \(\pi_{T}(y_{t} \mid x, y_{< t})\)
    • 而该 Prefix 可能会偏离教师自然产生的轨迹
  • 本文在六种最大响应长度下,针对 JustRL-1.5B 训练 R1-Distill-1.5B 200 步
  • 如图 11(a) 所示
    • 非常短的响应 (0.5K 和 1K) 提供的监督 Token 太少,无法进行样本高效的学习,而中等长度 (3K 和 7K) 产生了最强的结果
    • 超出此范围 (10K 和 15K),性能趋于平稳或下降
  • 图 12 中的训练动态证实
    • 中等长度产生平滑的重叠率增长,而 10K 和 15K 则表现出后期崩溃,重叠率急剧下降,同时伴随着学生熵和梯度范数的峰值
不稳定性源于较后的 Token (later tokens)
  • 这种崩溃从何开始?在 15K 设置中,分析整个训练步骤中作为输出位置函数的学生熵,揭示了一个清晰的从后向前的模式:
    • 如图 13 所示,高熵首先出现在响应的末端,并在训练过程中逐渐向前面的 Token 传播
    • 教师熵表现出类似的从后缀到前缀的趋势 (见附录 D.1)
      • 这与教师在较后位置遇到越来越不熟悉的 Prefix 并使产生的奖励噪声更大 ,进而破坏学生的稳定性 这一观点一致
教师延续 (teacher continuation) 能力随 Prefix 深度增加而下降
  • 本文通过测试当从学生生成的 Prefix 开始时,教师是否仍然能够改进学生的延续来进一步探究这一点
  • 从 DAPO-Math-17K 中采样 2K 个 Prompt,生成完整的学生 Rollout,并选择那些超过 16K Token 的 Rollout
    • 然后在多个位置截断每个 Rollout,并让教师从生成的 Prefix 继续生成
    • 图 11(b) 显示,教师的准确率优势单调下降,从 1K Prefix 处的 \(+0.37\) 下降到 16K Prefix 处的仅 \(+0.02\)
  • 这些结果揭示了 OPD 的 Token-level 监督中的一个基本权衡
    • 密集奖励在中等长度的推理轨迹上有效,但其可靠性随深度增加而下降,因为学生 Prefix 会进一步偏离教师熟悉的 States
    • 这表明 OPD 可能无法干净地扩展到更长 Horizon 的设置,例如扩展的 Chain-of-Thought 或 Agentic 多轮交互
  • 理解:教师遇到学生的长文时,是懵的,因为他自己不一定会生成这个前缀(没人考核他的这个能力),所以教师此时的信号对学生的可参考性不高,继续训练可能导致模型崩溃
    • 举例:学生做数学题时,如果已经写了很多错误的步骤了,老师可能也看不懂了,不知道怎么教导学生了

Globally Informative Reward Does Not Guarantee Local Exploitability,全局信息性奖励不能保证局部可利用性

  • 上一小节表明奖励质量随轨迹深度而下降
    • 一个自然的问题是:在失败的 OPD 配置中,奖励信号是根本无信息量的,还是失败的原因在于其他地方?
Setup
  • 重新审视第 4.1 节中的控制比较,以 R1-Distill-1.5B 为学生,两个教师:
    • JustRL-1.5B (成功 OPD)
    • R1-Distill-7B (失败 OPD)
  • 对于每个学生 Rollout \(y\),计算序列平均奖励 (基于 Sampled-Token OPD )
    $$\begin{array}{r}\bar{r} (y) = \frac{1}{T}\sum_{t = 1}^{T}\left[\log \pi_{T}(y_t\mid x,y_{< t}) - \log \pi_{\theta}(y_t\mid x,y_{< t})\right] \end{array}$$
    • 接下来比较正确和错误 Rollout 之间 \(\bar{r} (y)\) 的分布
    • 注:上述序列平均奖励仅仅是用来统计了对比的,不是损失函数
Global reward structure is preserved in both settings,全局奖励结构在两种设置中都得以保留
  • 图 14 显示
    • 对于两个教师,正确的 Rollout 始终获得比错误 Rollout 更高的序列平均奖励,具有可比的 AUROC 值 (JustRL-1.5B 为 0.73,R1-Distill-7B 为 0.75)
      • 理解:这说明对于两个教师,均有教师在正确 Rollout 上的输出概率比学生更高(符合预期)
    • 失败的 7B 教师并未产生更弱的全局信号,该信号与 Rollout 正确性的相关性同样高
      • 理解:
        • 这里的相关性是指:即使在失败的 7B 教师上,也能看到其在正确 Rollout 上的输出概率比学生更高
        • 这里的 全局信号是使用上述 Sequence 平均奖励来评估的

A hypothesis on local optimization geometry,关于局部优化几何的假设

  • 如果奖励在两种情况下都是全局信息性的,那么为什么 OPD 在 7B 教师时会失败?
    • 第 4.1 节的训练动态提供了一个线索
  • 如图 6 所示
    • 当 R1-Distill-7B 作为教师时,在训练的后期阶段,Overlap-Token Advantage 的幅度比 JustRL 教师时的更大,然而梯度范数仍然持续较小 (见附录 B.2)
      • 理解:图 6 中第二行第二列的图所示,这里的 幅度是偏离 0 的程度,看着图中是负的,所以深红色的线幅度更大
  • 一种可能的解释是:
    • 7B 教师 的 Per-Token 优势虽然个体较大,但在每个序列内的不同位置之间是各向异性的 (anisotropic)
      • 当这些异质信号聚合成一个梯度更新时,它们会部分抵消,导致尽管 Per-Token 的奖励很大,但有效的梯度却很小
      • 理解:说明部分 Token 被鼓励,部分 Token 被打压,且针对同一个参数也有不同的反馈信号,导致参数的有效梯度信号变小
    • 与学生具有兼容思维模式的 JustRL-1.5B ,可能将其优势集中在更连贯的 Token 子集上
      • 由此产生的梯度,虽然由更小的 Per-Token 信号组成,但指向一个一致的方向,反向 KL 可以通过其 Mode-seeking 行为放大该方向
      • 理解:比如一个序列上的每个 Token 都被鼓励,从而整体梯度方向也在提升,导致有效梯度信号相对较大
  • 注:本文尚未直接验证这个各向异性假设,这样做需要分析 Per-Token 梯度的方向结构,本文作者将这个问题留给未来的工作
    • 高 Per-Token 优势 与低梯度范数 同时出现是暗示性的,并指出了一个重要的区别:
      • 全局信息性奖励并不能保证局部可利用的奖励
    • 理解 OPD 奖励 landscape 的几何结构,以及开发能够利用各向异性奖励结构的目标函数,仍然是一个悬而未决的问题

Sampled-Token Reward Is Already Sufficient,Sampled-Token Reward 已经足够

  • 关于 OPD 的奖励,一个自然的问题是每个位置需要多少个 Token 来计算有用的梯度
  • Top-\(k\) OPD 将每个位置上 \(k\) 个最高概率 Token 的奖励聚合起来,人们可能期望更大的支持集总能带来更好或更稳定的学习
  • 通过改变 \(k\) 并将其与更简单的 Sampled-Token OPD 进行比较来研究这一点
    • 注:Sampled-Token OPD 在每个位置仅使用从学生分布中抽取的单个 Token
Setup
  • 本文使用 R1-Distill-1.5B 作为学生,JustRL-1.5B 作为教师,并将 Top-\(k\) OPD (\(k \in \{1, 4, 16, 64\}\)) 与 Sampled-Token OPD 进行比较,保持所有其他超参数固定
Results
  • 图 15 显示,在三个基准测试的平均值上, Sampled-Token OPD 实现了与 Top-\(k\) 设置相当的性能
    • 唯一明显更差的配置是 Top-1,其表现始终不佳
    • 将 \(k\) 增大到超过 4 会带来可忽略不计的额外收益,同时导致更大的计算开销
      • 理解:这里说的超过 4 是指,Top-8 和 Top-16 相对 Top-4 收益几乎可忽略(甚至微降)
      • 结论:Top-4 就够了
  • 图 16 显示了训练动态,并揭示了差异产生的地方
    • Top-1 表现出不稳定的重叠增长,伴随着熵和梯度范数的急剧峰值
    • Top-4 明显更稳定,但仍显示出后期下降
    • Top-16 和 Top-64 在整个过程中保持平滑
    • 结论:Top-K 的 K 越大,训练越稳定,上和梯度都没有峰值(注意:梯度范数和熵的 spike 趋势是一致的)
  • 这些结果表明,只要避免退化的 Top-1 设置,支持集大小可能不是 OPD 的关键设计选择
    • Sampled-Token OPD 之所以效果良好,尽管每个位置只使用一个 Token,是因为它按比例于学生自身的分布在每一步抽取一个不同的 Token,从而在训练过程中为高概率区域提供无偏覆盖
    • Top-1 则相反,它总是选择 ArgMax Token,从而将奖励集中在一个单一模式上
      • 小的策略变化可能会翻转哪个 Token 占据第一名(理解:比如第一第二名 Token 概率相近时),从而创建一个不稳定的奖励信号,该信号在训练过程中不会平均化
      • 理解:但这里的理解只是相对 Top-K 而言的,相对 Sampled-Token 而言,更多是下面的原因(Top-1 选择本身是有偏的估计,而 Sampled-Token 本身是无偏的估计)
    • Top-1 的失败不在于使用太少的 Token,而在于使用了一个有偏的、集中于单一模式的选择规则

Related Work

Knowledge Distillation

  • 知识蒸馏 (KD) (2015) 通过训练学生网络学习教师的软输出分布,将知识从大模型转移到小模型
  • 对于自回归序列模型,Kim 和 Rush (2016) 将其扩展到序列级蒸馏,通过在教师生成的输出上训练学生,建立了主导的 Off-policy 蒸馏基线 (2020;2019;2020)
  • SFT 已被直接应用于提高各种下游任务的性能 (2024;2021;2021)
  • 所有 Off-policy 方法共有的一个基本限制是训练-推理分布不匹配
  • 学生在教师生成或参考序列上被优化,但在推理时必须从其自身的分布生成,这是暴露偏差 (exposure bias) (2015) 的一个实例,会在长生成过程中累积错误
    • 这种不匹配促使将蒸馏转移到学生自己的 On-policy 分布上,这正是 On-policy 蒸馏的核心思想

On-Policy Distillation

  • MiniLLM (2023) 首次在反向 KL 目标下为 LLM 形式化了 OPD,该目标通过策略梯度进行优化,认为反向 KL 的 Mode-seeking 行为可以防止学生将概率质量分散到教师认为不太可能的区域
  • GKD (2024) 引入了一个统一框架,在多种散度上对 On-policy 和 Off-policy 数据进行插值,展示了相对于其他 KD 基线的一致改进
  • Yang 等 (2026b) 后来在理论上将 OPD 形式化为密集 KL 约束 RL 的一个特例,表明教师的 Per-Token 对数比率构成了一个隐式奖励,并且将此奖励扩展到其标准权重之外可以推动学生超越教师的性能边界
  • OPD 此后已被工业界采纳用于 Post-training 流程 (2026;2026;2026;2026;2025;2026;2025,2026b;2026),并扩展到可扩展的自蒸馏 (Ding,2026;2026;2026;2026;2026;2026;2026;2026a;2026a;2026a),其中单个模型通过以特权信息 (如 Ground-truth 解决方案或执行反馈) 为条件,充当自己的教师
  • 尽管这方面的工作越来越多,但现有研究主要集中在展示 OPD 的前景,例如密集奖励和缓解的暴露偏差,在不同的目标、任务和师生对上,而没有系统地分析 OPD 何时或为何失败

Capacity Gap and Distillability

  • 在知识蒸馏中,一个反复出现的观察是,较大的师生能力差距会降低甚至逆转蒸馏的益处
  • Cho 和 Hariharan (2019) 证明,当教师能力显著更强时,蒸馏可能会损害学生表现,Mirzadeh 等 (2020) 提出了一个中等规模的教师助手 (teacher assistant) 来弥合差距
  • Busbridge 等 (2025) 通过蒸馏缩放定律 (distillation scaling laws) 提供了定量处理,表明学生损失作为教师质量、学生规模和数据量的幂律函数,识别出一个 U 型能力区域,其中教师能力过强会降低蒸馏效率
  • 对于 LLM 推理,Li 等 (2025) 记录了一个“可学习性差距”,表明在来自强推理教师的长 Chain-of-Thought 轨迹上训练小模型始终不如更简单的方法,这表明教师输出的推理复杂性必须与学生能力相匹配。这些发现提醒人们对蒸馏的普适性持谨慎态度
  • 然而,现有的分析主要集中在 Off-policy 知识蒸馏上。特别是,能力差距和可蒸馏性在 OPD 中的问题仍未得到充分探索

Future Work

Beyond Mathematical Reasoning

  • 注:本工作的所有实验都是在数学基准上进行的
  • 后续开放问题:OPD 的相同条件和 Token-level 机制是否在代码和开放式设置等其他领域中也适用?

Impact of Pre-Training

  • “新知识”条件隐含地依赖于预训练语料库的差异,但隔离这个因素具有挑战性
  • 当前的研究主要依赖于跨家族蒸馏 (例如,Qwen \(\rightarrow\) LLaMA),这混淆了数据差异与 Tokenizer 不匹配和架构差异,而受控的预训练消融研究仍然代价高昂
  • 衡量预训练数据对 OPD 的影响仍然是一个悬而未决的问题

Self-Distillation Dynamics

  • 最近的工作越来越多地采用自蒸馏,其中单个模型在给定特权信息的情况下充当自己的教师
  • 将这些见解扩展到自蒸馏机制 (思维模式一致性得到保证,但知识新颖性源于特权访问而非单独的教师) 是顺理成章的下一步

Long-Horizon and Agentic Settings

  • 第 6 节提到的轨迹长度上限激励了混合方法,该方法将短段上的密集 Token-level 监督与更长 Horizon 的稀疏 Outcome-level 奖励相结合,以及在训练过程中逐步扩展监督 Horizon 的课程学习策略

附录 A:Details for Section 3

A.1. GRPO Training Details

  • Base Model :Qwen3-4B-Base

  • Training Dataset :使用处理后的 DAPO-Math-17K 数据集进行 GRPO 训练

    • 具体来说,每个问题都添加了以下指令:
      • GRPO dataset template
        1
        {Question} Please reason step by step, and put your final answer within \boxed{}.
  • Training and Evaluation Settings

    • 使用 GRPO 训练教师模型
    • 在训练期间,为每个 prompt 采样 \(n = 8\) 个 responses
    • 最大 prompt 长度和最大 response 长度分别设置为 1,024 和 7,168 个 tokens
    • 训练在 8 张 A800 80G GPU 上进行一个 epoch
    • 学习率为 \(1 \times 10^{- 6}\)
    • 将 student 采样温度和 teacher 温度都设置为 1.0
    • 重复惩罚设为 1.0
    • 禁用 KL 正则化
    • 采用 token-mean 损失聚合。主要超参数总结在表 1 中

A.2. Experimental Setup

  • 所有实验均使用表 2 中列出的默认 OPD 超参数(特殊说明除外)

A.3. Benchmark-wise breakdown of thinking-pattern compatibility,思维模式兼容性的基准逐项分解

  • 图 2 展示的是平均结果,这里图 17 展示了基准逐项的分解
  • 从 Qwen3-4B-Base-GRPO 进行蒸馏的优势在各个数据集上普遍存在(不是由单个基准驱动)
    • 在 AMC 2023 和 AIME 2024 上差距更明显,在 AIME 2025 上差距较小但仍普遍存在
    • 这种按基准划分的视图支持了以下解释:
      • 更好的早期思维模式兼容性会导致更好的下游蒸馏性能,而早期不匹配造成的损失在训练后期无法完全恢复

附录 B:Details for Section 4

B.1. Additional Analysis of Token Overlap Mass

  • 为量化每个模型分配给重叠 top-\(k\) 区域的概率质量,本文定义 \(\mathcal{M}_{\text{overlap-mass} }^{(p)}\) 为:
    $$\mathcal{M}_{\text{overlap-mass} }^{(p)} = \mathbb{E}_t\left[\sum_{\nu \in S_t^{(p)}\cap S_t^{(q)} }p_t(\nu)\right] \tag {9}$$
  • 定义 \(\mathcal{M}_{\text{overlap-mass} }^{(q)}\) 为:
    $$\mathcal{M}_{\text{overlap-mass} }^{(q)} = \mathbb{E}_t\left[\sum_{\nu \in S_t^{(p)}\cap S_t^{(q)} }q_t(\nu)\right] \tag {10}$$
  • 这衡量了 student 和 teacher 分别分配给其 top-\(k\) 集合中共享 token 的总概率质量的分数
    • 在本文实验中,如图 18 所示,在整个训练过程中,重叠 token 为两个模型承载了 \(97% -99%\) 的总概率质量

B.2. Auxiliary Optimization Dynamics,辅助优化动态

  • 本节补充第 4.1 节的分析,针对相同的对比设置报告了几个额外的优化诊断指标
  • 固定 student 为 R1-Distill-1.5B,并在相同的 Student Top-\(k\) OPD 训练方案下比较两个 teachers:
    • JustRL-1.5B(产生成功的运行)
    • R1-Distill-7B(在其它匹配条件下产生失败的运行)
    • 这些诊断指标并非主要证据,它们提供了关于成功和失败的 OPD 之间优化信号差异的补充视图
Diagnostics,诊断
  • 监测三个额外的量
    • 第一个是批次平均的 OPD 训练损失,在图 19 中表示为 PG Loss
    • 第二个是梯度范数,它衡量到达 student 的更新信号的整体幅度
    • 第三个是具有最大绝对优势的 token 上的概率差 \(p_t(v) - q_t(v)\)
      • 跟踪 student 是否能够减少在携带最强优化信号的 token 上与 teacher 最显著的局部不一致
  • 这些指标有助于区分成功和失败的 OPD:
    • 在成功 OPD 中,student 接收到可用的信号并逐步减少不匹配
    • 在失败 OPD 中,信号太弱或对齐太差,无法推动实质性改进
Results
  • 图 19 中的趋势与第 4.1 节的主要结论一致
  • 损失视角:
    • 成功 OPD:使用 JustRL-1.5B 的成功运行显示出训练损失在优化过程中显著减少
      • 从一个更大的初始不匹配开始,损失在训练的大部分时间里稳步下降,然后稳定在一个较低的值
    • 失败 OPD:使用 R1-Distill-7B 的失败运行开始时损失小得多,之后变化不大
      • 这种模式表明,失败运行中较小的损失并不表示优化更好
      • 较小的 损失反映了从一开始 teacher 诱导的训练信号就较弱,该信号仍然太小,无法推动显著的政策改进
  • 梯度范数视角:(梯度范数显示了两个运行之间更清晰的分离)
    • 成功 OPD:梯度范数初始很大,并在训练的很大一部分时间里保持较大
      • 表明 student 持续接收到有意义的修正信号
    • 失败 OPD:梯度范数始终小得多,随时间变化也有限
      • 即使在相同算法和训练预算下进行优化,针对 R1-Distill-7B 训练的 student 经历的更新信号要弱得多
    • 这一观察结果与以下发现一致:
      • 失败与高概率 token 上的对齐性差有关
      • 当 student 没有实质性地进入 teacher 支持的区域时,产生的梯度仍然很弱
  • 最大绝对优势的 Token 概率视角:
    • 成功 OPD:成功的运行稳步减少了具有最大绝对优势的 token 上的概率差异
      • 说明:当 OPD 成功时,student 逐步纠正了在 teacher 诱导的优势信号下最重要的局部错误
    • 失败 OPD:失败的运行在整个训练过程中保持了明显更大的差距
      • 说明:当 OPD 失败时,这些高优势的差异持续存在而未能解决
    • 这再次与以下解释一致:
      • OPD 中的决定性信号位于一小部分高概率、高优势的 token 上,当 student 无法有效利用该信号时就会发生失败
  • 以上这些辅助动态强化了第 4.1 节中提出的解释
    • 成功的 OPD 不仅以高概率 token 上的重叠增加为特征,而且还以训练机制为特征
      • 在该机制中,student 接收到足够幅度的梯度,以减少最重要的局部分布不匹配
    • 失败的 OPD 伴随着弱梯度、有限的损失减少以及在具有最强优势信号的 token 上持续存在的分歧
      • 虽然这些诊断指标是支持性的而非核心,但它们提供了一个优化层面的视图,该视图与以下观点完全一致:
        • OPD 有用的学习信号集中在 student 访问状态下的高概率 token 上,当该信号太弱或对齐太差而无法驱动有效更新时,训练就会退化

B.3. Cross-Model Validation of High-Probability-Token Alignment,高概率 Token 对齐的跨模型验证

  • 本节测试第 4.1 节中的现象是否能推广到另一对模型
  • 将 student 模型固定为 R1-Distill-7B,并选择 Skywork-OR1-Math-7B 和 DeepSeek-R1-Distill-Qwen-14B (R1-Distill-14B) 作为 teachers,使用与第 4.1 节相同的训练和评估设置
Results
  • 图 20 显示了与图 6 相同的模式
    • 以 Skywork-OR1-Math-7B 为 teacher,蒸馏提高了 student 的性能,并伴随着重叠率的稳步增加、重叠 token 优势趋近于零以及较小的熵差
    • 以 R1-Distill-14B 为 teacher,训练几乎没有改进,对齐指标仍然较差或不稳定
    • 这提供了额外的证据,表明成功的 OPD 始终与 student 访问状态下高概率 token 对齐的出现相吻合
      • 理解:图 20 中,成功的运行再次伴随着高概率 token 对齐的增加,而停滞的运行则没有

附录 C:Details for Section 5

C.1. Cold-Start Distillation Details

Offline teacher rollout
  • 为了构建冷启动 SFT 数据,本文从 OpenThoughts3-1.2M (2025) 的数学子集中采样了 20 万个数学 prompts,并使用 Qwen3-4B (Non-thinking) 为每个 prompt 生成一个离线 response

  • 对于每个 prompt,作者使用以下模板:

    • Teacher rollout template
      1
      {Question} Please reason step by step, and put your final answer within \boxed{boxed{} }
  • 解码超参:温度 0.7、top-\(p = 0.95\)、top-\(k = - 1\) 和最大生成长度 12,288 个 tokens 进行解码

  • 生成后,过滤掉不完整的 responses(例如,未正确完成的截断输出)和退化的重复 responses

    • 剩余的 prompt-response 对用作监督蒸馏语料库来训练 student
Student SFT
  • 从 Qwen3-1.7B-Base 开始,使用 LLaMA-Factory 框架 (2024) 在过滤后的 20 万个 teacher 生成的样本上进行全参数 SFT,产生 Qwen3-1.7B-SFT
  • 将详细的超参数总结在表 3 中

C.2. Additional Analysis of Overlap Mass,重叠质量的额外分析

  • 为了更好地理解为什么基础初始化的 student 有时会表现出相当甚至稍好的重叠 token 优势 (Overlap-Token Advantage),但整体表现仍不佳,本文进一步从 student 和 teacher 两方面检查重叠集覆盖的概率质量
  • 如图 21 所示
    • SFT-initialized student 在整个训练过程中始终保持 student 重叠质量和 teacher 重叠质量在较高水平
      • 这表明重叠 token 覆盖了 student 和 teacher 分布的大部分高概率区域,表明从 OPD 开始就存在强烈且稳定的对齐
    • 而基础初始化的 student 表现出显著较低且更不稳定的重叠质量,尤其是在训练早期阶段
  • 这种分析有助于解释为什么重叠 token 优势 (Overlap-Token Advantage) 有时可能具有误导性
    • 由于它仅在重叠 token 上平均,即使重叠集本身缺失了相当一部分 teacher 的高概率 token,它也可能看起来相对有利
    • 重叠质量通过揭示共享支持是否真正覆盖了两个分布最重要的部分来补充这一观点
  • 从这个角度来看,SFT 冷启动导致了 student 和 teacher 之间更好、更稳定的匹配

C.3. Deduplication Details for the DeepMath Subset,DeepMath 子集的去重细节

  • 对于跨规模设置,构建了一个与 DAPO-Math-17K 去重后的 DeepMath 子集,以便比较与 teacher 的 RL 后训练数据对齐的 prompts 和仅在领域内的 prompts
  • 本文的去重分两个阶段执行:精确匹配去重和语义去重
Question extraction
  • 对于 DAPO-Math-17K 和 DeepMath,提取问题内容并移除 prompt 中的指令后缀,以便仅基于问题文本进行去重
Stage 1: Exact-match deduplication
  • 将所有提取的 DAPO-Math-17K 问题收集到一个集合中,并移除其提取的问题与该 DAPO 问题精确匹配的任何 DeepMath 样本
Stage 2: Semantic deduplication
  • Stage 2 进一步移除近似重复的 prompts
    • 使用句子嵌入模型 all-mpnet-base-v2 (Reimers and Gurevych, 2019) 对 DAPO-Math-17K 和 DeepMath 的问题进行编码
    • 对嵌入进行 L2 归一化,并在 DAPO 嵌入上构建一个 FAISS 内积索引,使得内积对应于余弦相似度
  • 对于每个 DeepMath 问题
    • 在 DAPO-Math-17K 中检索其最接近的邻居
    • 如果与最近 DAPO 问题的余弦相似度至少为 0.6,将该 DeepMath 样本标记为语义重复并将其移除
Final retained subset
  • 移除任何被精确匹配或语义去重标记的 DeepMath 样本
  • 得到的子集在领域内,但与 DAPO-Math-17K 去重
    • 能够在与 teacher 后训练数据重叠的 prompts 和仅在领域内的 prompts 之间进行受控比较

C.4. Benchmark-wise breakdown of prompt-template alignment,Prompt 模板对齐的基准逐项分解

  • 图 9 中展示的是平均结果,图 22 展示了基准逐项的分解
    • teacher 对齐的模板在各个数据集上产生了一致的改进,在两个 AIME 集上增益更大,在 AMC 2023 上影响较小但仍是正向的
      • 使用 teacher 对齐的模板在三个基准上始终匹配或优于原始 DAPO 模板
    • *使用 teacher 对齐的模板 *还允许 student 恢复 teacher 性能的更大一部分,从大约 \(80%\) 增加到大约 \(85%\)
  • 结合第 5.2 节中的重叠率结果,这表明 prompt 模板对齐通过使 student 生成的状态与 teacher 更兼容来改进 OPD

附录 D:Details for Section 6

D.1. Teacher entropy by output position,按输出位置划分的 Teacher 熵

  • 为补充第 6.1 节中的 student 熵分析,本节可视化了在最大 response 长度为 \(15K\) 的设置下,训练步骤中作为输出位置函数的 teacher 熵(见图 23)
    • 与 student 类似,teacher 熵首先在较后的解码位置增加,然后随着训练的进行逐渐向前面的 token 传播
    • 理解:升高的熵首先出现在后缀部分,然后随着训练的进行逐渐向前面的输出位置传播,说明是后面的 Token 先出现问题(教师信号不置信,逐步引起前面的 Token 崩溃)

NLP——Rethinking-Generalization-In-Reasoning-SFT

注:本文包含 AI 辅助创作

  • 参考链接:
    • 相关论文:Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability, 20260408, SJTU & USTC
    • 相关博客:github.com/Nebularaid2000/rethink_sft_generalization

Paper Summary

  • 本文打破了传统对 SFT 的一些观点,有非常丰富的实践参考意义:
    • 传统观点:SFT 会记忆,而 RL 会泛化
    • 本文观点:SFT 在一定条件下也是可以泛化的,之前的失败案例是优化不足的产物
  • Reasoning SFT 中的跨领域泛化并非不存在,而是有条件的,取决于下面三个条件:
    • 1)优化的充分性:短周期检查点可能会低估最终的泛化增益
      • 表现:跨域性能先下降,然后在延长训练后恢复并提升(一种“下降-恢复(dip-and-recovery)”模式)
    • 2)数据的质量和结构:经过验证的、带有程序性推理模式的长 CoT 数据能产生更强的迁移
      • 表现:低质量的解决方案普遍损害泛化能力,而经过验证的长 CoT 轨迹则能带来一致的跨域收益
    • 3)基础模型的能力:能力更高的模型比主要模仿冗长表达的较弱模型更有效地内化这些模式
      • 表现:
        • 更强的模型能够内化可迁移的程序性模式(例如,回溯)(文中实验证明,即使是从一个玩具算术游戏(Countdown)中学习也可以迁移)
        • 较弱的模型则只会模仿表面的冗长
  • 注:本文主要关注 带有长 CoT 监督的推理 SFT,实验也主要集中在这些数据和场景上
  • 注:但是本文 SFT 实验也发现,这种泛化是不对称的:
    • 推理能力的提升始终伴随着安全性的下降(即训练过程中推理能力提升的同时,安全性会下降)
    • 理解:这里的不对称是指:在部分指标性能上泛化了,但是在安全性上没有泛化

Introduction and Discussion

  • 流行观点:SFT 能提升域内性能但容易导致记忆,而 RL 的泛化能力更好
    • 一些工作在合成任务上确立了具有影响力的“SFT 记忆,RL 泛化”的框架
    • 一些工作在更现实的场景(如数学推理)中也报告了类似的模式
  • 本文观察到,给出这些结论包含了大量的特定实验场景问题:
    • 部分训练没有使用长 CoT 监督
    • 部分训练 epoch 相对较短
    • 部分训练使用的数据 Response 质量不均
    • 部分训练使用了小型或早期的基础模型
    • 此外,还有一些点:
      • 许多 SFT 与 RL 的比较关注的是保留能力(即微调是否会降低现有能力),而不是获取新的泛化能力
      • 许多 SFT 和 RL 通常从指令微调模型开始,这使得对齐带来的混杂因素难以解耦
  • 这些在优化、数据、模型能力和起始检查点上的纠缠不清的差异,使得我们不清楚所报告的泛化失败是 SFT 固有的,还是仅仅是特定实验条件的产物
  • 这个问题对于推理 SFT 尤其紧迫,因为模型通常是在长 CoT 轨迹上训练的
    • 长 CoT 轨迹在数据结构上有所不同,比短形式的目标更难拟合,并且对模型能力要求更高
    • 推理 SFT 是一个优化、数据和模型因素至关重要且可以被更清晰研究的场景
  • 本文表明推理 SFT 中的泛化并非训练目标本身的内在属性,而是一个由优化动态、训练数据和模型能力共同塑造的条件性现象
    • 本文系统地改变每个因素,以确定推理 SFT 何时以及如何在跨域泛化,以及当它泛化时会产生哪些权衡
    • 注:本文采用仅在预训练基础模型上进行数学推理 SFT 作为测试平台
      • 这个设置提供了易于验证的 Response,并且可以与先前的研究直接比较
  • 本文评估了在域内数学推理、 OOD 推理(例如,代码、科学)、通用能力(例如,指令遵循)和安全性方面的泛化能力,整体发现如下:
    • 表观上的非泛化可能是优化不足的(under-optimization)产物
      • 在长 CoT SFT 过程中,泛化性能表现出一种“下降-恢复(dip-and-recovery)”模式:
        • 先下降,然后在延长训练后恢复并最终超越基础模型:
          • 这表明短训练检查点可能会系统地低估 SFT 的泛化潜力
        • 在匹配的计算预算下,长 CoT 数据从重复学习中比从单遍覆盖中受益更多 ,并且只有在激进的训练计划下才会出现明显的过拟合症状
        • 说明:在该场景下,优化不足可能比过优化更普遍
    • 训练数据对泛化至关重要
      • 数据质量:在低质量解决方案上进行 SFT 会广泛损害性能,而经过验证的长 CoT 轨迹则能带来一致的跨域收益
      • 数据结构:在强大的基础模型上,来自一个玩具算术游戏(Countdown)的长 CoT 轨迹可以提升在多个推理基准(例如,数学、代码、科学)上的性能,甚至可能优于包含多样化数学问题的无 CoT 数据集
      • 结论:长 CoT 轨迹中的程序性模式(例如回溯和验证) 可能是超越数学内容本身进行泛化的关键
        • 理解:也就是说,通过 SFT 来训练 CoT 数据时,CoT 中的类似回溯和验证的能力和模式可以被学到,从而实现能力的泛化
    • 泛化需要足够的模型能力
      • 给定相同的长 CoT 数据:
        • 更强的模型展现出广泛的跨域泛化能力,而较弱的模型则显示出边际或负面的收益(即使在域内数学任务上),并且倾向于产生冗长的 Response
        • 结论:较弱的模型可能只是模仿推理的表面形式(例如,冗长),而没有内化驱动跨域泛化的模式
    • 泛化是不对称的(asymmetric)
      • 尽管有广泛的收益,但长 CoT SFT 会削弱安全性,这与关于推理模型自我越狱(self-jailbreaking)的发现一致 (2025; 2025)
      • 训练后,模型在思考过程中会自我合理化(例如,“出于教育目的”),并最终生成有害内容
      • 在本文控制的对比中,使用 CoT 的安全性下降比不使用 CoT 时大得多
      • 结论:这种退化是由程序性模式而非领域内容驱动的
  • 以上的这些结果表明,“SFT 是否能泛化?”这个问题需要重新定义和思考
    • SFT 是否能泛化是与优化充分性、数据质量与结构以及基础模型能力有关的
    • 当这些因素中的任何一个缺失时(例如,评估早期检查点、在低质量数据上训练、或使用弱基础模型),得出的结论可能会将实验设置的产物误认为是 SFT 的固有局限性
  • 可以理解为:本文在尝试回答 “在什么条件下推理 SFT 会泛化?”

Experimental Setup

Model, dataset, and training protocol

  • 主要实验使用 Qwen3-14B-Base 和 Qwen3-8B-Base 作为基础模型
    • 注:跨模型家族的实验:使用 InternLM2.5-20B-Base (2024) 和 Qwen2.5 基础模型 (2024)
    • 注:所有模型都是指令微调之前的预训练检查点,这最大限度地减少了来自对齐或偏好优化的混杂影响
    • 注:后续章节还会考察更小的模型(例如,4B 和 1.7B)以研究模型能力的作用(第 5 节)
  • 默认训练数据集 Math-CoT-20k 包含 20,480 个带有长 CoT 的数学推理示例
    • Query 是从 OpenR1-Math-220k (2025) 的默认子集中采样得到的
    • Response 是由启用了思考功能的 Qwen3-32B 生成的
    • 每个 Response 包含一个思考过程,后跟逐步的最终总结和答案
    • 本文为每个 Query 生成多个 Response ,并使用 math-verify (2024) 仅保留答案正确的 Response
    • 最大 Response 长度设置为 16,384 个 Token
    • 完整的数据生成设置请参见附录 B.1
  • 所有模型均使用标准 SFT 目标进行训练
    • 最小化 Response Token 上的负对数似然
  • 基础实验默认配置:
    • 使用 AdamW 优化器
    • 学习率为 5e-5
    • 批量大小为 256
    • 余弦学习率调度
    • 8 个训练 Epoch

Evaluation suite

  • In-Domain (ID) 推理
    • MATH500 (2021) 和 AIME24 用于评估数学推理能力,与训练领域直接对齐
  • Out-Of-Domain (OOD) 推理
    • LiveCodeBench (LCB) v2 (2025) 用于评估编程能力,GPQA-Diamond (2024) 用于评估研究生级别的科学推理能力,MMLU-Pro (2024) 用于评估广泛的知识密集型推理能力
    • 这些任务需要的推理能力在训练数据中并未出现
  • 通用能力
    • IFEval (2023) 衡量指令遵循的准确性
    • AlpacaEval 2.0 (2023b; 2024) 衡量开放式 Response 的质量
    • HaluEval (2023a) 和 TruthfulQA (2022) 衡量真实性
    • 这些基准测试用于检验推理 SFT 是增强还是破坏了更广泛的行为
  • 安全性
    • HEX-PHI (2024) 通过攻击成功率(Attack Success Rate, ASR)和有害性评分来评估模型对有害 Query 的抵抗能力
  • 默认情况下,使用温度 0.6 和最大生成长度 32,768 个 Token 进行解码
    • 对于 IFEval、HaluEval 和 MMLU-Pro:报告 pass@1
    • 对于 MATH500、LiveCodeBench v2 和 GPQA-Diamond:报告 avg@3
    • 对于 AIME24:报告 avg@10
    • 对于 IFEval:使用严格的指令级准确率
    • 对于 AlpacaEval 2.0:报告来自 Llama-3.1-8B-Instruct-RM-RB2 奖励模型的平均奖励分数
    • 对于 TruthfulQA:使用官方评判模型来评估有益性和真实性
    • 对于 HEX-PHI:遵循原始论文,使用 GPT-4.1 作为评判模型
    • 作者将评分 5 视为一次成功的攻击
    • 所有模型均以零样本(Zero-shot)方式进行评估
    • 完整的评估细节在附录 B.3 中提供

Optimization Dynamics of Reasoning SFT

  • 先前研究的一个常见发现是,SFT 能提升域内性能,但不能很好地泛化到 OOD 任务,甚至可能降低 OOD 能力 (2025; 2025)
  • 本节表明这一结论有时是由于对训练轨迹的不完整观察导致的
    • 长 CoT 推理数据比短形式的目标更难内化,并且从基础模型到训练有素的推理模型的路径涉及 non-trivial 动态,这些动态很容易被误读

Apparent non-generalization may be an under-optimization artifact

Replication of previous findings,本节先复现之前文章的发现
  • 首先在相同的短 Epoch 协议下复现了先前关于推理 SFT 跨域泛化能力弱的发现 (2025):
    • 在 Math-CoT-20k 上训练 Qwen3-14B-Base 一个 Epoch
  • 如图 2 所示,域内数学性能大幅提升,而在某些 OOD 基准(例如,LCB v2, GPQA-D)上 OOD 收益有限,在其他基准(例如,IFEval, AlpacaEval)上甚至变为负收益
    • 这种弱泛化在使用更小的学习率时更为明显(附录 C.1)
Cross-domain generalization evolves non-monotonically,跨域泛化呈非单调演变
  • 将训练 Epoch 数扩展到 8(本文的默认设置),并跟踪了 Qwen3-14B/8B-Base 和 InternLM2.5-20B-Base 在整个训练过程中的基准性能
  • 图 3(顶部)显示了性能随训练步数的变化,展示了一种典型的“下降-恢复(dip-and-recovery)”模式
  • 在域内数学推理任务(MATH500, AIME24)上,性能在某些设置下出现了短暂的早期下降,随后迅速恢复(在 AIME24 上,由于基准测试规模小且难度高,早期波动更明显,但总体上升趋势保持一致)并呈现明显的上升趋势
  • 几个 OOD 基准(例如,LCB v2, GPQA, IFEval 和 AlpacaEval 2.0)也表现出类似的模式,通常下降更深,恢复更慢,并在延长训练后最终提升到超越基础模型的水平
  • 这种模式并非特定于某个教师模型
    • 使用 DeepSeek-R1 生成的 Response (相同的 20k 数学 Query )重复相同的设置,得到了类似的结果,仅在绝对分数上有适度差异(见附录 C.2)
    • 结论:先前报告的一些 SFT 泛化局限性可能是优化不足的产物,而非 SFT 本身的内在限制
      • 长 CoT 数据对优化具有挑战性,需要扩展训练并展现出微妙的动态

Response length as a diagnostic of optimization stage,Response 长度是优化阶段的诊断指标

  • 为了更好地理解“下降-恢复(dip-and-recovery)”动态,本文追踪了各检查点的 Response 长度,并将其与性能进行比较
  • 如图 3(底部)所示, Response 长度在训练初期急剧上升,然后逐渐下降
  • 这种上升-下降趋势通常与性能变化同时发生:
    • 最长的 Response 往往与最弱的性能同时出现,而随着性能恢复, Response 变得更简洁
Interpretation
  • 在长 CoT SFT 的早期,模型首先学习一个显著的表面模式 :
    • 它们会产生冗长的、类似思考 的痕迹,然后才能可靠地学习更精细的推理模式,如分解、回溯或自我评估(见附录 C.3 的示例)
    • 这个阶段以两种方式损害性能:
      • (1) 对长 CoT 的浅层模仿限制了即使在推理任务上的迁移
      • (2) 冗长的输出加上偶尔的格式错误(例如,缺少 </think> 标签)会影响指令遵循和对齐方面的结果
      • 随着持续优化,模型会学习到更多可迁移的程序性模式和更精细的语言风格,从而产生更短、更有针对性的输出和更强的跨域泛化能力
  • Response 长度可以作为长 CoT SFT 中优化进展的一个粗略但实用的诊断指标:
    • Response 长度仍在显著缩短的检查点通常尚未完全优化,即使域内性能看起来已经合理

Why longer training helps: repeated exposure or simply more steps?

  • 本节回答问题:为什么更长的训练有帮助:重复学习还是仅仅更多步数?
Setup
  • 拟合长 CoT 数据的难度引发了一个自然的问题:
    • 在小数据集上训练多个 Epoch,还是在更大的数据集上训练单个 Epoch 更有效?
    • 本文设计了三个设置的对照实验,均使用 Qwen3-14B-Base 并固定总梯度步数(640 步):
      • 设置 1:默认,20k 示例,批量大小 256,8 Epochs
      • 设置 2:2.5k 示例,批量大小 32,8 Epochs
      • 设置 3:20k 示例,批量大小 32,1 Epoch
    • 关键的比较是在设置 2 和设置 3 之间:它们的训练预算匹配,但数据暴露模式不同(8 次重复 vs. 1 次覆盖)
Repeated exposure is more effective,重复学习更有效
  • 表 1 显示:整体趋势是 设置 1 > 设置 2 > 设置 3
    • 在不同的基准上,设置 2 的表现都显著优于设置 3,这表明在相同的训练预算下,对于长 CoT 推理 SFT,重复学习比单次覆盖更有效
    • 当 Epoch 数和步数固定时,设置 1 进一步优于设置 2,这表明更大的数据多样性仍然能增加价值

From underfitting to overfitting: symptoms and regimes,从欠拟合到过拟合:症状与区间

Setup
  • 上述结果表明,在的默认长 CoT 设置中,欠拟合的信号比过拟合更明显
  • 为了闭环验证,在 Qwen3-14B-Base 上使用 Math-CoT-20k 对训练激进程度进行了压力测试,采用四种设置:
    • 设置 1(默认,LR 5e-5,8 Epochs,余弦 LR 调度)
    • 设置 2(LR 5e-5,16 Epochs,余弦 LR)
    • 设置 3(LR 5e-5,16 Epochs,恒定 LR)
    • 设置 4(LR 1e-4,16 Epochs,恒定 LR)
    • 这些设置将优化强度从温和增加到激进
Overfitting symptoms and regimes
  • 如图 4(顶部)所示
    • 在大多数基准上,设置 2 在整个训练过程中保持了稳定的性能或持续改进
    • 设置 3 开始在部分 OOD 套件上显示出后期性能下降
    • 设置 4 显示出最清晰的过拟合样模式:
      • OOD 性能普遍下降,甚至域内数学性能也下降,同时 Response 长度再次开始上升(图 4(底部))
  • 本文设置中,明显的过拟合症状主要出现在组合的激进计划下(高学习率、无 LR 衰减、长 Epochs) ,通常伴随着广泛的性能下降(包括域内数学)和 Response 长度的反弹

How Training Data Shapes Generalization,训练数据如何塑造泛化性能

  • 上一节表明,充分训练的推理 SFT 可以实现跨领域泛化
  • 本节将展示,这种泛化关键地依赖于训练数据的质量和结构

Setup

  • 在默认训练设置下比较了四种数据配置
  • 除了默认的 Math-CoT-20k 数据集外,引入了三个变体:
    • Math-NoCoT-20k:
      • Math-CoT-20k 移除了 <think>...</think> 部分,仅保留最终的逐步总结和答案
      • 理解:其实不太公平,因为原本就有 CoT 的数据,去掉 CoT 会出现一些问题,比如先给答案,再给推理过程
        • 所以后面补充了 NuminaMath-20k 这样自然的没有 CoT 的数据
    • NuminaMath-20k:
      • 20k 个示例,来源于 NuminaMath-1.5 (2024),使用与 Math-CoT-20k 相同的 Query ,但采用的是人工编写的解决方案,且没有长 CoT
      • 这些解决方案通常较短且质量参差不齐(例如,缺少步骤)
      • 这被先前关于 SFT 泛化的工作 (2026; 2026) 广泛使用
    • Countdown-CoT-20k:
      • 20k 个 Countdown (2025) 示例,带有由 Qwen3-32B 生成的 长 CoT Response
      • 这是一个需要试错的简单算术游戏

The role of long CoT traces

  • 比较 Math-CoT-20k 和 Math-NoCoT-20k 可以隔离长 CoT 轨迹的影响:
    • 这两个变体共享相同的 Query 和最终的逐步解决方案,而 Math-NoCoT-20k 省略了探索过程
  • 表 2 显示
    • 长 CoT 监督在推理密集型任务上产生了更强的泛化能力(特别是在数学推理方面)
    • 在 OOD 推理任务(LCB v2, GPQA-D, MMLU-Pro)上,对于较大的模型,相同的趋势仍然可见,而对于较小的 Qwen3-8B 模型,增益则较弱
    • 在 IFEval 和 AlpacaEval 2.0 上,Math-NoCoT-20k 的表现通常略优于 Math-CoT-20k,因为这些基准测试更强调指令遵循和对齐相关行为,而非长程推理

Data quality matters,数据质量至关重要

  • 在无长 CoT 的设置中,本文进一步比较了 Math-NoCoT-20k 和 NuminaMath-20k,以隔离数据质量的影响
  • 表 2 显示
    • Math-NoCoT-20k 的表现始终更好,而 NuminaMath-20k 表现出广泛的 OOD 性能下降,并且在领域内数学推理上几乎没有增益
  • 表 20 显示
    • NuminaMath 在第 3 节所述的“下降-恢复(dip-and-recovery)”动态中几乎没有表现出恢复
  • 结论:低质量数据会显著降低 SFT 的效用,而在低质量数据上训练可能会造成 SFT 不泛化的错误印象

Procedural generalization: evidence from Countdown

  • Countdown-CoT 数据集测试了长 CoT SFT 是否能迁移超越领域特定知识的抽象推理程序
    • Countdown-CoT 是一个算术游戏,模型必须使用基本运算 \( (+,- ,\times ,\div) \) 组合一组给定的数字以达到目标值
    • Countdown-CoT 中的 Response 轨迹包含结构化的探索性程序,如分解、回溯和验证,但没有明确的领域知识
  • 表 2 显示,对于两个 Qwen3 模型,Countdown-CoT-20k 在推理任务上相比基础模型都有所提升,甚至在数学任务上优于 Math-NoCoT-20k,尽管其算术范围狭窄
  • 这表明推理程序的结构,而非领域内容,可能是泛化的关键驱动因素
  • 但这并非普遍成立:
    • 对于 InternLM2.5-20B,Countdown-CoT 仅在数学上产生了边际增益
      • 这表明程序性泛化的有效性也依赖于基础模型的能力
      • 本文将在第 5 节研究这个因素
    • 而且,Countdown 并不能同样地泛化到所有任务
      • 比如 IFEval 分数可能会下降

How Model Capability Affects Generalization

Setup

  • 在相同的 Math-CoT-20k 数据和相同的训练协议下,训练了四个规模递增的 Qwen3 基础模型(1.7B, 4B, 8B, 14B)
  • 在这个受控设置中,泛化行为的差异可以归因于模型能力的差异

Higher-capability models generalize better,能力越高的模型泛化能力越好

  • 图 5 显示了在匹配的数据和训练设置下,一个清晰的能力依赖趋势
    • 14B 模型表现出显著的“下降-恢复(dip-and-recovery)”轨迹,并最终在多个领域获得广泛提升
    • 8B 和 4B 模型也显示出恢复阶段,但改进较小,而 1.7B 模型即使在后期检查点上,在所有基准测试上也仅显示出边际增益甚至负增益
    • 这种模式表明,仅凭优化和数据并不能保证泛化:
      • 能力越高的模型更有可能内化可迁移的推理模式,而能力较低的模型则倾向于模仿表面形式
      • 这些结果还表明,第 3.1 节中的“下降-恢复(dip-and-recovery)”动态本身也依赖于模型能力
      • 其余基准测试和 Qwen2.5 模型的结果见附录 C.5

Response length and model capability

  • 图 5 还显示,即使经过长时间训练,较小的模型仍保持较长的 Response 长度,而较大模型的 Response 长度收缩得更快,并稳定在较低的值
  • 如第 3.2 节所讨论的, Response 长度可以作为学习阶段的一个粗略诊断:
    • 停留在 “长 Response” 阶段的模型很可能尚未超越学习表面模式
    • 较小的模型更有可能停留在这个阶段,这表明从模仿长 Response 模式到内化真实推理模式的能力有限(案例研究和分析见附录 C.6 和 C.7)
    • 这一结果也与先前的观察一致:较小的蒸馏推理模型(例如,Deepseek-Distill-Qwen-1.5B)通常比较大的蒸馏模型(7B 和 14B)表现出更长的 Response 长度 (2025)

Asymmetric Generalization: Safety Under Long-CoT SFT,不对称泛化:长 CoT SFT 下的安全性

  • 前面章节已经说明:长 CoT 推理 SFT 会跨领域迁移
  • 本节说明,这种迁移是不对称的:相同的训练会持续削弱安全性和拒答能力
  • 一个有控制的 CoT 与无 CoT 的对比(使用匹配的 Query 和答案)进一步表明,这种性能下降源于长 CoT 轨迹中的程序性模式

Setup

  • 本文评估了三个模型(Qwen3-14B-Base, Qwen3-8B-Base 和 InternLM2.5-20B-Base)在 HEX-PHI 上的安全性表现如何变化
  • 具体细节:将基础模型与在 Math-CoT-20k 和 Math-NoCoT-20k 上训练的 SFT 检查点进行比较

Safety degradation under long-CoT SFT

  • 图 6 (a) 显示,使用长 CoT 数据(Math-CoT-20k)训练导致所有三个模型上的 ASR 大幅增加
  • 在无 CoT 数据(Math-NoCoT-20k)上训练导致的安全性下降要小得多
  • 由于 Math-CoT-20k 和 Math-NoCoT-20k 包含相同的 Query 和最终解决方案
    • 这表明观察到的安全性下降与长 CoT 轨迹中的程序性模式的关系比与数学内容本身的关系更密切

How long-CoT SFT changes refusal behavior: a case study,long-CoT SFT 改变拒答行为

  • 为了理解这种性能下降,本文比较了模型在长 CoT SFT 前后如何回答相同的有害 Query (图 6 (b))
    • 基础模型通常直接发出简短的拒答(这个拒答是正确的,不能回答有害的 Response)
  • 经过长 CoT SFT 后,模型以警告开始,然后在思考过程中自我合理化(例如,“出于教育目的”),并最终提供包裹在警告中的有害细节
    • 矛盾的是,这也可能是一种泛化形式
    • 理解:这种开始回答错误信息的可能
  • 本文推测,长 CoT SFT 强化了一个持续的问题解决先验:
    • 探索替代方案,寻找可行的路径,并坚持克服障碍
    • 对于有害 Query ,障碍变成了拒答策略本身,而扩展的推理为绕过安全护栏提供了空间

Related Work

  • 部分工作在合成任务上建立了有影响力的“SFT 记忆,RL 泛化”框架
    • 与本文工作最直接相关的是,
      • 部分工作评估了数学推理 SFT 的跨领域可迁移性,并发现了有限的增益(本文在相同的短训练协议下重复了这一发现,尽管更长的优化导致了性质不同的结果)
    • 一个密切相关的研究方向将 RL 的优势理解为减少了遗忘或恢复在 SFT 期间退化的能力 ,并将其归因于 on-policy 数据 (2025),向 KL-最小策略的模式寻求更新 (2024; 2026),通过奖励方差进行隐式正则化 (2026),以及保持权重空间结构 (2025; 2025)
    • 本文的工作是互补的:
      • 本文没有比较 SFT 和 RL,而是研究了推理 SFT 本身何时能跨领域迁移,并确定了对泛化至关重要的几个较少受到关注的因素
      • 与关注遗忘的先前工作不同,本文从预训练基础模型而非指令微调模型开始,以更好地区分新获得的泛化能力与现有能力的保留
  • 另一条工作路线试图修改 SFT 目标以改善泛化
    • 几项研究通过 RL 或分布匹配的视角重新解释了 SFT (2025; 2026),并提出了替代的加权策略 (2026; 2026; 2025; 2026)
    • 这些研究与本文的研究是正交的:
      • 本文保持标准的 SFT 目标不变,并表明泛化不是该目标的内在属性,而是共同依赖于优化的充分性、数据质量和结构以及模型能力
  • 有几项工作研究了与 SFT 泛化相关的个别因素
    • 部分研究表明,在微调过程中,记忆和泛化可以共存
    • 部分研究发现,Prompt 多样性和 CoT 监督可以改善 SFT 泛化(仅在合成任务中得到验证)
    • 部分研究 (2026) 揭示,在最终答案错误的长 CoT 轨迹上进行 SFT 仍然可以提高推理性能
    • 一项并发工作 (2026) 发现,在长 CoT SFT 中,数据重复比单次遍历扩展更有效,这与本文的第 3.3 节一致
    • 部分研究 (2025) 表明,循环在较小模型中更为常见 ,这与本文关于模型能力的观察结果相呼应
  • 本文没有单独研究个别因素,而是系统地变化优化、数据和模型能力,同时保持其他因素不变,描述了它们如何共同塑造推理 SFT 中的泛化
    • 本文的受控设置还揭示了新的现象,例如跨领域性能的“下降-恢复(dip-and-recovery)”动态及其对数据质量和模型能力的依赖性
  • 先前的其他工作还表明,扩展推理可能诱导自我越狱并降低安全性 (2025; 2025)
    • 本文从泛化的角度出发,并在匹配的 Query 和答案下对 CoT 和无 CoT 监督进行了有控制的比较,将安全性下降因果地归因于程序性模式

NLP——LLM对齐微调-Revisiting-OPD

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Revisiting-OPD)Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes, 20260326, CASIA
    • 原始 OPD 博客:On-Policy Distillation, Thinking Machines Lab, 20251027

Paper Summary

  • 前置问题:Token-level OPD 跟 Sampled-Token Comparison(Sampled-Token OPD) 本身是不等价的
    • Sampled-Token OPD 强调的是:
      • 在估计每个位置的 KL 散度时,只使用学生实际采样出来的那一个 Token ,而不是对整个词表做求和或期望
      • 这是一种估计方式的刻画
      • Sampled-Token OPD 的反面是对全词表求和
    • Token-level OPD 强调的是:
      • 在计算当前 Token \( y_t \) 的梯度时,只使用当前位置的即时奖励 \( r_t \) ,而不使用未来的奖励信号 \( r_{t+1}, r_{t+2}, \dots \)
      • 这是一种梯度结构的刻画
      • Token-level OPD 的反面是计算当前 Token 梯度时,考虑未来的奖励
    • 这两个概念在逻辑上是正交的,但本文中似乎认为 Token-level OPD 中包含了 Sampled-Token OPD
    • 在最早的 OPD 博客中(或者说传统的 OPD)既是 Sampled-Token OPD,也是 Token-level OPD
      • 因为传统的 OPD 仅不考虑未来 Token 的奖励,且仅仅针对 Sampled-Token 计算梯度(估计 KL 时不考虑词表中的其他 Token)
  • 本文的中心是:长 horizon 后训练中的 OPD
  • 在长 horizon 设定下,常见的 Sampled-token OPD 变体非常脆弱:
    • Sampled-token OPD 变体将分布匹配简化为单 Token 信号
    • 当 Rollout 偏离 Teacher 经常访问的前缀时,会变得愈发不可靠
      • 理解:这里其实没有问题吧,无论如何,我们的目标都是让 Student 的分布更贴近 Teacher 的分布,并不一定要 Rollout 是 Teacher 会经常访问的
  • Insight:
    • 理论上, Token-level OPD 相对于 Sequence-level 反向 KL 是有偏的,但其最坏情况下的方差界要紧得多
      • 实验证明:更强的未来奖励耦合会产生更高的梯度方差和更不稳定的学习
    • 实验上,本文识别出 Sampled-token OPD 的三种失效模式:
      • 不平衡的单 Token 信号
      • 在 Student 生成的前缀上不可靠的 Teacher 指导
      • 由 Tokenizer 或 Special-Token 不匹配导致的失真
  • 本文通过 Teacher Top-K 局部支持匹配(teacher top-K local support matching)来解决这些问题
    • Teacher Top-K 局部支持匹配方法通过 Top-\(p\) Rollout 采样和 Special-Token 掩码实现为截断的反向 KL
    • 在单任务数学推理和多任务 Agentic-plus-math 训练中,该目标函数比 Sampled-token OPD 产生了更稳定的优化和更好的下游性能

Introduction and Discussion

  • On-policy distillation (OPD) 在由 Student 自身的 Rollout 上进行训练,同时使用更强的 Teacher 模型评估局部反馈
    • OPD 在长 horizon 推理和 Agentic 后训练中颇具吸引力,因为在这些场景中 Student 很快会到达在固定 Teacher 轨迹中罕见或缺失的前缀 (2024; 2024)
      • 理解:这里是说 OPD 本身是从 Student 自身采样的轨迹中学习的,相对于固定的 Teacher(类似 SFT)的场景,更不容易陷入
    • 实际的问题不在于原则上 On-policy Teacher 监督是否有用,而在于训练由 Student 生成的轨迹驱动时,Teacher 监督目标函数仍然是可靠的
      • 理解:这里是说在 On-policy 采样轨迹下,使用 Teacher 的监督信号是有效的
  • 目前 LLM 中的 OPD 通常实现为 Sampled-token Comparison:
    • 在每个解码步骤, Student 仅通过其 Sampled-token 上的对数比率进行更新
    • 理解:Sampled-token Comparison 表示这里本质是一种比较,而不是一种估计
  • 这种近似计算成本低,但至少存在下面三个问题(导致训练变得脆弱)
    • Sampled-token OPD 将分布级别的差异变成了一个高度不平衡的单 Token 信号
    • Sampled-token OPD 可能在 Student 常见但 Teacher 不常见的前缀上过度信任 Teacher
    • Sampled-token 很容易因 Tokenizer 或 Special-Token 不匹配而失真
  • 存在一个相应的估计器权衡:
    • 一个更序列耦合的目标函数可以恢复 Token-level OPD 丢弃的信息,但更强的奖励耦合也可能使优化变得嘈杂得多
  • 本文首先在估计器层面研究这种权衡
    • Sequence-level 反向 KL 将每个 Token 的更新与未来的奖励耦合起来
      • Token-level OPD 则丢弃了这些项
    • Token-level OPD 相对于 Sequence-level 目标是有偏的,但它具有更紧的最坏情况方差界
  • 本文实验展示了相同的模式:
    • 随着未来奖励耦合的增加,梯度方差上升,优化变得不那么稳定
    • 这为长 horizon 后训练提出了一个简单的设计目标:保持足够的局部监督以控制方差,同时使局部比较比单 Token 点估计更不脆弱
  • 本文用 Teacher Top-K 局部支持匹配 取代了 Sampled-token 监督
    • 在每个前缀处,在 Teacher 局部合理的支持集上 比较 Teacher 和 Student 的分布(不是仅仅是采样的 Token 上给出奖励)
    • 本文将此目标函数实现为带有 Top-\(p\) Rollout 采样和 Special-Token 掩码的截断反向 KL
    • 得到的更新仍然是局部且简洁的,但比 Sampled-token OPD 对特异的采样续接和 Tokenization 伪影更不敏感
  • 贡献总结:
    • 分析了 OPD 中的估计器权衡:
      • Token-level OPD 相对于 Sequence-level OPD 是有偏的,但其最坏情况方差随序列长度的增长要慢得多,这在长 horizon LLM 后训练中很重要
    • 识别了 Sampled-token OPD 的三种实践失效模式:
      • 不平衡的单 Token 信号
      • 在 Student 生成的前缀上不可靠的 Teacher 指导
      • 由 Tokenizer 或 Special-Token 不匹配导致的失真
    • 提出了 Teacher Top-K 局部支持匹配,实现为带有 Top-\(p\) Rollout 和 Special-Token 掩码的截断反向 KL
      • 在单任务数学推理和多任务 Agentic-plus-math 训练中展示了比 Sampled-token OPD 更强的优化行为和下游性能

Related Work(待后续补充)


Understanding Sampled-token OPD: Tradeoffs and Failure Modes,Sampled-token OPD 的 Tradeoffs 与失效模式

From reverse-KL to token-level OPD

  • 从 OPD 背后的 Sequence-level 目标开始
  • 对于一个 Prompt \(x\),反向 KL 目标函数为
    $$J_{\text{OPD} }(\theta) = \mathbb{E}_{x\sim D}[D_{\text{KL} }(\pi_{\theta}(\cdot \mid x)| q(\cdot \mid x))] $$
    • \(\pi_{\theta}\) 表示 Student 模型
    • \(q\) 表示 Teacher 模型
  • 使用得分函数恒等式,其梯度可以写为
    $$\nabla_{\theta}J_{\text{OPD} }(\theta) = \mathbb{E}_{x,y\sim \pi_{\theta}(\cdot |x)}\left[\left(\log \pi_{\theta}(y\mid x) - \log q(y\mid x)\right)\nabla_{\theta}\log \pi_{\theta}(y\mid x)\right] $$
  • 对于每个解码步骤 \(t\),定义前缀上下文 \(c_t\)、梯度 \(g_t\) 和奖励 \(r_t\):
    $$
    \begin{align}
    c_{t} &= (x, y_{ < t}) \\
    g_{t} &= \nabla_{\theta}\log \pi_{\theta}(y_{t}\mid c_{t}) \\
    r_{t} &= \log \frac{\pi_{\theta}(y_{t}\mid c_{t})}{q(y_{t}\mid c_{t})}
    \end{align}
    $$
  • 使用自回归分解可得:
    $$\begin{align}
    \log \pi_{\theta}(y\mid x) - \log q(y\mid x) &= \sum_{t^{\prime} = 1}^{T}r_{t^{\prime} }\\
    \nabla_{\theta}\log \pi_{\theta}(y\mid x) &= \sum_{t = 1}^{T}g_{t}
    \end{align}$$
  • 得到 Sequence-level 估计器(梯度估计器,\(\hat{g}_{\text{seq} }\) 中的 hat 标签表示蒙特卡罗估计)
    $$\hat{g}_{\text{seq} } = \sum_{t = 1}^{T}\left(\sum_{t^{\prime} = 1}^{T}r_{t^{\prime} }\right)g_{t} \tag {1}$$
    • 注:为便于理解,这里展开完整的形式是
      $$
      \begin{align}
      \nabla_{\theta}J_{\text{OPD} }(\theta) &\approx \hat{g}_{\text{seq} } \\
      &= \sum_{t = 1}^{T}\left(\sum_{t^{\prime} = 1}^{T}\log \frac{\pi_{\theta}(y_{t^\prime}\mid c_{t^\prime})}{q(y_{t^\prime}\mid c_{t^\prime})}\right)\nabla_{\theta}\log \pi_{\theta}(y_{t}\mid c_{t})
      \end{align}
      $$
  • 在上式中,对于 \(t^{\prime}< t\),有
    $$\mathbb{E}[r_{t^{\prime} }g_{t}] = 0$$
    • 注:这里不太规范,没有明确期望 \(\mathbb{E}\) 是在什么策略下采样的,但根据上下文可以推导得到函数是:
      $$ \mathbb{E}_{x,y \sim \pi_\theta(\cdot|x)}[\cdot]$$
    • 因为 \(r_{t^{\prime} }\) 仅依赖于步骤 \(t\) 之前的前缀,而
      $$\mathbb{E}[g_t\mid x,y_{ < t}] = \sum_{y_t}\pi_\theta (y_t\mid c_t)\nabla_\theta \log \pi_\theta (y_t\mid c_t) = 0 $$
      • 注:这里为 0 的原因是得分函数的性质,证明可参考 NLP——LLM对齐微调-Rethinking-KL-Regularization
  • 相同的梯度也可以写成因果的 return-to-go 形式:
    $$\mathbb{E}[\hat{g}_{\text{seq} }] = \mathbb{E}\left[\sum_{t = 1}^{T}\left(\sum_{t^{\prime} = t}^{T}r_{t^{\prime} }\right)g_{t}\right] $$
  • LLM 训练中一个常见的近似是在每个位置仅保留即时项:
    $$\hat{g}_{\text{tok} } = \sum_{t = 1}^{T}r_{t}g_{t} \tag {2}$$
    • 这里将 (2) 称为 Token-level OPD(注意:上述公式隐含了使用蒙特卡洛估计来估计梯度,所以本身是 Sampled-Token OPD)
    • 这种近似去除了未来奖励耦合(其实之前的奖励耦合也去除了,但是因为之前的奖励下值梯度值为 0,所以不用关注)
      • 因此 Token \(y_{t}\) 的更新仅依赖于其即时奖励
      • 理解:这里相当于移除了 Sequence-level OPD 中的未来奖励部分对当前的梯度加权
    • Token-level 的梯度估计相对于 Sequence-level 反向 KL 估计器是有偏的
      • 但在长 horizon 设定中具有更低的方差
      • 这种差异反映在它们的方差缩放上:
        • 在有界奖励和有界得分函数梯度的条件下, Token-level OPD 的最坏情况方差上界缩放为 \(O(T^{2})\),而 Sequence-level 估计器的缩放为 \(O(T^{4})\)
        • 附录 B 中提供了详细的推导
  • 为了在这两个极端之间进行插值,本文考虑折扣 return-to-go 估计器
    $$\hat{g}_{\gamma} = \sum_{t = 1}^{T}\left(\sum_{t^{\prime} = t}^{T}\gamma^{t^{\prime} - t}r_{t^{\prime} }\right)g_{t},\qquad \gamma \in [0,1] \tag {3}$$
    • \(\gamma = 0\) 的情况恢复了 Token-level OPD
    • \(\gamma = 1\) 则恢复了因果 Sequence-level 估计器
    • 进行了一个双任务的 Toy 实验,观察到:增加 \(\gamma\) 会导致显著更高的梯度方差和更不稳定的优化
      • 见图 1 的图示和附录 C 的额外实验细节
  • 图 1: 实验中增加 \(\gamma\) 的效果
    • 更大的 \(\gamma\) 会产生更高且更持久的方差区间,并且在 Sequence-level 极限下,状态空间中的策略会漂移

Why Sampled-token OPD is brittle in practice,Sampled-token OPD 的问题

  • 从偏差-方差的角度来看,Token-level OPD 很有吸引力,但 Sampled-token 的比较在实践中可能很脆弱
    • 问题:Token-level OPD 跟 Sampled-Token Comparison(Sampled-Token OPD) 本身是不等价的
      • Sampled-Token OPD 强调的是:
        • 在估计每个位置的 KL 散度时,只使用学生实际采样出来的那一个 Token ,而不是对整个词表做求和或期望
        • 这是一种估计方式的刻画
        • Sampled-Token OPD 的反面是对全词表求和
      • Token-level OPD 强调的是:
        • 在计算当前 Token \( y_t \) 的梯度时,只使用当前位置的即时奖励 \( r_t \) ,而不使用未来的奖励信号 \( r_{t+1}, r_{t+2}, \dots \)
        • 这是一种梯度结构的刻画
        • Token-level OPD 的反面是计算当前 Token 梯度时,考虑未来的奖励
      • 这两个概念在逻辑上是正交的,但本文中似乎认为 Token-level OPD 中包含了 Sampled-Token OPD
  • 本文分离出三个不同的问题:
    • (1) 蒸馏信号高度不平衡
    • (2) Teacher 信号在 Student 生成的前缀上变得不太可靠
    • (3) Tokenizer 和 Special-Token 的不匹配会进一步扭曲单 Token 的比较
A highly imbalanced sampled-token signal
  • 在 Sampled-token OPD 中,步骤 \(t\) 的更新由单个 Sampled-token 上的对数比率驱动:
    $$\log q(y_t|c_t) - \log \pi_\theta (y_t|c_t) $$
    • 当 Student 给一个 Sampled-token 赋予比 Teacher 更高的概率时,就会产生负奖励
  • 如图 2 所示,大多数采样的 Token 获得负奖励,而正向的学习信号则集中在少数具有正优势的 Token 子集上
    • 结果是一个不平衡的训练信号,其中优化不成比例地由少数局部有利的 Token 驱动
    • 训练可能随后对 Teacher 局部偏好的短续接变得敏感,例如填充词或犹豫标记,即使这些 Token 对整体轨迹质量的贡献很小
    • 理解:产生这个问题的原因是因为 轨迹是由 Student 采样的,Student 采样时倾向于采样自身高概率的 Token(而这些 Token 在 Teacher 上的概率不一定大)
  • 图 2: Token 概率的散点图 ( Student vs. Teacher )
    • 在 Qwen2.5-7B-It (2025) 上的第一次训练迭代时,使用 OpenThinker3-7B (2025) 作为 Teacher 模型的 Sampled-token OPD
    • Sampled-token 信号严重偏向于惩罚当前的 Student Token,而不是提供平衡的奖励
The teacher signal can become unreliable on student-generated prefixes
  • 这一点可以描述为:Teacher 信号在 Student 生成的前缀(不是 Teacher 生成的前缀)上可能变得不可靠
  • Sampled-token OPD 隐含地假设 Teacher 对 Student 生成 Token 赋予的概率是其轨迹质量的有用代理
    • 当 Rollout 进入 Student 常见但 Teacher 不常见 的前缀时,这个假设会减弱
    • 在这样的前缀上, Teacher 可能给看似合理的 Token 赋予高概率,而此时轨迹已经偏离了期望的方向
      • 在本文实验的日志中,这种行为与诸如重复循环、自重置推理和格式错误的续接等模式相关联
  • 问题:这个点真的算是问题吗?可能是问题
    • 首先:简单理解下,不论前缀为何,假设 Teacher 认为这个前缀上后续生成的 Token 都应该近似输出某个特定 Token,那 Student 就应该被学到这个 Teacher 的知识,这和前缀在 Teacher 中是否常见没有关系
    • 实际上:如果 Teacher 甚至没有训练过这个 Prefix,那么确实可能会有问题,因为 Teacher 可能会输出乱码(此时 Teacher 出现类似 OOD 错误),此时 Teacher 确实无法胜任奖励信号的角色
  • 图 3 和 附录 D 的观察表明存在一个目标层面的不匹配:
    • OPD 鼓励 Token-level 上与 Teacher 达成一致,但这种代理并不一定对应于轨迹级别的质量,尤其是在 Teacher 分布外 (out-of-distribution) 的前缀上
    • 本文推测有两个因素放大了这个问题
      • 第一:Teacher 分布通常很尖锐,因此即使 Student 和 Teacher 之间稍有分歧,也可能产生很大的对数比率值
      • 第二:Teacher 的生成模式与 Student 的生成模式之间的差异使得 Student 的前缀更可能落在 Teacher 的典型上下文之外
    • 同样的失效也体现在 Teacher 信号随位置变化的方式上
      • 图 4 显示了跨 Token 位置的 Teacher-Student 对数概率差距的分布
        • 在早期位置相对集中,并在序列的后期逐渐变宽,在长 Rollout 上出现更极端的值
  • 图 3: Student 陷入重复循环
    • 但Teacher 模型在重复的 Token 上与 Student 模型保持高度一致,表明对此类行为缺乏适当的惩罚 (注:无色的 Token 多,说明两者输出的概率几乎一致)
  • 图 4: 跨 Token 位置的 Teacher-Student 对数概率差距的分布
    • 较后的位置显示出更宽的分布和更极端的值 ,表明在长的 Student 生成 Rollout 上 Teacher 信号更嘈杂
    • 问题:为什么单数长度的 Token 位置方差明显小于双数长度的 Token(比如 15k 相比 16k 长度,差异很大,但 15k 相对 0k 差异很小)
Tokenizer and special-token mismatch
  • Sampled-token OPD 使用 Teacher 的分布来比较 Student 生成的确切 Token
  • 当两个模型使用不同的 Tokenization 时,相同的原始文本可能被分割成不同的方式,因此 Student 生成的 Token 在 Teacher 的 Token 体系下可能不对应于一个自然的 Token
    • 例如,Student 可能将 <think> 生成为 <, think, >,而 Teacher 期望的是 <th, ink, >
    • 那么 Token < 从 Teacher 那里获得低概率,即使两个模型产生了相同的语义内容
  • 类似的 mismatch 也会出现在 Special-Token 上,例如序列结束标记
    • 在这种情况下,单 Token 的比较会将语义分歧与 Tokenizer 不匹配混淆起来
  • 本节的以上这些观察激发了超越单 Token 监督的动机:
    • 在每个前缀处,我们不仅仅比较采样的 Token,而是在一组合理的 Next-Token Continuations 上比较 Teacher 和 Student ,同时保留 Token-level 更新以保证稳定性
  • 图 5: Token-level 比较可能因 Tokenizer 不匹配而惩罚语义正确的输出
    • 理解:图中,因为 Token 是按照 Student 的 Tokenizer 来划分的,所以部分 Special Token 是 Student 和 Teacher 不同的,这些 Token 下,按照 Student 划分后,Teacher 出现这些 Token 的概率很低(按照 Teacher 的 Tokenizer 划分则出现概率很高)
      • 这个现象本质上是一种 Special-Token mismatch

Method

  • 本文的方法保留了 Token-level OPD,但在每个前缀上用一个基于 Teacher 选择的 support 集合的分布级比较取代了单 token 监督
    • 产生一个截断的 reverse-KL 目标,在保持计算效率的同时改善了训练信号的平衡

Teacher top-K local support matching,Teacher top-K 局部 support 匹配

  • 本文的方法不是在单个 Sampled-token 上比较 Teacher 和 Student ,而是在一个 Teacher 定义的局部 support 上对它们进行比较
  • 一个自然的起点是在前缀 \(c_{t}\) 处的全词表 reverse-KL:
    $$\mathcal{L}_{\text{full} }(c_t) = \sum_{v\in \mathcal{V} }\pi_\theta (v|c_t)\log \frac{\pi_\theta(v|c_t)}{q(v|c_t)} \tag {4}$$
  • Sampled-token OPD 可以被视为对这个量的单样本 Monte Carlo 近似:
    $$\mathcal{L}_{\text{sample} }(c_t,y_t) = \log \frac{\pi_\theta(y_t|c_t)}{q(y_t|c_t)},\qquad y_t\sim \pi_\theta (\cdot |c_t) \tag {5}$$
    • 这种近似在计算上很有吸引力,但将整个更新集中在一个采样的 token 上
  • 本文做法:在每个前缀上,在一个 Teacher 支持的 token 集合上比较 Teacher 和 Student
    • 对于每个 prompt \(x\),使用 Student 推理策略采样一组输出
      $$\{o_i\}_{i = 1}^G$$
    • 令为输出 \(o_{i}\) 在位置 \(t\) 处的前缀为:
      $$ c_{i,t} = (x,y_{i, < t}) $$
    • 定义 Teacher support 集合
      $$S(c_{i,t}) = \text{TopK}_q(c_{i,t}) \tag {6}$$
      • 这包含了在该前缀下 Teacher 认为(Next-token 候选)概率最高的 \(K\) 个 token
  • 本文在这个局部 support 内部对 Teacher 和 Student 的分布进行重新归一化:
    $$\begin{align}
    \hat{\pi}_{\theta}(v\mid c_{i,t}) &= \frac{\pi_{\theta}(v\mid c_{i,t})}{\sum_{u\in S(c_{i,t})}\pi_{\theta}(u\mid c_{i,t})}\\
    \hat{q} (v\mid c_{i,t}) &= \frac{q(v\mid c_{i,t})}{\sum_{u\in S(c_{i,t})}q(u\mid c_{i,t})}
    \end{align}
    \tag {7}$$
  • 训练目标是对所有 Rollout 位置的平均截断 reverse-KL:
    $$\mathcal{L}_{\text{LSM} } = \mathbb{E}_{x,\{o_i\} \sim \pi_{\theta ,\text{infer} } }\left[\frac{1}{\sum_{i = 1}^{G}|o_i|}\sum_{i = 1}^{G}\sum_{v\in S(c_{i,t})}\hat{\pi}_{\theta}(v\mid c_{i,t})\log \frac{\hat{\pi}_{\theta}(v\mid c_{i,t})}{\hat{q}(v\mid c_{i,t})}\right] \tag {8}$$
    • 相对于 Sampled-token OPD,这个目标在 Teacher 支持的局部区域内进行分布级比较,而不是仅仅奖励或惩罚一个采样的 token
    • 由此产生的更新将正向和负向调整重新分配到前缀中所有 Teacher 支持的候选 token 上,产生了一个更平衡的训练信号,同时仍然比全词表 KL Cheap 得多
  • 问题:为什么是 Teacher 的 Top 概率子集,不是 Student 的 Top-K 候选 Token?
    • 推测使用 Student 的 Top 概率子集会更好,因为这里是为了扩展采样到的 Token
    • 而且,采样到的 Token 理论上一定包含在 Student 的 Top-K 候选 Token 中,却不一定包含在 Teacher 的 Top-K 候选 Token 中(毕竟轨迹是从 Student 采样得到的)
    • 补充:下文中会有消融实验,两者在不同领域上收益有胜有负,另外,针对 Teacher 的 Top-K 候选 Token 可能不包含 Sampled Token 的情况,可以强行将 Sampled Token 添加到 Teacher 的 Top-K 候选 Token 集合中

Practical stabilization choices,实际生产中选择的稳定化选择

Support-set renormalization
  • 重新归一化是必要的,因为目标是在截断的 support 上而非完整词汇上进行评估
  • 没有重新归一化,优化可能会变得不稳定,因为 support 内部的 Teacher 和 Student 概率质量无法直接比较
    • 理解:不归一化时,两者的子集上的分布和(对应归一化分母)是不一样的
    • 问题:这种归一化改变了原始的 Teacher 和 Student 的 Token 概率(本身似乎有问题)
Top-\(p\) rollout sampling
  • 使用 top-\(p\) 采样生成 Rollout
  • 无约束采样偶尔会产生极低概率的 token,这反过来会 Create 一些前缀,在这些前缀上 Teacher 分布的信息量较少,而 Student 分布已经在恶化
    • 理解:一些极低概率的 Token 确实会导致生成的轨迹变得极端(无约束时有一定概率采样到极低概率的 Token)
  • Top-\(p\) 采样使轨迹更接近典型的延续,并使 Teacher 信号更可靠
Special-token masking
  • 屏蔽有问题的 Special-Token ,以减少由不兼容的分词约定引起的假阴性
    • 注意:这里不是修正,而是直接屏蔽
    • 理解:这里所谓 有问题的 Special-Token 是指 Teacher 和 Student Tokenization 方式不一致的 Token
  • 这是一个正交的工程修复:
    • 在本文的实验中,这个修复实质性地帮助了 Sampled-token OPD 基线,而局部 support 目标对其敏感度要低得多
  • In Principle,也可以合并多 token marker 变体或对等效的分词进行平均,但本文在此不采用这些特定于分词器的补救措施,因为掩码是最简单的与模型无关的修正
    • 理解:这里是指一些底层的 Token 修复方式了

Experiments

Setup

  • 本文在现有的 OPD 训练流程之上实现了局部 support 匹配,使用 Qwen2.5-7B-Instruct (2025) 作为 Student
  • 考虑两种 Setting:
    • (1) 一个单任务数学推理 Setting
      • OpenThinker3-7B (2025) 作为 Teacher
      • 训练使用 DAPO-Math-17K (2025) 的英文部分
      • 最大上下文长度为 16K
    • (2) 一个多任务 Setting
      • 在数学推理和基于 ALFWorld (2021) 的多轮 Agentic 任务之间交替进行
      • 数学任务使用 OpenThinker3-7B (2025) 作为 Teacher
      • Agentic 任务使用发布的 GiGPO-Qwen2.5-7B-Instruct-ALFWorld checkpoint (2025) 作为 Teacher
  • 所有运行默认使用:
    • batch size 128
    • mini-batch size 64
    • 学习率 \(2\times 10^{- 6}\)
    • 温度 1
    • Rollout 使用 top-\(p = 0.9\) 进行采样
  • 指标:
    • 在数学基准测试上报告 pass@1,在 ALFWorld 上报告成功率
    • 少数情况下还会为数学评估额外报告 average@32

Single-task math reasoning

  • 表 1 显示,在单任务数学推理中,局部 support 匹配相比 Sampled-token OPD 有所改进
    • Sampled-token OPD 已将平均分从 28.2 提高到 36.4
      • 注:但仍远落后于 Teacher
    • 在 Sampled-token OPD 上,仅使用 Special-Token 掩码就将采样式基线进一步改进到 40.7
      • 表明分词伪影是该问题的重要组成部分
    • 本文的完整方法达到 41.5
    • 掩码对本文方法影响不大 (41.0 对比 41.5),这与分布级 support 匹配 对分词器不匹配的敏感度低于单 token 监督 的结论一致

Multi-task agentic-plus-math training, Agentic 加数学联合

  • 表 2 显示了交替多任务训练中一个更不对称的模式
    • Sampled-token OPD 基线在 ALFWorld 上已经很强,主要的改进空间在于数学方面
  • 本文方法的无掩码版本将 Math500 从 76.0(Sampled-token OPD w/ mask)提高到 82.0,并将数学平均分从 36.6 提高到 41.7,同时在 ALFWorld 上保持竞争力
  • 带掩码的版本取得了最佳的 ALFWorld 结果 97.7,但牺牲了一部分数学增益
    • 理解:说明两个领域存在一些冲突,有一个 trade-off 的过程
  • 这些结果表明:
    • 局部 support 匹配在长 horizon Token-level 监督最脆弱的领域帮助最大,同时保留了强大的 Agentic 性能
    • 理解:这里的 长 horizon Token-level 监督最脆弱的领域 主要指的是数学领域上

Training dynamics and alignment,训练动态与对齐

  • 图 6、7 和 8 提供了优化动态的更详细视图
    • 注:图 6 的评测结果和 表 1 结果对不齐
    • 注:从 图 6 - 图 8 的整个评估分数看来,同一个方案训练过程中波动较大,实际上继续训练下去,结论可能回又不一样
Better learning curves
  • 在数学推理上,本文的方法在整个训练过程中都提高了训练奖励和评估性能,而不仅仅是在最后的 checkpoint
    • 这种模式在单任务设置和交替多任务设置中都成立
More stable optimization
  • 本文的方法产生了更小的梯度范数和更低的裁剪边界比例,同时保持了足够的策略熵,这表明优化更加稳定
  • 可以观察到, Special-Token 掩码在训练早期和中期显著降低了 Sampled-token OPD 的裁剪边界比例,而对本文的方法影响很小
Improved teacher-student alignment
  • 在 Sampled-token 上的 Teacher-Student 对数概率差距也变小了
    • 这表明截断的局部 support 目标即使在使用基线的采样式 token 诊断指标下,也改善了对齐性

Ablations

  • 表 3 和图 9 表明,本文方法拿到的这些增益源于多个设计选择,而非任何单一修改
  • 仅靠 Teacher top-K 比较是不够的:
    • Rollout 策略也必须保持在一个稳定区域,添加 top-p 采样将一个初始较弱的 top-K 变体变成了一个更强的配置
    • 在截断的 support 内部进行重新归一化是必不可少的,移除它会导致快速崩溃
    • 当 support 空间 \(K\) 足够大时,性能对确切的 support 大小并不特别敏感
    • 当 support 空间 \(K\) 太小或 Rollout 完全不受约束时,训练会变得不稳定
Top-K support variants
  • 本文的主要实验在 Teacher 的 top-K support 上定义了截断期望
    • 一个自然的问题是,这个选择本身是否关键,或者相近的 support 定义是否表现类似
  • 本文比较了三种变体:
    • Teacher top-K(主要结果中使用)
    • Student top-K
    • Teacher top-K 加上 Student 采样的 token
  • 表 4 表明,这种益处在不同相近的 support 定义下都相当稳健
    • 没有哪个单一选择在所有基准测试中占主导地位:
      • Teacher top-K 仍然具有竞争力
      • Student top-K 在几个单独的数据集上表现强劲(平均值优于 Teacher Top-K)
      • Teacher top-K 加上 Sampled-token 在这个初步比较中取得了最佳平均分
    • 这表明主要益处来自于用局部分布级匹配取代单 token 比较
      • 暂时没有唯一最优的 support 集合选择
    • 注:这个比较仍然是初步的,因此对 support 集合设计进行更系统的端到端研究仍然是重要的未来工作

Discussion and Limitations

  • 当前的目标仍然是一个截断的代理
    • 本文的局部 support 损失是在一个受限的 token 子集上,以及在由诸如 top-\(p\) 采样等 Rollout 策略生成的前缀上进行评估的
    • 这并不等同于全词表 reverse-KL,也没有明确校正产生训练前缀的采样过程
    • 这个局限性在本文的研究中仍未充分探索的两个地方最为重要:
      • 如何在扩充 Teacher top-\(K\) support 时纳入采样的 token
      • 当 Rollout 策略和训练策略不同时是否需要重要性加权式的校正
    • 作者将当前的公式视为一个实际的设计方案,而不是关于 support 集合构建的最终答案
  • Reward Hacking 的解释仍然是一个机制性假设
    • 本文的定性案例使失败模式具体化,但它们并未分离出一个完整的因果机制
    • 特别地,关于尖锐的 Teacher 分布和分布外前缀共同产生误导性局部奖励的假设,应被视为一个有证据支持的可能解释,而非一个完全确定的因果说明
  • Teacher 匹配仍然是任务成功的一个不完美代理
    • 即使 OPD 被明确定义为 Teacher 匹配目标,由此产生的奖励仍然可能与潜在的成功行为概念存在差异
    • 本文的 Reward Hacking 案例具体化了这种差距:
      • 局部上 Teacher 偏好的延续即使在整个轨迹已经无益甚至有害时,仍然可以获得奖励
      • 在本文的实验中,与 Teacher 之间仍存在显著差距,这表明更好的局部监督只是蒸馏问题的一部分,尤其是在 Teacher 和 Student 差异显著时
      • 缩小这一差距可能需要更强的 Rollout 控制、更好地处理分布偏移、更好地利用 Teacher 的不确定性,以及与可验证结果的奖励相结合

附录 A:Future Directions

OPD versus RL in multi-task transfer,OPD 与 RL 比较

  • 本文的多任务结果激励了对 OPD 和 RL 作为迁移机制进行更直接的比较
    • 在 RL 中,正迁移或负迁移可以直接从跨任务的环境奖励中读取
    • 在 OPD 中,优化目标仍然是 Teacher 派生的,因此迁移是通过 Teacher 认为是局部偏好的行为来过滤的
  • 这种区别可能有助于解释为什么本文的多任务增益在数学方面最强,以及为什么在此设置中附近的支持集定义变得不那么统一
    • OPD 和 RL 之间的任务匹配、计算匹配的比较将有助于阐明 Teacher 引导的迁移何时能跟踪环境级别的泛化,以及 Teacher 奖励差距何时成为瓶颈

Continual learning as a testbed,测试平台

  • 持续学习是 OPD 的另一个自然 Setting
  • Teacher 引导的 On-Policy 目标可以作为一种保留机制,同时 Student 适应新任务,但这种机制也将正好承受本文所揭示的问题:
    • 分布偏移、Teacher 过时以及在长适应视界上近似误差的累积
  • 建议测试 OPD 探究局部支持匹配是否能减轻遗忘,还可探究 Student 不断远离 Teacher 的原始领域时,基于 Teacher 的目标是否仍然有用

Relation to other stabilization directions,与其他稳定化方向的关系

  • 本文方法与下面方向是互补的:
    • Reward-Hacking 缓解
    • 使用 EMA 锚定和 Top-K KL (2026)
    • 基于扰动的 Off-Policy 校正 (2026)
    • Teacher 和 Student Rollout 之间的 Logit 级融合 (2026)
  • 这些方法解决了同一更广泛问题的不同部分:
    • 当 Teacher 和 Student 策略开始出现分歧,如何保持 Teacher 派生的学习信号有用
    • 将局部支持匹配视为该更大工具箱中的一个组成部分,而不是那些稳定化策略的替代品

附录 B: Bias and variance analysis of token-level versus sequence-level OPD,Token-level 与 Sequence-level OPD 的偏差和方差分析

B.1 Bias of the token-level estimator

  • 回顾因果 Return-to-go 形式的 Sequence-level 估计器
    $$\hat{\delta}_{\text{seq} } = \sum_{t = 1}^{T}\left(\sum_{t^{\prime} = t}^{T}r_{t^{\prime} }\right)g_{t} $$
  • 展开内部和得到
    $$\hat{\delta}_{\text{seq} } = \sum_{t = 1}^{T}r_{t}g_{t} + \sum_{t = 1}^{T}\sum_{t^{\prime} = t + 1}^{T}r_{t^{\prime} }g_{t} $$
  • 由于 Token-level 估计器只保留第一项,
    $$\hat{\delta}_{\text{tok} } = \sum_{t = 1}^{T}r_{t}g_{t} $$
  • 它们的期望差距是
    $$\mathbb{E}[\hat{\delta}_{\text{seq} }] - \mathbb{E}[\hat{\delta}_{\text{tok} }] = \mathbb{E}\left[\sum_{t = 1}^{T}\sum_{t^{\prime} = t + 1}^{T}r_{t^{\prime} }g_{t}\right] $$
  • 这明确表明 Token-level OPD 移除了未来奖励耦合项,因此通常相对于 Sequence-level 目标是有偏差的

B.2 Worst-case variance upper bounds,最坏情况方差上界

  • 假设存在常数 \(B_{r},B_{g} > 0\) 使得对所有 \(t\) 有
    $$|r_t|\leq B_r,\qquad | g_t| \leq B_g\quad \text{for all }t $$
  • 对于 Token-level 估计器,
    $$| \hat{g}_{\text{tok} }| \leq \sum_{t = 1}^{T}|r_t|| g_t| \leq TB_rB_g$$
    • 于是有:
      $$\mathbb{E}| \hat{g}_{\text{tok} }| ^2\leq T^2 B_r^2 B_g^2$$
    • 使用 \(\operatorname {Var}(X)\leq \mathbb{E}| X| ^2\) 可得到
      $$\operatorname {Var}(\hat{g}_{\text{tok} }) = O(T^2)$$
  • 对于 Sequence-level 估计器,定义
    $$R = \sum_{t = 1}^{T}r_{t},\qquad G = \sum_{t = 1}^{T}g_{t},\qquad \hat{g}_{\text{seq} } = RG $$
    • 于是又:
      $$|R|\leq TB_r,\qquad | G| \leq TB_g $$
    • 进一步有:
      $$| \hat{g}_{\text{seq} }| \leq T^2 B_rB_g,\qquad \mathbb{E}| \hat{g}_{\text{seq} }| ^2\leq T^4 B_r^2 B_g^2 $$
    • 最终有:
      $$\operatorname {Var}(\hat{g}_{\text{seq} }) = O(T^4) $$
  • 两者核心区别在于是否包含未来的所有奖励(包含时方差会变大)

B.3 Discussion

  • Sequence-level 估计器更接近精确的轨迹级目标
    • 但它将每个 Score 项与许多未来奖励耦合在一起
  • 在最坏情况下的缩放中,这将方差增长从序列长度的二次方改变为四次方
    • 这个论证是有意保守的,但它说明了为什么更强的奖励耦合在长视界后训练中可能成为问题

附录 C:Toy experiment details

C.1 Environment

  • 使用一个双任务一维连续控制环境来可视化更强的奖励耦合如何改变 OPD 优化
  • Student 策略是一个三层 MLP,大约有 4K 个参数
  • 输入是一个三维向量,包含任务标识、当前位置和归一化时间步长
  • 该策略输出高斯动作分布的均值和标准差,状态转移为
    $$s_{t + 1} = s_t + \delta ,\qquad \delta \sim \mathcal{N}(\mu ,\sigma) $$
  • 这两个任务是彼此的镜像:
    • 左任务从 \(+2\) 开始,目标是 \(-3\)
    • 右任务从 \(-2\) 开始,目标是 \(+3\)
  • 本文首先使用 REINFORCE 训练独立的 Teacher,然后通过交替任务 OPD 将它们蒸馏到一个共享的 Student 中

C.2 Gradient variance estimation

  • 在每个训练步骤,将一批 \(B = 64\) 条轨迹分成 \(M = 8\) 个 Micro-batch
  • 对于每个 Micro-batch \(m\),计算损失 \(\mathcal{L}_{m}\) 和输出层参数上对应的梯度向量 \(\mathbf{g}_{m}\)
  • 通过下式估计梯度方差
    $$\operatorname {Var}(\mathbf{g}) = \frac{1}{M}\sum_{m = 1}^{M}| \mathbf{g}_m - \bar{\mathbf{g} }| ^2,\qquad \bar{\mathbf{g} } = \frac{1}{M}\sum_{m = 1}^{M}\mathbf{g}_m $$
  • 仅将此量用作一个定性指标,但比较不同 \(\gamma\) 设置下的相对方差已经足够

C.3 Toy Additional Results of Toy Experiments

  • 图 A1、A2 和 A3 报告了不同 OPD 估计器 (\(\gamma \in \{0.0, 0.25, 0.5, 0.75, 1.0\}\)) 在三个随机种子下的梯度方差曲线和相应的状态访问热图
    • 尽管具体数值因种子而异,但定性模式是一致的
    • 所有 Setting 在优化初期都表现出较大的方差峰值,并且较大的 \(\gamma\) 通常在训练后期保持在较高的方差水平
    • 在几次运行中,\(\gamma = 0.75\) 或 \(\gamma = 1.0\) 下的方差比较小 \(\gamma\) 值下的方差保持高出一到几个数量级
    • 在所有运行中, Token-level OPD (\(\gamma = 0\)) 始终能学习到向两个任务的目标状态移动的轨迹
    • \(\gamma\) 的中间值在性质上保持相似,但变得更加分散
    • 当 \(\gamma\) 接近 Sequence-level 情况 (\(\gamma = 1.0\)) 时,学习到的轨迹常常偏离期望的方向,并在状态空间的次优区域附近稳定下来

附录 D:Qualitative OPD reward-hacking case study,定性研究

  • 为了补充正文中的代表性失败案例,这里总结一个来自 Sampled-token OPD 下多任务训练的较长轨迹
  • 按时间顺序阅读,该案例以几种形式表现出相同的模式:
    • 模型在已经有答案后仍然继续分析,陷入重复循环(例如“wait”),漂移到格式错误的延续中,并且仍然在这些 Token 上获得高的局部 Teacher 概率
  • 1)失败首先表现为过度延续
    • 即使在答案已经有效可用之后,局部信号仍然将大量质量放在通用的推理填充词和连接 Token 上,鼓励模型继续生成而不是干净地停止
    • 同样的模式稍后出现在诸如 “confirm” 这样的前缀上,局部信号仍然偏好额外的验证而不是终止
    • 这种行为的一部分也可能反映了 Teacher 自身的输出习惯
    • 图 A4 展示了几个代表性案例
  • 2)轨迹发展为犹豫循环和低信息延续
    • 重复的 “wait” Token、大量标点符号的延续以及其他语义薄弱的填充词可能保持局部可奖励,即使整个轨迹已经变得无益
    • 这与第 3.2 节中关于重复循环的讨论一致
    • 图 A5 中提供了两个类似的案例
  • 3)当 Student 进一步漂移到分布外,局部信号可能保持误导性的正向而不是自我纠正
    • 在案例研究中,这表现为退化和乱码输出,然而许多 Token 仍然获得高的 Teacher 概率
    • 图 A6 展示了一个例子

NLP——Why-Self-Distillation-Fails-in-Reasoning

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Why-Self-Distillation-Fails-in-Reasoning)Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?, Microsoft, 20260325

Paper Summary

  • 整体总结:
    • 本文从信息论的视角看 Self-Distillation
    • 分析表名:Self-Distillation 的有效性 取决于信息如何提供给模型 ,以及模型如何将不确定性纳入其推理过程
    • Self-Distillation 通过鼓励模型产生更高置信度的答案 来重塑模型的推理行为
      • 这种效应能够实现更紧凑的推理,并在任务覆盖有限时快速提高领域内性能
      • 当任务覆盖范围广时,它会变得不那么有效,甚至可能损害 OOD 性能
  • 背景 & 问题提出:
    • 背景:Self-Distillation 是 LLM 的一种有效的后训练范式
      • 特点:通常在缩短推理轨迹的同时提升性能
    • 问题提出:
      • 在数学推理中,Self-Distillation 会减少响应长度,同时降低性能
    • 本文将这种性能下降归因于 Epistemic Verbalization (epistemic verbalization) 的抑制
      • 即对模型在推理过程中表达不确定性的行为的抑制
  • 实验 Insight:
    • 让 Teacher 依赖于丰富的信息会抑制不确定性表达
      • 这能够在有限的任务覆盖度下实现快速的领域内优化,但会损害 OOD 性能
      • 因为未见过的(unseen)问题往往受益于表达不确定性并进行相应调整
    • 在 Qwen3-8B、DeepSeek-Distill-Qwen-7B 和 Olmo3-7B-Instruct 上,性能下降高达 40%
  • 结论:暴露适当水平的不确定性对于稳健的推理至关重要 ,并强调了优化推理行为的重要性 ,而不仅仅是强化正确的答案轨迹

Introduction and Discussion

  • Self-Distillation 的定义:
    • (2022) 使用同一模型的两个实例:
      • 实例1:依赖于真实解决方案作为 Teacher
      • 实例2:无法访问解决方案的实例
    • Teacher 为 无法访问解决方案的实例 生成的响应提供信息丰富的奖励信号
  • Self-Distillation 与 RLVR 等后训练方法相结合,可以实现高效的性能提升 (2025; 2026;)
    • 在诸如代理环境 (agentic environments) 和科学推理等领域显示出尤为显著的改进,特别是在 In-domain 评估 Setting 下
    • 先前工作的实验观察:性能随着响应长度的减少而提高,这表明 Self-Distillation 促进了更简洁和有效的推理
  • 问题提出:
    • Self-Distillation 方法应用于数学推理任务时,发生了显著不同的现象
    • 图 1 比较了代表性 Self-Distillation 算法 SDPO 在化学领域 (a) 和数学领域 (b) 的效果
      • 在化学领域,与 GRPO 相比, Self-Distillation 显著减少了响应长度,同时快速提高了性能
      • 在数学领域,尽管响应长度随着训练进行而持续减少,但性能却显著下降,这与之前的发现相反
    • 这引出了一个问题:“为什么即使模型被训练成朝着正确答案移动,性能有时反而会下降?”

      ”Why does performance sometimes degrade despite the model being trained to move toward the correct answer?”

  • 本文分析结论:
    • 提供给 Teacher 的上下文信息越丰富,其生成的推理就越简洁和自信,不确定性表达显著减少,尤其是在数学推理中,性能会下降
    • 作者将这种影响归因于 Epistemic Verbalization (2026) 的抑制
      • 即对 模型明确地表达并将不确定性纳入其推理过程 的能力的抑制
      • 理解:本文的 Epistemic Verbalization 含义可以理解为是不确定性 Token
    • 像 DeepSeek-R1 (2025b) 这样强大的推理模型经常使用像“Wait”或“Hmm”这样的 Token 来表达不确定性
      • 这些表达可能不会直接推进推理,但移除它们会丢弃推理路径可能有缺陷的重要信号,导致显著的性能下降 (2026)
  • Self-Distillation 何时以及为何会抑制 Epistemic Verbalization ?
    • 本文确定了两个关键因素: 信息丰富度 和 任务覆盖度
    • 信息丰富度:
      • 当 Teacher 依赖于更丰富的信息(如正确的解决方案)时,它产生的推理轨迹几乎不表达不确定性
        • 从而鼓励学生模型 (student) 模仿一种自信的推理风格,这种风格预设了在推理时无法获得的信息
    • 任务覆盖度:
      • 任务覆盖度有限时,这种压缩使得能够快速进行领域内优化
      • 随着覆盖度的增加,训练中对 Epistemic Verbalization 的消除会干扰跨多样化任务的优化,从而在更具挑战性或之前未见过的(unseen)问题上降低性能
  • 结果表明:
    • 即使训练目标忠实地引导模型走向正确的推理轨迹,所产生的推理风格也可能会悄然转变,从而损害泛化能力
      • 标准目标不会惩罚对 Epistemic Verbalization 的抑制,但会对 OOD 性能产生负面影响
    • 这表明:
      • 后训练目标不仅要考虑答案的正确性 ,还要考虑激发和保留具有不确定性意识的推理行为

Preliminaries

Self-Distillation

  • 定义:
    • \(x\in \mathcal{X}\) 表示一个输入
    • \(y = (y_{1},\ldots ,y_{T})\) 表示由语言模型 \(\pi_{\theta}\) 生成的一个序列
  • 该模型定义了一个自回归分布
    $$ \pi_{\theta}(y|x) = \prod_{t = 1}^{T}\pi_{\theta}(y_{t}\mid x,y_{< t})$$
  • 在 Self-Distillation 中,同一个模型在不同的条件上下文下既充当学生又充当教师
    • 学生首先生成一个序列 \(y\sim \pi_{\theta}(\cdot \mid x)\)
    • 教师策略是通过让模型依赖于一个更丰富的上下文 \(c\) 来获得的,该上下文提供了关于输入的额外信息(例如,解决方案、环境反馈或其他辅助信号):
      $$ \pi_{\theta}^{T}(\cdot \mid x,c) = \pi_{\theta}(\cdot \mid x,c) $$
  • 训练过程最小化学生和教师下一个 Token 分布之间的散度:
    $$\mathcal{L}_{\text{SD} }(\theta) = \sum_{t}\text{KL}(\pi_{\theta}(\cdot \mid x,y_{< t})\parallel \text{stopgrad}(\pi_{\theta}(\cdot \mid x,c,y_{< t}))) \tag {1}$$
    • 这个目标鼓励学生匹配教师在更丰富上下文下的预测,使模型能够通过提炼训练时可用的信息来改进,而无需外部教师
    • 理解:
      • 这里主要强调目标,通过对上述目标求导可证明,上述目标的梯度本质等价于 On-Policy Distillation(RL)形式
        • 但在实现时 RL 仅针对当前采样到的 Token 进行更新,OPD 则会针对每个 Token 位置上,全词表上(或 Student Top-\(K\) 的)候选 Token 进行更新
      • 也就是说,这个目标可以被解释为 密集奖励策略梯度 :
        $$
        r_n = \log p_T(\hat{y}_n) - \log p_S(\hat{y}_n)
        $$
        • 简单理解:将原始目标设置为 KL 散度,然后按照当前策略采样并展开成对数相减形式即可看到 Thinking Machines 的 OPD 博客中给出的形式
        • 详细证明见 (SDPO)Reinforcement Learning via Self-Distillation, 20260128 & 20260216, ETH Zurich & Max Planck Institute for Intelligent Systems & MIT & Stanford 的附录 B.1 部分(本人解读博客:NLP——LLM对齐微调-SDPO)

Key Characteristics of Math Reasoning

  • 在 LLM 中,数学推理可以被视为一种自我贝叶斯推理 (self-Bayesian reasoning)
    • 其中每一步都仅基于问题和之前生成的 Token 进行生成,模型迭代地更新其对中间假设的信念(belief) (2026)
  • 数学推理涵盖了算术、代数、几何、文字题和逻辑模式识别等多种任务,使得评估基准常常因组合和推理深度的变化而相对于训练数据属于 OOD
  • 关于任务覆盖度、其对性能的影响以及这如何将数学与其他领域区分开来的更深入讨论,请参见第 6 节
  • 在这个过程中,对 \(y\) 的语言化不确定性(称为 Epistemic Verbalization (epistemic verbalization) (2026))可以作为一种信息丰富的信号,而不仅仅是风格上的冗余
    • 如图 2(a) 所示,没有这种信号的推理可能导致模型过早地固守错误的假设,且纠正机会有限,而 Epistemic Verbalization 则有助于维持替代假设并支持逐步减少不确定性
  • 在 Self-Distillation 中, Teacher 可以访问更丰富的上下文 \(c\),使其能够生成带有强提示和最小化不确定性表达的推理轨迹
    • 这会带来更简洁的响应 ,但可能会阻碍学生模型执行具有不确定性意识的推理的能力
    • 因此,激进的长度约束和过度自信的推理风格 有可能不仅消除了不必要的冗长内容 ,也消除了有价值的认知信号 (尤其是在参数知识有限的小模型中 )
  • 关键的挑战是:
    • 过滤掉非信息性内容,同时保留能够实现迭代信念修正的认知表达 ,而不是盲目地压缩推理过程

LLM Reasoning Behavior Under Richer Information,更丰富信息下的 LLM 推理行为

  • 为了形式化条件上下文的信息量,本文将 \(c\) 提供的关于目标序列 \(y\) 的信息定义为条件互信息
    $$I(y;c\mid x) = H(y\mid x) - H(y\mid x,c), \tag {2}$$
    • 条件互信息 \(I(y;c\mid x)\) 捕捉了在给定额外上下文 \(c\) 后,关于 \(y\) 的不确定性的减少量
  • 使用 DAPO-Math-17k 数据集 (2025) 和 DeepSeek-R1-Distill-Qwen-7B (2025b) 基础模型
    • 选择 100 个问题,在这些问题上,基础模型在 8 次 Rollout 中的准确率介于 0.125 和 0.5 之间
  • 定义:
    • \(s\) 表示完整解决方案(包括在 <think> 标签中的思维链)
    • \(s_{\text{th} }\) 表示移除了 <think> 内容的解决方案
    • \(\tilde{y}\) 表示之前在全解决方案指导下生成的响应
  • 本文比较了模型在四种条件信息递增的生成设置下的响应:
    • (1) 无引导生成 (Unguided generation):
      $$ c = \emptyset $$
      • 此时 \(I(y;c\mid x) = 0\)
    • (2) 解决方案引导生成 (Solution-guided generation):
      $$ c = s $$
      • 提供最大引导,并产生最大的 \(I(y;c\mid x)\)
    • (3) 解决方案引导生成(无 think 内容)(Solution-guided generation (without think contents)):
      $$c = s_{\text{\think} }$$
      • 由于 \(s_{\text{\think} }\) 是 \(s\) 的一个严格信息子集,于是有
        $$ I(y;s_{\text{\think} }\mid x)\leq I(y;s\mid x) $$
    • (4) 重生成条件生成 (Regeneration-conditioned generation):
      $$ c = \tilde{y} $$
      • 其中 \(\tilde{y}\) 是在设置 (2) 下生成的,于是有:
        $$ I(y;\tilde{y}\mid x)\leq I(y;s\mid x) $$
        • 理解:文章中没有非常明确这里的 \(\tilde{y}\) 具体是如何生成的,但这里应该是基于 Setting 2 中的完整方案,再让模型重新生成一次得到的结果,目前推测这个结果应该是也包含 Thinking 信息的
  • 这些设置引出了以下关于条件互信息的排序:
    $$\underbrace{I(y;c\mid x)}_{(1)} = 0< \underbrace{I(y;s_{\text{\think} }\mid x)}_{(3)}\leq \underbrace{I(y;\tilde{y}\mid x)}_{(4)}\leq \underbrace{I(y;s\mid x)}_{(2)} \tag {3}$$

Prompts

  • Prompts 用于无引导和解决方案引导设置的提示词如下

  • 对于重生成,本文使用了与 Hübottter 等 (2026) 相同的提示词

    • Prompt for unguided generation:

      1
      2
      {question}
      Please reason step by step, and put your final answer within \boxed{}.
    • Regeneration prompt (followed the prompt in Hübottter et al. (2026))

      1
      2
      3
      4
      {question}
      Please reason step by step, and put your final answer within \boxed{}.
      Correctsolution: {previously correct solution}
      Correctly solve the original question.
      • 理解:Regeneration 时,给出标准答案,再让模型解决问题

Epistemic tokens, Epistemic Token

  • Following Kim 等 (2026),本文作者定义了一组 10 个认知性标记(Epistemic Markers)作为不确定性外化可能发生区域的实用指标:
    $$ \mathcal{T} = \{\text{wait, hmm, perhaps, maybe, actually, alternatively, seems, might, likely, check}\} $$
  • 本文测量一个响应 \(y\) 的 Epistemic Token 数量为
    $$ E(y) = \sum_{t \in \mathcal{T} } \text{count}(t, y) $$

Results

  • 分析不同形式的解决方案引导如何影响模型的推理行为
    • 比较四种设置下的平均响应长度 \(\mathbb{E}[L(y)]\)、模型分数和 Epistemic Token 数量 \(\mathbb{E}[E(y)]\)
  • 如表 1 所示,这两个量都随着 \(I(y; c \mid x)\) 的增加而单调递减:
    $$\mathbb{E}[L(y)]\Big|_{(1)} > \mathbb{E}[L(y)]\Big|_{(3)} > \mathbb{E}[L(y)]\Big|_{(4)} > \mathbb{E}[L(y)]\Big|_{(2)}, \tag {4}$$
    • 并且对于 \(\mathbb{E}[E(y)]\) 也是如此
    • 证实了更丰富的条件信息会导致更简洁和自信的推理
  • 无引导生成 \((c = \emptyset)\) 产生了明显更长的响应和最高的 Epistemic Token 数量
  • 当在 (2) 中提供完整解决方案 \(s\) 时,模型以高置信度遵循给定的推理轨迹,其简洁输出可以看作是 \(s\) 中基本推理的压缩表示
  • 在 (3) 中,移除 <think> 部分仅保留 \(s_{\backslash \text{\think} }\) (13,054 个响应 Token 中的 640 个)
    • \(\mathbb{E}[L(y)]\) 和 \(\mathbb{E}[E(y)]\) 都再次向无引导水平增加,反映了显著的信息损失
  • (4) 依赖于重生成的响应 \(\tilde{y}\),产生了中间值(低于 (3) 但高于 (2))
    • 表明 \(\tilde{y}\) 保留了完整解决方案的大部分信息结构
  • 详细的每个 Token 的分解见附录 A.1.1
Takeaway 1: Information Richness and Epistemic Verbalization
  • 随着条件上下文 \(c\) 变得越来越信息丰富且直接有用,LLM 生成的答案更加自信,并且认知性不确定性表达更少

Supervised Finetuning with Self-Distillation,使用 Self-Distillation 进行 SFT

  • 问题提出:在高 \(I(y; c \mid x)\) 下对 Epistemic Verbalization 的抑制仅仅是风格上的变化,还是对推理能力有切实的影响
  • 为了验证这一点,本文使用 DeepSeek-R1-Distill-Qwen-7B (2025a) 在两个数据集上进行了 Off-policy Self-Distillation(即 SFT)
    • 每个数据集包含 800 个正确响应:
      • \(\mathcal{D}_{\text{ug} }\):无引导响应 \((c = \emptyset)\),具有高 \(\mathbb{E}[E(y)]\) 和 \(\mathbb{E}[L(y)] \approx 12k\) Token
      • \(\mathcal{D}_{\text{sg} }\):解决方案引导响应 \((c = s)\),具有低 \(\mathbb{E}[E(y)]\) 和 \(\mathbb{E}[L(y)] \approx 2k\) Token
  • 两个数据集都由完全正确的轨迹组成;关键区别在于训练信号的认知密度
    • 本文在多个数学基准上评估了得到的检查点(每个数据集的示例在作者的博客:Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs? 中展示)
  • 如表 2 所示,数据集由正确答案组成
    • 在 \(\mathcal{D}_{\text{sg} }\) 上训练导致了所有基准上的显著性能下降
    • 在 \(\mathcal{D}_{\text{ug} }\) 上训练则没有产生显著的性能变化
    • 这种不对称性产生的原因是
      • 解决方案引导的响应之所以简洁,正是因为外部上下文 \(s\) 的存在
      • 在没有 \(s\) 的情况下将它们用作 SFT 目标,迫使模型模仿一种预设了推理时无法获得的信息的推理风格,从而有效地抑制了支持自主探索和错误修正的 Epistemic Token
    • 这些结果与 Kim 等 (2026) 一致,该研究表明抑制 Epistemic Verbalization 会显著降低推理性能

Epistemic Suppression and Reasoning Performance

  • 即使在正确的轨迹上进行训练,过度抑制 Epistemic Verbalization 也可能严重损害推理性能

On-Policy Self-Distillation

  • On-Policy Self-Distillation (2026;) 中,模型从自教师提供的奖励信号中学习,该教师可以访问正确的解决方案,并基于当前策略的响应
  • 具体做法:
    • 在 DAPO-Math-17k 数据集 (2025) 上,使用 Qwen3-8B (2025) 和 DeepSeek-R1-Distill-Qwen-7B (2025b) 作为基础模型,比较了 GRPO 和基于 Self-Distillation 的强化学习 (Reinforcement Learning via Self-Distillation, SDPO) (Hü2026)
      • 关于 Olmo-3-7B-Instruct (2025) 的附加结果见附录 D.2
    • 对于每个模型,跟踪训练得分和响应长度,以及在两个标准数学基准 AIME24 和 AMC23 上的 OOD 性能
      • 将教师策略固定为初始策略,而不是使用移动目标 ,因为这能获得更好的性能 (关于比较见第 5.4 节)
  • On-Policy Self-Distillation 的行为取决于两个因素:
    • (i) 基础模型已经表现出的认知口头化程度
    • (ii) 条件上下文 \(c\) 的丰富程度
  • 为了厘清这些因素,本文在两种设置下比较了 GRPO 和 SDPO:
    • \(c = s\)(完整解决方案)
    • \(c = s_{\text{\think} }\)(去除 <think> 内容的解决方案)

DeepSeek-R1-Distill-Qwen-7B

  • DeepSeek-R1-Distill-Qwen-7B 是一个代表性的高推理能力模型
    • DeepSeek-R1-Distill-Qwen-7B 以其在 <think> 标签内生成大量 Epistemic Verbalization 和产生长响应而闻名,实现了强大的推理性能
Training Performance
  • 如图 4a 所示
    • GRPO 训练略微增加了 \(\mathbb{E}[L(y)]\),同时得分略有提高
    • 采用 \(c = s\) 的 SDPO
      • \(\mathbb{E}[L(y)]\) 和得分都出现急剧的初始下降,然后性能逐渐恢复
      • 但在整个训练过程中仍低于 GRPO
    • 采用 \(c = s_{\text{\think} }\) 的 SDPO
      • \(\mathbb{E}[L(y)]\) 的下降幅度减弱,得分轨迹接近 GRPO
      • 这与第 3 节讨论的 \(I(y; c \mid x)\) 与认知抑制之间的关系一致
OOD Evaluation - AIME24, AMC23
  • 与训练趋势一致:
    • GRPO 在两个 OOD 基准测试上都取得了适度的提升(图 3b 和 3c),同时 \(\mathbb{E}[L(y)]\) 略有增加
      • AIME24: \(54.7 \rightarrow 56.0\)
      • AMC23: \(89.3 \rightarrow 91.1\)
    • 采用 \(c = s\) 的 SDPO 显著降低了性能
      • AIME24 上约 \(40%\)
      • AMC23 上约 \(15%\)
    • 采用 \(c = s_{\backslash \text{\think} }\) 的 SDPO 缓解了性能下降
      • 但性能仍低于基础模型
Reasoning Pattern
  • 图 3d 展示了训练后模型的 Epistemic Token 计数
  • GRPO 增加了 \(\mathbb{E}[E(y)]\),而 SDPO 则更激进地抑制了它,这与作者在整个分析中观察到的认知抑制与性能下降之间的相关性一致
    • 回顾 \(\mathbb{E}[E(y)]\) 是 Epistemic Token Count

Qwen3-8B (Thinking Mode: ON)

  • 启用思考模式后,Qwen3-8B 最初生成的响应非常长,甚至比 DeepSeek-R1-Distill-Qwen-7B 还要长,同时伴随着大量的 Epistemic Token
  • 详情见附录 A.1.2 所示
Training Performance
  • 如图 4a 所示
    • 在 GRPO 和 SDPO 下,\(\mathbb{E}[L(y)]\) 均有所下降
      • 其中 SDPO 表现出更大的下降幅度和相应的更大性能下降
        • Notably,\(\mathbb{E}[L(y)]\) 首先急剧下降,然后略有上升
        • 由于教师策略被固定为参考策略,将响应缩短约 \(900\) 个 Token 会降低 \(c\) 的信息量,即减小 \(I(y; c \mid x)\)
          • 随着上下文信息量减少,模型通过增加 Epistemic Verbalization 来补偿,导致长度部分恢复
          • 问题:这里的教师策略是参考策略的话,训练过程中教师策略应该是不变的,这时候为什么 \(c\) 的信息量会减小?大约减少 900 个 Token 的数字是从哪里看出来的(图 4 中给出的长度降幅都远远高于 900 个 Token)?
OOD Evaluation - AIME24, AMC23
  • 这种差距在 OOD 基准测试上变得更加明显:
    • GRPO 在 \(\mathbb{E}[L(y)]\) 逐渐下降的同时保持了基本稳定的性能
    • SDPO 则降至基础模型以下,尤其是在 \(c = s\) 的情况下
  • GRPO 和采用 \(c = s_{\backslash \text{\think} }\) 的 SDPO 达到了相当的训练性能
    • 但它们的 OOD 结果却出现分歧,尤其是在更具挑战性的 AIME24 上(AIME23 上还好)
    • 采用 \(c = s_{\backslash \text{\think} }\) 的 SDPO 随着训练的进行表现出逐渐的性能下降
Reasoning Pattern
  • GRPO 和 SDPO 两种方法相对于基础模型都降低了 \(\mathbb{E}[E(y)]\),但 SDPO 更为激进
  • 这表明 Qwen3-8B 最初产生的 Epistemic Verbalization 比必要的更多
  • 虽然两种方法都减轻了这种冗余,但过于激进的抑制可能会移除携带有用推理信息的认知信号

Qwen3-8B (Thinking Mode: OFF)

  • 当 Qwen3-8B 在不使用思考模式的情况下使用时,<think> 标签不存在,只比较 \(c = s\)
    • Qwen3-8B 最初产生的响应要短得多,并且表现出显著降低的性能
    • GRPO 通过促进 Epistemic Verbalization (如附录 D.1 所示)迅速增加了 \(\mathbb{E}[L(y)]\),快速达到了高训练得分
    • SDPO 减少了 \(\mathbb{E}[L(y)]\) 并且改进速度慢得多
      • 如图 5b 所示,训练得分略有增加,但 AIME24 上的测试性能略有下降 \((0.25 \rightarrow 0.23)\)
      • 这进一步说明了 Self-Distillation 下认知抑制的代价
Takeaway 3: Epistemic Verbalization Changes and Performance in On-Policy Self-Distillation
  • 随着教师上下文 \(c\) 变得信息更丰富, On-Policy Self-Distillation 会减少 Epistemic Verbalization 并缩短响应
  • 这种效应因基础模型最初表达的不确定性水平而异
    • 理解(初始模型的长度和 Epistemic Verbalization 等决定了使用 不同算法训练时观察到的 现象):
      • 如原始 Qwen3-8B (Thinking Mode: ON) 生成的响应非常长,且包含大量的 Epistemic Token
        • 此时训练 GRPO/SDPO 都会缩短长度,且 GRPO 和 采用 \(c = s_{\backslash \text{\think} }\) 的 SDPO 的分数差不多
      • Qwen3-8B (Thinking Mode: OFF) 则回答很短
        • 此时训练 GRPO 会提升长度,而 采用 \(c = s_{\backslash \text{\think} }\) 的 SDPO 则会降低长度

Ablation Study: Fixed vs. Moving Target Teacher,固定 Teacher 模型 or 滑动 Teacher 模型

  • 在朴素的 On-Policy Self-Distillation 中,教师和学生共享一个持续更新的策略
    • 此时教师是一个移动目标,可能引入训练不稳定性 (2026; 2026)
  • 为了缓解这个问题,SDPO 使用 EMA 平滑的教师(EMA 率:0.05)
    • 进一步的实验发现,将 EMA 率设置为 0.0(即固定教师为初始策略)能获得更好的性能(注:第 5 节遵循此设置)
  • 图 6: DeepSeek-R1-Distill-Qwen-7B 的固定教师与移动目标教师对比
    • 即使缓慢的 EMA 更新(率 0.05)也会通过反馈循环放大认知抑制,导致比固定教师更严重的性能下降
  • 图 6a 显示了在训练期间更新教师时的额外比较结果
    • 即使是缓慢的更新(例如,率 0.05)也会导致响应长度更急剧的减少,从而导致更大的性能下降
    • 这可以解释为 Self-Distillation 中的一个反馈循环:
      • 模型被训练产生越来越自信的输出,当使用同一个模型的 checkpoint 作为教师时,它会产生更自信的响应 ,从而在迭代中放大这种效应
        • 个人理解1:这个理解应该不对,个人理解应该是这样的:
          • 模型训练过程中本来就是越来越自信的,这个现象其实说明收敛快,并不一定是坏事
        • 个人理解2:从另一个视角看,持续变化的 Teacher 会导致目标(Teacher)一直在变化,不利于模型(Student)收敛,这类似 DQN 中最早面临的问题(使用的 Target Q 可缓解这个问题),所以 OPSD 中 实验发现这一设置有助于稳定训练
        • 个人理解3:使用初始的策略作为 Teacher,能隐式起到正则化作用,防止模型过度偏离初始策略 (观点来自 OPSD 中)
    • 问题(推测):如果 Teacher 不随着 Student 策略变化,那么 Teacher 的上限太明显了
      • 建议考虑以一定的间隔或较小的 EMA 更新参数(比如间隔 100 步或 EMA 系数=0.01 等),类似 DQN 中 Target Q 的实现,这样才能打开 Teacher 的上限
      • 但需要特别注意训练稳定性以及对原始策略的偏离程度(比如加一个 KL 散度来缓解,或者第一步更新前的策略给与固定高权重?)
  • 关于学习率和 top-k logits 的进一步消融研究见附录 E

Relationship Between Task Coverage, Epistemic Verbalization and Generalization Ability,任务覆盖 & Epistemic Verbalization 与泛化能力的关系

  • 上述分析可知,不论 Off-policy 还是 On-policy Setting
    • Self-Distillation 都会一致地产生更自信的响应,并降低了 \(\mathbb{E}[E(y)]\)
      • 问题:Off-policy 的 Self-Distillation 是什么?
      • 回答:是第 4 节开头提到的 SFT,在 SFT 上,也观察到了类似 \(\mathbb{E}[E(y)]\) 降低的现象
    • 这与 Hübottter 等 (2026) 的发现一致,该报告指出 SDPO 学会了简洁地推理:
      • 在科学问答(化学、物理、生物学和材料科学)(2024)、工具使用 (2023) 和 LiveCodeBench v6 (2025) 上,SDPO 在产生更短输出、更少认知标记的同时,实现了比 GRPO 更高的准确率
  • 在这些领域中, Self-Distillation 抑制了 Epistemic Verbalization ,同时提高了性能
  • 关键问题提出:为什么相同的机制在数学聚焦 Setting 中会导致性能下降?
    • 本文作者推测答案在于训练分布和评估分布之间任务覆盖的差异

Comparison of Task Coverage

  • 为了验证这个 hypothesis,作者比较了 SDPO 优于 GRPO 的设置与本文实验设置的数据集特征
  • 如表 3 所示
    • 化学数据集虽然规模庞大,但仅来自六种主要问题类型
      • 这些类型主要在表面细节上有所不同,而非底层结构
    • LiveCodeBench v6 包含多样化的问题,但总共只有 131 个
      • 在训练期间使用相同的训练/评估划分进行重复暴露
    • DAPO-Math-17k 让模型接触到 14,000 个不同的问题
      • 由于重复采样,在 100 步中抽取到 25,600 个样本中的 78%
        • 问题:如何理解这里的 重复采样和 78%?
      • 涵盖了广泛且不重叠的问题类型,并且评估是在未见过的的问题类型上进行的

Relationship Between Task Coverage and Learning Performance

  • 为了进一步研究任务覆盖与泛化之间的相互作用,本文改变了来自 DAPO-Math-17k 的训练问题数量
    $$|\mathcal{D}| \in \{1, 8, 64, 128, 512\}$$
    • 并使用 GRPO 和 SDPO 进行训练
  • 所有实验均使用 Qwen3-8B(Thinking Mode OFF)
Training Logs
  • GRPO 和 SDPO 随着 \(|\mathcal{D}|\) 的变化展现出不同的训练动态
    • SDPO
      • 当 \(|\mathcal{D}|\leq 128\) 时 ,SDPO 在减少 \(\mathbb{E}[L(y)]\) 的同时快速达到高分
        • 表明在小型任务集上 SDPO 具有更高的训练效率
      • 当 \(|\mathcal{D}| = 512\) 时 ,相对于 GRPO,\(\mathbb{E}[L(y)]\) 的进一步减少开始损害训练得分 ,(图 7 左数第三个图))
    • GRPO 的 \(\mathbb{E}[L(y)]\) 则随着 \(|\mathcal{D}|\) 的增加而逐渐增加
  • 这种差异可以通过任务覆盖来解释
    • 随着 \(|\mathcal{D}|\) 的增长,模型必须适应更广泛的推理模式
    • GRPO 通过增加 \(\mathbb{E}[E(y)]\) 来解决这个问题,使模型能够表达更大的不确定性并相应地调整其推理
    • SDPO 则鼓励自信、简洁的响应——这在任务覆盖较小时有效,但当问题集变得更大、更多样化时则会受限
OOD Evaluation - AIME24, MATH500
  • GRPO 和 SDPO 之间的区别在 OOD 基准测试(图 8)上变得更加明显
    • 在 GRPO 下,性能随 \(|\mathcal{D}|\) 的增大而稳定提升:
      • \(|\mathcal{D}| = 1\) 时收敛迅速但很快停止改进
      • 较大的 \(|\mathcal{D}|\) 则产生逐渐更高的最终得分
      • 伴随着 \(\mathbb{E}[L(y)]\) 的增加
    • 在 SDPO 下:
      • 较小的 \(|\mathcal{D}|\) 导致更严重的 OOD 性能下降
      • 即使在最大的 \(|\mathcal{D}|\)(DAPO Setting)下,SDPO 的性能仍然低于基础模型
        • 理解:图中的 SDPO DAPO 实验组即全量数据的场景
  • 示例推理模式见附录 A.2
Takeaway 4: Epistemic Verbalization Depends on Task Generalization
  • Epistemic Verbalization 的价值随泛化需求的增加而增加:
    • 对于熟悉、重复的任务(小 \(|\mathcal{D}|\)),Epistemic Verbalization 在很大程度上是多余的,可以为了效率而移除
    • 随着任务多样性的增长,Epistemic Verbalization 变得越来越重要

附录 A:Additional Analysis of Epistemic Tokens Count

A.1 LLM Reasoning Behavior Under Richer Information,更丰富信息下的 LLM 推理行为

A.1.1 Per-Token Analysis of Epistemic Verbalization,Epistemic Verbalization 的逐 Token 分析
  • 在第 3 节的表 1 中,本文比较了每个 Response 中十个 Epistemic Token 的平均数量
  • 图 9 进一步扩展了这一分析,展示了在不同程度的条件信息下,每个单独 Token 的平均每 Response 计数如何变化
    • 当检查每个 Token 的计数时,所有 Token 都表现出一致的趋势:
      $$
      \mathbb{E}[E(y)]\bigg|_{(1)} > \mathbb{E}[E(y)]\bigg|_{(3)} > \mathbb{E}[E(y)]\bigg|_{(4)} > \mathbb{E}[E(y)]\bigg|_{(2)},
      $$
      • 其中像 wait、maybe 和 perhaps 这样的 Token 尤其突出
  • 图 9: 四种生成设置下 Epistemic Token 使用情况的逐 Token 细分
    • 每个条形图表示每个 Response 中单个 Epistemic Token 的平均出现次数
    • 所有 Token 都遵循与总体趋势相同的顺序,其中 wait、maybe 和 perhaps 在不同设置下表现出最大的变化
A.1.2 Comparison of Epistemic Token Usage Across Models,不同模型间 Epistemic Token 使用情况的比较
  • 继第 3 节中对 DeepSeek-R1-Distill-Qwen-7B (DeepSeek-Distill-7B) 的分析之后
    • 这里进一步比较了三种设置下的 Epistemic Token 使用情况:
      • DeepSeek-Distill-7B
      • 启用思考模式的 Qwen3-8B
      • 禁用思考模式的 Qwen3-8B
  • 如图 10 所示
    • DeepSeek-Distill-7B 和启用思考模式的 Qwen3-8B 产生的 Epistemic Token 数量都远多于禁用思考模式的 Qwen3-8B
    • 虽然这两个启用思考的模型在表达不确定性方面有相似的趋势,但它们在偏好的 Epistemic Token 上有所不同
      • 例如:
        • DeepSeek-Distill-7B 经常使用 wait,并且使用 perhaps 和 maybe 的频率相当
        • Qwen3-8B 使用 perhaps 相对较少,更倾向于使用 maybe
        • Qwen3-8B 使用 alternatively 和 check 的频率远高于 DeepSeek-Distill-7B,并且总体上在其推理中嵌入了更多的不确定性
  • Extending 第 3 节的讨论,还可观察到
    • 在 Solution-Guided 生成下,Qwen3-8B 生成的 Epistemic Token 远少于 Unguided 生成
    • 在所有三种设置中 Epistemic Token 数量从大到小依次为:
      • 启用思考模式的 Qwen3-8B 产生的 Epistemic Token 最多
      • 其次是 DeepSeek-Distill-7B
      • 最后是禁用思考模式的 Qwen3-8B
Relationship Between Task Coverage and Learning Performance, 任务覆盖与学习性能之间的关系
  • 为了对第 6.2 节图 8 中的结果进行更深入的分析,本文比较了六种训练配置下 AIME24 上相对于基础模型的 Epistemic Token 计数的变化:
    • 交叉供 6 种:GRPO 和 SDPO,每种配置下 \(|D| \in \{1, 64, 512\}\)
  • 图 11 显示
    • GRPO:Epistemic Token 使用量 在增加
      • \(|D|\) 越大,Epistemic Token 使用量增加越多
    • SDPO:Epistemic Token 使用量 在减少
      • \(|D|\) 越大,Epistemic Token 使用量减少越少
  • 问题:相对之前的 图 3 ,为什么 图 11 这里 SDPO Epistemic Token 使用量减少的幅度这么小?

附录 B:Experimental Details

Training

  • 对于 GRPO 和 SDPO 训练

    • 本文在 SDPO 实现 github.com/lasgroup/SDPO 的基础上进行了构建,并额外加入了 DAPO-Math-17k 数据集
  • 原始的 DAPO-Math-17k 数据集使用以下 Prompt 格式:

    1
    Solve the following math problem step by step. The last line of your response should be of the form Answer: $Answer (without quotes) where $Answer is the answer to the problem. \n\n{question}\nRemember to put your answer on its own line after "Answer:".
  • 本文将其替换为更简单的格式(因为观察到这种格式能持续获得更高的评估性能):

    1
    {question}\nPlease reason step by step, and put your final answer within \boxed{boxed}.
  • 对于奖励验证,使用了 vert 框架中的评分函数,该函数从 \boxed{} 表达式中提取答案,并通过精确匹配和数学等价性检查(使用 math-verify,改编自 EleutherAI 的 lmevaluation-harness (2024))来验证其正确性

  • GRPO 和 SDPO 训练的超参数列在表 4、5 和 6 中

    • 对于图 8 中关于任务覆盖与学习性能之间关系的实验,由于使用了更小的训练问题集,本文将问题批次大小减少到了 64
  • 表 4: GRPO 和 SDPO 共享的通用超参数

  • 表 5: GRPO 特定超参数

  • 表 6: SDPO 特定超参数,从表 6 的超参数可以看出,训练时:

    • 训练的损失是 Jensen-Shannon 距离,且仅使用了 Top-100 Token 计算距离
    • 同时 EMA 为 0 表示 Teacher 模型固定不动

Evaluation

  • 使用表 7 中列出的超参数评估所有模型,这些设置遵循了每个模型官方文档中的推荐设置

Chat Templates for Different Model Series

  • 这里总结了几种开源权重语言模型家族使用的 Chat Template 格式

    • 每个模型系列使用不同的特殊 Token 和结构来区分用户和 Assistant 的对话轮次
    • 在整个过程中,本文使用相同的数学问题作为示例 Prompt
  • DeepSeek-R1-Distill-7B

    1
    2
    <begin_of_sentence></User>Find the largest possible real part of [(75 + 117)z + \text{frac}(96 + 144i)(z)] where z is a complex number with |z| = 4 
    Please reason step by step, and put your final answer within \boxed{}.<|Assistant|><think>
  • Qwen3-8B (Thinking Mode: ON)

    1
    2
    3
    4
    <|im_start|>user 
    Find the largest possible real part of [((75 + 117)z + \text{frac}(96 + 144i)(z)] where $z$ is a complex number with $|z| = 4$
    Please reason step by step, and put your final answer within \boxed{}.<|im_end|>
    <|im_start|>assistant
  • Qwen3-8B (Thinking Mode: OFF)

    1
    2
    3
    4
    5
    6
    <|im_start|>user 
    Find the largest possible real part of [((75 + 117)z + \text{frac}(96 + 144i)(z)] where $z$ is a complex number with $|z| = 4$
    Please reason step by step, and put your final answer within \boxed{}.<|im_end|>
    <|im_start|>assistant
    <think>
    </think>
    • 注:这是 Qwen3 的创新设计,使用 <think>\n</think> 来表示这里没有任何思考内容
  • OLMo-3-7B-Instruct

    1
    2
    3
    4
    5
    6
    <|im_start|>system
    You are a helpful function-calling AI assistant. You do not currently have access to any functions.<functions></functions><|im_end|>
    <|im_start|>user
    Find the largest possible real part of \[((75 + 117)z + \text{frac}(96 + 144i)(z)\] where $z$ is a complex number with $|z| = 4$
    Please reason step by step, and put your final answer within \\boxed{}.<|im_end|>
    <|im_start|>assistant

附录 C:Comparison with OPSD

  • 最近,OPSD (2026) 展示了通过 Self-Distillation 在数学推理中的性能提升,特别是在 Qwen3 系列上
  • 差异一:模型 Setting 差异
    • 本文的 Setting :学生和教师都启用或都禁用 思考模式
    • OPSD 的 Setting :采用了一种混合配置,其中 学生禁用思考模式 ,教师启用思考模式
    • 正如本文的实验也证实的那样
      • 启用思考模式会产生更长且带有更多 Epistemic Token 的 Response,这使得这种混合设置的功能更类似于传统的教师-学生蒸馏,尽管使用的是同一个底层模型
      • 注:这种配置本质上仅限于像 Qwen3 这样支持切换思考模式的模型家族,其他的模型并不支持(其实已经不能算是同一个模型了)
  • 差异二:训练 Token 差异
    • (为了训练效率)OPSD 并不在整个学生 Response 上进行训练
      • OPSD 只关注一个前缀(默认为 1024 个 Token)
      • 注:OPSD 中(附录 B 中),不是只关注 1024 的前缀,而是在生成时就特意只生成了 1024 个
        • 理解:传统的 RL 中不能这样做(这是 OPD 专有的优点)
          • 在 OPD 场景中,不需要 Rollout 结束就可以有奖励(来源于 Teacher)
          • 在传统 RL 场景,一般是需要 Rollout 结束才能得到 Reward 反馈的
    • 本文使用的 SDPO 则是所有 Response 上都训练的
  • 差异三:微调方式
    • 本文 SDPO:基于 verl (2024) 执行全量微调
    • OPSD:使用基于 trl (2020) 的 LoRA 微调
  • 差异四:其他超参数差异
    • 本文 SDPO:Batch Size 256,学习率 1e-5
    • OPSD:Batch Size 32,学习率 1e-6
    • OPSD 有更高的训练效率(BS 更小),但每一步的参数更新更小
      • 注:学习率本该是全量微调上更小的,这里更多是与 BS 有关
  • 图 12: Qwen3-1.7B 中 OPSD 混合蒸馏与本文同质 Chat Template 设置的训练动态
    • (a) 在混合(Hybrid)设置下
      • 启用思考的教师最初提高了学生性能,但随着时间的推移收益发生逆转
      • 同质设置显示出持续下降的趋势
    • (b) 同质(Homogeneous)设置中的 Response 长度和 Epistemic Token 使用情况
  • 在 Qwen3-1.7B 的混合设置和前缀学习下,如图 12a(橙色线)所示
    • 观察到一个有趣的训练动态:
      • 在早期阶段,启用思考的教师驱动学生生成更长的 Response,并提高了性能,展示了混合蒸馏在训练早期的有效性
      • 但随着训练的进行,Response 长度逐渐减少,同时伴随着性能的相应下降
    • 在本文的同质设置(如图 12b 所示,学生和教师都启用了思考模式)下,性能持续下降
      • Response 长度和 Epistemic Token 计数也稳步下降,这与本文之前的分析一致
  • 问题遗留:
    • 这种针对 Qwen3 系列的混合蒸馏设置代表了一个有趣的研究方向,具有其独特的训练动态
      • 例如,为什么性能会先提升后下降,以及这是否源于推理行为的变化或 Chat Template 的不匹配
    • 深入探究这个现象超出了本工作的范围,留待未来探索

附录 D:More On-Policy Self-Distillation Results

D.1 Qwen3-8B (Thinking Mode: OFF)

  • 作为第 5.3 节图 5 的扩展,本节额外比较了 AMC23 的评估分数和 AIME24 上 Epistemic Token 使用量的变化
  • 如图 13 所示
    • GRPO 显著增加了 Response 长度,并在两个基准测试上都带来了显著的性能提升
    • SDPO 表现出不同的趋势:
      • 在 AMC23 上,acc@16 从 0.67 增加到 0.73,同时 Response 长度减少约一半
      • 在 AIME24 上,acc@16 从 0.25 略微下降到 0.23,pass@16 下降更显著
    • 在 AMC23 上,SDPO 以更短的 Response 实现了约 6 个百分点的提升,而 GRPO 则以更长的 Response 为代价获得了约 36 个百分点的更大提升
      • 在保持合理 Response 长度的同时实现大的性能提升仍然是一个开放的挑战

D.2 Olmo-3-7B-Instruct

  • 除了 DeepSeek-R1-Distill-Qwen-7B 和 Qwen3-8B,本文进一步在另一个模型家族 OLMo-3-7B-Instruct 上评估了 On-Policy Self-Distillation
  • 如图 14 所示,与本文之前的分析一致,SDPO 也降低该模型上的推理性能,OOD 评估分数降至基础模型之下
    • 证实了作者的发现并非模型依赖的,反映了跨不同模型家族的推理行为的稳健特征

D.3 Pass@16 Score

  • 除了图 3b、3c、4b 和 4c 中显示的 DeepSeek-Distill-7B 和 Qwen3-8B(thinking mode enabled)的 acc@16 分数外
    • 本文还在图 15 中报告了 pass@16 分数
  • GRPO 和 SDPO 在 pass@16 上的差距:
    • DeepSeek-Distill-7B 大于 Qwen3-8B
    • 并且在更难的基准测试(AIME24)上比 AMC23 上更为明显
  • 问题:如何理解 GRPO 和 SDPO 在 pass@16 上的差距,DeepSeek-Distill-7B 大于 Qwen3-8B 这件事情?
    • 简单理解:
      • 模型方面,一个理解是 DeepSeek-Distill-7B 的不确定性更低一些,长度更短一些,受 SDPO 的影响也更小?
      • 难度方面,一方面是越难的题目可能对 Epistemic Token 的数量要求就更高些,另一方面也可能更多是 OOD 导致的?

附录 E:More Ablation Study

  • 为了检查各种训练超参数对 Self-Distillation 行为的影响,本文通过改变 top-\(k\) 蒸馏参数和学习率进行了额外的实验
    • 问题:这里的 top-\(k\) 参数是什么?
  • 如图 16a 所示
    • 将 top-\(k\) 从 100 增加到 256 在训练动态或最终性能上没有产生显著差异
  • 如图 16b 所示
    • 将学习率从 1e-5 降低到 1e-6 仅仅是减缓了性能下降的速度
  • 模型最终收敛到相同的推理行为

NLP——技术报告解读-Nemotron-Cascade-2

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Nemotron-Cascade-2 Technical Report) Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation, 20260319-20260322, NVIDIA
    • HuggingFace: huggingface.co/nvidia/Nemotron-Cascade-2-30B-A3B
    • 补充前一篇文章:(Nemotron-Cascade Technical Report) Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models, 20251215-20260327, NVIDIA

Paper Summary

  • 整体介绍
    • 本文包含了非常详细的训练细节,值得一读
    • 英伟达开源了 Nemotron-Cascade-2-30B-A3B(基于 Nemotron-3-Nano-30B-A3B-Base 进行后训练得到)
    • 主推核心能力:Reasoning 和 Agentic 能力,小尺寸但其数学和编码 Reasoning 性能接近前沿的开放模型
    • 是继 DeepSeek-V3.2-Speciale-671B-A37B 之后,第二个在 2025 年国际数学奥林匹克竞赛 (IMO)、国际信息学奥林匹克竞赛 (IOI) 和 ICPC 世界总决赛中达到金牌水平的开源权重 LLM
      • 特点:显著更高的智能密度,参数减少了 20 倍
    • 与 Nemotron-Cascade 1 相比,关键的技术进步如下
      • 在经过精心策划的数据集上进行 SFT 之后,大幅扩展了 Cascade RL,使其覆盖更广泛的 Reasoning 和 Agentic 领域
      • 在整个 Cascade RL 过程中为每个领域引入了来自最强中间教师模型的 MOPD (Multi-Domain On-Policy Distillation)
        • 有效地恢复基准测试的退化,持续保持强大的性能提升
  • 注:本文还发布了训练数据(在 HuggingFace 上均可下载)
    • Nemotron-Cascade-2-SFT-Data:用于 Nemotron-Cascade-2 的 SFT 数据集
    • Nemotron-Cascade-2-RL-Data:用于 Nemotron-Cascade-2 的 RL 数据集

Introduction and Discussion

  • Reasoning 和 Agentic 任务上,RL 的主要挑战在于成功整合更广泛的 RL 环境和非常多样化的 Reasoning 与 Agentic 任务
  • 扩展 RL 以涵盖多方面的现实世界应用,需要能够处理各种奖励信号 和复杂环境反馈 , 且不破坏训练过程 的鲁棒框架
  • 本文作者之前的工作 Nemotron-Cascade 1 (2025) 引入了 Cascade RL
    • Cascade RL 是一个跨专业任务领域协调顺序的、领域特定的 RL 训练的框架
      • Cascade RL 的多个阶段:SFT -> RLHF -> IF RL -> Math RL -> Code RL -> SWE RL
    • Cascade RL 显著简化了与多领域 RL 相关的工程复杂性,同时在广泛的基准测试上实现了最先进的性能
    • Cascade RL 的优势有三点
      • 第一:特定领域的 RL 阶段对灾难性遗忘具有显著的抵抗力
        • Cascade RL 很少会降低在早期领域获得的基准性能,甚至可能提高它
      • 第二:Cascade RL 允许为每个特定领域精心定制 RL 超参数和训练课程
        • 从而实现优化的学习动态和改进的最终性能
      • 第三:每个 RL 阶段内的任务同质性也带来算力节省
        • 因为在一个领域内,Response 长度和验证挂钟时间比在联合训练的多个领域中更一致
  • 本文介绍了 Nemotron-Cascade 2,与其前身类似,Nemotron-Cascade 2 进一步在高优先级领域上扩展了 Cascade RL,以保留领域特定训练的好处,能够将关键领域的 Reasoning 性能极限推向最先进水平
  • 本文将 On-Policy Distillation (2026; 2026) 融入到 Cascade RL 训练阶段
    • 通过在 Cascade RL 期间从每个特定领域内表现最佳的中间教师模型中蒸馏知识,这种机制有效地恢复了在日益复杂的 RL 环境中训练时可能发生的任何基准测试性能退化
    • 将多领域 RL 集成到 Cascade RL 中,用于具有相似 Response 格式和可比验证成本的任务组,允许它们联合训练,以扩展到更多的 RL 环境,并在跨任务干扰最小时提高训练效率
  • 本文的 Nemotron-Cascade-2-30B-A3B 在数学和编码 Reasoning 方面实现了突破性的性能
    • 仅 30B 的 MoE 模型,但在 2025 年国际数学奥林匹克竞赛 (IMO) 和国际信息学奥林匹克竞赛 (IOI) 中都获得了金牌成绩,同时在广泛的基准测试中提供了最佳性能,包括 Alignment、Instruction-Following、Long Context(例如,1M 上下文窗口)和 Agentic 任务
    • 完整结果见表 1
  • 注:本文完全开源了模型权重、训练数据和方法细节,使研究社区能够复现、分析和扩展所提出的 Cascade RL 训练范式
    • 这一点特别重要,文章中包含许多训练细节和超参数等

Main Results

  • 在涵盖数学和编码 Reasoning 、知识与 STEM、 Alignment 与 指令跟随 、长上下文理解与上下文学习 (In-Context Learning)、多语言能力和 Agentic 任务的全面基准套件上评估了 Nemotron-Cascade 2
  • 主要结果显示在表 1 中,基准测试和详细的评估设置见附录 A
  • 表 1:主要结果
    • Nemotron-Cascade-2-30B-A3B 在 IMO 2025 和 IOI 2025 中均实现了金牌性能,展示了显著的高智能密度
    • 方括号中的数字指的是工具集成推理 (Tool-Integrated Reasoning, TIR) 结果
    • 对于基线模型,使用可用的官方数值,否则使用推荐的设置进行评估
  • 从表 1 可以看出,Nemotron-Cascade-2-30B-A3B 不仅优于最新发布的 Qwen3.5-35B-A3B (2026-02-24) (Qwen Team, 2026),也优于更大的 Nemotron-3-Super-120B-A12B (2026-03-11) (2025),并在数学、代码 Reasoning 、通用 Alignment 和 指令跟随 的基准测试中实现了同类最佳性能
  • 表 2:
    • 对于 IMO 2025 P2,由于模型采用了广泛的分析几何方法,人类专家可能难以验证所有中间推导步骤
      • 本文使用来自 ProofBench (2025) 的参考解决方案和评分方案的 LLM 评分器
  • 特别说明:Nemotron-Cascade 2(30B 的 MoE 模型)在 IMO 2025、IOI 2025 和 ICPC World Finals 2025 上取得了金牌性能
    • 这一结果以前被认为只有前沿的专有模型 (Gemini Team, 2025)(即 Gemini Deep Think)和前沿规模的开源模型 (2025)(即 DeepSeek-V3.2-Speciale-671B-A37B)才能达到
    • 本文模型的详细性能在表 2 中报告
    • 对于 IMO 2025,模型生成的解决方案以及人类专家的评审和分数见附录 E
  • Nemotron-Cascade-2-30B-A3B 在几乎所有基准测试上也优于 Nemotron-3-Nano-30B-A3B
    • 注:这两个模型都是从相同的预训练模型 Nemotron-3-Nano-30B-A3B-Base (NVIIDA, 2025) 进行后训练的
    • 这一结果进一步证明了本文的 Cascade RL 加 MOPD 训练流程的有效性
  • 注:Nemotron-Cascade-2-30B-A3B 在知识密集型和 Agentic 基准测试上表现不如 Qwen3.5-35B-A3B
    • 未来工作重点:进行更强的知识密集型预训练和 Agentic RL

SFT

  • 本节描述 SFT 训练框架和数据管理过程,这是作者后训练流程的第一阶段。此阶段为模型配备了基础能力,包括 Reasoning 、对话能力、 指令跟随 以及 Agentic 和软件工程技能

Training Framework

Overview
  • 本文的 SFT 数据涵盖包括
    • 数学、编码、科学、工具使用、Agentic 任务和软件工程
    • 通用领域:如多轮对话、知识密集型问答、创意写作、角色扮演、安全性和 指令跟随
  • 本文将所有 SFT 样本打包进长达 256K Token 的序列中,并在单个阶段训练模型
    • 经验发现:SFT 模型在大约 1.5 个 Epoch 后达到最佳性能
    • SFT 训练超参数见附录 B(表 7)
Chat Template
  • 聊天模板如图 1 所示
    • 与 Nemotron-Cascade (2025) (解读见:NLP——技术报告解读-Nemotron-Cascade)相比,聊天模板有两个变化
      • 第一:为了简化,移除了 /think 和 /no_think 标签
      • 第二:预先添加一个空的 <think></think> 块以激活非思考模式
    • 对于工具调用任务,在系统 Prompt 中的 <tools> 和 </tools> 标签内指定所有可用工具

SFT Data Curation

Math
  • 非证明数学 Prompt 主要来源于 Nemotron-Cascade (2025) 和 Nemotron-Math-v2 (2025)
    • 从中收集了 1.8M 个工具调用(即 Python)样本和 190 万个非工具样本
    • 其 Response 分别由 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale (2025) 生成
  • 从 Nemotron-3-Nano (2025) 的生成-选择类别中收集了 676K 个样本
    • 其 Response 由 GPT-OSS-120B (2025) 生成
    • 竞赛数学 SFT 包括 1.8M 个工具调用样本和 2.6M 个不使用工具的样本
  • 对于数学自然语言证明,从 Nemotron-Math-Proofs-v1 (2025) 的 AOPS 分割中收集了 98K 个数学证明问题
    • 为每个问题生成多个样本以涵盖两种能力:
      • 证明生成 (410K ) 和证明验证 (400K )
      • 使用 DeepSeek-V3.2-Speciale (2025),总共产生 816K 个样本
Code Reasoning
  • 基于 Nemotron-Cascade 1 (2025),从几个开源数据集中管理了大约 165K 个 Unique 编码 Prompt
    • 包括 OpenCode-Stage2 (2024)、OpenCodeReasoning (2025) 和 HardTests (2025)
    • 这些 Prompt 最初来源于竞争性编程平台,如 Codeforces、AtCoder、AIZU 和 CodeChef
    • 为鼓励 Prompt 多样性并减少 SFT 训练集中的冗余,使用两种方法应用了严格的去重:
      • (1) 样本 I/O 指纹识别
      • (2) 基于 n-gram 的文本分析
      • 以上过程移除了大约 24.2% 的自我重复编码 Prompt
  • 选择 GPT-OSS-120B (2025) 作为本文 SFT 教师模型
    • 因为它具有强大的代码 Reasoning 能力
  • 对于每个具有可验证测试用例的编码 Prompt,对教师的 Reasoning 轨迹应用正确性过滤,只保留那些生成正确代码的轨迹
    • 对于没有可验证测试用例的 Prompt,通常选择更长的 Reasoning 轨迹,假设它们反映了更彻底的问题分析
  • 此流程最终产生了一个数据集,包含 1.9M 条 Python Reasoning 轨迹、1M 条 C++14 Reasoning 轨迹和 1.3M 条用于竞争性编程的 Python 工具调用 Reasoning 轨迹
Scientific Coding
  • 本文进一步收集了跨越生物学、材料科学、物理学、化学和数学领域的科学研究编码 Prompt
  • 对这些 Prompt 的 Response 由 GPT-OSS-120B (2025) 生成,总共产生 1.1M 个 SFT 样本
Science
  • 收集的科学 Prompt 跨越物理、化学和生物学
  • 使用了来自 Nemotron-Cascade (2025) 的 1.4M 个科学 SFT 样本,以及来自 Nemotron-3-Nano (2025) 的另外 1.3M 个样本
    • 两个数据集中的 Response 均由 GPT-OSS-120B (2025) 生成
Long Context
  • 采用来自 Nemotron-3-Nano (2025) 的 160K 条长上下文 SFT 数据,其平均序列长度为 128K Token
  • 此外还从 ChatQA-2 (2024) 收集了另外 74K 条长上下文 SFT,其平均长度为 29K Token
General Chat
  • 从 Nemotron-Cascade 1 (2025) 获取 Prompt,并构建了 4.9M 个 Reasoning-on 和 372K 个 Reasoning-off 的样本
    • Reasoning-on 样本的 Response 由 GPT-OSS-120B (2025) 生成
    • Reasoning-off 样本中:
      • 300K 个 Response 取自数据集本身内的高质量注释短答案
      • 另外 330K 个由 DeepSeek-V3-0324 (2024) 生成以提高 Response 质量
  • 为了增强多轮对话能力,使用两个 GPT-OSS-120B (2025) 实例在角色扮演设置中合成了大约 700K 个多轮对话样本,其中一个实例扮演用户,另一个扮演助手
    • 用户端模型可以随时终止对话以防止重复交流
  • 本文还从 Nemotron-3-Nano (2025) 中引入了 4.6M 个 Reasoning-on 聊天样本,其 Prompt 来源于 LMSYS (2023) 和 WildChat (2024)
    • Response 由 GPT-OSS-120B (2025)、Qwen3-235B-A22B-Thinking-2507 和 Qwen3-235B-A22B-Instruct-2507 (2025) 生成
    • 问题:是一个 Prompt 生成多个模型的 Response,同时使用吗?
Instruction Following
  • 从 Nemotron-Cascade 1 (2025) 获取 Prompt
    • 使用 GPT-OSS-120B (2025) 生成了大约 230K 个 Reasoning-on Response
    • 使用 DeepSeek-V3-0324 (2024) 生成了 64K 个 Reasoning-off Response
  • 此外从 Nemotron-3-Nano (2025) 引入了 497K 个 指令跟随 样本,包括 457K 个 Reasoning-on 和 40K 个 Reasoning-off Response
    • 这些 Response 由 GPT-OSS-120B (2025)、Qwen3-235B-A22B-Thinking-2507 和 Qwen3-235B-A22B-Instruct-2507 (2025) 生成
Safety
  • 从 Nemotron-3-Nano (2025) 收集了 4000 个安全性 SFT 样本,以使模型在遇到不安全输入时能够表现出适当的拒绝行为
  • SFT Prompt 主要来源于 Nemotron Content Safety v2 (2025)、Gretel Safety Alignment v1 (2024)、Harmful Tasks (2024) 和 Red-Team-2K (2024)
Conversational Agent
  • 除了用于数学和代码 Reasoning 的 Python 工具使用数据外,还在多轮对话设置中收集了工具使用样本
    • 其中多个工具可用,助手必须确定调用哪些工具以及如何有效地使用它们
  • 本文从 Nemotron3-Nano (2025) 收集了 822K 个对话式工具使用样本
    • 其 Response 由 Qwen3-235B-A22B-Thinking-2507、Qwen3-32B、Qwen3-235B-A22B-Instruct-2507 (2025) 和 GPT-OSS-120B (2025) 生成
Software Engineering Agent
  • 使用各种 Agentic Scaffold(包括 OpenHands (2025)、SWE-Agent (2024)、Mini-SWE-Agent 以及 Wei 等 (2025) 提出的无 Agent Scaffold)来管理软件工程数据,以增强模型的 Agentic 软件工程能力
    • 第一:利用来自 Nemotron 3 Nano (2025) 和 Super (2025) 的数据
      • 这些数据包括使用 Qwen3-Coder-480B-A35B-Instruct (2025) 生成的 SWE Agentic 轨迹
      • 问题实例来自 SWE-Gym (Pan*2025)、SWE-rebench (2025) 和 R2E-Subset (2025)
    • 第二:采用来自 Nemotron-Cascade 1 (2025) 的 SWE 无 Agent 数据,其中包括三个主要任务:
      • (1) 错误代码定位
      • (2) 代码修复
      • (3) 测试用例生成
    • 遵循 Wang 等 (2025) 中既定的程序,使用 DeepSeek-V3.2 (2025) 重构了代码修复数据
  • 本文初步研究表明,整合 SWE 无 Agent 数据可以提高模型在 SWE Agentic 任务上的有效性
    • 例如
      • 仅在 Agentic 数据上进行微调,在 SWE-bench Verified 上使用 OpenHands 的 Pass@1 为 48.9,Pass@4 为 62.8
      • 在 Agentic 和无 Agent 数据组合上进行微调则分别将性能提高到 Pass@1 的 49.9 和 Pass@4 的 65.2
    • 基于这一观察,本文将 125K 个 Agentic 样本和 389K 个无 Agent 样本组合起来,作为 SWE 任务的 SFT 数据
    • 本文的模型在 SWE Agentic 数据上以非思考模式 训练,在 SWE 无 Agent 数据上以思考模式 训练
Terminal Agent
  • 为增强终端使用的 Agentic 能力,本文采用 Terminal-Task-Gen 方法 (2026) 来管理作者的训练任务
  • 该框架包括
    • (1) 将静态数据转换为交互式终端格式的数据集适配器
    • (2) 从不同的种子 Prompt 和一个结构化的终端技能分类法中生成的合成任务
  • 使用这个框架,总共 curate 了 490K 个样本
    • 首先从现有的高质量来源 (2025) 适配了 162K 个数学、32K 个代码和 32K 个 SWE 特定样本,这建立了广泛的基础覆盖
    • 为了进一步提高针对性技能的完善,合成了 120K 个基于种子和 140K 个基于技能的任务
    • 对于轨迹构建,利用上述任务,并采用 DeepSeek-V3.2 作为核心引擎 ,通过在隔离的 Docker 环境中的执行-反馈循环来生成逐步的解决方案轨迹
    • 注:Terminus 2 Agent 框架 (2026) 作为底层的 Scaffold 和工具使用协议,使模型能够与终端交互并完成复杂任务

Cascade RL and Multi-Domain On-Policy Distillation,Cascade RL 和 MOPD

  • 遵循与 Nemotron-Cascade 1 (2025) 类似的方法,本文 Cascade RL 作为后训练流程
  • 特别地,在 Cascade RL 流程中集成了多领域 On-Policy 蒸馏 (Multi-Domain On-Policy Distillation,简称 MOPD)

Training Framework

  • 图 2 中展示了训练过程
    • 第一步:从 IF-RL (§4.2) 开始 Cascade RL 流程
      • 建立基础的指令遵循能力
    • 第二步:进行多领域 RL (§4.3)
      • 增强模型的工具调用能力、STEM 推理能力和 Response 格式遵循能力
    • 第三步:过渡到 MOPD (§4.4)
      • 将专门领域的专业知识统一到一个连贯的 Policy 中,以缓解性能下降
    • 第四步;使用 RLHF (§4.5) 进行人类对齐
    • 第五步:使用长上下文 RL (§4.6) 增强对长输入序列的推理能力
    • 第六步:使用 Code RL (§4.7) 处理竞争性编程问题
    • 第七步:使用 SWE RL (§4.8) 掌握 Agentic 软件交互
What determines the ordering of Cascade RL,Cascade RL 的顺序
  • Cascade RL 流程中各阶段的最优顺序并非一个通用常数
    • 它是模型潜在行为和学习轨迹的动态函数
  • 与原始的 Nemotron Cascade (2025) 相比
    • 当前的工作 Nemotron-Cascade 2 在 SFT 数据质量上引入了显著改进,并大幅扩展了 RL 环境和任务的复杂性
    • 这些进步从根本上改变了模型的行为动态,这使得需要采用不同的顺序,以更好地适应 LLM 不断发展的能力
Rule of thumb: Mitigating Inter-Domain Interference,经验法则:减少域内干扰
  • 这种顺序的基本原理主要是为了缓解模型与日益多样化的环境交互时可能发生的灾难性遗忘
  • Cascade RL 提供了一个精细的视角,通过它可以观察特定领域如何竞争或冲突
    • 例如 IF-RL 中严格的指令遵循与 RLHF 中的人类偏好对齐
    • 本文核心设计原则是确定一个能最小化领域间负面干扰的顺序,同时彻底优化最高优先级的领域
  • 通过识别哪些任务是基础先验,哪些是专门的细化,我们可以减轻领域间干扰
Scaling via Multi-Domain Integration,通过多领域集成扩展
  • 遵循这一原则,当特定领域被发现与整体性能不冲突或有益时,Cascade RL 流程可以包含多领域 RL 阶段
  • 这种集成方法在 RL 环境和数据集复杂性增加时尤其有效,同时确保模型在 §4.3 中详述的各种基准测试中保持广泛的性能
Stabilization through On-policy Distillation,通过 OPD 稳定
  • 发现:MOPD (§4.4) 在此顺序中充当了一个关键的稳定点
    • MOPD 能够有效地恢复在 Cascade RL 早期、更专业化的阶段可能出现的基准性能下降,从而产生更平衡、更稳健的最终 Policy 模型
RL Training Configuration
  • 在整个 Cascade RL 过程中,遵循 Nemotron Cascade (2025) 的做法
    • 使用具有严格 On-Policy 训练的 GRPO 算法 (2024)
    • 采用 On-Policy 训练以提高稳定性和准确性
  • 使用 Nemo-RL 代码库 (NVIDIA, 2025) 进行训练
    • 注:之前 Cascade RL 使用的是 VeRL
  • 在每次迭代中,从当前 Policy \(\pi_{\theta}\) 生成一组 \(G\) 个 Rollout,然后执行一次梯度更新
    • 这确保了用于数据收集的 Policy 始终与被更新的 Policy 匹配,使得重要性采样比率恰好为 1
    • 这种 On-Policy 设置有助于稳定的 RL 训练并减轻熵崩溃
  • 本文完全移除了 KL 散度项,这将 GRPO 目标简化为标准的 REINFORCE 目标 (1992),该目标具有组归一化奖励和 Token-level 损失 (2025):
    $$\mathcal{J}_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a)\sim \mathcal{D},\{o_i\}_{i = 1}^G\sim \pi_\theta (\cdot |q)}\left[\frac{1}{\sum_{i = 1}^G|o_i|}\sum_{i = 1}^G\sum_{t = 1}^{|o_i|}\hat{A}_{i,t}\right],\quad \text{ where }\hat{A}_{i,t} = \frac{r_i - \text{mean}(\{r_i\}_{i = 1}^G)}{\text{std}(\{r_i\}_{i = 1}^G)} \text{ for all } t \tag {1}$$
    • \(\{r_i\}_{i = 1}^G\) 表示分配给从数据集 \(\mathcal{D}\) 中抽取的给定问题 \(q\) 的采样 Response \(\{o_i\}_{i = 1}^G\) 的一组 \(\mathbf{G}\) 奖励
      • 对于 RLVR,根据真实答案 \(a\) 进行验证
      • 对于 RLHF,\(r_i\) 是来自生成式奖励模型 (generative reward model) 的,针对 Response \(o_i\) 和问题 \(q\) 的聚合奖励分数
      • 不同领域的奖励函数细节将在相应的小节中提供
    • 理解:上面是目标有点问题,应该还需要加个概率分布函数
      $$
      \mathcal{J}_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, \{o_i\}_{i=1}^{G} \sim \pi_{\theta}(\cdot|q)} \left[ \frac{1}{\sum_{i=1}^{G} |o_i|} \sum_{i=1}^{G} \sum_{t=1}^{|o_i|} \hat{A}_{i,t} \color{red}{\cdot \pi_\theta(o_{i,t}|q,o_{i, < t})} \right], \quad \text{Where } \hat{A}_{i,t} = \frac{r_i - \text{mean}(\{r_i\}_{i=1}^{G})}{\text{std}(\{r_i\}_{i=1}^{G})} \text{ for all } t,
      $$
      • 因为梯度应该是:
        $$
        \nabla \mathcal{J}_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, \{o_i\}_{i=1}^{G} \sim \pi_{\theta}(\cdot|q)} \left[ \frac{1}{\sum_{i=1}^{G} |o_i|} \sum_{i=1}^{G} \sum_{t=1}^{|o_i|} \hat{A}_{i,t} \color{red}{\nabla \pi_\theta(o_{i,t}|q,o_{i, < t})} \right], \quad \text{Where } \hat{A}_{i,t} = \frac{r_i - \text{mean}(\{r_i\}_{i=1}^{G})}{\text{std}(\{r_i\}_{i=1}^{G})} \text{ for all } t,
        $$

IF-RL:Instruction-Following Reinforcement Learning

  • Cascade RL 第一阶段是 IF-RL 方法
  • 本文证明了应用可验证的 IF-RL 能显著提高指令遵循能力,在 IFBench (2025) 上达到了 \(83.13%\) 的最先进准确率
Dataset
  • 使用与 NVIDIA Nano-v3 后训练 (2025) 相同的指令遵循训练数据
    • 该数据集中的指令设计为客观可验证的,例如,要求 Response 字数少于 200 字
    • 这使得该数据集非常适合训练和评估模型在严格遵循指令方面的能力
  • 鉴于数据的基线质量很高,数据整理过程主要解决某些指令类型(例如,count_increment_word)中关键字参数的格式不一致问题
Training recipe
  • 遵循 (2025) 的方法,应用了动态过滤 (dynamic filtering) (2025)
  • 该技术会过滤掉那些所有 Rollout 都完全正确或完全错误的样本
  • 通过确保批次中的每个 Prompt 都能提供有效的梯度,动态过滤稳定了 IF-RL 训练并提高了模型性能的上限
  • 过长的 IF-RL 训练可能导致 Token 使用过多,这对于满足一般聊天领域的特定约束通常是不必要的
    • 为了缓解这个问题,应用 Oerlong penalty,即对那些未能在最大序列长度内完成生成的样本给予零奖励
  • 与 Nemotron Cascade (2025) 的不同点
    • 本文将 IF-RL 作为 Cascade RL 训练的第一阶段,主要有两个原因:
      • (i) IF-RL 可能会对人类对齐能力(例如,ArenaHard)产生负面影响,而后续基于生成式奖励模型的 RLHF 对指令遵循分数的影响可以忽略不计
        • 通过优先考虑指令遵循,可以专注于最大化指令遵循性能,然后利用后续阶段来恢复和完善人类偏好对齐
      • (ii) 早期的 IF-RL 阶段会产生一个具有卓越指令遵循能力的模型,该模型可作为后续多领域 On-Policy 蒸馏的强大教师
    • 与 Nemotron Cascade (2025) 的另一个不同之处:
      • IF-RL 完全在“思考模式 (thinking mode)”下训练,没有结合奖励模型
        • 理解:不训练 Non-thinking 模式,且仅使用 RLVR 奖励
      • 由于后续的 RL 阶段会恢复 IF-RL 期间引入的人类偏好对齐的任何退化,我们可以完全专注于最大化指令遵循,而无需承担辅助奖励模型的计算开销
  • 超参数:
    • 使用 128 的 Batch Size ,每个 Prompt 采样 16 个 Response,温度为 1.0,Top-p 为 1.0
    • 采用 AdamW 优化器,学习率为 3e-6,并将熵损失系数和 KL 损失系数均设为 0
    • 带有动态过滤的 IF-RL 大约需要 180 步
  • 完整的超参数集见附录 B(表 8)

Multi-domain RL

  • 在 IF-RL 之后,进行了另一阶段的多领域 RL,涵盖了三种能力:
    • STEM 领域的多项选择问答 (multiple-choice question answering,简称 MCQA)
    • Agentic 工具调用
    • 指令遵循的结构化输出
  • 数据集取自 NVIDIA Nano-v3 RL 训练混合物 (2025)
    • 数据混合比例大约为:
      • \(55%\) 的 MCQA
      • \(30%\) 的使用 Workplace Assistant 设置的 Agentic 工具调用 (2025)
      • \(15%\) 的结构化输出
  • 本文将这些领域组合成一个单一的多领域 RL 阶段,主要有两个原因
    • 第一:在混合领域上训练时,没有观察到评估基准上的性能下降
      • 模型在包括 MMLU-Pro、\(\tau^2\)-Bench 和 IF-Bench 的基准测试中表现出持续改进
    • 第二:这些数据集的 Response 长度和验证时间相似,这最大限度地减少了因等待更长的生成或较慢的环境验证而导致的训练效率低下
  • 超参数:
    • 使用 128 的 Batch Size ,每个 Prompt 采样 16 个 Response,温度为 1.0,Top-p 为 1.0(见附录 B)
    • 采用 AdamW 优化器,学习率为 \(3 \times 10^{-6}\),并将熵损失系数和 KL 损失系数均设为 0
    • 此多领域 RL 阶段运行大约 70 个训练步
  • 其他超参数与 IF-RL 一致,详情见附录 B(表 8)

MOPD:Multi-domain On-Policy Distillation

  • 虽然精心设计的 Cascade RL 与任意顺序的普通顺序 RL 相比,大大减少了灾难性遗忘
    • 但随着训练环境数量的增加,它并不能完全消除能力漂移(Capability Drift)
  • 实践观察:整个训练过程中跟踪的不同基准类别存在明显波动,且主要的权衡因阶段而异
    • 例如:
      • 某些 RLVR 训练通常会降低模型熵并缩短推理轨迹,因此可能对数学推理性能产生负面影响
      • 以 RLHF 为导向的优化可能会部分地与指令遵循行为进行权衡
    • 这些观察结果促使我们在 Cascade RL 流程中增加一个额外的训练阶段来重新平衡能力
      • 本文采用 MOPD (2024; 2024; 2025; 2026; 2025; 2026) 作为补充的后训练阶段
  • 在本文 Setting 中,MOPD 由于三个原因而特别有吸引力
    • 第一:教师 Checkpoint 可以直接从 Cascade RL 流程中选择,为每个基准类别选择最强的验证 Checkpoint,这使得组装一个能力多样的教师池变得容易,而无需引入外部模型系列
    • 第二:由于这些教师都源自相同的 SFT 初始化,它们与 Student 共享相同的 Tokenizer 和词汇表,从而减少了分布偏移并避免了额外的对齐问题
    • 第三,MOPD 提供了密集的 Token-level 训练优势,与稀疏的 Outcome Reward 相比尤其有用
      • 在图 3(c) 中,本文展示了其与 GRPO 相比的训练效率优势
MOPD objective
  • 令 \(\pi^{\text{inf} }\) 表示用于推理引擎中 Response 生成的 Student Policy
  • 令 \(\pi^{\text{train} }\) 表示由训练引擎优化的 Student Policy
  • 对于每个 Prompt \(x\)
    • 采样一个 Response
      $$ y = (y_1, \ldots , y_T) \sim \pi^{\text{inf} }(\cdot |x) $$
    • 为该训练示例选择一个领域教师 \(\pi^{\text{domain}_i}\)
      • 其中领域 \(i\) 表示与所选教师关联的能力领域(理解:根据提前约定的样本领域选择教师)
    • 将 \(s_t = (x,y_{< t})\) 写为时间步 \(t\) 的解码状态,使用 Reverse-KL 定义 Token-level 蒸馏优势 (distillation advantage) 为
      $$a_t^{\text{MOPD} } = \log \pi^{\text{domain}_i}(y_t |s_t) - \log \pi^{\text{train} }(y_t |s_t) \tag {2}$$
      • 当领域教师分配给采样 Token 的概率高于当前训练 Policy 时,此项为正
        • 因此在训练期间作为密集的 Token-level 蒸馏优势收敛到 0(教师和学生概率相同时优势为 0)
      • 对数概率差仅在 Student 采样的 Token 上计算,而不是在整个词汇表上计算
  • 由于 Response 是在 \(\pi^{\text{inf} }\) 下采样但在 \(\pi^{\text{train} }\) 下优化,应用截断重要性权重 (truncated importance weighting) 来解决训练-推理不匹配问题:
    $$r_t = \frac{\pi^{\text{train} }(y_t |s_t)}{\pi^{\text{train} }(y_t |s_t)},\quad w_t = \text{sg}[r_t]\mathbf{1}[\epsilon_{\text{low} }\leq r_t\leq \epsilon_{\text{high} }] \tag {3}$$
    • 其中 \(\text{sg}[\cdot ]\) 表示停止梯度 (stop-gradient)
    • 理解:当训推不一致差异过大时,即 \(r_t\) 不在指定范围内,则将权重置为 0(即 Mask 掉这个 Token)
  • 最终的优化代理目标为:
    $$\mathcal{L}_{\text{MOPD} } = -\mathbb{E}_{x\sim \mathcal{D},y\sim \pi^{\text{inf} }(\cdot |x)}\left[\frac{1}{|\mathcal{V}(y)|}\sum_{t\in \mathcal{V}(y)}w_t \cdot \text{sg}[a_t^{\text{MOPD} }]\log \pi^{\text{train} }(y_t |s_t)\right] \tag {4}$$
    • 其中 \(\mathcal{V}(y)\) 是由 Token 掩码保留的有效 Response Token 的集合
Hyperparameters(Of MOPD)
  • Unless otherwise specified
    • 本文使用 4 的 Rollout 大小和每次更新 128 个 Prompt,得到 512 个 Response 的有效 Batch Size
    • 后来实验发现使用 512 个 Prompt 和 1 的 Rollout 大小产生的优化略稳定,同时产生相似的最终结果
  • 本文使用 \(2 \times 10^{-6}\) 的学习率,并在前 30 个优化步中进行线性预热
    • 从 \(2 \times 10^{-7}\) 开始
  • 训练通常在 40-50 个优化步内收敛(图 3(a))(吐槽:也没多训练一会儿,目前根本没看到收敛!)
  • 发现:预热阶段对稳定性很重要
    • 梯度范数在训练开始时显著较大,并在预热阶段后迅速减小(图 3(b))
  • 对于截断重要性权重
    • 设置 \(\epsilon_{\text{low} } = 0.5\) 和 \(\epsilon_{\text{high} } = 2.0\)
  • 主要实验使用了三个领域教师,分别对应数学、RLHF 和多领域
    • 数学教师是初始的 SFT Checkpoint,在精心整理的 SFT 数据集下训练,SFT 后的模型已经表现出强大的数学推理能力
    • RLHF 教师是一个通过 RLHF 从初始 SFT Checkpoint 优化的 Checkpoint
    • 多领域教师是从先前 IF-RL + 多领域 RL 阶段之后的 Checkpoint 中选择的
      • 理解:刚开始训练时,也就是说多领域教师与 MOPD 训练的目标策略是同一个模型,但也可能 多领域教师模型是之前步骤的最优 Checkpoint
  • 数据采样方式:
    • 相应地从 RL 训练数据池(RLHF、IF-RL 和多领域)以及 AceReason-Math (2025) 中对数学 Prompt 进行采样
    • 问题:数据采样的百分比是?
Training efficiency advantage,训练效率优势
  • MOPD 提供了密集的 Token-level 蒸馏优势(而 GRPO 依赖于稀疏的序列级别 Outcome Reward,该 Reward 在所有生成的 Token 之间共享)
    • MOPD 在实践中更具样本效率和步效率
  • 从相同的初始 Checkpoint 开始,MOPD 能够在更少的优化步内持续达到更强的性能
  • 在 AIME25 上(图 3(c))
    • 在仅数学训练下
      • GRPO 在 25 步后从 89.9 提升到 91.0,而 MOPD 在 30 步内达到 92.0 并恢复到教师级别的性能
      • 问题:89.9 到 91 分,怎么感觉像是波动
    • 在 ArenaHard v2 上也出现了类似的趋势(表 3)
      • 在 52 步后,MOPD 将 Hard Prompt 从 71.5 提升到 85.5,将 Creative Writing 从 40.6 提升到 71.0
      • RLHF 训练则需要 160 步才能达到 Hard Prompt 的 80.7 和 Creative Writing 的 71.2
    • 以上这些结果表明,On-Policy 蒸馏中的密集 Token-level 优势带来更快的训练收敛

RLHF:Reinforcement Learning from Human Feedback

  • 在 MOPD 的基础上,RLHF 方法侧重于人类偏好学习
    • 此过程进一步增强了创造性写作以及在编码和数学中不可验证的问题解决能力(通过 ArenaHard v2 (2024) 衡量),同时保持其他领域的性能不下降
Dataset
  • 采用了来自 NVIDIA Nano-v3 (2025) 的 RLHF 训练数据集
    • 其中包括 HelpSteer3 (2025)、arena-human-preference-140k 数据集 (2024) 的一个商业友好子集,以及一个合成的安全混合集 (2025)
  • 遵循 NVIDIA Nano-v3 (2025) 的做法,利用 Qwen3-235B-A22B-Thinking-2507 (2025) 作为生成式奖励模型 (generative reward model,简称 GenRM)
    • 该模型通过 HelpSteer3 框架 (2025) 进行训练
  • GenRM 的输入输出:
    • 给定对话历史、用户请求和两个候选 Response,GenRM 首先推理每个 Response 的优缺点,然后生成各自的帮助性分数和最终的比较排名
Training recipe
  • 遵循与 NVIDIA Nano-v3 (2025) 相似的训练方案,使用 GenRM 进行 RLHF
    • 理解:看起来这里不再使用 BT RM 了
  • 为确保训练信号的质量,采用 Pair-wise comparisons 来比较每个 Prompt 的所有 Rollout 对
  • 以与 NVIDIA Nano-v3 RLHF 训练相同的方式聚合奖励分数,并应用相同的长度归一化奖励调整 (length-normalized reward adjustment) 和基于质量的门控简洁奖励 (quality-gated conciseness bonus) (2025)
    • 这些机制鼓励更短的 Response 而不牺牲质量,从而有效缓解推理 Token 使用量的快速增长
  • 与 Nemotron Cascade (2025) 不同,仅在思考模式下训练 RLHF
    • 虽然同时结合思考模式和非思考模式可以提高训练收敛性并在评估基准上带来微小提升,但指令遵循性能显著下降(由此产生的下降幅度足够大,以至于早期 RLVR 阶段获得的收益无法完全恢复)
Hyper-parameters
  • 使用 128 的 Batch Size ,每个 Prompt 生成 16 个 Rollout,温度为 1.0,Top-p 值为 1.0
  • 使用 16K 的最大 Response 长度,不应用过长过滤
  • 采用 AdamW 优化器,学习率为 \(3\times 10^{-6}\)
  • 将熵损失系数设为 0,KL 损失系数设为 0.03,以保持模型在其他领域的能力
  • 训练大约需要 30 步
  • 更多参数见 表 9

Long-context RL

  • 在 RLHF 之后进行一个阶段的长上下文 RL,以进一步增强模型的长上下文理解和推理能力
  • 使用 NVIDIA Nano-v3 RL 数据混合集 (2025),但此阶段仅限于长上下文数据集
  • 在本文实验中,在长上下文 RL 期间纳入其他领域会对不相关的基准测试产生负面影响,这证明了这种特定领域训练设置的合理性
  • 采用 Nemo-Gym RL 环境 (NVIDIA, 2025),并使用 Qwen3-235B-A22B-Instruct-2507 作为 LLM Judge 来评估模型在问答任务上的 Rollout
    • 在训练期间,输入序列限制为 32K Token,最大序列长度设置为 49K Token,不应用过长过滤
  • 使用 128 的 Batch Size 进行训练,每个 Prompt 生成 16 个 Rollout,温度为 1.0,Top-p 为 1.0
  • 使用 AdamW 优化器,学习率为 \(3\times 10^{-6}\),同时熵和 KL 损失系数均设为零
  • 训练大约运行 30 步
    • 因为观察到在此之后生成的 Token 数量会迅速增加
  • 其他更多超参与 RLHF 相同,详情见表 9

Code RL

Data Curation
  • 从 Nemotron-Cascade 编码语料库 (2025) 构建了 Code RL 训练集
    • 其中包含来自现代竞争性编程平台(如 AtCoder、Codeforces 和 AIZU)的编码 Prompt,这些 Prompt 带有用于奖励验证的可靠测试用例
  • 为了提高训练效率和加强深度推理,积极过滤掉那些 GPT-OSS-120B 在全部 8 次 Rollout 中都能正确解决的 Prompt ,最终得到一个仅包含 3.5K 个样本的紧凑集合
    • 问题:为什么不使用自己当前的模型来 Rollout?万一 GPT-OSS-120B 能解决但当前不能解决的题目被过滤掉呢?
  • 发现:高难度的 Prompt 与强大的测试用例相结合,对于进一步提升模型性能至关重要
Training Details
  • 使用 128 的 Batch Size 和 AdamW 优化器进行 Code RL,学习率为 \(3\times 10^{-6}\)
  • 与 Nemotron-Cascade 相比,
    • 将 RL 期间的最大 Response 长度增加到 118K Token,并将每个样本的 Rollout 数量增加到 16,这使得 Policy 能够更好地捕捉那些需要长推理轨迹的极难问题上的稀疏奖励信号
    • 采用严格的二元奖励函数来避免潜在的 Reward hacking,并保持整个训练过程的 On-Policy 性质以保持稳定性
    • 为了支持由此产生的每个 RL 步 \(128\times 16 = 2,048\) 次代码执行的验证吞吐量,部署了一个异步奖励验证服务器,该服务器在 384 个 CPU 核心上,每批次完成时间为 427.2 秒
  • 其他更多超参与 RLHF 相同,详情见表 9

SWE RL:Software Engineering Reinforcement Learning

Agentless RL
Training Details and Hyperparameters
  • 为了增强模型的代码修复能力,本文采用与 Wang 等 (2025) 相同的数据源进行无智能体代码修复强化学习训练
    • 由于大多数实例不提供可执行的 Docker 环境,本文采用 GPT-OSS-120B 作为奖励模型来评估模型生成的代码修复质量
  • 遵循 Wang 等 (2025) 的方法
    • 对于每个实例:使用 Golden localization 和排名前 5 的检索定位来构建 Prompt,并过滤掉相对容易的样本
  • 进行无智能体 SWE RL 时
    • Batch Size 为 \(128\times 16 = 2,048\)(128 个 Prompt,每个 Prompt 有 16 个 Rollout),最大序列长度为 98,304
    • 使用 AdamW 优化器,学习率为 \(3\times 10^{-6}\)
    • 以温度 1.0 和 Top-p 1.0 采样 Response
  • 在训练期间,Mask 那些没有一个 Rollout 获得大于 0.5 奖励的 Prompt 的损失
    • 本文观察到这些困难的 Prompt 会降低无智能体 SWE RL 训练的稳定性和有效性
    • 本文的无智能体 RL 训练通常在 40-50 步内收敛
Can Agentless RL Training Helps Agentic Tasks?
  • 表 4 显示,无智能体 RL 训练不仅提高了模型在无智能体框架内的性能,还增强了模型在 Agentic 设置中解决 SWE 任务的能力
  • 对于无智能体 Mini 评估,采用了一个代码 Embedding 模型 NV-Embed-Code (2025) 来检索 5 个候选文件,这些文件的代码内容在语义上与问题上下文相似
  • 这一结果表明,仅提高模型的代码修复能力就可以泛化到不同的 Scaffold 上,这与 Yang 等 (2026) 的观察结果一致
Execution-based RL for Agentic SWE Scaffold,面向 Agentic SWE Scaffold 的基于执行的 RL
  • 现代软件工程 Agent 依赖于协调仓库交互、工具调用、代码编辑和测试执行的 Scaffolding 框架
    • 训练 Agent 在这些环境中有效运作,不仅需要优化单个模型输出,还需要优化整个问题解决轨迹
  • 为了解决这个问题,本文直接在 Agentic SWE Scaffold 中应用 RLVR,从而实现完整 Agent 工作流的端到端优化
    • 本文训练环境集成了已建立的 OpenHands 框架 (2025),该框架提供了结构化的工具使用、仓库交互和迭代 Patch 生成
  • 本文在完全可执行的软件环境中使用基于执行的强化学习来训练 Agent,其中每个 Episode 对应于解决来自 SWE-bench 等基准测试的一个软件问题实例
    • Agent 在一个仪器化的仓库内操作,该仓库公开了用于文件检查、搜索、代码编辑和测试执行的工具
    • Agent 生成的候选 Patch 在环境内执行,该环境从编译结果和单元测试结果中返回可验证的信号,从而无需人工注释即可实现自动奖励计算
    • 通过 OpenHands Scaffolding 框架,Agent 迭代地定位缺陷、提出 Patch,并通过测试执行对其进行验证
    • 环境反馈:包括编译错误、失败的测试或成功的测试通过,提供了直接反映功能正确性的确定性奖励
  • 进行基于执行的 Agentic 强化学习时的超参
    • Batch Size 为 1024,对应于 16 个 Prompt,每个 Prompt 有 64 个 Rollout
    • 最大上下文长度设置为 256K Token,Agent 最多允许 200 个交互轮次(在 Agentic 编码问题解决期间提供更大的推理 Token 预算)
  • 训练数据来自 SWE-Gym (Pan*2025) 和 R2E-Subset (2025)
    • 使用中间模型为每个实例生成 16 个 Rollout,并使用验证流程进行评估
    • 所有 Rollout 都通过验证(100% 准确率)的实例(表明问题过于简单)将从数据集中移除
    • 对于没有 Rollout 通过验证(0% 准确率)的实例(表明问题极其困难),随机丢弃 90% 的此类案例,以减少它们在训练数据中的比例
  • 更多超参数见附录 B(表 10)

IMO:International Mathematical Olympiad

IMO 2025

  • 在表 2 中,本文使用一个自我改进的测试时扩展框架 (2025) 在 IMO 2025 问题集上评估了 Nemotron-Cascade-2-30B-A3B
    • 在该框架中,模型迭代生成候选解决方案,对其进行验证,并根据其自身的反馈进行细化
  • 尽管其规模相对较小(30B-A3B),该模型仍成功解决了前五个问题
  • 本文在附录 E 中提供了完整的模型解决方案,以及人类专家的评论
    • 这些结果尤其令人鼓舞,因为它们表明,当与有效的推理时扩展相结合时,一个相对紧凑的模型也能产生强大的奥林匹克级数学推理能力
  • 仍有几个有希望的改进方向:
    • 专家评审表明,一些证明比必要的要长,包括多余的中间步骤或定义,偶尔会暴露中间推理的痕迹,并且有时包含轻微的排版问题
    • 对于问题 2,该模型采用了解析解策略,类似于 OpenAI 的方法,而不是像 Gemini Deep Think (IMO Gold) 使用的那种更具几何性的方法

IMO-ProofBench

  • 如表 5 所示,Nemotron-Cascade-2-30B-A3B 在使用生成-验证-细化测试时扩展的情况下,在 IMO-ProofBench 上达到了 72.9 分
    • 其使用的激活参数少了 \(10\times\),但与 DeepSeek-Math-V2-671B-A37B 的差距在 8 分以内
  • 在 Basic 分集上达到 \(90+\) 分,并超过了 QED-Nano-4B (54.0) (LM-2026) 18 分
    • 由于评判模型不同,后者不能直接比较
  • 在本文 LLM 评判设置下重新评估提供的 DeepSeek-Math-V2 证明,得到的分数与报告的人类评分相差 4 分以内
    • 这表明本文协议没有实质性地高估性能(更多细节见附录 A.1.2)
  • 图 4 展示了增加测试时计算量可以提高 Nemotron-Cascade-2-30B-A3B 在 IMO-ProofBench (Advanced) 上的表现,将其分数从第 1 轮的 40.7 提升到第 5 轮的 53.4,并在相同评判下缩小了与 DeepSeek-Math-V2 的差距

Competitive Coding

IOI 2025 and ICPC World Finals 2025

  • 对于 IOI 2025,采用了 Nemotron-Cascade (2025) 的 IOI 测试时扩展流程,该流程可视为一个多轮生成-选择-提交框架,利用了模型在 IOI 官方规则下的推理能力
    • 每个子任务最多分配 50 轮
      • 在每一轮中,提示模型生成 40 个候选解决方案,并结合了
        • (1) 来自前几轮的带有官方评判结果的提交历史
        • (2) 来自同一主任务中高分或完全解决的子任务的共享见解
      • 完整的聊天模板见附录 C.1
    • 使用这种方法,在问题 3 和 4 上获得了满分,在至多 \(40 \times 50 = 2000\) 次模型生成内获得了 439.28 分的金牌分数,而在 5000 次生成内可获得 507.66 分
    • 在需要设计和优化启发式算法的问题 2 上,本文流程仅在 5 轮内(至多 200 次模型生成)就获得了超过 86 分,证明了自我优化和跨子任务见解的有效性
  • 对于 ICPC 世界总决赛 2025
    • 为每个问题生成最多 1000 个解决方案,并在初步筛选后提交给官方评估
    • 本文成功解决了 12 个问题中的 10 个,获得了 #4 金牌名次,其中 8 个问题(除问题 A 和 I 外)仅在 100 次提交内就得到解决

Competitive Coding Benchmark Results

  • 在各种竞争性编码基准上评估了 Nemotron-Cascade-2-30B-A3B 模型
    • 包括 LiveCodeBench v6 (2024) 和 LiveCodeBench Pro (2025) 的 25Q1 和 25Q2 分集
  • 还通过在 2501 至 2507 年间举办的 40 场 Div.1/Div.2 Codeforces 轮次中的模拟参与来估算 Codeforces ELO 分数
    • 在 128K token 的思考预算、1.0 的采样温度和 0.95 的 top_p 下报告作者的 avg@8 结果
  • 对于工具集成推理 (Tool-Integrated Reasoning, TIR) 结果,允许模型调用最多 100 次有状态的 Python 执行器
    • 对于基线模型评估,遵循其推荐的推理配置,确保至少 128K token 到最多 256K token 的思考预算
    • 更多评估细节可以在附录 A 和附录 D 中找到
  • 如表 6 所示
    • Nemotron-Cascade-2-30B-A3B 在 Pass@1 准确率和 ELO 评分方面取得了卓越的成绩
      • 即使与总参数超过 100B 的前沿开源模型(如 Nemotron-3-Super-120B-A12B、GPT-OSS-120B 和 Qwen-3.5-122B-A10B)相比也是如此
    • 通过工具集成推理 (TIR),模型的性能可以进一步提高,尤其是在难题上,并匹配了总参数超过 300B 的最强开源模型,如 Kimi-K2.5-1T-Thinking、Qwen-3.5-397B-A17B 和 DeepSeek-v3.2-Speciale,这些模型要么缺乏对深度推理的 TIR 支持,要么在使用 Python TIR 时表现不佳
    • Nemotron-Cascade-2-30B-A3B 在 8 次尝试内在 LiveCodeBench Pro 的困难分集上实现了高于 0% 的准确率
      • 展示了在即使对人类来说也极其困难的问题上的强大推理能力

附录 A:Benchmarks and Evaluation Setups

A.1. Math

A.1.1. Non-proof Math
  • 详情见原文
A.1.2. Math Proof
  • 详情见原文

A.2. Code Reasoning

  • 详情见原文

A.3. Knowledge and STEM

  • 对于在 thinking 模式下评估 MMLU-Redux、MMLU-Pro、GPQA-Diamond 和 HLE 的 Nemotron-Cascade-2-30B-A3B
    • 使用温度 1.0,top-p 值 0.95,以及 128K Token 的 thinking 预算(最大 Response 长度)
  • 对于 HLE,使用默认的系统 Prompt
    • 在每个问题后附加“请将最终答案放在 \boxed{} 中”
    • 使用 GPT-OSS-120B 作为 LLM Judge
    • 使用附录 C.2 中的 Prompt 进行答案提取和正确性验证
  • 与官方的 HLE Response 格式(要求解释、答案和置信度分数)相比,此框式答案 Prompt 通过更好地与作者的数学 SFT 数据中使用的答案格式对齐,将准确率提高了 6-7 分,主要是在数学子集上

A.4. Alignment and Instruction-Following

  • 在非 thinking 模式下评估 IFEval
  • 在 thinking 模式下评估 IFBench 和 ArenaHard 的 Nemotron-Cascade 模型
  • 使用温度 0.6,top-p 值 0.95,以及最大 Response 长度 32K Token
  • 对于基线模型,尽可能使用官方报告的结果;如果没有这样的结果,将使用其推荐的推理配置或与作者的设置相同的设置进行评估

A.5. Long Context and Context Learning

  • 对于长上下文和上下文学习任务,本文包括:
  • AA-LCR (2025) 包含 100 个具有挑战性的基于文本的问题,需要对多个长的现实世界文档(包括公司报告、政府咨询、法律文件和学术论文)进行推理
    • 每个样本包含一个平均约 100K Token 的文档集
    • 这些问题的设计使得答案无法直接从文档中检索,而是需要跨多个信息源进行推理
    • 本文报告 thinking 模式下的 pass@1 准确率,平均 16 次生成 (avg@16)
  • LongBench v2 (2025) 包含 503 个具有挑战性的多项选择题,上下文长度范围从 8K 到 2M 个词
    • 该基准涵盖六个任务类别:单文档 QA、多文档 QA、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解
    • 这些问题设计得很难;即使是配备文档搜索工具的人类专家也可能需要大量时间才能正确回答
    • 本文在 thinking 模式下评估模型,并报告平均四次生成 (avg@4) 的 pass@1 准确率
  • NIAH@1M (Ruler 子集) 指的是来自 RULER 基准 (2024) 的“大海捞针”(NIAH) 任务
  • NIAH 测试 (Kamradt, 2023) 评估 LLM 检索嵌入在长干扰文本(“大海”)中的特定信息(“针”)的长上下文能力
  • RULER 基准定义了此任务的四个变体:单针 (Single NIAH)、多键针 (Multi-keys NIAH)、多值针 (Multi-values NIAH) 和多查询针 (Multi-queries NIAH)
    • 遵循 Blakeman 等人 (2025),本文使用 1M Token 上下文设置评估每个类别的 100 个实例
      • 模型在 Reasoning-off 模式下评估,报告单次生成 (avg@1) 的 pass@1 准确率
  • CL-Bench (2026) 评估 LLM 从提供的上下文中学习并将获得的知识应用于解决任务的能力,这一过程称为上下文学习
    • 该基准包含 1,899 个测试样本,涵盖 500 个复杂上下文和 31,607 个验证 rubrics,全部由经验丰富的领域专家开发
    • 完成这些任务所需的知识大部分超出了现有模型在预训练期间通常学习的内容,要求模型直接从提供的上下文中学习
    • 模型在 thinking 模式下评估,报告单次生成 (avg@1) 的 pass@1 准确率

A.6. Agentic Tasks

  • BFCL v4 (2025) 为 LLM 提供了一个全面的 Agentic 评估框架,涵盖诸如网络搜索、内存读写以及跨多种编程语言的函数调用等任务
    • 遵循官方的 BFCL v4 评估协议,并报告跨 Agentic、多轮 (multi-turn)、实时 (live) 和非实时 (non-live) 类别的分数
    • 模型在 thinking 模式下评估,报告基于单次生成 (avg@1) 的 pass@1 准确率
  • SWE-bench Verified (OpenAI, 2024) 是来自 SWE-bench (2023) 原始测试集的一个子集,包含 500 个经人工标注员验证为无问题的样本
    • 在非 thinking 模式下评估模型,并报告 pass@1 准确率,每个 Prompt 平均 4 次生成 (avg@4)
  • \(\tau^2\)-Bench (2025) 在具有明确策略、工具使用和共享世界状态更新的环境中评估多轮客户服务 Agent
    • 在三个官方子集上评估:航空 (airline,50 个示例)、零售 (retail,114 个示例) 和电信 (telecom,114 个示例)
    • 为了将标准误差控制在 1.5 以内,在航空子集上报告 avg@16,在零售和电信子集上报告 avg@8
  • Terminal Bench 2.0 (2026) 用于评估基于终端的环境中的 Agent,包含 89 个人工验证的任务,涵盖科学计算、机器学习和系统管理等专业领域
    • 超越简单的代码生成,该基准专注于端到端的工作流,要求 Agent 展示在整体操作(如模型训练、系统配置和软件调试)中的熟练程度,而不仅仅是生成孤立的函数
    • 本文使用默认的 Terminus-2 框架 (scaffolding) 评估模型,报告 avg@5 任务成功率
  • 更多细节见原文

A.7. Multilingual

  • MMLU-ProX (2025) 将具有挑战性的 MMLU-Pro 基准扩展到包括 29 种语言
    • 遵循 Blakeman 等人 (2025),选择六种语言进行评估:英语 (en)、德语 (de)、西班牙语 (es)、法语 (fr)、意大利语 (it) 和日语 (ja)
    • 模型在 thinking 模式下评估,报告单次生成 (avg@1) 的 pass@1 准确率
  • WMT24++ (2025) 将 WMT24 机器翻译基准扩展到覆盖 55 种语言
    • 遵循 Blakeman 等人 (2025),作者在五个翻译对上进行评估:英语到德语 (en \(\rightarrow\) de)、英语到西班牙语 (en \(\rightarrow\) es)、英语到法语 (en \(\rightarrow\) fr)、英语到意大利语 (en \(\rightarrow\) it) 和英语到日语 (en \(\rightarrow\) ja)
    • 使用 XCOMET-XXL (2024) 作为评估指标来评估翻译质量
    • 模型在 thinking 模式下评估,报告单次生成 (avg@1) 的 pass@1 准确率

附录 B:Training Hyperparameters

  • 表 7、8、9、10 中列出了 Nemotron-Cascade-2-30B-A3B 在所有阶段的训练超参数

附录 C:Prompt Templates

C.1. Prompt Templates for Test-Time Scaling on IOI 2025

  • 详情见原文

C.2. HLE Judge Prompt

  • 英文原文

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    Judge whether the following [response] to [question] is correct or not based on the precise and unambiguous [correct_answer] below.
    [question]: {question}
    [response]: {response}
    Your judgement must be in the format and criteria specified below:
    extracted_final_answer: The final exact answer extracted from the [response]. Put the extracted answer as ’None’ if there is no exact, final answer to extract from the response.
    [correct_answer]: {correct_answer}
    reasoning: Explain why the extracted_final_answer is correct or incorrect based on [correct_answer], focusing only on if there are meaningful differences between [correct_answer] and the extracted_final_answer.
    Do not comment on any background to the problem, do not attempt to solve the problem, do not argue for any answer different than [correct_answer], focus only on whether the answers match.
    correct: Answer ’yes’ if extracted_final_answer matches the [correct_answer] given above, or is within a small margin of error for numerical problems. Answer ’no’ otherwise, i.e. if there if there is any inconsistency, ambiguity, non-equivalency, or if the extracted answer is incorrect.
    confidence: The extracted confidence score between 0|%| and 100|%| from [response]. Put 100 if there is no confidence score available.
    • 中文版:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      根据下面精确且明确的 [correct_answer],判断以下对 [question] 的 [response] 是否正确
      [question]: \\{question\\}
      [response]: \\{response\\}

      你的判断必须符合以下指定格式和标准:
      extracted_final_answer: 从 [response] 中提取的最终确切答案。如果 response 中没有要提取的确切最终答案,则将提取的答案设为 'None'
      [correct_answer]: \\{correct_answer\\}

      reasoning: 基于 [correct_answer] 解释 extracted_final_answer 正确或错误的原因,仅关注 [correct_answer] 和提取出的最终答案之间是否存在有意义的差异。不要评论问题的任何背景,不要试图解决问题,不要为除 [correct_answer] 之外的任何答案辩护,只关注答案是否匹配
      correct: 如果 extracted_final_answer 与上面给出的 [correct_answer] 匹配,或者对于数值问题在小的误差范围内,则回答 'yes'。否则,即如果存在任何不一致、歧义、不等价,或者提取的答案不正确,则回答 'no'
      confidence: 从 [response] 中提取的置信度分数,介于 \\(0\%\\) 和 \\(100\%\\) 之间。如果没有可用的置信度分数,则填入 100

NLP——技术报告解读-Nemotron-Cascade

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Nemotron-Cascade Technical Report) Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models, 20251215-20260327, NVIDIA
    • HuggingFace: huggingface.co/collections/nvidia/nemotron-cascade
    • 补充前一篇文章:

Paper Summary

  • 整体总结:
    • 本文包含了非常详细的训练细节,值得一读
    • 本文主要解决的问题:
      • RL 构建通用推理模型时显著的跨领域异质性,包括推理时 Response 长度和验证延迟的巨大差异
      • 这种可变性使 RL 基础设施复杂化,拖慢训练速度,并使训练课程(例如,Response 长度扩展)和超参数选择变得具有挑战性
    • 本文的解法是 Cascade RL 方法
      • Cascade RL 的多个阶段:SFT -> RLHF -> IF RL -> Math RL -> Code RL -> SWE RL
      • 本文基于 Cascade RL 开发模型 Nemotron-Cascade
        • 8B 和 14B
        • Unified(Thinking & Non-Thinking) 和 Thinking 模型
  • 注:Cascade RL 与传统方法对比:
    • 传统方法:混合来自不同领域的异构 Prompt
    • Cascade RL:按顺序编排领域特定的 RL,降低了工程复杂性(注:号称在广泛的基准测试中提供了 SOTA 性能)
  • 注:本文的训练和数据方案透明(点赞!)

Introduction and Discussion

  • 使用 RL 训练通用推理模型 的问题(不同领域的显著异质性):
    • 异质性包括 Response 长度和奖励信号计算等,不同任务特点不同:
      • 数学推理任务采用快速的基于符号规则的验证
      • 代码生成和软件打补丁采用缓慢的基于执行的验证
      • 对齐和创造性写作则计算基于 RM 的分数
    • 这种领域特定的异质性使 RL 基础设施复杂化,拖慢了训练速度,并使训练课程(例如,最大 Response 长度扩展)和超参数选择更具挑战性
  • 传统方法:混合来自不同领域的异构 Prompt
  • 在本文作者之前的解法 (2025):以级联方式在数学和代码领域进行 RL
    • 具体方法:首先在纯数学 Prompt 上训练,然后在纯代码 Prompt 上训练
    • 这种级联范式有几个优点:
      • a)基于规则的数学验证可以快速执行,比代码验证快几个数量级,使得模型能够立即更新,无需等待代码 Prompt 所需的更长验证周期
      • b)数学 RL 提升了数学基准测试的性能,并且也提升了代码基准测试的性能(注:奇怪的表现)
      • c)代码 RL 显著提升了代码基准测试的性能,而不会降低数学结果(注:第二奇怪)
  • 本文 的核心创新:
    • 在之前研究基础上,进一步将级联跨领域 RL 范式扩展到更广泛的领域 ,以构建通用推理模型
  • 关于 Thinking 和 Non-Thinking 模型之争
    • 自从 OpenAI o1 (2024) 推出以来,LLM 社区的模型发布通常分为两类:
      • 思维模型(thinking models)
        • 在给出答案前生成大量推理 Token(例如,DeepSeek-R1 (2025),OpenAI o3 和 o4-mini (2025),Kimi-K2-Thinking (2025))
      • 指令(instruct)或非思维模型(non-thinking models)
        • 直接给出答案(例如,DeepSeek-V3 (2024),GPT-4.5 (2025),Kimi-K2-Instruct (2025))
    • 构建一个统一的推理模型,能够在非思维和思维两种模式下运行,并将所有能力集成到单一模型中,将是理想的选择,好处包括:
      • i)极大地简化模型发布和生产流程
      • ii)更接近通用人工智能的最终目标
      • 注:当前大量工作已经投入到开发一个统一的模型 (2025; 2025; 2025) 上
  • 在整合 Thinking 和 Non-Thinking 模型的工作中(2025),已认识到某些技术挑战
    • 包括:统一模型在 Thinking 模式下运行时,其推理基准测试性能相较于专用思维模型会有所下降
    • 特别说明:
      • Qwen3 系列 (2025) 最初是作为一组统一推理模型发布的,但后来它又被恢复为分开的思维和指令变体,专用的思维模型 (2025) 在 Thinking 模式下的性能显著优于统一模型
      • GPT-5 的发布探索了两个专用模型之间的路由,其中一个标准指令模型和一个专用思维模型一起使用
        • 最终目标仍然是将它们集成到一个单一模型中 (2025)
      • DeepSeek-V3.1 (2025) 是一个统一模型(统一 Thinking 和 Non-Thinking 模式)
        • 它在推理基准测试上达到了与早期专用推理模型 DeepSeek-R1-0528 相当的 Thinking 模式性能
        • 除了 DeepSeek-V3.1 和 DeepSeek-R1-0528 基于不同的基座模型,并且可能使用不同的数据混合进行训练之外,其他技术细节尚未公开
  • 本文工作:
    • 开发一个开放的 Post-Training 方案,使用预训练的 Qwen3-8B-Base 和 Qwen3-14B-Base (2025) 作为起点,以支持透明的比较并促进社区内的知识共享
    • 本文扩展了 Cascade RL 框架来开发 Nemotron-Cascade 模型,在多个领域取得了新的 SOTA 结果
      • 训练流程概览如图 2 所示
    • Cascade RL 按顺序跨领域训练模型
      • 与诸如 DeepSeek-R1 (2025) 和 Qwen3 (2025) 等方法形成不同,他们混合了来自所有(推理)领域的多样化 Prompt 分布进行联合 RL 训练
      • 本文展示了一个统一的推理模型可以有效地在思维和 Non-Thinking 模式下运行,缩小了与专用思维模型的推理差距,同时通过开放的数据和训练方案确保透明度
  • 本文工作的贡献包括:
    • 本文将级联强化学习(Cascade Reinforcement Learning,Cascade RL)扩展到广泛的领域,包括人类反馈对齐、严格的指令遵循、数学推理、竞争性编程和软件工程
      • Cascade RL 框架提供了显著的优势:
        • i)RLHF 显著提升了整体的 Response 质量(例如,减少冗余),从而增强了推理性能
        • ii)后续的领域特定 RL 阶段很少会降低前置领域所取得的基准性能,甚至可能提升它
          • 因为 RL 对灾难性遗忘具有抵抗力(见图 1 的演示和 §4.1.1 节的深入讨论)
        • iii)RL 超参数和训练课程可以针对每个特定领域进行定制,以实现最优性能
    • 本文开发了 Nemotron-Cascade-8B 统一推理模型,使用户能够在每个对话轮次控制思维和非思维/指令模式
      • 本文挑战了 LLM,特别是较小的 LLM,缺乏从非思维和思维数据中有效学习能力的假设
      • 本文展示了 8B 统一模型在 Thinking 模式下的推理性能差距与专用的 8B-Thinking 模型可以被缩小,即使两个模型都在相同的思维/推理数据上训练,而统一模型还额外在非思维数据上进行了训练
      • 这一结果背后的关键技术是:
        • (1) 针对相同的 Prompt,以并行方式在思维和指令模式下生成 Response 的 SFT 数据
        • (2) 在每批数据中为每种模式分配相等数量的采样 Prompt 来融合这两种模式的 RLHF 训练
    • 本文使用 Cascade RL 方法训练的 8B/14B 模型在涵盖所有这些领域的广泛基准测试中取得了 SOTA 、同级别最佳的(best-in-class)性能
      • 本文 14B 专用思维模型(Dedicated Thinking model),在 64K Token 的推理预算下,在 LiveCodeBench v5/v6 (2024) 上优于 Gemini-2.5-Pro-06-05、o4-mini (medium)、Qwen3-235B-A22B( Thinking 模式)和 DeepSeek-R1-0528(其 SFT 教师模型)(见图 1 )
      • 还在 2025 年国际信息学奥林匹克竞赛(IOI)上获得了银牌级别的表现
    • 本文开源数据集和模型

Main Results

  • 对于基线模型,尽可能使用官方报告的结果
  • 对于 Nemotron-Cascade 模型,将最大生成长度设置为 64K Token,temperature 设置为 0.6,top-p 设置为 0.95 用于推理任务
    • 注:详情见附录 B 中详细描述
  • 主要结果如表 1 所示
    • 所有结果均报告为 pass@1,平均每个 Prompt 生成 k 次(avg@k),其中 k 根据测试集大小适当选择(通常在 4 到 64 之间)
    • 统一推理模型 Nemotron-Cascade-8B,以及专用思维模型 Nemotron-Cascade-14B-Thinking,在几乎所有基准测试中都取得了同类别最佳的性能
  • 特别地,一些指标分析:
    • 在 LiveCodeBench (LCB) 和 LCB Pro 上观察到了显著的进步,Nemotron-Cascade-8B 在 LCB v5 上达到 74.3,在 LCB v6 上达到 71.1
      • DeepSeek-R1-0528 (671B) 在 SFT 期间担任教师模型,生成了 SFT 数据整理中使用的所有代码 Prompt 的 Response(见第 §3.2.3 节)
      • 本文的 Nemotron-Cascade-14B-Thinking 模型在 LCB 和 LCB Pro 基准测试的所有划分中都显著超越了 DeepSeek-R1-0528
        • Cascade RL 框架在增强推理能力方面是有效的
    • 对于 SWE-bench Verified,最好的通用型开放 8B 和 14B LLM 在这个具有挑战性的基准测试上表现不佳
      • 专用模型 DeepSWE-32B (2025),基于 Qwen3-32B 并为 SWE 任务专用,达到了 \(42.2%\) 的 pass@1 准确率
      • 本文通用型 8B 和 14B 模型分别达到了 \(37.2%\) 和 \(43.1%\)

Supervised Fine-Tuning

  • 本节描述了 SFT 的训练框架和数据整理,这是作者后训练管线的第一阶段
  • 此阶段使模型具备了基础技能和能力,然后在后续阶段通过级联强化学习 (Cascade RL) 显著增强这些能力

Training Framework

Multi-Stage SFT
  • SFT 课程包含两个阶段,涵盖了广泛的领域,包括数学、编码、科学、工具使用和软件工程,以及通用领域,如多轮对话、知识密集型问答、创意写作、角色扮演、安全性、安全性和指令遵循
  • 这些领域的数据整理细节在第 §3.2 节中提供
  • SFT 课程的概述如下:
    • 阶段 1 (16K,一个 epoch) :
      • 包括:
        • 通用领域数据:每个 prompt 包含思考和思考及非思考模式的并行 responses
        • 数学、科学和代码推理数据:仅包含思考模式的 responses
    • 阶段 2 (32K,一个 epoch) :
      • 目标:进一步增强模型的推理能力,并使其具备工具使用和软件工程技能
      • 重新组合了:
        • 通用领域数据:每个 prompt 包含思考和思考及非思考模式的并行 responses
        • 新的阶段 2 数学、科学和代码推理数据:仅包含思考模式的 responses
        • 工具使用和软件工程数据集:仅包含思考模式的 responses
Chat Template
  • 本文定义了模型的交互模式,这对于支持思考和思考及非思考生成模式的统一推理模型尤为重要
    • 采用标准的 ChatML 模板 (OpenAI),并在 User Prompt 中引入了两个控制标志,/think 和 /no_think,用于明确指示模型以相应模式生成 responses
  • 先前的工作 (2025; 2025) 采用了类似的控制标志机制,本文引入了一些简化和增强,以实现对模型生成行为更精确和灵活的控制
  • 与 Bakouch 等 (2025) 将 /think 和 /no_think 标志放在 System Prompt 中从而全局控制整个对话不同
    • 将这些标志附加到每个单独的 User Prompt 上
    • 这种设计同时支持全局和局部控制:
      • 在每个用户轮次中附加相同的标志可以强制执行一致的全局行为
      • 在多轮对话中改变标志则可以在单个对话中实现动态切换
  • 与 Qwen3 推理模型 (2025) 相比,本文方法进一步简化了模式控制
    • Qwen3 采用了一种冗余机制,可以通过两种方式切换模式:
      • 显式标志(理解:应该是 no_think 这样的显示标志?)
      • 隐式决定:通过 enable_thinking 参数修改模板(该参数隐式地决定模式)
    • 默认为思考模式,同时会预先添加一个空的 <think> </think> 块来激活非思考模式
      • 早期实验表明,显式标志比基于模板的提示能产生更可靠的模式转换
      • 仅用标志的设计覆盖了所有用例,且没有任何性能下降
      • 专门采用了基于标志的方法
      • 通过这种简化,非思考模式中不再需要空的 <think> </think> 块
    • 对于工具调用任务,作者在 System Prompt 中的 <tools> 和 </tools> 标签内指定所有可用的工具,如图 3 右侧所示
      • 本文进一步指示模型在 <tool_call> 和 </tool_call> 标签内执行工具调用

SFT Data Curation

General-Domain Data
  • 本文整理了一个包含 2.8M 样本的综合语料库,包含来自不同通用领域数据集的 3.2T tokens,以使模型具备基础技能和强大的对话能力
    • 该语料库涵盖了广泛的任务,包括下面几个部分:
      • 日常对话、问答 (2023; 2024)
      • 创意写作 (2025; 2024)
      • 安全性 (2025)
      • 指令遵循 (2024)
      • 角色扮演 (2024)
  • 对于涵盖通用领域的知识密集型任务 (2024; 2021; 2024):
    • 从公开数据集中收集问题 (2020; 2023)
    • 并进一步用来自专业法律和伦理等挑战性领域的领域特定问题进行增强,最终得到 1.2M 个样本,包含 1.5T tokens
  • 直接组合这些语料库会带来三个显著的挑战
    • 第一:许多 responses 过于简短(例如,单个词或最少句子的输出),因此缺乏足够的细节和阐述
    • 第二:response 质量参差不齐,一些数据集包含不准确或次优的答案
    • 第三:由于这些数据集的不同来源和标注惯例,直接在这些数据集上训练会导致模型生成的风格不一致
    • 为了解决这些问题,对于每个 prompt,分别使用两个模型分别生成思考和非思考的数据(最大序列长度为 16K):
      • 思考数据: DeepSeek-R1-0528
      • 非思考数据: DeepSeek-V3-0324
      • 确保风格和质量的一致性
  • 为了进一步提高训练数据质量,应用了几个后处理步骤
    • 对于具有高质量注释的样本,保留其原始 responses 以保持多样性
      • 问题:如何理解这里的高质量注释?
    • 对于具有可验证 ground-truth 答案的 prompts(例如,多项选择题),丢弃偏离 ground-truth 的 responses 来提高生成准确性
    • 对于没有 ground-truth 答案的样本,使用辅助模型 (Qwen2.5-32B-Instruct (2024)) 交叉验证生成的 responses,以过滤掉可能低质量的生成
    • 为了解决指令遵循和创意写作等领域的数据稀缺问题:
      • 为每个 prompt 使用不同的随机种子生成多个 responses,从而丰富多样性并提高生成质量
    • 为了进一步增强多轮对话能力,以两种方式手动增强多轮样本
      • 第一:对于创意写作领域的单轮样本,添加第二轮 ,指示模型根据特定要求重写或编辑其先前的 response
      • 第二:将单轮样本随机连接起来构建多轮对话,模拟真实的聊天机器人交互
Math Reasoning Data
  • 阶段 1 数学 SFT 数据集:
    • 将 AceReason-Nemotron-1.1 (2025) 中的数学推理 SFT prompts 用于阶段 1 SFT 训练
    • 这些 prompts 包含多种数据源,包括 AceMath (2024)、NuminaMath (2024) 和 OpenMathReasoning (2025)
    • 相应的 responses 由 DeepSeek-R1 (2025) 生成
    • 将最大上下文长度设置为 16,384 tokens (16K),并过滤掉超过此限制的样本以防止 response 截断,遵循 AceReason-Nemotron-1.1 中的 SFT 配置
    • 总共收集了 353K 个唯一去重 prompts,并为每个 prompt 生成了多个 responses ,得到 2.77M 样本,平均每个 prompt 有 7.8 个 responses
    • 通过移除任何与标准数学 benchmark 测试样本有 9-gram 重叠的样本来执行数据去污
  • 阶段 2 数学 SFT 数据集:
    • 为了进一步增强模型的推理能力,使用 DeepSeek-R1-0528 生成 responses 并构建阶段 2 数学 SFT 数据集
      • 理解:阶段 2 数学 SFT 数据集的 Prompt 和阶段 1 是一样的,但会过滤掉相对简单的问题
        • 具体来说是那些 DeepSeek-R1 responses 包含少于 2K tokens 的问题
      • 注:与原始的 DeepSeek-R1 相比,更新的 DeepSeek-R1-0528 产生更长、更详细的推理轨迹,从而在具有挑战性的问题上提高了性能
    • 将最大上下文长度设置为 32,768 tokens (32K),为模型提供更大的推理 token 预算
    • 总共获得了 163K 个 prompts 并生成了 1.88M 个样本,平均每个 prompt 有 11.5 个 responses
  • 阶段 1 和阶段 2 SFT 中的所有数学推理数据均采用思考模式格式化
Code Reasoning Data
  • 遵循与数学推理数据构建类似的过程,采用了 AceReason-Nemotron-1.1 (2025) 中的代码推理 SFT prompts
    • 其中包括了来自 TACO (2023)、APPs (2021)、OpenCoder-Stage-2 (2024) 和 OpenCodeReasoning (2025) 的数据
  • 执行数据集去重以确保所有 prompts 都是唯一的,得到 172K 个不同的 prompts
  • 阶段 1 SFT 数据:
    • 使用 DeepSeek-R1 (2025),为阶段 1 SFT 生成了 1.42M 个样本,平均每个 prompt 有 8.3 个 responses,最大上下文长度为 16,384 tokens (16K)
    • 去污:过滤掉任何与编码 benchmark 的任何测试样本有 9-gram 重叠的样本
      • 问题 代码这种样本,很容易重复吧,9-gram 似乎是和容易重复的?
  • 阶段 2 SFT 数据:
    • 阶段 2 利用 OpenCodeReasoning (2025) 和 OpenCoder-Stage2 (2024) 中的 prompts
      • OpenCodeReasoning 提供了多样且具有挑战性的编码 prompts 集合
      • OpenCoder-Stage2 涵盖了带有起始代码入口点的编码任务
    • 与阶段 2 数学 SFT 数据集类似,将最大上下文长度设置为 32,768 tokens (32K)
    • 阶段 2 构建了 79K 个唯一去重 prompts,并使用 DeepSeek-R1-0528 生成 1.39M 个样本,平均每个 prompt 有 17.6 个 responses
  • 阶段 1 和阶段 2 SFT 中的所有代码推理数据均采用思考模式格式化
Science Reasoning Data
  • 从 S1K (2025) 以及 Llama-Nemotron (2025; 2025) 中使用的后训练数据集中整理出与科学相关的 prompts
    • 注:这些来源中的许多 prompts 是多项选择题
    • 本文排除了模型侧重于分析每个选项而不是直接解决问题并确定正确答案的样本
    • 本文保留了那些需要强大科学知识并涉及大量推理或复杂计算的问题
  • For 用较少见和更多样化的问题类型丰富数据集
    • 利用 DeepSeek-R1-0528 从每个给定的 prompt 生成更罕见的问题,遵循 Liu 等 (2024) 中使用的合成问题生成策略
  • 数据去污:移除任何与科学 benchmark 的任何测试样本有 9-gram 重叠的样本
  • 总共收集了 226K 个科学 prompts
    • 使用 DeepSeek-R1 为阶段 1 SFT 生成了 289K 个样本(最多 16K tokens)
    • 使用 DeepSeek-R1-0528 为阶段 2 SFT 生成了 345K 个样本(最多 32K tokens)
  • 所有科学推理数据均采用思考模式格式化,并为选定的高质量 prompts 生成多个 responses
  • 阶段 2 科学推理数据在被混合到阶段 2 SFT 数据集之前被上采样了 \(2\times\)
Tool Calling Data
  • 使用了 Llama-Nemotron (2025) 中的工具调用数据集,该数据集专门设计用于训练模型处理涉及外部工具使用(例如函数调用)的场景
    • 该数据集非常全面,包含单轮、多轮和多步交互
      • 一些 prompts 要求模型提出澄清问题以收集足够的信息进行工具调用
      • 一些 prompts 可能涉及使用多个工具甚至在达到最终答案之前执行多轮工具调用
      • 还包括模型在提供的工具列表中找不到合适工具的情况
    • 对于每个对话,所有可用的工具都包含在 System Prompt 中(遵循 Qwen3 (2025) 中使用的设置)
      • 平均每个对话包含 4.4 个可用工具
  • 此工具调用 SFT 数据集用于阶段 2 SFT 训练,responses 由 Qwen3-235B-A22B (2025) 生成
  • 注:所有工具调用数据均采用思考模式格式化
  • 总计收集了 310K 个对话,包含 1.41M User-Assistant 轮次

Software Engineering Task

  • 软件工程已成为 LLM 最重要的应用之一 (Anthropic, 2025)
  • SWE-bench Verified (2023) (软件工程 benchmark) 包含与其相应代码库和描述配对的真实世界 GitHub 问题,其目标是生成能够成功解决所述问题的修复补丁
Agentless Framework
  • 为了评估自动化的软件工程能力,本文采用 Agentless (2024)
    • 注:Agentless 框架是 LLM 应用中的一种 “无智能体” 框架,核心是不依赖复杂的自主规划、工具调用与多轮反思,而是用预设的分层流程 + 固定模板调用 LLM来完成任务,主打极简、稳定、低成本、可解释
    • Agentless 框架将整个任务分解为三个阶段(即,定位、修复和补丁验证)
      • 对比:Agent 框架需要 LLM 本身规划动作序列或操作外部工具, Agentless 框架则不需要
  • 本文采用一个类似于 Agentless Mini (2025) 的简化 Agentless 框架,该框架简化了定位过程,专注于仅识别相关的 issue 文件
    • 这种方法与原始的 Agentless 工作流程不同
      • 原始 Agentless 采用三阶段分层定位策略,从文件级别到类/函数级别,再到行级别识别,然后才进行修复和补丁验证阶段
    • 通过简化定位过程,LLM 可以将更多的推理能力用于修复任务本身,而强化学习则被整合到一个直接优化修复补丁生成的重点目标中
  • 对于代码修复阶段,主要目标是生成有效的候选补丁,以解决已识别的仓库级别问题
    • 通过早期阶段定位了相关文件后,就会提示 LLM 生成仅修改代码库必要部分的修复编辑
    • For 最大化上下文理解,将多个定位的文件及其周围的代码片段(例如,导入、类定义和依赖函数)连接成一个统一的 prompt,使模型能够推理更广泛的仓库级别依赖关系
    • 模型被引导生成有针对性的、diff 风格的补丁,而不是重写整个修复文件,这些补丁保留不相关的代码结构以减少幻觉和语法错误
  • 对于补丁验证阶段,框架通过三个阶段运行: 回归、复现和多数投票
    • 回归阶段:
      • 每个候选补丁先通过仓库现有的回归测试进行评估,以确保兼容性
      • 此步骤过滤掉引入失败或破坏先前正确功能的补丁,确保后续评估仅关注稳定且语法有效的候选者
    • 复现阶段:
      • 为每个 issue 实例生成 10 个复现测试,以在未修改的仓库上复制原始 bug 行为,并在应用补丁后验证功能正确性
      • 未能触发原始 bug 的复现测试被丢弃,以保持高诊断精度,然后对每个候选补丁执行幸存的测试,允许系统识别哪些补丁成功消除了报告的问题
    • 多数投票阶段:
      • 聚合多个采样生成的结果以选择最可靠的补丁
      • 在得分最高的候选者 中,先优先考虑在测试时样本中最常生成的补丁 (For 模型修复推理能力的共识)
        • 问题:这里的得分是谁来打的?
      • 在平局的情况下,倾向于生成序列更短或编辑距离最小的补丁(For 简洁性和可解释性)
      • 这个多阶段验证框架确保最终选定的补丁在功能上正确且对仓库级别依赖关系具有鲁棒性,在精度和效率之间取得平衡
  • 可参考附录 C.2 了解每个阶段使用的 prompts
    • 第 §7 节中详细介绍了本工作中使用的改进技术,包括增强的代码文件定位和补丁验证,与先前研究相比
Data Curation
数据源
  • 用于软件工程任务的训练数据由以下开源数据集组成:
    • SWE-Bench-Train (2023) :通过与 SWE-Bench 评估集相同流程生成但未经人工验证的训练集划分
    • SWE-Fixer-Train (2025) :包含超过 100 个 pull requests 的 Python 仓库,在应用启发式过滤规则后产生 115K 个实例
    • SWE-reBench (2025) :一个包含超过 21K 个交互式基于 Python 的 SWE 任务的公共数据集,通过一个新颖、自动化且可扩展的流程构建
    • SWE-Smith (2025) :一个合成数据集,包含来自 128 个 GitHub 仓库的 50K 个实例,通过自动将 bug 注入代码库生成
  • 为防止评估数据污染,针对 SWE-bench Verified (2023) 实施了一个全面的去重过程
    • 具体做法:
      • 排除所有源自评估数据集中存在的仓库的实例
      • 对来自不同来源的训练数据执行去重,以消除重复实例
        注:此去重过程依赖于匹配仓库名称和基础提交标识符,以确保移除相同的实例
Response generation
  • 为 Agentless 框架中的三个子任务构建 SFT 数据集:
    • 1)代码定位 (Code localization) :给定一个问题陈述和相应的 GitHub 仓库结构,模型识别并列出可能包含 bug 的代码文件
    • 2)代码修复 (Code repair) :给定一个问题陈述以及一个或多个有 bug 的代码文件的内容,模型生成修订后的代码补丁,以解决问题陈述中描述的问题
    • 3)测试代码生成 (Test code generation) :给定一个问题陈述、代码定位和修复补丁,模型生成验证所生成代码补丁的测试代码
  • For 构建 SFT 数据集
    • 使用 DeepSeek-R1-0528 为数据源中列出的四个数据集生成多个 responses
      • 为 SWE-Bench-Train、SWE-reBench 和 SWE-Smith 的每个 prompt 生成 8 个 responses
      • 为更大规模的 SWE-Fixer-Train 数据集生成 4 个 responses
    • 输入的 prompts 被构建为包含任务规范、问题陈述、用于修复任务的代码文件内容以及期望的输出格式
      • 注:有关模板的详细信息,请参见附录 C.2
    • 模型被指示输出完整的推理链和解决方案
      • 对于代码定位,解决方案包含一个优先级的潜在有 bug 的代码文件名列表,按从最可能到最不可能包含 bug 的顺序排列
      • 对于代码修复,解决方案包含要替换的代码块以及用于替换的代码补丁
      • 对于测试代码生成,解决方案包含一组单元测试和复现测试,旨在验证 bug 复现和补丁正确性
Data filtering and splitting for SFT and RL
  • 为确保高质量的训练数据,根据 ground-truth 注释验证所有生成的 responses
    • 问题:RL 数据也需要验证 Response 吗?而且从本文后面的第 4 节也明确提到了,RL Prompt 和 SFT Prompt 是严格不想交的
  • 过滤策略因三个任务而异
    • 对于定位任务,仅保留那些包含解决该问题所需的所有有 bug 的代码文件的样本(即,召回率等于 1.0)
    • 对于修复任务,使用 Unidiff(一个用于解析和与统一 diff 数据交互的轻量级 Python 库)
      • 遵循 Wei 等 (2025) 的方法,衡量生成补丁与 ground-truth 补丁之间的相似度
      • 采用分层方法:对于 SWE-Bench-Train、SWE-reBench 和 SWE-Smith,展示出一致解决方案质量(定义为在 8 个采样响应中至少有 4 个超过 0.5 相似度阈值)的实例被包含在 SFT 数据集中
      • 更具挑战性的实例:定义为在 8 个采样响应中至少有 1 个达到非零相似度(排除 SFT 样本)
        • 被保留用于第 §4.7 节中描述的 SWE RL 训练
      • 考虑到 SWE-Fixer-Train 数据集的规模和多样性,将所有超过 0.5 相似度阈值的 prompt-response 对包含进来
    • 对于测试代码生成,仅保留那些可以成功解析并作为复现测试执行而无任何语法错误的轨迹
Dataset composition summary,数据集组成总结
  • 最终的代码修复数据集包含 127K 个实例,分布如下:
    • 来自 SWE-Bench-Train 的 17K
    • 来自 SWE-reBench 的 17K
    • 来自 SWE-Smith 的 18K
    • 来自 SWE-Fixer-Train 的 77K
    • 注:这种组成确保了在保持高数据质量标准的同时,全面覆盖各种编码场景
  • 用于定位和测试用例生成的最终数据集分别包含 92K 和 31K 个样本
  • 所有 SWE 数据集在被纳入阶段 2 SFT 数据混合之前都上采样了 \(3\times\)
    • 问题:阶段 1 不包含 SWE 数据吗?从文章看起来似乎是不包含

Results after SFT,SFT 后的结果

  • 在多阶段 SFT 过程之后,8B 统一模型以及 8B/14B 思考模型的结果总结在表 2 中
  • 注:Qwen3-8B 原始分数见表 1 第一列:
  • 8B 统一模型的表现 vs 专用的 8B 思考模型(两个模型都在相同的 SFT 思考数据上进行了训练,统一模型进一步整合了非思考数据)
    • 在所有与推理相关的 benchmarks 上
      • 8B 统一模型的表现与专用的 8B 思考模型相当
    • 在与指令遵循(更适合 instruct 模式的任务)相关的 IFEval benchmark 上
      • 8B 统一模型的表现超越了专用的 8B 思考模型
      • 注:其实也没有,IFBench 上 Unified 模型就不如 Thinking 模型
  • 由于资源限制,本文只训练了一个 14B 思考模型,并提供了比 8B 模型更强的结果
  • 本文接下来的核心:将检查所有 RL 阶段的结果,突出 Cascade RL 框架的鲁棒性和整体有效性

补充:两阶段 SFT 训练超参

  • 8B 和 14B训练超参(注:两者有两个区别)
    • 区别1:第二阶段的最大学习率上是 14B 偏大(\(5e^{-5} \text{ vs } 2^{e-5}\))
    • 区别2:第一第二阶段 14B 模型的训练 Step 都要大一些(问题:14B 模型有更多数据?)

Cascade RL

  • 本节介绍了 Cascade RL 方法
  • 在整理 RL 数据时,确保 SFT 和 RL 数据集在 Prompt 方面是严格不相交的
    • 这样模型在 RL 训练期间就不能利用对给定 Prompt 的记忆答案

Training Framework

  • 如图 2 所示,Cascade RL 过程首先对 § 4.3 中描述的 SFT 模型应用通用领域的 RLHF,然后进行 RLVR
    • 首先应用 RLHF,然后再应用 RLVR(例如 Math RL)
      • 因为 RLHF 通过减少冗余和重复来显著提高生成响应的质量,从而在受限的 Response 长度(例如 64K Token)内提升推理性能
  • 在 Cascade RL 中,依次应用以下流程:
    • RLHF(§ 4.3)
    • Instruction-Following RL(§ 4.4)
    • Math RL(§ 4.5)
    • Code RL(§ 4.6)
    • 软件工程 RL(SWE RL,§ 4.7)
  • 基本思路:逐步从更通用的领域过渡到更专门的领域
Why Cascade RL for LLMs Is Resistant to Catastrophic Forgetting,Why Cascade RL 能够抵抗灾难性遗忘
  • 当一个模型在多个领域上顺序训练时,可能会在学习新知识的同时覆盖掉先前学到的知识,这种情况被称为灾难性遗忘
    • 这是监督学习中的一个常见问题,其中不相交的训练数据集会导致更新将模型推向新的数据分布
  • Cascaded Cross-Domain RL 在几个结构方面有所不同,从而缓解了这个问题:
    • i)在 RL 中,训练数据分布是依赖于当前策略的(即 LLM 生成自身的经验,实际上就是 On-Policy)
      • 当引入新的目标或任务时,LLM 仍然会在各种状态中进行探索,这意味着如果旧的行为仍然有用或能获得高奖励,它们就会被持续采样
      • 这与监督学习(例如 SFT)形成对比,在 SFT 中,先前领域的样本除非被明确地重放,否则就会消失
    • ii)RL 优化的是期望的累积奖励,而不是针对每个输入的确切目标
      • 更新侧重于改善长期结果,而不是显式地拟合新的 Token-level 分布
      • 那些仍然与奖励相关的旧知识会自然地持续存在
      • 当新任务与旧任务共享结构时,更新倾向于泛化而不是覆盖
    • iii)当一个新领域的奖励与先前领域的奖励发生剧烈冲突时(例如,优化简洁的 Response 与详细的、逐步的推理),灾难性遗忘仍可能发生,特别是当来自不同领域的 Prompt 在语义上相似时
      • 但 RLHF 和 RLVR 的奖励结构在各个领域(如数学、代码、推理和指令遵循)之间存在大量重叠,因为它们都旨在使输出更好、更准确,并且更符合人类偏好或验证信号
        • 例如:减少冗余或幻觉通常对所有领域都有益
    • iv)在本文的 Cascade RL 框架中,由于各个领域的 Prompt 通常已经各不相同,本文进一步最大限度地减少了 Prompt 的重叠
      • 例如:从 RLHF 阶段移除了所有与数学和竞技编程相关的 Prompt,以减少跨领域干扰
      • 领域级的 RL 安排是从更通用的领域(例如 RLHF,指令遵循)到更专门的领域(例如数学、代码、SWE),从而防止专门的能力被通用行为所覆盖
  • 个人总结:核心思路是,借助 RL 本身的 On-policy 优势(泛化能力),同时逐步从更通用的领域过渡到更专门的领域,从而防止专门的能力被通用行为所覆盖
    • 注:这和我们平时的做法有些不同,平时常常是先训练数学和推理,再训练 General RL(通用能力, RLHF)
RL Training Configuration
  • 在整个 Cascade RL 过程中,使用 GRPO 算法 (2024),并遵循 AceReason-Nemotron (2025) 的严格 On-policy 训练方式(采用 On-policy 训练可提高稳定性和准确性)
    • RL Infra:使用 VeRL 代码库 (2025) 进行训练
  • 在每次迭代中,从当前策略 \( \pi_\theta \) 生成一组 \( G \) 个 Rollout,然后执行一次梯度更新
    • 这确保了用于数据收集的策略总是与正在更新的策略相匹配,使得重要性采样比率恰好为 1
    • 这种 On-policy 设置有助于稳定的 RL 训练并减轻熵崩溃
  • 注:完全移除了 KL 散度项,从而将 GRPO 目标简化为标准的 REINFORCE 目标 (1992),并带有组归一化奖励和 Token-level 损失 (2025):
    $$
    \mathcal{J}_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, \{o_i\}_{i=1}^{G} \sim \pi_{\theta}(\cdot|q)} \left[ \frac{1}{\sum_{i=1}^{G} |o_i|} \sum_{i=1}^{G} \sum_{t=1}^{|o_i|} \hat{A}_{i,t} \right], \quad \text{Where } \hat{A}_{i,t} = \frac{r_i - \text{mean}(\{r_i\}_{i=1}^{G})}{\text{std}(\{r_i\}_{i=1}^{G})} \text{ for all } t,
    $$
    • \( \{r_i\}_{i=1}^{G} \) 表示分配给针对数据集 \( \mathcal{D} \) 中给定问题 \( q \) 所采样 Response \( \{o\}_{i=1}^{G} \) 的一组 G 个奖励,并在
      • RLVR 中 \( r_i \) 根据真实答案 \( a \) 进行验证
      • 对于 RLHF,\( r_i \) 是奖励模型针对 Response \( o_i \) 和问题 \( q \) 输出的标量
      • 注:不同领域的奖励函数细节将在相应的子章节中提供
    • 理解:上面是目标有点问题,应该还需要加个概率分布函数
      $$
      \mathcal{J}_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, \{o_i\}_{i=1}^{G} \sim \pi_{\theta}(\cdot|q)} \left[ \frac{1}{\sum_{i=1}^{G} |o_i|} \sum_{i=1}^{G} \sum_{t=1}^{|o_i|} \hat{A}_{i,t} \color{red}{\cdot \pi_\theta(o_{i,t}|q,o_{i, < t})} \right], \quad \text{Where } \hat{A}_{i,t} = \frac{r_i - \text{mean}(\{r_i\}_{i=1}^{G})}{\text{std}(\{r_i\}_{i=1}^{G})} \text{ for all } t,
      $$
      • 因为梯度应该是:
        $$
        \nabla \mathcal{J}_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, \{o_i\}_{i=1}^{G} \sim \pi_{\theta}(\cdot|q)} \left[ \frac{1}{\sum_{i=1}^{G} |o_i|} \sum_{i=1}^{G} \sum_{t=1}^{|o_i|} \hat{A}_{i,t} \color{red}{\nabla \pi_\theta(o_{i,t}|q,o_{i, < t})} \right], \quad \text{Where } \hat{A}_{i,t} = \frac{r_i - \text{mean}(\{r_i\}_{i=1}^{G})}{\text{std}(\{r_i\}_{i=1}^{G})} \text{ for all } t,
        $$

Reward Modeling

  • 本节描述 RLHF 阶段的 RM 的构建过程
Data Curation
  • 奖励建模偏好数据集混合了开源数据和内部数据,总共包含 82K 个偏好对(使用了以下开源数据):
    • HelpSteer2 (2024)
      • 一个包含 10K 个高质量、人工标注的偏好数据集,涵盖了帮助性、正确性、连贯性、复杂性和冗长度等多个方面的标注
    • HelpSteer3 (2025)
      • 一个包含 40K 个偏好对的数据集,涵盖多个领域,包括通用领域、STEM、代码和多语言
      • 每个样本(Response 对)都标注有一个偏好分数,范围从 –3(Response 1 远好于 Response 2)到 3(Response 2 远好于 Response 1)
      • 本文过滤掉了分数为 0(Response 1 与 Response 2 相似)的样本,剩余 36K 个样本
  • 受先前工作 (2024) 的启发,本文生成了额外的数据以改进最终的偏好数据混合
    • 核心思想是构建偏好对,其中较差的 Response 来自较强的 LLM,而较好的 Response 来自较弱的 LLM
    • 注意:诱导较强的 LLM 生成较差的 Response 对于使数据有效至关重要
      • 否则,偏好对对于奖励模型来说将太容易区分
    • 问题:为什么一定要用 用弱模型生成正样本,二用强模型生成负样本?
      • 看似反直觉,实则是整个 Off-topic Response Method 设计中的核心技巧,目的是刻意制造一种“高质量外表下的错误回答”,从而有效对抗 Judge Model 的偏倚
      • 这种方法的核心逻辑:
        • 利用 LLM 生成与原始指令 \( I \) 相似但不同的指令 \( I’ \)
        • 弱模型(参考回答)生成 \( I \) 的正确回答 \( R_g \)
        • 强模型生成 \( I’ \) 的候选回答 \( R_b \)
          • \( R_b \) 表面具体、合理,但实际与 \( I \) 无关,\(R_g\) 则不一定表面很好,但是很贴合原始问题 \(I\)
  • 一种具体的方法是:
    • 生成一个略微偏离主题的 Prompt,并用它来从较强的模型获得一个较差的 Response
    • 本文使用 DeepSeek-V3 通过重写原始 Prompt 来生成这些偏离主题的 Prompt,并且通过人工检查和基于 LLM 作为评判者的自动评估验证了重写后的质量很高
      • 注:有关详细 Prompt,请参考附录 §C.1
    • 本文探索了不同 LLM 作为弱模型和强模型的组合,并最终选择了 DeepSeek-V3-0324 和 DeepSeek-V3 分别作为强模型和弱模型
    • 注:本文也尝试过明确指示强 LLM 对给定 Prompt 生成有细微错误的答案
      • 但这种方法并未成功
Training Recipe
  • 使用 Bradley-Terry 目标 (1952) 在成对的人类偏好数据上训练一个标量输出的奖励模型(RM):
    $$
    P_{\text{BT} }(y^+ \succ y^- | x) = \frac{\exp(r_\theta(x, y^+))}{\exp(r_\theta(x, y^+)) + \exp(r_\theta(x, y^-))}
    $$
    • \( y^+ \) 是 Chosen(preferred),\( y^- \) 是 Rejected(dispreferred)
    • 奖励模型使用 Qwen2.5-72B-Instruct (2024) 进行初始化,在其最后一个隐藏层之上添加了一个线性预测器,并通过最大化人类偏好的对数似然来进行训练:
      $$
      \mathcal{L}(\theta) = \mathbb{E}_{(x,y^+,y^-)\sim \mathcal{D} }\left[\log P_{\text{BT} }(y^+\succ y^-\mid x)\right]
      $$
  • 对于每个 Prompt,会比较两个 Response
    • 使 RM 能够学习给 Chosen Response 分配更高的标量分数,给 Rejected Response 分配更低的分数
    • 将这个标量分数视为模型 Response “质量” 的代理指标
    • 训练超参数如下:
      • Batch Size 256,学习率 2e-6,AdamW 优化器 (2017),训练 1 个 Epoch
      • 注:也尝试了更长的训练计划,但发现一个 Epoch 能产生最佳结果
RM 评估
  • 主要使用 RewardBench (2024) 来评估和选择用于 RLHF 过程的 RM
  • 观察:RewardBench 分数低的奖励模型通常会导致 RLHF 后的策略对齐效果较差,但 RewardBench 分数最高的 RM 并不一定能产生最佳对齐的策略模型(即通过对齐基准测试来衡量),因为 RewardBench 可能是识别 RLHF 最佳奖励模型的不完美代理,而且 RLHF 过程本身也会引入额外的方差
  • 正在进行研究,以建立能够作为更可靠代理指标的 Robust RM 基准,用于识别可能产生最佳最终对齐效果的奖励模型
  • 对于使用哪个标准基准,目前还没有普遍的共识
关于 RM 的消融研究
  • 本文进行了消融研究以确定骨干 LLM 的选择,主要发现如下:
    • 模型大小 :
      • 使用 Qwen2.5-Instruct 系列(7B、14B、32B 和 72B)训练了不同大小的奖励模型,并观察到性能随模型大小正向扩展,确认了缩放定律 (2020) 在奖励模型训练中也成立
        • 参见表 3 中的 (a)-(d)
      • 较大的 LLM 对偏好数据中的风格伪影表现出更强的鲁棒性,而较小的模型则倾向于更关注 Response 的风格而非其整体质量
      • 当将在 RLHF 中应用这些奖励模型时,无论是在有风格控制还是没有风格控制的情况下,这一观察都得到了 Arena-Hard 分数 (2024) 的进一步验证:
        • 与较大的模型相比,较小的模型在受风格控制的评估下表现出更大的性能下降,详见 § 6.2 的讨论
    • 有无大规模偏好预训练 :
      • 先前工作 (2025) 发布了 WorldPM 检查点,这是一个在 1500 万规模多样化偏好数据上进一步预训练的 Qwen2.5-72B 模型,可以作为奖励模型训练的强大初始化
      • 实验中,从 WorldPM 初始化的模型在训练的早期阶段表现更好,但随着训练的延长,从原始 Qwen2.5-72B-Instruct 初始化的模型最终在 RewardBench (2024) 上赶上并略微超过了它们
        • 参见表 3 中的 (d) vs (e)
    • 推理模型 vs. 指令模型 :
      • 在开发后训练流程的过程中,Qwen3 统一推理模型发布 (2025),促使本文也探索了 Qwen3 8B 和 14B 检查点
      • 发现:当用作使用 BT 损失训练的奖励模型的骨干时,Qwen3 推理模型的性能始终低于相同大小的 Qwen2.5 指令/非思维模型
        • 参见表 3 中的 (b) vs (f)
        • 一开始作者怀疑这是由于偏好数据不太适合以 Thinking 模式运行的 Qwen3 模型,因此在启用 Non-Thinking 模式的情况下进行了额外的实验
        • 尽管性能有了显著提高,但处于 Non-Thinking 模式的 Qwen3 模型仍然未能超越 Qwen2.5-Instruct
          • Qwen2.5-Instruct 是非思维对应模型(参见表 3 中的 (b) vs (g))
        • 作者推测这是因为 Qwen3 推理模型主要针对以推理为中心的任务(例如数学和代码)进行了优化,而不是通用的人类偏好对齐

RLHF

  • RLHF 是 Cascade RL 过程的第一阶段
  • 发现:奖励模型的泛化能力对于确保稳定的 RLHF 训练起着至关重要的作用,并且较大的奖励模型(例如 72B RM)对策略 LLM 生成 OOD 样本更具鲁棒性
Data Curation
  • 发现:将奖励模型的 OOD Prompt 引入 RLHF 阶段通常会导致不稳定甚至训练崩溃
    • 原因是奖励信号不准确或具有误导性
    • 理解:这里 RM 使用的 Prompt 数量是 82K 个偏好对,也就是说只能在这里面挑选 RLHF 的样本(有点偏少了)
    • 思考:为了类似的 RM OOD Query 加入 RLHF,是否应该花时间针对这部分数据好好做一下正负样本对打标和 RM 训练,从而保证 RLHF 中,RM 不会遇到 OOD 的样本?
  • 在 RLHF 阶段,使用来自 § 4.2 中描述的奖励模型偏好数据集的 Prompt 子集
    • 问题:奖励模型的数据
  • 此外,在 RLHF 中还排除了与数学和竞技编程相关的 Prompt
    • 因为奖励模型可能无法提供像后续 Math RL 和 Code RL 阶段中使用的基于规则或基于执行的验证器那样可靠的奖励信号
  • 在早期的实验中观察到:在 RLHF 期间未能排除与数学相关的 Prompt 导致 AIME25 基准测试的性能下降了 2%
  • 本文的 RLHF 数据集主要侧重于提高帮助性、无害性以及与人类偏好的一致性,同时与将在后续 Cascade RL 阶段中增强的领域保持不相交
raining Recipe
  • RLHF 帮助 LLM 更好地遵循用户意图并与人类偏好对齐
  • 观察:
    • 尽管本文 RLHF 数据集中不包含数学或代码相关的 Prompt,但 RLHF 提高了整体的生成质量
      • 有趣的是,还增强了数学和代码基准测试上的推理性能
    • RLHF 倾向于减少重复和冗长,从而压缩简单问题的思维 Token 数量
      • 这反过来又提高了后续 Math RL 和 Code RL 阶段的推理效率和训练稳定性
  • 基于上述观察,本文将 Cascade RL 流程设计为从 RLHF 阶段开始
  • 本文 RLHF 训练从 SFT 检查点初始化,采用 GRPO 算法,并遵循 § 4.1.2 中的统一 RL 训练配置(例如, On-policy 、 Token-level 损失、无 KL 散度)
  • 对于专用的思维模型,在 Thinking 模式下执行 RLHF
  • 对于统一模型,在 Non-Thinking 模式和 Thinking 模式下都进行 RLHF 训练,在每个批次中平均分配 Prompt 给每种模式
    • 注:在 § 6.1 中提供了进一步的研究
Reward Function
  • RLHF 训练使用 RM 产生的奖励分数作为奖励函数
    • 具体做法:提取模型的答案,将其与相应的问题连接起来,应用奖励模型的聊天模板,并将格式化后的输入送入奖励模型以获得一个点式奖励分数
  • 对以 Non-Thinking 模式和 Thinking 模式运行的 LLM 采用不同的答案提取方式:
    • 对于 Non-Thinking 模式,直接提取助手角色之后的模型答案
    • 对于 Thinking 模式,排除推理轨迹,只提取思维过程之后的最终总结(即模型在 </think> Token 之后生成的内容)
      • 如果思维过程未能正确终止(即缺少 </think> Token),会将整个未完成的 Response 发送给奖励模型
        • 这种不完整的生成通常会获得较低的奖励分数,因为奖励模型没有针对未完成或未见过的推理轨迹进行训练,从而有效地惩罚了冗长或不完整的思维过程
  • 在训练中,在 RLHF 中对 8B 和 14B 模型都使用 12K 的最大 Response 长度,不应用过长过滤,这鼓励了更简洁的生成
  • 为了防止生成中的语言混合,当 Prompt 完全是英文,但生成的 Response(包括推理轨迹和总结)包含非英文 Token 时,会应用额外的惩罚
    • 注:由于来自奖励模型的奖励分数是无界的,本文自适应地将混合语言生成的奖励分配为本批次中最低分减 10 ,确保它们在 GRPO 算法下获得最低的相对分数,从而对 Code-Switching 行为施加强烈的惩罚
    • 不应用额外的 Reward Shaping 技术,因为 72B 奖励模型提供的奖励信号已经具有高质量
Hyperparameters
  • 对于本文 8B 和 14B 模型,在 RLHF 期间使用 12K 的最大 Response 长度,不应用过长过滤
    • 鼓励更简洁的生成
  • 使用 128 的 Batch Size,为每个 Prompt 生成 8 个 Rollout,温度为 0.6,top-p 值为 0.95
  • 采用学习率为 2e-6 的 AdamW (2014),并将熵损失系数和 KL 损失系数都设为 0
  • 训练大约需要 800 步
  • 注:更多训练超参数的详细信息参见附录 D(表 15)
Results after RLHF
  • RLHF 之后,8B 和 14B 模型的结果如表 4 所示
  • 可以观察到,除了 IFEval 之外,几乎所有基准测试都有显著提升
    • 主要原因是 RLHF 过程通过惩罚过长、冗长和重复的生成(尤其是 Thinking 模式)显著提高了 Response 质量
  • 对于 IFEval 性能下降,主要原因是
    • 1)RLHF 训练期间使用的 Prompt 与 IFEval 中的测试 Prompt 之间存在不可避免的语义重叠
    • 2)RLHF 中使用的奖励模型鼓励了人类偏好的 Response 质量,这可能与验证器评估的严格指令遵循约束相冲突
  • 作者相信,通过训练一个更强大的奖励模型(例如,一个大型生成式 RM (2025)),能够处理严格的指令遵循约束,可以缓解这个问题
    • 这里将此留作未来的工作
    • 理解:其实常用的方案是,同时训练 IFEval 方向的 Prompt(使用 RLVR 加强指令遵循能力) 和 General 的 Prompt
  • 本文将在下一小节中重新讨论这一点

IF-RL: Instruction-Following Reinforcement Learning

  • IF-RL 是确保 LLM 能够精确遵循人类指令的关键方面
  • 本文的 SFT 数据混合已经包含了指令遵循数据,这里应用带有可验证奖励的 IF-RL 进一步提高了指令遵循的准确性
Data Curation
  • 使用来自 Llama-Nemotron (2025) 的指令遵循数据集,该数据集由综合生成的 Prompt 组成,包含从 IFEval 分类法 (2023) 衍生出的一到十个详细的指令约束
    • 但是,由于其合成性质,该数据集存在噪声
  • 为了提高整体质量
    • 本文进行了广泛的预处理和过滤,将 56K 个样本减少到 40K 个高质量样本
  • 还额外整理了 60K 个自定义数据样本,以增强数据混合的多样性
    • 使用了 LMSYS-Chat-1M (2023) 中的用户 Prompt,并结合了 IFEval 分类法中的各种指令约束
    • 整合了来自先前工作 (2025) 的 IF-RLVR 训练数据,该数据旨在增强对未见约束分类法的鲁棒性
      • 该数据集包含 Prompt 配对,这些指令约束要么来自 IFEval 分类法,要么来自 IF-Bench-Train 分类法 (2025),基础 Prompt 采样自 Tulu-3-SFT (2025)
Training Recipe
  • IF-RL 训练分两个阶段进行,每个阶段使用不同的数据混合,难度逐渐增加
    • 第一阶段专注于来自 IFEval 分类法的指令约束
    • 第二阶段专注于来自 IF-Bench-Train 分类法的约束
  • 发现:动态过滤 (2025) 在很大程度上稳定了 IF-RL 训练,并通过确保批次中的所有 Prompt 都具有有效的梯度,提高了两个阶段的结果
  • IF-RL 阶段的主要挑战之一是 IF-RL 可能对 RLHF 阶段获得的人类对齐能力(例如,通过 ArenaHard 衡量)产生负面影响
    • 在早期的实验中,使用基于规则的 IF 验证器作为奖励函数会降低人类对齐的结果
      • 这是因为基于规则的 IF 验证器只关注 Response 是否遵循了指令指定的约束,而不考虑整体的 Response 质量
      • 例如,一个写得不好的回答,只要其字数低于 300,仍然可以获得满分奖励(理解:这就是纯规则 IF RL 容易发生的问题)
  • 理解:上面提到了早期只使用 基于 规则的 IF 验证器容易发生 Reward Hacking,所以后期真实训练时(见下文),IF-RL 的训练都是使用的 RLVR + RLHF(RM) 的方式
Unified models: IF-RL in the non-thinking mode
  • 对于统一推理模型,一个有效的策略是:
    • 首先在 Thinking 模式和 Non-Thinking 模式下进行 RLHF,然后仅在 Non-Thinking 模式下应用 IF-RL
    • 这种方法最大限度地减少了 RLHF 和 IF-RL 之间的负面相互干扰 ,同时仍然在模型的 Thinking 模式指令遵循能力上取得了显著提升(即 8B 统一模型在 Thinking 模式下达到了 85.3 的 IFEval 分数)
    • 问题:为什么这种方式可以减少 干扰?
      • 不是很容易解释,更多可能是因为在 Thinking 模式下,使用 IF-RL 容易出现 Reward Hacking(出现的原因或许与当前模型的 Thinking 模式训练有关,也不一定是通用的 Insight)
    • 理解:虽然没有明确说明,但这里可以从上下文推测得到,训练时肯定是 RLVR + RLHF(RM) 的(详情见 Thinking Model 的奖励函数设计)
  • 本文作者推测:
    • 将 IF-RL 应用于经过 RLHF 训练的模型的 Non-Thinking 模式,比应用于 Thinking 模式产生低质量 Response 的可能性要小得多
      • 因此更不容易对基于规则的 IF 验证器进行 Reward Hacking
    • 理解:IF-RL 在 Thinking 模式上容易生成低质量的 Response,从而发生 Reward Hacking,但这个 Insight 不一定是通用的(可能仅仅在这个场景下能看到)
  • 本文也尝试过颠倒 RLHF 和 IF-RL 的顺序,但观察到的结果要差得多
  • 在第一阶段和第二阶段 IF-RL 训练中,将最大 Response 长度设置为 8K Token,并且不对统一推理模型应用过长过滤
    • 理解:不应用过长过滤的意思是,长的样本也会有梯度更新(往往是错误的样本,得到的是负分)
Thinking model: IF-RL with combined reward function
  • 另一种方法是在 IF-RL 中设计一个奖励函数,同时考虑人类偏好和精确的指令遵循能力
  • 对于专用的思维模型,这对于减轻 IF-RL 对 ArenaHard (2024) 等基准测试的负面影响至关重要
  • 结合来自基于规则的指令遵循验证器和人类偏好奖励模型的信号,实现了两全其美
  • 对于给定的 Prompt \( q \) 和一组生成的 Response \( \{o_i\}_{i=1}^{G} \),每个 Response \( o_i \) 的奖励定义如下:
    $$
    r_i = \begin{cases}
    R_{\text{IF} }(o_i) + \text{sigmoid}(\hat{R}_{\text{RM} }(o_i)), & \text{if } R_{\text{IF} }(o_i) = 1 \\
    0, & \text{otherwise}
    \end{cases}, \quad \text{Where } \hat{R}_{\text{RM} }(o_i) = \frac{R_{\text{RM} }(o_i) - \text{mean}(\{R_{\text{RM} }(o_i)\}_{i=1}^{G})}{\text{std}(\{R_{\text{RM} }(o_i)\}_{i=1}^{G})}
    $$
    • \( R_{\text{IF} }(o_i) \in \{0, 1\} \) 是指令遵循验证器的二元奖励(理解:基于规则的验证器)
    • \( \hat{R}_{\text{RM} }(o_i) \) 是来自 RLHF 阶段使用的相同奖励模型的组归一化奖励(均值为 0,标准差为 1)
    • 在归一化以后,再对 \( \hat{R}_{\text{RM} } \) 应用 Sigmoid 函数将其值缩放到 (0, 1) 范围,确保在聚合之前它与 \( R_{\text{IF} } \) 处于同一尺度
  • 使用结合后的奖励,按照 § 4.1.2 中描述的 GRPO 目标进行 IF-RL
    • 对于专用的思维模型:
      • 在第一阶段 IF-RL 训练中将最大 Response 长度设置为 8K Token 并应用过长过滤
      • 在第二阶段将其增加到 16K Token 并应用过长过滤(适应 Thinking 模式下困难 Prompt 所需的更长推理)
Hyperparameters
  • 对于 8B 和 14B 模型
    • 使用 128 的 Batch Size ,为每个 Prompt 采样 8 个 Response,温度为 0.6,top-p 为 0.95,top-k 为 20
    • 采用学习率为 2e-6 的 AdamW (2014),并将熵损失系数和 KL 损失系数都设为 0
  • 对于 Non-Thinking 模式的 IF-RL
    • 第一阶段训练大约需要 2000 步,第二阶段训练需要 1000 步
  • 对于 Thinking 模式的 IF-RL
    • 第一阶段训练大约需要 500 步,第二阶段训练需要大约 300 步
  • 更多训练超参数的详细信息请参见附录 D(表 16)
    • unified 模型始终不打开 Overlong Filtering,Thinking 模型的 2 阶段打开 Overlong Filtering
    • 理解:在不开启 Overlong Filtering 时,一般是直接截断(得到的奖励会偏低),此时倾向于惩罚长文本,开启 Overlong Filtering 时,意味着对模型输出的长文本没有鼓励也没有惩罚,处于中立状态
Results after IF-RL
  • IF-RL 后的结果如表 5 所示
    • 在对统一模型和专用思维模型应用改进技术后,IFEval 和 IFBench 有显著提升,而 ArenaHard 上的下降得到了控制
    • IF-RL 通常会降低模型熵并缩短推理 Token 的平均长度(参见图 8 的示例)
    • 负面影响:
      • IF-RL 确实在推理基准测试上引入了轻微的下降,尽管其中大部分(除了 ArenaHard)在随后的 Math RL、Code RL 和 SWE RL 阶段后都可以完全恢复
    • 积极影响:
      • IF-RL 压缩了推理轨迹并提高了 Token 效率
    • 总体来说:统一推理模型实现了比专用思维模型更强的平衡,在 ArenaHard 和 IFEval 上都提供了 Robust 的性能

Math RL

  • Math RL 阶段重点是通过强化学习来增强模型的数学推理和问题解决能力
  • 本文最终决定:将 Math RL 应用在 IF-RL 阶段之后
  • 注:将 Math RL 直接应用于 RLHF 检查点也产生了非常相似的结果(理解:这里的相似应该是指跟直接应用于 IF-RL 之后的检查点一样)
Data Curation
  • 主要使用 AceReason-Math 数据集(2025)并过滤掉过于简单的问题,保留了 18K 个高质量的数学问题用于 RL 训练
    • AceReason-Math 数据集融合了 DeepScaleR 组合(2024;2025;2024)和 NuminaMath(2024),涵盖了代数、几何、组合数学和数论等主题
  • 本文应用 9-gram 过滤来防止与常见数学基准(如 AIME 2024/2025 和 MATH (2021))的数据污染
  • 排除不适合使用基于符号规则验证进行 RL 的问题
    • 例如多项选择或判断题(答案容易被猜出)、证明题(难以验证正确性)、包含多个子问题的问题、非英语问题(会增加语言混合)以及引用图表的问题
  • 噪声数据去除:
    • NuminaMath 包含 OCR 和解析错误,每个问题都由 DeepSeek-R1 模型通过最多八次尝试进行验证
    • 基于规则的验证器仅保留那些通过多数投票得到正确答案的问题,而模棱两可或带有噪声的数据项则被丢弃
  • 移除简单问题:
    • 移除了那些 AceReason-Nemotron-7B(2025)在 16 次生成中能以 \(\geq 75%\) 的成功率解决的过于简单的问题
    • 数据集从原来的 49K 个问题减少到 14K 个问题
Training Recipe
  • 本节的目标是开发一个通用的数学 RL 配方,该配方可应用于不同的基础模型,并能高效地扩展到大规模的 RL 训练
  • 基于 AceReason-Nemotron(2025)的训练策略
    • 该策略在 GRPO 目标下严格遵守 on-policy 训练,完全移除 KL 正则化,并结合了长度扩展训练(length extension training)和动态过滤(dynamic filtering)来稳定优化
  • 从经过 RLHF 训练的模型初始化 Math RL 对于获得更好的性能起着至关重要的作用
    • 在整个开发周期中,本文将此训练配方应用于五个不同的 8B 检查点,并在 500 个 RL 步骤内始终在 AIME24 上达到约 \(90%\) 的准确率,证明了该方法在不同训练动态的模型中的鲁棒性
Initialization from models that have undergone RLHF,从经过 RLHF 训练的模型初始化
  • 作者早期探索了一种先应用 Math RL 和 Code RL,然后再应用 RLHF 和 IF-RL 的方法
    • 发现:从经过 RLHF 训练的模型初始化 Math RL 是非常有益的,因为
      • (i) 与 SFT 检查点相比,它提供了更强的初始数学推理能力
        • 在 RLHF 之后,响应质量得到显著提升,推理变得更加 Token 高效(例如,冗长和重复更少)
      • (ii) 它显著减少了数学 RL 训练所需的步骤数
  • 实践:在 RLHF 和 Math RL 之间插入了 IF-RL,因为 IF-RL 会降低模型熵并缩短推理轨迹 ,这可能会暂时损害与推理相关的基准性能
    • 在 IF-RL 之后应用高温度的 Math RL 和 Code RL 可以将模型熵恢复到正常水平
    • 理解:如果 IF-RL 放到 Math RL 和 Code RL 后面,可能不太合适,会导致推理有关的能力受损(熵降低严重)
Reward function
  • 奖励严格基于答案的正确性来分配,正确性通过提取跟在 <think> token 之后的 Boxed 答案(\boxed{})中
    • 使用 AceMath(2024)的基于规则的验证器进行验证(正确为 1,错误为 0)来确定
  • 语言混合惩罚:
    • 为了防止在推理过程中出现语言混合,每当在推理链中检测到与原始提示语言(例如英语)不同的语言(例如中文)的 token 时,应用一个 code-switching penalty ,分配一个 \(-1\) 的奖励
    • 理解:这里为什么叫做 code-switching 惩罚?推测这里的 Code 是语言?或者这里是指切换代码来计算惩罚?
      • anyway,这里可以确定的是多语言混杂时,直接给负分
Response length extension training,长度扩展训练
  • 性能提升的关键驱动力在于模型能够更深入地思考并生成更长的推理链
  • 本文采用了一个分阶段的响应长度扩展课程,配置为 \((24\text{K}\rightarrow 32\text{K}\rightarrow 40\text{K})\)
    • 其中每个阶段分别扮演着不同的角色:
      • 24K:压缩过长的推理
      • 32K:稳定推理长度
      • 40K:最终扩展更长的推理链
  • 从压缩阶段(即 24K)开始的一个关键好处是,可以将不同的初始模型带入一个一致的推理长度范围(在整个训练集上约为 16K),这使得后续的训练阶段能够在各种初始模型上有效工作,而无需 extensive 的超参数调整
    • 24K(压缩阶段 Compression Stage)
      • 首先使用 24K token 的预算进行训练,以解决在中小型 SFT 检查点中观察到的关键问题:
        • 这些模型倾向于生成过长的推理链,导致在 32K token 预算下,AIME 基准测试上的不完整比例(incomplete ratio)达到 \(15-20%\)
        • 这种过度生成浪费了 token,并且常常使解决方案不完整
      • 通过从较短的 24K 预算开始,鼓励模型压缩和完善其推理
        • 在此阶段,模型最初通常表现出非常高的不完整比例(\(30-50%\)),但在大约 100 步训练后,该比例在训练集上下降到约 \(15%\)
        • 特意应用了超长过滤(overlong filtering) (即,跳过超过 24K token 的生成,而不是分配 0 奖励),因为这样做可能会过度惩罚困难问题上的长推理,导致压缩期间性能急剧下降(2025),并在高不完整比例的情况下,由于奖励噪声而导致训练不稳定
    • 32K(扩展阶段 Extension Stage)
      • 推理链在 24K 上稳定下来后,将 token 预算扩展到 32K
      • 从 24K 阶段出来的检查点在 token 使用效率方面差异很大:
        • 有些以低至 \(5%\) 的不完整比例开始 32K 阶段,另一些则在 \(10%\) 左右徘徊
        • 理解:存在部分超过 32K 的样本
      • 这种可变性促使我们将 32K 阶段视为一个受控的扩展阶段
        • 在此阶段,不应用超长过滤来将推理长度正则化以适应 32K 上下文(即为超长生成分配 0 奖励)
        • 随着训练的进行,模型不仅适应了更大的预算,而且开始超越其初始准确率,反映了长度和正确性之间的平衡权衡
        • 理解:惩罚超过 32K 的样本
    • 40K(长推理阶段 Long Reasoning Stage)
      • 在 32K 训练之后,模型在 AIME24/25 上的简单和中等问题的准确率几乎饱和(分别达到 \(99%\) 和 \(85%\)),但困难问题仍然具有挑战性,准确率停滞在 \(30%\) 以下
      • 注:本文评估是在 64K token 预算下进行的,即使使用 YARN 长度扩展(因子为 2),模型也没有充分利用可用的上下文
        • 为了解决这个差距,进一步将模型推进到最终的 40K 训练阶段
        • 这种扩展明确地激励模型在推理过程中利用更多的 token
      • 结果,困难 AIME 问题的性能从 30% 显著提高到 \(40%\),而其他问题的性能则保持在较高水平
Dynamic filtering
  • 本文在所有数学 RL 实验中固定了一个种子数据集(For 简化开发)
    • 由于模型能力各不相同,当使用组归一化优势函数时,过于简单或无法解决的问题无法提供有效的策略梯度信号
    • 在每个 epoch 之后,根据该 epoch RL 训练的验证结果,过滤掉那些达到 \(100%\) 或 \(0%\) 准确率的问题
      • 被过滤掉的困难问题会以 \(10%\) 的概率重新采样回数据集中 ,因为策略可能在同一个 epoch 内的后续更新中学会解决这些问题
      • 被过滤掉的简单问题会以 \(1%\) 的概率重新采样回数据集中以稳定训练 ,因为策略可能会在一个 epoch 内忘记如何解决它们
    • Dynamic Filtering 确保了大约 \(90%\) 的训练样本提供有意义的学习信号,并显著稳定了训练期间的模型准确率,尤其是在更多问题被 \(100%\) 解决的后期训练阶段
  • 注:这种基于 epoch 的动态过滤可以被视为 基于批次的动态采样 (2025;2025)的一种更高效的替代方案
    • 因为 基于批次的动态采样 需要大量的 rollouts 来构建一个没有过于简单或无法解决的 prompts 的固定大小的批次
    • 理解:这种做法下,批次内部是不做样本过滤的,如果 epoch 过大,可能会导致同一个 epoch 内部训练到后面问题都非常容易解决了,且跟数据集和模型表现有非常大的关系
      • 例如:如果 Rollout Batch Size 为 256 时
        • 常规的 Batch 粒度 Dynamic Filtering 会采样 2-3 倍的 Prompt 来做 Rollout,避免过滤后样本不够 256
        • 但本文的基于 Epoch 粒度的 Dynamic Filtering 可能会直接采样 256 个 Prompt,若 50% 以上都是简单题(100% 做对),那么真实有梯度的 Prompt 不到 128,波动会比较大吧
      • 建议:Batch 粒度 Dynamic Filtering + Epoch 粒度的 Dynamic Filtering 结合使用!更好的解决问题
Hyperparameters
  • 使用 128 的 batch size,每个 prompt 采样 8 个 rollouts,Temperature 为 1,top-p 为 0.95
  • 采用学习率为 \(2 \text{或} 2.5 \times 10^{- 6}\) 的 AdamW(Kingma,2014)优化器,并将熵损失系数和 KL 损失系数都设置为 0
  • 每个训练阶段大约需要 100 到 200 步,具体取决于 clip-ratio 达到 \(10%\) 的速度
    • 理解:这里的 Clip-ratio 应该是指训练长度?
  • 对于 8B 模型,采用了三个阶段的训练
    • 长度从 \(24 \text{K} \rightarrow 32 \text{K} \rightarrow 40 \text{K}\) 扩展
  • 对于 14B 模型,由于初始策略已经达到了高准确率,以 28K 的最大 token 长度开始,以避免在第一阶段出现准确率下降,然后直接扩展到 40K
  • 更多训练超参数的详细信息见附录 D(表 17 和 表 18)
Results after Math RL
  • 者通过追踪 8B 统一模型在 AIME24 和 AIME25 上的性能来监控其 Math RL 的训练动态,如图 4 所示
  • Math RL 之后的结果呈现在表 6 中
  • 在 AIME 2024 和 2025 上有了显著的提升
    • Math RL 对知识推理和对齐基准的影响最小
      • 观察到的大部分差异可归因于评估方差和检查点选择
    • Math RL 改进了包括 LiveCodeBench 和 SWE 在内的编码基准
      • 注:尽管提升幅度不如 AceReason-Nemotron(2025)中报告的那样显著,但这很大程度上是因为本文起始模型在 Math RL 之前已经表现出了强大的通用推理能力

Code RL

  • Code RL 的重点是通过强化学习来提高模型在竞争性编程(competitive programming)方面的性能
  • 本文将 Code RL 应用于 Math RL 之后获得的模型检查点
Data Curation
  • 基于 AceReason-Nemotron 编程语料库(2025)构建 Code RL 训练数据集
    • 该语料库主要从包含单元测试的开源数据集中筛选而来,包括 TACO(2023)、APPS(2021)、DeepCoder(2025)等
  • 这些问题涵盖了现代竞争性编程中常见的广泛算法主题
    • 应用严格的过滤规则,排除与标准输出比较不兼容的问题(例如,交互式格式或需要特殊评测机的问题),以及单元测试对边界和边缘情况覆盖不足的问题
    • 此过滤过程显著减少了训练期间已知会降低 Code RL 性能的假阳性和假阴性奖励信号(2025)
  • 重复 & 污染:
    • 使用 9-gram 过滤和原始问题 URL 匹配
    • 校准问题难度
      • 简单问题排除:采用 AceReason-Nemotron-7B(NVIDIA,2025)排除 Trivial 问题(在 8 次 rollouts 中全部解决)
      • 复杂问题排除:使用 DeepSeek-R1-0528(DeepSeek-AI,2025)过滤掉难以处理或过于困难的问题(在 8 次 rollouts 中均未解决)
  • 最终得到 9.8K 个样本的训练集
Training Recipe
  • 在 Math RL 之后进行 Code RL,因为 Math RL 阶段可以作为有效的预热,稳定未来的 RL 训练并增强模型的通用推理能力(2025)
  • 遵循 AceReason-Nemotron 的配方,从最终的 Math-RL 模型检查点初始化,执行单阶段、on-policy 的 Code RL(无 KL 正则化,使用第 4.1.2 节中描述的 Token-level 损失)
  • 在训练期间,最大响应长度设置在 44K-48K 范围内,不应用超长过滤
Reward function
  • Code RL 采用严格的基于规则的二元奖励函数
    • 只有当生成的代码通过给定问题的所有测试用例时,才分配 1 的奖励 ;否则,分配 0 的奖励
  • 采用 AceReason Evaluation Toolkit 中的并行代码验证器来验证模型生成代码的正确性(进行高效且鲁棒的评估)
  • 在 VeRL(2024)中应用异步奖励计算 ,因为代码验证会产生显著的开销
    • 异步计算大大减少了每个批次的平均代码验证时间
    • 例如,在 8 个 DGX H100 节点上训练 Code RL,batch size 为 128,rollout 为 8 时,验证时间从 1172.4 秒下降到 416.2 秒
  • 与 Math RL 类似,也应用 Code-Switching 惩罚
    • 只要在推理轨迹中检测到与原始提示语言不同的语言的 token,就分配 0 的奖励(注:Math RL 中使用的 -1 奖励)
    • 注:与 Math RL 不同的是,对 Code-Switching 分配 \(-1\) 的奖励会对编程性能产生负面影响
      • 作者推测:可能是因为当组中所有 rollouts 要么不正确,要么包含语言混合时,额外的惩罚会促使模型在 GRPO 训练中产生没有 Code-Switching 的错误答案
      • 问题:有没有可能是信号检测不准确,比如中文注释 + 英文代码被错误检测为有问题?
Hyperparameter
  • batch size 设置为 128,使用 AdamW 优化器,学习率为 \(4\times 10^{- 6}\),每个训练 prompt 使用 8 个 rollouts
  • 将采样温度设置为 1.0,top_p 设置为 0.95,注:(Code RL 对温度配置很敏感)
  • 详细的超参数见附录 D(表 19)
Results after Code RL
  • Code RL 之后的结果呈现在表 7 中
  • 在 LiveCodeBench (LCB) 上取得了显著的提升
    • 统一 8B 模型在 LCB v5 上达到 75.3,在 LCB v6 上达到 71.5,与 DeepSeek-R1-0528 (671B) 的性能(分别为 74.8 和 73.3)相当
    • 14B-Thinking 模型在 LCB v5 上达到 78.0,在 LCB v6 上达到 74.8,以明显的优势超过了 DeepSeek-R1-0528
    • 注:DeepSeek-R1-0528 (671B) 是在 SFT 期间使用的教师模型,这些结果突显了 Cascade RL 在增强代码推理能力方面的显著效果
      • 且即使对于小型的 8B 和 14B 模型也是如此
    • 除了正常的检查点和评估方差外,Code RL 对其他领域的基准测试影响很小
      • 注:对于 IFBench 和 IFEval 的影响还是不小的
  • 注:Nemotron-Cascade 模型卓越的编程能力将在第 5 节中进一步检验

SWE RL

  • 3.3.2 节中构建 SWE SFT 数据时,采用了 Agentless 框架来处理 SWE-bench(2023),将 SWE 任务分解为三个子任务:
    • 定位(localization)、修复(repair)和补丁验证(patch validation)
    • 然后分别为每个子任务构建了 SFT 数据
  • 在以上这些子任务中,代码修复是最关键的,需要最高水平的推理和模型能力来生成修正错误并解决根本问题的修订代码补丁
    • 本节 SWE RL 主要目标是提高代码修复的准确性
Data Curation
  • 如第 3.3.2 节所述,用于代码修复的 RL 数据集由比 SFT 阶段更具挑战性的实例组成
  • 具体做法:
    • 保留有难度,但不是无法解决的
      • 在八个采样响应中少于四个响应超过 0.5 相似度阈值
        • 问题:这里的相似度是与 参考代码修复片段 的相似度?为什么不是直接验证修复的准确性
        • 回答:后面 Reward function 小节会提到,作者做的是不需要 Docker 验证器的训练,Reward 是相似度而不是执行结果,这样可大幅提升训练效率
          • 吐槽:应该就是 Docker 环境太难搞了
      • 同时至少有一个来自 DeepSeek-R1-0528(DeepSeek-AI,2025)的响应获得非零相似度(表明该 prompt 不是太难或无法解决)的 prompts
  • 在 SFT 阶段
    • 模型使用最大总序列长度为 32K 进行微调
    • 构建的 prompts 仅包含真实定位文件(ground-truth localization files),作为代码修复的参考
      • 即包含错误或需要进行修改以解决问题的所有文件
    • 但当在 Agentless 框架下评估模型性能时,向模型提供从定位阶段检索到的文件内容作为代码修复的输入
      • 这种设置在 SFT 训练和最终评估之间引入了差异
      • 为了确保真实定位文件被包含在修复 prompts 中,整合了 top-\(k\) \((k \geq 4)\) 个定位文件,并使用 YaRN 缩放因子 3 将最大 prompt 长度扩展到 60K
  • 这种设计给 SFT 模型带来了两种 OOD 的上下文:
    • (i) 代码修复期间的总输入长度超过了 SFT 中使用的最大序列长度
    • (ii) 包含 top-\(k\) 个定位文件可能会引入不相关的文件,使得代码修复任务比 SFT 期间更具挑战性
  • 为了解决这个问题,为 RL 训练构建并组合了两个长 prompts(最长 \(l\) 个 token)的子集:
    • 1)仅真实数据(Ground-truth only) :与 SFT 类似,使用仅包含真实定位文件的 prompts 进行构建
    • 2)混合定位(Mixed localization) :使用 DeepSeek-R1-0528 定位的文件和真实定位文件共同构建增强的 prompts
      • 总共包含最多五个文件,并确保所有真实文件都存在
      • 具体做法:
        • 初始 prompt 仅包含真实文件
        • 然后逐个添加噪声文件,直到总 prompt 长度会超过 \(l\)
        • 如果在添加任何噪声文件之前就超过限制,则丢弃该实例
        • 为了增强鲁棒性,随机化每个 prompt 中文件的顺序
  • 为了进一步提高训练效率,对于这两个子集,都丢弃总长度短于 8K token 的 prompts
  • 在第 7.3 节中,将对不同 \(l\) 下的 RL 训练效果进行消融实验
Training Recipe
  • SWE RL 是 Cascade RL 的最后阶段,因为它与通用领域相比是一个更专门的任务
  • 从 Code RL 之后获得的检查点开始,使用 GRPO 算法进行 on-policy RL,采用 Token-level 损失,同时移除了 KL 正则化(详细配置见第 4.1.2 节)
Reward function
  • 先前其他工作(2025;2025)通过在执行模型生成的代码补丁在 Docker 环境中来获取奖励
    • 运行和管理大量的 Docker 实例显著限制了可扩展性,限制了先前工作在约 10K 个独特实例的训练数据集上
  • 为了克服这个限制,本文作者设计了一个 Execution-free Verifier 作为奖励模型,使得代码修复生成的规模化 RL 训练成为可能
    • 将奖励 \(r\) 定义为生成的补丁 \(\hat{p}\) 与人工标注的真实补丁 \(p^*\) 之间的相似度:
      $$r(\hat{p},p^*) = \begin{cases}1, & \text{if } s_{\text{lex} }(\hat{p},p^*) = 1,\\ 0, & \hat{p}\text{ is identical to the original code snippet }\\ -1, & \text{if } \hat{p}\text{ cannot be parsed },\\ s_{\text{sem} }(\hat{p},p^*), & \text{ otherwise }, \end{cases} \tag {2}$$
      • \(s_{\text{lex} }(\hat{p},p^{*})\) 表示使用 Unidiff 库(遵循 Wei 等人 (2025) 的方法)计算的词汇相似度(lexical similarity)
      • \(s_{\text{sem} }(\hat{p},p^{*})\) 表示由 LLM 生成的语义相似度(semantic similarity)分数
    • 具体做法:
      • 使用一个是/否问题来提示 Kimi-Dev-72B 模型(Kimi-2025),以评估生成的补丁与 golden 补丁之间的语义相似度(见附录 C.2 中的奖励建模 prompt)
      • 分配给 “YES” token 的概率直接用作奖励分数
      • 当生成的补丁与 golden patch 完全相同时,给 1 奖励
      • 当模型生成的补丁无法解析时,分配 \(-1\) 的奖励
      • 当生成的补丁与原始代码片段完全相同时,分配 0 的奖励
        • 问题:为什么完全相同分配时,分配的是 0 奖励?应该是 1 奖励吧?
        • 理解:这里与原始代码相同,是指没有进行任何修改,此时给 0 奖励
      • 关于奖励函数的消融研究,请参阅第 7.2 节
Multi-stage RL training for input context extension
  • 初步实验研究表明,输入上下文长度与 SWE 任务性能之间存在强烈的正相关关系
    • 具体内容:包含更多用于分析的检索文件可以带来显著的性能提升
  • 以上这一发现激发了本文训练策略的设计
    • 该策略通过受控的上下文扩展来利用这种关系
  • 为在保持训练稳定性的同时优化扩展上下文的利用,本文实施了一个精心设计的两阶段课程,将输入上下文长度从 16K 逐步扩展到 24K token,同时保持 16K token 的恒定输出长度
    • 这种方法确保了鲁棒的学习,并避免了立即进行长上下文训练所观察到的性能下降效应,这对于较小的模型尤其有效,因为较小的模型的长上下文能力有限
    • 16K 上下文初始化(热身阶段 Warmup Stage)
      • 训练过程从保守的 16K 输入 token 预算开始,这作为一个重要的热身阶段
      • 注:直接用 24K 上下文长度初始化训练会导致次优的收敛和最终性能下降
        • 作者将此现象归因于模型最初难以在扩展的序列上进行信息关注和整合
        • 问题:这里的上下文不是指生成, 而是指输入吧?
      • 在此阶段,模型学习基本的长上下文利用技能,并在一个可管理的上下文窗口内为多文件分析开发稳定的注意力机制
    • 24K 上下文扩展(24K Context Extension)
      • 16K 设置达到奖励平台期后(即在连续迭代中几乎没有改进时),将上下文扩展到 24K token
      • 这个转换的时机很重要:模型已经在 16K 上建立了强大的多文件分析技能,为扩展到更长上下文形成了坚实的基础
      • 在扩展阶段,长上下文理解的稳定提升,包括更高级的跨文件推理和跨检索文件信息合成的改进
      • 该模型展现出越来越熟练地利用扩展上下文窗口的能力,有效地使用额外的检索文件来产生更准确的解决方案
Hyperparameters
  • 设置 batch size 为 128,使用 AdamW 优化器,学习率为 \(2.5 \times 10^{- 6}\)
  • 对于每个 prompt,生成 16 个 rollouts,采样 Temperature 为 1,并设置最大响应长度为 16K
  • 对达到最大响应长度的轨迹应用超长过滤
  • 详细的超参数见附录 D(表 20)
Results after SWE RL
  • 应用 SWE RL 后的结果显示在表 8 中
  • SWE RL 在 SWE-bench Verified 上带来了显著的提升,同时它对其他领域基准的正面或负面影响很小
  • 在完整的 Cascade RL 过程之后,专用的 8B thinking SFT 模型和 8B 统一 SFT 模型之间在 SWE-bench Verified 上的性能差距
    • 表 2(SFT)中的 30.2 对比 26.1 在很大程度上得到了缓解(38.5 对比 37.2)
    • 统一的 Nemotron-Cascade-8B 在所有与推理相关的任务上表现与 Nemotron-Cascade-8B-Thinking 相当,同时在指令跟随任务上表现明显更好
    • 理解:
      • 这个差距在 RLHF 后进一步放大
      • 主要 Gap 在 IF-RL、 Math RL、Code RL 阶段和 SWE RL 阶段 均有不同程度的缩小,特别是 Math RL 阶段缩小很多

Deep Dive on Competitive Coding

  • 在具有挑战性的竞争性编程基准测试上评估了本文的 Nemotron-Cascade 模型的性能,包括
    • LiveCodeBench (2024),其中包含近期发布的 AtCoder 和 LeetCode 问题
    • LiveCodeBench Pro (2025),其中包含新发布的 Codeforces 问题
  • 为避免基准测试污染,仅报告训练数据截止日期(2024 年 8 月)之后发布的问题的准确率
    • 对于 LiveCodeBench,在子集 v5(2024 年 8 月 - 2025 年 2 月,279 个问题)和 v6(2024 年 8 月 - 2025 年 5 月,454 个问题)上进行评估
    • 对于 LiveCodeBench Pro,使用两个最新的子集:2025Q1(2025 年 1 月 - 2025 年 4 月,166 个问题)和 2025Q2(2025 年 4 月 - 2025 年 7 月,167 个问题)
  • 在 avg@8 设置下进行评估,思考预算为 64K tokens
  • 另外,还根据 LiveCodeBenchPro (2025Q1, 2025Q2) 拆分中的 51 轮 Codeforces 比赛评估了模型 ELO 分数
    • 关于 ELO 评级计算的更多细节和分析见附录 E
  • 如表 9 所示
    • Nemotron-Cascade 模型在多个竞争性编程基准测试中展现出强劲的性能,包括最新的 LiveCodeBench 和 LiveCodeBench-Pro 拆分
    • Nemotron-Cascade-8B 显著优于几乎所有近期发布的、规模相当的理由 LLM,并达到了与先前 SOTA 蒸馏模型 OpenReasoning-Nemotron-32B (2025) 相当的性能,尽管其参数量要少得多
    • Nemotron-Cascade-14B-Thinking 模型在所有竞争性编程基准测试中甚至优于其 SFT 教师模型 DeepSeek-R1-0528、Qwen3-235B-A22B 和 Qwen3-Next-80B-A3B-Thinking,展示了 Cascade RL 的卓越有效性

Test-Time Scaling in Practice: IOI 2025,TTS 实践测试

  • 最具挑战性的竞争性编程竞赛之一:国际信息学奥林匹克竞赛 (IOI) 2025 上进行了评估
  • IOI 对每个问题最多允许 50 次提交,每次提交都有官方评判反馈,但没有明确限制用于构建这些提交的模型生成次数
  • 为了充分利用最强的 Nemotron-Cascade 模型的推理能力,部署了 Nemotron-Cascade-14B-Thinking,总思考预算为 128K tokens,并提出了一个反馈驱动的、测试时扩展流程如下
  • 整个流程可视为一个多轮 生成-选择-提交 的过程,每个问题最多进行 50 轮(每轮对应一次提交)
    • 在每一轮中,对于每个问题的每个子任务
      • 模型会使用不同的随机种子生成 20 个候选 Response
      • 然后过滤掉
        • (i) 不包含代码的不完整 Response
        • (ii) 生成的代码无法通过提供的示例测试用例(如果有的话)
      • 对于每个子任务剩余候选中,应用 Fu 等 (2025) 的 Tail-10 选择启发式方法来获得最终的高质量 Response,并将此 Response 提交给官方评判以获得判定结果和(对于部分得分任务的)分数
    • 每轮之后,更新每个子任务的生成 Prompt,加入来自官方评判的新反馈,以便后续的生成能够基于失败提交的历史记录
      • 具体方法:对于经典问题中的每个未解决子任务,将最多 5 个针对此子任务的最近提交代码及其对应的官方判定附加到下一轮的 Prompt 中
      • 将此历史缓存大小有意限制为 5,以避免过度拟合早期的失败尝试,同时仍鼓励模型分析并改进过去的错误尝试
      • 对于部分得分问题,则附加最多 3 个得分最高的先前提交,并鼓励模型持续改进得分
  • 除了提交历史,还引入跨子任务洞察:
    • 一旦一个子任务被解决,其正确的解决方案代码将作为洞察附加到 Prompt 中,用于提示模型解决同一问题的其他具有不同约束的未解决子任务
    • 这鼓励模型推理约束之间的关系,并在子任务之间传递有效的洞察
    • 完整的 Prompt 模板见附录 C.3
  • 凭借这种有效且显式自我改进的测试时扩展策略
    • 14B-Thinking 模型在 IOI 2025 上取得了 343.37 的总分,对应一枚银牌,每个问题的生成次数最多为 1000 次(20 代 × 50 轮),且每个问题的官方提交不超过 50 次
    • 在 IOI 2025 问题 2 Triples 上,该问题包含一个需要提出并迭代优化构造算法的构造性子任务,本文流程取得了 90.37 分,超过了 OpenAI 的内部 IOI-gold 模型 (75.29 分) 和 DeepSeek-V3.2-Speciale (82 分) (2025)
    • 这个实验在真实的、高风险的竞争性编程问题上证明了作者反馈驱动的、自我进化的测试时扩展方法的有效性
  • 图 5 中展示了本文轮次进展

The Role of Training Temperature in Code RL,训练温度在 Code RL 中的作用

  • 为了确定 Code RL 训练的最合适温度,在 8B 统一模型上使用 0.6、0.8 和 1.0 的温度进行了消融实验(RL 曲线如图 6 所示)
  • 虽然较低的温度产生更稳定的熵曲线,但与较高温度设置相比,它们导致代码推理性能下降
  • 这种模式表明,在诸如代码生成这样的大规模、有噪声的采样空间中,较高的温度在有限的 Rollout 预算下鼓励探索并提高样本效率
  • 注:高温也可能导致训练不稳定,引发熵爆炸
  • 设计能够保留高温采样优势同时确保熵稳定性的训练框架是一个有前景的未来工作方向

How Cascade RL Improves Code Reasoning,Cascade RL 如何改进代码推理

  • 为评估 Cascade RL 流程的逐步有效性,分析了在连续的级联 RL 阶段(SFT、RLHF、IF-RL、Math RL 和 Code RL)之后,统一 8B 模型在 LiveCodeBench v6 的每个难度划分上的平均推理 Token 使用量和模型准确率(图 8)
    • 初始的 RLHF 阶段提供了坚实的基础:
      • 显著提高了推理 Token 效率,并通过大幅减少推理 Token 数量以及在所有难度划分上显著提高准确率,缓解了 SFT 模型的冗长问题
    • 随后的 IF-RL 阶段进一步鼓励简洁性,使得 Token 使用量额外减少了 \(20%\),而准确率仅出现可忽略的下降 \((0.5%)\)
    • 在初始阶段之后,简单问题的性能趋于饱和(\(>99%\)),从而将改进空间转移到中等和困难划分上
    • Math RL 通过增加 Token 使用量来增强推理能力,提高了中等问题的准确率
    • Code-RL 则通过大幅扩展推理轨迹,在中等和困难问题上都提供了最终的性能提升
  • 消融实验:分析 Cascade RL 如何在主题层面提升编码能力
    • 用五个子类别(数学、字符串、图、数据结构、几何)对 LiveCodeBench v6 的问题进行了标注,并在图 7 中报告了作者的统一 8B 模型在每个 Cascade RL 阶段后的主题准确率
    • RLHF 在所有子类别上都提供了强劲的初始增益
    • Math RL 主要有利于与数学相关的主题(数学、图、几何),Math RL 在更多面向计算机科学的主题(字符串、数据结构)上提升有限
    • Code RL 提供了最大的准确率提升,几乎所有主题的性能都得到了改善

Deep Dive on RLHF

  • 本节展示了关于选择有效奖励模型和设计稳健 RLHF 方法的研究发现
    • 发现1:使用最大奖励模型训练的 RLHF 在 ArenaHard 基准测试上产生了最强的性能,特别是在风格控制 (style control) (2024) 下,这有助于在 LLM Response 中区分实质内容和风格偏好
    • 发现2:
      • 较小的奖励模型倾向于产生噪声更大的奖励信号,需要额外的技术如 Reward Shaping 和 KL 正则化来保持训练稳定性
      • 对于较大的奖励模型,这些技术是不必要的:它们的奖励信号本身就足够准确和一致,能够实现稳定的 RLHF 训练并在其他任务上取得更好的性能

RLHF Training Strategies for Unified Models,面向统一模型的 RLHF 训练策略

  • 统一模型可以用思考模式和非思考模式进行响应,一个自然的研究问题出现了:
    • 应该使用哪种模式进行 RLHF 训练,尤其是在许多基准测试偏向思考模式的情况下?
  • 为了研究这一点,将 RLHF 应用于本文 8B 统一 SFT 模型(性能报告在表 2),使用与第 4.3.2 节描述相同的训练方法,但改变训练模式
  • 具体方法:
    • “Non-thinking” 设置在 RLHF 期间仅使用非思考模式
    • “Thinking” 设置仅使用思考模式
    • “Half-Half” 设置在每批中将 Prompt 平均分配给这两种模式
  • 如图 9 所示,揭示了一个明显的趋势:
    • ArenaHard、AIME 和 LiveCodeBench 都是在思考模式下评估的,但 “Half-Half” 训练设置提供了最强的整体性能,产生了最高的 ArenaHard 分数以及改进的数学和代码基准测试性能
    • 这表明:在 RLHF 期间包含非思考模式的样本可以改善跨模式迁移和对齐,从而在推理和非推理场景中都能获得更强的通用能力

Impact of Reward Model Size on RLHF Performance,奖励模型大小对 RLHF 性能的影响

  • 本文训练了一系列从 7B 到 72B 的奖励模型,并将第 4.3.2 节中描述的相同 RLHF 方法应用于 AceReason-Nemotron-1.0-7B 策略模型 (2025)
  • 图 10 中报告了 ArenaHard 分数以及在数学和代码基准测试上的性能
  • 主要发现总结如下:
    • 1)更大的奖励模型产生更强的 ArenaHard 性能
      • 使用最大奖励模型训练的 RLHF 在风格控制 (2024) 下取得了最高的 ArenaHard 分数,该控制有助于在 ArenaHard 排行榜上区分实质内容和风格
      • 但 7B 奖励模型在是否启用风格控制时存在巨大差距
        • 这表明 7B 奖励模型容易出现 Reward Hacking ,例如,主要通过增加 Response 长度来提高 ArenaHard 分数
      • 检查了 RLHF 训练曲线结果:
        • 使用 7B 奖励模型的 RLHF 倾向于通过生成更长的输出以提高奖励分数,而使用 72B 奖励模型的训练则产生更稳定的 Response 长度
      • 注意:Arena Hard without style control 的分数不能直接参考,因为模型可能是通过输出很长的文本来获取高分的(比如 7B 奖励模型就输出很长的 Response 来实现)
        • 忽略 灰色线,看红色线(with Style Control)的话,整体趋势还是越大的 RM 越好
        • 14B 提升到 32B 过程中出现了不同,推测是因为 RL 不稳定,容易发生 Reward Hacking 等导致波动
    • 2)RewardBench 是一个有用的代理指标,但并不总能预测 RLHF 质量
      • 虽然 RewardBench 分数总体上与奖励模型质量相关,但更高的 RewardBench 性能并不一定转化为更好的 ArenaHard 分数
      • 作者推测 RewardBench 相对饱和(通常高于 90),因此超出该水平的边际收益不会有意义地改善下游的有用性
      • 模型特定行为,例如对 Reward Hacking 的脆弱性,在决定 RLHF 有效性方面起着更决定性的作用
    • 3)更大的奖励模型也能提升其他任务(如数学)的性能
      • 使用 72B 奖励模型训练的 RLHF 比使用 7B 奖励模型训练的 AIME25 准确率高出约 \(3%\)
      • 对于代码基准测试,奖励模型的选择影响很小,性能差异在 \(1%\) 以内

Bag of Tricks for Stabilizing RLHF Training,稳定 RLHF 训练的技巧集

  • RL 算法对于实现长链式思维推理至关重要,但 RL 训练可能不稳定且容易早期崩溃
  • 在 RLHF 中,这个问题被进一步放大,因为训练依赖于可能有噪声或 OOD 的基于模型的奖励
  • 本节总结了一组能有效稳定 RLHF 训练的技术(“技巧集” “bag of tricks”):
    • 1)KL penalty loss :KL 惩罚损失约束 On-policy 与冻结的参考策略之间的散度,确保策略不会偏离初始模型太远
      • 当 RLHF 训练早期崩溃时,引入这个 KL 项是保持训练稳定性的有效方法
    • 2)策略梯度损失聚合 (Policy gradient loss aggregation) :标准 GRPO 使用 Sequence-level loss,即先对每个样本内的 Token-level 损失求平均,然后在整个批次上聚合
      • 对于长 CoT RL,通常推荐使用 Token-level 损失,即直接对批次中所有 Token 损失求平均
        • 特别注意:这里聊的是损失的归一化方式,不是 Advantage 的方式
      • 当 RLHF 出现早期崩溃迹象时,从 Token-level 损失切换到序列级损失有助于抑制 Response 长度的显著增加,并稳定训练
        • 理解:Sequence-level 平均的 Loss 在鼓励短的正样本和唱的负样本
    • 3)Reward Shaping :
      • 由于本文奖励模型是使用 Bradley-Terry 目标训练的,其原始奖励信号是无界的
      • 当使用无界奖励训练 RLHF 时,有噪声或离群的奖励可能导致训练不稳定
      • 需要使用 Reward Shaping 机制:
        • 对于每组奖励,计算平均值和标准差,然后通过减去平均值并除以标准差来归一化每个奖励,生成一个中心化和缩放后的奖励(理解:这个是 GRPO 自己的结果吧)
        • 最后应用 tanh 变换:将有形状的奖励限制在 \([-1,1]\) 范围内,有效减轻了组内离群值和噪声奖励信号的影响,从而带来更稳定的 RLHF 更新
  • 在早期使用 7B 奖励模型的 RLHF 实验中,应用这些“技巧集”技术显著提高了训练稳定性,将稳定 RL 步数从 350 步延长到 950 步,并获得了更好的 ArenaHard 分数(表 10)
  • 但当使用更强的奖励模型(例如 72B 奖励模型)时,RLHF 训练已经稳定,省略这些技术所带来的下游性能与使用它们相当,在某些情况下甚至略好,如表 11 所示
  • 本文的结论是,这些技术应被视为一个工具箱,仅在训练显示出不稳定迹象时部署
    • 否则,第 4.3.2 节中描述的 RLHF 方法就足够了

Deep Dive on SWE

  • 本节介绍针对 SWE 任务的改进技术,并提供相应的消融实验结果

Generation-Retrieval Approach for Code Localization,用于代码定位的生成-检索方法

  • 对于文件定位阶段,本文采用一种结合基于生成和基于检索方法的双重方法
    • 在基于生成的方法中,模型根据问题描述和仓库结构被引导去推断可能存在 bug 的文件,如附录 C.2 所示
    • 为了进一步增强此方法,聚合了多个 Rollout 的结果,并根据候选文件出现的频率对其进行排序,频率越高的文件排名越靠前 (2023)
    • 问题:这种基于生成的方法只能访问仓库结构(即文件夹和文件名),而无法访问代码内容
  • 为了弥补这一点,本文采用了一个代码 Embedding 模型 NV-Embed-Code (2025),用于检索那些代码内容在语义上与问题上下文相似的候选文件
    • 然后通过使用倒数排名融合方法 (reciprocal rank fusion) (2009)(超参数 \(k\) 设为 0)聚合来自这两种方法的结果,确定最终的相关文件集,这有效地整合了两种定位信号的互补优势
  • 为了评估代码定位性能,本文测量了不同截断点(top-\(k\))的召回率
    • 具体方法:对于一个实例,如果所有需要进行修复的真实文件都出现在 top-\(k\) 个检索到的候选文件中,则定位被认为是成功的(召回率 \(=1\));否则,该实例的召回率定义为 0
  • 图 11 展示了不同方法在 SWE-bench 上的代码定位性能
    • 基于检索的方法优于基于生成的方法
      • 这种改进可能是因为基于检索的方法编码了每个仓库的完整源代码内容,而基于生成的方法在识别潜在相关文件时仅依赖于仓库结构
    • 当来自多个 Rollout 的结果被聚合时,基于生成的方法在 top 排名和更高排名上都表现出一致的提升
      • 这表明聚合不仅提高了 top 排名的准确性,还促进了代码定位中的排名多样性
    • 使用倒数排名融合将基于生成和基于检索的方法结合起来,会带来轻微的额外改进,尤其是在 cutoff 低于 5 的时候
      • 在所有的实验中,直接使用来自生成(16 个 Rollout)和基于检索的方法的倒数排名融合作为默认方法

Execution-Free Reward Model for SWE RL

  • 如 \(\S 4.7.2\) 所述,在代码修复 RL 训练中使用了一个由公式 (2) 定义的无执行奖励
    • 也就是说,给定一个人工编写的 Golden Patch,使用词汇相似度(使用 Unidiff 库计算 (2025))或由 Kimi-Dev-72B 模型生成的语义相似度分数,来计算其与模型生成的 Patch 之间的相似度
  • 在消融研究中比较了这两种计算相似度的方法
    • 从一个尚未进行数学和代码 RL 训练的中间 14B 模型(表 12 中的条件 0)开始,并使用不同的相似度分数作为奖励函数进行代码修复的 RL 训练
    • 遵循 \(\S 4.7.2\) 中的超参数设置,但将 Rollout 数量设置为 8,并且在奖励模型的消融实验中,使用最大 Prompt 长度为 24K 的训练数据
    • 在两种设置下评估训练后的模型:
      • i)当 Prompt 中提供了真实的定位文件时
      • ii)当通过生成-检索方法获得 top-4 个定位文件时
    • 对于基于语义相似度的奖励模型,直接应用公式 (2) 中定义的原始奖励函数
    • 对于词汇相似度,在此奖励函数中用 \(s_{\text{lex} }(\hat{p},p^{*})\) 替换 \(s_{\text{rem} }(\hat{p},p^{*})\)
  • 表 12 报告了在采样温度设为 0.6 的情况下,四次运行的平均解决率,以及 pass@4(如果一个实例在四次生成中至少有一次被成功修复,则认为该实例已被解决)
    • RL 训练通常能提高模型在代码修复上的有效性,并且使用语义相似度作为奖励模型比使用词汇相似度能获得更好的效果(条件 4 与 2 对比)
    • 对两个奖励模型都应用 Reward Shaping ,当奖励低于 0.5 时将其设置为 0
      • 这种调整提高了词汇相似度奖励模型的有效性(条件 2 与 1 对比),表明 Reward Shaping 有助于过滤掉噪声监督信号
      • 当词汇相似度低于 0.5 时,奖励往往为模型训练提供不可靠的指导
      • 当将 Reward Shaping 应用于语义相似度时,没有观察到同样的效果(条件 4 与 3 对比),这表明即使在代码相似度较低时,语义相似度仍能提供有意义的训练信号
        • 因此,将默认的奖励函数设置(表 12 中的条件 3)用于 SWE RL 训练
  • 总的来说,本文证明了使用基于 LLM 的无执行奖励模型是扩展 SWE RL 训练规模的一个有前景的方向
    • 注:奖励模型训练的探索留作未来的工作

Improving Long-Context Analysis,改进长上下文分析

  • 为确保 Prompt 包含所有有错误的代码 Patch,本文用来自多个检索文件的代码内容构成长 Prompt
    • 但初步研究表明,当输入 Prompt 长度超过 24K,同时 Response 长度为 16K 时,代码解决率会显著下降
    • 作者推测次优的代码解决率是由于 SFT 阶段使用的最大序列长度为 32K
      • 这是继承自 Qwen3-8B/14B-Base 模型的 32K 上下文窗口
    • 因此,在 RL 阶段,通过混合模型检索到的噪声文件和真实文件来创建具有更长 Prompt 的训练数据
  • 表 13 消融了使用不同最大 Prompt 长度创建的数据进行训练的效果(更多细节见 \(\S 4.7.1\))
    • 从 16K 到 32K,使用更长的 Prompt 进行训练有助于提高模型的修复能力
      • 本文将这种改进归因于模型处理更长上下文 Prompt 的能力,这在修复任务中尤其重要,因为在修复过程中,模型需要从所有检索到的代码内容中识别并修复有错误的代码 Patch
    • 但当将最大 Prompt 长度扩展到 40K 时,训练效果变差
      • 作者推测模型在这样的长 Prompt 下表现较差,导致采样的 Trajectory 包含更多 RL 训练的噪声,或者预训练的 Qwen3-14B-Base 在 32K 上下文外的长上下文能力有限
      • 因此训练数据,将最终 8B 和 14B 模型的最大 Prompt 长度分别设置为 24K 和 32K

Test-Time Scaling and Patch Validation,TTS 与 Patch 验证

  • 为进一步提高代码修复的准确性,本文采用了一种测试时扩展 (TTS) 策略,通过在推理过程中聚合和筛选多个候选 Patch 来增强模型性能
  • 如第 \(\S 3.3.1\) 节所述
    • 模型使用基于温度和 top-\(p\) 的解码生成一组多样化的候选修复 Patch 和复现测试
    • 然后每个候选 Patch 通过一个 Patch 验证阶段进行评估,该阶段应用回归测试和复现测试来识别最可靠的修复
  • 对于 SWE-bench Verified 基准测试
    • 本文的 TTS 流水线为每个实例生成 \(k\) 个候选修复 Patch 以及 40 个复现测试
    • 然后通过首先评估每个 Patch 通过了多少现有的回归测试
    • 接着执行一组精心挑选的生成的复现测试来识别最有希望的修复 (理解:这里的复现测试是基于代码的测试用例?),从而对这些候选 Patch 进行筛选和排序
  • 最终选择综合通过率最高的 Patch,如果出现平局,则首先通过多数投票解决,然后选择解决方案长度最短的。作者将这种排序和选择过程称为 best@k。这种方法拓宽了解决方案的搜索空间,通过探索多个推理 Trajectory 增强了鲁棒性,并显著增加了产生正确修复的可能性
  • 图 12 展示了 (a) Nemotron-Cascade-8B 和 (b) Nemotron-Cascade-14B-Thinking 在 SWE-bench Verified 上使用 TTS 结合本文 Patch 验证流水线的评估结果
    • 图 12 绘制了 pass@k, majority@k 和 best@k 在 \(k \in 2, 4, 8, 12, 16, 24, 32\) 上的结果
      • Pass@k 随着 \(k\) 的增加单调提升,而多数投票增长较慢且较早饱和
      • Best@k 始终以显著优势优于 majority@k,证明了本文 Patch 验证流水线的有效性
    • 对于 Nemotron-Cascade-14B-Thinking,所有指标的改进更为显著,反映了更强的推理能力和生成的修复 Patch 的更大多样性
    • 总结:Nemotron-Cascade-8B 和 Nemotron-Cascade-14B-Thinking 都从 TTS 策略中受益匪浅,14B 模型取得了与更大的开放权重模型(如 DeepSWE (2025))竞争的结果(解决率:通过使用基于执行的验证器执行 TTS 达到 \(52.4%\))
    • 这些增益表明,下游的筛选和验证仍然是提升 Patch 修复性能的强大机制,而无需修改模型权重
  • 如图 12(a) 所示
    • Nemotron-Cascade-8B 在 \(k = 32\) 时达到了 \(43.6%\) 的 best@32 解决率,从 \(k = 2\) 时的 \(39.2%\) 逐步提升
    • 通过 TTS 和 Patch 验证,Nemotron-Cascade-8B 在 \(k = 32\) 时达到了 \(57.7%\) 的 pass@k 分数,表明存在 15.6 个百分点的差距,这反映了朝着 best@32 还有额外的改进空间
    • 多数投票提供了一个更简单的替代方案,但在 39-40% 左右趋于平稳,随着 \(k\) 的增加仅显示出边际收益
    • 这些结果表明,即使是对于较小的模型,结构化的测试时扩展与验证相结合也能显著提高修复准确性
  • 如图 12(b) 所示
    • Nemotron-Cascade-14B-Thinking 的整体指标提升更为显著
    • Nemotron-Cascade-14B-Thinking 的 majority@k 解决率起始为 \(50.7%\),已经超过了 8B 变体的 best@32 分数 \(43.6%\)
    • 在 TTS 策略下,best@k 提供了进一步的提升,在 \(53.8%\) 左右趋于平稳
    • pass@k 曲线随着 \(k\) 的增加而继续上升,突显了为 14B 模型开发更有效的 TTS 策略的巨大潜力

补充:Related Work

Reinforcement Learning for LLMs

  • 与需要高质量且昂贵标注的 SFT 中的教师强制训练相比,RLHF 提供了一种更具成本效益和泛化能力的方法来捕捉人类意图的细微差别和语言表达的微妙之处
  • RLVR 采用客观且确定性的标准(例如,用于数学推理的基于符号规则的验证)来提供奖励信号
    • 已有使用公开数据集的开放 RLVR 配方被开发出来,例如 AceReason-Nemotron (2025; 2025), DeepScaleR (2025), DeepCoder (2025), DAPO (2025) 和 Skywork-OR1 (2025)
    • 但这类开放配方的模型主要关注数学和代码推理,与通用前沿模型不同
  • 通用 DeepSeek-R1 和 Qwen3 的 RL 训练遵循两个阶段的过程:
    • 初始的面向推理的 RL 阶段,随后是覆盖所有域的第二阶段
    • 在每个阶段,都会使用多样化的 Prompt 进行联合训练
      • 但由于任务之间的巨大异质性,这种设计使 RL 基础设施、训练课程和超参数调整变得复杂,最终导致性能次优
  • 本文提出了 Cascade RL 框架,并发布了用于开发通用 LLM 的开放训练配方和数据集,这些 LLM 在包括数学、编码、科学、指令遵循、软件工程和通用领域在内的不同领域都具有强大的推理能力
    • 特别地,系统地研究了 RLHF 和 RLVR 之间的相互作用(这是现有文献中尚未充分探索的一个主题)

Supervised Fine-Tuning and Distillation

  • 本文还研究了 SFT 和 RL 之间的协同作用
  • 发现:在精心设计的 RL 过程中,只要在探索和利用之间达到适当的平衡,初始 SFT 模型之间的性能差距会显著缩小
    • 理解:开始的 SFT 可能有差异,经过 RL 后可能能补齐(比如 Unified 8B 和 Thinking 8B 模型)

Unified Reasoning Models

  • 过去的一年中,许多专用的思考模型 (thinking models) 已经发布,包括 OpenAI 的 o1 (OpenAI, 2024), o3, o4-mini (OpenAI, 2025), DeepSeek-R1 (2025), Qwen3-Thinking (QwenTeam, 2025), MiniMax-M1 (2025), gpt-oss (2025) 和 Kimi-K2-Thinking (KimicTeam, 2025)
    • 这些模型强调通过生成长 CoT 进行深度推理 (2025),涉及问题分析、构思草图、列举替代解决策略,以及验证和修正答案
  • 近的几项工作旨在将指令模型 (instruct models) 和思考模型统一到一个模型中
    • Llama-Nemotron (2025) 通过系统 Prompt 实现对思考或指令模式的全局控制
    • Qwen3 (2025), GLM-4.5 (GLM-4.5-2025) 和 DeepSeek-V3.1 提供了更灵活的用户控制,允许在每个对话轮次中在思考和指令模式之间切换
    • GPT-5 (OpenAI, 2025) 采用了一种自动路由机制,绕过了而非解决了这一挑战

附录 B:Benchmarks and Evaluation Setups

  • 详情见原文附录

附录 C:Prompt Templates

C.1. Unpreferrable Response Generation for RM data,为 RM 数据生成 Unpreferrable Response

  • Step 1: Generate offtopic prompts

    1
    2
    3
    4
    5
    6
    7
    8
    Given an user input (called "given input"), please generate a new user input (called "generated input") such that:
    (1) The generated input is highly relevant to but different from the given input.
    (2) The correct response to the generated input superficially resembles the correct response to the given input as much as possible.
    (3) But actually, the correct response to the generated input should not be a correct response to the
    given input.
    Given input:
    {instruction}
    Generated input:
    • 步骤 1:生成偏离主题的 Prompt
      1
      2
      3
      4
      5
      6
      7
      8
      9
      给定一个用户输入(称为“给定输入”),请生成一个新的用户输入(称为“生成输入”),使得:

      (1) 生成的输入与给定输入高度相关但又有所不同
      (2) 对生成输入的正确 Response 应尽可能在外观上类似于对给定输入的正确 Response
      (3) 但实际上,对生成输入的正确 Response 不应对给定输入也是正确的 Response

      给定输入:{instruction}

      生成的输入:
  • 步骤 2:判断偏离主题的 Prompt 是否确实与原始 Prompt 不同 (Judge if the offopic prompts are really different to the original)

    1
    2
    3
    有两个指令,指令 A 和指令 B。这两个指令是否在询问相同的事情?请用‘YES’或‘NO’回答
    指令 A:{instruction A}
    指令 B:{instruction B}

C.2. Prompts and Templates for SWE Task

  • 代码定位 (Code Localization)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    请查看给定的 GitHub 问题和仓库结构,并提供为了解决问题需要编辑或查看的文件列表

    ### GitHub 问题描述 ###
    {problem_statement}
    ###

    ### 仓库结构 ###
    {structure}

    ###

    以下是一些代码片段,每个来自一个相关文件。这些文件中可能有一个或多个包含错误。仅提供完整路径并最多返回 n 个文件。返回的文件应按重要性从高到低排序,用换行分隔,并用 \`\`\` 包裹。例如:

    \`\`\`
    most/important/file1.xx
    less/important/file2.yy
    least/important/file3.zz
  • 代码修复 (Code Repair)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    我们正在解决仓库中的以下问题。这是问题文本:
    BEGIN ISSUE
    {problem_statement}
    END ISSUE

    以下是一些代码片段,每个来自一个相关文件。这些文件中可能有一个或多个包含错误
    BEGIN FILE
    {content}
    END FILE

    请首先根据问题陈述定位错误,然后生成 SEARCH/REPLACE 编辑来修复问题
    每个 SEARCH/REPLACE 编辑必须使用以下格式:
    1. 以 '''diff\n 开始表示一个 diff 块,并以 ''' 结束整个块
    2. 文件路径
    3. 搜索块的开始:<<<< SEARCH
    4. 要在现有源代码中搜索的连续行块
    5. 分隔线:======
    6. 要替换到源代码中的行
    7. 替换块的结束:>>>> REPLACE

    这是一个例子:
    '''diff
    ###### mathweb/flask/app.py
    <<<<<< SEARCH
    from flask import Flask
    ======
    import math
    from flask import Flask
    >>>>>>> REPLACE
    '''

    请注意,SEARCH/REPLACE 编辑需要正确的缩进。如果您想添加行‘print(x)’,您必须完整写出,包括代码前的所有空格!将每个 SEARCH/REPLACE 编辑像上面例子中那样包装在一个代码块中。如果您有多个 SEARCH/REPLACE 编辑,请为每个编辑使用单独的代码块。输出格式要求:请将您的推理 Token 放在一个单独的代码块中,以 <think> 开始,以 </think> 结束,并将 Solution 令牌放在一个单独的代码块中,以 <solution> 开始,以 </solution> 结束
  • 测试代码生成 (Test Code Generation)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    作者正在解决仓库中的以下问题。这是问题文本:
    BEGIN ISSUE
    {problem_statement}
    END ISSUE

    已经生成了几个候选修复补丁来解决这个问题。您必须仔细检查它们,并在创建测试时选择与问题描述最匹配的那个,以便专门验证应用补丁前后的行为:
    BEGIN PATCH
    {model_patch}
    END PATCH

    以下是一些代码片段,每个来自一个相关文件。这些文件中可能有一个或多个包含错误。
    BEGIN FILE
    {content}
    END FILE

    请生成一个完整的测试,可用于复现该问题
    完整的测试应包含以下内容:
    1. 包含所有必要的 imports
    2. 在应用补丁之前复现问题描述中的问题
    3. 测试修复补丁中修改的确切函数、类或行
    4. 包含断言或检查,以确认在没有补丁的情况下问题可以复现
    5. 包含断言或检查,以确认在应用补丁后问题已解决
    6. 使用与补丁更改相关联的有意义的断言(例如,预期输出、引发的异常或更改的返回值)
    7. 如果结果显示问题已复现,打印“Issue reproduced”
    8. 如果结果显示问题已成功解决,打印“Issue resolved”
    9. 如果结果显示源代码存在其他问题,打印“Other issues”
    测试不应该是通用的;它必须直接验证补丁的正确性
    这是一个例子:
    '''python
    from sqlfluff import lint
    def test__rules__std_L060_raised() -> None:
    try:
    sql = "SELECT IFNULL(NULL, 100), NVL(NULL,100);"
    result = lint(sql, rules=["L060"])
    assert len(result) == 2
    except:
    print("Other issues")
    return
    try:
    assert result[0]["description"] == "Use ’COALESCE’ instead of ’IFNULL’."
    assert result[1]["description"] == "Use ’COALESCE’ instead of ’NVL’."
    print("Issue resolved")
    except AssertionError:
    print("Issue reproduced")
    return
    return
    test_rules_std_L060_raised()
    '''
  • 奖励建模 (Reward Modeling)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    **系统 Prompt (System Prompt)**
    您是一个评估 AI 助手交互的专家 Judge。您的任务是给定一个参考的 Golden Solution,判断 Assistant 是否成功解决了用户的请求

    关键评估标准:
    1. Assistant 是否完成了用户请求的主要任务?
    2. 最终 Solution 中是否存在任何错误或问题?

    仅用 "<judgement>YES</judgement>" 或 "<judgement>NO</judgement>" 回应

    **用户 Prompt (User Prompt)**
    作者正在解决仓库中的以下问题。这是问题文本:
    — BEGIN ISSUE —
    {problem_statement}
    — END ISSUE —

    以下是一些代码片段,每个来自一个相关文件。这些文件中可能有一个或多个包含错误
    — BEGIN FILE —
    {content}
    — END FILE —

    请首先根据问题陈述定位错误,然后生成 SEARCH/REPLACE 编辑来修复问题
    1. 以 "diff\n" 开始表示一个 diff 块,并以 "" 结束整个块
    2. 文件路径
    3. 搜索块的开始:<<< SEARCH
    4. 要在现有源代码中搜索的连续行块
    5. 分隔线:=====
    6. 要替换到源代码中的行
    7. 替换块的结束:>>> REPLACE
    这是参考的 Golden git diff Solution:
    {golden_patch}
    这是 Assistant 的 Solution:
    {model_patch}

    请比较 Assistant 的 Solution 和参考的 Golden git diff Solution,并判断 Assistant 的 Solution 是否成功解决了问题。请注意,Solution 不需要与参考的 Golden Solution 完全相同。运用你自己的知识来判断 Assistant 的 Solution 是否成功解决了问题。用 "<judgement>YES</judgement>" 或 "<judgement>NO</judgement>" 回应

C.3. Prompt Templates for Test-Time Scaling on IOI 2025,IOI 2025 上 TTS 的 Prompt 模板

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Write Python code to solve the problem. Please place the solution code in the following format:
“‘python
# Your solution code here
“‘
{problem_statement}
Below you are provided the accepted correct solutions but with different input constraints. You may use
them as a reference for your insights.
=======================
## Different Constraints (for reference only):
{subtask_constraints}
### Accepted Code:
[CODE]
=======================
## Different Constraints (for reference only):
...
=======================
From here, you are also given your submission history containing **incorrect** code and their corresponding official judgement verdicts as reference – Official judgement verdicts and problem statement/-
conditions are 100% reliable. You should make improvements from them if they could help:
=======================
### Incorrect Code
[CODE]
Judgement Verdict: [VERDICT], Score: [SCORE]
=======================
### Incorrect Code
...
=======================

附录 D:Training Hyperparameters

D.1. Multi-Stage SFT

  • 表 14 中列出了 8B 和 14B 模型多阶段 SFT 的超参数

D.2. RLHF

  • 表 15 中展示了 8B 和 14B 模型的 RLHF 超参数

D.3. IF-RL

  • 8B 和 14B 模型在 IF-RL 训练中的超参数在表 16 中

D.4. Math RL

  • 用于 Math RL 训练的 8B 和 14B 模型的超参数分别列于表 17 和表 18 中

D.5. Code RL

  • 8B-Thinking、8B unified 和 14B-Thinking 模型在 Code RL 中的超参数在表 19 中
    <img src=”/Notes/NLP/LLM-Technical-Reports/NLP——技术报告解读-Nemotron-Cascade/Nemotron-Cascade-Table19.png” title=”” height=”90%” width=”90%”

D.6. SWE RL

  • 用于 SWE RL 训练的 8B unified、8B-Thinking 和 14B-Thinking 模型的超参数列于表 20 中

附录 E:ELO Rating Analysis

  • 本节详细介绍了 Nemotron-Cascade-8B 和 Nemotron-Cascade-14B-Thinking 模型报告的 Codeforces Elo 评级,该评级基于 2501-2507 年间举行的 51 场近期 Codeforces 竞赛
  • 问题和评估由 LiveCodeBench Pro (2025) 提供
    • 对于每场竞赛,通过允许模型对每个问题最多进行 \(N\) 次独立提交(\(N\) 默认设置为 8)来模拟参赛,并使用温度为 0.6、top-p 为 0.95 以及最大 Token 预算为 128K 来生成模型的 Response
    • 设 \(k\) 表示这 \(N\) 次尝试中正确提交的次数,\(N - k\) 表示错误提交的次数(\(0 \leq k \leq N\))
    • 在实际竞赛中,提交是按顺序进行的,罚时提交次数由第一次正确提交之前的错误提交次数定义
    • 为了估算提交惩罚,假设 \(k\) 次正确和 \(N - k\) 次错误提交的顺序在 \(\binom{N}{k}\) 种排列上均匀分布,预期的惩罚次数可以推导为:
      $$\mathbb{E}[\# \text{ of penalties}] = \frac{N - k}{k + 1}$$
  • 采用标准的 Codeforces 竞赛规则:
    • 对于常规的 Codeforces 轮次,对每次预期的惩罚应用 50 分的分数惩罚
    • 对于 ICPC 风格的轮次(例如 Educational 轮次,Div.3 轮次),每次错误提交增加 10 分钟的时间惩罚
    • 未解决问题的惩罚将不予考虑
  • 根据最终得分,将模型的竞赛表现与 \(n\) 个真实人类参赛者进行排名,得到名次 \(m\)(\(1 \leq m \leq n + 1\)),并按照标准 Elo 评级定义 (2025) 通过求解下式计算隐含的表现评级 \(R_{\text{model} }\):
    $$m = \sum_{i = 1}^{n}\frac{1}{1 + 10^{(R_{\text{model} } - R_i) / 400} }$$
    • 其中 \(R_{i}\) 指每场竞赛前人类参赛者 \(i\) 的 Elo 评级
  • 本文报告在 51 个 Codeforces 轮次上的平均表现评级作为作者的最终 Elo 分数,并在表 21 和表 22 中分别展示了作者的 Nemotron-Cascade-8B 和 Nemotron-Cascade-14B-Thinking 模型的性能细节
    • 模型在不同竞赛中的估计表现评级存在很大差异
      • 例如,Nemotron-Cascade-14B-Thinking 模型在 Codeforces Round 1015 上达到了 2600 以上的估计表现评级,但在 Round 1024 Div.1 上未能解决任何问题(即使尝试了 8 次),获得的 Elo 评级低于 1000
    • 编码问题解决行为的不一致性:
      • 虽然模型有时能够解决非常困难的问题,但它也可能在相对简单的问题上卡住,甚至在同一场竞赛中也是如此
      • 此外,该模型在可通过标准技术、大量实现或直接直觉解决的问题上表现良好,但通常在需要通过小规模数据探索或特定想法(Ad Hoc Ideas)(例如构造性(Constructive)或交互式(Interactive)问题)进行假设驱动探索的问题上遇到困难
        • 这可能是未来理解和改进此类推理能力的一个有趣方向
  • 注:表 21 和 表 22 详情见原始论文

AGI——林俊旸博客-From-Reasoning-Thinking2Agentic-Thinking

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始博客链接:From Reasoning “Thinking” to Agentic “Thinking”, 20260326, 林俊旸
    • 注:博客原始发布于 X 上

博客核心观点总结

从 Reasoning “Thinking” 到 Agentic “Thinking” 的范式转移

  • 本文的观点更像是回顾
    • 虽然本文核心观点在这个时间点已经不算是很新了,从 Claude 4 到 DeepSeek-V3.2 等来看,基本是大家的共识了
    • 但是本文带着 Qwen 团队当年的一些尝试和思考,仍然是值得一读的
  • 过去两年模型评估的重点正从 “让模型思考更长” 转向 “让模型为了行动而思考”
    • “让模型为了行动而思考” 即在与环境互动中持续更新计划、采取行动
  • 注:原文其实有点没有明确,这里的 Agentic “Thinking” 可能是指下面两种可能:
    • 目标视角:强调 让模型为了行动而思考(Thinking)这个目标
    • 过程视角:强调 在 Thinking 时进行 Agentic 行为(比如 工具调用)这个过程
    • 这两个方式并不耦合,本文的很多内容感觉是在聊 过程视角 ,但很多句子会给人在聊 目标视角 的感觉
      • 原文2:I believe the answer is agentic thinking: thinking in order to act, while interacting with an environment, and continuously updating plans based on feedback from the world.
        • 这里看,似乎也在强调目标是为了 Act
      • 原文1:Agentic thinking is a model that reasons through action
        • 这里看, Agentic thinking 强调的是 允许 LLM 在思考时调用工具
    • 个人理解:
      • 林俊旸的意思是:Agentic Thinking 的定义是为了做出正确的 Act 而 Thinking,同时允许 Thinking 过程中与环境交互(比如调用工具等 Act)
      • 实际上,个人理解在非 Agentic 场景(比如 Open Knowledge QA 场景)中,也可以让 LLM 在 Thinking 过程中与环境交互
        • 此时 LLM 已经具备 Agentic 能力,但目标并不是作出正确的 Act(除非把开放式问答的 Answer 也视作一个 Agentic Act)

推理模型的成功本质上是基础设施的成功

  • 25 年前后,OpenAI 的 o1 和 DeepSeek R1 先后证明了通过强化学习训练模型进行“思考前回答”是可行的,且这一方向可以在不同实验室复现和扩展
  • 推理模型的训练依赖于大规模 rollout、高吞吐验证、稳定策略更新等系统能力,其突破不仅是算法问题,更是基础设施问题

融合 “Thinking Mode” 与 “Instruct Mode” 的思考

  • 融合 “Thinking Mode” 与 “Instruct Mode” 比预期更困难
    • Qwen3 等模型尝试统一两种 Modes ,但两者的数据分布和行为目标存在根本冲突:
      • Instruct Mode 追求简洁、低延迟
      • Thinking Mode 追求深度推理与正确性,融合不当会导致两端表现都受损
  • 实践中“分离”比“融合”更符合商业需求
    • 在 Qwen 后续版本(如 2507 系列)中,团队选择将 Instruct 和 Thinking 作为独立产品线发布,因为大量企业用户仍需要高吞吐、低成本、可操控的纯 Instruct 行为
  • Anthropic 提供了另一种思路:可控预算的集成推理
    • Anthropic 的 Claude 3.7 和 Claude 4 主张将推理作为集成能力,允许用户设置 “Thinking Budgets” ,并在扩展思考中支持工具调用,强调思考应为真实任务(如编码、智能体工作流)服务

“ Agentic Thinking ” 的核心是 “通过行动进行思考”

  • 原文:Agentic thinking is a model that reasons through action
  • 与纯推理不同, Agentic Thinking 要求模型能够决定何时行动、调用哪些工具、处理环境反馈、在失败后修正计划,并在多轮交互中保持连贯性
  • 注:原文也有提到,即使是数学、代码等传统推理任务,更优的方式也不是让模型输出更长的内部独白,而是允许其搜索、模拟、执行、观察、验证

智能体 RL 的基础设施难度远高于推理 RL

  • 智能体训练涉及工具服务器、浏览器、模拟器等复杂环境,训练与推理必须解耦,否则 rollout 吞吐量会因工具延迟和环境状态而严重下降
  • 环境设计成为智能体时代的关键研究工件
    • 在智能体时代,环境的质量(稳定性、真实性、覆盖度、困难程度、状态多样性、反馈丰富度、Exploit Resistance、可扩展性)与模型本身同等重要,环境构建正在成为一个独立的创业方向
      • Exploit Resistance 主要是指 “抗利用性”,即防止模型 Reward Hacking 的能力
    • 原文:

      In the agent era, we should obsess over environment quality: stability, realism, coverage, difficulty, diversity of states, richness of feedback, exploit resistance, and scalability of rollout generation

  • Reward Hacking 在智能体时代更加危险
    • 当模型获得工具访问权限后,可能通过查答案、利用环境漏洞等方式作弊,因此环境设计、评估器鲁棒性和反作弊机制成为新的研究瓶颈

未来

  • Agentic thinking 将变成 thinking 的主流
    • Even on very difficult math or coding tasks, a genuinely advanced system should have the right to search, simulate, execute, inspect, verify, and revise. The objective is to solve problems robustly and productively.
  • 竞争焦点从“模型训练”转向“系统构建”
    • 未来的竞争优势不再仅来自更好的 RL 算法或训练数据,而是来自更好的环境、更紧密的训练-服务集成、更强的框架工程,以及多个智能体协同的系统能力

原文完整译文

From “Reasoning” Thinking to “Agentic” Thinking

  • 过去两年重塑了我们评估模型的方式以及对它们的期望
    • OpenAI 的 o1 表明,“思考”可以成为一种一等公民能力,一种可以为其进行训练并向用户展示的能力
      • DeepSeek-R1 证明了推理式的后训练可以被复现和扩展
    • OpenAI 将 o1 描述为一个通过强化学习训练的模型,能够“在回答之前思考”
      • DeepSeek 则将 R1 定位为一个与 o1 具有竞争力的开放推理模型
  • 2025 年上半年主要关注的是 “Reasoning Thinking”:
    • 如何让模型花费更多的推理时计算,如何用更强的奖励信号训练它们,以及如何展现或控制这种额外的推理努力
  • 现在的问题是,接下来是什么?
    • 作者相信答案是 “Agentic Thinking”:为了行动而思考,同时与环境互动,并根据来自世界的反馈持续更新计划

What the Rise of o1 and R1 Actually Taught Us,o1 和 R1 的兴起实际教会了我们什么

  • 第一波推理模型教会我们,如果想在语言模型中扩展强化学习,需要确定性的、稳定的、可扩展的反馈信号
    • 数学、代码、逻辑和其他可验证的领域变得核心,因为这些场景中的奖励远强于通用的偏好监督
    • 它们让 RL 能够优化正确性而非合理性
    • 基础设施变得至关重要
  • 一旦模型被训练成能够通过更长的轨迹进行推理,RL 就不再是监督式微调之上的一个轻量级附加项
    • RL 变成了一个系统性问题
    • 需要大规模的 rollout、高吞吐量的验证、稳定的策略更新、高效的采样
    • 推理模型的出现既是一个建模故事,也是一个基础设施故事
  • OpenAI 将 o1 描述为一个通过 RL 训练的推理系列
    • DeepSeek R1 后来通过展示基于推理的 RL 需要多么专注的算法和基础设施工作,进一步强化了这一方向
  • 第一个重大转变:从扩展预训练转向扩展后训练以进行推理

The Real Problem Was Never Just “Merge Thinking and Instruct”,真正的问题从来不仅仅是“融合 Thinking 与 Instruct”

  • 在 2025 年初,Qwen 团队中的许多人都怀有一个雄心勃勃的构想
    • 理想的系统将统一 Thinking Mode 和 Instruct Mode
  • 这个统一 Mode 将支持可调节的推理投入,类似于低/中/高推理设置的思路
    • 而且它会根据 Prompt 和上下文自动推断出适当的推理量 ,这样模型就可以决定何时立即回答,何时思考更长时间,以及何时在真正困难的问题上花费更多的计算资源
  • 从概念上讲,这是正确的方向
    • Qwen3 是最清晰的公开尝试之一
    • Qwen3 引入了“混合 Thinking Mode”
      • 在一个家族中同时支持 Thinking 和非 Thinking 行为,强调了可控的 Thinking 预算,并描述了一个四阶段的后训练流程,该流程在长链 Thinking 冷启动和推理 RL 之后明确包含了 “Thinking Mode 融合”
  • 融合说起来容易,做起来难
    • 难点在于数据
    • 当人们谈论融合 Thinking 和 Instruct 时,通常首先想到的是模型端的兼容性:
      • 一个 checkpoint 能否同时支持两种 Mode
      • 一个聊天模板能否在它们之间切换
      • 一个服务栈能否暴露正确的开关
    • 更深层的问题是,两种 Mode 的数据分布和行为目标是截然不同的
  • 在尝试平衡模型融合与提高后训练数据的质量和多样性时,Qwen 并未在所有方面都做到完美
    • 在那个修订过程中,Qwen 也密切关注用户实际如何使用 Thinking Mode 和 Instruct Mode
      • 一个强大的 Instruct 模型通常因其直接性、简洁性、格式符合度、在重复性、高并发的企业任务(如重写、标注、模板化支持、结构化提取和运营 QA)上的低延迟而受到青睐
      • 一个强大的 Thinking 模型则因其在难题上花费更多 token、保持连贯的中间结构、探索替代路径以及保留足够的内部计算以切实改进最终正确性而受到青睐
    • 这两种行为特征相互冲突
      • 如果融合后的数据没有经过精心整理,结果通常是两边都表现平庸:
        • “Thinking” 行为变得嘈杂、臃肿或不够果断
        • “Instruct” 行为则变得不那么清晰、不那么可靠,并且比商业用户实际想要的成本更高
  • 在实践中,分离仍然具有吸引力
    • 在 2025 年晚些时候,继 Qwen3 最初的混合框架之后,2507 系列发布了独立的 Instruct 和 Thinking 更新,包括单独的 30B 和 235B 变体
    • 在商业部署中,大量客户仍然希望为批处理操作提供高吞吐量、低成本、高度可操控的 Instruct 行为
      • 对于这些场景,融合显然不是一项优势
      • 分离这些产品线使得团队能够更清晰地专注于解决每种 Mode 的数据和训练问题
  • 其他实验室选择了相反的道路
    • Anthropic 公开主张一种集成的模型理念:Claude 3.7 Sonnet 被作为一个混合推理模型推出,用户可以选择普通响应或扩展思考,API 用户可以设置 Thinking Budgets
    • Anthropic 明确表示,他们认为推理应该是一种集成的能力,而不是一个独立的模型
    • GLM-4.5 也公开定位为一个具有 Thinking 和非 Thinking Mode 的混合推理模型,统一了推理、编码和智能体能力
    • DeepSeek 后来也通过 V3.1 的 “Think & Non-Think” 混合推理向类似方向发展
  • 关键问题在于融合是否是“有机的(organic)”
    • 如果 Thinking 和 Instruct 仅仅被共同放置在一个 checkpoint 内,但行为仍然像两个生硬拼凑的人格,那么产品体验仍然不自然
    • 一个真正成功的融合需要一个平滑的推理投入谱系
      • 模型应该能够表达多个层次的投入,并且理想情况下能够自适应地选择它们
      • 类似 GPT 的投入控制方式指向了这一点:一种基于计算量的策略,而不是一个二元开关

Why Anthropic’s Direction Was a Useful Corrective,有用的修正

  • Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述是克制的
    • 他们强调了集成推理、用户可控的 Thinking Budgets 、真实世界任务、编码质量,以及后来在扩展思考期间使用工具的能力
    • Claude 3.7 被作为一个具有可控预算的混合推理模型推出
    • Claude 4 则通过允许推理与工具使用交错进行扩展了这一特性,同时 Anthropic 强调编码、长期运行任务和智能体工作流是主要目标
  • 产生更长的推理轨迹并不会自动使模型更智能
    • 在许多情况下,过度的可见推理痕迹表明分配不当
    • 如果模型试图以同样的冗长方式对所有事情进行推理,它可能未能区分优先级、未能压缩信息、或者未能采取行动
    • Anthropic 的轨迹暗示了一种更严谨的观点:
      • 思考应该根据目标工作负载来塑造
      • 如果目标是编码,那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排
      • 如果目标是智能体工作流,那么思考应该提高长期执行的质量,而不是仅仅产生令人印象深刻的中间文本
  • 这种对目标效用的强调指向了更大的方向:
    • 我们正在从训练模型的时代转向训练智能体的时代
    • 作者他们在 Qwen3 的博客中明确指出了这一点,写道 “我们正在从一个专注于训练模型的时代过渡到一个以训练智能体为中心的时代”,并将未来的 RL 进展与环境反馈联系起来,以实现长程推理
      • 一个智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略并在长时间跨度内持续运行的系统
      • 它由与世界的闭环互动来定义

What “Agentic Thinking” Really Means

  • Agentic Thinking 是一个不同的优化目标
    • 推理 Thinking 通常通过最终答案前的内部推演质量来判断:模型能否解出定理、写出证明、生成正确的代码或通过基准测试
    • Agentic Thinking 关注的是模型在与环境互动时能否持续取得进展
      • 注:从这里看,作者似乎想将 Agentic Thinking 定义为 过程视角
  • 核心问题从“模型能思考足够久吗?”转变为“模型能以维持有效行动的方式思考吗?”
    • Agentic Thinking 必须处理几个纯推理模型大多可以避免的问题:
      • 决定何时停止思考并采取行动
      • 选择调用哪个工具以及按什么顺序
      • 整合来自环境的嘈杂或不完整的观察结果
      • 在失败后修正计划
      • 在多个回合和多次工具调用中保持连贯性
      • Agentic Thinking 是一个通过行动进行推理的模型

Why Agentic RL Infrastructure Is Harder,智能体 RL Infra 更难

  • 一旦目标从解决基准问题转向解决交互式任务,RL 技术栈就会发生变化
    • 用于经典推理 RL 的基础设施是不够的
    • 在推理 RL 中,通常可以将 rollout 视为大部分自包含的轨迹,并使用相对清晰的评估器
    • 在智能体 RL 中,策略被嵌入到一个更大的框架中:
      • 工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、内存系统和编排框架
      • 环境不再是一个静态验证器,它是训练系统的一部分
  • 这创造了一个新的系统需求:训练和推理必须更清晰地解耦
    • 没有这种解耦,rollout 吞吐量会崩溃
    • 考虑一个必须针对实时测试工具执行生成代码的编码智能体:
      • 推理端等待执行反馈时会停滞,训练端因缺少完整的轨迹而饥饿,整个 Pipeline 的 GPU 利用率远低于你对经典推理 RL 的预期
      • 添加工具延迟、部分可观测性和有状态环境会放大这些低效问题
        • 结果:实验速度会大幅变慢
  • 环境本身也成为一个一流的研究工件
    • 在 SFT 时代,我们痴迷于数据多样性
    • 在智能体时代,我们应该痴迷于环境质量:稳定性、真实性、覆盖率、难度、状态多样性、反馈丰富度、防利用性以及 rollout 生成的可扩展性
    • 环境构建已经开始成为一个真正的初创公司类别,而不是一个附带项目
    • 如果智能体被训练用于类似生产的环境,那么环境就是核心能力栈的一部分

The Next Frontier Is More Usable Thought,前沿思考

  • 作者预计 Agentic Thinking 将成为思考的主导形式
    • Agentic Thinking 最终可能会取代许多旧的静态独白式推理 Thinking :那些过长、孤立、试图通过输出更多文本来弥补缺乏互动的内部轨迹
    • 即使在非常困难的数学或编码任务上,一个真正先进的系统也应该有权进行搜索、模拟、执行、检查、验证和修订,目标是稳健且高效地解决问题
  • 训练此类系统最困难的挑战是 Reward Hacking
    • 一旦模型获得了有意义的工具访问权限, Reward Hacking 就会变得更加危险
      • 一个拥有搜索功能的模型可能学会在 RL 期间直接查找答案(问题:这没问题吧?)
      • 一个编码智能体可能利用仓库中的未来信息、滥用日志或发现使任务无效的捷径
      • 一个带有隐藏漏洞的环境可以让策略看起来超常,但实际上是在训练它作弊
    • 这就是智能体时代变得比推理时代更加微妙的地方
      • 更好的工具使模型更有用,但它们也扩大了虚假优化的攻击面
    • 我们应该预期,下一个严峻的研究瓶颈将来自环境设计、评估器鲁棒性、反作弊协议以及策略与世界之间更原则性的接口
      • 尽管如此,方向是明确的
      • 支持工具的思考就是比孤立的思考更有用,并且更有机会提高实际生产力
  • Agentic Thinking 也将意味着框架工程
    • 核心智能将越来越多地来自多个智能体如何组织:
      • 一个负责规划和分配工作的编排器,充当领域专家的专用智能体
      • 一些执行更狭窄任务的子智能体,同时帮助控制上下文、避免污染并保持不同推理层次之间的分离
      • 未来是从训练模型到训练智能体,以及从训练智能体到训练系统的转变

Conclusion

  • 推理浪潮的第一阶段确立了一件重要的事情:
    • 当反馈信号可靠且基础设施能够支持时,在语言模型之上进行 RL 可以产生质量上更强的认知能力
  • 更深层的转变是从推理 Thinking 到 Agentic Thinking :
    • 从思考更长时间到为了行动而思考
  • 训练的核心对象已经改变
    • 训练的核心是“模型加环境”系统(model-plus-environment system),或者更具体地说,是智能体及其周围的框架(Harness)
    • 这改变了之前关于 “哪些研究组件最重要(what research artifacts matter most)” 的认知:
      • 关键 Artifacts: 模型架构和训练数据、环境设计、rollout 基础设施、评估器鲁棒性以及多个智能体协调的接口
    • 这也改变了 “Good Thinking” 的含义:最有助于在现实世界约束下维持行动的轨迹,而不是最长或最显眼的轨迹
    • 这还将改变竞争优势的来源
      • 在推理时代,优势来自更好的 RL 算法、更强的反馈信号和更可扩展的训练 Pipeline
      • 在智能体时代,优势将来自更好的环境、更紧密的“训练-服务”集成、更强的框架工程,以及能够在模型的决策与其产生的后果之间形成闭环的能力
12…66
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

652 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4