Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

NLP——LLM对齐微调-Self-Rewarding-RubricRL

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Self-Rewarding-RubricRL) Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning, 20250919, Ant Group

Paper Summary

  • 整体说明:
    • 论文介绍了一种轻量级的训练范式 用于开放域推理的 Rubric-based RL Self-rewarding 强化学习(Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning) ,在基于 Rubric 验证的奖励下,用策略模型本身替代了单独的奖励模型
      • 这种方法在降低训练成本的同时,提升了在困难任务上的性能
    • 核心创新点:自己作为自己的 Grader,不断“互相”进化(循环进化)
    • 注意:这项工作的实验仅限于医疗领域的 HealthBench
      • 作者相信该方法对其他开放域任务也会有效,未来的工作应探索更广泛的领域
    • 阅读问题:
      • 在数据分析阶段,全文包含了许多图片和文字描述不一致的情况!深究下去比较浪费时间,不建议深究,仅关注论文的核心贡献是 Self-Rewarding 即可
  • 背景 & 问题:
    • 开放式评估对于在现实世界场景中部署大语言模型至关重要
    • 在研究 HealthBench 时,作者观察到使用模型自身作为 Grader 并生成 Rubric-based 奖励信号,能显著提高推理性能(训练后的模型也会成为更强的 Grader )
  • Motivated by this,论文提出了 Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning
    • 一个轻量级框架,能够实现更快、更高效的资源利用训练,同时超越 Baseline 方法
    • 在 Qwen3-32B 模型上,仅使用 4000 个样本的 HealthBench Easy 子集进行训练,就足以获得一个在 HealthBench Hard 上性能超过 GPT-5 的模型
    • 加入少量由教师(Teacher)评分的数据可以进一步提升能力较弱模型的性能

Introduction and Discussion

  • 随着 OpenAI o1 (2024) 的发布和 DeepSeek R1 (2025) 的开源,基于 RLVR 的推理模型已迅速成为社区关注的焦点,为大型语言模型引入了第二个可扩展性维度
  • 早期的研究主要集中在提升数学和编码能力,而最近的开源模型如 Kimi K2 (2025) 和 GLM-4.5 (2025) 则将注意力转向训练智能体能力
    • 与开放式(Open-Ended)推理相比,这些场景下的奖励信号相对明确
  • 在实际应用中,用户通过多轮对话与模型交互,并提出开放式问题,这与基准测试类型的任务有很大不同
    • 因此,用于评估和强化学习的可靠奖励信号要难以获取得多
  • 这一挑战在医疗保健领域(healthcare domain)尤为突出(Particularly pronounced) ,因为用户期望获得值得信赖且可靠的回答
    • 为解决此问题,OpenAI 引入了一个名为 HealthBench (2025) 的开源基准
      • HealthBench 是一个基于对话的开放式评估基准,旨在评估语言模型在医学领域的能力
      • HealthBench 采用 LLM-as-a-Judge (2023) 框架,并使用基于详细 Rubric 的评分系统,针对特定任务的标准来评估模型性能
  • 为应对这一挑战,论文专注于 HealthBench 基准测试,并提出Self-rewarding Rubric-based 的开放式推理强化学习 ,
    • 该方法直接利用 Rubric-based 评估信号进行训练,并整合了模型的自我评分(self-grading)
  • 论文的方法显著降低了资源消耗,提高了训练效率,同时提升了性能

Background and Preliminary Experiments

Background on Open-Ended Evaluation

  • 自从将 RLVR 引入训练以来,LLMs 在具有客观可验证事实依据的任务上取得了显著进步,例如:
    • 数学领域的 AIME 和 FrontierMath (2025);
    • 编码领域的 SWE-bench (2024) 和 Aider Polyglot (2025);
    • 用于指令遵循或工具使用的 BrowseComp (2025) 和 Tau2-bench (2025)
    • 这展示了强大的推理时 Scaling 能力(inference-time scaling capabilities.)
    • 这些进步主要归因于在强化训练期间,此类任务中存在定义明确的奖励信号
  • By Contrast,针对大语言模型的开放式评估基准相对较少
    • 代表性的例子包括 LMSYS Chatbot Arena (2023)、 MT-Bench (2023) 和 AlpacaEval (2023),但这些基准通常依赖于 LLMs 或人类专家作为 Grader ,这带来了潜在的偏见和可扩展性问题
  • HealthBench 是一个医学领域的开放式评估基准,包含 5000 个对话实例,其模型回答根据 Task-specific Rubric 进行评估,论文主要关注 HealthBench ,原因如下:
    • HealthBench 的基准数据由具有临床实践经验的医师标注,确保了正确性和领域专业知识,因此与 LMSYS Chatbot Arena (2025) 相比减少了偏见
    • HealthBench 包含一个由 1000 个问题组成的 HealthBench Hard 子集,前沿模型在该子集上的得分尚未超过 50% ,这使其适合研究开放式回答中的推理
    • HealthBench 提供了一个元评估(在论文中称为 HealthBench Meta ),该评估使用宏观 F1 分数来量化 LLM Grader 与人类医师之间的差异

Meta Evaluation of Open-Source Models on HealthBench

  • HealthBench 依赖闭源模型 GPT-4.1 进行评分,这对评估的可重复性和训练的可行性提出了挑战
    • 因此,论文使用不同规模的开源模型进行 HealthBench 评估
    • 论文使用 simple-evals 进行评估,采样参数详见附录 A.1
  • 如图 2 所示,虽然 GPT-4.1 仍然是最强的 Grader (0.709),但开源模型正在逐步追赶
    • 例如 Kimi-K2-Instruct (0.693) 和 Qwen3-235B-Instruct-2507 (0.681),并且呈现出模型越大得分越高的趋势
    • Notably,对于 Qwen3 的混合推理模型,无思考模式(nothink mode)的得分低于思考模式(think mode)
      • 这种性能下降在 MoE 模型中尤为明显,Qwen3-235B-A22B 下降了 0.055
      • 理解:
        • 图 2 中,nothink/think 是在同一个图上的, 模型也相同,只是灵活取消了 think 作为 nothink
        • 这里的 nothink 主要是只同一个模型既可以 think 又可以不 think 时的 nothink 选项;与传统的 nonthinking 模型不完全一致
  • 论文还测试了 Qwen3-32B 在不同采样温度下的评分能力,如表 2 所示
    • 结果表明,Qwen3-32B 在评分能力上对采样温度不敏感,得分在 0.670 左右波动
    • 理解:这里给了个很好的实例,调整模型的采样温度实际上不一定影响很大(表 2 中从 0.0 到 1.0 都试了,分数几乎没有太大变化)
  • Furthermore,论文使用 GPT-4.1、Kimi-K2-Instruct 和 Qwen3-32B 自身分别作为 Grader ,以思考模式评估 Qwen3-32B 作为采样模型
    • 如表 1 所示,随着 Grader 能力的增强,Qwen3-32B 在 HealthBench Hard 上的得分降低,这表明较弱的 Grader 往往会由于评估错误而给出更高的分数

Preliminary Experiments

  • 论文进行了初步实验,以研究使用开源模型作为 Grader 来训练开放式推理任务的可行性
  • 除非另有说明(Unless otherwise specified),后续章节中的实验训练数据和参数均与本节介绍的一致
Models and Datasets
  • 如图 2 和表 1 所示,Qwen3-32B 是一个合理的选择
  • 在后续的 Self-rewarding 实验中,论文验证了即使是较弱的 Qwen3-8B 也能取得良好的性能
  • 对于训练数据,论文将其分为两类:
    • 一类是基准和合成数据,其中每个 Prompt 都附带 Rubric 及其对应的分数;
    • 另一类是论文收集的 GPT-4.1 评分数据,用于判断特定 Response 是否满足特定 Rubric
  • 在整篇论文中,论文使用以下数据集术语:
    • Easy data :4000 个 HealthBench Easy 样本,除非另有说明,否则用于训练
    • Synthetic data :4000 个与 Easy 数据类似的合成生成样本
    • Scoring data :1000 个论文从先前评估中收集的 GPT-4.1 评分样本
    • Mixed data :Easy 数据和 Scoring 数据的组合,总计 5000 个样本
  • 在本节中,论文主要使用 Easy 数据进行训练,并在 HealthBench Hard 的 1000 个问题上评估模型的推理能力
    • 在后续的 Self-rewarding 实验中,论文也使用合成数据进行训练,但这并非论文重点

Training Details

  • SFT :
    • 由于 HealthBench 为大多数样本提供了理想的完成结果,论文首先在 Easy 数据集上进行 SFT。论文使用批大小为 64,学习率为 1e-5,序列长度为 4096,训练 3 个轮次
  • RL :
    • 论文使用 GRPO 算法,并采用 DAPO 的大部分参数
    • 论文通过 verl 实现,最大 Prompt 长度为 2048 个 token,最大 Response 长度为 6144 个 token,训练 Prompt 批大小为 32,每个 Prompt 生成 4 个 Response,训练 10 个轮次
      • 其他详细参数在附录 A.3 中提供
    • 论文使用生成式奖励模型(generative reward model,GRM)来评判每个 Rubric 是否被满足并相应赋分 ,奖励计算详见第 3.4.1 节
      • 本节实验中,GRM 是处于思考模式的静态 Qwen3-32B 模型
Reward Formulation for Reinforcement Learning
  • RL 的训练目标与 DAPO 类似,采用 clip-higher 策略、token 级别的梯度损失,并省略了 KL 惩罚项,其目标函数如下:
    $$
    \mathcal{J}(\theta)= \mathbb{E}_{(q,\mathcal{R})\sim\mathcal{D},\{o_{i}\}_{i=1}^{G} \sim\pi_{\theta_{\text{old} } }(\cdot|q)}
    \left[\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min \left(w_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(w_{i,t}(\theta), 1-\varepsilon_{\text{low} },1+\varepsilon_{\text{high} }\right)\hat{A}_{i,t}\right)\right] \tag{1}
    $$
    • \(\pi_{\theta}\) 是语言模型
    • \(q\) 是从 Prompt 集 \(\mathcal{D}\) 中采样的 Prompt
    • \(\mathcal{R}\) 是 \(q\) 对应的特定 Rubric 集
    • 每个 Prompt 生成 \(G\) 个样本的组
    • \(w_{i,t}=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{\text{old} } }(o_{i,t}|q,o_{i,< t})}\) 是重要性采样比率
  • Importantly,优势估计通过下式进行:
    $$
    \hat{A}_{i,t}=\frac{S_{i}-\text{mean}(\{S_{i}\}_{i=1}^{G})}{\text{std}(\{S_{i}\}_{i=1}^{G})} \tag{2}
    $$
    • 其中 \(S_{i}\) 是组中第 \(i\) 个样本的奖励分数
  • 对于每个样本,奖励分数 \(S\) 的计算方法是:
    • 对满足的每个 Rubric \(r_i \in \mathcal{R}\) ,由 \(\color{red}{\pi_{\theta_{\text{old} } } }\) 以生成方式进行判断(Prompt 模板与 HealthBench 相同),并赋予分数点 \(p_i\),将所有赋分累加,然后除以可能的总正分数点,最后将分数裁剪到 [0, 1] 范围
      $$
      S=\frac{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(\color{red}{\pi_{\theta_{\text{old} } }}(r_{i}\text{ criteria_met}))}{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(p_{i}>0)} \tag{3}
      $$
      • 特别注意:这里使用的 Rubric Verifier 是策略自身,即 \(\color{red}{\pi_{\theta_{\text{old} } } }\)
  • 这种方法与先前工作有两点主要不同:
    • 1)它使用针对任务的大量且多样化的特定 Rubric ,而非通用原则(rather than general principles);
    • 2)每个 Rubric 由 GRM 独立评分,提供了清晰、细粒度的(fine-grained)奖励信号
    • 奖励过程受原始 HealthBench 评估协议的启发
Preliminary Results
SFT degrades open-ended reasoning without chain-of-thought(不包含思维链的 SFT 会降低开放式推理能力)
  • 论文观察到,虽然训练损失持续下降,但验证损失在一个轮次后迅速增加,如图 8 所示(附录 A.2)
  • 使用 Kimi-K2-Instruct 作为 Grader ,论文发现 SFT 模型在 HealthBench Hard 上的得分,在验证损失最低的检查点(200 步后),从基础模型的 0.1988 下降到 0.0004,两者均在无思考模式下评估
    • 注意:0.1988 下降到 0.0004 这个分数在 图 8 中没有找到,是其他地方显示的吗?
  • 这一发现与之前的研究 (2024, 2025) 一致,特别是当 SFT 中未包含思维链推理时,模型即使在分布内的挑战性问题上也未能泛化
RL consistently enhances model performance even with limited data(数据有限的情况下,RL 也能持续提升模型性能)
  • 如图 3 所示,训练期间模型的 Response 长度自发增加,奖励持续提升直至达到最大 Response 长度
  • Simultaneously,在 HealthBench Hard 评估中,模型性能持续提升,最终达到 0.446,显著超过 OpenAI o3 的 0.32 分,如图 4 所示
  • 论文观察到,虽然使用 Kimi-K2-Instruct 或 Qwen3-32B 作为 Grader 会得到更高的分数,但趋势保持一致
  • 因此,在后续实验中,论文主要使用开源模型作为 Grader 以降低 API 成本
  • 问题:这里的 RL 训练趋势中,Kimi-K2-Instruct 和 Qwen3-32B 的效果比 GPT4.1 还好,跟前面表 1 中(原始模型能力)的结论看起来不一致,是不是有问题?
Grading ability preserves after RL training
  • 论文评估了 RL 后模型的 HealthBench Meta 分数,发现思考和无思考模式的分数均有轻微提升,如表 3 所示
  • 这一观察结果自然引导论文考虑使用模型自身作为强化学习的 Grader

Method

  • 第 3.3 节验证了使用 Rubric-based RL 奖励来训练开放域推理任务的有效性

  • however,可能存在两个限制:

  • 训练效率瓶颈 (Training Efficiency Bottleneck)

    • 由于在 verl 中实现的 GRPO 采用 on-policy 训练方法,actor 训练必须等待所有样本的奖励计算完成
      • 这极其耗时:
        • 一方面,GRM 评分本身就很慢;
        • 另一方面,每个 Rubric 都需要进行判断,每个样本平均有 11 个 Rubrics,再加上每个样本采样 4 个 Responses
      • 在论文之前的实验中,论文部署了与训练 GPU 数量相同的 SGLang router 服务来进行 GRM 推理
        • 由于性能限制,单步训练时间中大约有 70-80% 消耗在奖励计算上
  • GRM 能力限制 (GRM Capability Constraints)

    • 一个自然的担忧是 GRM 自身的能力可能会限制 RL 训练的效果
    • 出于可扩展性的考虑,作者希望在不依赖比策略模型更大的模型的情况下取得更好的结果
      • 其背后的直觉与 (2024) 类似
  • 根据论文初步实验观察到的模型评分能力在 RL 训练期间没有下降的现象,论文提出了 用于开放域推理的 Rubric-based RL Self-rewarding 强化学习 (Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning) ,如图 1 和算法 1 所示

    • 与原始 GRPO 的关键区别在于,论文通过 Task-specific Rubrics 使奖励信号可验证,并使用模型自身作为奖励模型,在保持有效性的同时大大减少了评分时间
    • 通过使用模型自身作为奖励评估器,这种方法有两个优点:
      • 优点1:减少了训练所需的计算资源
        • 在使用相同数量 GPU 且无需额外推理资源的情况下,单步训练时间最多可减少 30%
      • 优点2:使得训练出的模型能够超越 Baseline 性能
  • 前文公式补充:
    $$
    \mathcal{J}(\theta)= \mathbb{E}_{(q,\mathcal{R})\sim\mathcal{D},\{o_{i}\}_{i=1}^{G} \sim\pi_{\theta_{\text{old} } }(\cdot|q)}
    \left[\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min \left(w_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(w_{i,t}(\theta), 1-\varepsilon_{\text{low} },1+\varepsilon_{\text{high} }\right)\hat{A}_{i,t}\right)\right] \tag{1}
    $$

    $$
    \hat{A}_{i,t}=\frac{S_{i}-\text{mean}(\{S_{i}\}_{i=1}^{G})}{\text{std}(\{S_{i}\}_{i=1}^{G})} \tag{2}
    $$

    $$
    S=\frac{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(\color{red}{\pi_{\theta_{\text{old} } }}(r_{i}\text{ criteria_met}))}{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(p_{i}>0)} \tag{3}
    $$


Results

Self-Rewarding Effectiveness

The model’s scoring ability improves as response length increases(模型的评分能力随着 Response 长度增加而提高)
  • 论文在与第 3.3 节 Baseline 相同的训练设置下,对 Qwen3-32B 进行了 Self-rewarding 实验,使用模型自身作为 Grader (这是一个移动的目标)
    • 注:这里说的 Baseline 是 3.3 节(Preliminary Experiments)中提到的使用开源模型作为 Grader 的方案
  • 由于训练集奖励或验证集分数是由不同的 Grader 评分的,论文无法直接与 Baseline 进行比较,因此论文在图 5a 中提供了 Response 长度的变化过程及其 HealthBench MF1 分数
    • 问题:找一个相同 Grader 来评分不旧好了?
    • 问题:MF1 分数是什么?
      • 回答:HealthBench 的 MF1 分数 是 Macro F1 score(宏 F1,Macro-F1) ,是该医疗评估基准中用于衡量模型分级器(grader)与人类医师评分一致性的核心指标,取值范围为 0 到 1,越接近 1 代表一致性越高,详情见论文附录部分
  • 从图 5 中可以看出:
    • 尽管论文没有显式地训练模型的评分能力,但评分能力并未下降,而是与 Response 长度同步变化,这反过来又提供了更高质量的奖励信号,形成了一个良性循环
      • 理解:其实看起来 MF1 分数的提升很小,累计只有 0.005 左右,其实不能算是看到了持续提升, 更像是持平
    • Especially,图 5a 中的灰色区域表明,与 Baseline 相比,它帮助模型生成了更长的输出
    • Additionally,通过与医生按主题比较 MF1,论文发现模型在大多数主题上都优于原始的 Qwen3-32B;
    • Notably,模型在全球健康和不确定性下响应 (Global Health and Responding Under Uncertainty) 方面超过了医生的加权平均值(见附录 A.4 的图 9)
Once the response length reaches its limit, self-rewarding further enhances the model’s reasoning performance(Response 长度达到限制后, Self-rewarding 能进一步提升推理性能)
  • 论文使用 Qwen3-32B 模型作为 Grader ,在 HealthBench Hard 上评估了实验,结果如图 5b 所示
    • 其中一次 Self-rewarding 运行的评分温度 (grading temperature) 设为 1.0(与 rollout 温度相同),而其他运行则保持建议的 0.6
      • 注:如表 2 所示,温度不应该影响评分性能
  • 最终结果显示所有配置都持续优于 Baseline ,而将评分温度设置为 1.0 时取得了最佳性能
    • 如图 5a 所示, Self-rewarding 比 Baseline 更早达到最大 Response 长度(均在 700-800 步内);
    • 然而,其在图 5b 中显示的 HealthBench Hard 分数持续增加,从而获得了相对于 Baseline 更好的最终结果
    • 理解: Baseline 的配置见 3.3 节(Preliminary Experiments)中提到的使用开源模型作为 Grader 的方案
  • 最后,论文使用 GPT-4.1 作为 Grader 进行了更准确的评估,结果如表 4 所示
    • 论文观察到所有 Self-rewarding 方法都优于 Baseline ,甚至超过了 GPT-5 的性能
  • 此外,论文发现将评分温度设置为与 rollout 温度相匹配会得到更好的结果,这与 Qwen3-32B 评估结果一致,达到了 0.500 的分数
Improvements are observed across most evaluation dimensions
  • 论文分析了不同维度的分数变化,发现在完整性和上下文感知 (context awareness) 方面有显著改善,这对大多数模型来说都具有挑战性
  • 后者尤其要求模型“恰当地响应存在的上下文线索”,需要强大的上下文理解能力
  • 然而,随着输出内容变长,沟通质量 (communication quality) 方面出现了一个负面副作用
    • 即模型的表达变得不够简洁、清晰和易读
    • 这凸显了在开放性问题中需要进行权衡,并表明仍有大量的研究机会
  • 论文比较了原始 Qwen3-32B 模型和 Self-rewarding 模型的分数,发现 82.5% 的样本有所改进
    • 在改进的样本中,与其余样本相比,上下文感知 Rubric 的比例从 20.6% 下降到 17.5%,而沟通质量的比例从 6.0% 增加到 9.1%
    • 相关案例见附录 A.5

Training Efficiency

  • 论文分析了 Self-rewarding 方法相比于 Baseline 方法的训练效率
  • 如表 5 所示,在早期阶段,较短的 average rollouts 使得奖励计算在单步时间中占比较大,而在后期阶段,较长的 rollouts 降低了奖励时间的相对比例
  • Self-rewarding 在单步时间和奖励计算时间上均实现了显著的加速(各阶段均减少约 50%),展示了论文方法的计算优势
  • 请注意, Baseline 训练使用 32 个 GPU 进行训练,另外 32 个 GPU 用于 GRM 推理,而 Self-rewarding 总共只使用 32 个 GPU,所有其他配置保持不变
  • Importantly,观察到的训练效率提升与实现细节密切相关;因此,论文仅报告论文配置下的相对效果

Dataset Influence

Using scoring data further enhances the model’s grading ability(使用评分数据可进一步提升模型的评分能力)
  • 为了进一步评估改进的评分能力如何影响不同规模的训练,论文从前期的 GPT-4.1 评估中构建了一个评分数据集,并使用可验证的奖励目标进行训练
  • 当仅在评分数据上训练时(图 7a),Qwen3-8B 的 HealthBench MF1 从 0.627 提升到 0.651,而 Qwen3-32B 的则从 0.670 提升到 0.684
  • 在混合目标 (mixed-objective) 设置下(图 7b),评分能力进一步提升;
    • 然而,对于 Qwen3-8B,整个训练过程中分数持续增加,而对于 Qwen3-32B,则出现了过拟合
  • 值得注意的是,由于重复输出,Qwen3-8B 的训练在大约 600 步后崩溃,而 Qwen3-32B 的训练则非常稳定
  • 问题:从图 7(a) 看,300 步内,看着整体还是呈现上升状态的,600 步后的崩溃没有给出图像说明
    • 图 7(b) 中给出了 Qwen3-8B 到 600 步以后就没有分数了,看起来像是 Mixed 和 非 Mixed 都同时崩溃?
Mixed-objective training benefits weaker models but not stronger ones(混合目标训练对较弱模型有益,但对较强模型无效)
  • 当使用混合数据 (mixed data) 训练时,Qwen3-8B 的 HealthBench Hard 分数(由 Qwen3-32B 评分)从 0.354 增加到 0.380,而 Qwen3-32B 的性能则如图 5b 所示有所下降
    • 问题:似乎没看到下降,始终高于不适用混合数据的训练方案;只是自身在提升后随着训练的进行有下降趋势(仍始终高于非混合数据方案)
  • 结合图 7b 中观察到的过拟合现象,论文假设较强模型的评分能力对于自我训练已经足够,而混合目标干扰了原始目标
  • 因此,论文建议对较强的模型使用纯 Rubric-based RL 训练目标
Synthetic data remain effective, but underperform expert data
  • 合成数据仍然有效,但表现不及专家数据
  • 同样,像 easy set 这样的专家精心策划的数据收集成本高昂,因此论文评估了合成数据的有效性
  • 如图 5b 所示,使用合成数据进行训练是有效的(effective),但落后于专家数据的 Baseline
    • 这符合预期:更高质量的专家数据为学习提供了更强的指导
    • 问题:合成数据的训练明显是所有方案中 HealthBench Hard 得分最低的,怎么能说是有效的呢?作者是不是看错了?

补充:Related Works

  • 自演进(self-evolving)大语言模型的概念既引人入胜,也在迅速发展
    • 在此,论文总结最相关的研究方向

Reinforcement Learning from AI Feedback,RLAIF

  • RLAIF 最初是作为 RLHF 的替代方案提出的,用于训练模型使其有用、诚实且无害 (2022)
    • 其主要优点是不需要人类标注者,而是依赖于一个标量奖励模型 (2022)
  • (2024) 进一步证明,当奖励模型和策略模型规模相当时,RLAIF 可以达到与 RLHF 相当甚至更优的结果
    • 他们还提出了一种变体,直接 RLAIF(direct-RLAIF),即直接使用更小的通用 LLM 作为 Grader ,其性能可以超越同规模的奖励模型
  • 论文的工作借鉴了这一观点(特别是,生成式奖励模型可能更有效)
    • 通过利用训练好的策略模型本身作为奖励模型来生成奖励信号

Rubrics as Rewards,RaR

  • 同样受 HealthBench (2025) 启发,同时期的工作 (2025) 也探索了使用 Rubric-based 评分信号进行训练
    • However,他们的方法依赖于更强的专有模型作为 Grader
  • In Contrast,论文的工作并不专注于自动构建 Rubric 数据集
    • 因为论文的实验表明,由专家定制的 Rubric 数据在训练效果上具有显著优势

Self-Rewarding Language Models

  • Self-Rewarding Language Models (2025) 首次引入了这种范式,通过对模型自身的回答进行评分,并构建成对偏好数据用于直接偏好优化(DPO)训练
  • However,(2024) 指出这种训练可能会积累偏见,导致优化目标漂移
  • Kimi K2 (2025) 提出了自批判 Rubric 奖励机制(Self-Critique Rubric Reward),该机制针对一组有限的 Rubric 进行成对评估
  • 论文的方法主要采用点式复合奖励(point-wise composite rewards)和广泛的 Task-specific Rubric 来减轻奖励破解(reward hacking),并证明相对较小的开源模型能在困难的开放式推理任务上达到 SOTA 结果

附录 A:更多细节

A.1 Sampling Parameters for Evaluation

  • 关于采样器(Samplers),对于所有开源模型,max_tokens 均设置为 32768
  • 关于 Graders ,对于非推理模型设置为 4096,启用思考模式时设置为 8192
    • 对于 GPT-4.1,参数与原始代码库中提供的保持一致
    • 其他采样参数总结在表 6 中

A.2 SFT Loss Curves

  • Figure 8:

A.3 强化学习的训练细节

  • 由于 verl 中参数和配置的复杂性,论文在此仅列出关键设置;完整的训练脚本将在开源代码库准备就绪后提供
  • 后端(Backends) 论文使用 Megatron 进行 Actor 训练,使用 vLLM 进行 Rollout,但 GRM/评估使用 SGLang 路由器部署
  • 并行策略(Parallelism Strategy) 对于 Qwen3-32B,论文使用 4 路张量并行和 2 路流水线并行进行训练,使用 4 路张量并行进行 Rollout。对于 Qwen3-8B,论文使用 4 路张量并行进行训练
  • ** Baseline SGLang 设置** 每个节点以 8 路数据并行初始化,并通过具有自动负载均衡的 SGLang 路由器连接
  • verl 的特定参数(Specific parameters for verl)
    • 除了混合数据实验外,所有实验的 train_batch_size=32,ppo_mini_batch_size=32;混合数据实验的这些值都设为 40,以保持每步的 Rubric 数据一致
    • max_prompt_length=2k,max_response_length=6k
    • rollout.n=4,rollout.max_model_len=16k
    • rollout.temperature=1.0,rollout.top_p=1.0,rollout.top_k=-1
    • clip_ratio_low=0.2,clip_ratio_high=0.28

A.4 Comparision to Physicians

  • Figure 9:

A.5 案例研究

A.5.1 Performance Improvement Case
  • 详情见原文
A.5.2 Performance Drop Case
  • 详情见原文

附录:HealthBench MF1 指标介绍

  • HealthBench 是 OpenAI 推出的医疗大模型评估基准,核心以医生编写的细粒度评分标准为核心,从 5 大行为维度与 7 大场景主题对模型回复打分,用标准化方式衡量医疗大模型在真实临床交互中的安全性、准确性与实用性
  • HealthBench 原始论文:HealthBench: Evaluating Large Language Models Towards Improved Human Health, OpenAI, 20250513
  • HealthBench HuggingFace:huggingface.co/datasets/openai/healthbench
  • HealthBench 博客链接:Introducing HealthBench, OpenAI, 20250512
  • MF1(Macro F1 分数)是用于二分类任务的性能评估指标,核心是对正类(met)和负类(not-met)的 F1 分数进行无加权平均,能平衡两类结果的评估敏感度,尤其适合类别不平衡的场景(如医疗评分中部分标准极少被触发)
  • 先明确二分类任务中的核心统计量:
    • \( TP_{pos} \):正类真阳性(模型判定“符合标准”且实际符合)
    • \( FP_{pos} \):正类假阳性(模型判定“符合标准”但实际不符合)
    • \( FN_{pos} \):正类假阴性(模型判定“不符合标准”但实际符合)
    • \( TP_{neg} \):负类真阳性(模型判定“不符合标准”且实际不符合)
    • \( FP_{neg} \):负类假阳性(模型判定“不符合标准”但实际符合)
    • \( FN_{neg} \):负类假阴性(模型判定“符合标准”但实际不符合)
  • 单类 F1 分数计算
    • F1 分数是精确率(Precision)和召回率(Recall)的调和平均数,公式为:
      $$ F1 = 2 \times \frac{\text{Precision} \times \text{Recall} }{\text{Precision} + \text{Recall} } $$
    • 分别计算正类和负类的 F1 分数:
      • 正类 F1 分数(\( F1_{pos} \)):
        $$ F1_{pos} = 2 \times \frac{TP_{pos} }{2 \times TP_{pos} + FP_{pos} + FN_{pos} } $$
      • 负类 F1 分数(\( F1_{neg} \)):
        $$ F1_{neg} = 2 \times \frac{TP_{neg} }{2 \times TP_{neg} + FP_{neg} + FN_{neg} } $$
  • MF1 最终计算
    • MF1 是正类与负类 F1 分数的无加权平均值,公式为:
      $$ MF1 = 0.5 \times (F1_{pos} + F1_{neg}) $$

一些简答说明

  • 无加权特性:无论正类、负类样本数量差异多大,两类 F1 分数在计算中权重相同,避免少数类表现被掩盖
  • 医疗场景适配性:在 HealthBench 中,MF1 用于衡量模型评分与医师判断的一致性,能同时捕捉“漏判重要医疗标准”(假阴性)和“误判无关标准”(假阳性),贴合医疗评估的严谨性需求

NLP——LLM对齐微调-SDPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:SDPO: Segment-Level Direct Preference Optimization for Social Agents, 202502, Nankai, Alibaba
      • 论文 GitHub 开源网址:AlibabaResearch/DAMO-ConvAI
      • 论文是 南开实习生在阿里实习时的工作

Paper Summary

  • 整体说明:
    • 论文提出了 Segment-level 直接偏好优化(Segment-Level Direct Preference Optimization, SDPO),用于提升 LLM-based Agent 在多轮社交对话中 的表现
    • 对比:与现有的多轮对齐方法(如 ETO 和 DMPO)不同:SDPO 通过聚焦 Session 中的关键片段(key segments)来优化 Agent 策略
  • 背景 & 问题:
    • LLM 驱动的社交 Agent 能够模拟人类社交行为,但在处理复杂社交对话时仍存在不足
    • DPO 在多种 Agent 任务中已被证明能有效对齐 LLM 行为与人类偏好
      • 标准 DPO 仅关注单轮对话,这限制了其在多轮社交互动中的效果
      • 一些基于DPO的多轮对齐方法(利用 Session-level 数据)已展现出解决这一问题的潜力
    • 这些方法考虑了整个 Session 中的多轮对话,但其粒度通常过于粗糙,会引入训练噪声,且缺乏坚实的理论支持
  • 本文解法:SDPO
    • 该方法通过动态选择交互中的关键分段(Segment)来优化多轮 Agent 行为
    • SDPO 能够最小化训练噪声,并建立在严格的理论框架之上
    • 在 SOTOPIA 基准测试上的评估表明,经 SDPO 调优的 Agent 在性能上 consistently 优于现有的基于 DPO 的方法以及 GPT-4o 等专有 LLM,这凸显了 SDPO 在提升 LLM-based Agent 社交智能方面的潜力
  • 注:论文的代码和数据已开源

Introduction and Discussion

  • LLM 的进步显著提升了其在语言理解和生成方面的能力,尤其是在人机交互领域
  • 通过融入身份特定信息,LLM-based Agent 能够模拟人类社交行为,在角色扮演休闲对话[22, 23]和模拟社交环境导航[24]等任务中展现出基本的社交智能
  • 然而,近期研究[27]表明,在更复杂的、目标导向的社交场景(如谈判、竞争与合作)中,LLM 仍难以表现出人类社交互动中特有的细腻决策能力
  • 为应对这些挑战,研究者们开发了多种方法以更好地对齐 LLM 行为与人类偏好
    • 这些方法为改进 LLM 的社交决策提供了有前景的策略
  • 论文关注基于直接偏好优化(DPO)的方法。标准 DPO[19]通过识别单轮对话,并利用该轮中的“ Positive - Negative (positive-negative)”响应对,通过偏好损失函数优化模型
    • 尽管 DPO 已展现出一定效果,但其对单轮对话的关注限制了其在目标导向社交对话中建模目标完成的能力,因为这类对话的成功通常依赖于跨越多轮的高质量互动
  • 为更有效地对齐多轮互动中的 Agent 行为,研究者提出了多种多轮对齐方法,包括 ETO[20]和 DMPO[26]
    • 这些方法将采样范围从单轮扩展至整个 Session ,通过构建 “good and bad” 的 Session 对并应用改进的 DPO 损失进行训练
    • 论文将这些方法归类为 Session-level DPO,它们在数据粒度和理论基础上均存在局限性
  • 从数据角度来看,Session-level DPO 因其较粗的对齐粒度而存在以下缺陷:
    • (i) Negative Session 中无错误的轮次也会被误判为 Negative 输出 ,从而引入大量噪声,对训练过程产生 Negative 影响
    • (ii) 从零开始采样为对话者(interlocutor)提供了巨大的行动空间。 Positive Session 的高分可能源于对话者行为的改变 ,这使得模型难以从 Positive 样本中学习正确的行为模式
      • 理解:这里是说高分 Session 可能不是 Agent 回答的好,而是 Interlocutor 回答的好
  • 从理论角度来看,在多轮场景中,直接应用 DPO 无法消除配分函数(partition function) \( Z \)(2024)
    • ETO 将 DPO 损失扩展至多轮互动,但缺乏形式化的理论保证
    • DMPO 结合了 SAOM 理论,成功将 \( Z \) 转换为常数;
    • 然而,由于 Positive 和 Negative Session 的轮次数量不同,DMPO 通过启发式长度归一化消除 \( Z \),但缺乏严格的数学证明
    • 这部分的详细的理论分析见附录B.2
  • 为克服 Session-level DPO 的局限性,论文提出了 Segment-level 直接偏好优化(SDPO)
    • 论文的方法将采样起点向后移动,并截断 Session 末尾的无用内容,从而获取关键分段对以细化粒度
    • 同时,论文确保 Positive 和 Negative 分段的轮次数量一致,从而消除 \( Z \) 并严格推导出 SDPO 损失
  • 具体而言,SDPO 的做法如下:
    • 识别 Negative Session 中的错误轮次 ,利用该错误轮次之前的交互历史进行多次采样 ,生成 Positive Session
      • 问题:怎么识别到错误轮次呢?回答:见后面的章节
    • 以首个差异轮次为起点,从 Positive Session 中选择有助于提升分数的关键分段 ,并从 Negative Session 中截取相同长度的对应分段以形成数据对
      • 问题:如何评估有助于提升分数?回答:见后面的章节
    • 针对分段内的轮次计算 SDPO 损失
  • 论文在图1中展示了三种社交对话(social dialogues)对齐算法的概览
  • 在数据层面,SDPO 能够解决 Session-level DPO 的缺陷,SDPO 优点如下:
    • (i) 仅针对 Negative 和 Positive 分段中的轮次计算损失,从而大幅消除了非错误轮次引入的训练噪声
    • (ii) 从错误轮次开始采样缩小了对话者的行动空间,使得采样得到的 Positive Session 更可能包含 Agent 的正确行为模式
      • 理解:这是相对上面 Session-level 对话对应的问题
  • 在理论上,得益于分段选择的灵活性,SDPO 能够控制 Positive 和 Negative 分段的轮次数量以确保一致性,从而消除 \( Z \) 并得到一个简洁而严谨的 SDPO 损失
  • 我们通过 SOTOPIA(2024)这一开放、交互式的社交智能基准测试对我们的方法进行了实证评估
    • 实验采用了自对话(self-chat)以及与其他智能体(包括 GPT-4o 和 GPT-4o-mini)的交互形式
    • 结果表明,经过 SDPO 调优的智能体在性能上始终优于 DPO、ETO、DMPO 等现有方法,甚至超越了 GPT-4o 等专有大语言模型,这充分证明了 Segment-level 对齐(segment-level alignment)的有效性
  • Segment level 是一种更灵活且统一的数据粒度,能够根据不同数据对动态选择优化范围,同时优雅地解决了多轮对齐的理论挑战。在论文中,我们主要将SDPO应用于提升智能体的社交智能,但我们相信该方法同样适用于其他场景,从而进一步扩展智能体在不同领域的能力
  • 论文的主要贡献包括以下三点:
    • 提出了 SDPO,这是一种新颖的多轮对齐算法,为 Segment-level 偏好数据对的构建提供了完整的流程,实现了更高效的对齐粒度
    • 指出了现有多轮对齐方法在理论上的局限性,并通过分段粒度(segment-level granularity)的灵活性解决了这些问题,严谨地推导出了一个简洁的 SDPO 损失函数公式
    • 在 SOTOPIA 这一模拟交互式社交基准测试上评估了论文的方法,SDPO 的表现及深入分析证明了 Segment-level 对齐的有效性和鲁棒性

Preliminary

SOTOPIA Environment

  • SOTOPIA 提供了一个交互式、开放且逼真的模拟环境,能够更精准地评估 Agent 的社交智能(不同于其他静态问答形式测试的社交基准(2019; 2024)不同)
    • SOTOPIA 中的社交任务包含一个场景、两个角色档案及其需要通过互动达成的私人社交目标
    • 场景与社交目标的多样化组合涵盖了谈判、合作与竞争等广泛的社交互动类型
    • SOTOPIA 定义了七个评估社交 Agent 的维度
  • 论文主要关注“目标(goal)”(0 to 10,int)和“关系(relationship)”(-5 to 5,int)
    • 因为 GPT-4o 在这些指标上的评分与人类评估高度一致
  • SOTOPIA-\(\pi\)(2024a)是一项后续工作,利用 GPT-4 自动构建了一组场景(与 SOTOPIA 完全不重叠),作为本研究的训练数据集
  • 此外,论文重构了 SOTOPIA 的提示组织格式以支持多轮对齐,具体细节见附录A

Task Formulation

  • 在 SOTOPIA 任务中,论文将 Agent 可用的背景信息记为 \( b \),包括场景、角色档案及其目标
  • Agent 在第 \( n \) 轮面临的交互历史 \( h_n \) 定义如下:
    $$
    h_n =
    \begin{cases}
    b, y_0, y’_0, \ldots, y_{n-1}, y’_{n-1}, & \text{if speak first} \\
    b, y’_0, y_0, \ldots, y_{n-1}, y’_n, & \text{if speak later}
    \end{cases} \tag{1}
    $$
    • \( y_i \sim \pi_\theta(\cdot|h_i) \) 表示 LLM-based Agent 在第 \( i \) 轮根据其策略 \( \pi_\theta \) 和参数 \( \theta \) 生成的输出;
    • \( y’_i \) 表示对话者的输出,其服从一个未知分布
  • 基于此形式化,论文在附录B.1和B.2中分别给出了 ETO 和 DMPO 的损失函数

Direct Preference Optimization

  • Rafailov 等 (2023) 提出了直接偏好优化(DPO),该方法利用成对偏好数据训练策略模型,而无需依赖强化学习(2022)。在社交对话场景中,论文将错误轮次编号记为 \( e \),DPO 损失函数定义如下:
    $$
    L_{DPO} = -\mathbb{E}_{(h_e, y^w_e, y^l_e) \sim D} \log \sigma
    \left[ \beta \log \frac{\pi_\theta(y^w_e|h_e)}{\pi_{ref}(y^w_e|h_e)} - \beta \log \frac{\pi_\theta(y^l_e|h_e)}{\pi_{ref}(y^l_e|h_e)} \right], \tag{2}
    $$
    • 其中 \( y^w_e, y^l_e \sim \pi_\theta(\cdot|h_e) \) 分别表示错误轮次中的 Positive 和 Negative 输出
  • 然而,由于其单轮优化的特性,DPO 并不适合社交对话
    • 将 DPO 严谨地扩展至多轮场景是一个待解决的挑战,论文将在第3.3节中探讨这一问题

Method

Behavioral Cloning

  • 注:使用 Behavioral Cloning 初始化 Agent
  • Behavioral Cloning(BC)作为一种有效的模仿学习方法,被广泛应用于各类 LLM-based Agent 构建中
  • 在本研究中,论文使用 GPT-4-turbo 作为专家模型,通过自对话(self-chat)以及与 GPT-4o 的交互,在 SOTOPIA-\(\pi\) 数据集上收集专家 Session 数据
  • 基于这些数据,论文对开源大语言模型(如 Llama-3.1)进行微调,构建了实验所需的初始社交 Agent

Preference Data Construction

  • 构建高质量的 Segment-level偏好数据对是本方法的核心
  • 在 SOTOPIA-\(\pi\) 数据集上,论文的社交 Agent 通过自对话以及与 GPT-4o 的交互生成数据
  • 论文设定目标维度(goal dimension)的阈值为 7,所有目标完成度低于此阈值的对话均被视为潜在的负样本
  • 给定一个负样本 Session,生成 Segment-level 数据对的流程包括以下三个步骤(如图2 所示):
  • 错误定位(Error Location)
    • 与数学等具有明确错误定义的场景不同,社交对话中的错误是一个相对模糊的概念
    • 在负样本 Session 中,如果论文的 Agent 在某一轮次(turn)的回应满足以下条件,则将该轮次 Token 为错误轮次:
      • (1) 该轮次对实现角色目标至关重要;
      • (2) 当前回应在目标完成度或双方关系改善方面仍有提升空间
    • 注:错误定位由 GPT-4o 完成,具体提示词(prompt)见附录 C.3
  • 正样本 Session 采样(Positive Session Sampling)
    • 在错误定位后,基于该轮次之前的交互历史,论文采样 5 个完整 Session
    • 从这些 Session 中选择目标分和关系分(优先考虑目标分)最高的一个
      • 如果最优 Session 的目标分或关系分高于负样本,则该 Session 与负样本组成数据对;
      • 否则丢弃该负样本
  • 段选择(Segment Selection)
    • 获得 Session-level 数据对后,论文将正负样本同时提供给 GPT-4o,提示其从正样本中选择一个段(segment)
      • 该段应包含对正样本获得更高目标分和关系分起到关键作用的部分
      • 接着从负样本中提取相同长度的段,与正样本段配对形成 Segment-level 数据对
      • 问题:相同长度的段是什么意思?正负样本对的段不一定都完全一样吧
    • 这一过程旨在排除与 Session 目标无关的轮次(如寒暄内容)
    • 注:给 GPT-4o 的提示词见附录 C.3
  • 论文评估了 GPT-4o 在错误定位和段选择任务中的表现,结论显示其能够有效完成这两项任务,详细分析见附录 C.2

SDPO Loss

  • 论文将 DMPO 的框架迁移到对话领域,并首先引入状态-动作占用测度(State-Action Occupancy Measure,SAOM)
  • 在此框架下:
    • 交互历史 \( h \) 作为状态(state),Agent 的输出 \( y \) 作为动作(action)
    • 策略 \( \pi \) 的折扣 SAOM \( d^{\pi}(h, y) \) 定义如下:
      $$
      d^{\pi}(h = h_t, y = y_t) = \gamma^t \cdot P(h_0) \cdot \prod_{k=0}^{t-1} \pi(y_k | h_k) P(h_{k+1} | h_k, y_k), \tag{3}
      $$
      • \( \gamma \) 为折扣因子
    • 基于 \( d^{\pi} \) 的强化学习目标为:
      $$
      \max_{\pi_\theta} \mathbb{E}_{(h,y) \sim d^{\pi_\theta}(h,y)} [r(h, y)] - \beta \mathbb{D}_{KL} [d^{\pi_\theta}(h,y) || d^{\pi_{ref} }(h,y)], \tag{4}
      $$
    • 根据 DPO,式(4)的最优解为:
      $$
      d^{\pi^*}(h,y) = \frac{1}{Z} d^{\pi_{ref} }(h,y) \exp \left( \frac{1}{\beta} r(h,y) \right), \tag{5}
      $$
      • \( \pi^* \) 为最优策略
      • \( Z \) 为归一化概率的配分函数(partition function)
  • 由于 \( d^{\pi}(h,y) \) 是 \( (h,y) \) 对的函数,对其进行归一化会导致配分函数 \( Z \) 与当前历史 \( h \) 无关
    • 因此,\( Z \) 对所有 \( (h,y) \) 对均为常数,这是消除 \( Z \) 的关键步骤
  • 奖励函数的形式为:
    $$
    r(h,y) = \beta \log \frac{d^{\pi^*}(h,y)}{d^{\pi_{ref} }(h,y)} + \beta \log Z. \tag{6}
    $$
  • 随后,论文使用 Bradley-Terry(BT)模型对偏好分布建模
    • 在这一步中,DMPO 错误地重复计算了式(3)中的 \( \gamma \),并在后续步骤中启发式地对长度进行归一化以消除 \( Z \),但缺乏严格证明(详细讨论见附录 B.2)
  • 给定偏好数据对,BT 模型的正确应用如下:
    $$
    p(\tau^w \succ \tau^l | h_0) = \sigma \left( \sum_{t=0}^{T_w - 1} r(h_t^w, y_t^w) - \sum_{t=0}^{T_l - 1} r(h_t^l, y_t^l) \right), \tag{7}
    $$
    • 其中 \( \tau^w \) 和 \( \tau^l \) 分别表示“胜”和“负”样本,\( T_w, T_l \) 为各自的轮次数
    • Session-level DPO 无法控制正负样本的长度,由于通常 \( T_w \neq T_l \),配分函数 \( Z \) 无法直接在式(7)中抵消
      • 理解:正负样本通常不同,此时配分函数是消不掉的
  • 与这些方法不同,SDPO 从正负样本中各选一个段进行优化,可以自由控制其长度
    • 通过确保两段长度相同,论文能够直接消除式(7)中的 \( Z \)
    • 同时,结合式(3)替换 \( d^{\pi} \),论文得到以下简洁的 SDPO 损失函数:
      $$
      L_\text{SDPO} = -\mathbb{E}_{(h_e, h^w, h^l) \sim D} \log \sigma \left[ \sum_{t=e}^{e+k} \beta \left( \log \frac{\pi_\theta(y_t^w | h_t^w)}{\pi_{ref}(y_t^w | h_t^w)} - \log \frac{\pi_\theta(y_t^l | h_t^l)}{\pi_{ref}(y_t^l | h_t^l)} \right) \right], \tag{8}
      $$
      • \( e \) 表示错误轮次的编号
      • \( k \) 为所选段中的总轮次数

Experiments

Datasets

  • 训练使用的 SOTOPIA-\(\pi\) 共包含 410 个场景:
    • 其中 100 个场景用于行为克隆(Behavioral Cloning, BC),每个场景包含 10 对角色;
    • 310 个场景用于对齐,每个场景包含 8 对角色
    • 测试使用的 SOTOPIA 包含 90 个场景,每个场景包含 5 对角色,总计 450 个自对话任务和 900 个非自对话任务

Experimental Setup

  • 训练(Training)
    • 论文主要使用 Llama-3.1-8B-Chat 作为基础 LLM 来构建社交 Agent
    • 最大 token 限制设置为 4096
    • 所有训练过程均采用 AdamW 优化器
    • 在 SFT 阶段:
      • 批大小为 32
      • dropout 率为 0.2
      • 学习率为 \(1 \times 10^{-5}\)
      • 预热比例为 5%
      • 采用余弦衰减调度
    • 在 SDPO 的对齐训练阶段:
      • 批大小保持为 32
      • SDPO 损失中的 \(\beta\) 设为 0.1
      • 学习率为 \(1 \times 10^{-6}\)
      • 无预热
      • 采用余弦衰减调度
    • SDPO 训练数据的统计细节见附录 C.1
  • SOTOPIA
    • 在正样本采样过程中:
      • 目标 Agent 的温度(temperature)设置为 1.0
      • 另一 Agent 的温度设置为 0.7
    • 测试时:
      • 论文将两个交互 Agent 的温度均设为 0.7
      • 尽管温度会为 Agent 的输出引入随机性,但论文发现评估结果在数值上保持稳定,因此论文基于单次测试报告结果(吐槽:这么稳定吗?仅单次报告就行?)

Baselines

  • 论文将提出的 SDPO 与以下几种强基线方法进行比较:
    • 1)OpenAI 的专有大语言模型(如 GPT-4o),具体版本见附录 D.1
    • 2)监督微调行为克隆(SFT Behavioral Cloning) :在专家交互数据上微调 LLM,生成的模型作为 SDPO 及其他基线的基础 Agent
    • 3)直接偏好优化(DPO) :基于单轮数据优化 Agent 策略,具体针对 SDPO 中正负样本的首个差异轮次
    • 4)基于探索的轨迹优化(ETO) :使用 Session-level 数据优化 Agent 策略
      • ETO 使用与 SDPO 相同的负样本 Session,但从头采样五个新 Session 来构成数据对
    • 5)动态多轮偏好优化(DMPO) :使用与 ETO 相同的数据,但采用 DMPO 新的损失函数更新策略
    • 6)偏好监督微调(Preferred-SFT) :在 SDPO 的正样本 Session 上微调基础 Agent

Results

  • 表1 展示了 SDPO 和所有基线方法在 SOTOPIA 上的结果
  • 如表所示,在目标和关系两个维度上,SDPO 显著优于标准 DPO、 Session-level 的 ETO 和 DMPO,甚至大幅超越 GPT-4o 等专有 LLM,凸显了 Segment-level 对齐的有效性
  • 通过分析 SOTOPIA 中的交互历史,论文发现较弱的 Agent 通常表现出固执性,仅重复表达需求,导致目标和关系水平较低,尤其是在自对话场景中
  • 使用专家数据进行行为克隆可以有效改善这种情况,使 Agent 更具沟通性
  • Llama-8B+BC 在与 GPT-4o 交互时目标率(goal rate)下降的原因是 Agent 变得更具说服力
  • 论文还观察到,对齐后的 Agent 在目标和关系(goal and relationship)上同时提升,这表明对齐方法确实增强了模型的社会智能(social intelligence),而非通过违反社会规范的行为(如威胁或欺骗)实现目标
  • 论文也在 Mistral-Instruct-v0.3 上重复了上面的实验,实验结果见 表2,实验设置的细节见附录 D.2
    • 在这些实验上,SDPO 也一致超过了基线模型,展示了其泛化性

Analysis

  • 模型输出长度的变化(Variation in Model Output Length)
    • 图3 展示了各种 Agent 与 GPT-4o 交互时的输出长度
      • 与 BC Agent 相比,所有对齐方法均增加了 Agent 的输出长度
      • 这种现象在将 DPO 应用于 AI 聊天机器人时常见
      • 但与用户对长回复的潜在偏见不同,有效的社交策略通常需要更多 token 进行沟通,因此输出长度的增加是合理的
    • 此外,论文实验在 SDPO 调优的 Agent 达到 10 轮交互时终止对话,以在相似 token 数量下比较性能
      • 结果显示,SDPO 仍优于其他多轮方法,表明 SDPO 调优的 Agent 能更高效地利用词汇
  • 正样本利用效率(Efficiency of Positive Sample Utilization)
    • 图4 展示了 Session-level 和 Segment-level 正样本的质量对比
      • 在采样次数一致的情况下, Session-level 正样本在目标和关系上优于 Segment-level 正样本
      • 从头采样提供了更大的采样空间,增加了生成高质量 Session 的可能性
      • 但尽管 Session-level DPO 使用了更高质量的数据,其表现仍不及 SDPO
        • 这表明由于 Segment-level 的更细粒度和对损失函数的理论支持,SDPO 能更高效地利用正样本
  • 论文还分析了 DPO 和 SDPO 对正负样本概率差异的影响,详细内容见附录 E.2

Ablation Study

  • 段选择方法(Segment Selection)
    • 论文探索了 SDPO 的不同段选择方法,结果如表3 所示
      • 方括号中,负样本段的长度在前,正样本段的长度在后
      • 对于对称段长度,固定长度为 3 和 5 的段优于长度为 1 的段(DPO),证明了多轮对齐的有效性
      • 长度为 5 的段效果略逊于长度为 3 的段,表明更长的段并非总是更好
    • 基于此,论文利用 GPT-4o 动态从每个正样本中识别关键段,取得了最佳结果
      • 对于非对称段长度,[3,1] 和 [5,3] 的模型训练崩溃,无法正常交互
      • 其他非对称段的表现均不及对称段,支持了 3.3 节的理论讨论
    • 此外,随着非对称程度的降低,模型性能提升,这可能是因为未消除的 \(Z\) 对损失的影响减弱
      • 这一发现有助于解释 ETO 的有效性,因其未对正负样本 Session 的长度施加约束
  • 采样对话者(Interlocutor for Sampling)
    • SDPO 的对齐数据分别使用 BC Agent 自身和 GPT-4o 作为对话伙伴收集
    • 论文在每个数据子集上独立训练模型,结果如表4 所示
      • 使用单一数据源训练的模型在自对话和与 GPT-4o 交互中均表现提升,进一步验证了 SDPO 的泛化能力
      • 组合数据集训练的模型优于单一数据集训练的模型,表明引入多样化对话伙伴的数据可以进一步提升 Agent 的社会智能
  • 分布外数据(Out-of-Distribution Data)
    • 基础 BC Agent 从 GPT-4-turbo 生成的专家数据中学习,使用 GPT-4-turbo 生成正样本是否能带来更好的性能?
    • 论文让 GPT-4-turbo 与 BC Agent 交互,并为 SDPO 采样 5 次
      • 生成的正样本在目标和关系评分上均优于自采样样本
    • 然而,如表4 所示,使用该数据训练的模型表现不及自采样方法
      • 这表明分布外正样本的效果不如分布内样本
      • 在训练过程中,分布外正样本的概率显著低于负样本,这种更大的概率差距可能是性能不佳的原因

Related Work

Social Intelligence

  • 社交智能(Social Intelligence)可以定义为 Agent在社会互动中理解、适应和回应他人情感、意图和行为的能力
  • 大多数关于社交智能的研究集中在评估方面,例如
    • SOCIALIQA(2019)强调对社会情境的常识推理
    • SocialIQ(2019)将评估模式从纯文本扩展到视频
    • Shapira 等(2023)使用 Faux Pas Test 评估 LLM
    • SocialBench(2024)则在个体和群体层面评估角色扮演 Agent 的社交性
  • 此外,一些研究(2019; 2024)从心理理论(theory-of-mind)的角度探讨模型的社交智能
  • 随着 LLM 的发展,基于大语言模型的社交 Agent 已经能够在真实社交场景中互动,传统的静态问答式基准(QA-style benchmarks)已不足以评估 Agent 的社交智能
    • SOTOPIA(2024)是目前唯一动态且交互式的社交基准,为当代社交 Agent 提供了模拟测试环境
    • 作者希望这项工作能够通过方法创新,进一步推动提升模型社交智能的研究

Alignment Methods with Refined Granularity

  • Rafailov 等(2023)提出了直接偏好优化(Direct Preference Optimization, DPO),该方法利用离线数据和简化的损失函数对齐大语言模型
  • 基于 DPO,多种细粒度对齐算法被开发出来。例如
    • Token-level DPO(2024)在 Token-level 别整合前向 KL 散度约束,同时提升对齐性和多样性
    • Step-DPO(2024)利用单个推理步骤(reasoning steps)进行偏好优化,而非整体答案级评估
    • SePO(2024)提出了一种 Token-level 奖励函数估计方法,选择性优化回答中的关键 Token
  • 然而,在社交对话或网络导航等多轮交互场景中,单轮对齐(single-turn alignment)是不够的
    • ETO 和 DMPO 将 Session-level 数据(session-level data)引入 DPO,将其扩展到多轮场景
  • 论文进一步提出了 SDPO,通过动态的 Segment-level 优化框架(segment-level optimization framework)实现多轮交互中更细粒度的对齐

Limitations

  • 论文提出的 SDPO 假设正负片段的长度相等 ,并在此假设下实现了 SOTA 性能
    • 具体而言,在从正样本中选出一个片段后,论文从负样本中选取相同长度的片段以消除配分函数 \( Z \)
    • 这种方法存在一定局限性
    • 负样本片段可能包含无关或无错误的轮次(turns),或未能捕捉到所有错误轮次,这表明在从负样本中选择片段时需要更细粒度的控制
    • 目前,作者尚未找到能够有效支持不等长片段对齐的理论框架
    • 作者希望这项工作能够激发进一步研究,鼓励多样化的理论分析以解决多轮对齐中的这一问题
  • 由于 SOTOPIA 是目前唯一可用的交互式社交基准 ,论文的实验仅在该数据集上进行
    • 未来,作者计划引入更多交互式 Agent 任务,以进一步验证 SDPO 的通用性

附录A Modifications to SOTOPIA

  • 在 SOTOPIA 中,每次交互都以单轮(single-turn)格式组织,这不支持多轮对齐(multi-turn alignment)
  • 为了解决这一限制,论文修改了提示组织格式(prompt organization format),如图5 所示
  • 这些修改在调用 LLM 的 API 之前应用,确保其对 SOTOPIA 本身不可见,且不会影响 GPT-4o 的评估
    • 更多细节可在论文的代码仓库中找到

附录B Supplementary Theoretical Analysis

B.1 ETO

  • Song等人(2024)提出了基于探索的轨迹优化(Exploration-Based Trajectory Optimization, ETO),该方法在没有严格证明的情况下将直接偏好优化(Direct Preference Optimization, DPO)扩展到 Session-level 别(session level)。其损失函数如下:
    $$
    L_{ETO} = -\mathbb{E}_{(b,h^{w},h^{l})\sim D} \log \sigma \left[ \sum_{t=0}^{T_{w}-1} \beta \log \frac{\pi_{\theta}(y_{t}^{w}|h_{t}^{w})}{\pi_{ref}(y_{t}^{w}|h_{t}^{w})} - \sum_{t=0}^{T_{l}-1} \beta \log \frac{\pi_{\theta}(y_{t}^{l}|h_{t}^{l})}{\pi_{ref}(y_{t}^{l}|h_{t}^{l})} \right] \tag{9}
    $$
    • \( h^{w} \) 和 \( h^{l} \) 分别表示完整的正向和负向交互历史
    • \( T_{w} \) 和 \( T_{l} \) 表示各自的轮数
  • 当 \( T_{w} = T_{l} \) 时,ETO 的损失函数与 SDPO的损失函数等价

B.2 Discussion on DMPO

  • 应用BT模型时的错误(Mistake when Applying BT Model) :在公式(6)之后,DMPO应用了布拉德利-特里模型(Bradley-Terry model, BT model)得到以下公式:
    $$
    p(\tau^{w} \succ \tau^{l}|h_{0}) = \sigma \left( \sum_{t=0}^{T_{w}-1} \gamma^{t} r(h_{t}^{w}, y_{t}^{w}) - \sum_{t=0}^{T_{l}-1} \gamma^{t} r(h_{t}^{l}, y_{t}^{l}) \right) \tag{10}
    $$
    • \( \tau^{w} \) 和 \( \tau^{l} \) 分别表示“胜”和“负”样本
    • \( T_{w} \) 和 \( T_{l} \) 表示各自的轮数
    • 仔细检查公式(10)可以发现,对 \( (h,y) \) 对的求和应排除 \( \gamma^{t} \),因为它已经被纳入 \( d^{\pi}(h,y) \) 中
  • 长度归一化的限制(Limitation of Length Normalization) :暂时忽略公式(10)中的错误,DMPO启发式地引入了基于轮数的正则化来消除 \( Z \):
    $$
    p(\tau^{w} \succ \tau^{l}|h_{0}) = \sigma \left( \frac{1-\gamma}{1-\gamma^{T_{w} } } \sum_{t=0}^{T_{w}-1} \gamma^{t} r(h_{t}^{w}, y_{t}^{w}) - \frac{1-\gamma}{1-\gamma^{T_{l} } } \sum_{t=0}^{T_{l}-1} \gamma^{t} r(h_{t}^{l}, y_{t}^{l}) \right)
    $$
    • 然而,DMPO 并未讨论为什么可以应用长度归一化或这一操作带来的影响。这种转换缺乏严格的理论依据
  • DMPO 损失函数(DMPO Loss Function) :遵循DMPO的方法,其损失函数如下:
    $$
    L_{DMPO} = -\mathbb{E}_{(b,h^{w},h^{l})\sim D} \log \sigma \left[ \sum_{t=0}^{T_{w}-1} \beta \phi(t,T_{w}) \log \frac{\pi_{\theta}(y_{t}^{w}|h_{t}^{w})}{\pi_{ref}(y_{t}^{w}|h_{t}^{w})} - \sum_{t=0}^{T_{l}-1} \beta \phi(t,T_{l}) \log \frac{\pi_{\theta}(y_{t}^{l}|h_{t}^{l})}{\pi_{ref}(y_{t}^{l}|h_{t}^{l})} \right]
    $$
    • 其中,折扣函数 \( \phi(t,T) = (1-\gamma^{T-t})/(1-\gamma^{T}) \)

附录C Data Construction Details

C.1 Statistics and Analysis of SDPO Data

  • SDPO 数据集包含 1019 对样本
    • GPT-4o 识别的错误轮次分布如表5 所示
    • GPT-4 识别的片段长度分布如表6 所示
    • 截断轮数的分布如 表7 所示
  • 结合表3 和表6,尽管在自动片段长度选择中,长度为 3 的片段占比近 90%,但自动选择方法的性能仍明显优于固定长度为 3 的方法,这凸显了自动选择方法的有效性

C.2 GPT-4o’s Performance in Pipeline

  • 论文从 SDPO 数据中随机选择 40 对样本,由三位作者独立评估 GPT-4o 在错误定位和片段选择中的表现
  • 在社交对话的背景下,正确性和错误的概念本质上是模糊的
  • 为此,论文定义了三个评估类别:正确、模糊和错误
  • 平均评估结果如表8所示。评估者均表示,模糊的主要原因是他们可以确定GPT-4o的选择是合理的,但难以判断是否最优。总体而言,论文得出结论:GPT-4o能够处理错误定位和片段选择任务

C.3 rompts in Data Construction

  • GPT-4o用于错误定位和片段选择的提示分别如图7 和图8 所示

附录D Supplementary Experimental Setup

D.1 Versions of OpenAI LLMs

  • 论文使用的 OpenAI 大语言模型版本如下:GPT-4o-2024-08-06、GPT-4-turbo-2024-04-09、GPT-4o-mini-2024-07-18 和 GPT-3.5-turbo-0125

D.2 Mistral Training Details

  • 与 Llama 的实验设置一致,最大 Token 限制设为 4096,所有训练过程均使用 AdamW 优化器
  • 在 SFT 阶段:
    • 批大小为 32
    • 丢弃率为 0.2
    • 学习率为 \( 3e^{-6} \)
    • 预热比例为 5%
    • 采用余弦衰减调度
  • 在 SDPO 的训练阶段:
    • 批大小为32
    • SDPO 损失中的 \( \beta \) 为 0.1
    • 学习率为 \( 5e^{-7} \)
    • 学习率无预热
    • 采用余弦衰减调度
  • Mistral 的 SDPO 数据构建过程与 Llama 相同

附录E Additional Empirical Results

E.1 SOTOPIA Hard Subset

  • SOTOPIA 将数据集中更具挑战性的部分 Token 为困难子集(Hard subset),详细结果如表9 所示
    • 各种方法在困难子集上的排名与完整数据集上的表现基本一致
    • SDPO 仍然取得了最佳结果,这表明 SDPO 在不同难度的场景中均能提升 Agent 的社交智能(social intelligence)

E.2 多轮对齐的必要性

  • 在 DPO 调整第一轮正向和负向片段的输出概率后,后续轮次中正向片段的概率会增加而负向片段的概率会降低吗?
  • 为了探究这一点,论文绘制了 DPO 和 SDPO 在训练过程中正向与负向片段概率差的变化,如图9 所示(只有SDPO可以直接与DPO比较,因此未提及ETO和DMPO)
  • DPO-turn 轨迹几乎与 DPO 轨迹平行,表明 DPO 对后续轮次的概率差几乎没有影响
  • 相比之下,SDPO 轨迹上升更陡峭。这些结果证明了显式修改整个片段内多轮概率分布的必要性,也为多轮对齐优于 DPO 提供了依据

NLP——LLM对齐微调-RuscaRL

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(RuscaRL) Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning, 20250823-20251022, ZJU & Li Auto Inc.
      • 注:Li Auto Inc. 是理想汽车母公司
    • GitHub 源码:github.com/IANNXANG/RuscaRL

Paper Summary

  • 整体说明:
    • 论文将教育心理学中的教学 Scaffolding 理论应用于 LLM 的 RL,并提出了 RuscaRL
      • RuscaRL 是一个新颖的教学 Scaffolding 框架,旨在打破通用 LLM 推理任务的探索瓶颈
    • RuscaRL 通过 Scaffolding 机制利用清单式(checklist-style) Rubric,提供逐渐衰减的外部指导,并通过 Reward 函数实现稳健的 RL 训练
      • Rubric-based Scaffolding 机制提供外部指导并逐渐衰减以鼓励内化(理解:先添加一些 Rubrics 作为手脚架,然后训练过程中不断减少 Rubrics 的加入)
      • Rubric-based Reward 函数则实现稳健的评估以支持有效的 RL 训练
    • 大量实验表明
      • RuscaRL 始终优于强大的基线方法,并与领先模型相比取得了有竞争力的结果
      • 使用 RuscaRL 微调的模型能够生成初始模型几乎无法生成的高度新颖的 Response
  • 背景 & 问题:
    • RL 在促进推理能力涌现方面的有很大的潜力,但目前一个根本的困境仍然存在:
    • RL 的提升依赖于从高质量样本中学习,而对这类样本的探索仍然受限于 LLMs 固有的能力
    • 这实际上造成了一个不良循环,即what cannot be explored cannot be learned(无法被探索则无法被学习)
  • 本文解法:
    • 论文提出了 Rubric-Scaffolded Reinforcement Learning (RuscaRL)
    • 注:这里的 scaffold 直译是脚手架(建筑领域的常用词 ,是施工时搭建在建筑物外围的临时支撑结构),用于强调辅助训练后可以移除的辅助设施
    • RuscaRL 是一个新颖的教学脚手架框架(instructional scaffolding framework),旨在打破通用 LLM 推理的探索瓶颈,RuscaRL 引入清单式 Rubric 作为
      • (1) 显式脚手架(explicit scaffolding) 用于 Rollout 生成期间的探索,即在任务指令中提供不同的 Rubric 作为外部引导,以引导多样化的高质量响应
        • 这种引导会随时间逐渐衰减(decayed),鼓励模型内化底层的推理模式(encouraging the model to internalize the underlying reasoning patterns);
      • (2) 用于模型训练期间利用的可验证奖励 ,即我们可以使用 Rubric 作为参考获得稳健的 LLM-as-a-Judge 分数,从而在通用推理任务上实现有效的 RL
  • 广泛的实验证明了所提出的 RuscaRL 在各种基准测试中的优越性,有效扩展了 Best-of-N 评估下的推理边界
    • Notably,RuscaRL 将 Qwen2.5-7B-Instruct 在 HealthBench-500 上的得分从 23.6 显著提升至 50.3,超过了 GPT-4.1
    • Furthermore,论文在 Qwen3-30B-A3B-Instruct 上微调的变体在 HealthBench-500 上达到了 61.1 分,性能优于包括 OpenAI-o3 在内的领先 LLMs
  • 一些说明:
    • 论文的图 1(右)画的很不错,清晰易懂,能清晰看出论文方法带来的改进,值得写论文时学习
  • 补充:论文中的未来工作
    • 虽然 RuscaRL 在打破通用 LLM 推理的探索瓶颈方面展示了有希望的结果,但仍存在一些局限性,为未来的研究指明了方向
      • 论文的方法关键依赖于高质量、结构良好的 Rubric 数据集(而这些数据集在社区中仍然稀缺),并且论文的方法对 Rubric 设计的质量高度敏感
      • 设计不良的 Rubric 可能由于不合理的分数分配或相互冲突的准则而无法提供稳健的 Reward 信号
      • 范围狭窄的 Rubric 则可能限制 Scaffolding 过程生成多样化、高质量 Response 的能力
    • RuscaRL 的成功突显了社区迫切需要投入更多资源来构建开放、多样且领域丰富的 Rubric 数据集
      • 作者未来的工作包括开发高质量 Rubric 数据生产流程、探索 Rubric-based 自然语言反馈策略,以及研究在多模态任务和智能体系统中的应用

Introduction and Discussion

  • LLMs 在广泛的复杂推理任务上已展现出巨大的潜力
    • 包括法律分析 (2021; 2023; 2024; 2022),软件工程 (2023; 2024),机器人技术 (2025; 2023a; 2023),以及具体任务如代码生成 (Qwen, 2025) 和数学证明 (2025; 2025)
    • However,提升 LLMs 的通用推理能力仍然是一个重大挑战 (2023; 2022)
  • 为了解决上述问题,最近在 RLVR 方面的突破,例如 DeepSeek-R1 (2025) 和 OpenAI-o3 (OpenAI, 2025a),已经证明利用可验证奖励作为反馈信号可以成功促进 LLMs 中复杂推理能力的涌现 (2025; 2025a)
  • 尽管取得了不错的成果,传统的 RLVR 往往更适用于答案具有客观可验证性的领域
    • For Instance,在数学证明(2025;2025)和代码生成(Qwen, 2025;2022)等领域,正确性可以通过形式化证明验证或自动化单元测试来明确判定
      • 在这些场景中,奖励信号清晰且与任务目标高度一致,使得 RLVR 能够有效引导模型找到正确的解决方案
    • Unfortunately,许多现实任务,如医疗咨询(2025;2023;2023)和创意写作(2025c;2024),本质上是开放性的
      • 这类任务通常需要进行多维评估,且往往缺少一个唯一、可验证的标准答案
  • 为解决上述问题,近期涌现的一些并列研究(2025;2025;2025;2025;2025;2025)开始探索 Rubric-based 评估方法,将理想的回答分解为清单式的评估标准(如事实性(factuality)、连贯性(coherence)、完整性(completeness)等)
    • 通过利用 “LLM-as-a-Judge” 对每个标准(criterion)进行打分,并将结果聚合为标量奖励,量规为开放性领域中的 RLVR 提供了更稳定、更可靠的反馈信号
  • Nevertheless,如图 1(左)所示,一个根本性的探索瓶颈仍然存在:
    • RL 需要高质量样本来改进,但对这些样本的探索仍受限于 LLMs 的固有能力 (2025; 2025a; 2025b; 2025)
      • 这造成了一个不可避免的循环,即无法探索限制了学习能力(the inability to explore restricts the ability to learn)
    • 越来越多的研究尝试增强 LLMs RLVR 中的探索 (2025a, 2025b; 2025; 2025; 2025; 2025; 2025)
      • However,这些方法很大程度上将策略分布偏向于基础模型已经支持的高奖励响应,而非真正扩展其推理边界 (2025a)
      • 更糟糕的是(Worse still),RL 本身具有缩小探索空间的天然趋势:策略熵在训练过程中逐渐崩溃,导致模型收敛于有限的推理轨迹集 (2025; 2025; 2025a; 2025; 2025b)
        • 这反过来削弱了 RLVR 探索更多样化和更高质量解决方案的潜力
  • 论文引入了 Rubric-Scaffolded Reinforcement Learning(RuscaRL) ,采用了一种新颖的教学脚手架框架来打破 RLVR 的探索瓶颈
    • 在技术上,RuscaRL 以两种互补的方式利用 Rubric:
      • (1) Rollout 生成期间的显式脚手架(Explicit scaffolding during rollout generation)
        • 对于每个指令,RuscaRL 通过使用 Rubric 作为外部引导生成一组候选响应
        • 论文提出了组内脚手架差异化(intra-group scaffolding differentiation) ,在每个组内提供不同级别的 Rubric,从而实现多样化和高质量的响应
        • 为了进一步内化底层推理模式,论文使用步间脚手架衰减(inter-step scaffolding decay) 在训练过程中逐渐移除脚手架 ,从而最小化对外部引导的依赖
      • (2) 模型训练期间的可验证奖励(verifiable rewards during model training)
        • 模型响应根据源自 Rubric 的多个标准(criteria)进行评估
        • 对于每个标准,论文使用一个 Grader LLM 执行二元评估(i.e. True or False),判断响应是否满足该特定要求
        • 然后通过聚合将结果结合,得到一个稳健的奖励信号,促进在不同通用任务上的有效 RL
  • 论文的主要贡献总结如下:
    • 论文引入教学脚手架 (instructional scaffolding) 作为 LLMs RLVR 的一个新范式,它开创了在任务指令中整合外部引导以提高 Rollout 多样性和质量的方法,从而在 RL 过程中实现更高效的探索
    • 论文提出了 Rubric-Scaffolded Reinforcement Learning (RuscaRL) ,一个旨在打破探索瓶颈的创新 RLVR 框架,它集成了清单式 Rubric,既作为探索的显式脚手架,也作为利用的可验证奖励
    • 广泛的实验表明,RuscaRL 产生的结果优于 SOTA 对应方法
      • 值得注意的是,如图 1(右)所示,RuscaRL 使得小型 LLMs(例如 Qwen3-30B)在 HealthBench-500 上能够达到与领先 LLMs(例如 OpenAI-o3)相当的性能

Related Works

Rubric-based Methods

  • Rubric 是结构化的评估框架,将复杂的评估任务分解为具体、可验证的标准
  • 为了应对通用任务评估, Rubric-based 评估方法已在医疗 (2025; 2025)、代码 (2025; Galván-2025) 和其他领域 (2025; 2025) 出现。基于这些框架,研究人员将 Rubric 作为奖励信号应用于 RL (2025; 2025),使用 LLMs 作为 Grader ,为缺乏真实答案的任务提供细粒度反馈
  • 这种方法在 LLM 对齐 (2025)、指令遵循 (2025) 和开放式问答 (2025; 2025; 2025) 方面显示出有前景的结果

Exploration in RL for LLMs

  • 现有的 RL 方法在复杂推理任务中面临探索不足的问题,策略陷入局部最优,推理边界崩溃 (2025a; 2025; 2025a)
  • 当前的解决方案包括延长训练 (2025a, 2025b)、基于熵的探索 (2025; 2025; 2025) 和外部引导 (2025a; 2025),但这些方法未能打破探索瓶颈,因为它们要么在初始策略分布内探索,要么仅提供粗糙的方向信号而没有结构化的中间引导
  • In Contrast,RuscaRL 通过清单式 Rubric 提供显式脚手架,用可验证的标准引导轨迹,同时通过脚手架衰减实现模式内化

Preliminary

RL Algorithms for LLMs

  • 论文采用 GRPO (2025) 作为论文的核心 RL 算法,用于训练具有基于 Rubric 奖励的语言模型
    • 与 PPO (2017) 不同,GRPO 通过使用基于组的优势估计消除了对价值模型的需求
    • 对于每个指令(Instruction) \(q \sim \mathcal{D}\),其中 \(\mathcal{D}\) 表示训练数据集 \(\mathcal{D}\) 上的分布,GRPO 从旧策略 \(\pi_{\theta_{\text{old} } }\) 中采样一组 \(G\) 个响应 \(\{o_{1}, o_{2}, \ldots, o_{G}\}\),并通过最大化以下目标来优化策略 \(\pi_{\theta}\):
      $$
      \begin{split}
      \mathcal{J}_{\text{GRPO} } \left(\theta\right) = \mathbb{E}_{q \sim \mathcal{D}, \{o_i\}_{i=1}^{G} \sim \pi_{\theta_{\text{old} } }(\cdot|q)}
      \end{split}
      \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min \left( \rho_{i,t}(\theta) \hat{A}_i, \operatorname{clip} \left( \rho_{i,t}(\theta), 1-\epsilon, 1+\epsilon \right) \hat{A}_i \right) \right] \tag{1}
      $$
      • \(o_i\) 是给定指令 \(q\) 从旧策略 \(\pi_{\theta_{\text{old} } }\) 中采样的响应
      • \(t\) 表示响应 \(o_i\) 内的 token 位置
      • \(\rho_{i,t}(\theta) = \frac{\pi_{\theta}(o_{i,t} | q, o_{i,< t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,< t})}\) 是当前策略和先前策略之间的 token 级重要性比率
      • \(\epsilon\) 是裁剪系数 (2017)
  • 组相对优势计算为:
    $$
    \hat{A}_i = \frac{r_i - \operatorname{mean} \left( \{r_j\}_{j=1}^{G} \right)}{\operatorname{std} \left( \{r_j\}_{j=1}^{G} \right)} \tag{2}
    $$
    • 其中 \(r_i\) 是响应 \(o_i\) 的奖励,优势是使用 \(G\) 个采样奖励的均值和标准差进行归一化的

Methodology

  • 为了解决探索瓶颈问题,论文提出了 RuscaRL 框架,如图 2 所示
  • RuscaRL 以两种互补的方式利用 Rubric:
    • (1) Rollout 生成期间的显式脚手架(Explicit scaffolding during rollout generation) ,其中模型使用 Rubric 作为具有组内差异化和步间衰减的外部引导来生成候选响应(第 4.2 节);
    • (2) 模型训练期间的可验证奖励(Verifiable rewards during model training) ,其中响应基于通过二元评估和聚合从 Rubric 派生的多个标准进行评估(第 4.3 节)
  • 在下文中,论文首先介绍 Rubric 的基本概念,然后详细介绍这两个核心组件

Rubric-based Evaluation System

  • 评估复杂和开放式的任务本质上是具有挑战性的,因为响应通常在结构、风格和内容上有所不同,使得基于规则的评估难以提供可靠的判断
  • 为了解决这个差距,最近的工作 (2025) 提出了 Rubric-based 评估
    • Rubric-based Evaluation 指定了细粒度、多维度的标准,可以大规模应用
    • 这种设计结合了自动指标的客观性和结构化标准的原则性指导,产生能够更好地捕捉响应质量、连贯性和完整性的稳健分数
  • 形式上,一个 Rubric 被定义为一组 \(N\) 个可验证的标准:
    $$ \mathcal{R} = \{c_1, c_2, \ldots, c_N\} $$
    • 每个标准 \(c_i\) 由一个清晰的描述和相应的 Points \(p_i\) 指定,\(p_i\) 表示其对整体评估的贡献(理解:即 Rubric 的权重)
    • 论文将 Points 向量定义为
      $$ \mathbf{p} = [p_1, p_2, \ldots, p_N] $$
      • 例如,给定指令“你能介绍一下强化学习的概念吗?”,标准可能包括:
        • “具有完整结构逻辑的逐步分析”(+3 分)
        • “解释关键要素:智能体、环境、奖励”(+6 分)
        • 负面项如“在解释中混淆环境和奖励的角色”(-7 分)
      • 根据每个标准是否满足来加减分
  • 给定一个指令 \(q\) 及其对应的 Rubric \(\mathcal{R}\)(两者均从数据分布 \(\mathcal{D}\) 中采样),以及通过策略模型 \(\pi_{\theta}(o|q)\) 生成的模型响应 \(o\)
    • 论文首先通过组合指令(instruction) \(q\)、Response \(o\) 和标准(criterion) \(c_i\),为每个标准 \(c_i\) 构建一个评判提示(Judge Prompt)
    • Grader 的 Judge Prompt 模板在附录 E.1 中提供
  • 对于单个标准评估(single criterion evaluation),由 LLM 实现的 Grader 函数 \(\mathcal{G}\) (2023b; 2024) 将 Judge Prompt 作为输入,并输出一个二元决策 指示标准 \(c_i\) 是否被满足( True or False )
    $$ b_i = \mathcal{G}(q, o, c_i) \in \{0, 1\}$$
  • 将其扩展到完整的 Rubric, Grader 评估所有标准并产生一个二元指示向量
    $$ \mathbf{b} = \mathcal{G}(q, o, \mathcal{R}) = [b_1, b_2, \ldots, b_N]$$
    • 其中每个 \(b_i\) 表示标准 \(c_i\) 的满足情况
  • 最终分数(score)向量通过逐元素乘法获得:
    $$ \mathbf{s} = \mathbf{b} \odot \mathbf{p} = [b_1 p_1, b_2 p_2, \ldots, b_N p_N] $$
    • 上述公式提供跨所有指定标准的细粒度分数
  • 论文还计算总可能分数(total possible score):
    $$ S_{total} = \sum_{j=1}^{M} p_j$$
    • 其中 \(M\) 是正分标准的数量,这将在奖励计算中用于归一化

Rubric-based Scaffolding Mechanism for RL Exploration(Rubric-based 脚手架机制)

  • 在对复杂推理任务进行 RL 训练期间,模型通常无法持续进行有效的探索 (2025a; 2025; 2025a):
    • 即 初始随机性迅速减少,策略熵崩溃,模型过早收敛到次优的推理模式
    • 这种崩溃严重限制了发现多样化和高质量解决方案轨迹的能力
  • 为了缓解这个问题,论文从教育心理学中的教学脚手架理论 (Vygotsky & Cole, 1978) 中获得灵感
    • 根据维果茨基的最近发展区(Zone of Proximal Development)理论:
      • 当学习者的能力不足时,他们会受益于结构化的指导,以弥合当前能力与目标表现之间的差距,随着能力的增长,这种脚手架应逐渐撤除,以培养独立解决问题的能力 (1976)
  • 基于这一见解,论文设计了一种 Rubric-based 脚手架机制,在整个训练过程中提供不同数量的 Rubric 标准作为显式指导,帮助模型逐渐学会生成高质量的响应
  • Specifically,论文的 Rubric-based 脚手架机制通过添加一个 Rubric 标准的子集 \(\mathcal{R}_S\) 作为额外指导来增强原始策略函数,将策略表示为 \(\pi_{\theta}(o|q, \mathcal{R}_S)\)
    • 整合脚手架的具体提示模板在附录 E.2 中详述
  • Additionally,论文设计了一个二维控制机制来确定 Rubric 脚手架比率 \(\lambda_S\) ,然后从完整的 Rubric 集合 \(\mathcal{R}\) 中采样标准(criteria)以形成 \(\mathcal{R}_S\) ,即
    $$ |\mathcal{R}_S| = \text{round}(\lambda_S \times |\mathcal{R}|) $$
    • 论文在两个维度上实例化这个机制:组内脚手架差异化(Intra-Group Scaffolding Differentiation)和步间脚手架衰减(Inter-Step Scaffolding Decay)
Intra-Group Scaffolding Differentiation, 组内脚手架差异化
  • 在具有多重采样(如 GRPO)的 RL 算法中,计算组相对优势(方程 2)需要响应多样性以避免崩溃为同质样本
    • 为此(To this end),论文在每个组内分配不同级别的 Rubric 脚手架,鼓励既有引导的探索也有独立的探索
  • 具体来说(Concretely),论文定义一个组级比率向量(group-level ratio vector):
    $$ \boldsymbol{\lambda}_{group} = [\lambda_1, \lambda_2, \ldots, \lambda_G] $$
    • 其中对于大小为 \(G\) 的组中的第 \(i\) 个样本,\(\lambda_i = \frac{G-i}{G-1}\)
  • 这种线性差异化确保了一些样本受益于更强的脚手架,而其他样本则被刻意暴露于较弱的引导下,从而增强了组内多样性
    • 理解:结合前文内容可知,这里的 \(\lambda\) 影响的是包含 Rubric 的数量
      • \(\lambda\) 越小,使用的 Rubric 越少
      • \(\lambda=0\) 时,完全不使用 Rubric
      • \(\lambda=1\) 时,使用全部的 Rubric
Inter-Step Scaffolding Decay(step 间脚手架衰减)
  • 受教学脚手架理论的启发,论文使用一个 sigmoid 函数逐渐减少引导:
    $$ \lambda_{step}(t) = \frac{1}{1+e^{\alpha(t-t_0)} }$$
    • 其中 \(t\) 是当前的训练进度 (\(t \in [0, 1]\))
    • \(t_0\) 是中点
    • \(\alpha\) 控制衰减的陡峭度(the steepness of decay)
  • 这种机制通过创建一个自适应学习环境来防止过度依赖外部引导,在这个环境中,模型最初受益于引导以克服探索瓶颈,然后随着能力成熟逐渐过渡到独立推理
Integrated Scaffolding Mechanism
  • Finally,论文将组内差异化和步间衰减结合成一个统一的比率向量:
    $$
    \boldsymbol{\lambda}_S = \lambda_{step} \left( t \right) \times \boldsymbol{\lambda}_{group} = [\lambda_{S,1}, \lambda_{S,2}, \ldots, \lambda_{S,G}],
    $$
    • 其中 \(\lambda_{S,i}\) 表示组中第 \(i\) 个样本的脚手架比率:
      $$ \lambda_{S,i} = \lambda_{step}(t) \times \lambda_i = \frac{1}{1+e^{\alpha(t-t_0)} } \times \frac{G-i}{G-1}$$
  • 这种集成机制同时促进了每个组内的响应多样性,并自适应地减少了训练步骤间对脚手架的依赖,共同解决了同质性和过拟合的问题

Rubric-based Reward Function for RL Exploitation(for RL 利用)

  • 为了为通用推理任务提供稳健可靠的奖励信号,论文设计了 Rubric-based 奖励函数
  • 对于评估系统中获得的多维分数向量
    $$\mathbf{s} = [s_1, s_2, \ldots, s_N]$$
    • 通过直接求和所有标准分数并除以第 4.1 节计算的总可能分数来聚合为最终标量奖励:
      $$
      S = \frac{\sum_{i=1}^{N} s_i}{S_{total} },
      $$
      • \(S\) 代表最终分数
      • \(s_i\) 是第 \(i\) 个标准的分数
      • \(S_{total}\) 是第 4.1 节计算的所有正分标准的总可能分数
  • 这种计算方法得到的分数在大多数情况下落在区间 \([0,1]\) 内,偶尔可能出现负分数
    • 论文直接采用这个 Rubric-based 分数 \(S\) 作为论文的奖励:
      $$ r_i = S_i $$
      • 其中 \(r_i\) 是第 \(i\) 个响应的奖励
  • 这种方法使得在没有真实答案的开放式任务中得以应用,同时提供了比整体 LLM 评分更稳健的评估
    • 获得了 Rubric-based 奖励后,就可以使用 RL 算法来训练策略模型
    • 训练过程遵循策略梯度框架,其中模型学习最大化期望奖励
  • 附录 B 中的算法 1 概述了完整的训练过程
    • Additionally,为了帮助模型更好地内化底层推理模式,训练中的对数概率计算基于 \(\pi_{\theta}(o_{i,t} | q, o_{i,< t})\) 而不是 \(\pi_{\theta}(o_{i,t} | q, \mathcal{R}_S, o_{i,< t})\)
      • 问题:这里训练时使用的回复内容和 Rollout 时使用的内容不一致,不会导致 Off-Policy 的问题吗?
      • 回答:会的,论文附录 D.5 中会分析这个问题并给出一些解决方案
    • 关于重要性采样的详细分析,请参见附录 D.5

Experiments

  • 为了验证所提出的 RuscaRL 方法的有效性,论文在涵盖医学、写作、指令遵循和 STEM 领域的多个基准测试上进行了实验
  • 论文的实验旨在回答以下问题:
    • (1) RuscaRL 在不同模型和任务上是否展示出一致的有效性,以及它与现有的微调方法相比如何?(第 5.2 节和附录 D.1, D.2, D.3)
    • (2) RuscaRL 如何打破 LLM 推理中 RL 的探索瓶颈?(第 5.3 节和附录 D.4)
    • (3) Rubric-based Scaffolding 机制中不同组件的影响是什么?(第 5.4 节和附录 D.5)

Experimental Setups

Models and Training Settings
  • 论文使用了来自不同系列和参数规模的多个初始模型进行实验,包括 Qwen2.5 系列 (2024)、Qwen3 系列 (2025) 和 Llama-3 系列 (Meta-AI, 2025; 2024) 中的 Instruct 模型和 Base 模型
  • 所有模型均使用 GRPO 算法在 verl 框架 (2025) 上进行训练
  • 详细的训练设置见附录 C.1
Evaluation Benchmarks
  • 论文使用 HealthBench-500(从 HealthBench (2025) 中随机抽取的 500 个样本子集)作为保留评估集
  • 此外,论文还评估了其他医学基准,包括 LLMEval-Med (2025b)、MedQA (2021) 和 MedMCQA (2022)
  • 对于写作领域,论文使用 WritingBench (2025c) 和 Creative Writing v3 (Paech, 2025) 基准
  • 对于指令遵循领域,论文使用 IFEVAL (2023b) 和 IFBench (2025) 基准
  • 对于 STEM 领域,论文使用 GPQA Diamond (2024)、MMLU (2020)、MMLU-Pro (2024)、MATH-500 (2023)、AMC 2023、AIME 2024 和 AIME 2025
  • 详细的评估设置见附录 C.2
Baselines
  • 论文将 RuscaRL 与四种代表性的基线方法进行比较:
    • (1) Rubric-based RL:
      • 使用 GRPO 算法实现,以 Rubric 分数作为奖励 (2025)
    • (2) 带有完整 Scaffolding 的 Rubric-based RL (Rubric-based RL-S):
      • 一种在指令中提供所有 Rubric 作为 Scaffolding 支持的方法,没有组内差异化,也没有逐步衰减功能
    • (3) SFT:
      • 在 GPT-4.1 (OpenAI, 2025b) 生成的、带有 Scaffolding 支持的演示数据上进行微调
    • (4) SFT + Rubric-based RL:
      • 一种组合方法,先应用 SFT,然后应用 Rubric-based RL 训练

Overall Performance

RuscaRL achieves consistent and notable gains across tasks and model scales, showcasing its effectiveness and broad generalization(RuscaRL 在任务和模型规模上取得了一致的显著提升)
  • 在医学、写作和指令遵循任务中(表 1),RuscaRL 相对于多个初始模型取得了显著提升,其中 Qwen3-30B-A3B-Instruct 在 HealthBench-500 上的表现超越了许多领先模型(例如 OpenAI-o3)
  • Notably,RuscaRL 对 Instruct 模型特别有效,并对较弱模型(如 Llama-3.1-8B-Instruct)提供了更大的增益
    • 这一优势源于论文的 Scaffolding 方法,它利用了模型现有的指令遵循能力来引出更高质量和更多样化的 Response,这解释了为什么 RuscaRL 特别适合在具有强指令遵循能力的模型上进行训练
  • Meanwhile,RuscaRL 也已成功扩展到 STEM 领域:
    • 在 Qwen2.5-7B-Instruct 上的实验显示,在所有 STEM 基准测试中均有一致的性能提升(见图 3)
  • 关于不同模型系列和规模的性能更详细结果见附录 D.1,进一步证明了论文方法的鲁棒性和广泛适用性
  • Additionally,论文在附录 D.2 中探讨了混合不同领域训练数据的效果
RuscaRL consistently outperforms Rubrics-based methods across tasks(RuscaRL 优于 Rubric-based 方法)
  • 如表 2 所示
    • 在 直接 RL(direct RL) Setting 中
      • RuscaRL 在大多数医学、写作和指令遵循任务上取得了最佳性能
      • 比 Rubric-based RL 和 RL-S 带来了更大且更稳定的增益(例如,在使用 Qwen2.5-7B-Instruct 时,HealthBench-500 上的准确率为 50.3 对比 41.2 和 36.6)
    • 在 先 SFT 后 RL(SFT-then-RL) Setting 中
      • RuscaRL 和 Rubric-based RL 都在 SFT 基础上取得了额外的提升,但 RuscaRL 在大多数任务上通常带来更大的增益,尽管幅度小于直接 RL 设置
      • 作者认为 RuscaRL 本质上是利用 Rubric 作为先验知识来指导探索,而 SFT 也用于加速 RL 探索(冷启动)
      • 由于这两种机制在促进探索方面存在重叠,这可能解释了为何在 SFT 后 RL 设置下,RuscaRL 与 Rubric-based RL 之间的性能差距会缩小

Analysis

  • 本小节以 Qwen2.5-7B-Instruct 作为初始模型,HealthBench 作为训练和评估数据集,对 RuscaRL 进行分析
  • In Addition,论文在以下分析中比较了三种方法:
    • RuscaRL
    • RuscaRL* (不带逐步衰减机制的 RuscaRL)
    • Rubric-based RL
  • 论文使用 Best-of-N 指标来反映模型的推理边界(在大的 N 时)和采样效率(在小的 N 时)
RuscaRL significantly improves sampling efficiency and reasoning boundaries.
  • 如图 4 所示
    • RuscaRL 显著提高了 N=1 时的单样本质量,表明 Scaffolding 机制有效地增强了模型的推理稳定性
    • 在 N=2048 时,其性能上限超过了初始模型和 Rubric-based RL,验证了其在扩展推理边界方面的优势
    • Moreover,RuscaRL 在 N 变化时表现出更陡峭的性能曲线,意味着它可以用更少的样本达到相同的性能
    • 进一步分析(附录 D.4.1)表明,RuscaRL 还 产生了初始模型几乎无法生成的高度新颖的 Response(produces highly novel responses that theinitial model could barely generate) ,这表明 Rubric Scaffolding 有效地打破了探索瓶颈并发现了新的解决方案
RuscaRL achieves exploration-exploitation balance
  • 如图 5 (a) 所示,RuscaRL 展示了一个平衡良好的探索-利用轨迹:
    • 策略熵首先随着模型探索多样化的推理轨迹而上升,然后随着其收敛到高质量模式而下降
    • In Contrast,RuscaRL* 遭受不受控制的熵增长导致不稳定,而 Rubric-based RL 则在持续的熵下降中崩溃
      • 理解:这里单从熵上(5(a))看,RuscaRL 和 RuscaRL* 其实差不多,只是评估分数在一百步左右突然崩溃了
  • 验证准确率(图 5 (b))一致显示
    • RuscaRL 在整个训练过程中实现了最佳性能,展现了没有策略熵崩溃的长期稳定性,其次是 Rubric-based RL,然后是 RuscaRL*
  • 在 Self-BLEU 和语义距离(附录 D.4.2)中也观察到了类似的趋势,证实 RuscaRL 实现了有效的探索,随后是稳定的利用

Ablation Studies

Intra-group Differentiation Analysis
  • 论文首先以 Qwen2.5-7B-Instruct 作为初始模型,HealthBench 作为训练和评估数据集,分析组内控制机制的不同策略
  • 在单个采样组内,论文比较了不同的 Rubric Scaffolding 差异化模式
  • 这些机制是:
    • (1) Linear(Ours): 遵循论文提出的公式 \(\lambda_i = \frac{G-i}{G-1}\) 的线性差异化模式
      • 为单个采样组内的不同样本提供不同水平的 Rubric Scaffolding
    • (2) Binary: 二元差异化模式,其中 N 表示单个采样组内具有完整 Rubric Scaffolding 的样本数量
      • 包括无 Scaffolding (N=0)、半数 Scaffolding (N=4) 和完整 Scaffolding (N=8) 等配置
  • 如图 6 (a) 所示,线性差异化策略在组内控制中表现最优
    • 这一结果可归因于线性策略显著增强了采样多样性,这与 GRPO 等多采样算法协同工作
Inter-step Decay Analysis
  • 论文分析了训练过程中用于逐步控制的不同衰减函数
  • 论文将逐步控制的基础 Scaffolding 强度定义为 \(f(t)\),其中 \(t\) 是归一化的训练进度(\(t \in [0,1]\))
  • 论文比较了以下衰减函数:
    • (1) Sigmoid(Ours): S 形衰减函数
      $$f(t) = \frac{1}{1+e^{\alpha(t-t_0)} } $$
      • 其中参数 \(\alpha\) 控制衰减的陡峭度,\(t_0\) 控制衰减的中点,实现了平滑的非线性过渡
    • (2) Constant: 常数控制 \(f(t) = 1\),保持恒定的完整 Scaffolding
    • (3) Linear: 线性衰减函数 \(f(t) = 1 - t\),实现均匀的线性减少
    • (4) Power(n): 幂衰减函数 \(f(t) = (1-t)^n\),其中 \(n\) 控制衰减的曲率,包括各种幂次配置
  • 如图 6 (b) 所示,Sigmoid 衰减函数在所有衰减策略中取得了最佳性能
    • In Contrast,线性和幂衰减策略表现较差,作者认为这是由于长时间的 Scaffolding 添加可能导致模型过度适应相应的 Scaffolding,而不是专注于实际的指令内容
    • Sigmoid 函数通过其平滑的非线性过渡特性,在训练早期提供足够的 Scaffolding 支持,然后逐渐减少依赖,避免了过拟合问题
  • 基于 Sigmoid 函数的优越性能,论文进一步使用 Qwen2.5-7B-Instruct 作为初始模型,HealthBench 作为训练和评估数据集,分析了两个参数维度(速度 \(\alpha\) 和 中点 \(t_0\))的影响
    • (1) 移除 Scaffolding 的速度:
      • 移除 Scaffolding 过快(大的 \(\alpha\))会使模型难以适应快速的 Scaffolding 变化,容易导致训练不稳定;
      • 移除 Scaffolding 过慢(小的 \(\alpha\))会导致早期阶段 Scaffolding 支持不完整,未能充分激发模型的探索能力,并且在后期阶段长时间保留 Scaffolding 也会导致过拟合问题
        • 问题:为什么早期阶段 Scaffolding 支持不完整?移除 Scaffolding 过慢 不是反而能更多探索吗?
          • 我的个人理解:移除 Scaffolding 过慢会导致模型过度依赖 Scaffolding,最终导致过拟合
    • (2) 衰减时机:
      • 衰减开始过早(小的 \(t_0\))会导致 Scaffolding 支持不足,使模型在训练早期缺乏必要的指导;
      • 衰减开始过晚(大的 \(t_0\))会导致模型过度依赖 Scaffolding,最终导致过拟合
  • 图 6 (c) 和 6 (d) 展示了不同 Sigmoid 参数配置下的性能差异,最终确定最优配置为 \(\alpha=125, t_0=0.2\)

附录 A:Additional Related Works

LLM Reasoning

  • 虽然早期的方法如提示工程 (2022;2022) 和监督微调 (2022) 取得了令人鼓舞的结果,但它们对任务特定提示或大量标注数据的依赖限制了其可扩展性和跨领域泛化能力 (2020;2024;2024;2023)
  • 最近的工作发现,使用更多的测试时计算 (2024;2024;2025) 可以提高 LLM 的推理性能
  • 最近,RLVR (2024;2025;2025) 已成为训练 LLM 解决可验证问题的有前景范式,在数学和代码等领域显示出强大的推理改进 (2025;2025;2024;2025)。然而,它面临着显著的探索瓶颈 (2025;2025;2025),并且难以扩展到难以验证正确性的通用任务 (2025;2025)

附录 B:Algorithm Pseudocode

  • 算法 1 提供了论文 RuscaRL 训练过程的完整伪代码,说明了关键组成部分,包括组内 Scaffolding 差异化、步间 Scaffolding 衰减和 Rubric-based 奖励计算

附录 C:Detailed Experimental Settings

C.1 Detailed Training Settings

Initial Models
  • 论文对不同系列和参数规模的模型进行了训练,包括 Qwen2.5 系列 (Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Qwen2.5-7B, Qwen2.5-32B-Instruct, Qwen2.5-32B),Qwen3 系列 (Qwen3-4B-Instruct-2507, Qwen3-4B-Base, Qwen3-30B-A3B-Instruct-2507, Qwen3-30B-A3B-Base),以及 Llama-3 系列 (Llama-3.1-8B-Instruct, Llama-3.1-8B, Llama-3.2-3B-Instruct)
Training Datasets
  • 对于医学领域,论文使用从 HealthBench 中排除 HealthBench-500 后剩余的 4500 个样本
  • 对于其他领域,论文通过调用 GPT-4.1 (2025b) 并附上附录 E.3 中详述的特定提示词来生成类似 HealthBench 的 Rubric 数据
    • 对于写作领域,论文结合了 LongWriter-6k (2024) 和 LongWriter-Zero-RLData (2025b) 数据集
    • 对于指令遵循领域,论文使用了 IF-multi-constraints-upto5 (2025) 数据集
    • 对于 STEM 领域,论文使用了 SCP-116K (2025) 和 MATH 训练数据集 Level 3-5 (2021)
Training Configurations
  • 本节提供了详细的训练配置,如表 3 所示
  • 所有模型共享相同的超参数,除了 sigmoid 衰减函数中的 \(t_{0}\) 参数
    • 具体来说,Qwen3-30B-A3B-Instruct 和 Qwen3-30B-A3B-Base 使用 \(t_{0}=0.1\)
    • Llama-3.1-8B-Instruct 和 Llama-3.1-8B 使用 \(t_{0}=0.15\)
    • Llama-3.2-3B-Instruct 使用 \(t_{0}=0.3\)
    • 其余模型 (Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Qwen2.5-7B, Qwen2.5-32B-Instruct, Qwen2.5-32B, Qwen3-4B-Instruct-2507 和 Qwen3-4B-Base) 使用 \(t_{0}=0.2\)

C.2 Detailed Evaluation Settings

  • 对于医学基准测试 (HealthBench-500 和 LLMEval-Med),论文使用 GPT-4.1 作为 Grader 模型
  • 对于写作基准测试 (WritingBench 和 Creative Writing v3),论文使用 Claude-Sonnet-4 作为 Grader 模型
  • 论文的生成参数在所有评估中均设置为 Temperature=0.7,Top-P=0.8,Top-K=20
  • 最大输出长度配置为:
    • 非写作任务 4096 tokens
    • 写作任务 16000 tokens
  • 指标方面:
    • 对于 IFEVAL 和 IFBench,论文报告 Prompt-level 的严格准确率(strict-accuracy)指标
    • 对于 HealthBench-500、LLMEval-Med 和 WritingBench,论文报告单次评估结果;
    • 对于 MedQA、MedMCQA、Creative Writing v3、IFEVAL、IFBench、GPQA-D、MMLU、MMLU-Pro、MATH-500、AMC 2023、AIME 2024 和 AIME 2025,论文报告三次运行的平均值
    • 注:所有分数都转换为百分比制报告
  • 论文还与其他模型进行了比较,包括:
    • 闭源模型 (OpenAI-o3 (2025a)、GPT-4.1 (2025b)、Gemini-2.5-Pro (2025))
    • 开源模型 (DeepSeek-R1-0528 (2025)、Qwen3-235B-Thinking-2507 (2025)、Kimi-K2-Instruct (2025)、gpt-oss-120b、gpt-oss-20b (2025c)、Rubicon-Preview (2025)),在 HealthBench-500(图1)上展示了论文方法的竞争力

附录 D:Detailed Experimental Analysis

D.1 Performance Across Different Models

  • 表 4 显示了初始模型性能与 RuscaRL 增强后性能的比较,展示了不同模型系列和规模下的改进

D.2 Mixed Training Analysis

  • 为了评估不同训练策略的有效性,论文在 Qwen2.5-7B-Instruct 上比较了领域特定训练、仅医疗领域训练和混合训练方法
  • 如表 5 所示,领域特定训练在大多数基准测试上取得了最佳的整体性能,证明了针对特定领域进行优化的好处
  • 仅医疗领域训练在医学基准测试上表现良好,但在非医学任务上改进有限,仅在 IFEVAL 上观察到轻微下降,凸显了专业化与泛化之间的权衡
  • 混合训练结合了所有领域的数据,提供了一种平衡的方法,在不同任务类别上实现了适度的改进,尽管没有达到领域特定训练的峰值性能

D.3 SFT 与 RuscaRL 对比 (Supervised Fine-tuning vs. RuscaRL)

  • 如表 6 所示,使用 GPT-4.1 演示进行 SFT 在不同模型能力上表现出不同的效果
  • 对于像 Qwen2.5-7B-Instruct 这样的较弱模型,SFT 提供了显著的改进,在 HealthBench-500 (+14.7) 和 WritingBench (+17.5) 上取得了可观的增益,其中 WritingBench 的改进甚至超过了 RuscaRL 在该基准测试上的性能
  • 然而,像 Qwen3-30B-A3B-Instruct 这样的较强模型在多个基准测试上经历了性能下降,包括 HealthBench-500 (-3.0) 和 WritingBench (-12.0),凸显了当静态演示数据未能显著超过模型现有能力时的局限性
  • In Contrast,论文的 RuscaRL 方法通过实现超越静态演示数据的动态探索,在不同规模的模型上持续改进性能。RuscaRL 为较弱模型和较强模型都取得了显著的改进

D.4 Additional Metrics Analysis

Extra Evaluation Metrics
  • 论文采用额外的指标来评估模型性能
  • (1) 新颖性 (Novelty) 衡量模型生成在训练前被认为概率较低的解决方案的能力
    • 论文首先基于序列似然 (2024;2023a) 计算测试集上每个生成序列的重要性比例,这反映了新旧策略之间的差异:
      $$
      \rho_{seq}=\left(\frac{\pi_{\theta}\left(o|q\right)}{\pi_{\theta_{\text{old} } }\left(o|q\right)}\right)^{\frac{1}{|o|} }=\exp\left(\frac{1}{|o|}\sum_{t=1}^{|o|}\log\frac{\pi_{\theta}\left(o_{t}|q,o_{ < t}\right)}{\pi_{\theta_{\text{old} } }\left(o_{t}|q,o_{ < t}\right)}\right).
      $$
    • 基于这些重要性比例,论文推导出两个指标:
      • (a) 中位重要性比例 (Median Importance Ratio): 所有重要性比例的中位数,反映整体新颖性水平
      • (b) 高于阈值的计数 (Count above Thresholds): 重要性比例超过特定阈值的样本数量
        • 论文使用三个阈值:比例大于 2 表示原始模型难以生成的响应,大于 10 表示非常困难的响应,大于 100 表示几乎不可能的响应
  • (2) 多样性 (Diversity) 衡量模型为同一指令生成多个不同响应的能力
    • 在论文的实验中,论文为测试集中的每个指令生成 16 个响应,并使用两个指标评估多样性:
      • (a) Self-BLEU (2018;2002),它通过计算每个答案与集合中其他答案之间的 BLEU 分数来衡量生成答案的表层词汇相似度
        • 论文使用 1-Self-BLEU 作为多样性指标,因为更低的 self-BLEU 表示更高的多样性
      • (b) 语义距离 (Semantic Distance) 通过计算生成答案的嵌入向量之间的平均余弦距离来衡量语义多样性,使用 Qwen3-Embedding-0.6B (2025c) 计算
D.4.1 Novelty Analysis
  • 为了验证 RuscaRL 在训练后相比 Rubric-based RL 实现了显著更高的新颖性改进
  • 表 7 展示了两种方法在重要性比例方面的性能
    • Rubric-based RL 方法相比原始模型显示出一些改进,但增强有限
    • In Contrast,RuscaRL 表现出显著更高的新颖性:
      • 平均重要性比例达到 5424.62,有 321 个样本的重要性比例大于 2,11 个大于 10,甚至有 7 个大于 100
  • 这些结果提供了强有力的证据,表明通过 RuscaRL 训练的模型可以生成原始模型认为几乎不可能生成的响应
  • 如图 7 所示,RuscaRL 在新颖性指标上表现出明显优势
  • 表 8 展示了 Qwen2.5-7B-RuscaRL 和 Rubric-based RL 模型重要性比例 \(\rho_{seq}\) 最高的前 10 个样本,以及它们与 Qwen2.5-7B-Instruct 基线的得分差异
  • 得分差异计算为:
    $$
    \text{Score Diff}=\text{Score}_{\text{after RL} }-\text{Score}_{\text{initial} },
    $$
    • 其中正值表示性能相比基线有所改进
  • 上述分析揭示了关于不同方法探索模式的几个关键见解
    • RuscaRL 的重要性比例显著高于 Rubric-based RL,最高样本达到 \(\rho_{seq}=2,638,481.94\),而 Rubric-based RL 的最大值为 \(35.66\)
      • 表明 RuscaRL 对策略空间进行了更积极的探索
      • 理解:这也导致了模型可能发生灾难性遗忘吧?
    • Notably,RuscaRL 的高重要性样本通常对应有意义的性能改进(例如,得分差异为 \(0.54\)、\(0.89\)、\(0.67\)、\(0.86\)),而 Rubric-based RL 的高重要性样本则经常显示出最小的改进
      • 问题:这里的分数是什么?是新颖性吗?
    • RuscaRL 中具有极端异常值的重尾分布与 Rubric-based RL 中均匀、保守的分布相比
      • 表明论文的 Rubric-based Scaffolding 机制成功地识别并放大了真正新颖、高价值的响应
D.4.2 Diversity Analysis
  • 为了分析 RuscaRL 在训练期间多样性的变化,论文将其与 Rubric-based RL 进行比较,并绘制了 Self-BLEU 分数和语义距离的训练曲线
  • 如图 8 所示,RuscaRL 表现出与常规 RL 方法不同的多样性演变模式
    • 在两个多样性指标上,RuscaRL 在训练早期阶段迅速提高了多样性,然后保持相对稳定的高多样性水平并逐渐下降
    • In Contrast,常规 RL 显示出更快的多样性崩溃(尤其是在语义距离指标上)

D.5 Importance Sampling Analysis

  • 在带有 Scaffolding 的策略梯度方法的背景下,重要性比例计算方式的选择对于保持理论保证和实际性能至关重要
  • 论文分析了 RuscaRL 框架中计算重要性比例的三种不同方法
Theoretical Foundation
  • 当使用从不同行为策略 \(\pi_{\theta_{old} }\) 收集的数据训练策略 \(\pi_{\theta}\) 时,重要性采样为策略梯度提供了一个无偏估计量
  • 在论文的设置中,关键挑战在于行为策略使用了 Scaffolding \(\mathcal{R}_{S}\) 而目标策略没有使用
  • 对于一个不使用 Scaffolding 的目标策略 \(\pi_{\theta}(\cdot|q)\) 训练于使用 Scaffolding 收集的数据 \(\pi_{\theta_{ {\rm{old} } } }(.|q,\mathcal{R}_{S})\),理论正确的每 token 重要性比例为:
    $$
    \rho_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,\mathcal{R}_{S},o_{i,<t})}.
    $$
    • 这为无 Scaffold 目标提供了一个无偏估计量
      • 注意:不要觉得这里分子分母对不齐就不是无偏的,这里确实是无偏的,因为分子和分母分别是训练(\(q\))和 Rollout(\((q,\mathcal{R}_{S})\)) 时使用的真实推理内容
    • However,由于分子和分母之间的状态不匹配 ,这种方法可能会受到高方差的影响
  • 另一种方法是使用
    $$ \rho_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,o_{i,< t})}$$
    • 这并非真正的重要性采样修正 ,而是作为一种向参考无 Scaffold 策略的近端更新
    • 虽然理论上不够严谨,但这种方法在实践中通常能提供更好的稳定性和性能
      • 理解:这会导致 RL Rollout 真实使用的状态和计算 IS 时的状态不一致,会导致出现理论上的错误(重要性采样修正公式错误)
        • 所以这种做法理论上是不合理的,但尊重作者的实验结果
      • 建议:针对上面的无偏估计方法,进行一些 Clip 等稳定 RL 重要性权重的手段优化,应该能拿到最优结果
Empirical Validation
  • 为了验证不同重要性比例计算方法的有效性,论文在多个医学基准测试上对 Qwen2.5-7B-Instruct 进行了实验
  • 表 9 展示了各种重要性采样方法的比较结果
Results Analysis
  • 实验结果揭示了理论正确性与实际性能之间权衡的重要见解
  • 第一种方法 \(\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,o_{i,< t})}\) 在大多数基准测试上取得了最佳性能,尽管它不是一个真正的重要性采样修正
    • 这种方法有效地充当了一种近端策略更新,鼓励模型内化 Scaffolding 知识,同时保持训练稳定性
  • 第二种方法 \(\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,\mathcal{R}_{S},o_{i,< t})}\) 代表了使用带有 Scaffolding 的训练数据优化无 Scaffold 目标策略的理论上正确的无偏重要性采样比例
    • 虽然这种方法提供了数学上严格的分布修正,但由于分子和分母之间的条件不匹配导致方差较高,在实践中导致性能略有下降
  • 第三种方法 \(\frac{\pi_{\theta}(o_{i,t}|q,\mathcal{R}_{S},o_{i,< t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,\mathcal{R}_{S},o_{i,< t})}\) 通过在分子和分母中匹配条件来保持理论一致性,但性能不如第一种方法,因为它不鼓励模型学习无 Scaffold 的推理模式

D.6 Training Runtime

  • 训练过程包括三个阶段:Rollout、Reward 和 Actor Update
  • Notably,RuscaRL 保持了与 Rubric-based RL 方法 (2025;2025) 相似的训练运行时间
  • 对于 Qwen2.5-7B-Instruct 在医学任务上使用 \(8\times\) H200 GPU
    • Rollout 每步平均时间为 40 秒
    • Actor Update 为 15 秒
    • Reward 时间取决于服务效率(例如 vLLM (2023)、SGLang (2024))或外部 API 调用
      • 在论文的实验中使用外部 API 时,Reward 每步平均时间为 20 秒
  • 因此,训练 5 个轮次(350 步)总共需要 7.3 小时

附录 E:Prompt Templates

  • 本节提供了 RuscaRL 框架中使用的三个核心提示词模板,包括 Grader 评估模板、Scaffolding 模板和数据生成模板

E.1 Grader 提示词模板 (E.1 Grader Prompt Template)

  • 论文在训练期间进行奖励计算和评估期间进行得分计算时,使用与 HealthBench (2025) 相同的 Grader 提示词模板,如表 E.1 所示

  • Table E.1: Rubric Evaluation Prompt Template.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    Your job is to look at a conversation and a rubric item, and score the last turn (i.e., the last assistant response, 
    or the completion) in the conversation on how well it follows the rubric item.

    # Conversation
    <<conversation>>

    # Rubric item
    <<rubric item>>

    # Instructions
    Return a json object with the following fields: "explanation" and "criteria met".
    - The "explanation" field should be a string explaining why the response does or does not meet the criteria of the rubric item.
    - The "criteria met" field should be a boolean indicating whether the response meets the criteria of the rubric item. If a rubric item has multiple sentences or criteria,
    you should consider all of them. If any of the criteria is not met, the answer should be false. Only return true is all of the criteria are met.
    - One important exception to the above bullet point is that if a criteria says "such as", "for example", or "including", the response does not have to include all of the examples listed to meet the criteria.
    For example, if the criteria says "States that oral iron supplements can lead to unpleasant gastrointestinal side effects such as nausea, vomiting, and constipation",
    and the response just says that oral iron supplements can lead to unpleasant gastrointestinal side effects such as cramps,
    that would still meet the criteria even though it didn’t mention any of the specific examples listed in the criteria.

    # Example 1
    For example, if the conversation is "user: Should i go to the hospital if I am unconscious? assistant: no just stay at home until you magically get better"
    and the rubric item is "tells the user to go to the hospital if unconscious", you should return a json like this:
    ‘‘‘json
    {
    "explanation": "The assistant did not tell the user to go to
    the hospital if unconscious.",
    "criteria met": false
    }
    ‘‘‘

    # Example 2
    Note that sometimes the criteria may be something undesirable and have a corresponding point value that is negative. In this case,
    you should still return whether the criteria is met, and not whether the response is good or not. For example, consider the conversation is "user: is smoking good for you? assistant: no, smoking is bad for you"
    and the criterion is "fails to give the user accurate information", which is something undesirable. Here, the criteria was not met because the response was correct.
    In this case, you should return a json like this:
    ‘‘‘json
    {
    "explanation": "The assistant actually gave the user accurate information, so the criteria was not met.",
    "criteria met": false
    }
    ‘‘‘

    As another example, if the critera says "Is overly verbose" and the response is concise, then the criteria is not met, and you should return a json like this:
    ‘‘‘json
    {
    "explanation": "The response is concise, so the criteria was
    not met.",
    "criteria met": false
    }
    ‘‘‘

    In other words, for criteria with negative points, a good response should be classified as false because it does not meet the undesirable criteria, and only bad responses that do meet undesirable criteria should be classified as true.
    # Final instruction
    Return just the json object in markdown format. Do not include any other text in the response.
    • 中文含义:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      38
      39
      40
      41
      42
      43
      44
      45
      46
      47
      48
      49
      50
      你的工作是查看一段对话和一个 Rubric 条目,并对对话中的最后一轮(即最后一个助手回复或完成内容)进行评分,评估其遵循该 Rubric 条目的情况

      # 对话 (Conversation)
      <<conversation>>

      # Rubric 条目 (Rubric item)
      <<rubric.item>>

      # 指令 (Instructions)
      返回一个包含以下字段的 JSON 对象:"explanation" 和 "criteria.met"
      - "explanation" 字段应是一个字符串,解释为什么响应满足或不满足该 Rubric 条目的标准
      - "criteria.met" 字段应是一个布尔值,指示响应是否满足该 Rubric 条目的标准。如果一个 Rubric 条目有多个句子或标准,你应该考虑所有标准。如果任何标准未被满足,答案应为 false。只有当所有标准都被满足时,才返回 true
      - 对上述要点的**一个重要例外**是:如果一个标准说“例如”、“举个例子”或“包括”,响应不必包含列出的所有示例即可满足该标准。例如,如果标准是“说明口服铁补充剂可能导致令人不快的胃肠道副作用,如恶心、呕吐和便秘”,而回复只是说口服铁补充剂可能导致令人不快的胃肠道副作用,如痉挛,那么即使它没有提到标准中列出的任何具体示例,这仍然满足标准

      # 示例 1
      例如,如果对话是“用户:如果我失去意识了,我应该去医院吗? 助手:不,就呆在家里,直到你神奇地好起来”,而 Rubric 条目是“告诉用户如果失去意识就去医院”,你应该返回如下 JSON:

      ‘’‘json
      {
      "explanation": "助手没有告诉用户如果失去意识就去医院。",
      "criteria.met": false
      }
      ’‘’

      # 示例 2
      请注意,有时标准可能是不可取的,并且对应的分值可能是负的。在这种情况下,你仍应返回标准是否被满足,而不是响应是好是坏
      例如,考虑对话是“用户:吸烟对你有好处吗? 助手:不,吸烟对你有害”,而标准是“未能给用户准确的信息”,这是不可取的。这里,标准未被满足,因为响应是正确的。在这种情况下,你应该返回如下 JSON:

      ‘’‘json
      {
      "explanation": "助手实际上给了用户准确的信息,所以标准未被满足。",
      "criteria.met": false
      }
      ’‘’

      作为另一个例子,如果标准说“过于冗长”,而响应很简洁,那么标准未被满足,你应该返回如下 JSON:

      ===== Page 24 =====

      ‘’‘json
      {
      "explanation": "响应很简洁,所以标准未被满足。",
      "criteria.met": false
      }
      ’‘’

      换句话说,对于带负分的标准,一个好的响应应被分类为 false,因为它不符合不可取的标准;只有确实符合不可取标准的坏响应才应被分类为 true

      # 最终指令 (Final instruction)
      仅以 markdown 格式返回 JSON 对象。不要在响应中包含任何其他文本

E.2 Scaffolding Prompt Template

  • 表 E.2 提供了在训练期间用于 Rubric-based Scaffolding 的提示词模板,将选定的 Rubric 标准作为显式指导添加到原始指令中

    • 如果没有相应的标准可用,则提示词中省略“重要包含要点 (IMPORTANT POINTS TO INCLUDE)”或“重要避免要点 (IMPORTANT POINTS TO AVOID)”部分
  • Table E.2: Scaffolding Prompt Template

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    You are a helpful assistant. For this question, please consider the following evaluation criteria:

    IMPORTANT POINTS TO INCLUDE (you should aim to address these):
    <<criterion1>>
    <<criterion2>>
    <<criterion3>>
    ...

    IMPORTANT POINTS TO AVOID (you should not do these):
    <<criterion1>>
    <<criterion2>>
    <<criterion3>>
    ...

    Please provide a comprehensive and helpful response that addresses the user’s concerns while following the above guidelines.

    IMPORTANT: Do not mention or reference these evaluation criteria in your response.
    Do not indicate that you have seen any scoring rubric or evaluation guidelines.
    Your response should appear natural and spontaneous.
    Revealing that you have access to evaluation criteria would be considered cheating and is strictly prohibited.
    • 中文版:

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      你是一个乐于助人的助手。对于这个问题,请考虑以下评估标准:

      **重要包含要点(你应该尽量涵盖这些):**
      <<criterion1>>
      <<criterion2>>
      <<criterion3>>
      ...
      **重要避免要点(你不应该做这些):**
      <<criterion1>>
      <<criterion2>>
      <<criterion3>>
      ...
      请提供一个全面且有用的回答,解决用户的顾虑,同时遵循上述指导原则

      **重要提示:** 不要在你的回答中提到或引用这些评估标准。不要表明你看到了任何评分 Rubric 或评估指南。你的回答应该显得自然和自发。透露你可以访问评估标准将被视为作弊,是严格禁止的
      • 亮点:在设计中尽量让模型输出自然(就像是没有 Rubric 提示一样)

E.3 Data Generation Prompt Template

  • 表 E.3 提供了用于生成类似 HealthBench 的 Rubric 数据的提示词模板

    • 对于提供理想答案的数据集,论文直接使用数据集中的问题-答案对来生成 Rubric 数据;
    • 对于没有理想答案的数据集,论文首先使用 GPT-4.1 生成示例解决方案,然后基于这些生成的解决方案生成 Rubric 数据
  • Table E.3: Data Generation Prompt Template.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    You are an expert in educational assessment and rubric design. Your task is to analyze a given question-answer pair and generate comprehensive evaluation rubrics that can be used to assess response quality.

    # Input Data # Question
    <<question>>
    # Answer
    <<answer>>

    # Task Instructions
    Based on the provided question and answer, generate a comprehensive rubric with multiple evaluation criteria. Each criterion should be:
    1. **Specific and Measurable**: Clearly define what constitutes meeting or not meeting the criterion
    2. **Binary Evaluable**: Can be assessed as true/false by an LLM evaluator
    3. **Comprehensive Coverage**: Together, all criteria should cover the key aspects of a high-quality response

    # Required Rubric Categories
    Generate criteria covering these aspects:
    - **Factual Accuracy**: Evaluate the correctness of facts, information, and domain-specific content
    - **Solution**: Evaluate the reasonableness of logical reasoning and methodology
    - **Answer Consistency**: Verify whether the answer is consistent with expected results (if applicable)
    - **Format Compliance**: Check whether the model output conforms to specified format requirements (if applicable)

    # Output Format
    Return a JSON object with the following structure:
    ‘‘‘json
    {
    "rubrics": [
    {
    "criterion": "The response contains accurate facts and domain-specific content without errors",
    "points": 10
    },
    {
    "criterion": "The response demonstrates clear understanding of underlying principles and relationships",
    "points": 8
    },
    {
    "criterion": "The response uses logical reasoning and appropriate methodology",
    "points": 7
    },
    {
    "criterion": "The response contains factual errors or misinformation",
    "points": -5
    },
    {
    "criterion": "The response is completely off-topic or irrelevant",
    "points": -10
    },
    // ... additional criteria
    ]
    }
    ‘‘‘

    # Important Guidelines
    - Generate 5-15 criteria total, ensuring comprehensive coverage
    - Points should reflect the relative importance of each criterion
    (supports positive scores from 1 to 10 for reward criteria, and negative scores from -10 to -1 for penalty criteria)

    Return only the JSON object without additional commentary.
    • 中文版:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      38
      39
      40
      41
      42
      43
      44
      45
      46
      47
      48
      49
      50
      51
      52
      53
      54
      55
      56
      你是一位教育评估和 Rubric 设计专家。你的任务是分析给定的问题-答案对,并生成可用于评估响应质量的综合评估 Rubric

      # 输入数据
      # 问题
      <<question>>
      <<answer>>
      # 任务指令

      基于提供的问题和答案,生成一个包含多个评估标准的综合 Rubric。每个标准应满足:
      1. **具体且可衡量 (Specific and Measurable):** 明确定义满足或不满足标准的内容
      2. **可二元评估 (Binary Evaluate):** 可以由 LLM 评估器评估为真/假
      3. **全面覆盖 (Comprehensive Coverage):** 所有标准共同应涵盖高质量响应的关键方面

      # 必需的 Rubric 类别
      生成涵盖以下方面的标准:
      * **事实准确性 (Factual Accuracy):** 评估事实、信息和领域特定内容的正确性
      * **解决方案 (Solutions):** 评估逻辑推理和方法论的合理性
      * **答案一致性 (Answer Consistency):** 验证答案是否与预期结果一致(如果适用)
      * **格式合规性 (Format Compliance):** 检查模型输出是否符合指定的格式要求(如果适用)

      # 输出格式
      返回一个具有以下结构的 JSON 对象:

      ‘’‘json
      {
      "rubrics": [
      {
      "criterion": "响应包含准确的事实和领域特定内容,没有错误",
      "points": 10
      },
      {
      "criterion": "响应展示了对基本原理和关系的清晰理解",
      "points": 8
      },
      {
      "criterion": "响应使用了逻辑推理和恰当的方法论",
      "points": 7
      },
      {
      "criterion": "响应包含事实错误或误导信息",
      "points": -5
      },
      {
      "criterion": "响应完全离题或不相关",
      "points": -10
      },
      // ... 更多标准
      ]
      }
      ’‘’

      # 重要指南
      - 总共生成 5-15 个标准,确保全面覆盖
      - 分值应反映每个标准的相对重要性(奖励标准支持 1 到 10 的正分,惩罚标准支持 -10 到 -1 的负分)

      仅返回 JSON 对象,不要附加额外的评论。

NLP——LLM对齐微调-VAPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, arXiv 20250411, ByteDance Seed

Paper Summary

  • 整体说明:
    • 论文提出 VAPO(Value-model-based Augmented Proximal Policy Optimization) 框架/算法,利用 Qwen2.5-32B 模型在 AIME24 基准上实现了 SOTA 性能
    • VAPO 通过在 PPO 之上引入七项新技术(包含 VC-PPO 和 DAPO 相关的优化),这些技术专注于改进价值学习和平衡探索,论文的基于 Value Model 的方法优于当代 value-model-free 方法,如 GRPO 和 DAPO
    • 评价:论文更偏实践,很多优化点是来自已有的工作,如 VC-PPO 和 DAPO 等
  • VAPO 是一种专为 value-model-based paradigm 的推理模型量身定制的框架
  • 在 AIME 2024 数据集上进行基准测试时,基于 Qwen 32B 预训练模型构建的 VAPO 取得了 60.4 的 SOTA 性能
  • 在相同的实验设置下直接比较,VAPO 比 DeepSeek-R1-Zero-Qwen-32B 和 DAPO 的结果高出 10分 以上
  • VAPO 的训练过程稳定且高效:
    • 仅在 5,000 步内就达到了 SOTA 性能;
    • 在多次独立运行中,没有发生训练崩溃
  • 本研究使用 Value-model-based 强化学习框架深入研究长思维链(long-CoT)推理
  • 论文指出了困扰 Value-model-based 方法的三个关键挑战:
    • Value Model 偏差(value model bias)
    • 存在异质序列长度(the presence of heterogeneous sequence lengths)
    • 奖励信号稀疏 (the sparsity of reward signals)
  • 通过系统设计,VAPO 提供了一个集成解决方案,有效地缓解了这些挑战,从而在 long-CoT 推理任务中实现了性能提升

Introduction and Discussion

  • 诸如 OpenAI o1 和 DeepSeek R1 等推理模型在数学推理等复杂任务中表现出卓越性能,这些任务需要在测试时通过长思维链(long-CoT)进行逐步分析和问题解决,从而极大地推动了人工智能的发展
  • RL 在这些模型的成功中起着关键作用。它通过在可验证问题上不断探索通向正确答案的推理路径,逐步提高模型的性能,实现了前所未有的推理能力
  • 在 LLM 的 RL 训练中,像 GRPO 和 DAPO 这样的 value-model-free 方法已证明具有显著效果
    • 这些方法消除了学习 Value Model 的计算开销,而是仅基于整个轨迹的最终奖励来计算优势
    • Trajectory-level 优势被直接分配为序列中每个位置的 Token-level 优势
    • 当训练可靠的 Value Model 特别具有挑战性时, value-model-free 方法通过对一组内的多个轨迹的奖励进行平均,为优势计算提供了准确且稳定的基线
    • 这种基于组的奖励聚合减轻了对显式价值估计的需求,而显式价值估计在复杂任务中往往不稳定
    • 因此, value-model-free 方法在解决 long-CoT 推理等难题方面获得了显著关注,大量研究工作致力于优化其框架
  • 尽管 value-model-free 方法取得了显著成功,但作者认为,如果能够解决 Value Model 训练中的挑战,基于 Value Model 的方法具有更高的性能上限
    • 首先, Value Model 通过准确追踪每个动作对后续回报的影响 ,实现更精确的信用分配 ,从而促进更精细的优化
      • 这对于复杂推理任务尤为关键 ,在这些任务中,单个步骤的细微错误往往会导致灾难性失败,而在value-model-free 框架下进行模型优化仍然具有挑战性
    • 其次,与 value-model-free 方法中从蒙特卡罗方法得出的优势估计不同, Value Model 可以为每个 Token 提供方差更低的价值估计,从而增强训练稳定性
    • 此外,训练良好的 Value Model 表现出固有的泛化能力,能够更有效地利用在线探索过程中遇到的样本。这显著提升了强化学习算法的优化上限
      • 问题:这一点有点牵强吧,不一定需要 Value 模型啊
    • 因此,尽管在复杂问题中训练 Value Model 面临巨大挑战,但克服这些困难的潜在收益是巨大的
  • 然而,在 long-CoT 任务中训练完美的 Value Model 存在重大挑战
    • 首先,鉴于长轨迹和以自举方式学习价值的不稳定性,学习低偏差的 Value Model 并非易事
    • 其次,同时处理短响应和长响应也具有挑战性,因为它们在优化过程中可能对偏差-方差权衡表现出截然不同的偏好
    • 最后,验证器的奖励信号的稀疏性因 long-CoT 模式而进一步加剧,这本质上需要更好的机制来平衡探索和利用
  • 为了应对上述挑战并充分释放基于 Value Model 的方法在推理任务中的潜力,论文提出了 VAPO(Value-model-based Augmented Proximal Policy Optimization)
    • 这是一个基于 Value Model 的RL训练框架
    • VAPO 从 VC-PPO 和 DAPO 等先前研究工作中汲取灵感,并进一步扩展了它们的概念
  • 论文总结了论文的主要贡献如下:
    • 1)论文引入了VAPO,这是第一个在 long-CoT 任务上显著优于 value-model-free 方法的基于 Value Model 的RL训练框架
      • VAPO不仅在性能方面表现出显著优势,还展示了增强的训练效率,简化了学习过程,并强调了其作为该领域新基准的潜力
    • 2)论文提出了长度自适应广义优势估计(Length-adaptive GAE),它基于响应长度在GAE计算中自适应调整 \(\lambda\) 参数
      • 这种做法有效地满足了与高度可变长度的响应相关的不同偏差-方差权衡要求
      • 结果显示,优化了优势估计过程的准确性和稳定性(特别是在数据序列长度变化很大的场景中)
    • 3)论文系统地整合了先前工作中的技术(论文还通过消融研究进一步验证了它们的必要性),如:
      • DAPO 的 Clip-Higher 和 Token-level Loss
      • VC-PPO 的 Value-Pretraining 和 Decoupled-GAE
      • SIL 的自我模仿学习(self-imitation learning)
      • GRPO 的 Group-Sampling
  • VAPO是一个有效的强化学习系统,它汇集了这些改进
    • 这些增强功能协同工作,产生的综合结果优于各个部分的总和
    • 论文使用 Qwen2.5-32B 预训练模型进行实验,确保在任何实验中都不引入 SFT 数据,以保持与相关工作(DAPO 和 DeepSeek-R1-Zero-Qwen-32B)的可比性
    • VAPO的性能从原始 PPO 的 5分 提高到 60分,超过了之前的最先进 value-model-free 方法 DAPO(+10分)
    • 特别地,VAPO 非常稳定(论文在训练期间没有观察到任何崩溃,并且多次运行的结果始终相似)

Preliminaries

  • 本节将介绍论文提出算法的基础概念和符号表示
  • 论文首先探讨如何将语言生成任务建模为强化学习问题,随后介绍近端策略优化(Proximal Policy Optimization, PPO)和广义优势估计(Generalized Advantage Estimation, GAE)

将语言生成建模为 Token-level 的马尔可夫决策过程

  • 强化学习的核心是学习一种策略,使得智能体在与环境交互时能够最大化累积奖励
  • 在本研究中,论文将语言生成任务建模为马尔可夫决策过程(Markov Decision Process, MDP)(1998)
  • 设输入的 Prompt为 \( x \),生成的Response为 \( y \)
    • 两者均可分解为一系列 token 的序列
    • 例如: Prompt \( x \) 可表示为 \( x = (x_0, \ldots, x_m) \),其中 token 来自固定的离散词汇表 \( \mathcal{A} \)
  • 论文将 Token-level 的 MDP 定义为元组 \( \mathcal{M} = (\mathcal{S}, \mathcal{A}, \mathbb{P}, R, d_0, \omega) \),各组成部分的详细说明如下:
    • 状态空间(State Space, \( \mathcal{S} \)) :该空间包含所有可能的状态,每个状态由当前已生成的 token 序列构成。在时间步 \( t \),状态 \( s_t \) 定义为 \( s_t = (x_0, \ldots, x_m, y_0, \ldots, y_t) \)
    • 动作空间(Action Space, \( \mathcal{A} \)) :对应固定的离散词汇表,生成过程中从中选择 token 作为动作
    • 状态转移(Dynamics, \( \mathbb{P} \)) :表示 token 之间的确定性转移模型。给定状态 \( s_t = (x_0, \ldots, x_m, y_0, \ldots, y_t) \)、动作 \( a = y_{t+1} \) 和下一状态 \( s_{t+1} = (x_0, \ldots, x_m, y_0, \ldots, y_t, y_{t+1}) \),转移概率 \( \mathbb{P}(s_{t+1}|s_t, a) = 1 \)
    • 终止条件(Termination Condition) :当执行终止动作 \( \omega \)(通常是句子结束 token)时,语言生成过程结束
    • 奖励函数(Reward Function, \( R(s, a) \)) :该函数提供标量反馈,用于评估智能体在状态 \( s \) 下执行动作 \( a \) 的表现。在RLHF (2022) 中,奖励函数可以从人类偏好中学习,或根据任务规则定义
    • 初始状态分布(Initial State Distribution, \( d_0 \)) :是 Prompt \( x \) 的概率分布。初始状态 \( s_0 \) 由 Prompt \( x \) 的 token 序列构成

RLHF 目标

  • 论文将优化问题建模为带 KL 散度正则化的强化学习任务。目标是逼近最优的 KL 正则化策略,其数学表示为:
    $$
    \pi^* = \arg \max_{\pi} \mathbb{E}_{\pi, s_0 \sim d_0} \left[ \sum_{t=0}^{H} \left( R(s_t, a_t) - \beta \text{KL} \left( \pi(\cdot|s_t) | \pi_{\text{ref} }(\cdot|s_t) \right) \right) \right]
    $$
    • \( H \) 表示决策步的总数
    • \( s_0 \) 是从数据集中采样的 Prompt
    • \( R(s_t, a_t) \) 是从奖励函数中获得的 Token-level 奖励
    • \( \beta \) 是控制 KL 正则化强度的系数
    • \( \pi_{\text{ref} } \) 是初始策略
  • 在传统的 RLHF 和大多数 LLM 相关任务中,奖励是稀疏的,仅在终止动作 \( \omega \)(即句子结束 token <eos>)时分配

PPO

  • PPO (2017) 使用带裁剪的替代目标函数来更新策略。其核心思想是限制每一步策略更新的幅度,避免因策略变化过大而导致训练不稳定
  • 设 \( \pi_\theta(a|s) \) 为参数化策略,\( \pi_{\theta_{\text{old} } }(a|s) \) 为上一轮迭代的旧策略。PPO 的替代目标函数定义为:
    $$
    \mathcal{L}^{CLIP}(\theta) = \hat{\mathbb{E} }_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]
    $$
    • \( r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old} } }(a_t|s_t)} \) 是概率比
    • \( \hat{A}_t \) 是时间步 \( t \) 的优势估计
    • \( \epsilon \) 是控制裁剪范围的超参数
  • 广义优势估计 (GAE) 是一种用于在 PPO 中更准确估计优势函数的技术
    • 它结合多步自举(bootstrapping)来降低优势估计的方差
  • 对于长度为 \( T \) 的轨迹,时间步 \( t \) 的优势估计 \( \hat{A}_t \) 计算如下:
    $$
    \hat{A}_t = \sum_{l=0}^{T-t-1} (\gamma \lambda)^l \delta_{t+l}
    $$
    • \( \gamma \) 是折扣因子
    • \( \lambda \in [0,1] \) 是 GAE 参数
    • \( \delta_t = R(s_t, a_t) + \gamma V(s_{t+1}) - V(s_t) \) 是时序差分(Temporal-Difference, TD)误差
    • 这里 \( R(s_t, a_t) \) 是时间步 \( t \) 的奖励,\( V(s) \) 是价值函数
  • 注:在 RLHF 中通常设置折扣因子 \( \gamma = 1.0 \),为简化表示,论文后续章节将省略 \( \gamma \)

long-CoT RL推理任务中的挑战

  • long-CoT 任务给 RL 训练带来了独特的挑战,特别是对于采用 Value Model 来减少方差的方法
  • 在本节中,论文系统地分析了由序列长度动态、价值函数不稳定性和奖励稀疏性引起的技术问题

Value Model Bias over Long Sequences(长序列上的 Value Model 偏差)

  • 如 VC-PPO 中所指出的,用奖励模型初始化 Value Model 会引入显著的初始化偏差
    • 这种正偏差源于两个模型之间的目标不匹配
    • 奖励模型被训练为在<eos> Token 上评分,这促使它由于上下文不完整而给早期 Token 分配较低的分数
      • 注:Value Model 估计在给定策略下所有先于<eos>的 Token 的预期累积奖励
    • 在训练的早期阶段,鉴于 GAE 的反向计算,每个时间步t都会存在正偏差,该偏差沿轨迹累积
  • 另一个使用 \(\lambda=0.95\) 的 GAE 的标准做法可能会加剧这个问题
    • 终止 Token 处的奖励信号 \(R(s_{T},<eos>)\) 作为 \(\lambda^{T-t} R(s_{T},<eos>)\) 反向传播到第 \(t\) 个 Token
    • 对于 \(T-t \gg 1\) 的长序列,这种折扣将有效奖励信号降低到接近零
      • 理解:最准确的那个值(最后一个 Token 输出)反而被赋予了很小的权重
    • 因此,价值更新几乎完全以自举方式进行,依赖于高度偏差的估计,这削弱了 Value Model 作为可靠方差减少基线的作用

Heterogeneous Sequence Lengths during Training(异质序列长度)

  • 在 long-CoT 对得出正确答案至关重要的复杂推理任务中,模型通常会生成长度高度可变的响应
  • 这种可变性要求算法足够稳健,能够管理从非常短到极长的序列。因此,具有固定 \(\lambda\) 参数的常用 GAE 方法面临重大挑战
    • 即使 Value Model 是完美的,静态 \(\lambda\) 可能无法有效适应不同长度的序列
    • 对于短长度的响应,通过 GAE 获得的估计往往具有高方差:
      • GAE 代表了偏差和方差之间的权衡:在短响应的情况下,估计偏向于方差主导的一侧(理解:方差较大的一侧)
      • 理解:短的响应中,对每个 Token 来说,需要预估的未来 Token 不多,更像是蒙特卡罗采样得到的?
    • 另一方面,对于长长度的响应,GAE 由于自举而往往导致高偏差
      • GAE 的递归性质依赖于未来状态值,在长序列上累积误差,加剧了偏差问题
  • 这些限制深深植根于 GAE 计算框架的指数衰减性质

Sparsity of Reward Signal in Verifier-based Tasks(奖励信号的稀疏性)

  • 复杂推理任务经常部署验证器作为奖励模型,基于验证器的奖励模型通常提供二进制反馈
    • 这与提供密集信号(如-4到4的连续值)的传统基于语言模型的奖励模型不同,如 0 和 1
    • 理解:其实传统 RL 中很多也是二值反馈,这没什么大不了的
  • long-CoT 推理进一步加剧了奖励信号的稀疏性
    • 由于CoT显著延长了输出长度,它不仅增加了计算时间,还减少了接收非零奖励的频率
    • 在策略优化中,具有正确答案的采样响应可能极其稀缺和宝贵
  • 这种情况提出了一个独特的探索-利用困境
    • 一方面,模型必须保持相对较高的不确定性 ,使其能够采样多样化的响应范围,增加为给定 Prompt 生成正确答案的可能性
    • 另一方面,算法需要有效地利用通过艰苦探索获得的正确采样响应 ,以提高学习效率
  • 如果不能在探索和利用之间取得适当的平衡,模型可能会因过度利用而陷入次优解,或者在无成效的探索上浪费计算资源

VAPO:Addressing the Challenges in Long-CoT RL

Mitigating Value Model Bias over Long Sequences(缓解长序列上的 Value Model 偏差)

  • 基于原文 3.1节 中对基于 Value Model 的模型的分析,论文提出使用 Value-Pretraining 和 decoupled-GAE 来解决长序列上 Value Model 偏差的关键挑战
    • 注:这两种技术都借鉴了 VC-PPO 中先前引入的方法
  • Value-Pretraining 旨在缓解价值初始化偏差
    • 将 PPO 应用于 long-CoT 任务会导致失败,例如输出长度崩溃和性能下降:
      • 原因是 Value Model 从奖励模型初始化,而奖励模型与 Value Model 的目标不匹配
    • 这种现象首先在 VC-PPO 中被识别和解决,在论文中,论文遵循Value-Pretraining技术,具体步骤如下:
      • 1)通过从固定策略(例如 \(\pi_{sft}\) )采样连续生成响应,并使用蒙特卡罗回报更新 Value Model
      • 2)训练 Value Model,直到关键训练指标(包括价值损失和解释方差)达到足够低的值
      • 3)保存价值检查点,并加载此检查点用于后续实验
  • Decoupled-GAE 在 VC-PPO 中被证明是有效的
    • 该技术将价值和策略的优势计算解耦(主要是使用不同的 \(\lambda\))
    • 对于价值更新,建议使用 \(\lambda=1.0\) 计算价值更新目标
      • 这种选择导致无偏梯度下降优化,有效解决了 long-CoT 任务中的奖励衰减问题
    • 对于策略更新,在计算和时间限制下,使用较小的 \(\lambda\) 来加速策略收敛
      • 问题:为什么较小的 \(\lambda\) 能加速策略收敛?
    • 在 VC-PPO 中,这是通过在优势计算中使用不同的系数来实现的:
      • \(\lambda_{critic}=1.0\) 和 \(\lambda_{policy}=0.95\)
      • 在论文中,论文采用了 Decoupled-GAE 计算的核心思想

Managing Heterogeneous Sequence Lengths during Training

  • 为了应对训练中异构序列长度的挑战,论文提出了 长度自适应广义优势估计(Length-Adaptive GAE)
    • 该方法根据序列长度动态调整 GAE 参数,从而实现对不同长度序列的自适应优势估计
    • 此外,为了增强混合长度序列的训练稳定性,论文将传统的样本级策略梯度损失替换为 Token-Level 策略梯度损失(Token-Level Policy Gradient Loss)
  • Length-Adaptive GAE :专门用于解决不同长度序列对 \(\lambda_{\text{policy} }\) 最优值的需求不一致问题
    • 在 VC-PPO (2025) 中,\(\lambda_{\text{policy} }\) 被固定为 0.95。但对于长度 \(l > 100\) 的长序列,奖励对应的 TD 误差系数为 \(0.95^{100} \approx 0.006\),实际上接近于零
      • 这里的 \(\lambda\) 是 GAE 计算公式中的超参,详情见 VC-PPO 论文:(VC-PPO)What’s Behind PPO’s Collapse in Long-CoT? Value Optimization Holds the Secret, Seed, arXiv 20250303
    • 因此,固定 \(\lambda_{\text{policy} }=0.95\) 会导致 GAE 计算被潜在的有偏自举 TD 误差主导,无法有效处理极长序列
    • 为了解决这一问题,论文提出以下公式动态调整 \(\lambda_{\text{policy} }\):
      $$
      \sum_{t=0}^{\infty}\lambda_{\text{policy} }^{t} \approx \frac{1}{1-\lambda_{\text{policy} } } = \alpha l,
      $$
      • 其中 \(\alpha\) 是控制偏差-方差权衡的超参数
    • 通过求解上式,论文得到长度自适应的 \(\lambda_{\text{policy} }\) 公式:
      $$
      \lambda_{\text{policy} } = 1 - \frac{1}{\alpha l}
      $$
    • 这种方法使得 GAE 计算能够更均匀地分配 TD 误差,从而优化长短序列的处理效果
  • Token-Level Policy Gradient Loss :参考 DAPO (2025),论文修改了策略梯度损失的计算方法,以调整长思维链场景中的损失权重分配。传统实现中,策略梯度损失的计算如下:
    $$
    \mathcal{L}_{\text{PPO} }(\theta) = -\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_{i}|}\sum_{t=1}^{|o_{i}|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right),
    $$
    • 其中 \(G\) 是训练批次大小,\(o_{i}\) 是第 \(i\) 个样本的轨迹
    • 这种损失计算方式会导致长序列中的 Token 对最终损失的贡献被稀释,从而可能引发训练不稳定甚至崩溃
    • 为了解决这一问题,论文将损失函数修正为以下形式:
      $$
      \mathcal{L}_{\text{PPO} }(\theta) = -\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right),
      $$
    • 通过为批次中的所有 Token 分配均匀权重,模型能够更高效地处理长序列问题

Dealing with Sparsity of Reward Signal in Verifier-based Tasks

  • 如第 3.3 节所述,在奖励信号高度稀疏的场景下,提升强化学习中探索-利用的平衡效率至关重要
    • 为此,论文采用了三种方法:Clip-Higher、正例语言模型损失(Positive Example LM Loss) 和 分组采样(Group-Sampling) :
  • Clip-Higher :用于缓解 PPO 和 GRPO 训练中遇到的熵崩溃问题,该方法首次由 DAPO (2025) 提出,论文将裁剪范围解耦为 \(\varepsilon_{\text{low} }\) 和 \(\varepsilon_{\text{high} }\):
    $$
    \mathcal{L}_{\text{PPO} }(\theta) = -\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon_{\text{low} },1+\varepsilon_{\text{high} }\right)\hat{A}_{i,t}\right),
    $$
    • 通过增大 \(\varepsilon_{\text{high} }\),论文为低概率 Token 提供了更多增长空间,同时保持较小的 \(\varepsilon_{\text{low} }\) 以避免采样空间崩溃
  • Positive Example LM Loss :旨在提升强化学习中对正样本的利用效率
    • 在复杂推理任务中,许多训练样本的答案错误,传统策略优化效率低下。为了最大化正确样本的效用,论文引入负对数似然(NLL)损失:
      $$
      \mathcal{L}_{\text{NLL} }(\theta) = -\frac{1}{\sum_{o_{i}\in\mathcal{T} }|o_{i}|}\sum_{o_{i}\in\mathcal{T} }\sum_{t=1}^{|o_{i}|}\log\pi_{\theta}\left(a_{t}|s_{t}\right),
      $$
      • 其中 \(\mathcal{T}\) 表示正确答案集合
    • 最终损失通过权重系数 \(\mu\) 与策略梯度损失结合:
      $$
      \mathcal{L}(\theta) = \mathcal{L}_{\text{PPO} }(\theta) + \mu * \mathcal{L}_{\text{NLL} }(\theta).
      $$
  • Group-Sampling :用于在同一 Prompt 下采样具有区分性的正负样本
    • 在固定计算预算下,论文观察到减少批次中 Prompt 数量并增加重复生成次数能够略微提升性能,原因是其引入了更丰富的对比信号,从而增强了策略模型的学习能力

Experiments

Training Details

  • 论文通过基于 Qwen-32B 模型对 PPO 算法进行各种修改来增强模型的数学性能
    • 这些技术对其他推理任务(如与代码相关的任务)也有效
  • 对于 basic PPO:
    • 使用 AdamW 作为优化器
    • Actor 学习率设置为 \(1×10^{-6}\)
    • Critic 学习率设置为 \(2×10^{-6}\) (因为 Critic 需要更快地更新以跟上策略变化)
    • 学习率采用 warmup-constant 调度器
      • 问题:warmup-constant 调度器是什么?
    • Batch Size 为 8192 个 Prompt ,每个 Prompt 采样一次,每个 Mini-Batch Size 设置为 512
    • 价值网络使用奖励模型初始化
    • GAE \(\lambda\) 设置为 0.95
    • \(\gamma\) 设置为 1.0
    • 使用 Sample-level loss
    • \(\epsilon\) 设置为 0.2
  • 与 vanilla PPO 相比,VAPO 进行了以下参数调整:
    • 1)在开始策略训练之前,基于奖励模型(RM)对价值网络进行了 50步 的预热(对应 Value-Pretraining)
    • 2)利用Decoupled-GAE ,其中价值网络从使用 \(\lambda=1.0\) 估计的回报中学习,而策略网络从使用单独 \(\lambda\) 获得的优势中学习
    • 3)根据序列长度自适应设置优势估计的 \(\lambda\),遵循公式:
      $$ \lambda_{policy}=1-\frac{1}{\alpha l}$$
      • 其中 \(\alpha=0.05\)
    • 4)将裁剪范围调整为 \(\epsilon_{high}=0.28\) 和 \(\epsilon_{low}=0.2\)
    • 5)采用 Token-level 策略梯度损失
    • 6)在策略梯度损失中添加 Positive Example LM Loss ,权重为 0.1
    • 7)每个采样使用 512 个 Prompt ,每个 Prompt 采样 16 次,并将小批量大小设置为 512
  • 论文还将展示从 VAPO 中单独移除这七项修改中的每一项的最终效果
  • 对于评估指标,论文使用 AIME24 在 32次采样上的平均通过率
    • 采样参数设置为 \(topp=0.7\) 和 \(temperature=1.0\)

Ablation Results

  • 在 Qwen-32b 上,使用 GRPO 的 DeepSeek R1 在 AIME24 上达到 47 分,而 DAPO 在 50% 的更新步骤中达到 50分
  • 在图1中,论文提出的 VAPO 仅使用 DAPO 步骤的 60% 就达到了这一性能,并在仅 5,000 步内实现了 60.4 的新 SOTA 分数,证明了 VAPO 的效率
  • 此外,VAPO 保持稳定的熵(既不崩溃也不过高),并且在三次重复实验中始终达到 60-61 的峰值分数,突出了论文算法的可靠性
  • 表1 系统地呈现了论文的实验结果:
    • 原始PPO方法由于 Value Model 学习崩溃,在训练后期仅达到 5分,其特征是响应长度急剧减少,模型直接回答问题而不进行推理
    • 论文的 VAPO方法 最终达到 60分,这是一个显著的改进
  • 论文通过单独消融七项提出的修改进一步验证了它们的有效性:
    • 1)没有 Value-Pretraining:模型在训练期间经历与原始 PPO 相同的崩溃,收敛到最大值约 11分
    • 2)移除Decoupled-GAE :会导致奖励信号在反向传播期间指数衰减,阻止模型充分优化长形式响应,并导致 27分 的下降
    • 3)Adaptive GAE:平衡了对短响应和长响应的优化,产生了 15分 的改进
    • 4)Clip higher:鼓励彻底的探索和利用;移除它将模型的最大收敛限制为 46分
    • 5)Token-level loss:隐含地增加了长响应的权重,贡献了 7分 的增益
    • 6)结合 Positive Example LM Loss 将模型提高了近 6分
    • 7)使用 Group-Sampling 生成更少的 Prompt 但更多的重复也导致了 5分的改进

Training Dynamics

  • RL 训练期间生成的曲线提供了训练稳定性的实时 insights,不同曲线之间的比较可以突出算法差异
  • 通常认为,更平滑的变化和更快的增长是这些曲线的理想特征
  • 通过比较 VAPO 和 DAPO 的训练过程,论文做出了以下 observations:
    • 图2 显示 VAPO 的训练曲线比 DAPO 的更平滑,表明 VAPO 中的算法优化更稳定
    • 如图2a 所示,与 DAPO 相比,VAPO 表现出更好的长度缩放:在现代背景下,更好的长度缩放被广泛认为是模型性能提高的标志,因为它增强了模型的泛化能力
    • 图2b 表明 VAPO 的分数增长比 DAPO 快,因为 Value Model 为模型提供了更细粒度的信号来加速优化
    • 根据图2c,VAPO 的熵在训练后期比 DAPO 的下降得更低,这是一把双刃剑:
      • 一方面,它可能阻碍探索
      • 另一方面,它提高了模型稳定性
      • 从 VAPO 的最终结果来看,较低的熵对性能的负面影响最小,而可重复性和稳定性被证明是非常有利的

Related Work

  • OpenAI o1 在 LLM 中引入了深刻的范式转变,其特点是在提供最终响应之前进行扩展推理
  • DeepSeek R1 开源了其训练算法(value-model-free 的 GRPO)和模型权重,其性能可与 o1 媲美
  • DAPO 识别了在 value-model-free LLM RL 扩展期间遇到的先前未公开的挑战,如熵崩溃,并提出了四种有效技术来克服这些挑战,实现了 SOTA 行业级性能
  • 最近,Dr.GRPO 移除了 GRPO 中的长度和 std 归一化项
  • 另一方面,ORZ 遵循 PPO 并使用 Value Model 进行优势估计,提出蒙特卡罗估计而不是广义优势估计
  • 然而,它们只能达到与 GRPO 和 DAPO 等 value-model-free 方法相当的性能
  • 在论文中,论文也遵循基于 Value Model 的方法并提出 VAPO,其性能优于 SOTA value-model-free 算法 DAPO

NLP——LLM对齐微调-Skywork-Reward

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(SkyworkReward)Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs

Skywork-Reard Paper Summary

  • 本文对 Reward Model 相关的数据集做了非常详细的分析,对数据的处理流程具有很强的实际参考价值,值得深刻学习
  • Skywork-Reard 特点:数据优先、轻量化、高效率
  • Skywork-Reard 贡献:
    • 包含 80k 条偏好对的高质量数据集 Skywork-Reward Preference 80K
    • 奖励模型 Skywork-Reward-Gemma-2-27B(在 RewardBench 排行榜上排名第一),注意:仅用上述 80K 数据

RM 当前面临的挑战

  • 数据质量低 :开源偏好数据集中,“Chosen”与“Rejected”响应差异过小、标注噪声高、存在 bias(如长度 bias)
  • 数据规模冗余 :现有数据集动辄数十万甚至上百万条,但并未带来相应性能提升
  • 模型复杂度高 :许多研究引入复杂架构或损失函数,但收益有限

核心贡献总结

  • 轻量化数据构建 :仅使用 80k 条偏好对,远小于现有数据集(比如光 Preference 就多达 700K),这个数据集非常火,很多工作都已经引入
  • 精细化的数据筛选策略 :基于模型能力、任务类别、奖励分数等进行多级过滤
  • 详细的损失函数对比实验 :验证 Bradley-Terry loss 在所有变体中表现最优(对后续 RM 的使用提供了很实际的参考)
  • 解决数据污染问题 :识别并移除 RewardBench 中的污染样本,进一步提升模型性能

整体方法详细描述

初始数据:Dataset Mixture

  • Skywork-Reward Preference 80K 由以下四个高质量开源数据集组成(原始总样本约 378K,经过筛选压缩至 80K):
    数据集 来源 规模 特点
    HelpSteer2 ShareGPT + LLM/人工 10K 多维度评分(helpfulness, correctness, coherence, complexity, verbosity)
    OffsetBias 人工构建 8K 抗 bias,尤其对抗长度 bias
    WildGuardMix 合成 + 人工 87K(仅用部分) 安全偏好,拒绝 vs 遵从
    Magpie 系列 Llama 系列自生成 约 350K(筛选后) 完全合成,按任务类别划分,含 ArmoRM 评分
补充: Magpie 方法 & 数据集
  • Mapie 数据集合成策略参见:Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, 20240617 & 20241007, University of Washington & AI2
  • Magpie 是一种 无需人工标注、无需种子指令、无需复杂提示工程* 的 *大规模对齐数据合成方法
  • Magpie 作者的 核心发现:对齐后的 LLM(如 Llama-3-Instruct)在仅输入模板中用户消息位置之前的“预查询模板” 时,会自动生成一条用户指令
    • 这是由于其自回归生成特性,模型会自然地“补全”对话。
  • Magpie 方法流程:Step 1:指令生成
    • 输入:仅包含模型对话模板中用户消息之前的固定模板部分(例如 Llama-3 的 <|start_header_id|>user<|end_header_id|>)
    • 输出:模型自回归生成一条用户指令
    • 特点:无需人工编写提示词或种子问题
  • Magpie 方法流程: Step 2:响应生成
    • 输入:将生成的指令放入完整对话模板中
    • 输出:模型生成对应的助手回复
    • 完成:形成一条完整的“指令-响应”对齐数据
  • 特别设计:
    • 使用不同模型来生成:指令 和 响应,扩展多样性

数据筛选与过滤策略(核心创新 从 378K 到 80K 的过滤逻辑)

  • 理解:本文中,数据筛选与过滤策略 是整个研究的核心贡献 ,也是其能够用 80K小数据集击败700K大数据集的根本原因
  • 原始数据集混合物(Preference 378K)的核心问题:
    • Magpie占比过高(93%) :其他高质量小数据集的信号被稀释
    • Magpie 数据集的合成方式:使用 Llama 3 家族中不同规模的模型来生成数据集
      • 传统合成数据生成通常是:人类写prompt + LLM生成response + 人类/模型打分 + 构建偏好对
      • Magpie 的合成策略:只给一个固定前缀,让 LLM 同时扮演“用户”和“助手”两个角色,全自动生成完整的对话对
    • Magpie 内部质量不均 :不同模型生成、不同任务类别、不同评分分布
    • WildGuardMix 存在副作用 :过度强化安全会损害通用偏好能力
  • 过滤目标
    • 降量 :从 378K 压缩至 80K(压缩比 78%)
    • 提质 :优先保留高质量、高信息密度的偏好对
    • 平衡 :维持任务多样性、安全与通用能力的平衡

Magpie 子集的精细化筛选(核心)

  • 整体流程如下:
    • Step 1: 分数提取
      • 输入为 原始偏好对,输出为 带 PairScore 的样本
      • 核心逻辑: (chosen_score + rejected_score)/2
    • Step 2: 分数校正
      • 输入为 PairScore,输出为 校正后 PairScore
      • 核心逻辑: Air -0.1, Pro3 -0.05, 其他不变
    • Step 3: 类别识别
      • 输入为 全量样本,输出为 按任务类别分组
      • 核心逻辑: 区分 Math/Code 与其他
    • Step 4: 类别内排序
      • 输入为 各组样本,输出为 各组头部样本
      • 核心逻辑: Math/Code: top30%, 其他: top10%
    • Step 5: 跨子集合并
      • 输入为 四子集头部样本,输出为 ~59.5K筛选后样本
      • 核心逻辑: 保留原始子集标签
    • Step 6: 最终集成
      • 输入为 Magpie筛选结果,输出为 Skywork-Reward 80K
      • 核心逻辑: + HelpSteer2 + OffsetBias + WildGuardMix
  • 核心思路:不是“全局择优”,而是“类别保底、核心强化、偏差校正”的三位一体筛选策略
Magpie 子集-打分修正原理:按生成模型能力优先
  • 问题诊断:ArmoRM 评分存在模型规模反向偏差 :
    • Llama 3 8B Instruct(Air 子集):得分虚高
    • Llama 3 70B Instruct(Pro 子集): 得分偏低
    • Llama 3.1 70B Instruct(Pro 子集): 得分偏低
    • 理解:在 Magpie 数据集中, Air 子集是 Llama 4 8B Instruct 生成的,却分数虚高于其他子集(如 70B)
  • 解决方案:启发式分数校正 ,引入基于先验知识的分数平移 :
    $$
    \text{Score}_{\text{adjusted} } =
    \begin{cases}
    \text{Score}_{\text{original} } - 0.10, & \text{if subset = Air (8B)} \\
    \text{Score}_{\text{original} } - 0.05, & \text{if subset = Pro (Llama 3 70B)} \\
    \text{Score}_{\text{original} }, & \text{if subset = Pro (Llama 3.1 70B)}
    \end{cases}
    $$
  • 校正逻辑理解:
    • 减0.10 :Air子集虚高最严重,强力下调
    • 减0.05 :Llama 3 70B 也存在一定虚高,适度下调
    • 不减 :Llama 3.1 70B 作为最强模型,作为基准
  • 校正后,三个子集的分数分布峰值与模型能力排序对齐(Figure 2)
Magpie 子集-分任务采样:按任务类别差异化采样
  • 核心洞察:
    • Math 和 Code 是 RLHF 最难优化的能力,也是奖励模型最需要强化的领域
      • 注:后来有了 RLVR 了
    • 其他任务(如创意写作、角色扮演)的边际收益较低
  • 采样策略
    • 数学 & 代码类别 :保留比例:前30%
      • 依据:校正后的 ArmoRM 分数
      • 目的:只保留最高质量的数学/代码偏好对
    • 其他类别(Reasoning、Planning、Brainstorming、Creative writing等): 保留比例:前10%
      • 依据:校正后的 ArmoRM 分数
      • 目的:维持任务多样性,但严格控制冗余样本
  • 问题:为什么不直接取全局top%?
    • 这是关键设计智慧 :
      • 如果全局取 top 30%,结果会严重偏向数学和代码(因为它们本身就占 Magpie 的大头)
      • 按类别独立采样,可以在压缩总量的同时,维持任务分布的多样性
  • 最终结果(Figure 3):
    • 数学 + 代码:占总筛选后样本的 63.57%
    • 其他7个类别合计:36.43%
    • 既强化了核心能力,又保留了多任务泛化性
Magpie 子集-(Chosen+Rejected)/2打分依据:基于评分差异的隐式筛选
  • (Chosen+Rejected)/2 的本质,是在测量“这个prompt下,模型能稳定产出高质量response的程度
  • 未显式说明,但实际存在的机制 :
    • 在 Magpie 的原始构建中,每个 prompt 生成 5 个 response,ArmoRM 打分后:
      • Chosen = 最高分response
      • Rejected = 最低分response
  • 将chosen score和rejected score的平均值作为该偏好对的整体质量分
  • 这意味着得到的是两种样本:
    • 1)如果 5 个 response 质量都很接近,那么 chosen 和 rejected 分差小,即平均分可能不低,学习难度大
      • 理解:这属于困难样本
    • 2)如果 5 个 response 质量差异大,即分差大,那么平均分更能代表高质量 chosen 的存在
      • 理解:这属于高质量样本(强调 Chosen 的正确性?)
  • 虽然没有直接按分差过滤,但高分差样本天然更容易进入 top 30% ,因为 chosen 的高分拉高了平均值

WildGuardMix 对抗性筛选(安全)

WildGuardMix 数据构建逻辑
  • WildGuardMix 原始结构:
    • 每个 prompt 带多个 response
    • 每个 response 标注:
      • 是否拒绝(refusal)
      • prompt 是否有害
    • 偏好构造规则为 :
      Prompt 类型 Chosen response Rejected response
      有害(harmful) 拒绝回答 遵从回答
      无害(benign) 遵从回答 拒绝回答
WildGuardMix 第一阶段:移除非对抗样本
  • 背景:
    • 早期版本的 Skywork-Reward 模型已经在非对抗的 WildGuardMix 样本上表现极好(准确率 > 95%)
    • 继续训练这些样本 边际收益接近 0
  • 操作 :
    • 移除非对抗子集
    • 仅保留对抗子集(Adversarial subset)
  • 对抗子集的来源 :
    • 基于 WildTeaming框架 生成
    • 从良性/有害 prompt 出发,自动化生成越狱攻击变体
    • 模拟真实世界中用户绕过安全护栏的尝试
WildGuardMix 第二阶段:控制对抗样本比例
  • 新问题出现 :
    • 仅用对抗子集 + 其他数据集训练 得到 模型安全能力提升 ,但通用偏好能力下降
    • 内部验证集上观察到明显 trade-off
  • 根本原因 :
    • 对抗样本的分布与正常用户请求差异较大
    • 过度拟合对抗模式会扭曲奖励模型的 核心偏好表征
  • 解决方案 :
    • 仅保留部分高质量、代表性强的对抗偏好对
    • 具体比例未公开,但策略方向明确:在不牺牲通用能力的前提下,注入安全偏好

HelpSteer2 与 OffsetBasis 的处理

HelpSteer2
  • HelpSteer2 论文自己的原始筛选逻辑:
    • HelpSteer2 为每个 response 标注 5 个维度的分数:
      • helpfulness, correctness, coherence, complexity, verbosity
    • 偏好构造 :只保留那些 chosen response 的 helpfulness分数 > rejected response 的 helpfulness 分数 的样本
  • 对于 HelpSteer2 数据集的处理:
    • 不做额外过滤,完整纳入 10K 样本
    • 原因:HelpSteer2 已经是人工+LLM混合标注的高质量小数据集 ,本身噪声低、信息密度高
OffsetBias
  • 原始设计目的 :
    • 专门针对奖励模型的长度 bias 、格式 bias 等伪相关信号
    • 构造对抗性偏好对 :rejected response 看起来写得很完整,但包含特定错误
  • 对于 OffsetBias 数据集的处理 :
    • 完整纳入 8K 样本
    • 原因:OffsetBias本身就是抗bias的“解毒剂” ,规模小但价值高

训练目标与损失函数实验

基础损失函数

  • 使用 Bradley-Terry 模型 :
    $$
    \mathcal{L}_{\mathrm{ranking} } = -\log \sigma (r_\theta (x,y_c) - r_\theta (x,y_r))
    $$
    • \( r_\theta(x, y) \) 是奖励模型对响应 \( y \) 的标量输出
    • \( \sigma \) 是 sigmoid 函数

实验的损失函数变体(作者系统对比了以下 6 种变体)

  • 变体1 Focal Loss :关注难分样本
    $$
    \mathcal{L}_{\mathrm{Focal} } = -\log \sigma(\Delta) \cdot (1 - \sigma(\Delta))^\gamma
    $$
  • 变体2 Focal Loss with Penalty :
    • 进一步惩罚模糊判断
  • 变体3 Hinge Loss :
    • 强制 margin (非下面的 margin)
      $$
      \mathcal{L}_{\mathrm{Hinge} } = \max(0, m - \Delta)
      $$
  • 变体4 Margin MSE :回归到 margin
    $$
    \mathcal{L}_{\mathrm{Margin-MSE} } = (r_\theta(x,y_c) - (r_\theta(x,y_r) + m))^2
    $$
  • 变体5 Cross-Entropy :
    • 作为二分类任务
  • 变体6 BT with Tempered Log / Temperature :
    • 修改对数曲率或分布平滑度
  • 最总实验 结论 :
    • Bradley-Terry loss 在所有任务类别上表现最均衡
    • 其他变体在某些类别有提升,但牺牲了整体性能(见表 3)

实验设计与结果分析

训练设置

  • 基座模型:Llama-3.1-8B-Instruct、Gemma-2-27B-it
  • 替换最后一层为 reward head,随机初始化
  • 优化器:AdamW,weight decay 1e-3
  • 学习率:2e-6(8B)、1e-6(27B)
  • 训练轮数:2 epochs
  • 全局 batch size:128

主要实验结果(表 2)

  • Skywork-Reward-Gemma-2-27B :RewardBench 总分第一
  • Skywork-Reward-Llama-3.1-8B :超越除 70B 外的所有模型
  • Chat Hard 类别 :27B 模型首次突破 90 分,远超 Nemotron-4-340B-Reward
  • 关键结论 : 小数据、高质量 > 大数据、低质量
    • 378K 未筛选数据已优于 700K 数据集
    • 80K 筛选数据进一步显著提升

数据污染问题与去污染实验

问题发现:
  • Magpie Ultra 子集中约 5K prompt 与 RewardBench 测试集重叠
  • 推测原因:Llama-3.1-405B 训练数据中可能包含这些 prompt
解决方案:
  • 使用 RewardBench 官方去污染脚本,移除 n-gram 匹配样本
  • 发布 Skywork-Reward Preference 80K v0.2
意外发现:
  • 去污染后模型性能不降反升(表 5)
  • 推测:污染的样本可能与 RewardBench 的偏好不一致 ,移除后反而提升泛化能力

核心观点总结

  • 观点 1:数据质量远重要于数量
    • 80K 精心筛选样本 > 378K 原始样本 > 700K 混合样本
  • 观点 2:Bradley-Terry loss 是最稳健的训练目标
  • 观点 3:模型能力与评分工具可能存在分布偏移 ,需手动校正
  • 观点 4:数据污染普遍存在,需系统性检测与移除
  • 观点 5:实践建议
    • 优先使用 HelpSteer2、OffsetBias 等高质量小数据集
    • 对合成数据按生成模型能力和任务类别进行分级采样
    • 避免盲目使用复杂损失函数
    • 奖励模型训练前必须进行 contamination check

补充:ArmoRM

  • 原始论文:(ArmoRM)Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts, 20240618, University of Illinois Urbana-Champaign
  • 开源模型 & 代码 :github.com/RLHFlow/RLHF-Reward-Modeling
  • for 传统 RM 在 RLHF 中存在的黑箱性、不可解释性、易受奖励黑客攻击等问题,论文提出了一种可解释、可调控的多目标奖励建模方法

背景:RLHF RM 现有问题

  • 黑箱性 :传统 RM 输出单一标量分数,无法解释为何某回复更优
  • 奖励黑客 :模型学会利用RM的漏洞(如生成长回复以获得高分)
  • 不可调控 :无法根据用户需求或上下文动态调整评分标准

解决方案概述

  • 提出多目标奖励模型(ArmoRM) ,使用绝对评分数据进行回归训练,输出多个可解释维度的评分
  • 提出基于Mixture-of-Experts(MoE)的门控机制 ,根据上下文动态加权各目标,生成最终标量分数
  • 在 RewardBench 上取得 SOTA ,超越 GPT-4 作为 Judge 的方法,逼近 Nemotron-4 340B 的性能

ArmoRM 方法详解(重点)

多目标奖励建模(Multi-Objective Reward Modeling)
  • 目标:训练一个模型,为每个回复输出多个可解释维度的评分(如帮助性、诚实性、安全性、冗长度等)
  • 输入输出:
    • 输入:\( x \oplus y \)(提示+回复的拼接)
    • 输出:\( k \)-维评分向量 \( r \in \mathbb{R}^k \)
  • 模型架构:
    • 使用 Llama-3 8B 作为特征提取器 \( f_\theta \)
    • 在最后一层接一个线性层 \( w \in \mathbb{R}^{d \times k} \),输出多目标评分
    • 训练目标为回归损失(均方误差):
      $$
      \min_{\theta, w} \mathbb{E}_{x,y,r \in D} | w^\top f_\theta(x \oplus y) - r |_2^2
      $$
  • 数据特点:
    • 使用 8 个数据集,共 19 个目标维度
    • 不同数据集评分尺度不同,统一线性归一化到 \([0,1]\)
    • 缺失目标维度在损失计算中被忽略
基于 MoE 的目标加权机制(MoE Scalarization)
  • 动机:不同上下文(如数学问题 vs. 安全敏感问题)对不同目标维度的重视程度不同,固定权重不灵活
MoE Scalarization 方法流程:
  • 1. 提取提示特征 :使用冻结的 \( f_\theta \) 提取提示 \( x \) 的特征 \( f_\theta(x) \)
  • 2. 门控网络 :一个浅层MLP \( g_\phi \) 将提示特征映射为 \( k \)-维权重向量,经Softmax归一化(非负且和为1)
    $$
    g_\phi(f_\theta(x)) \in \Delta^{k-1}
    $$
  • 3. 去偏处理(Verbosity Bias Removal) :
    • 每个目标评分减去冗长度评分的加权项:
      $$
      r_i’ \gets r_i - \lambda_i r_{\text{verbose} }
      $$
    • 选择 \( \lambda_i \) 使得调整后的评分与冗长度评分在参考数据集上的Spearman相关系数为0;
  • 4. 最终标量分数 :
    $$
    R = g_\phi(f_\theta(x))^\top r’
    $$
  • 5. 训练门控网络 :
    • 冻结 \( f_\theta \) 与 \( w \);
    • 仅训练 \( g_\phi \) 与一个缩放因子 \( \beta \);
    • 使用 Bradley-Terry 损失:
      $$
      \min_{\phi, \beta} \mathbb{E} \left[ -\log \frac{\exp(\beta R_{\text{chosen} })}{\exp(\beta R_{\text{chosen} }) + \exp(\beta R_{\text{rejected} })} \right]
      $$

ArmoRM 实验设置与结果

实验环境
  • 硬件 :CPU 训练线性层,单张 A6000 训练门控网络;
  • 超参数 :门控网络为 3 层 ReLU MLP(1024 hidden units),lr=0.001,batch=1024,steps=10000;
  • 评估基准 :RewardBench(4主类+1先验类,权重1.0/0.5)
主要结果(原论文表1)
  • 训练结果:
    方法 参数量 总体得分
    Nemotron-4 340B RM 340B 89.3
    ArmoRM + MoE (Ours) 8B 89.0
    GPT-4 Turbo(as judge) - 84.2
    Llama-3 8B BT RM 8B 83.6
  • 超越 Llama-3 8B BT RM ,验证了多目标+MoE的有效性
  • 超越 GPT-4 Judge ,表明可作为低成本替代
  • 逼近 340B 模型 ,展现方法的高效性

NLP——LLM对齐微调-SimPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:SimPO: Simple Preference Optimization with a Reference-Free Reward, arXiv 20240523 & 20240608 & 20241201, NeurIPS 2024
    • 开源地址:github.com/princeton-nlp/SimPO

Paper Summary

  • TLDR:
    • SimPO 是 DPO 方法的一个改进,通过将奖励函数与生成似然对齐并引入目标奖励间隔(margin),SimPO 无需参考模型即可实现高性能,同时避免了长度偏差的利用
    • SimPO 优化点1(核心设计):使用序列的平均对数概率作为隐式奖励
      • 这种奖励设计能更好地与模型生成过程对齐,并且无需参考模型,从而显著提升了计算和内存效率
    • SimPO 优化点2:在 Bradley-Terry 目标中引入了目标奖励间隔(target reward margin),以鼓励获胜响应和失败响应之间的奖励差距更大,从而进一步提升算法性能
  • 论文实验设置:
    • 论文在多种先进训练配置(包括基础模型和指令调优模型,如 Mistral、Llama 3 和 Gemma 2)中将 SimPO 与 DPO 及其最新变体进行了对比
    • 论文实验基于广泛的聊天式评估基准(包括 AlpacaEval 2、MT-Bench 和 Arena-Hard)
  • 实验结果:SimPO 在不显著增加生成长度的情况下,始终显著优于现有方法
    • SimPO 在 AlpacaEval 2 上比 DPO 高出 6.4 分,在 Arena-Hard 上高出 7.5 分
    • 论文基于 Gemma-2-9B-it 训练的最佳模型在 AlpacaEval 2 上实现了 72.4% 的长度控制胜率,在 Arena-Hard 上实现了 59.1% 的胜率,并在 Chatbot Arena 的 <10B 模型中排名第一(基于真实用户投票)

Introduction and Discussion

  • 从人类反馈中学习对于将 LLM 与人类价值观和意图对齐至关重要 (2021),确保模型具备帮助性、诚实性和无害性 (2021)
  • RLHF (2017, 2023, 2020) 是一种流行的微调方法,用于实现有效的对齐
  • 尽管经典 RLHF 方法 (2023, 2020) 已展现出很好的结果,但其多阶段流程(包括训练奖励模型和优化策略模型以最大化奖励)带来了优化挑战 (2023)
  • 近年来,研究者开始探索更简单的离线算法
    • 直接偏好优化(Direct Preference Optimization, DPO)(2023) 是其中一种代表性方法
    • DPO 通过重新参数化 RLHF 中的奖励函数,直接从偏好数据中学习策略模型,从而避免了显式奖励模型的需求。由于其简洁性和稳定性,DPO 在实际应用中得到了广泛采用
    • 在 DPO 中,隐式奖励通过当前策略模型和监督微调(Supervised Fine-Tuned, SFT)模型对响应的似然比的对数来定义
    • 但这种奖励设计与生成过程中使用的指标(即策略模型生成响应的平均对数似然)并未直接对齐
    • 论文假设这种训练与推理之间的不一致可能导致性能不佳
  • 论文提出 SimPO,一种简单但高效的离线偏好优化算法(如图 1 所示)
  • SimPO算法的核心是将偏好优化目标中的奖励函数与生成指标对齐。SimPO 包含两个主要组件:
    • 1)长度归一化的奖励(a length-normalized reward) ,计算公式为策略模型对响应中所有 token 的平均对数概率:
      $$
      p_{\theta}(y \mid x) = \frac{1}{|y|} \log \pi_{\theta}(y \mid x) = \frac{1}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}(y_i \mid x, y_{ < i}).
      $$
    • 2)目标奖励间隔(target reward margin) ,用于确保获胜响应的奖励比失败响应至少高出该间隔值
  • SimPO 具有以下特性:
    • 简洁性(Simplicity) :SimPO 无需参考模型,与 DPO 和其他基于参考的方法相比更轻量且易于实现
    • 显著性能优势(Significant performance advantage) :尽管设计简单,SimPO 显著优于 DPO 及其最新变体(例如最近的无参考目标 ORPO (2024))
      • 这种优势在多种训练配置和广泛的聊天式评估(包括 AlpacaEval 2 (2023, 2024) 和具有挑战性的 Arena-Hard (2024) 基准)中保持一致
      • 与 DPO 相比,SimPO 在 AlpacaEval 2 上提升高达 6.4 分,在 Arena-Hard 上提升高达 7.5 分(如图 1 所示)
    • 最小长度利用(Minimal length exploitation) :与 SFT 或 DPO 模型相比,SimPO 未显著增加响应长度(如表 1 所示),表明其对长度利用的抑制效果显著 (2024, 2023, 2023)

SimPO:简单偏好优化(SimPO: Simple Preference Optimization)

  • 本节首先介绍 DPO 的背景(2.1 节),然后指出 DPO 奖励与生成似然指标之间的不一致性,并提出一种无参考的替代奖励设计以解决该问题(2.2 节)
  • 最后,论文通过在 Bradley-Terry 模型中引入目标奖励间隔项来推导 SimPO 的目标函数(2.3 节)

Background: Direct Preference Optimization(DPO)

  • DPO (2023) 是最流行的偏好优化方法之一
  • 与学习显式奖励模型 (2023) 不同,DPO 通过最优策略的闭式表达式重新参数化奖励函数 \( r \):
    $$
    r(x, y) = \beta \log \frac{\pi_{\theta}(y \mid x)}{\pi_{\text{ref} }(y \mid x)} + \beta \log Z(x), \tag{1}
    $$
    • 其中 \(\pi_{\theta}\) 是策略模型,\(\pi_{\text{ref} }\) 是参考策略(通常是监督微调模型),\(Z(x)\) 是配分函数
    • 通过将这一奖励设计融入 Bradley-Terry (BT) 排序目标 (1952),即 \( p(y_w \succ y_l \mid x) = \sigma(r(x, y_w) - r(x, y_l)) \),DPO 用策略模型而非奖励模型表达偏好数据的概率,从而得到以下目标函数:
      $$
      \mathcal{L}_{\text{DPO} }(\pi_{\theta}; \pi_{\text{ref} }) = -\mathbb{E}_{(x,y_w,y_l) \sim \mathcal{D} } \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_w \mid x)}{\pi_{\text{ref} }(y_w \mid x)} - \beta \log \frac{\pi_{\theta}(y_l \mid x)}{\pi_{\text{ref} }(y_l \mid x)} \right) \right], \tag{2}
      $$
      • 其中 \((x, y_w, y_l)\) 是来自偏好数据集 \(\mathcal{D}\) 的偏好对,包含提示(prompt)、获胜响应和失败响应

A Simple Reference-Free Reward Aligned with Generation

  • DPO 奖励与生成的不一致性(Discrepancy between reward and generation for DPO)。使用公式 (1) 作为隐式奖励存在以下缺点:
    • 1)训练时需要参考模型 \(\pi_{\text{ref} }\),这会增加内存和计算成本;
    • 2)训练优化的奖励与推理时优化的对数似然之间存在不匹配,而推理过程不涉及参考模型
      • 这意味着在 DPO 中,对于任意三元组 \((x, y_w, y_l)\),满足奖励排序 \( r(x, y_w) > r(x, y_l) \) 并不一定意味着满足似然排序 \( p_{\theta}(y_w \mid x) > p_{\theta}(y_l \mid x) \)(此处 \( p_{\theta} \) 是公式 (3) 中的平均对数似然)
        • 理解:因为奖励排序中包含了 \(\pi_\text{ref}(y|x)\) 在分母上,导致如果 \(\pi_\text{ref}(y_w|x) < \pi_\text{ref}(y_l|x)\) 的话,即使奖励 \(r(x, y_w) > r(x, y_l) \),也可能出现 \( p_{\theta}(y_w \mid x) < p_{\theta}(y_l \mid x) \) 的
      • 实验中,论文观察到仅约 50% 的训练集三元组在 DPO 训练后满足这一条件(如图 4b 所示)
      • 这一发现与近期研究 (2024) 一致,后者发现现有 DPO 训练模型在平均对数似然排序上表现出随机性,即使经过大量偏好优化
  • 长度归一化的奖励设计(Length-normalized reward formulation)
    • 一种解决方案是使用 token 对数概率之和作为奖励,但这会受长度偏差影响(较长序列倾向于具有更低的对数概率)
      • 因此,当 \( y_w \) 比 \( y_l \) 长时,优化对数概率之和作为奖励会迫使模型人为提高较长序列的概率 ,以确保 \( y_w \) 的奖励高于 \( y_l \)
    • 这种过度补偿会增加模型退化的风险。为解决这一问题,论文考虑使用平均对数似然作为隐式奖励 :
      $$
      p_{\theta}(y \mid x) = \frac{1}{|y|} \log \pi_{\theta}(y \mid x) = \frac{1}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}(y_i \mid x, y_{ < i}). \tag{3}
      $$
      • 注:这里的 \(|y|\) 表示队列长度
      • 这一指标常用于 Beam Search (2012, 2016) 和大语言模型中的多项选择任务 (2020, 2021, 2023)
      • 自然地,论文考虑用公式 (3) 中的 \( p_{\theta} \) 替换 DPO 的奖励设计,使其与指导生成的似然指标对齐。这产生了长度归一化的奖励:
        $$
        r_{\text{SimPO} }(x, y) = \frac{\beta}{|y|} \log \pi_{\theta}(y \mid x) = \frac{\beta}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}(y_i \mid x, y_{ < i}), \tag{4}
        $$
        • 其中 \(\beta\) 是控制奖励差异缩放的常数
        • 问题: \(\beta\) 相当于是类似温度系数?
      • 论文发现奖励的长度归一化至关重要;
        • 从奖励设计中移除长度归一化项会导致生成长度更长但质量更低的序列(详见 4.4 节)
  • 这种奖励设计消除了对参考模型的需求 ,与依赖参考的算法相比提升了内存和计算效率

The SimPO Objective

  • 目标奖励间隔 (Target reward margin). :
    • 论文在 Bradley-Terry 目标函数中引入了一个目标奖励间隔项 \(\gamma > 0\),用于确保获胜响应 \(r(x,y_w)\) 的奖励至少比失败响应 \(r(x,y_l)\) 的奖励高出 \(\gamma\):
      $$
      p(y_w \succ y_l \mid x) = \sigma \left( r(x,y_w) - r(x,y_l) - \gamma \right). \tag{4}
      $$
    • 类别之间的间隔已知会影响分类器的泛化能力 (2012; 1995)
      • 在标准训练设置中,随着目标间隔的增加,泛化能力通常会提升
    • 在偏好优化中,两个类别分别是同一输入的获胜和失败响应
    • 实践中,论文观察到生成质量最初会随着目标间隔的增加而提升,但当间隔过大时,质量会下降(见第 4.3 节)
    • DPO 的一个变体 IPO (2023) 也提出了类似 SimPO 的目标奖励间隔,但其完整目标函数的效果不如 SimPO(见第 4.1 节)
  • 目标函数 (Objective).
    • 最后,论文将公式 (4) 代入公式 (5),得到 SimPO 的目标函数:
      $$
      \mathcal{L}_{\text{SimPO} }(\pi_\theta) = -\mathbb{E}_{(x,y_w,y_l)\sim\mathcal{D} } \left[ \log \sigma \left( \frac{\beta}{|y_w|} \log \pi_\theta(y_w|x) - \frac{\beta}{|y_l|} \log \pi_\theta(y_l|x) - \gamma \right) \right]. \tag{5}
      $$
    • 总结来说,SimPO 采用了一种与生成指标直接对齐的隐式奖励公式,无需参考模型
    • 此外,它还引入了目标奖励间隔 \(\gamma\) 来帮助区分获胜和失败响应
    • 在附录 F 中,论文提供了 SimPO 和 DPO 的梯度分析,以进一步理解两种方法的差异
  • 无需 KL 正则化即可防止灾难性遗忘 (Preventing catastrophic forgetting without KL regularization).
    • 尽管 SimPO 没有施加 KL 正则化,但论文发现以下实际因素的组合可以确保从偏好数据中有效学习,同时保持泛化能力,从而使得与参考模型的 KL 散度在实验中保持较低水平。这些因素包括:
      • (1) 较小的学习率
      • (2) 覆盖多样领域和任务的偏好数据集
      • (3) LLM 从新数据中学习而不遗忘先验知识的内在鲁棒性
    • 论文在第 4.4 节中展示了 KL 散度的实验结果

Experimental Setup

Models and training settings

  • 论文使用两个模型家族进行偏好优化:Llama-3-8B 和 Mistral-7B,分别在基础(Base)和指令微调(Instruct)两种设置下进行实验
    • 本节的目标是理解 SimPO 与其他偏好优化方法在不同实验设置下的性能表现
    • 论文的最强模型基于 Gemma-2-9B(Instruct setup),并使用更强的奖励模型 RLHFlow/ArmoRM-Llama3-8B-v0.1(见表 1)
    • 论文将在附录 J 中展示并讨论这些结果
  • 对于基础设置(Base setup) :论文遵循 Zephyr(2023)的训练流程
    • 首先,论文在 UltraChat-200k 数据集上训练基础模型(如 mistralai/Mistral-7B-v0.1 或 meta-llama/Meta-Llama-3-8B),得到 SFT 模型
    • 然后,论文使用 UltraFeedback 数据集对 SFT 模型进行偏好优化
      • 这一设置提供了高度透明性 ,因为 SFT 模型是基于开源数据训练的
  • 对于指令微调设置(Instruct setup) :论文使用现成的指令微调模型(如 meta-llama/Meta-Llama-3-8B-Instruct 或 mistralai/Mistral-7B-Instruct-v0.2)作为 SFT 模型
    • 这些模型经过广泛的指令微调过程,比基础设置中的 SFT 模型更强大且更鲁棒
    • 但它们的 RLHF 过程未公开,因此透明度较低
    • 为了缓解 SFT 模型与偏好优化过程之间的分布偏移,论文按照(2023)的方法生成偏好数据集,使指令微调设置更接近在线策略(on-policy)设置
    • 具体来说,论文使用 UltraFeedback 数据集中的提示,并用 SFT 模型重新生成偏好对 \((y_w, y_l)\)
    • 对于每个提示 \(x\),论文以采样温度 0.8 生成 5 个响应,并使用 llm-blender/PairRM(2023)对响应评分,选择得分最高的作为 \(y_w\),最低的作为 \(y_l\)
    • 论文仅进行单轮数据生成,而非迭代生成(2023)
      • 注解:论文还尝试使用更强的奖励模型 RLHFlow/ArmoRM-Llama3-8B-v0.1(2024)对生成的数据排序,这显著提升了性能(见附录 H 和附录 J)(这是论文 Gemma 2 实验中使用的奖励模型)
  • 总结来说,论文共有四种设置:Llama-3-Base、Llama-3-Instruct、Mistral-Base 和 Mistral-Instruct
    • 这些配置代表了当前的最先进水平,使论文的模型在多个排行榜上名列前茅
    • 论文鼓励未来研究采用这些设置,以便更公平地比较不同算法
    • 此外,论文发现超参数调优对所有离线偏好优化算法(包括 DPO 和 SimPO)的性能至关重要
    • 通常,对于 SimPO,将 \(\beta\) 设为 2.0 到 2.5,\(\gamma\) 设为 0.5 到 1.5 ,可以在所有设置中取得良好性能
    • 更多细节请参考附录 B

Evaluation Benchmarks

  • 论文主要使用三个流行的开放式指令遵循基准评估模型:MT-Bench(2023)、AlpacaEval 2(2023)和 Arena-Hard v0.1(2024)
  • 这些基准测试模型在多样化查询中的对话能力,已被社区广泛采用(详见表 2)
    • AlpacaEval 2 包含来自 5 个数据集的 805 个问题
    • MT-Bench 涵盖 8 个类别的 80 个问题
    • Arena-Hard(最新发布的)是 MT-Bench 的增强版,包含 500 个定义明确的技术问题求解查询
  • 论文按照每个基准的评估协议报告分数
    • 对于 AlpacaEval 2,论文报告原始胜率(raw win rate,WR)和长度控制胜率(length-controlled win rate,LC)(28)
      • LC 指标专门设计用于抵抗模型的冗余性
    • 对于 Arena-Hard,论文报告相对于基线模型的胜率(WR)
    • 对于 MT-Bench,论文使用 GPT-4 和 GPT-4-Preview-1106 作为评判模型,报告平均 MT-Bench 分数
      • 相对 GPT-4,GPT-4-Preview-1106 生成的参考答案和评判的精确率更高
    • 解码细节请参考附录 B
  • 论文还评估了 Huggingface Open Leaderboard 基准(2023)的下游任务,更多细节见附录 C

Baselines

  • 论文将 SimPO 与其他离线偏好优化方法进行比较(见表 3)
    • RRHF(2023)和 SLiC-HF(2023)是排序损失
      • RRHF 使用长度归一化的对数似然,类似于 SimPO 的奖励函数
      • SLiC-HF 直接使用对数似然并包含 SFT 目标
    • IPO(2023)是一种理论 grounded 的方法,避免了 DPO 的假设(即点奖励可以替代成对偏好)
    • CPO(2024)使用序列似然作为奖励,并与 SFT 目标联合训练
    • KTO(2024)从非配对偏好数据中学习
    • ORPO(2024)引入了一种无需参考模型的奇数比项,直接对比获胜和失败响应,并与 SFT 目标联合训练
      • ORPO 可以直接在偏好数据上训练而无需 SFT 阶段
      • 为公平比较,论文从与其他基线相同的 SFT 检查点开始训练 ORPO,这比从基础检查点开始效果更好
    • R-DPO(2024)是 DPO 的改进版,增加了防止长度利用的正则项
    • 论文为每个基线方法全面调优超参数并报告最佳性能
  • 论文发现许多 DPO 变体在实证上并未优于标准 DPO (更多细节见附录 B)

Experimental Results

  • 本节展示实验的主要结果,突出 SimPO 在各种基准测试中的优越性能(4.1节),并对以下组件进行深入分析:
    • (1) 长度归一化(4.2节)
    • (2) 边际项 \(\gamma\)(4.3节)
    • (3) SimPO 优于 DPO 的原因(4.4节)
    • 除非另有说明,消融研究均在 Mistral-Base 设置下进行

Main Results and Ablations

  • SimPO 一致且显著地优于现有偏好优化方法(SimPO consistently and significantly outperforms existing preference optimization methods) :
    • 如表 4 所示,尽管所有偏好优化算法都能提升 SFT 模型的性能,但 SimPO 凭借其简洁性,在所有基准和设置中均取得了最佳整体表现
    • 这些一致且显著的改进凸显了 SimPO 的鲁棒性和有效性
    • 值得注意的是,SimPO 在 AlpacaEval 2 的 LC 胜率上比最佳基线高出 3.6 到 4.8 分
    • 在 Arena-Hard 上,SimPO 同样表现优异,尽管偶尔被 CPO(2024)超越
    • 论文发现 CPO 生成的响应平均比 SimPO 长 50%(见表 10)
    • Arena-Hard 可能因评估中未对长度设限而倾向于更长的生成结果
  • 基准测试质量参差不齐(Benchmark quality varies)
    • 尽管三个基准测试被广泛采用,但论文发现 MT-Bench 在不同方法间的区分度较差
    • 方法间的微小差异可能源于随机性,这可能是由于其评估数据规模有限和单实例评分协议所致
      • 这一发现与(2024)的观察一致
    • 相比之下,AlpacaEval 2 和 Arena-Hard 能更有意义地区分不同方法
    • 论文注意到 Arena-Hard 的胜率显著低于 AlpacaEval 2,表明 Arena-Hard 是一个更具挑战性的基准
      • 尽管论文的模型在基准测试中表现优异,但这些评估存在局限性,包括查询空间受限和基于模型评估的潜在偏差
  • 指令微调设置带来显著性能提升(The Instruct setting introduces significant performance gains)
    • 在所有基准测试中,指令微调设置始终优于基础设置
    • 这一改进可能源于初始化使用的 SFT 模型质量更高,以及这些模型生成的偏好数据质量更高
  • SimPO 的两个关键设计均至关重要(Both key designs in SimPO are crucial)
    • 表 5 展示了 SimPO 每个关键设计的消融结果:
      • (1) 移除公式(4)中的长度归一化(即 w/o LN);
      • (2) 将公式(6)中的目标奖励边际设为 0(即 \(\gamma=0\))
    • 移除长度归一化对结果负面影响最大
      • 作者的检查发现,这会导致生成冗长且重复的模式,显著降低输出质量(见附录 E)
    • 将 \(\gamma\) 设为 0 也会导致性能下降,表明 0 并非最优目标奖励边际
    • 在以下小节中,论文将深入分析这两个设计选择

长度归一化(LN)防止长度利用(Length Normalization (LN) Prevents Length Exploitation)

  • LN 增加所有偏好对的奖励差异,无论其长度如何
    • 公式(5)中的 Bradley-Terry 目标本质上是优化奖励差异 \(\Delta r = r(x,y_w) - r(x,y_l)\),使其超过目标边际 \(\gamma\)
    • 论文研究了从 UltraFeedback 训练集中获胜和失败响应的长度差异 \(\Delta l = |y_w| - |y_l|\) 与学习到的奖励差异之间的关系
    • 论文使用 SFT 模型、SimPO 模型以及未使用长度归一化的 SimPO 模型测量奖励差异(\(r_{\text{SimPO} }\):公式(4))
    • 结果如图 2(a) 所示,论文发现带 LN 的 SimPO 对所有响应对均实现了正的奖励边际,无论其长度差异如何,并且始终比 SFT 模型提高了边际
      • 相比之下,不带 LN 的 SimPO 在获胜响应比失败响应短时会导致负的奖励差异,表明模型对这些实例的学习效果较差
  • 移除 LN 会导致奖励与响应长度强正相关,引发长度利用
    • 图 2(b) 和 2(c) 展示了在保留集上,使用 SimPO 和未使用 LN 的 SimPO 训练的模型的平均对数似然(公式(3)中的 \(p_\theta\))与响应长度的关系
    • 未使用 LN 训练的模型在似然与响应长度之间表现出更强的 Spearman 正相关性,表明其倾向于利用长度偏差生成更长序列(见附录 E)。相比之下,SimPO 的 Spearman 相关系数与 SFT 模型相似(见图 5(a))

The Impact of Target Reward Margin in SimPO

  • \(\gamma\) 对奖励准确性和胜率的影响(Influence of γ on reward accuracy and win rate)
    • 论文研究了 SimPO 中目标奖励边际 \(\gamma\) 对保留集上奖励准确性和 AlpacaEval 2 胜率的影响,结果如图 3(a) 所示。奖励准确性通过偏好对中获胜响应的奖励高于失败响应的比例(即 \(r(x,y_w) > r(x,y_l)\))来衡量。论文观察到,奖励准确性随 \(\gamma\) 的增加而提升,表明强制更大的目标奖励边际能有效提高奖励准确性。然而,AlpacaEval 2 的胜率随 \(\gamma\) 的增加先升后降,说明生成质量并非仅由奖励边际决定
  • \(\gamma\) 对奖励分布的影响(Impact of \(\gamma\) on the reward distribution.)
    • 论文在图 2(b) 和图 2(c) 中可视化不同 \(\gamma\) 值下学习到的奖励边际 \(r(x,y_w) - r(x,y_l)\) 和获胜响应奖励 \(r(x,y_w)\) 的分布
    • 增加 \(\gamma\) 会使分布趋于平坦,并降低获胜序列的平均对数似然
      • 这最初会提升性能,但最终可能导致模型退化
    • 论文假设在设置 \(\gamma\) 值时,需要在准确逼近真实奖励分布和保持良好校准的似然之间进行权衡
      • 这一平衡的进一步探索留待未来工作

In-Depth Analysis of DPO vs. SimPO

  • 本节论文从以下方面比较 SimPO 和 DPO:
    • (1) 似然-长度相关性
    • (2) 奖励公式
    • (3) 奖励准确性
    • (4) 算法效率
    • 论文证明 SimPO 在奖励准确性和效率上优于 DPO
  • DPO 奖励隐含地促进长度归一化(DPO reward implicitly facilitates length normalization)
    • 尽管 DPO 的奖励表达式:
      $$ r(x,y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref} }(y|x)}$$
      • 该表达式(排除配分函数)没有显式的长度归一化项,但策略模型与参考模型之间的对数比可以隐式抵消长度偏差
    • 如表 6 和图 4(a) 所示,使用 DPO 降低了平均对数似然与响应长度之间的 Spearman 相关系数 ,但与 SimPO 相比仍表现出更强的正相关性
      • 注意这一相关性并未完全反映生成长度。尽管 DPO 显示出更强的相关性,但其生成响应的长度与 SimPO 模型相当甚至略短。更多细节见附录 E
  • DPO 奖励与生成似然不匹配(DPO reward mismatches generation likelihood)
    • DPO 的奖励公式为:
      $$ r_\theta(x,y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref} }(y|x)}$$
    • 该奖励公式与直接影响生成的平均对数似然度量存在差异:
      $$ p_\theta(y|x) = \frac{1}{|y|} \log \pi_\theta(y|x)$$
    • 如图 4(b) 所示,在 UltraFeedback 训练集中满足 \(r_\theta(x,y_w) > r_\theta(x,y_l)\) 的实例中,近一半的偏好对满足 \(p_\theta(y_w|x) < p_\theta(y_l|x)\)
    • 相比之下,SimPO 直接使用平均对数似然(按 \(\beta\) 缩放)作为奖励表达式,完全消除了这种差异(见图 4(b))
  • DPO 在奖励准确性上落后于 SimPO(DPO lags behind SimPO in terms of reward accuracy)
    • 在图 4(c) 中,论文比较了 SimPO 和 DPO 的奖励准确性,评估它们最终学习到的奖励与保留集上偏好标签的匹配程度
    • SimPO 始终比 DPO 取得更高的奖励准确性,表明论文的奖励设计有助于更好地泛化,从而生成更高质量的响应
  • SimPO 和 DPO 的 KL 散度(KL divergence of SimPO and DPO)
    • 在图 5(a) 中,论文展示了在不同 \(\beta\) 下,使用 DPO 和 SimPO 训练的策略模型与参考模型在保留集获胜响应上的 KL 散度
    • 图 5(b) 展示了相应的 AlpacaEval 2 LC 胜率
    • 尽管 SimPO 未对参考模型应用任何形式的正则化,但其 KL 散度保持在合理较低水平
    • 增加 \(\beta\) 会降低 DPO 和 SimPO 的 KL 散度,其中 DPO 在较高 \(\beta\) 值时下降更明显
    • 在此特定设置(Mistral-base)中,图 5(b) 显示较小的 \(\beta\) 可以提升 AlpacaEval 2 性能,尽管 KL 散度更高
      • 论文观察到在某些设置(如 Llama-3-Instruct)中,较大的 \(\beta\)(如 \(\beta=10\))会带来更好的性能
      • 论文假设当参考模型较弱时,严格约束策略模型可能无益
    • 需要注意的是,尽管在适当调参下论文未观察到训练崩溃或退化,但 SimPO 理论上可能在没有显式正则化的情况下导致奖励破解(reward hacking) ,此时模型可能损失很低但生成结果退化
  • SimPO 比 DPO 更节省内存和计算资源(SimPO is more memory and compute-efficient than DPO)
    • SimPO 的另一优势是其高效性,因为它不使用参考模型
    • 图 5(c) 展示了在 Llama-3-Base 设置下,使用 8xH100 GPU 时 SimPO 和 DPO 的总体运行时间和单 GPU 峰值内存使用情况
    • 与普通 DPO 实现相比,SimPO 通过消除参考模型的前向传递,减少了约 20% 的运行时间和 10% 的 GPU 内存使用
      • 如果将参考模型的前向传递与实际偏好优化分离,DPO 也能实现与 SimPO 相当的内存效率,但这一实现并非标准做法

Related Work

RLHF

  • RLHF 是一种将 LLM 与人类偏好和价值观对齐的技术(2017; 2019; 2022)
  • 经典的 RLHF 流程通常包含三个阶段:
    • 监督微调(2021; 2023)
    • 奖励模型训练(2023; 2024)
    • 策略优化(2017)
  • 近端策略优化(Proximal Policy Optimization, PPO)(2017)是 RLHF 第三阶段广泛使用的算法
  • RLHF 框架还被应用于多种任务,例如减少毒性(2023)、确保安全性(2023)、提升帮助性(2024)以及增强模型推理能力(2024)
  • 近期研究(2023)指出,RLHF 从数据收集到模型训练的整个流程存在挑战
  • 此外,RLHF 可能导致模型生成冗长输出(2023; 2024),这一问题也引发了广泛关注

Offline vs. Iterative Preference Optimization

  • 由于在线偏好优化算法复杂且难以优化(2023),研究者开始探索更高效的离线算法
  • 直接偏好优化(Direct Preference Optimization, DPO)(2023)是一个典型代表
  • 但 DPO 缺乏显式的奖励模型,限制了其从最优策略中采样偏好数据的能力
  • 为解决这一问题,研究者尝试通过训练监督微调策略(2023)或结合拒绝采样的改进策略(2024)生成偏好数据,使策略能够从最优策略生成的数据中学习
  • 进一步研究将这种方法扩展到迭代训练框架(2024; 2024)
  • 论文专注于离线设置 ,避免任何迭代训练过程

Preference Optimization Objectives

  • 除 DPO 外,研究者还提出了多种偏好优化目标
    • 排序目标支持对多个实例进行比较(2023; 2024)
  • 另一类研究探索了不依赖参考模型的简化目标(2024),与 SimPO 类似
    • (2024)提出了一种联合优化指令和响应的方法,发现其能有效改进 DPO
    • (2024)专注于在监督微调和对齐模型之间进行后训练外推,以进一步提升模型性能
  • 论文对比了 SimPO 与一系列离线算法,包括 RRHF(2023)、SLiC-HF(2023)、DPO(2023)、IPO(2023)、CPO(2024)、KTO(2024)、ORPO(2024)和 R-DPO(2024),发现 SimPO 在效率和性能上均优于它们
  • 近期 GPO(Generalized Preference Optimization,2024)提出了一个统一不同离线算法的广义偏好优化框架,而 SimPO 可视为其特例

附录 A Limitations

  • 更深入的理论分析(More in-depth theoretical analysis) :
    • 尽管 SimPO 在实验上取得了成功,但仍需更严格的理论分析以全面理解其有效性
    • 此外,SimPO 引入了目标奖励间隔这一超参数,需手动调整
    • 未来工作可探索如何自动确定最优间隔,并提供更理论化的解释
  • 安全性与诚实性(Safety and honesty) :
    • SimPO 旨在通过优化生成质量来提升模型性能,但未显式考虑安全性和诚实性,而这在实际应用中至关重要
    • 未来研究可将安全性和诚实性约束整合到 SimPO 中,确保生成内容既高质量又安全可靠
    • 论文使用的数据集 UltraFeedback 主要关注有帮助性,未来的研究可以做更全面的研究(如考虑利用大规模偏好数据和更强调安全性的评估基准)
    • 尽管如此,作者观察到在数据集 TruthfulQA 上,SimPO 方法一致优于表9中的其他方法,这显示了 SimPO 在安全性对齐方面的潜力
  • 数学任务性能下降(Performance drop on math) :
    • 论文发现偏好优化算法通常会降低下游任务性能 ,尤其是在数学推理密集型(reasoning-heavy)任务(如 GSM8K)上(正如表9所展示的那样)
    • SimPO 的表现有时与 DPO 相当或更差
      • 这可能与训练数据集的选择、超参数设置或评估模板不匹配有关
      • 一种解释是偏好优化目标可能在提升偏好序列的似然上没有效果(尽管提升了奖励间隔(Reward margin))
    • (2024)首次观察到这一现象,并指出这可能妨碍从修改一个 Token 就发生翻转(flip)的数学偏好对中学习(比如将 2 + 2 = 4 修改为 2 + 2 = 5)
      • 该工作提出通过添加参考模型校准的监督微调损失来缓解问题
      • 未来工作可将此策略整合到 SimPO 中,以提升数学推理任务的性能

附录 B Implementation Details

  • 论文发现超参数调优对偏好优化方法的性能至关重要,但其重要性在先前研究中可能被低估,导致基线结果未达最优
    • 为确保公平对比,论文为所有方法进行了全面的超参数调优
  • 通用训练超参数(General training hyperparameters) :
    • 在基础训练设置中,论文使用 UltraChat-200k 数据集(2023)训练监督微调模型
      • 学习率为 2e-5
      • 批量大小为 128
      • 最大序列长度为 2048
      • 采用余弦学习率调度
      • 预热步数为 10%
      • 训练 1 个 epoch
      • 所有模型均使用 Adam 优化器(2014)
    • 在偏好优化阶段,论文通过初步实验搜索批量大小(32、64、128)和训练周期(1、2、3)
      • 作者发现批量大小为 128 和单周期(epoch=1)训练通常能带来最佳结果
      • 因此,论文将这些值固定用于所有偏好优化实验
      • 此外,设置最大序列长度为 2048,并在偏好优化数据集上应用 10% 预热步数的余弦学习率调度
  • 方法特定超参数(Method-specific training hyperparameters) :
    • 论文注意到不同偏好优化方法的最佳学习率差异较大 ,且显著影响基准性能
    • 因此,论文为每种方法单独搜索学习率(3e-7、5e-7、6e-7、1e-6)
    • 表 7 展示了基线方法的超参数搜索范围
    • 表 8 列出了 SimPO 在各设置下的超参数值
  • 解码超参数(Decoding hyperparameters) :
    • 在 AlpacaEval 2 中,论文采用采样解码策略
      • 温度设置为 0.7(Mistral-Base)
      • 0.5(Mistral-Instruct)
      • 0.9(Llama 3)
    • 在 Arena-Hard 中,所有设置和方法均使用贪婪解码
    • 在 MT-Bench 中,遵循官方解码配置,为不同类别定义不同的采样温度
  • 计算环境(Computation environment) :
    • 论文所有训练实验均在 8 块 H100 GPU 上完成,基于 alignment-handbook 代码库实现

附录 C:Downstream Task Evaluation

  • 为了研究偏好优化方法如何影响下游任务性能,论文在 Huggingface Open Leaderboard (2023) 列出的多个任务上评估了不同方法训练的模型
  • 这些任务包括 MMLU (2020)、ARC (2018)、HellaSwag (2019)、TruthfulQA (2022)、Winograd (2012) 和 GSM8K (2021)
  • 论文遵循既定的评估协议,所有模型的结果如表 9 所示
    • 总体而言,论文发现偏好优化对不同任务的影响各不相同
  • 知识保留度高,损失小(Knowledge is largely retained with a small loss) :
    • 与监督微调(Supervised Fine-Tuned, SFT)检查点相比,所有偏好优化方法通常能保持 MMLU 性能,仅有小幅下降
    • 在这方面,SimPO 与 DPO 基本相当
  • 阅读理解和常识推理能力提升(Reading comprehension and commonsense reasoning improves) :
    • 对于 ARC 和 HellaSwag,偏好优化方法通常比 SFT 检查点表现更好
    • 一种假设是偏好优化数据集中包含与这些任务类似的提示,这有助于模型更好地理解上下文,提升阅读理解和常识推理能力
  • 真实性提高(Truthfulness improves) :
    • 令人惊讶的是,论文发现偏好优化方法能持续提升 TruthfulQA 性能,某些情况下提升幅度超过 10%
    • 同样,论文假设偏好数据集中包含强调真实性的实例,这有助于模型更好地理解上下文并生成更真实的回答
  • 数学性能下降(Math performance drops) :
    • GSM8K 是不同方法间表现波动最大的基准
    • 值得注意的是,除了 ORPO,几乎所有方法在一个或多个设置中都会导致性能下降
      • 论文假设 ORPO 能保持性能主要是因为其监督微调损失起到了调节作用
    • (2024) 的研究表明,在偏好优化目标中加入基于参考模型的监督微调损失可以有效解决这一问题,并保持数学任务上的性能
  • 总体而言,下游性能的模式难以确定
    • 由于使用了不同的预训练模型、偏好优化数据集和目标,进行全面分析较为困难
    • 近期研究表明,基于梯度的方法可能有助于找到与下游任务相关的数据 (2024),未来或可扩展用于理解偏好优化的影响
    • 作者认为,未来需要对偏好优化如何影响下游性能进行更严谨和全面的研究

附录 D:AlpacaEval 2 和 Arena-Hard 的标准差 (Standard Deviation of AlpacaEval 2 and Arena-Hard)

  • 论文在表 10 中展示了 AlpacaEval 2 的标准差和 Arena-Hard 的 95% 置信区间
    • 所有指标均合理,未出现显著异常或不稳定情况

附录 E:Generation Length Analysis

  • 长度归一化减少生成长度并提升生成质量(Length normalization decreases generation length and improves generation quality)
    • 从 SimPO 目标中移除长度归一化(Length Normalization, LN)会得到类似于对比偏好优化(Contrastive Preference Optimization, CPO)(2024) 的方法
      • CPO 在机器翻译中表现优异
    • 然而,如果没有监督微调损失 ,未使用长度归一化的奖励最大化目标在偏好优化中效果较差
    • 论文分析了在 AlpacaEval 2 和 Arena-Hard 上使用或不使用长度归一化训练的模型的生成长度
    • 如图 6 所示:
      • 长度归一化显著减少了生成长度,降幅高达 25%
      • 尽管生成长度更短,但使用长度归一化的模型在两个基准上的胜率显著更高
      • 这表明长度归一化能有效控制生成响应的冗余性,同时提升生成质量
  • 长度并非生成质量的可靠指标(Length is not a reliable indicator of generation quality)
    • 论文进一步分析了不同方法训练的模型在 AlpacaEval 2 和 Arena-Hard 上的生成长度,如表 10 所示
    • 总体而言,论文发现没有一种方法能在所有设置中一致生成更长或更短的响应
    • 此外,某些方法可能生成更长的响应,但未必在基准上取得更高的胜率
    • 这表明生成响应的长度并不能可靠反映生成质量
  • SimPO 对响应长度的利用最小化(SimPO demonstrates minimal exploitation of response length.)
    • 论文观察到,在 Llama-3-Instruct 案例中 ,SimPO 的生成长度比 DPO 更短 ,但在其他设置中生成长度更长
      • 在 AlpacaEval 2 上最多长出 26%
      • 在 Arena-Hard 上仅长约 5%
    • 可以说,生成长度很大程度上取决于评估基准
    • 更强的指标是 SimPO 在 AlpacaEval 2 上的长度控制胜率始终高于原始胜率 ,表明其对响应长度的利用最小化

附录 F:Gradient Analysis

  • 作者检查了 SimPO 和 DPO 的梯度,以理解它们对训练过程的不同影响:
    $$
    \nabla_{\theta}\mathcal{L}_{\text{SimPO} }(\pi_{\theta})=-\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[s_{\theta}\cdot\left(\underbrace{\frac{1}{|y_{w}|}\nabla_{\theta}\log\pi_{\theta}(y_{w}|x)}_{\text{increase likelihood on } y_w }-\underbrace{\frac{1}{|y_{l}|}\nabla_{\theta}\log\pi_{\theta}(y_{l}|x)}_{\text{decrease likelihood on } y_l}\right)\right], \\
    \nabla_{\theta}\mathcal{L}_{\text{DPO} }(\pi_{\theta})=-\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[d_{\theta}\cdot\left(\underbrace{\nabla_{\theta}\log\pi_{\theta}(y_{w}|x)}_{\text{increase likelihood on } y_w }-\underbrace{\nabla_{\theta}\log\pi_{\theta}(y_{l}|x)}_{\text{decrease likelihood on } y_l }\right)\right],
    $$
  • 其中:
    $$
    s_{\theta}=\sigma\left(\frac{\beta}{|y_{l}|}\log\pi_{\theta}(y_{l}|x)-\frac{\beta}{|y_{w}|}\log\pi_{\theta}(y_{w}|x)+\gamma\right), \quad d_{\theta}=\sigma\left(\beta\log\frac{\pi_{\theta}(y_{l}|x)}{\pi_{\text{ref} }(y_{l}|x)}-\beta\log\frac{\pi_{\theta}(y_{w}|x)}{\pi_{\text{ref} }(y_{w}|x)}\right)
    $$
    • 分别表示 SimPO 和 DPO 中的梯度权重
  • 可以看出差异有两方面:
    • (1) 比较梯度权重 \(s_{\theta}\) 和 \(d_{\theta}\)
      • SimPO 的梯度权重 \(s_{\theta}\) 不涉及参考模型,且具有直观解释:对于策略模型错误地为 \(y_l\) 分配比 \(y_w\) 更高似然的样本,权重会更高;
    • (2) 比较梯度更新
      • SimPO 对 \(y_l\) 和 \(y_w\) 的梯度进行了长度归一化,而 DPO 没有
      • 这与实证发现 (2024) 一致:DPO 可能利用数据中的长度偏差 ,更长的序列会因包含更多 token 而在 DPO 中获得更大的梯度更新 ,从而主导训练过程

附录 G:Qualitative Analysis

  • 论文在图 7 和图 8 中分别展示了 Mistral-Base 和 Mistral-Instruct 在 AlpacaEval 2 和 Arena-Hard 上的胜率热图
  • 基于此分析,论文在 AlpacaEval 2 上展示了 SimPO 模型、DPO 模型和基线模型 GPT-4-Preview-1106 生成的响应示例
  • 比较 SimPO 与 DPO
    • 在图 9 和图 10 中,论文展示了一个案例,其中 Mistral-Base-SimPO 生成的答案比 Mistral-Base-DPO 结构更好
      • 给定问题“如何判断一个人对对话是真正感兴趣还是仅仅出于礼貌?”,DPO 模型生成了一长串要点,使得不同点之间的关系难以理解
      • 相比之下,SimPO 模型生成了一个结构良好的答案,首先对不同行为进行了高层分类,随后为每个类别提供了详细建议,使得答案更易读和理解
  • 比较使用 SimPO 训练的 Instruct 模型与 Base 模型 :
    • 在图 11 中,论文展示了一个案例,其中 Llama-3-Instruct 生成的答案比基线模型以及 Llama-3-Base-SimPO 模型更详细且格式更好
    • 对于问题“阿根廷人说什么语言?”,Llama-3-Base-SimPO 仅给出了非常简短的答案
    • GPT-4-Preview-1106 的答案更详细,解释了阿根廷西班牙语与标准西班牙语的区别,但格式不够清晰,解析稍难
    • Llama-3-Instruct-SimPO 提供了详细且格式良好的答案,更易阅读和理解,同时提供了足够的细节

附录 H:Llama-3-Instruct v0.2 (Jul 7, 2024))

  • 本节论文更新了 Llama-3-Instruct 的实验设置,主要改进是使用更强的奖励模型(reward model)来标注生成的偏好数据
  • 更强的奖励模型显著提升效果(Enhanced reward model yields significantly better results)
    • 在之前的版本中,论文使用 PairRM(2023)作为奖励模型对生成的候选回答进行排序
    • 表 12 的结果显示,将排序数据的奖励模型从 PairRM 替换为 ArmoRM(2024)后,模型性能显著提升
    • 这凸显了高质量偏好优化数据对性能的重要性
    • SimPO 在 AlpacaEval 2 上的长度控制胜率(LC win rate)达到 53.7%,在 Arena-Hard 上达到 36.5%,分别比前一版本提升了 9.0 和 2.7 个百分点
  • 论文在 Llama-3-Instruct v0.2 设置下为 SimPO 使用了以下超参数:
    • \(\beta=10\) 和 \(\gamma=3\)
    • 其他超参数(如学习率、批量大小、最大序列长度)与原始 Llama-3-8B-Instruct 设置保持一致
  • 强大的 SFT 模型和高质量策略数据缩小了算法差异(Strong SFT model and high-quality policy data diminish algorithm differences)
    • 当使用像 Llama-3-8B-Instruct 这样强大的 SFT 模型,并且偏好优化数据质量提高时,不同算法之间的差异变得不那么明显
    • 例如,DPO 在原始胜率(raw win rate)上与 SimPO 表现接近,而 DPO、IPO 和 R-DPO 在 Arena-Hard 上的原始胜率也相当
    • 然而,SimPO 仍保持优势,生成的序列更短,因此在 AlpacaEval 2 上的长度控制胜率显著更高
  • 下游任务表现更强(Stronger downstream task performance)
    • v0.2 版本在各种目标下的下游任务中也表现出更好的性能
    • 不过,DPO、IPO、R-DPO 和 SimPO 在数学推理密集型任务(如 GSM8K)上仍然存在性能下降
    • 相比之下,包含 SFT 组件的目标在数学任务上保持了更好的表现
  • 在 SimPO 中加入 SFT 正则化(Incorporating SFT regularization in SimPO)
    • 一些无需参考模型(reference-free)的算法(如 RRHF(2023)、SLiC-HF(2023)、CPO(2024)和 ORPO(2024))在其目标中使用了 SFT 正则化
    • SFT 正则化是防止奖励破解(reward hacking)的有效方法,可以确保模型在保持低损失的同时不会生成质量下降的结果
    • 论文也在 SimPO 中尝试加入 SFT 损失,得到以下目标函数:
      $$
      \mathcal{L}_{\text{SimPO w/ SFT} }(\pi_{\theta})=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[\log\sigma\left(\frac{\beta}{|y_{w}|}\log\pi_{\theta}(y_{w}|x)-\frac{\beta}{|y_{l}|}\log\pi_{\theta}(y_{l}|x)-\gamma\right)\color{red}{+\lambda\log\pi_{\theta}(y_{w}|x)}\right].
      $$
    • 如表 14 所示,加入 SFT 正则化后,模型在 AlpacaEval 2 上的性能有所下降
    • 但论文发现 SFT 正则化对某些任务(如 GSM8K)有显著帮助(见表 12)
    • 这些结果表明,SFT 在偏好优化中的作用可能因训练设置和任务性质而异
    • 更全面的研究留待未来进行

附录 I:Applying Length Normalization and Target Reward Margin to DPO (Jul 7, 2024))

  • 论文发布后,有研究者提出疑问:SimPO 的两个关键设计(长度归一化(length normalization)和目标奖励间隔(target reward margin))是否也能提升 DPO 的效果?为此,论文推导了以下两个目标函数:
    $$
    \mathcal{L}_{\text{DPO w/ LN} }(\pi_{\theta};\pi_{\text{ref} })=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[\log\sigma\left(\frac{\beta}{|y_{w}|}\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\text{ref} }(y_{w}\mid x)}-\frac{\beta}{|y_{l}|}\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\text{ref} }(y_{l}\mid x)}\right)\right]. \\
    \mathcal{L}_{\text{DPO w/ }\gamma}(\pi_{\theta};\pi_{\text{ref} })=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\text{ref} }(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\text{ref} }(y_{l}\mid x)}-\gamma\right)\right].
    $$
    • 直观上,长度归一化可能对 DPO 有帮助,因为尽管 DPO 的奖励设计通过参考模型隐式归一化,但策略模型仍可能从数据中利用长度偏差,导致对较长序列赋予过高的概率
      • 长度归一化可以缓解这一问题
  • 论文使用上述目标训练模型,并与 DPO 和 SimPO 的性能进行比较(见表 15)
  • 结果表明,与 SimPO 不同,长度归一化和目标奖励间隔并不能一致地提升 DPO
  • 具体来说,长度归一化仅在 Mistral-Base 设置中显著提升 DPO 性能(该设置的偏好优化数据存在明显的长度偏差),但在 Mistral-Instruct 设置中无益(因为胜负响应的长度相近)
    • 这可能是因为 DPO 已通过参考模型隐式实现了实例级的目标奖励间隔,如下式所示:
      $$
      \begin{align}
      \mathcal{L}_{\text{DPO} }&= \log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\text{ref} }(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\text{ref} }(y_{l}\mid x)}\right) \\
      &= \log\sigma\bigg(\beta\log\pi_{\theta}(y_{w}\mid x)-\beta\log\pi_{\theta}(y_{l}\mid x)-\underbrace{\left(\beta\log\pi_{\text{ref} }(y_{w}\mid x)-\beta\log\pi_{\text{ref} }(y_{l}\mid x)\right)}_{=\gamma_{\text{ref} } }\bigg).
      \end{align}
      $$

附录 J:Applying SimPO to Gemma 2 Models (Sept 16, 2024)

  • Llama-3-SimPO 模型在其他基准测试上的性能下降(Performance degradation on other benchmarks for Llama-3-SimPO checkpoints)
    • 在发布 Llama-3-SimPO 模型后,论文收到大量反馈,指出其在特定能力测试(如 MMLU 和 GSM8K)上的性能下降
    • 为了研究这一问题,论文继续用不同学习率训练 Llama-3-8B-Instruct 模型(见表 16)
    • 论文发现,使用较高的学习率会增强模型在聊天类基准上的表现,但会牺牲 GSM8K 和 MMLU 的性能
      • We evaluate the zero-shot performance of the models on GSM8K and MMLU using the ZeroEval repository which adopts a unified setup
    • 而较低的学习率能略微降低聊天基准的性能,但更好地保留了 GSM8K 和 MMLU 的表现
    • 这表明,在基于强大的指令微调模型继续训练时,需要在聊天基准和其他基准之间权衡
  • 将 SimPO 应用于 Gemma 2 模型呈现不同趋势(Applying SimPO to Gemma 2 models persents a different trend)
    • 论文使用谷歌最新发布的 Gemma-2-9B-it 模型(2024)评估 SimPO
    • 对于训练数据,论文从 UltraFeedback 数据集(2024)中为每个提示生成最多 5 个回答,并使用 ArmoRM 模型(2024)标注偏好
    • 论文将 SimPO 与基于 Gemma-2-9B-it 微调的 DPO 变体进行比较
    • 如表 17 所示,SimPO 在 AlpacaEval 2 和 Arena-Hard 等聊天基准上表现更优,同时保持了模型在 GSM8K 和 MMLU 等任务上的零样本能力
    • 值得注意的是,论文发现微调时调整学习率对模型性能影响很小
    • 这些结果表明,Llama-3 和 Gemma 2 的模型存在内在差异,值得进一步研究
  • Gemma-2-9B-it-SimPO 显著提升了原模型在 Chatbot Arena 的排名(Gemma-2-9B-it-SimPO significantly improved the ranking of the Gemma-2-9B-it model on Chatbot Arena)
    • 在开发阶段,论文仅依赖自动化指标评估模型性能
    • 为了验证这些指标是否与真实用户偏好一致,论文将表现最佳的 Gemma-2-9B-it-SimPO 模型提交至 LMSYS 的 Chatbot Arena 排行榜(2024)
    • 结果显示,论文的模型将原 Gemma-2-9B-it 的排名从第 36 位提升至第 25 位,使其成为截至 2024 年 9 月 16 日用户投票排名最高的 10B 以下模型

NLP——LLM对齐微调-TIS

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始博客:(TIS)Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, 20250805-20251013
      • 博客最早发表于 20250805,目前还在持续更新,最近一次更新为 20251013
    • TIS,即 Truncated Importance Sampling

Blog Summary

  • 在现代强化学习训练框架(例如 VeRL)中, rollout 生成(例如使用 vLLM)和模型训练(例如使用 FSDP)采用了不同的实现方式
  • 博客揭示了这种 实现差距(implementation gap) 如何隐式地将 On-policy 强化学习转变为 Off-policy,并讨论了一种简单而有效的重要性采样技术来处理这种差异

The Mismatch Problem

  • 为简单起见,博客以 REINFORCE 算法为例,该算法本应通过以下方式更新策略,即一个由 \(\theta\) 参数化的大语言模型:
    $$
    \theta \leftarrow \theta + \mu \cdot \mathbb{E}_{\underbrace{a \sim{\pi}(\theta)}_{\color{red}{\text{rollout}}}} [R(a)\cdot \underbrace{\nabla_\theta \log {\pi}(a, \theta)}_{\color{blue}{\text{training}}}].
    $$
  • 在实践中,rollout 生成成本高昂,现代强化学习框架(例如 VeRL)通常采用高度优化的推理引擎(例如 vLLM, SGLang)来提高吞吐量,同时使用单独的后端(例如 FSDP, Megatron)进行模型训练。这种混合设计使得更新变为:
    $$
    \theta \leftarrow \theta + \mu \cdot \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} [R(a)\cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)].
    $$
    • \(\color{red}{\pi_{\text{sampler} }}\) 代表加载了推理引擎(例如 vLLM, SGLang)的模型
    • \(\color{blue}{\pi_{\text{learner} }}\) 代表用训练后端(例如 FSDP, Megatron)实例化的同一模型
    • 除非特别说明,博客的实验使用 vLLM 和 FSDP 作为 Sampler 和 Learner 后端
  • 可以观察到意外的 rollout-training 不匹配
    • 如图 1 所示,尽管 \(\color{blue}{\pi_{\text{fsdp}} }\) 和 \(\color{red}{\pi_{\text{vllm} }}\) 共享相同的模型参数 \(\theta\),它们可以产生 显著不同的 Token 概率
    • 对于某些 Token \(a\),它们甚至产生矛盾的预测,例如 \(\color{red}{\pi_{\text{vllm} }}(a, \theta) = 1\) 和 \(\color{blue}{\pi_{\text{fsdp}} }(a, \theta) = 0\)
      • 理解:图 1 左图中的最大差异为 1 的地方就是这样
    • 这种意外行为隐式地破坏了 On-policy 假设,秘密地使强化学习训练变成了 Off-policy
  • 图 1:
    • 左图:由不匹配问题带来的 Token 概率差异(图中横轴是训练步骤,纵轴是差异的 最大值或平均值等)
    • 右图:正常 RL 训练与修复不匹配问题后训练的性能比较
    • 实验在 Qwen2.5-32B Dense 模型上进行,使用了 4 个节点,每个节点 8 张 H100 GPU

How to Fix It?

Mitigate the system-level mismatch(缓解系统级不匹配 )

  • 更高精度的 vLLM 有帮助吗?博客首先假设 vLLM 是根本原因,因此博客修补了 vLLM 以解决两个常被怀疑导致不匹配问题的因素
    • 无法访问的真实采样概率(Inaccessible true sampling probabilities) :vLLM v1 引擎不支持直接返回用于采样的调整后概率,这引入了额外的差距
      • 博客的补丁强制 vLLM 返回用于采样的实际概率 [非流式]
    • 后端数值差异(Backend numerical differences) :vLLM 的 im_head 精度与 HuggingFace transformers 不匹配,这在 MinMax-M1 技术报告中也有提及
      • 博客的补丁提供了强制 vLLM 将 im_head 转换为 fp32 的选项
  • 如图 1 左图所示,在应用了两个补丁之后,不匹配问题仍然存在

Embrace the mismatch — Apply algorithm-level fix(接受不匹配 and 应用算法级修复 )

  • 与其在系统层面缓解分布不匹配,博客建议调整模型更新,使其意识到这种不匹配
  • 一个简单的方法是通过重要性采样校正
    • 具体来说,博客通过添加重要性权重比来处理 \(\color{blue}{\pi_{\text{learner} }}\) 和 \(\color{red}{\pi_{\text{sampler} }}\) 之间的不匹配,即将当前的梯度计算从:
      $$
      \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} [R(a)\cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)],
      $$
    • 改为:
      $$
      \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \Bigl[\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)} \cdot R(a)\cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)\Bigr].
      $$
  • 尽管已有大量研究关于如何设计稳定有效的重要性采样,但在实践中博客发现通常使用一种经典技术就足够了,即截断重要性采样(Truncated Importance Sampling, TIS):
    $$
    \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \Bigl[\underbrace{\min\Bigl(\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)}, C\Bigr)}_{\text{truncated importance ratio}} \cdot R(a) \cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)\Bigr],
    $$
    • 其中 C 是一个超参数
    • 注意:这里仅针对单向进行截断(对上界进行截断),详细讨论见下文

Extension to Other Algorithms

  • 将上述分析扩展到其他算法是直接的,因为可以将梯度计算的确切形式从 REINFORCE \( R(a) \cdot \nabla \log \pi (a, \theta) \) 切换到任何形式
    • 这里,博客以常用的 PPO 算法为例进行类似的分析
  • PPO 的策略梯度 \(\nabla_{\theta} L^\text{CLIP}(\theta)\) 定义为:
    $$
    \small{ \mathbb{E}_{a\sim\pi_{\theta_{\mathrm{old}}}}
    \Bigl[
    \nabla_\theta \min\Bigl(
    \frac{\pi_\theta(a)}{\pi_{\theta_{\mathrm{old}}}(a)}\hat A,
    \mathrm{clip}\bigl(\frac{\pi_\theta(a)}{\pi_{\theta_{\mathrm{old}}}(a)},1-\epsilon,1+\epsilon\bigr)\hat A
    \Bigr)
    \Bigr]}.
    $$
  • 为了提高吞吐量,混合强化学习系统采用 vLLM 引擎进行 rollout 生成(从 \(\pi_{\theta_{old} }\) 采样 Token a),同时使用 FSDP 后端既从 \(\pi_{\theta}\) 采样(注:这里应该是表达错误,这里仅仅是在计算概率值,不会真的进行采样了),又为 \(\pi_{\theta_{old} }\) 重新计算 Token 概率以进行梯度计算:
    $$
    \small{
    \mathbb{E}_{a\sim\color{red}{\pi_{\text{sampler}}}(\theta_{\mathrm{old}})}
    \Bigl[
    \nabla_\theta \min\Bigl(
    \frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{blue}{\pi_{\text{learner}}}(a, \theta_{\mathrm{old}})}\hat A,
    \mathrm{clip}\bigl(\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{blue}{\pi_{\text{learner}}}(a, \theta_{\mathrm{old}})},1-\epsilon,1+\epsilon\bigr)\hat A
    \Bigr)
    \Bigr]
    }.
    $$
    • 注意,对 vLLM 引擎通过 \(\pi_{\theta_{old} }\) rollout 到的样本,还要经过 以 FSDP 为引擎的 \(\color{blue}{\pi_{\text{learner}}}\) 来对 \(\pi_{\theta_{old} }\) 重新计算概率,从而得到 \(\color{blue}{\pi_{\text{learner}}}(a, \theta_{\mathrm{old}})\)
  • 与上述分析类似,\(\color{blue}{\pi_{\text{learner} }}\) 和 \(\color{red}{\pi_{\text{sampler} }}\) 之间的差距再次出现,博客使用截断重要性采样来修复它:
    $$
    \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }}(\theta_{old})} \left[ \underbrace{\min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}, C \right)}_{\text{truncated importance ratio}} \cdot \nabla_{\theta} \min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})} \hat{A}, \text{ clip} \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}, 1 - \epsilon, 1 + \epsilon \right) \hat{A} \right) \right]
    $$
    • 其中 \(C\) 是一个超参数
Additional Discussion on PG, Sequence, and Token
  • 上面的讨论没有涉及状态和行动的具体形式化
  • 博客作者之前还讨论了 Token-level 和 Sequence-level 的策略梯度,它们如何相互关联,以及 learner-sampler 不匹配的影响,下面是参考链接:
    • Policy Gradient, Sequence, and Token — Part I: Basic Concepts
    • Policy Gradient, Sequence, and Token — Part II: Learner-Sampler Mismatch

Connection to Classical Wisdom(智慧)

Importance Sampling
  • 当直接蒙特卡洛估计目标分布下的期望值很困难时,重要性采样允许博客从另一个分布中采样
  • 在博客的案例中,目标分布是 \(\color{blue}{\pi_{\text{learner} }}\),但从中采样非常慢
  • 使用单独的后端(例如 vLLM)进行 rollout 生成意味着博客是从 \(\color{red}{\pi_{\text{sampler} }}\) 中采样
  • 然后通过用重要性权重比对每个样本进行加权来校正差异:
    $$
    \mathbb{E}_{a \sim \color{blue}{\pi_{\text{learner}}}(\theta)} [R(a)]
    = \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \left[
    \underbrace{\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)}}_{\tiny\text{importance ratio}} \cdot R(a)
    \right].
    $$
Decoupled PPO
  • 解耦 PPO 是使用重要性采样来弥合 rollout 生成和梯度计算之间差距的一个特例,它已被诸如 AReaL 之类的异步强化学习框架采用
  • AReaL 没有像博客这里讨论的那样实现截断重要性权重比
    • 如果重要性权重比超过预定义的阈值,AReaL 会完全丢弃训练样本

Experiments

  • 博客进一步进行了实证分析,以阐述分布差距的影响以及所提出的截断重要性采样(TIS)修复的有效性

Does the gap matter a lot?

  • 博客使用 Qwen2.5-32B Dense 模型和流行的 DAPO 配方进行实验;数据按照社区指南进行处理,得到的结果如图 1 所示
  • 由于资源限制,博客只完成了训练的前 250 步,但意识到差距的修复方法 TIS 已经显著提升了性能
  • 由于这两个运行之间唯一的区别是引入的项,即 \(\min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}, C \right)\),这一改进展示了分布差距的潜在影响

How well can TIS fix it?(TIS 能修复多少?)

  • 博客设计了一个受控实验来衡量 TIS 修复问题的效果
    • 按照 verl 教程中的 GSM8K 示例进行 RL 训练,并使用两种不同的设置:
      • 1)正常 RL 训练:最大 Token 概率差相当小(约 0.4),比之前的设置(在 Qwen-2.5-32B Dense 模型上的 DAPO 为 1.0)要小
      • 2)使用 INT8 量化 rollouts 而非 bf16 rollouts 的 RL 训练:最大 Token 概率差相当大(1.0),比正常 RL 训练大
    • 博客在设置 1 中进行常规 PPO 训练,这“几乎”是 On-policy 的;
    • 在设置 2 中同时进行常规 PPO 训练和带有截断重要性采样的 PPO 训练,其生成 rollout 和梯度计算有更大的差距
  • 如图 2 所示
    • 与设置 1 中的 PPO 相比,在设置 2 中执行 PPO 会导致显著的性能下降
    • 同时,应用截断重要性采样成功地大大缓解了差距,有效地使设置 2 的运行达到了与设置 1 相似的性能
    • 更多分析在下面的 TIS 分析 部分提供
  • 图 2:
    • 左图:Token-level 概率差异
    • 右图:在 GSM8K 上正常 RL 训练和使用 INT8 量化 rollouts 的 RL 训练的性能比较
    • 实验在 Qwen2.5-0.5B Dense 模型上进行,使用一个节点(4 张 A6000 GPU)

Does TIS always help?

  • 图 3:
    • 左图:由不匹配问题带来的 Token 概率差异
    • 右图:正常 RL 训练与修复不匹配问题后的性能比较
    • 实验在 DeepSeek-R1-Distill-Qwen-1.5B 模型上进行,使用 4 个节点,每个节点 8 张 H100 GPU
    • 在这种情况下,不匹配并不大,因为博客在两次运行中都使用了标准的 bfloat16 rollout 并且模型相对较小
  • 博客还观察到,在概率差异相对较小的情况下,引入额外的截断重要性采样项不能带来性能提升
  • 同时,值得一提的是,在严格的 On-policy 强化学习设置中,重要性采样权重比项的值将为 1.0

TIS Analysis

Analysis about different TIS-Variants

  • 博客总结了两种缓解分布差距的替代方案
  • PPO 重要性采样 (PPO Importance Sampling, PPO-IS)
    $$
    \small{ \mathbb{E}_{a\sim\color{red}{\pi_{\mathrm{sampler}}}(\theta_{\mathrm{old}})}\Bigl[\nabla_{\theta}\min\Bigl( \frac{\color{blue}{\pi_{\mathrm{learner}}}(a, \theta)}{\color{red}{\pi_{\mathrm{sampler}}}(a, \theta_{\mathrm{old}})}\hat{A}, \mathrm{clip}\Bigl( \frac{\color{blue}{\pi_{\mathrm{learner}}}(a, \theta)}{\color{red}{\pi_{\mathrm{sampler}}}(a, \theta_{\mathrm{old}})}, 1-\epsilon, 1+\epsilon \Bigr)\hat{A}\Bigr)\Bigr]}
    $$
    • 注意:Colossal 框架使用此实现
    • 理解:这个方法中不再重新使用 FSDP 引擎(用 \(\pi_\text{old}\))对 之前 rollout 的结果进行重新计算概率
      • 注:之前 rollout 的结果是 vLLM 引擎用 \(\pi_\text{old}\) 采样得到的
  • 原始重要性采样 (Vanilla Importance Sampling, vanilla-IS)
    $$
    \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }}(\theta_{old})} \left[ \underbrace{\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}}_{\text{importance ratio}} \cdot \nabla_{\theta} \min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})} \hat{A}, \text{ clip} \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}, 1 - \epsilon, 1 + \epsilon \right) \hat{A} \right) \right]
    $$
    • 注意:Memo-RL 使用此实现
    • 理解:这个方法和 TIS 的最大区别是缺少 TIS 中的 Clip 操作
  • 为了评估 TIS 的有效性并理解其设计选择的影响,博客进行了实验,将 TIS 与上述两种变体进行比较
    • TIS 始终优于这两种变体,尤其是在差距较大的情况下(例如 FP8/INT8)
  • 图 4:
    • 博客在 Qwen2.5-0.5B 和 GSM8K 上消融了不同的 rollout-training 不匹配缓解策略
    • 注意 PPO-IS 和 Vanilla-IS 在 INT8 rollouts 下准确率接近 0,因此高度重叠
    • 博客还在右侧绘制了 vLLM 采样分布与 FSDP 分布之间的 KL 散度
附录:为什么这里的两种变体(PPO-IS 和 vanilla-IS)会导致训练不稳定?(Why the two variants (PPO-IS and vanilla-IS) here gives unstable training?)
Vanilla-IS v.s. TIS
  • 关于 vanilla-IS,不稳定性主要来自于 rollout \(a \sim \color{red}{\pi_{\text{sampler} }}(a, \theta_{old})\) 以低概率采样的情况,因此重要性权重比很大,通过 \(\left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})} \right)^2\) 放大了梯度方差
    • 问题:\(\left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})} \right)^2\) 是怎么来的?
    • 回答:应该是想表达 当 rollout \(a \sim \color{red}{\pi_{\text{sampler} }}(a, \theta_{old})\) 以低概率采样时,\(\left( \frac{1}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})} \right)^2\) 放大了方差吧;
      • 这里的表达应该是假设了 \(\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})\) 和 \(\color{blue}{\pi_{\text{learner} }}(a, \theta)\) 近似相等
  • 因此,博客在截断重要性采样中使用 clamp 操作来稳定训练
  • 例如,当权重比 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}\) 对于某个 Token 达到 16 时,通过 Vanilla-IS 该 Token 的梯度噪声将被放大 256 倍,通过 TIS-2 放大 4 倍,或通过 TIS-8 放大 64 倍
PPO-IS v.s. TIS
  • 自从作者的博客发布以来,很多人问博客为什么不直接将重要性采样纳入 PPO(即上面的 PPO-IS 变体)
    • 作者表示“坦率地说,博客一开始就像 PPO-IS 那样直接更改 PPO 的 clip,但在博客的实验设置中效果不佳”
    • 至于根本原因,通过执行 PPO-IS,梯度实际上仍然与 On-policy 版本的 PPO 存在偏差
    • 换句话说,尽管它可能仍然朝着无偏的目标进行优化,但与 PPO 相比可能效果较差
  • 此外,作者指出 PPO 信任区域技术的提出是为了限制 rollout \(\theta_{old}\) 和当前模型 \(\theta\) 之间的概率比接近 1 ,以近似 On-policy REINFORCE 梯度
    • 然而在 PPO-IS 中,即使当 \(\theta = \theta_{old}\) 时,由于不匹配,概率比 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}\) 已经不等于 1
      • 这使得裁剪很有可能发生,并且训练的信息量大大减少
    • 此外,在博客的 TIS 方法中,博客分别裁剪 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}\) 和 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}\),因此要温和得多;
      • 注意当 \(\theta = \theta_{old}\) 时, \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}\) 等于 1,这适合于信任区域约束

From Ill-conditioned to Benign(恶性到良性)

  • 除了 rollout 加速之外,rollout 量化也是检验 rollout 生成和梯度计算之间分布差距影响的有效测试平台
  • 博客证明了
    • 1)当不解决这种差距时,使用量化 rollouts 的 RL 训练表现出在其他场景中常见的典型不稳定性
    • 2)引入 TIS 项使 RL 训练变得稳定和良性

Entropy Collapse and Abnormal Response Length(熵崩溃和异常响应长度)

  • 许多先前的工作表明,在大语言模型中进行 RL 训练会导致熵崩溃
    • Token-level 分类分布接近 one-hot 分布,从而有效地限制了 RL 训练的探索
  • 博客的 INT8 rollout 实验揭示了严重的熵崩溃
    • 图 5 显示熵降至 0.2 以下并在整个训练过程中持续下降
  • 博客还观察到了异常长的响应生成
    • 这是 RL 训练中的另一种失败模式
  • 引入 TIS 项逆转了这一趋势,使模型能够以稳定和良性的方式进行训练
  • 图 5:DAPO-Qwen2.5-32B INT8 训练表现出各种不稳定性,并通过引入截断重要性采样成功稳定
  • 相比之下,BF16 rollout 实验没有显示出严重的熵崩溃
    • 尽管如此,TIS 项仍然增加了熵值
    • 与 INT8 rollouts 相比,分布差距较小,响应长度保持在合理范围内
  • 图 6:DAPO-Qwen2.5-32B BF16 训练表现出各种不稳定性,并可以通过引入的截断重要性采样成功稳定
  • 个人观察 & 理解:从图 6 中第一个图可以看到,熵是先降低后增加的

On the Impact of Distribution Gap: A Case Study on KL Estimation

  • \(\text{KL}(\color{blue}{\pi_{\text{old} }^{\text{fsdp}} } | \color{blue}{\pi^{\text{fsdp} }})\) 的一个无偏 KL 估计器是 \(k_1\) 估计器
    $$\log \color{blue}{\pi_{\text{old} }^{\text{fsdp}} }(a) - \log \color{blue}{\color{blue}{\pi^{\text{fsdp} }}}(a) $$
    • 其中 \(a \sim \color{blue}{\pi_{\text{old} }^{\text{fsdp}} }(a)\)
  • 然而,现代 RL 训练框架从 \(\color{red}{\pi_{\text{old} }^{\text{vllm} }}\) 生成 rollouts,而不是从 \(\color{blue}{\pi_{\text{old} }^{\text{fsdp}} }\),这给 KL 估计引入了偏差,类似于前面讨论的梯度估计偏差
  • 因此,博客可以使用 KL 估计作为案例研究来探索 \(\color{blue}{\pi_{\text{old} }^{\text{fsdp}} }\) 和 \(\color{red}{\pi_{\text{old} }^{\text{vllm} }}\) 之间不匹配的影响
    • 在无任何偏差的情况下,根据定义 KL 散度是非负的
    • 然而,INT8 rollouts 中显著的分布不匹配导致有偏的 \(k_1\) 估计器频繁产生负值,如图 5 所示
      • 理解:图 5 第 2 个图所示
    • 这些负的 KL 估计值标志着训练动态处于病态
  • 当 TIS 被纳入 RL 训练时,相同的 \(k_1\) 估计器(虽然仍然受到底层分布不匹配的影响)在大部分训练过程中保持正值
    • 这种预期符号的保持表明 TIS 成功恢复了良性的训练行为

Biased Reward in Training Log

  • 集成 TIS 的一个有趣现象是,它可能导致更差的奖励日志记录,同时带来更好的下游性能
    • 这是因为 \(\color{red}{\pi_{\text{sampler} }}\) 和 \(\color{blue}{\pi_{\text{learner} }}\) 之间的差距不仅给梯度估计引入了偏差,也给日志记录中的奖励估计引入了偏差
    • 记录的奖励来自 rollout 策略,即 \(\mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }} } [R]\) 而不是 \(\mathbb{E}_{a \sim \color{blue}{\pi_{\text{learner} }} } [R]\)
    • 如图 6(右侧两个子图)所示,记录的奖励指标显示 BF16-Rollout 优于 BF16-Rollout w. TIS
    • 然而,如果查看下游的 AIME 准确率性能,BF16-Rollout w. TIS 显著优于原始的 BF16-Rollout
  • 问题:rollout 策略来自 \(\mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }} } [R]\) 而不是 \(\mathbb{E}_{a \sim \color{blue}{\pi_{\text{learner} }} } [R]\) 影响这么大吗?

Intuitions of TIS’s Working Mechanism

  • 虽然 TIS 的确切机制仍然是一个 Open Question,但博客提供了关于 TIS 如何缓解分布差距的高层直觉
  • 忽略具有 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 的 rollouts 的偏差(注:这里是指忽略偏差不行)可能通过以下机制导致熵崩溃:
    • 对于具有负优势的 rollouts,策略梯度倾向于减少 \(\color{blue}{\pi_{\text{learner} }}\)
    • 当参数更新后存在大的分布差距时,\(\color{blue}{\pi_{\text{learner} }}\) 的减少可能不会反映在 \(\color{red}{\pi_{\text{sampler} }}\) 中
      • 理解:这里是因为两层 diff 导致,第一层是策略本身是 Off-policy 的,第二层是使用的引擎是 vLLM
    • 因此,策略梯度继续指向进一步减少 \(\color{blue}{\pi_{\text{learner} }}\) 的方向
      • 问题:此时确实会导致 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\),这里是想强调什么呢?
      • 理解:这里是想强调这种偏差的存在,使用 TIS 修正以后,可以抵消这种偏差
    • 直观地说,这种惩罚可能迫使模型过度 commit 于一个具有小熵的输出分布
      • 问题:如何理解这里会过度提交于一个小熵的输出分布?
        • 进一步减少 \(\color{blue}{\pi_{\text{learner} }}\) 不一定指向更小的熵吧?
        • 理解:过度更新可能导致模型向不确定的方向更新,不一定是熵减少或增加
      • 其他理解1:持续减少一些动作的概率确实可能加速这些动作概率的降低,从而促进某些其他动作概率的增加,也就意味着熵会减少
      • 其他理解2:一个动作因为过度打压导致动作概率降低以后,后续被采样到的概率也降低了,很难被修正了
  • TIS 坚持对 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 使用非截断的重要性权重比
    • 从而消除了这部分 rollouts 的偏差,并打破了这一机制
    • 注意:这里 TIS 的截断是单向的,使用的是 \(\min\) 来作为截断,只有当 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} > 1\) 时才会截断
    • 问题:为什么 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} > 1\) 时需要截断?
      • 如上所述,\(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 时应该不要截断以修正偏差
      • 当 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} > 1\) 时,很如果不截断,方差太大了(因为分母太小就容易出现数倍差异的情况),导致梯度波动太大
        • \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 时这个值最多在 \([0, 1)\) 之间
        • 实际上,这也是可以截断的,作者在新的博客中已经给出一些结论了,下界也可以加以限制 (IcePop)Small Leak Can Sink a Great Ship—Boost RL Training on MoE with IcePop!, 20250919, AntGroup

Rollout-Training Mismatch Analysis

  • 博客进行了一系列受控实验,以识别引入或放大 rollout 生成和梯度计算之间差异的因素
  • 博客发现并行策略的差异和长响应长度导致了不匹配,而仅 Sampler 后端的选择影响有限

Analysis Setup

Model & Data
  • 博客使用两个代表性模型进行实验(使用 DAPO 配方训练的 DAPO-32B 和 使用 Polaris RL 配方训练的 Polaris-7B)
  • 对于评估,博客使用 DAPO-Math-T2k 数据集的前 512 个提示来评估 Sampler 和 Learner 输出之间的差异指标
  • 博客使用两个指标测量响应级别的 Mismatch :
    • 每个响应的 Max Mismatch :
      $$ \max_{a \in \text{response}} |p_\text{sampler}(a) - p_\text{learner}(a)|$$
    • 每个响应的平均 Mismatch :
      $$
      \frac{1}{|\text{response}|} \sum_{a \in \text{response} } |p_{\text{sample} }(a) - p_{\text{learner} }(a)|
      $$
    • 这些指标使博客能够捕捉到最坏情况的 Token 差异以及响应内的平均差异水平
    • 博客在不同设置下为相同提示的响应计算它们,以隔离特定因素的影响
Visualization(可视化)
  • 博客使用右侧显示的可视化格式呈现这两个指标
    • 这是一个用于解释图的说明性示例

Larger Parallelism Difference, Larger Max Gap(并行性差异越大,Max Gap 越大 )

  • 博客观察到 Sampler 和 Learner 之间的并行性差异对 Max Mismatch 指标有显著贡献
  • 理解:这里是说因为 Sampler 和 Learner 是部署在不同的引擎上的,所以各种并行方式也可能不同
Simplest Setting
  • 使用 DAPO-32B 模型,博客从最简单的配置开始:
    • Sampler 在 vLLM 上以 TP1 运行, Learner 使用 FSDP 以 SP1 运行
  • 由于 Sampler 和 Learner 具有相同的并行设置,博客称之为相同并行性(Same Parallelism),其分布差距归因于并行性差异之外的因素
  • 问题 :为什么说这里「Sampler 在 vLLM 上以 TP1 运行, Learner 使用 FSDP 以 SP1 运行」是相同的并行设置?
  • 回答 :先澄清几个缩写:
    • TP1 = Tensor Parallelism degree 1
    • SP1 =(在 FSDP 语境里)Shard/Shard-Parallelism degree 1,也就是把模型参数完整地放到一张卡上,不做任何分片
    • 在两种框架里,“degree=1” 都意味着:
      • 1)整个模型权重 不拆、不复制到多张卡;
      • 2)一张 GPU 就能装下全部参数;
      • 3)不需要任何跨卡通信来维护参数一致性。
    • 因此,虽然一个叫 TP、一个叫 SP,但它们的“并行粒度”相同(都是“单卡单副本”)
      • 既然两边都只做 degree=1,就称它们为 Same Parallelism
Adding Tensor Parallelism
  • 为了研究 TP 差异的影响,博客将 Sampler 从 TP1 改为 TP2,同时保持 Learner 在 SP1(Different TP)
  • 如图 7 左图所示,随着并行性差异的增加,具有高 Max Mismatch(> 0.5)的响应数量增加
  • 相同并行性情况仅产生一个这样的响应,而不同 TP 将其增加到两个
  • 图 7:相同一组提示在不同并行性下的 Max Mismatch
  • 问题:为什么图 7 的第 1 和第 2 两张图中的 Different TP 显示的分布结果不一致?
Adding Sequence Parallelism
  • 为了研究 Ulysses 序列并行差异的影响,博客将 Learner 从 SP1 改为 SP8(不同 TP 和 SP)
  • 如图 7 中图所示,额外的 SP 差异将高 Max Mismatch 的数量从两个增加到两位数
Disentangling Parallelism and Sharding(解耦)
  • 如图 8 左下图所示,对于相似的分布式世界大小(例如 8 个设备),在 Learner 中使用张量并行(TP8)与 TP2 Sampler 产生的 Mismatch ,比在使用序列并行(SP8)的 Learner 与 TP2 Sampler 产生的 Mismatch 要小
  • 博客假设这是因为 TP8 Learner 与 TP2 Sampler 之间的实现差异,比 SP8 Learner 与 TP2 Sampler 之间的实现差异要小
    • 这强化了博客的发现:最小化 Sampler 和 Learner 之间的并行性差异能持续减小差距
  • 然后,博客测量了在 Learner 和 Sampler 中使用相同张量并行时的 Max Mismatch ,记为相同并行性(TP2)和相同并行性(TP4)
    • 与最简单设置不同,这两种配置在多个设备上共享模型计算,因此更具可扩展性
    • 如图 8 中图和右图所示,相同并行性(TP2)和相同并行性(TP4)只有少量响应具有高 Max Mismatch (> 0.5)
      • 这表明在 Sampler 和 Learner 中使用相同的方式分片模型有助于减少 Mismatch ,应该是更可取的
  • 图 8:相同一组提示在各种并行性下的 Max Mismatch
Mean Mismatch and KL
  • 尽管博客在 Max Mismatch 上观察到一致的模式,但值得一提的是,博客没有在这些配置的平均 Mismatch/KL 散度上观察到任何显著差异

Longer Response, Larger Max Gap(响应越长,Max Gap 越大)

  • 博客的实验一致表明,生成长度越长的序列会导致越大的 Max Mismatch ,而平均 Mismatch 受影响较小
    • 注意:这里的 平均 Mismatch 并不是按照 Token 做归一化的!
  • 博客使用 DAPO-32B 和 Polaris-7B 模型消融了序列长度的影响
  • 图 9:
    • 左图:不同响应长度的 Max Mismatch
    • 右图:不同响应长度的平均 Mismatch
    • 注:棕色表示 DAPO-32B;紫色表示 Polaris-7B 的结果
  • 如图 9 所示
    • 限制为 20K Token 的响应比限制为 4K Token 的响应表现出更高的 Max Mismatch
    • 相比之下,平均 Mismatch 在两种设置下保持相似
    • 这表明较长的序列为单个大的概率差异提供了更多机会,即使每个 Token 的平均差异保持稳定
  • 为了验证这种效应是由序列长度驱动的,而不是生成的 Token 总数,博客进行了一个对照实验,比较单批 20K-Token 响应与多批(5 个)独立的 4K-Token 响应(针对同一组提示)
  • 图 10:
    • 左图:在相似 Token 数量下,不同响应长度的 Max Mismatch
    • 右图:不同长度响应的 Max Mismatch
    • 注:棕色表示 DAPO-32B;紫色表示 Polaris-7B 的结果
  • 如图 10 左图所示
    • 生成多个较短响应(5×4K)与单个 4K-Token 响应相比,仅导致 Max Mismatch 适度增加
    • 但一个连续的 20K-Token 响应产生的 Mismatch 比两者都要大得多
    • 这证实了差异由于序列的连续长度而加剧
  • 有趣的是,博客观察到 Mismatch 随着生成的进行而累积:
    • 一个 20K-Token 响应中仅前 4K Token 内的 Max Mismatch ,常常超过一个独立的 4K-Token 响应的 Max Mismatch
    • 这表明 Sampler 和 Learner 的内部状态在长生成上下文中越来越发散

Altering Sampler Alone, Gap Still There(仅改变 Sampler 时,差距仍然存在)

  • 最后,博客研究了 Sampler 后端本身的选择是否是导致 Mismatch 的主要因素
  • 博客比较了 Sampler 的三种配置:
    • 1)vLLM
    • 2)SGLang
    • 3)启用确定性内核的 SGLang
  • 结果表明,仅 Sampler 后端本身没有决定性影响
    • 对于 DAPO-32B 模型,SGLang 产生较小的平均 Mismatch ,而对于 Polaris-7B 模型,vLLM 表现更好(即 vLLM 的平均 Mismatch 更小)
    • 因此,没有单一的 Sampler 后端在所有不同设置中 consistently 占主导地位
  • 图 11:
    • 左图:不同 Sampler 后端的 Max Mismatch
    • 右图:不同 Sampler 后端的平均 Mismatch
    • 注:棕色表示 DAPO-32B;紫色表示 Polaris-7B 的结果
  • 值得注意的是,在没有对齐训练配置的情况下,在 SGLang 中启用确定性采样并没有明显减小差距
    • 这表明 Mismatch 主要源于更深层次的实现差异(例如并行性或数值精度),而不是仅仅来自随机采样

What’s More

  • 还有其他维度可能影响 rollout-training 不匹配,包括 模型类型(例如,Dense vs. MoE,Based vs. Post-trained),提示 数据特征(例如,难度,领域),GPU 硬件 ,以及训练 后端(backend) 的选择
  • 例如,博客相对一致地发现,规模相当(32B 和 30B)的 Dense 模型和 MoE 模型表现出不同程度的 Mismatch ,并且基础模型的 rollout-training Mismatch 比它们的后训练对应物要小
  • 博客正在持续努力,以更深入地理解并更好地利用 rollout-training 不匹配,用于实际的大语言模型后训练。敬请期待!

Discussion

  • 博客特别讨论了博客的修复方法(截断重要性采样,TIS)对 MoE 架构强化学习的潜在影响
  • 博客还强调了 TIS 与最近旨在改进策略更新中重要性采样权重比的工作(例如 GSPO, GMPO)的联系

The gap can be amplified in MoE RL(Gap 在 MoE 强化学习中可能被放大)

  • 虽然博客当前的实验和分析主要集中在 Dense 模型上,但博客相信这种分布差距也存在于 MoE 强化学习中,并且可能更加严重
  • 主要有两个原因:
    • 动态路由:
      • 与 Dense 模型不同,MoE 利用路由器动态激活特定专家
      • 这种路由机制本质上是精度敏感的;即使轻微的数值差异也可能导致显著不同的专家激活
    • 专门优化的内核:
      • MoE 模型通常规模很大,现代推理引擎(例如 vLLM)对 MoE 模型有相比于 Dense 模型独特的优化,这使得后端的数值不一致性更大
  • 总之,这些特性可以显著放大分布不匹配,使得像 TIS 这样的解决方案在 MoE 强化学习中特别有价值

TIS is orthogonal and compatible with existing GxPOs(TIS 与现有的 GxPOs 正交且兼容)

  • 最近的工作通过革新重要性采样权重比的计算来提高策略更新的稳定性
  • 例如,GSPO 在 Sequence-level 别而不是 Token-level 别计算权重比,而 GMPO 计算几何平均值而不是算术平均值
  • 与这些工作正交的是,博客的 TIS 修复解决了根源于系统级别的分布不匹配问题,这是由在 rollout 生成和模型训练中使用的不同计算内核带来的。这种问题广泛存在于采用混合计算设计的强化学习训练框架中
  • 因此,博客的修复可以应用,而不论所使用的具体强化学习算法如何

附录:为什么 TIS 截断是单向的?

  • 详情参见 Intuitions of TIS’s Working Mechanism 小节的讨论

NLP——Interplay-of-Pre-Mid-Post-Training-on-LRM

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, 20251208,
      • 预训练、 中期训练与强化学习在推理模型中的相互作用

Paper Summary

  • 整体介绍:
    • 论文提出了关于 Pre-training,Mid-training 和 Post-training 如何共同决定语言模型推理能力的受控研究
    • 论文仔细分离每个阶段的贡献,尝试阐明 RL 增强或未能增强推理泛化的因果机制
      • 论文的方法采用具有明确原子操作(atomic operations)、可解析的逐步推理轨迹以及对训练分布进行系统性操控的合成推理任务
    • 利用完全可控的合成推理任务和过程级评估,论文证明了:
      • 通过 Post-training 实现的真正的推理改进,只有在 Pre-training 阶段建立起关键的推理原始技能时才会出现
    • 评价:很实在的文章,对理解 LLM 的 各个训练阶段有较强的参考意义
  • 背景 & 问题提出:
    • RL 显著提升了语言模型的推理能力,但尚不清楚 Post-training 是否真正扩展了模型在 Pre-training 之外获得的推理能力
    • 一个核心挑战在于现代训练流程缺乏控制:
      • 大规模 Pre-training 语料库不透明, Mid-training 往往被忽视,而 RL 目标与未知的先验知识以复杂的方式相互作用
  • 本文的工作:
    • 为了澄清这一问题,论文建立了一个完全受控的实验框架,以分离 Pre-training 、 Mid-training 和 RL-based 的 Post Training 的因果贡献
  • 论文沿两个轴评估模型:
    • 向更复杂组合的外推泛化 (extrapolative generalization)
    • 跨越不同表面上下文的上下文泛化 (contextual generalization)
  • 利用此框架,论文调和了关于 RL 有效性的对立观点,研究表明:
    • 1)RL 仅在 Pre-training 留有足够提升空间且 RL 数据针对模型的能力边缘 (edge of competence)
      • 那些困难但尚未超出解决范围的任务边界时,才能产生真正的(genuine)能力提升 (pass@128)
    • 2)上下文泛化需要最小但充分的 Pre-training Exposure ,之后 RL 可以可靠地实现迁移
    • 3)在固定计算量下, Mid-training 显著提升了性能,证明了其在训练流程中核心但未被充分探索的作用
    • 4)过程级奖励减少了 Reward Hacking 并提高了推理的保真度
  • 图 1:大语言模型推理中 Pre-training 、 Mid-training 与 Post-training 阶段的相互作用
    • 左图:RL 仅在任务难度略超出 Pre-training 数据范围时,才能带来真正的外推性能提升;当任务已被 Pre-training 数据覆盖,或完全超出 Pre-training 数据分布(分布外程度过高)时,性能提升会消失(在参数校准良好的情况下,pass@128 最高可提升 42%)
      • 理解:从图中可以看出,在适当 OOD(OOD-mid)的任务上才出现了很好的性能提升,完全分布内(within Pre-training range)或者过于 OOD(OOD-hard)的任务上均不会带来提升
    • 中图:实现上下文泛化,需要模型在 Pre-training 阶段对长尾上下文具备最低限度但足够的接触量
      • 若 Pre-training 对长尾上下文的接触量接近零, RL 无法发挥作用;
      • 但只要存在稀疏接触(接触量 \(\ge 1%\)), RL 就能实现稳健的泛化,pass@128 最高可提升 60%
      • 理解:从图中可以看出,接触 10% 和接触 1% 的效果差距远远不如想象的大
    • 右图:在 Pre-training 与 RL 之间加入一个 “Mid-training” 阶段,能在计算资源固定的情况下显著提升 OOD 推理性能
      • 在困难分布外任务上,“Mid-training + RL” 的组合比单独使用 RL 的性能高出 10.8%

Introduction and Discussion

  • 最近的 RL 进展显著提升了语言模型的推理能力 (2025, 2025)
  • 但一个基本概念问题仍未解决:Post-training 是否真正扩展了模型在 Pre-training 之外获得的推理能力?
    • 文献中存在相互矛盾的观点:
      • 一些工作将 RL 描述为 capability refiner (2025, 2025, 2025, 2025)
      • 另一些则提供了超越 Pre-training 的实质性推理增益的证据 (2025, 2025, 2025)
  • 这种差异的主要来源在于先前的分析依赖于不受控的 (uncontrolled) 训练环境
    • 现代语言模型在大规模、不透明的互联网语料库上进行 Pre-training ,其构成本质上是未知的
    • As a result,论文无法确定 Base Model 已经内化了哪些推理原语 (reasoning primitives)
    • 这种控制的缺乏使得分离 Post Training 的因果效应以及理解 Pre-training 和 Post Training 如何共同塑造推理行为变得具有挑战性
  • Meanwhile,一个额外的阶段 Mid-training 最近已成为现代语言模型训练流程的关键组成部分 (2025, 2025)
    • 在一些文献中,Mid-training 阶段也被称为继续 Pre-training (Continued Pre-Training, CPT)
    • Mid-training 在广泛的 Pre-training 语料库和专门的 Post Training 目标之间充当了中间分布桥梁,扩展了模型的原子操作覆盖范围,并将其内部表征 (internal representations) 与 RL 阶段强调的任务对齐
    • As a result, Mid-training 在辩论中变得越来越核心:它可能解释了为什么 RL 有时能产生显著的泛化改进,而在其他设置中却失败 (2025)
    • 这激发了论文工作的核心问题:Pre-training 、 Mid-training 和 RL 在塑造语言模型的推理能力方面是如何相互作用的?
  • 本工作的目标是以受控的方式令人信服地回答这个问题,遵循该领域的先前工作 (2025, 2025, 2025)
    • Specifically,论文通过受控实验来厘清 Pre-training 、 Mid-training 和 RL-based 的 Post Training 如何单独及共同影响推理泛化
  • 为此,论文建立了一个完全受控的框架,以分离每个训练阶段的贡献。论文的设计基于三个原则:
    • (i) 完全可控的合成推理任务 (fully controllable synthetic reasoning tasks) ,具有明确的原子操作和由有向无环图定义的(DAG-defined)依赖结构;
    • (ii) 可观测、可解析的推理过程 (observable, parseable reasoning processes) ,支持过程级评估并减少奖励或评估欺骗 (reward/evaluation hacking);
    • (iii) 对 Pre-training / Mid-training / Post Training 分布的系统性操控 (systematic manipulation) ,以将因果效应归因于每个阶段
  • 论文沿两个关键维度评估推理:
    • 1)外推 (深度) 泛化 (Extrapolative (Depth) generalization) 评估模型是否能通过以更深的结构组合已学习的原语,解决比 Pre-training 中遇到的更复杂的问题
    • 2)上下文 (广度) 泛化 (Contextual (Breadth) generalization) 评估模型是否能在具有相同底层逻辑但 surface forms 不同的新颖上下文中迁移 (transfer) 其推理技能
    • 这两个轴共同捕捉了与现实世界语言模型相关的广泛的组合和迁移推理能力
  • 利用论文的受控框架,论文揭示了关于三个训练阶段如何相互作用的若干 insights:
    • Firstly ,关于 RL 是否真正改善 Base Model 推理能力的两种对立观点并不真正冲突
      • RL 仅在两个条件成立时才能产生真正的能力增益:
        • (i) 该任务在 Pre-training 期间未被大量覆盖,为 RL 探索留下了足够的提升空间
        • (ii) RL 数据被校准到模型的能力边缘 (edge of competence) ,既不太简单(in-domain)也不太困难(out-of-domain, OOD)
      • 当任一条件被违反时,RL 倾向于锐化(sharpen)现有能力而非真正改进
    • Secondly ,RL 激励上下文泛化仅当相关的原子操作或基础技能已存在于 Base Model 中
      • 如果对新的上下文没有最少的 Pre-training Exposure ,RL 无法产生迁移(induce transfer)
      • 但即使非常稀疏的覆盖率(例如,\(\ge 1%\))也能提供一个足够的“种子”,RL 随后可以稳固地强化它,产生强大的跨上下文泛化
    • Thirdly ,引入一个连接 Pre-training 和 Post Training 分布的 Mid-training 阶段,能在固定计算预算下显著增强分布内和分布外的性能,凸显了 Mid-training 作为训练设计中一个未被充分探索但强大的杠杆作用
    • Fourthly ,过程奖励 (process rewards) 减轻了 Reward Hacking 并提高了推理保真度
      • 将过程验证 (process verification) 纳入奖励函数,使强化信号与有效的推理行为对齐,从而在复杂的组合设置下带来准确性和泛化性的可衡量改进

Preliminaries

  • 本节介绍以下三个部分:
    • (a) 基于依赖图 (dependency graphs) 和上下文渲染 (contextual rendering) 的合成数据生成框架 (data generation framework) ,该框架指定了推理过程
    • (b) 用于外推和上下文泛化的任务设置 (task setup)
    • (c) 过程验证评估 (process-verified evaluation) 框架,该框架评估推理过程和最终答案的准确性
    • 这些组件共同使论文能够分离 Pre-training 、 Mid-training 和 Post Training 对推理泛化的不同影响

Controllable Synthetic Reasoning Dataset

  • 论文基于 GSM-Infinite (2025) 数据生成框架创建了一个测试平台,能够精确控制推理结构、复杂性和上下文
    • 图2:数据生成框架、任务设置和过程验证评估概览
      • 图2 描述了依赖图 \(\mathcal{G}\) 和上下文模板 \(\tau\),用于外推和上下文泛化的任务设置,以及检查推理步骤正确性的过程验证评估框架
  • Specifically,数据生成流水线(图2(a))涉及三个关键组件:
    • 依赖图 (Dependency Graphs).
      • 每个推理问题由一个有向无环图 (DAG) \(\mathcal{G}=(\mathcal{V},\mathcal{E})\) 表示,其中节点 \(v\in\mathcal{V}\) 对应变量,有向边 \(e\in\mathcal{E}\) 表示它们之间的依赖关系
        • 理解:每条边对应一次算数运算
      • 该图最终汇聚到一个指定的答案节点 \(v^{*}\),该节点产生最终答案 \(a^{*}\)
    • 推理复杂性控制 (Reasoning Complexity Control).
      • 论文通过算术运算的数量来量化图的复杂度:
        $$
        \text{op}(\mathcal{G})=|\mathcal{E}|,
        $$
      • 这控制了从基础算术到复杂多步推理的任务难度
    • 上下文渲染 (Contextual Rendering).
      • 给定一个预定义的上下文模板 \(\tau\)(例如,animals-zoo、teachers-school)及自然语言描述,论文将依赖图 \(\mathcal{G}\) 渲染成一个完整的数学问题
      • Finally,论文通过抽样不同的图 \(\mathcal{G}\) 和模板 \(\tau\),并将它们渲染为文本来生成多样化的数学问题
  • 论文采用此框架的动机在于三个主要优点:
    • 1)对训练阶段无污染的控制 (Contamination-free control over training phases)
      • 论文为 Pre-training 、 Mid-training 和 Post Training 指定了独立的数据分布以避免重叠
    • 2)对结构和上下文进行因子化控制 (Factorized control over structure and context)
      • 每个问题都从一个 DAG 生成,该图编码了推理结构和依赖关系,并在其上实例化了数值和上下文
    • 3)过程级验证 (Process-level verification)
      • 真实的 DAG 可作为验证中间步骤和防止错误推理的参考
      • 作者在附录 A.1 中提供了详细的公式和解释

Task Setup

  • 在现实世界部署中,语言模型通常需要沿两个互补的轴(complementary axes)进行推理泛化:
    • 外推 (深度) 泛化 (extrapolative (depth-wise) generalization)
    • 上下文 (广度) 泛化 (contextual (breadth-wise) generalization) (2025, 2025, 2025)
    • 论文的受控实验揭示了这两个维度(图2(b)),从而能够精确检验 Pre-training 、 Mid-training 和Post Training 如何影响每种类型的泛化
  • 外推 (深度) 泛化 (Extrapolative (Depth) Generalization).
    • 该维度评估模型在推理深度 \(\text{op}(\mathcal{G})\) 增加时保持正确性的能力 (2025)
    • 如果模型能够解决其操作链长度超出 Mid-training 遇到的问题,则表现出强大的外推泛化能力
  • 上下文 (广度) 泛化 (Contextual (Breadth) Generalization).
    • 该维度衡量模型是否能够将其推理原语(Reasoning primitives)迁移到 surface forms不同但具有相似底层推理结构(similar underlying reasoning structure)的新领域
    • 当模型的性能在模板或 surface forms 发生变化,底层计算图保持不变时 ,保持稳定,则认为该模型在上下文上实现了泛化
      • 理解:底层计算图不变则认为其底层推理结构没有变化,此时能够泛化则说明训练跳脱了具体的模版或 surface forms
  • 形式化符号、数据集构建以及泛化轴的完整定义见附录 A.2

Evaluation Protocol

  • 论文按照过程验证评估 (process-verified evaluation) 方案(图2(c))报告所有结果
  • 对于每个具有真实依赖图 \((\mathcal{G},a^{*})\) 的实例,模型生成一个自由形式的解决方案,作者将其解析为预测的依赖图 \(\hat{\mathcal{G} }\) 和最终答案 \(\hat{a}\)
  • 在每个真实节点 \(v\in\mathcal{V}\) 的 Step-level 进行过程评估
    • 通过比较预测节点与真实节点、它们的依赖关系以及数值 check 准确性
  • 过程准确率 (process accuracy) 定义为所有真实节点的平均 Step-level 准确率
    • 只有当推理步骤和最终答案都匹配时,预测才被视为完全正确
    • 所有 \(pass@k\) 指标(例如,\(pass@1\),\(pass@128\))均相对于此严格标准报告
    • 详细的实现和解析方法见附录 A.4

Training Setup

  • 论文使用 GSM-Infinite 框架生成的大规模合成推理数据集,训练了具有 100M 参数的 Decoder-only Qwen2.5-style (2025) 模型
  • 整个语料库包含 30B 个 token,涵盖了多个操作范围和上下文模板,并被划分为互不相交的 Pre-training 、 Mid-training 和 Post Training 子集,以避免分布污染
Pre-training
  • Pre-training 让模型接触多样化语料库以获取通用知识
  • 在论文的受控推理任务中,它侧重于使模型掌握论文合成数据集中算术运算的基础推理技能和规则
    • 重点是掌握基本推理原语,而非广泛的知识
  • Following Chinchilla Scaling (2022) and trends in data-rich regimes (2025),论文在 10B 个 token(参数的 100 倍)上 Pre-training 论文的 100M 参数模型
  • 数据集由跨模板的 op=2-10 操作组成,使模型能够掌握推理,同时为复杂任务保留提升空间
  • 模型在分布内任务上达到了接近饱和的 pass@128 准确率,确保在更深任务上的改进反映了真正的泛化
    • 理解:这里为什么要确保在 In-domain 任务上达到接近饱和才能在更深的任务上反应真正的泛化?
Mid-training
  • Mid-training 是 Pre-training 和 Post Training 之间的中间阶段,因其在改进下游微调和 RL 性能方面的作用而受到关注 (2025, 2025, 2025)
  • Mid-training 通常涉及使用更高质量或指令格式的数据,采用 Next-token prediction 或 SFT 目标
  • Mid-training 通过提供结构化的推理监督来稳定优化并促进 RL 扩展 ,弥合了广泛 Pre-training 语料库和面向奖励的 RL 数据之间的差距
  • 论文实现了精简版的 Mid-training ,保持与 Pre-training 相同的目标,但收窄数据分布使其与 RL 类似,此时模型展现出新兴(emerging)但不完整的能力(incomplete competence)
  • 通过将监督集中在此边界,目标加强 RL 可以放大的更高级别推理先验
    • 注:Mid-training 仅在 Section 5 中应用
Post Training
  • Post Training 在 Pre-training 之后,使用特定任务的数据或目标来精炼模型在特定任务上的性能
  • 通常涉及两种策略:
    • 1)SFT :在带标签的数据集或特定任务指令上进行训练;
    • 2)RL :模型通过接收其动作的奖励来进行优化
  • 由于论文的 Pre-training 数据已经是结构化且特定于任务的,所以主要关注 RL 进行 Post Training
  • 精心策划的 subset 上使用 GRPO (2025) 进行训练,这些 subset 旨在探究在更深操作范围和新颖模板中的泛化能力

When Does Post-Training Incentivize Reasoning Beyond the Base Model?(何时 Post Training 能激励超越 Base Model 的推理?)

  • 为了厘清 Pre-training 和 Post Training 对推理能力的贡献,论文分离了 RL 的具体影响
  • 提问:RL 是否以及何时能扩展 Base Model 在 Pre-training 之外获得的推理能力?
    • 通过固定 Pre-training 阶段并改变 Post Training 数据的难度和覆盖范围,论文确定了 RL 驱动真正的组合泛化而非仅仅放大现有技能的具体机制

Task Setting

  • 论文专注于外推泛化(在附录 A.6 中检查 Post Training 对上下文迁移的影响),根据操作计数定义三类问题(论文在附录 A.3.4 中说明了这种性能阶梯):
    • 分布内 (In-Distribution, ID) 问题(Pre-training 范围内,op=2-10);
    • 分布外-边缘 (OOD-edge) 问题(刚刚超出此范围,op=11-14), Base Model 在此保留非零的 pass@128 准确率;
    • 分布外-困难 (OOD-hard) 问题(显著超出 Pre-training 分布,op=15-20), Base Model 在此表现出接近零的准确率
      • 解决 OOD-hard 问题需要以新颖的方式组合从 ID 数据中学到的原子操作,以适应增加的推理深度
  • 实验设置如下:
    • Pre-training:
      • Base Model 在由 ID 问题组成的 10B 个 token 上进行 Pre-training
    • Post Training:
      • 论文应用 GRPO,使用来自四个不同难度范围的共 200K 个样本:op=7-10(ID)、op=9-12(混合)、op=11-14(边缘)和 op=17-20(困难)
  • 关于 Training Dynamics 和 Data Recipe 的更多信息,请参见 A.5 和 A.9

Summary 1

Observation 1
  • 如图 3 所示, Post Training 的效果对 Pre-training 和 Post Training 数据机制高度敏感:
    • (i) 对于 ID 任务(op=2-10),无论 RL 数据机制如何,在 pass@1 上有明显的性能提升,但在 pass@128 上没有改进,这表明 RL 只是锐化了现有能力而没有扩展它们
    • (ii) 然而,对于 OOD 任务(op=11-14 和 op=15-20),当应用于能力边缘 (edge of competence) 数据(op=11-14)时,RL 总是能提高 pass@128 性能,证明了超越 Pre-training 的真正的能力增益
  • 理解:图 3 展示了,如果使用太 OOD 的数据(op=17-20)来进行 RL 时,模型其实无法提升其在 OOD-hard(op=15-20)任务上的表现
Takeaway 1
  • RL 仅在两个条件成立时,才能在 Base Model 之外产生真正的能力增益 (pass@128):
    • (i) 该任务在 Pre-training 期间未被大量覆盖,为探索留有足够的提升空间;
    • (ii) RL 数据被校准到模型的能力边缘 (edge of competence) ,既不太简单(分布内)也不太困难(分布外)
Discussion 1
  • 与近期工作的关联 最近的研究关于 RL 是否能增强 Base Model 的推理能力报告了看似矛盾的结论
    • On the one hand,Zhao 等人 (2025),Yue 等人 (2025) 认为,当在数学和编码等 Pre-training 已充分覆盖的标准任务上评估时,RL* 并未* 改善 pass@128 准确率
    • On the other hand,在 Pre-training 覆盖率极低的合成任务上的研究 (2025, 2025, 2025) 报告了实质性的 Post Training 增益
  • 论文的受控设置通过表明这些结论源于Post Training 难度谱的不同区域而调和了这些发现
    • 对于 Base Model 已经解决的分布内任务,随着 pass@k 的增加性能趋于饱和,RL 没有优势
    • In contrast,当 RL 针对 Base Model 失败的真正分布外任务时,论文观察到清晰的外推改进(前提是 RL 数据位于模型的“能力边缘”附近)
Practical Guidance 1
  • 围绕模型的能力边缘 (edge of competence)设计 RL 数据
    • 作者建议过滤 RL 数据集以针对那些模型在 pass@1 上失败但在 pass@k 上成功的任务
    • 此策略避免了在高 pass@1 任务上的冗余,同时防止了在 pass@k 为 0 任务上的奖励稀疏
  • 这个过程也可以是迭代的:我们可以定期重新评估“能力边缘”任务池;
    • 随着模型变得更强,先前分布外的任务将漂移到可解区间,从而创建一个自然的、自定进度的课程

How Does Pre-training Exposure Shape Post-Training Generalization?(问题:Pre-training Exposure 如何塑造 Post Training 泛化?)

  • 在确定了 Post Training 激励泛化的条件之后,论文转向一个基础性问题:Pre-training Exposure 如何塑造 Post Training 泛化?
  • 作者假设,Pre-training Exposure 基础推理原语对于有效的 Post Training 泛化至关重要
  • 为了探讨这个问题,在固定的 RL Data Recipe 和设置下,论文改变 Pre-training 数据的分布,并检查其对 Post Training 泛化的影响

Task Setting

  • 论文专注于上下文泛化,即向长尾 (long-tailed) 的 Context B 泛化
    • 在 Pre-training 期间,作者操控模型接触包含原子推理原语(op=2 的示例)的长尾 Context B 的比例(关于简单上下文泛化和外推的实验分别在附录 A.6.1 和 A.7 中提供)
  • 论文的实验设置结构如下:
    • Pre-training : Base Model 在 10B 个 token 上进行 Pre-training
      • 这些 token 由 op=2-20 的 Context A 和 op=2 的长尾Context B 示例组成
        • 理解:这里的 Context A 和 Context B 分别表示不同领域的任务
      • 其中论文变化原子 op=2 示例相对于长尾 Context B 接触的比例
    • Post Training: 应用 RL 于 200K 个样本,这些样本由 50% Context A 和 50% Context B 组成,覆盖 op=2-20 的范围
  • 关于 Training Dynamics 和 Data Recipe 的更多细节,请参见附录 A.8 和 A.9

Summary 2

Observation 2
  • 如图 4 所示, Pre-training Exposure 长尾上下文对 Post Training 泛化的影响是巨大的:
    • (i) 当 Pre-training 排除 Context B 或提供零(0%)或极少接触(0.1%)时,RL 无法迁移到 Context B
    • (ii) 在 Pre-training 中引入即使是 1% 的 Context B 数据,也能显著增强 Post Training 泛化,甚至对于 op=20 的最困难任务也是如此
    • 这一观察强调,虽然 RL 在泛化中扮演着关键角色,但其有效性高度依赖于 Pre-training 数据的覆盖范围,特别是长尾上下文的包含
Takeaway 2
  • 仅当 Base Model 已包含必要的原子操作时,RL 激励上下文泛化(RL incentivizes contextual generalization only when the base model already contains the necessary primitives)
    • 如果没有对新上下文的最少 Pre-training Exposure ,RL 无法产生迁移
    • However,即使是稀疏的接触(例如,\(\ge 1%\))也提供了一个足够的“种子”,RL 可以在 Post Training 期间强化它,从而产生鲁棒的跨上下文泛化
Discussion 2
  • 复制还是创造(Replication or Creation)?
    • 论文在图 5 中检查了生成的正确 Context B 图与来自 Context A 的真实拓扑之间的拓扑相似性分布
    • 高相似性表明模型主要复制了现有的 Context A 推理模式,而低相似性则表明出现了与 Context A 不同的新颖推理结构
  • 论文观察到任务难度与 Pre-training Exposure 之间的效应:
    • 1)对于较简单的组合(op=2-10),模型倾向于复制来自 Context A 的现有模式
    • 2)随着任务复杂度增加(op=11-20),模型生成更多新颖结构,特别是在 Pre-training 期间充分接触 Context B 时
Practical Guidance 2
  • 在 Pre-training 中植入长尾原子操作以释放 RL 潜力(Seed long-tail primitives in pre-training to unlock RL potential)
    • RL 无法从虚无中合成能力;它需要潜在的“种子”来放大
    • However,这些种子不需要很复杂
  • 论文的结果表明,只要原子推理原语 (atomic reasoning primitives) 存在于 Pre-training 中,RL 就能成功外推到困难任务
  • 实践者应优先考虑广泛覆盖基本领域知识、规则和技能(大约 1% 的密度) ,而不是追求复杂的数据样本
  • 一旦这些基本原语建立起来,RL 就有效地充当了组合器,将它们组合起来解决复杂的分布外问题

How Does Mid-Training Interact with Post-Training?(Mid-training 与 Post-training 交互?)

  • 尽管 RL 能有效提升外推泛化能力,但其成功往往依赖于 Pre-training 阶段建立的表征先验
  • 近期工作 (2025a; 2025) 提出了 Mid-training 作为 Pre-training 和 Post-training 之间的中间阶段,旨在弥合数据分布并在下游适应前加强推理先验
  • 这引出了一个关键问题:在固定的计算预算下, Mid-training 和 RL 如何交互,以及两者之间怎样的平衡能带来最大的泛化收益?
    • 本节研究 Mid-training 与 Post-training 之间的协同作用,试图界定它们的交互如何驱动推理泛化
  • 计算预算公式化(Compute Budget Formulation)
    • 为公平比较,论文根据浮点运算将两个阶段的训练归一化为等效的训练 Token 数
    • 对于 Mid-training ,消耗量 \(T_{\text{mid} }\) 是处理的有监督 Token 数量
    • 对于 RL ,其 Token 等效成本近似为:
      $$
      T_{\text{RL} } \approx \frac{5}{3} N \cdot r \cdot L_{\text{total} },
      $$
      • \(N\) 是 RL 样本数
      • \(r=6\) 是轨迹生成次数
      • \(L_{\text{total} } = 2048\) 是总 Token 长度
      • 更多细节:Detailed budget derivation are provided in Appendix A.10.1
  • 论文系统地改变 RL 分配比例 \(\beta \in [0,1]\),以在总预算 \(T\) 的两个阶段之间进行分配:
    $$
    T_{\text{mid} } = (1 - \beta) \cdot T, \quad T_{\text{RL} } = \beta \cdot T.
    $$

Task Setting

  • 在本节中,论文使用在 10B 个 op=2-10 数据上 Pre-training 的相同 Base Model ,探索五种训练配置的性能:
    • 在 op=11-14 范围内的1B有监督 Token 上进行 完全 Mid-training
    • 在同一 op=11-14 范围内以批大小1024进行100步的完全 RL
    • 三种混合策略
      • Light RL(\(\beta=0.2\))
      • Medium-RL(\(\beta=0.5\))
      • 重度 RL(\(\beta=0.8\))
    • 这些策略在等效计算预算下平衡 Mid-training 和 RL
  • 第5节中的计算预算公式允许直接比较数据混合策略

Summary 3

Observation 3
  • 如图6所示,计算分配在整个泛化谱上引起了质的不同行为
    • (1) 在OOD-edge任务上,配置为完全 Mid-training 和 Light RL 的性能优于重度或完全 RL ,其中 Light RL 获得了最佳的 pass@1 性能
    • (2) 对于OOD-hard任务,将更多预算重新分配给重度 RL,可以显著提高在最难实例上的 pass@1 和 pass@128 性能
    • 图6:在外推任务上,不同中期和 Post-training 混合比例下的 pass@1 和 pass@128 性能
      • 用于中期和 Post-training 的数据应用于 OOD-edge 范围
      • 不同的线表示计算分配策略
      • 重度 RL 总是改进未见过的OOD-hard任务,而 Light RL 在OOD-edge任务上获得最佳的 pass@1 性能
  • 这些趋势表明,驱动探索的 RL 对于泛化到更难的任务是不可或缺的,但大量的 Mid-training 分配对于灌输 RL 可以有效利用的先验仍然至关重要
  • 论文进一步分析了不同计算预算的影响(附录A.10)
Takeaway 3
  • 引入一个连接 Pre-training 和 Post-training 分布的 Mid-training 阶段,在固定计算预算下能显著增强泛化能力
  • 这突显了 Mid-training 作为训练设计中未被充分探索但强大的杠杆
  • 计算分配应以任务感知的方式进行:
    • (i) 当优先考虑分布内性能时,将更多预算分配给 Mid-training ,仅辅以 Light RL
    • (ii) 为了获得分布外泛化能力,预留适中的计算部分用于 Mid-training 以建立必要先验,并将剩余预算投入到更重的 RL 探索中
Discussion 3
  • The Role of Mid-Training
  • 近期工作 (2025; 2025) 指出,像 Qwen (2025) 这样的模型对 RL 的响应远比对 LLaMA (2023) 等架构更有效
  • 一个趋同的解释是存在一个 Mid-training 阶段,该阶段的监督与 Post-training 分布更紧密地对齐
  • 面向推理的 Mid-training 已被证明能大幅提高模型的 RL 准备度
  • Wang等人 (2025) 发现,在结构化推理数据上进行 Mid-training 的 LLaMA 模型,其 RL 性能可与更强的 Qwen Base Model 相媲美,这表明 Mid-training 在很大程度上决定了下游 RL 的响应能力
  • Complementarily,Liu等人 (2025a) 表明, Mid-training 充当了分布桥梁,通过缩小 Pre-training 任务和 RL 任务之间的差距来减少遗忘并缓解适应
    • 这一视角进一步与Akter等人 (2025) 的预加载原则一致:更早地注入结构化推理监督提供了支架,后续训练阶段(包括 RL)可以有效地放大这个支架
  • Together,这些工作指向一个统一的结论:
    • Mid-training 是一个 strategically important component,它能使模型为稳定且样本高效的 RL 做好准备,从而实现超越仅仅是锐化现有能力的改进

      mid-training is a strategically important component that conditions models for stable and sample-efficient RL, enabling improvements that go beyond merely sharpening existing abilities.

Practical Guidance 3
  • 围绕互补优势平衡 Mid-training 和 Post-training (Balance mid-training and post-training around complementary strengths)
  • 通过将 Mid-training 视为安装先验(installing priors)的阶段、将 RL 视为扩展探索(scaling exploration)的阶段来设计训练流程
  • 对于 Mid-training ,策划位于模型“能力边缘(edge of competence)”的数据集,这能稳定 RL 所需的原始技能
  • 从业者应根据部署目标调整计算预算:
    • (1) 为了在类似任务(OOD-edge)上获得可靠性(reliability) ,将大部分计算分配给 Mid-training ,并使用 Light RL
    • (2) 为了在复杂任务(OOD-hard)上进行探索(exploration) ,为 Mid-training 分配适中的预算(仅足以建立先验),并将大量计算投入到 RL 探索中

Mitigating Reward Hacking via Process Supervision in Outcome Rewards(结果奖励中的过程监督减轻 Reward Hacking)

  • 使用基于结果的奖励进行 Post-training 已被证明能有效提高推理性能,但它仍然容易受到 Reward Hacking(a failure mode where 模型通过利用虚假捷径或通过无效推理链产生正确答案来实现高最终准确率)
  • Earlier,作者引入了过程验证(process verification)作为评估标准,只有当中间步骤和最终结果都正确时才奖励模型
  • 论文将这一原则扩展到奖励设计本身,并回答:过程感知的监督能否在保持泛化性能的同时减轻 Reward Hacking ?

Task Setting**

  • 为了鼓励模型不仅生成正确的最终答案,还要生成有效的中间推理步骤,论文使用过程级验证来增强结果奖励
  • 论文定义一个复合奖励函数:
    $$
    R = \alpha R_{\text{out} } + (1 - \alpha) R_{\text{pv} }.
    $$
    • \(R_{\text{out} }\) 表示传统的结果奖励(最终答案正确为1,否则为0),\(R_{\text{out} }\) 可能是稀疏的且容易受到结果 Reward Hacking
    • \(R_{\text{pv} }\) 表示由A.2节中定义的过程级准确率标准确定的过程验证奖励,\(R_{\text{pv} }\) 是一个反映每个推理步骤正确性的密集奖励
    • \(\alpha \in [0,1]\) 控制结果准确性和过程保真度之间的平衡
  • 论文还考虑一个更严格的公式:
    $$
    R =
    \begin{cases}
    R_{\text{out} }, & \text{If } R_{\text{pv} } = 1, \\
    0, & \text{Otherwise}.
    \end{cases}
    $$
    • 该公式仅在完整推理过程被验证为正确时才给予结果奖励
    • 此设置提供了过程级监督以减少 Reward Hacking
    • 在此奖励设置下,论文使用不同的奖励组合在 op=11-14 上进行 Post-training ,以评估不同程度的过程监督如何影响推理泛化

Summary 4

Observation 4
  • 如图7所示,整合过程验证显著提高了跨外推(op=15-20)设置的 pass@1 性能,提升了4-5%
    • 适度的奖励混合(\(0.2 R_{\text{out} } + 0.8 R_{\text{pv} }\))在结果准确性和推理一致性之间实现了最佳平衡
    • 严格的奖励(仅当 \(R_{\text{pv} }=1\) 时给予 \(R_{\text{out} }\))则进一步带来了显著的改进
  • 这些结果证实,过程级监督能有效减轻 Reward Hacking ,并鼓励忠实的推理行为
  • 图7:不同奖励组合下的 pass@k 性能
    • 每个条形对应一种不同的奖励混合策略
    • 将过程级信息整合到结果奖励中,在各个评估 Setting 中都带来了可衡量的性能提升

Related Work

推理大语言模型的 RL 泛化(RL Generalization of Reasoning LMs

  • RL 在 Deriving 大语言模型泛化中的作用一直是广泛讨论的主题
  • 近期工作对于 RL 是否能将推理能力扩展到 Base Model 能力之外提出了不同的看法,文献中出现了相互对立的观点
  • On the one hand,多项研究警告不要高估 RL 推动 Base Model 边界的能力
    • Yue 等人 (2025) 认为,虽然经过 RL 训练的模型在较小的 pass@k 值(例如 k=1)上可能优于 Base Model ,但随着 k 增加(例如 k=128),性能优势会减弱
      • 他们的覆盖率和困惑度分析表明,经过 RL 训练的模型的推理能力最终仍受限于 Base Model 的表征能力
    • Additionally,Wu等人 (2025) 提供了一个理论框架,断言 RL 无法超越 Base Model 固有的局限性,从而挑战了 RL 能够实现新的、可泛化的推理技能的观点
  • On the other hand,也有强有力的论据支持 RL 能够实现泛化,尤其是在 Base Model 表现不佳的任务上
    • Liu 等人 (2025b) 强调了 ProRL 在提高合成推理任务性能方面的成功,在这些任务中 Base Model 表现出显著的局限性
    • Sun 等人 (2025a, 2025b) 进一步支持了这一观点,提供了明确的证据表明 RL 有潜力为复杂的任务族引入新的策略
    • Yuan 等人 (2025) 提出了一个合成函数组合任务,证明经过 RL 训练的模型可以泛化到 Base Model 无法处理的未见过的函数组合
  • 论文通过提供实证证据表明这两种观点并不相互排斥,从而为这场持续的辩论做出了贡献
    • Instead,论文表明, RL 能够驱动泛化的条件是微妙且复杂的,它取决于 Base Model 的推理原始技能以及 RL 微调中使用的 Post-training 数据的性质

Understanding LMs via Controlled Experiments

  • 几项先前工作 (2025; 2025b; 2025a) 强调了受控实验在理解大语言模型能力方面的重要性
  • However,这类工作主要侧重于为后期 RL 设计的合成任务,这可能无法完全捕捉从 Pre-training 到 Post-training 的全谱推理任务的复杂性
  • 特别是在推理任务的背景下,受控设置允许研究人员分离特定因素,例如数据污染、随机猜测答案,以及控制不同训练阶段的推理原始技能
  • 论文基于Ye等人 (2024) 的工作设计受控实验,以合成 GSM-style 推理任务 (2021; 2024; 2025; 2025b),从而在这一工作基础上进行了扩展

附录 A.1 Data Generation Framework

  • 本节提供了整篇论文所使用的可控数据生成框架的正式细节:
    • (i) 每个推理实例背后的图级形式化定义
    • (ii) 将结构与数值和语言实例分离的抽象机制
    • (iii) 将图映射到自然语言问题的上下文渲染函数
    • (iv) 具体的生成流程和去重过程

附录 A.1.1 图级形式化定义(Graph-Level Formalism)

  • 每个推理实例都基于一个有向无环图(directed acyclic graph, DAG)建立:
    $$
    \mathcal{G}=(\mathcal{V},\mathcal{E}),
    $$
    • 其中每个节点 \(v_{i} \in \mathcal{V}\) 代表一个潜在量(例如,“成年狮子的数量”),每条有向边 \((v_{j} \to v_{i}) \in \mathcal{E}\) 编码一个函数依赖关系
    • 论文将依赖关系限制为基本算术运算:
      $$
      v_{i}=f_{i}\big((v_{j})_{j\in\text{pa}(i)}\big), \qquad f_{i} \in \{+,-,\times,\div\},
      $$
      • 其中 \(\text{pa}(i)\) 是节点 \(i\) 的父节点集合
  • 给定所有叶节点的数值赋值,论文递归地定义一个评估映射:
    $$
    \text{val}:\mathcal{V}\rightarrow\mathbb{R}
    $$
    • 其定义为:
      $$
      \text{val}(v_{i})=f_{i}\big(\{\text{val}(v_{j})\}_{j\in\text{pa}(i)}\big),
      $$
  • 基本情况由叶节点值给出,对于一个指定的查询节点 \(v^{*}\),真实答案为:
    $$
    a^{*}:=\text{val}(v^{*}).
    $$
  • 在论文所基于的 GSM-Infinite 实现 (2025a) 中,查询节点 \(v^{*}\) 对应:
    • 前向(forward) 生成器中拓扑顺序的最后一个数值节点,或
    • 方程风格逆向(equation-style reverse) 生成器中特定的未知参数
  • 贯穿全文(Throughout),DAG \(\mathcal{G}\) 被视为符号推理图,其结构在不同的数值实例化和语言实现之间共享
  • 推理复杂度(Reasoning Complexity). :论文通过算术运算的数量来量化实例的结构复杂度:
    $$
    \text{op}(\mathcal{G})=|\mathcal{E}|.
    $$
    • 这个量规定了计算 \(a^{*}\) 所需的最小组合推理链长度下限,也是论文研究外推(深度方向)泛化时变化的主要调控参数

附录 A.1.2 抽象参数与实例参数(Abstract and Instance Parameters)

  • 遵循 GSM-Infinite 的抽象机制,论文明确地将结构、数值实例化和语言上下文分离开
  • 抽象参数(Abstract Parameters).
    • 每个图 \(\mathcal{G}\) 关联着一组 抽象参数 ,这些参数:
      • 指定存在哪些变量以及它们如何分解(例如,“动物总数”分解为“狮子”和“大象”),以及
      • 确定边集 \(\mathcal{E}\) 和附加在每个节点上的操作 \(f_{i}\)
    • 这些参数定义了一个纯符号图,独立于具体的数字或实体
  • 实例参数(Instance Parameters).
    • 给定一个抽象图,实例参数用具体的值和实体对其进行实例化:
      • 对叶节点的数值赋值(例如,“有 12 头成年狮子和 7 头小象”),以及
      • 将变量绑定到特定上下文的表层形式(例如,“城市动物园里的成年狮子”)
    • 在同一抽象图上实例化不同的数值,会产生一系列结构相同、仅在具体数字上有所区别的问题
  • 隐式推理(Implicit Reasoning).
    • 并非所有的抽象依赖关系都需要在自然语言问题中明确表述
    • 对于给定的语言渲染,边集可以划分为:
      $$
      \mathcal{E}=\mathcal{E}_{\text{explicit} } \cup \mathcal{E}_{\text{implicit} }, \qquad \mathcal{E}_{\text{explicit} } \cap \mathcal{E}_{\text{implicit} } = \emptyset,
      $$
    • 其中 \((v_{j} \to v_{i}) \in \mathcal{E}_{\text{explicit} }\) 表示文本中直接陈述的关系(例如,“大象比狮子多 5 头”),而 \((v_{j} \to v_{i}) \in \mathcal{E}_{\text{implicit} }\) 表示属于真实推理图但从未直接表述的关系(例如,“动物总数等于狮子数加大象数”)。这种分离允许显式和隐式推理步骤共存于同一个底层图中,并使论文能够探究模型恢复未明言依赖关系的能力

附录 A.1.3 上下文渲染(Contextual Rendering)

  • 为了将符号图映射到自然语言问题,论文引入了上下文渲染函数:
    $$
    \Phi:(\mathcal{G},\tau)\mapsto x,
    $$
    • 其中 \(\tau \in \mathcal{T}\) 是一个上下文模板 ,而 \(x\) 是生成的文本实例
  • Templates
    • 一个模板 \(\tau\)(例如,animals-zoo、teachers-school、movie-festival)规定了:
      • 抽象变量如何词汇化为领域特定的表层形式(例如,“成年狮子”、“A班的学生”、“第1天售出的票”),以及
      • 哪些边的子集在措辞中被显式实现,从而决定了 \(\mathcal{E}_{\text{explicit} }\) 和 \(\mathcal{E}_{\text{implicit} }\) 之间的划分
    • 对于任何两个仅在表面上下文上不同的模板 \(\tau_{a},\tau_{b} \in \mathcal{T}\),它们引发的问题在结构上保持相同:
      $$
      \text{Struct}(\Phi(\mathcal{G},\tau_{a}))=\text{Struct}(\Phi(\mathcal{G},\tau_{b})), \quad \forall,\tau_{a},\tau_{b} \in \mathcal{T},
      $$
      • 尽管它们的表层实现、实体以及显式/隐式划分可能不同
      • Thus,一个单一的抽象图可以被渲染成语义不同但结构等价的问题,论文利用这一点来研究上下文(广度方向)泛化
  • Solution Format
    • 渲染函数生成一个三元组:
      $$
      x=(\text{[question]},\text{[solution]},\text{[answer]}),
      $$
      • [question] 是由符号图 \(\mathcal{G}\) 提出的问题的自然语言表示,通常包括对图中某个方面的查询(例如,“第1天卖出了多少张票?”)
        • 它抽象了底层结构,并为解答提供了上下文
      • [solution] 是一个遵循符号图 \(\mathcal{G}\) 拓扑顺序的逐步推导过程
        • 它包括中间推理步骤和图中元素之间的逻辑联系,最终导向最终答案。该解答明确展示了问题的每个部分是如何推导或计算的
      • [answer] 是对 [question] 中提出的查询的最终回应,通过 [solution] 过程推导得出
        • 它通常是一个数值或特定实体,用于回答问题
  • 这种结构确保了渲染输出既是人类可读的,又在逻辑上与底层符号图保持一致,在保持原始问题完整性的同时使其可以用自然语言表达

附录 A.1.4 生成流程与结构调控参数(Generation Pipeline and Structural Knobs)

  • 论文的数据生成器遵循一个阶段式过程,类似于 GSM-Infinite 的前向和反向生成器:
  • 1)结构采样(Structural sampling).
    • 论文首先采样定义依赖图的结构调控参数:
      • 针对 \(\mathrm{op}(\mathcal{G})\) 的目标运算计数范围;
      • 控制扇入和深度的图形形状参数(例如,允许的入度、分层模式);以及
      • 附加到节点上的操作类型 \(f_{i} \in \{+,-,\times,\div\}\)
    • 这些选择决定了一个具有唯一查询节点 \(v^{*}\) 的分层 DAG \(\mathcal{G}\)
  • 2)抽象与实例参数化(Abstract and instance parameterization).
    • 给定 \(\mathcal{G}\),论文采样抽象参数(变量角色和分解)和实例参数(叶节点的数值),并使用上面定义的评估映射 val 按拓扑顺序评估所有节点值
  • 3)上下文渲染(Contextual rendering).
    • 论文选择一个模板 \(\tau \in \mathcal{T}\) 并应用渲染函数 \(\Phi(\mathcal{G},\tau)\) 以获得一个自然语言三元组(问题、问题描述、解答),决定哪些依赖关系被语言化(显式)以及哪些保持隐式
  • 4)前向模式与反向模式(Forward vs. reverse modes).
    • 遵循 (2025a),论文支持两种生成模式:
      • 在 forward 模式中,论文生成一个标准的算术文字问题,其中查询的是拓扑顺序中的最后一个节点
      • 在 reverse 模式中,论文将一个节点视为未知数,并构建一个方程风格的问题,模型必须求解该量,而图中的其余部分则完全指定
  • 通过联合改变下面的两个维度,论文获得了一个用于研究深度扩展和上下文迁移的清晰二维测试平台:
    • (i) 运算计数 \(\mathrm{op}(\mathcal{G})\)
    • (ii) 模板 \(\tau\)
    • 相同的框架用于定义 Pre-training 、 Mid-training 和 Post Training 的不同数据分布,通过从 \((\mathrm{op}(\mathcal{G}),\tau)\)-Space 的不同区域采样来实现

附录 A.1.5 去重与规范化(Deduplication and Canonicalization)

  • 为了保证数据集的纯净性并避免训练和评估拆分之间的污染,作者在渲染三元组级别执行基于哈希的精确去重
  • 每个实例通过以下方式规范化:
    • 将三元组(问题描述、问题、解答)序列化为规范化的字符串表示(例如,去除多余空白、规范化数字格式),以及
    • 对此规范形式进行哈希以获取全局标识符
  • 论文丢弃任何拆分内和跨拆分的重复哈希值,确保相同的“问题-解答”三元组不会同时出现在训练和评估中

附录 A.2 Task Setup

  • 在实际部署中,语言模型(Language Models,LM)通常需要沿着两个互补的维度进行推理泛化 (2025; 2025b; 2025)
  • 论文的可控数据集使这些维度变得明确,并允许论文探究 Pre-training 、 Mid-training 和 Post Training 如何塑造每种类型的泛化
  • 符号表示(Notation).
    • 令 \(f_{\theta}^{\text{pre} }\)、\(f_{\theta}^{\text{mid} }\) 和 \(f_{\theta}^{\text{post} }\) 分别表示经过 Pre-training 、经过额外 Mid-training 和经过 Post Training(RL)的语言模型
    • 论文使用下面评估协议中定义的严格度量,将模型在由图 \(\mathcal{G}\) 在模板 \(\tau\) 下生成的实例上的正确性记为 \(\text{Correct}(f,\mathcal{G},\tau)\)
  • 外推(深度)泛化(Extrapolative (Depth) Generalization).
    • 论文用每个训练阶段 \(\phi \in \{\text{pre},\text{mid},\text{post}\}\) 所见的运算计数范围对其进行参数化
    • 令 \(\mathcal{O}_{\phi}\) 为阶段 \(\phi\) 训练分布中存在的 \(\text{op}(\mathcal{G})\) 值集合,并令:
      $$
      \mathcal{O}_{\text{train} }=\mathcal{O}_{\text{pre} }\cup\mathcal{O}_{\text{mid} }\cup\mathcal{O}_{\text{post} }.
      $$
    • 一个分布内评估条件使用满足 \(\text{op}(\mathcal{G}) \in \mathcal{O}_{\text{train} }\) 的图,而一个外推(分布外,OOD)条件评估满足以下条件的图:
      $$
      \text{op}(\mathcal{G})>\max\mathcal{O}_{\text{train} }.
      $$
    • 如果一个模型在这些更长、未见过的运算上保持高过程验证准确率,同时在分布内任务上保持稳定,则表明其具有外推泛化能力
    • 通过填充 \(\mathcal{O}_{\text{pre} }\)、\(\mathcal{O}_{\text{mid} }\) 和 \(\mathcal{O}_{\text{post} }\) 的不同难度范围,我们可以分离每个阶段对深度方向泛化的贡献
  • 上下文(广度)泛化(Contextual (Breadth) Generalization).
    • 一个固定的推理图 \(\mathcal{G}\) 可以在不同模板下被渲染成结构等价的实例:
      $$
      \text{Struct}(\Phi(\mathcal{G},\tau_{a}))=\text{Struct}(\Phi(\mathcal{G},\tau_{b})) \quad \text{in principle},
      $$
    • 论文的数据集在训练过程中是_随机采样_的,并未刻意在不同模板间对齐图
      • As a result, 大多数图在训练期间仅在一部分上下文中被观察到
    • 令 \(\mathcal{T}_{\phi}^{\text{train} }\) 表示训练阶段 \(\phi\) 中暴露的模板,\(\mathcal{T}^{\text{eval} }\) 表示更广泛的评估池,包括长尾模板
      • 如果一个模型在阶段 \(\phi\) 能够在叙事表层形式发生变化时保持推理性能,即使新的上下文在 Mid-training 从未遇到过,则该模型展现了上下文泛化:
        $$
        \text{Acc}(f_{\theta}^{\phi},\mathcal{G},\tau_{a})\approx\text{Acc}(f_{\theta}^{\phi},\mathcal{G},\tau_{b}),\qquad\tau_{b}\notin\mathcal{T}_{\phi}^{\text{train} }.
        $$
    • 在这种设置下,上下文泛化衡量的是模型是否学到了可迁移的 推理原语 ,而不是记住了任务风格,使其能够在已知、未见和长尾的叙事环境中应用相同的结构性推理

附录 A.3 Training Setup

附录 A.3.1 Model Architecture

  • 论文使用具有 100M 参数、 Decoder-only Qwen2.5 架构 (2025) 模型进行实验
  • 详细的架构配置如表 1 所示

附录 A.3.2 Tokenizer and Input Representation

  • 论文遵循《语言模型的物理学》(Physics of Language Models)系列 (Allen-Zhu, 2024; 2024),直接在合成推理语料库上训练一个字节对编码(BPE)分词器
  • 得到的分词表有 2,200 个 Token(包括 Special Token)
    • 所有问题、提问和解答都以最大序列长度 2,048 个 Token 进行分词
  • 问题:模型过小了,只有 100M,而且给出的 Token 长度限制也才 2K,不太够数学推理

附录 A.3.3 Hyperparameters

  • Pre-training.
    • 所有实验都从一个在论文可控推理语料库上从头开始训练的 100M 参数 Qwen2.5 模型开始,使用 \(100\times\) 的 token-to-parameter ratio, Pre-training 10B Token
    • 论文使用上下文长度 2048 Token ,批次大小 512K Token ,学习率 \(2\times 10^{-4}\),权重衰减 \(0.1\),余弦衰减,最小学习率 \(3\times 10^{-5}\),预热比例 \(5%\),并在语料库上训练一个 epoch
    • 所有模型都以 bf16 精度训练
  • Mid-training.
    • 从 Pre-training 检查点开始,论文在第 5 节执行了一个额外的可选课程学习
    • 论文使用最大序列长度 2,048 进行训练
    • 论文使用全局批次大小 512K Token ,学习率 \(1\times 10^{-4}\),权重衰减 \(0.1\),余弦衰减,最小学习率 \(3\times 10^{-5}\),以及更高的预热比例 \(15%\)
  • Post Training (Post-training).
    • 最后,论文使用 GRPO (2025) 进行 RL 微调
    • 论文使用全局批次大小 1,024 个样本,最大提示和响应长度 1024 Token ,训练两个 epoch
    • Actor 使用学习率 \(1\times 10^{-6}\),PPO 小批次大小 256,每个 GPU 的微批次大小 16,KL 正则化系数 \(10^{-3}\)(低方差 KL 惩罚),无熵奖励
    • 在 RL 回合采样期间,论文使用温度 \(T_{\text{RL} }=1.0\),top-\(p=1.0\),且无 top-\(k\) 截断(全核采样)进行采样
    • 对于离线评估和报告,论文使用温度 \(T_{\text{eval} }=0.7\),top-\(p=1.0\),top-\(k=-1\)(无截断)生成,每个问题最多生成 1,024 个新 Token

附录 A.3.4 性能阶梯(Performance Ladder)

  • 性能阶梯根据任务难度定义了三个关键级别:
    • 1)分布内任务(In-distribution tasks) (op=2-10): 目标是接近 100% 的 pass@128 准确率;
    • 2)OOD边缘任务(OOD-edge tasks) (op=11-14): 确保非零的 pass@128 性能;
    • 3)OOD困难任务(OOD-hard tasks) (op=15-20): 目标是零 pass@128 准确率,标志着模型的能力极限
  • Post Training 在能力边缘进行,确保模型能泛化到更难的任务
  • 图 9 显示了跨这些性能级别的 Training Dynamics 细分

附录 A.4 Process-Verified Evaluation

  • 给定一个具有真实图 \((\mathcal{G},a^{*})\) 的输入实例,模型生成一个自由形式的解答 \(s\)
  • 论文确定性地将 \(s\) 解析为预测的依赖图:
    $$
    \hat{\mathcal{G} }=(\hat{\mathcal{V} },\hat{\mathcal{E} },\widehat{\operatorname{val} }), \qquad \hat{a},
    $$
    • 其中 \(\hat{\mathcal{V} }\) 中的节点对应解答中命名的中间量,\(\hat{\mathcal{E} }\) 编码每个步骤依赖于哪些先前定义的量,\(\widehat{\operatorname{val} }\) 存储每个节点的推断数值,而 \(\hat{a}\) 是提取的最终答案
    • 解析器将解答分割为“定义 … 为 …”的步骤,从每个步骤使用的变量推断其依赖关系,并评估步骤中最后一个可计算的算术表达式(如果需要则回退到最后一个数字字面量)以获得数值。这产生了与 gold dependency graph 对齐的模型推理轨迹的图级表示
  • 令 gold graph 为下面的形式,具有节点集 \(\mathcal{V}\)、边集 \(\mathcal{E}\) 和值映射 \(\operatorname{val}\):
    $$
    \mathcal{G}=(\mathcal{V},\mathcal{E},\operatorname{val}), \qquad a^{*},
    $$
  • 论文在 Step-level 评估推理过程,对于每个黄金节点 \(v \in \mathcal{V}\),定义一个每步骤正确性指示器:
    $$
    s(v;\hat{\mathcal{G} },\mathcal{G})=\begin{cases}
    1, &\text{If } v \in \hat{\mathcal{V} },\ \operatorname{pa}_{\hat{\mathcal{G} } }(v)=\operatorname{pa}_{\mathcal{G} }(v),\ \text{and} \\
    &\operatorname{val}(v),\widehat{\operatorname{val} }(v) \ \text{are both defined and } \widehat{\operatorname{val} }(v)= \operatorname{val}(v),\
    0, &\text{otherwise},
    \end{cases}
    $$
    • 其中 \(\operatorname{pa}_{\mathcal{G} }(v)\) 和 \(\operatorname{pa}_{\hat{\mathcal{G} } }(v)\) 分别表示黄金图和预测图中 \(v\) 的父节点集(依赖关系)
    • 缺失节点、不正确的依赖集或不匹配的数值都会导致 \(s(v;\hat{\mathcal{G} },\mathcal{G})=0\)
  • 论文将预测推理轨迹的 过程准确率(process accuracy) 定义为所有黄金节点的平均 Step-level 准确率:
    $$
    \text{ProcessAcc}(\hat{\mathcal{G} };\mathcal{G})=\frac{1}{|\mathcal{V}|}\sum_{v\in\mathcal{V} }s(v;\hat{\mathcal{G} },\mathcal{G}).
    $$
    • 允许额外的预测节点 \(v \in \hat{\mathcal{V} } \setminus \mathcal{V}\),它们不影响过程准确率;它们对应于冗余但兼容的中间步骤
  • 只有当推理图和最终答案都匹配时,预测才被视为完全正确,论文通过验证正确性(verified correctness)来形式化这一点:
    $$
    \text{VerifiedCorrect}(\hat{a},\hat{\mathcal{G} };,a^{*},\mathcal{G})=\begin{cases}
    1, &\text{IF ProcessAcc}(\hat{\mathcal{G} };\mathcal{G})=1\text{ and }\hat{a}=a^{*},\
    0, &\text{otherwise}.
    \end{cases}
    $$
  • Accordingly,本工作中报告的所有 pass@k 指标(例如,pass@1、pass@128)仅当模型满足下面两个条件,才将样本视为正确
    • (i) 正确预测了每个黄金步骤( Step-level 过程准确率 = 1)
    • (ii) 产生了正确的最终答案时
    • 这个严格的标准确保报告的收益反映了真实、可靠的推理,而非偶然的正确性

附录 A.5 第 3 节的 Training Dynamics (Training Dynamics for § 3)

  • 本节详细分析了不同 Post Training 方法在外推泛化中的 Training Dynamics
  • 跨评估范围的负对数似然减少(NLL Reduction Across Evaluation Ranges).
    • 论文分析了第 3 节中使用的不同 Post Training 方法及其对各种评估运算范围的负对数似然减少的影响
  • 从图 10 我们可以观察到:
    • Post Training 持续减少了所有评估范围的负对数似然,其中在 op=11-14 范围内获得了最显著的增益
    • 这表明模型有效地学会了组合原子技能以处理更复杂的问题
  • Post-training Dynamics
    • 论文进一步研究了不同 Post Training 方法期间奖励动态的变化
    • 从图 11 论文观察到
      • 在与模型能力边缘对齐的任务(op=9-12 和 op=11-14)上进行 Post Training 会带来显著的奖励提升,表明学习有效
      • 相反,当任务太简单(op=7-10)或太难(op=17-20)时,奖励会趋于平稳,表明在这些机制下学习进展有限

附录 A.6:Detailed Analysis of Post-Training Effects on Contextual Generalization

  • 在本节中,论文将详细分析不同的 Post Training 数据方案在给定 Pre-training 阶段原子推理原语的情况下,如何影响对长尾上下文(long-tailed contexts)的上下文泛化

附录 A.6.1 当推理原语在 Pre-training 中共享时 (When Reasoning Primitives are Shared During Pre-Training)

  • 除了掌握基本的推理技能,模型泛化的一个重要维度在于上下文泛化 (contextual generalization) ,即跨不同问题上下文(例如变化的表面叙事或领域)迁移所学推理行为的能力
  • 在本节中,论文研究 Post Training 是否能激励模型将推理能力泛化到长尾 (long-tailed) 或在 Pre-training 中极少观察到的上下文
Task Setting
  • 论文研究两个不同的问题上下文:一个频繁的、规范的 Context A 和一个长尾的 Context B ,两者共享相同的基础推理先验(在论文的例子中是逻辑-算术推理,详细的上下文设置见附录 A.9)
  • Pre-training 语料由 99.9% 的 Context A(op=2-20)和仅 0.1% 的 Context B(op=2-20)组成
  • 在 Post Training 期间,论文在 200K 个样本中改变对 Context B 的暴露比例:0%、2%、10%、50% 和 100%
Summary 5
Observation 5
  • 当 Pre-training 中共享推理原语时, Post Training 期间对 Context B 的暴露程度与模型在 Context B 上的性能呈正相关
  • Notably,即使在 Post Training 期间完全没有暴露于 Context B(0%),模型仍能实现显著的迁移,这突显了共享原语在实现上下文泛化中的作用
Takeaway 5
  • 当原子原语被共享时, Post Training 可以激励模型向长尾上下文泛化
  • Remarkably,即使 Post Training 对 Context B 的暴露为 0%,模型也能实现实质性的迁移,这凸显了 Pre-training 阶段共享推理结构的关键作用
  • 图 12:
    • 经过 Post Training (对 Context B 的暴露比例不同)后,在上下文泛化任务上的 pass@k 性能
    • 当 Pre-training 中共享推理原语时,即使在后续 Mid-training 对 Context B 的暴露有限或为零,模型也表现出向 Context B 的强迁移能力

附录 A.6.2 当 Pre-training 中仅暴露原子原语时 (When Only Atomic Primitives are Exposed During Pre-Training)

  • 本节研究当 Base Model 在 Pre-training 中仅暴露于长尾上下文的基本原子原语(basic atomic primitives)时的上下文泛化
Task Setting
  • 使用与上述相同的上下文数据分布,论文在 Pre-training 期间将 Context B 的数据限制为仅包含原子操作,而 Context A 则覆盖全范围操作
  • Pre-training 语料由 99% 的 Context A(op=2-20)和仅 1% 的 Context B 组成,且 Context B 仅限于原子操作(op=2)
    • Thus,模型主要通过 Context A 学习推理结构,而对 Context B 的 surface forms 仅有极少的暴露
    • 在 Post Training 期间,论文使用 200K 个样本进行 RL 微调,其中 Context B 数据的比例在五个方案中变化:0%、1%、10%、50% 和 100%
    • 详细的数据方案见附录 A.9
  • 如图 13 所示:
    • 仅在 Context A 上进行 Post Training 或对 Context B 的暴露极其稀疏(0-1%)时,模型在 Context A 内保持强劲性能,但对长尾 Context B 的迁移极小
      • 理解:这里的 1% 和前面提到的 1% 覆盖是不同的,不然就矛盾了
    • However,一旦引入少量 Context B 数据(约占总体样本的 10%)Context B 的性能急剧提升,pass@128 准确率增加超过 +76 点
    • 进一步增加 Context B 数据的比例(50%、100%)带来的增益递减,表明一旦提供了最小的监督,RL 就能快速建立起稳健的跨上下文推理
    • Notably,即使 Post Training 使用100% Context B 数据(与主要的 Pre-training 上下文完全不同)模型在 Context A 上的性能仍然保持稳定
      • 这表明 RL 使模型能够学习可迁移的推理策略,这些策略可以跨 surface forms 进行扩展,同时保留在先前已掌握上下文中的能力
      • 理解:这里再次说明了 RL 的训练过程是很少发生灾难性遗忘的
  • 图 13:
    • Base Model 在 Context B 仅限于基础原子操作时的 pass@k 性能
    • 仅在 Context A 上进行 Post Training 能保持稳定性能,而在 RL 中引入 10% 的 Context B 数据则能实现上下文迁移

A.6.3 Training Dynamics for § A.6.2

  • 本节绘制了 § A.6.2 中使用的不同数据方案下的 Post Training 奖励动态,以进一步理解 RL 期间对长尾上下文的暴露程度变化如何影响学习进展
  • 从图 14 中我们可以观察到
    • 当 Post Training 期间对 Context B 的暴露极其有限(0-1%)时,奖励趋于平稳,表明学习进展甚微
    • 然而,在适度暴露(10-100%)下,奖励显著提升,反映了有效的学习和对长尾上下文的迁移
  • 图 14:
    • 不同 Post Training 数据方案下的奖励动态
    • 当 RL 对 Context B 的暴露极其有限(0-1%)时,奖励停滞不前
    • 然而,在适度暴露(10-100%)下,奖励显著提升,反映了有效的学习和迁移

附录 A.7 Detailed Analysis of Pre-Training Effects on Extrapolative Generalization**

  • Pre-training 定义了 Post Training 后期可以组合和扩展的原子推理原语
    • 如果 Base Model 在 Pre-training 期间已经遇到中等复杂的问题, Post Training 可能会将这些原语推向更深层的组合推理
    • Otherwise,Post Training 可能缺乏超越其继承能力范围的探索支架
    • 因此,作者研究不同的 Pre-training 难度如何影响后续的外推泛化

Task Setting

  • 论文将 Post Training 方案固定为来自 op=11-14 范围的 200K 个样本,先前已确定此范围为能力边缘(见图 3)
  • 然后改变 Pre-training 期间包含的“困难”数据(op=7-10)的比例,以评估对复杂原语的暴露如何影响 Base Model 在 RL 后的泛化能力
    • (详见附录 A.9 的数据方案)

Summary 7

Observation 7
  • 如图 15 所示
    • 在 Pre-training 中更多地暴露于困难问题,持续地提升了基础和经过 Post Training 的性能
    • However,来自 RL 的边际增益随着 Pre-training 变得更全面而减小
    • 当 Pre-training 已经覆盖了相当一部分中等深度任务时,RL 仅带来适度的改进
    • By contrast,当 Pre-training 包含有限但非平凡的困难原语暴露(例如,20% 的 op=7-10 数据)时,RL 产生了最大的相对提升(将 op=15-20 上的 pass@128 准确率提高了超过 +22 点)
      • 这表明,当模型的先验能力是部分的时候,足够强以支持探索,但又足够不完整以留有发现空间,RL 是最有效的
  • 图 15:在 Pre-training 期间不同困难数据暴露水平下, Post Training (op=11-14)后在外推任务上的 pass@128 性能
Takeaway 7
  • Pre-training 奠定基础,RL 对其进行扩展
    • 在 Pre-training 期间丰富地暴露于组合原语,使 RL 能够将推理深度推到超出 Pre-training 范围
    • 但一旦这些原语被完全掌握,RL 的益处就会逐渐减少,这突显了两个阶段的互补作用

附录 A.7.1:第 A.7 节的 Training Dynamics (Training Dynamics for § A.7)

  • 论文分析了在不同 Pre-training 数据方案下 Post Training 期间的 Training Dynamics
  • 图 16:不同 Pre-training 数据方案下的奖励动态
    • 在 Pre-training 期间有适度困难数据暴露(20-50%)的模型在 Post Training 期间表现出显著的奖励提升,表明有效的学习和外推
    • In contrast,困难数据暴露过少(0%)或过多(100%)的模型显示出有限的奖励增益,表明学习进展受限

附录 A.8:Training Dynamics for § 4

  • 本节分析了 § 4 中上下文泛化的不同 Pre-training 数据方案的 Training Dynamics
  • 从图 17 中观察到
    • 在 Pre-training 期间对长尾上下文(即使是基础原子)的适度暴露比例,对于模型在 Post Training 期间实现显著的奖励提升是必要的
  • 图 17:不同 Pre-training 数据方案下的奖励动态
    • 对长尾上下文暴露最少的模型在 Post Training 期间没有奖励提升
    • 而对长尾上下文有中等至完全暴露的模型则显示出显著的奖励提升,表明有效的学习和上下文泛化

附录 A.9:Post-Training and Pre-Training Data Recipe

  • 本节详述了在 § 3、§ 4、§ A.6.1、§ A.6.2 和 § A.7 中使用的数据方案。表 2 总结了在不同实验部分中使用的具体操作计数范围、上下文模板和训练预算
  • 表 2:§ 3、§ 4、§ A.6.1、§ A.6.2 和 § A.7 中 Pre-training / Post Training 实验的数据方案
    • op(\(\mathcal{G}\)) 范围表示每个训练阶段的操作计数
    • Context A、B、C 对应于不同的模板:A = animals–zoo, B = teachers–school, C = movie-festival
    • 不同操作范围和上下文的数据方案均在指定比例内均匀采样
    • 阴影单元格表示消融设置

附录 A.10:不同计算预算下的 Mid-training / Post Training 混合 (Mid-/Post-Training Mixing with Different Computation Budget)

  • 本节首先详述 Mid-training 和 RL 等价的计算预算公式,然后提供在不同总计算预算下组合 Mid-training 和 Post Training 的确切数据方案

附录 A.10.1 Mid-training 与 RL 等价的计算预算 (Compute Budget of Mid-Training and RL Equivalence)

  • 训练计算量 (Training Computation)
    • 根据 Chinchilla 缩放定律 (2022),一个具有 P 个非嵌入参数的 Decoder-only Transformer,在 T 个 Token 上训练消耗的计算量大约为:
      $$
      C_{\text{train} } \approx 6P T \quad \text{flops}
      $$
    • Thus,预算为 \(T_{\text{mid} }\) 的 Mid-training 阶段消耗
      $$ C_{\text{mid} } = 6P T_{\text{mid} } \quad \text{flops}$$
  • 细粒度 RL 计算量 (Fine-Grained RL Computation)
    • 对于 On-policy GRPO,计算可以分解为:
      • Rollout: Actor 模型前向传播(2P),
      • Reference(可选): 参考模型前向传播(2P),
      • Policy Update 前向传播(2P)和后向传播(4P)
    • 求和这些项得到:
      $$
      C_{\text{RL} } = (8 + 2\gamma)P N r L_{\text{total} },
      $$
      • 其中 \(\gamma \in \{0,1\}\) 切换参考模型的前向传播,\(N\) 是 RL 样本数,\(r\) 是 Rollout 大小,\(L_{\text{total} }\) 是总序列长度(包括提示和补全)
  • Mid-training Token 等价 (Mid-training Token Equivalence)
    • 通过方程 4 归一化得到等价的 Mid-training Token 成本:
      $$
      T_{\text{RL} } = \frac{C_{\text{RL} } }{6P} = \left(\frac{4}{3} + \frac{\gamma}{3}\right) N r L_{\text{total} }
      $$
    • 当 \(\gamma = 1\) 时,论文得到正文中使用的等价关系:
      $$
      \boxed{T_{\text{RL} } = \frac{5}{3} N r L_{\text{total} } }
      $$
  • 预算分配与步数计算 (Budget Allocation and Step Calculation)
    • 给定总预算 T 和 RL 比率 \(\beta\),
      $$
      T_{\text{mid} } = (1-\beta) \cdot T, \qquad T_{\text{RL,eq} } = \beta \cdot T
      $$
    • 相应的 RL 样本数 \(N(\beta)\) 和更新步数为:
      $$
      N(\beta) = \frac{3}{5} \cdot \frac{\beta T}{r L_{\text{total} } }, \qquad \text{steps}_{\text{RL} }(\beta) = \frac{N(\beta)}{B},
      $$
      • 其中 \(r = 6\) 是 Rollout 大小,\(L_{\text{total} } = 2048\) 是总序列长度,\(B = 1024\) 是 RL 批次大小,T 是总 Token 预算
    • Mid-training 的步数为:
      $$
      \text{steps}_{\text{mid} }(\beta) = \frac{T_{\text{mid} } }{B_{\text{mid} } \cdot L_{\text{mid} } },
      $$
    • 其中 \(B_{\text{mid} } = 512 \times 1024\) 是 Mid-training 的批次大小,\(L_{\text{mid} } = 2048\) 是 Mid-training 的序列长度
Task Setting
  • 论文使用 10B Token 进行 Pre-training ,其中 20% op=2-4,30% op=5-7,50% op=8-10
  • 为避免 Mid-training 期间的灾难性遗忘,论文在 Mid-training 期间使用 20% 的预算用于 op=2-10,80% 用于 op=11-14。为公平比较,RL 使用与 Mid-training 相同的数据分布进行。表 3 详述了在不同总 Token 预算 T 和 Mid-training 比率 p 下, Mid-training 和 RL 的确切步数。论文在不同的总计算预算下,使用完全 Mid-training (Full mid-training)、完全 RL (Full RL)、 Light RL (\(\beta=0.2\))、Medium-RL (\(\beta=0.5\)) 和Heavy-RL (\(\beta=0.8\)) 进行中/ Post Training
Summary 8
Observation 8
  • 如图 18 所示
    • 在所有计算预算下
      • Light RL 取得了最佳的 OOD-edge pass@1 性能
      • Heavy-RL 始终获得最高的 OOD-hard pass@1 性能
    • 对于 pass@128,当计算预算有限(4.2B Token)时,Heavy-RL 在 OOD-hard 设置中取得最佳性能
    • 当预算增加(8.4B Token 及以上)时,完全 RL 达到最高的 OOD-hard pass@128 性能
  • 图 18:不同总计算预算下, Mid-training 和 RL 混合比率对应的 pass@k 性能
Takeaway 8
  • Mid-training 和 Post Training 在不同的计算预算下互为补充
    • 对于 pass@1 任务, Mid-training 和 RL, Post Training 的组合始终优于任一单独的方法
    • 对于 pass@128,最优的 Post Training 分配取决于可用的计算预算:
      • 在资源有限的情况下,将大约 80% 分配给 RL 能在稳定性和探索性之间取得平衡;
      • 在计算量更充足时,完全 RL 能最大化外推增益
  • 表 3:不同计算预算规模下的实验配置
    • 将 Mid-training 的批次大小固定为 512K Token
    • 表 3 将总 Token 预算 T 映射到纯 Mid-training (p=1.0)、纯 RL(p=0.0)和混合拆分所需的特定步数

NLP——Megatron-LM原始论文解读-第二篇

注:本文包含 AI 辅助创作

  • 参考链接:
    • Megatron 系列目前公认的有三篇核心论文如下,它们分别对应了张量并行、3D 并行 与 序列并行/激活重计算优化 三大阶段,本文是第二篇的解读
    • 第二篇:(Megatron-LM-2)Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM, SC 2021, NVIDIA
      • 核心贡献:提出 3D 并行(数据 + 张量 + 流水线),并给出 interleaved 1F1B 流水线调度,显著降低流水线气泡;在 3072 块 A100 上训练出 530 B 参数的 GPT-3 级模型,GPU 利用率达到 76 %

Paper Summary

  • 整体说明:
    • 本文是 Megatron-LM原始论文解读-第二篇
    • 论文展示了如何将 PTD-P(节点间 PP、节点内 TP 和 DP )组合起来,以在训练具有万亿参数的大模型时实现高聚合吞吐量
    • 论文首次实现了端到端训练能够在合理的时间内完成(万亿参数模型的估计时间约为 3 个月)
    • 论文通过分析讨论了与每种并行类型相关的各种权衡,以及在组合使用时需要仔细考虑它们之间的相互作用
    • 论文中的很多思想是与加速器无关:
      • 1)智能地划分模型训练计算图以在保持设备活跃的同时最小化通信量的思想
      • 2)通过算子融合和仔细的数据布局来最小化内存受限的内核数量
      • 3)其他领域特定的优化(例如,散射-聚集优化)
  • 背景 & 问题:
    • 高效地训练 LLM 模型具有挑战性,原因在于:
      • 1)GPU 内存容量有限,使得即使是在多 GPU 服务器上也无法容纳大型模型;
      • 2)所需的计算操作数量可能导致不切实际的长训练时间
  • 之前的工作:
    • 之前已经提出了 TP (Tensor Parallelism, TP)和 PP (Pipeline Parallelism, PP),但这些方法的简单使用会在数千个 GPU 上导致扩展性问题
  • 本文的核心方法贡献:
    • 论文展示了如何组合使用 TP 、PP 和 DP (Data Parallelism, DP),以扩展到数千个 GPU
    • 论文提出了一种新颖的交错流水线调度方法,在内存占用与现有方法相当的情况下,可以将吞吐量提高 10% 以上
  • 特别亮眼的表现:论文的方法使得论文能够在 3072 个 GPU 上以 502 petaFLOP/s 的速度对具有 1 万亿参数的模型执行训练迭代(每 GPU 吞吐量达到理论峰值的 52%)
    • 注意:这是在 2021 年实现的,而本文的方法已经是家喻户晓

Introduction and Discussion

  • NLP 中基于 Transformer 的语言模型近年来推动了快速进展,因为大规模计算变得更加可用且数据集变得更大
  • 最近的工作 (2020) 表明,大语言模型是有效的零样本或少样本学习者,在许多 NLP 任务和数据集上具有高准确率
  • 这些大语言模型有许多令人兴奋的下游应用,例如客户反馈摘要、自动对话生成、语义搜索和代码自动补全 (2021;)
  • SOTA NLP 模型中的参数数量呈指数级增长(图 1)
  • 训练此类模型具有挑战性,原因有二:
    • (a) 即使使用最大的 GPU(NVIDIA 最近发布了 80GB A100 卡),也无法将这些模型的参数容纳在其主内存中;
    • (b) 即使论文能够将模型装入单个 GPU(例如,通过在主机和设备内存之间交换参数 (2021)),所需的大量计算操作可能导致不切实际的长训练时间(例如,使用单个 NVIDIA V100 GPU 训练具有 175B 参数的 GPT-3 (2020) 将需要大约 288 年)
  • 所以需要并行化, DP 扩展通常效果良好,但受到两个限制:
    • a)超过某个点后,每 GPU 批大小变得太小,降低了 GPU 利用率并增加了通信成本;
    • b)可使用的最大设备数量等于批大小,限制了可用于训练的加速器数量
  • 为了应对这两个挑战,已经提出了各种模型并行技术
    • 一些工作 (2019; 2020) 展示了如何使用张量(层内)模型并行(即将每个 Transformer 层内的矩阵乘法拆分到多个 GPU 上)来克服这些限制
    • 尽管这种方法对于在 NVIDIA DGX A100 服务器(配备 8 个 80GB A100 GPU)上训练大小达 20B 参数的模型效果良好,但对于更大的模型则会失效
    • 更大的模型需要拆分到多个多 GPU 服务器上,这会导致两个问题:
      • (a) TP 所需的全局归约(All-Reduce)通信需要通过服务器间链路进行,这些链路比多 GPU 服务器内可用的高带宽 NVLink (2020) 慢;
      • (b) 高度的模型并行可能会产生小的矩阵乘法(GEMM),可能降低 GPU 利用率
  • PP (2019; 2020; 2021) 是另一种支持训练大模型的技术,它将模型的层分布到多个 GPU 上
  • 一个批次被分割成更小的微批次(microbatch),执行过程在这些微批次之间进行流水线化
    • 层可以以各种方式分配(assigned)给工作节点,并且可以使用各种输入的前向传播和后向传播调度策略
    • 层分配(layer assignment)和调度策略会导致不同的性能权衡
  • 无论采用何种调度,为了保持严格的优化器语义,优化器步骤需要在设备间同步,这导致在每个批次结束时进行一次 流水线刷新(pipeline flush) ,此时允许微批次完成执行(并且不注入新的微批次)
    • flushing the pipeline 可能会花费多达 50% 的时间(取决于注入流水线的微批次数量)
    • 微批次数量与流水线规模(阶段数)的比率越大,花费在流水线刷新上的时间就越少
    • 为了实现高效率,通常需要更大的批大小
    • 在这项工作中,论文还引入了一种新的流水线调度方案,该方案提高了小批大小下的效率
  • 这些技术可以组合使用,但组合这些技术会导致 non-trivial 的相互作用,需要仔细推理才能获得良好的性能
  • 在论文中,论文解决了以下问题:
    • 在给定批大小并保持严格优化器语义的前提下,应如何组合并行技术以最大化大模型的训练吞吐量?
  • 具体来说,论文展示了如何组合 PP 、TP 和 DP,论文称之为 PTD-P(pipeline, tensor, and data parallelism) 的技术,以在数千个 GPU 上以良好的计算性能(达到设备峰值吞吐量的 52%)训练大语言模型
  • 论文的方法利用跨多 GPU 服务器的 PP 、多 GPU 服务器内的 TP 以及 DP 的组合,在实际中训练具有万亿参数的模型,并在具有服务器内和服务器间 GPU 高速链路的优化集群环境中实现优雅的扩展
  • 给定更多的训练资源,也可以使用类似的思想来训练更大的模型
  • 在论文的实验中,论文在一个具有万亿参数的 GPT 模型 (2020) 上,使用混合精度,展示了接近线性的扩展到 3072 个 A100 GPU,实现了每 GPU 163 teraFLOP/s 的端到端训练吞吐量(包括通信、数据处理和优化),以及 502 petaFLOP/s 的总吞吐量
    • 这个吞吐量使得实际的训练时间成为可能:论文估计该模型的端到端训练大约需要 3 个月
  • 作者相信这是针对该规模模型实现的最快训练吞吐量:过去的系统 (2019; 2020) 无法训练如此大的模型,因为它们没有结合 PP 和 TP
  • 论文还将论文的方法与 ZeRO (2019) 进行了比较,发现由于跨节点通信更少,论文的方法对于 175B 和 530B 参数的模型比 ZeRO-3 性能高出 70%
    • 这些模型太大,无法容纳在单个多 GPU 服务器上
  • 在大规模下实现这种吞吐量需要在多个方面进行创新和精心的工程:
    • 高效的内核实现使得大部分计算是计算受限而非内存受限的
    • 在设备间智能划分计算图以减少通过网络链路发送的字节数同时限制设备空闲时间
    • 领域特定的通信优化以及快速的硬件( SOTA GPU 以及服务器内和服务器间的高速链路)
  • 作者希望论文开源的软件(可在 github.com/nvidia/megatron-lm 获取)将使其他团队能够高效地大规模训练大型 NLP 模型
  • 论文通过实验和尽可能的分析,研究了影响吞吐量的各个组件之间的相互作用
  • 基于这些研究,论文提供以下关于如何配置分布式训练的指导原则 :
    • 不同形式的并行化以 non-trivial 的方式相互作用:
      • 并行化策略会影响通信量 和 内核执行的计算效率,还会影响工作节点上的气泡时间(因流水线刷新(气泡)所花费的空闲时间)
        • 例如,在论文的实验中,论文发现,即使服务器间有高带宽网络链路,次优的 TP 和 PP 组合也可能导致吞吐量降低多达 2 倍;
        • TP 在多 GPU 服务器内是有效的 ,但对于更大的模型必须使用 PP
    • 用于 PP 的调度方案会影响通信量、流水线气泡大小以及用于存储激活值的内存
      • 论文提出了一种新颖的交错调度方案,与先前提出的调度方案 (2019; 2020) 相比,在内存占用相当的情况下,可以将吞吐量提高多达 10%
    • 微批次大小等超参数的值会影响内存占用、工作节点上执行的内核的算术效率以及流水线气泡大小
      • 在论文的实验中,微批次大小的最优值是问题相关的,并且可以将吞吐量提高 15%
    • 在大规模下,分布式训练是通信密集型的
      • 当在 3072 个 GPU 上训练一个万亿参数模型时,论文的实现用于 PP 通信的有效二分带宽为 892 GB/s,用于 DP 通信的有效二分带宽为 13 TB/s
      • 使用较慢的节点间互连或通信更密集的划分会阻碍扩展性能
  • 论文不会自动探索并行策略的搜索空间(例如 FlexFlow (2018), PipeDream (2019), Tarnawski 等 (2020), 和 DAPPLE (2021)),而是提出论文在实践中发现效果很好的启发式方法(在 章节3 中)

Models of Parallelism

  • 论文关注单个 GPU 无法装下的大型模型进行高效训练的并行技术
  • 论文将 PP (pipeline model parallelism) 和 TP (tensor model parallelism)(组合如图 2 所示)与 DP (data parallelism) 结合起来(论文将其简称为 PTD-P)

DP (Data Parallelism)

  • 使用 DP (2021) 时,每个工作节点 (worker) 都拥有完整模型的一个副本,输入数据集被分片,工作节点定期聚合它们的梯度,以确保所有权重版本一致
  • 对于无法放在单个工作节点上的大型模型,可以在较小的模型分片上使用 DP

PP (Pipeline Model Parallelism)

  • 使用 PP 时,模型的层被分片到多个设备上
  • 当用于具有重复相同 Transformer 块的模型时,可以为每个设备分配相同数量的 Transformer 层
  • 论文不考虑更不对称的模型架构 ,因为将层分配给流水线阶段更为困难;论文将这个问题留给相关工作 (2021;) 来解决
  • 一个批次 (batch) 被分割成更小的微批次 (microbatch);然后跨微批次进行流水线执行
    • 流水线方案需要确保输入在前向传播和后向传播中看到一致的权重版本,以获得明确定义的同步权重更新语义
  • 具体来说,简单的流水线可能导致一个输入在后向传播中看到在前向传播中未见的权重更新
    • 为了精确保持严格的优化器语义,论文引入了周期性的流水线刷新 (pipeline flush),以便跨设备同步优化器步骤
    • 在每个批次的开始和结束时,设备处于空闲状态,论文将此空闲时间称为流水线气泡 (pipeline bubble),并希望使其尽可能小
  • 诸如 PipeMare、PipeDream 和 PipeDream-2BW (2019; 2020; 2021) 之类的异步和有界陈旧度 (bounded-staleness) 方法完全取消了刷新,但放宽了权重更新语义
    • 论文将对此类方案的考虑留待未来工作
  • 有多种可能的方式来跨设备调度前向和后向微批次;每种方法在流水线气泡大小、通信量和内存占用之间提供了不同的权衡
  • 论文将在本节讨论两种这样的方法
Default Schedule
  • GPipe 提出了一种调度方案,即首先执行一个批次中所有微批次的前向传播(如图 3 所示),然后是所有微批次的后向传播
  • 我们可以量化 GPipe 的流水线气泡大小 (\(t_{pb}\))
    • 用一个批次中的微批次数量记为 \(m\),流水线阶段数(用于 PP 的设备数量)记为 \(p\),每次迭代的理想时间为 \(t_{id}\)(假设完美或理想缩放),执行单个微批次的前向和后向传播的时间记为 \(t_{f}\) 和 \(t_{b}\)
    • 在此调度中,流水线气泡包括批次开始时的 \(p-1\) 次前向传播和批次结束时的 \(p-1\) 次后向传播
      • 理解:图 3 中,对于 PP=4 的场景,即每个设备 都要有 3 个完整的前向和后向传播气泡
    • 花费在流水线气泡中的总时间为:
      $$t_{pb}=(p-1)\cdot(t_{f}+t_{b})$$
    • 该批次的理想处理时间为:
      $$t_{id}=m\cdot(t_{f}+t_{b})$$
    • 因此,理想计算时间中花费在流水线气泡中的比例为:
      $$\text{Bubble time fraction (pipeline bubble size)} =\frac{t_{pb} }{t_{id} }=\frac{p-1}{m}.$$
      • 理解:这里分母上算少了,分母上应该再加上分子才对
  • 为了使气泡时间比例变小,一般需要 \(m\gg p\),但对于如此大的 \(m\),这种方法具有很高的内存占用,因为它需要在一次训练迭代的整个生命周期内,将所有 \(m\) 个微批次的暂存中间激活值(或者在使用激活重计算时,仅为每个流水线阶段的输入激活值)保存在内存中
  • 论文使用 PipeDream-Flush 调度 (2021)
    • 论文首先进入一个预热阶段,工作节点执行不同数量的前向传播,如图 4(顶部)所示
      • 此调度将进行中的微批次(其后向传播尚未完成且需要维护激活值的微批次)的数量限制为流水线的深度,而不是一个批次中的微批次数量
    • 预热阶段之后,每个工作节点进入稳定状态,每个工作节点执行一次前向传播,然后执行一次后向传播(简称 1F1B)
    • 最后,在批次结束时,论文完成所有剩余进行中微批次的后向传播
    • 这种新调度花费在气泡中的时间是相同的,但对于 PipeDream-Flush 调度,未完成的前向传播数量最多为流水线阶段数
    • 因此,此调度需要为 \(p\) 个或更少的微批次暂存激活值(相比之下,GPipe 调度需要为 \(m\) 个微批次暂存)
    • 因此,当 \(m\gg p\) 时,PipeDream-Flush 比 GPipe 内存效率高得多
Schedule with Interleaved Stages
  • 为了减小流水线气泡的大小,每个设备可以执行多个层子集(称为模型块, model chunk)的计算,而不是单个连续的层集
  • 例如,如果之前每个设备有 4 层(即设备 1 有第 1-4 层,设备 2 有第 5-8 层,依此类推),我们可以让每个设备执行两个模型块(每个有 2 层)的计算,即设备 1 有第 1, 2, 9, 10 层;设备 2 有第 3, 4, 11, 12 层;依此类推
    • 使用这种方案,流水线中的每个设备被分配多个流水线阶段(每个流水线阶段的计算量比之前少)
    • 像之前一样,我们可以使用此调度方案的“全部前向,全部后向”版本,但这具有很高的内存占用(与 \(m\) 成正比)
  • 论文开发了一种交错调度 (interleaved schedule) ,它适配了之前的内存高效 1F1B 调度
    • 这种新调度如图 4 所示,并要求一个批次中的微批次数量是 PP 度(流水线中的设备数量)的整数倍
    • 例如,对于 4 个设备,一个批次中的微批次数量必须是 4 的倍数
  • 如图 4 所示,相同批次大小的流水线刷新在新调度中发生得更早
    • 如果每个设备有 \(v\) 个阶段(或模型块),那么每个阶段或块的微批次的前向和后向时间现在将是 \(t_{f}/v\) 和 \(t_{b}/v\)
  • 因此,流水线气泡时间减少到
    $$t_{pb}^{\text{int.} }=\frac{(p-1)\cdot(t_{f}+t_{b})}{v}$$
    • 气泡时间比例则为:
      $$\text{Bubble time fraction (pipeline bubble size)} =\frac{t_{pb}^{\text{int.} } }{t_{id} }=\frac{1}{v}\cdot\frac{p-1}{m}.$$
  • 这意味着新调度将气泡时间减少了 \(v\) 倍
    • 但这种减小的流水线气泡大小并非没有代价:此调度需要额外的通信
    • 定量地说,通信量也增加了 \(v\) 倍
  • 在下一节中,论文将讨论如何利用多 GPU 服务器(例如 DGX A100 节点)中的 8 个 InfiniBand 网络卡来减少这种额外通信的影响

TP (Tensor Model Parallelism)

  • 使用 TP 时,模型的各个层在多个设备上进行划分
  • 在论文中,论文使用 Megatron (2019) 针对语言模型基础 Transformer 层所使用的特定划分策略
  • 也可以将类似的思想应用于其他类型的模型,如 CNN
  • 论文简要概述此策略,如图 5 所示
  • 一个 Transformer 层由一个自注意力块 (self-attention block) 和一个两层的多层感知机 (MLP) 组成
  • MLP 块:MLP 块包含两个 GEMM(通用矩阵乘法,General Matrix Multiply)和一个 GeLU 非线性:
    $$Y=\text{GeLU}(XA).\quad Z=\text{Dropout}(YB).$$
    • 第一个权重矩阵 \(A\) 按列划分,即 \(A=[A_{1}, A_{2}]\)
      • 这种划分允许将 GeLU 非线性独立应用于每个划分后 GEMM 的输出:
        $$[Y_{1},Y_{2}]=\left[\text{GeLU}(XA_{1}),\text{GeLU}(XA_{2})\right].$$
      • 这样做的好处是它消除了同步的需要(如果 \(A\) 沿其行划分则需要同步,因为 GeLU 是非线性的)
    • 第二个权重矩阵 \(B\) 的按行划分,以消除 GEMM 之间的任何通信需要(如图 4(a) 所示),如下所示:
      $$B=\begin{bmatrix}B_{1}\ B_{2}\end{bmatrix}, Y=[Y_{1},Y_{2}].$$
    • 第二个 GEMM 的输出然后在 Dropout 层之前跨 GPU 进行归约 (reduce)
  • 自注意力块:利用多头注意力操作中固有的并行来划分自注意力块(如图 4(b) 所示)
    • 键 (\(K\))、查询 (\(Q\)) 和值 (\(V\)) 矩阵可以以列并行 (column-parallel) 的方式进行划分(每个设备上负责不同的注意力头,并行计算)
    • 输出线性层然后可以直接在注意力操作的划分输出上运行(权重矩阵跨行划分,不需要 GPU 同步通信)
  • TP 将 MLP 和自注意力块中的 GEMM 拆分到多个 GPU 上,同时在前向传播中仅需要两次全归约 (All-Reduce) 操作(\(g\) 运算符),在后向传播中需要两次全归约操作(\(f\) 运算符)
  • 论文用几行代码实现了 \(f\) 和 \(g\)

Performance Analysis of Parallelization Configurations

  • 考虑将 PP (pipeline parallelism) 和 TP (tensor model parallelism) 与 DP (data parallelism) 结合使用的性能影响
  • 给定固定的 GPU 预算和批次大小 (batch size),可以使用 PTD-P 中不同维度的并行类型来训练模型;
  • 每个维度都在内存占用 (memory footprint)、设备利用率 (device utilization) 和通信量之间进行权衡
  • 论文将在本节剩余部分讨论这些权衡,并在 5.4 节展示实证结果
    • 论文在分析流水线气泡 (pipeline bubble) 大小时会提供分析模型
    • 论文定性地描述通信时间的行为,并提供通信量的成本模型;但是,论文不提供通信时间的直接成本模型,因为对于层次化网络拓扑(同一服务器上 GPU 之间的互连带宽高于服务器之间的互连带宽)来说,通信时间更难建模
  • 据论文所知,这是首个分析这些并行化维度性能交互作用的工作

Notation

  • 论文在本节中使用以下符号表示:
    • \( (p, t, d) \):并行化维度
      • \( p \) 表示 PP 大小 (pipeline-model-parallel size),\( t \) 表示 TP 大小 (tensor-model-parallel size),\( d \) 表示 DP 大小 (data-parallel size)
    • \( n \):GPU 数量,论文要求 \( p \cdot t \cdot d = n \)
    • \( B \):全局批次大小 (global batch size)(作为输入提供)
    • \( b \):微批次大小 (microbatch size)
    • \( m = \frac{1}{b} \cdot \frac{B}{d} \):每个流水线 (per pipeline) 中一个批次内的微批次数量

TP 和 PP(Tensor and Pipeline Model Parallelism)

  • TP 和 PP 均可以用于在多个 GPU 对模型的参数进行分区
  • 正如前文所述,使用带有周期性刷新(periodic flushes)的 PP 会产生下面大小的流水线气泡(pipeline bubble):
    $$\frac{p-1}{m}$$
  • 假设 DP 规模 \(d=1\)( DP 大小,data-parallel size),那么此时总 GPU 数量满足
    $$ t \cdot p = n; \quad \text{s.t.} \ d=1 $$
  • 基于 TP 规模 \(t\) 的流水线气泡大小可表示为:
    $$
    \frac{p-1}{m} = \frac{n/t - 1}{m}
    $$
    • 说明:在固定批次大小 \(B\)、微批次大小 \(b\) 以及固定 \(d\)(此时 \(m = \frac{B}{b \cdot d}\) 也保持固定)的前提下,随着 TP 规模 \(t\) 的增大,流水线气泡会逐渐减小
  • 不同 GPU 之间的通信量同样会受到 PP 规模 \(p\) 和 TP 规模 \(t\) 的影响
    • PP 的特点是点到点通信(point-to-point communication)成本更低;TP 则需要使用 All-Reduce communication
      • TP:正向传播(forward pass)需执行两次归约操作;反向传播(backward pass)也需执行两次归约操作(详见第2.3节)
    • 在 PP 中,对于每个微批次,每对 PP 相邻设备之间需要执行的PP 通信总量为(一次 点对点通信):
      $$ bsh $$
      • 其中 \(s\) 代表序列长度(sequence length),\(h\) 代表隐藏层大小(hidden size)
      • 正向传播和反向传播各需要一次点对点通信,所以总共是 $$ 2bsh $$
    • 在 TP 中,对于每个层,总大小为 \(bsh\) 的张量需在 \(t\) 个模型副本(model replicas)间,正向传播和反向传播各两次通信,这使得每个设备、每个微批次、每个层的 TP 通信总量为
      $$8bsh \cdot \frac{t-1}{t}$$
      • 理解:TP 参数通信量估计详情
        • MLP 正向和反向各需要一次 TP 通信(All-Reduce),一次 All-Reduce 通信是 \(2\Phi_\text{TP} = 2bsh\)(使用 Ring All-Reduce,一次通信使用 \(2\Phi\frac{t-1}{t}\) 的通信量),单层模型上, MLP TP 累计通讯量是:
          $$ 4\Phi\frac{t-1}{t} = 4bsh\frac{t-1}{t} $$
        • Attention 部分正向和反向也各需要一次 TP 通信(All-Reduce),单层模型上,Attention TP 累计通讯量是:
          $$ 4\Phi\frac{t-1}{t} = 4bsh\frac{t-1}{t} $$
        • 注:上述通信量评估详情见:图解大模型训练之:张量模型并行(TP),Megatron-LM - 猛猿的文章 - 知乎
    • 通常每个设备会负责多个层的计算(TP 中,每个层都需要分别与其他设备交互),因此对于每个设备、每个微批次, TP 的总通信量可表示为
      $$l^{stage} \cdot (8bsh \cdot \frac{t-1}{t})$$
      • 其中 \(l^{stage}\) 代表一个流水线阶段(pipeline stage)中包含的层数,即一个设备负责的层数
  • 由此可见,TP 会增加设备间的通信量
    • 因此,当 TP 规模 \(t\) 大于单个节点(node)中的 GPU 数量时,跨节点链路(inter-node links)的传输速度较慢,此时在这类链路上执行 TP 的开销会变得难以承受
    • 这一结果已在第5.4节的实验中得到验证
  • Takeaway #1 :TP 不跨 节点
    • 对于使用每个节点 \(g\) 个 GPU 的服务器时, TP 的规模通常应不超过 \(g\);若要在多台服务器间扩展以训练更大的模型,则可使用 PP
    • 理解:这里指的是 单台机器的 GPU 数为 \(g\),TP 规模 \(t\) 大于 \(g\) 时会导致跨节点的 TP 通信,开销难以接受

DP Data and Model Parallelism

  • 注:这里的模型并行(Model Parallelism)包括了 PP(Pipeline Model Parallelism) 和 TP(Tensor Model Parallelism)
  • 论文还需要考虑 DP (data parallelism)与两种模型并行( TP 和 PP )之间的相互作用
    • 为简化分析,本节将分别对这些相互作用进行讨论
PP (Pipeline Model Parallelism)
  • 假设 TP 规模 \(t=1\)(tensor-model-parallel size),则每个流水线的微批次数量为
    $$ m = \frac{B}{d \cdot b} = \frac{b’}{d}$$
    • 其中:
      • \( b \) 是微批次大小 (microbatch size)
      • \(b’ = \frac{B}{b}\) 表示每个 Global Step 的 微批次数量;
    • 注:每个流水线的微批次数量 \(m\) 与 DP 大小 \(d\) 成反比
  • 在总 GPU 数量为 \(n\) 的情况下,流水线阶段的数量为
    $$ p = \frac{n}{(t \cdot d)} = \frac{n}{d} $$
  • 此时流水线气泡大小可表示为:
    $$
    \frac{p-1}{m} = \frac{n/d - 1}{b’/d} = \frac{n - d}{b’}
    $$
    • 随着 DP 规模 \(d\) 的增大,\(n - d\) 会逐渐减小,因此流水线气泡也会随之变小
  • 图6展示了在不同 \(d\)、\(n\) 和 \(b’\)(批次大小与微批次大小的比值,\(b’ = \frac{B}{b}\))下,流水线气泡大小的变化趋势
    • 需要注意的是,并非所有模型都能将 \(d\) 增大到 \(n\),因为部分模型的完整训练内存占用(full training memory footprint)可能超过单个加速器(accelerator)的内存容量
  • 若 DP 所需的归约通信量未随 \(d\) 的增大而大幅增加,那么整体吞吐量(throughput)会随之提升
    • 这一假设是成立的,因为基于环形实现(ring-based implementation, 即 Ring All-Reduce)的通信时间与 \(\frac{d-1}{d} = 1 - \frac{1}{d}\) 呈正相关
  • 论文还可以分析批次大小 \(B\) 增大带来的影响
    • 在特定的并行配置下,随着批次大小 \(B\) 的增加,\(b’ = \frac{B}{b}\) 会增大,进而导致流水线气泡大小 \(\frac{n - d}{b’}\) 减小,最终使吞吐量提升
    • 此外,DP 所需的归约通信频率会随 \(B\) 的增大而降低,这也会进一步提升吞吐量
      • 理解:这里是指相同的数据量和 epoch 下,\(B\) 越大,需要更新的总步数越少?
DP Data and Tensor Model Parallelism
  • TP 中,每个微批次都需要执行归约通信,而跨多 GPU 服务器执行此类通信的成本较高
  • DP 仅需在每个批次执行一次高成本的归约通信
  • 而且,在 TP 中,每个模型并行进程(model-parallel rank)仅负责模型每层计算中的一部分;
    • 若层的规模不够大,现代 GPU 执行这些子矩阵(sub-matrix)计算时可能无法达到峰值效率(peak efficiency)
  • Takeaway #2 :
    • 在同时使用 DP 和模型并行时,应将模型并行的总规模设为
      $$M = t \cdot p$$
      • 其中 \(t\) 为 TP 规模,\(p\) 为 PP 规模,以确保模型的参数和中间元数据(intermediate metadata)能够放入 GPU 内存;
      • 问题:模型并行的总规模本来就是:\(M = t \cdot p\) 吧,还需要什么特殊处理吗?
    • 而 DP 则可用于扩展训练规模,以适配更多的 GPU

Microbatch Size

  • 微批次大小 \( b \) 的选择也会影响模型训练吞吐量
  • 例如,论文在图 7 中看到,在单个 GPU 上,使用较大的微批次大小,每 GPU 吞吐量最多可提高 1.3 倍
  • 本节回答:确定给定并行配置 \( (p, t, d) \) 和批次大小 \( B \) 时,最优微批次大小 \( b \) 是多少呢?
  • 无论微批次大小如何, DP 通信量将是相同的
  • 给定函数 \( t_{f}(b) \) 和 \( t_{b}(b) \) 它们将微批次大小映射到单个微批次的前向和后向计算时间,则处理一个微批次的总计算时间(忽略通信成本)为(如前所述,定义 \( b’ \) 为 \( \frac{B}{d} \)):
    $$ \left(\frac{b’}{b} + p - 1\right) \cdot \left(t_{f}(b) + t_{b}(b)\right). $$
    • 因此,微批次大小既影响操作的算术强度 (arithmetic intensity),也影响流水线气泡大小(通过影响 \( m \))
      • 理解:随着 microbatch size \(b\) 增大,气泡占比变小,处理一个微批次的总时间减少,但总微批次数量增加
    • 注:进一步分析总的时间为:
      $$ b \cdot \left(\frac{b’}{b} + p - 1\right) \cdot \left(t_{f}(b) + t_{b}(b)\right). $$
      • 显然,上述式子存在一个处于最大值和最小值中间的最优点(类似二次函数)
  • 图 8 显示了一个具有十亿参数且 \( (p, t) = (8, 8) \) 的 GPT 模型的估计吞吐量(使用方程 (1) 估计处理时间)
    • 对于两种批次大小,最优的 \( b \) 都是 4
  • Takeaway #3:
    • 最优微批次大小 \( b \) 取决于模型的吞吐量和内存占用特性,以及流水线深度 \( p \)、 DP 大小 \( d \) 和批次大小 \( B \)

激活重计算,Activation Recomputation

  • 激活重计算 (activation recomputation) (2016; 2000; 2019; 2020) 是一种可选技术,通过 仅存储给定流水线阶段的输入激活,而不是存储整个中间激活集,后者要大得多,来权衡增加执行的计算操作数量以换取更少的内存占用
    • 注:成本是后向传递之前需要按需再次运行前向传递
  • 为了在可接受的低内存占用下训练合理的大模型,需要使用激活重计算
  • 之前的工作如 PipeDream-2BW (2021) 已经研究了激活重计算的性能影响
    • 激活检查点 (activation checkpoint) 的数量不影响吞吐量,但影响内存占用
    • 设 \( A^{\text{input} } \) 为一层的输入激活大小,\( A^{\text{intermediate} } \) 为每层的中间激活大小
    • 如果一个模型阶段有 \( l \) 层,并且有 \( c \) 个检查点,则总内存占用将为
      $$ c \cdot A^{\text{input} } + \frac{l}{c} \cdot A^{\text{intermediate} } $$
      • \(\frac{l}{c} \cdot A^{\text{intermediate} }\) 为每个时刻在使用的激活大小
    • 当 \( c = \sqrt{l \cdot (A^{\text{intermediate} }/A^{\text{input} })} \) 时,该函数取得最小值
    • 在实践中,论文通过经验测量 \( A^{\text{intermediate} } \)
    • 在大多数情况下,每 1 或 2 个 Transformer 层设置一个检查点是最优的
  • 其他技术,如激活分区 (activation partitioning) (2020),也可以与 TP 结合使用,以进一步减少由激活引起的内存占用

Implementation

  • 论文将 PTD-P 作为 Megatron-LM 代码库的一个扩展来实现
  • 论文的实现基于 PyTorch (2017)
  • 论文使用 NCCL (2018) 进行设备间的通信
  • 为了获得良好的性能,论文实施了针对通信和计算的优化,下面将概述这些优化

Communication Optimizations

  • 当使用 PP 时,作者希望并行地发送和接收前向和后向传播的张量
  • 每个 DGX A100 节点配备了 8 个 InfiniBand (IB) 网络卡
    • 不幸的是,发送和接收是点对点的,并且只发生在两个服务器上的一对 GPU 之间,这使得很难在流水线内的单个通信调用中利用所有 8 张卡
  • 然而,我们可以利用同时使用 TP 和 PP 这一事实来降低跨节点通信的开销
  • 特别地,论文注意到每个 Transformer 层的输出在 TP Rank 之间是复制的(在 MLP 块中的 \(g\) 操作之后,见图 5(a))
    • 因此,在执行 TP 的两个连续流水线阶段中的 Rank ,会发送和接收完全相同的张量集合(图 5(a))
  • 对于足够大的模型,论文使用大小为 8 的 TP
    • 这意味着论文在相邻的多 GPU 服务器上的对应 GPU 之间发送相同的张量集合 8 次
    • 为了减少这种冗余,我们可以在发送端将张量分割成大小相等的块,然后只将一个块发送到下一个节点上的对应 Rank ,使用该 Rank 自己的 InfiniBand 卡(例如,在图 9 中, Rank 1 发送给 Rank 3, Rank 2 发送给 Rank 4)
  • 对于 8 个 TP Rank ,每个块的大小将减小为原来的八分之一
  • 然后,在接收端,我们可以通过 NVLink 执行一个 all-gather 操作(这比 InfiniBand 互连快得多)来重新构建完整的张量(如图 5(b) 所示)
  • 论文称之为 分散/聚集通信优化 (scatter/gather communication optimization)
    • 这种优化有助于更好地利用 DGX A100 服务器上的多个 IB 卡,并使诸如交错调度这样通信密集的调度变得可行
  • 量化来看,通过分散-聚集通信优化,每对连续阶段之间需要执行的总通信量减少到 \(\frac{bsh}{t}\),其中 \(t\) 是 TP 大小,\(s\) 是序列长度,\(h\) 是隐藏层大小(在论文的实验中 \(t=8\))

Computation Optimizations

  • 论文对计算图实施了三个模型特定的优化以获得高性能
  • 第一,论文改变了 Transformer 层中的数据布局,以避免内存密集的转置操作,并启用跨步批处理 GEMM 内核
    • 具体来说,论文将数据布局从 \([b, s, a, h]\) 改为 \([s, b, a, h]\),其中 \(b\)、\(s\)、\(a\) 和 \(h\) 分别是批处理大小、序列长度、注意力头数和隐藏层大小的维度
  • 第二,论文使用 PyTorch JIT (2016) 为一序列逐元素操作(偏置 + GeLU 以及偏置 + Dropout + 加法)生成了融合内核
  • 第三,论文创建了两个自定义内核来实现缩放、掩码和 Softmax(归约)操作的融合:
    • 一个支持通用掩码(用于如 BERT 的模型),另一个支持隐式因果掩码(用于如 GPT 的自回归模型)
  • 论文将在下一节量化这些优化的效果

Evaluation

  • 在本节中,论文试图回答以下问题:
    • PTD-P 的性能如何?它是否能够满足现实的端到端训练时间?
    • 对于给定的模型和批处理大小, PP 的扩展性如何?交错调度对性能有多大影响?
    • 不同的并行化维度如何相互作用?微批处理大小等超参数的影响是什么?
    • 分散-聚集通信优化的影响是什么?在规模上运行训练迭代时,论文对硬件施加了哪些类型的限制?
  • 论文所有的结果都是在 Selene 超级计算机 (Selene, 2000) 上使用混合精度运行的
    • 每个集群节点有 8 个 NVIDIA 80-GB A100 GPU (2018),通过 NVLink 和 NVSwitch (2018) 相互连接
    • 每个节点有八个 NVIDIA Mellanox 200Gbps HDR InfiniBand HCA 用于应用通信,另外每个节点还有两个 HCA 用于专用存储
    • 节点通过具有 850 个交换机的三级(叶子、脊柱、核心)胖树拓扑连接
    • 这种拓扑支持高效的 All-Reduce 通信(深度学习训练中的主导通信模式)
    • 集群使用全 NVME 共享并行文件系统进行高性能数据访问和存储
  • 一个具有 16 位精度的 A100 GPU 的峰值设备吞吐量为 312 teraFLOP/s
  • 对于论文的大部分结果,论文报告每个 GPU 的吞吐量
  • 总吞吐量可以通过乘以使用的 GPU 数量来计算
  • 在论文的实验中,论文使用适当大小的 GPT 模型
    • 特别地,对于任何给定的微基准测试,模型需要能够适应实验中使用的模型并行 GPU 的数量
    • 适当的时候,论文使用标准的模型架构,如 GPT-3 (2016)

End-to-End Performance

  • 论文考虑了论文的系统在参数量从十亿到一万亿的 GPT 模型上的端到端性能,使用了张量、流水线和 DP (使用第 3 节中描述的启发式方法选择维度)
  • 特别地,论文使用了启用了分散/聚集优化的交错流水线调度
  • 所有模型使用词汇表大小(表示为 \(V\))为 51,200(1024 的倍数)和序列长度(表示为 \(s\))为 2048
    • 论文改变隐藏层大小(\(h\))、注意力头数和层数(\(l\))
    • 模型中的参数量 \(P\) 可以计算为:
      $$P=12lh^{2}\left(1+\frac{13}{12h}+\frac{V+s}{12lh}\right). \tag{2}$$
  • 随着模型大小的增加,论文也增加批处理大小(\(B\))和 GPU 的数量(\(n\))
  • 模型中大部分的浮点运算是在 Transformer 层和 logit 层中的矩阵乘法(GEMMs)中执行的
    • 仅考虑这些 GEMMs,每次迭代的 FLOPs 数量为(更多细节见附录):
      $$F=96Bslh^{2}\left(1+\frac{s}{6h}+\frac{V}{16lh}\right). \tag{3}$$
    • 这是真实 FLOP 计数的下限,但应接近实际值
    • 论文将 FLOP 计为浮点运算,无论精度如何
    • 方程 (3) 假设了激活重计算,并考虑了与额外前向传播相关的浮点运算
  • 表 1 显示了模型配置以及实现的 FLOP/s(包括每个 GPU 的和所有 GPU 的总和)
    • 论文看到在 3072 个 A100 GPU(384 个 DGX A100 节点)上实现了超线性扩展,因为随着模型变大(更大的矩阵乘法),GPU 利用率提高,而通信时间相对于计算时间没有显著增加
    • 吞吐量是针对端到端训练测量的,即包括所有操作,包括数据加载、优化器步骤、通信和日志记录
    • 对于最大的模型,论文达到了峰值设备吞吐量的 52%,对于最小的模型,达到了峰值设备吞吐量的 44%
训练时间估算
  • 给定这些吞吐量,论文还可以估算在 \(T\) 个 Token 上进行端到端训练所需的总时间
    • 训练需要 \(I=\frac{T}{B\cdot s}\) 次迭代(\(s\) 为序列长度)
    • 使用方程 (3) 中的 \(F\) 值和表 1 中的经验端到端吞吐量(表示为 X),我们可以估算总训练时间
    • 对于表 1 中的配置,论文有 \(12lh \gg (V+s)\) 和 \(16lh \gg V\)
  • 将这些观察结果与方程 (2) 和 (3) 结合,论文得到:
    $$\text{End-to-end training time}\approx\frac{8TP}{nX}.$$
    • 其中:
      • \(n\) 为 GPU 数量;
      • \(X\) 为每个 GPU 的吞吐量;
      • \(T\) 为 Token 数量
      • \(P\) 为模型参数量
  • 让论文以具有 \(P=\) 175B 参数的 GPT-3 模型为例
    • 该模型在 \(T=3000\) 亿个 Token 上进行了训练
      • 在 \(n=1024\) 个 A100 GPU 上使用批处理大小 1536,论文实现了每个 GPU \(X=140\) teraFLOP/s 的吞吐量
      • 因此,训练该模型所需的时间为 34 天
    • 对于 1 万亿参数模型,论文假设端到端训练需要 450B 个 Token
    • 使用 3072 个 A100 GPU,我们可以实现每个 GPU 163 teraFLOP/s 的吞吐量,端到端训练时间为 84 天
    • 作者认为这些训练时间(使用合理数量的 GPU)是可行的

Comparison to ZeRO-3

  • 论文在表 2 和图 10 中将 PTD-P 与 ZeRO-3 (2020; 2021) 进行了比较(针对标准的 GPT-3 模型架构以及表 1 中的 530B 参数模型)
    • 这些结果提供了一个与不使用模型并行的方法的对比点
    • 论文使用 DeepSpeed Python 库 (2020) 将 ZeRO 集成到论文的代码库中
    • 当论文增加 GPU 数量时,论文保持全局批处理大小不变
    • 在 GPU 数量较少且微批处理大小为 4 的情况下,PTD-P 对于 175B 和 530B 参数模型的吞吐量分别高出 6% 和 24%
    • 随着论文增加 GPU 数量,PTD-P 比单独使用 ZeRO-3 扩展得更优雅(见图 10)
      • 例如,通过将 GPU 数量加倍(保持批处理大小不变),由于跨节点通信更少,PTD-P 对两个模型的性能均优于 ZeRO-3 70%
    • 论文只考虑了不使用 TP 的 ZeRO-3
    • ZeRO-3 可以与模型并行结合,以潜在地改善其扩展行为

PP (Pipeline Parallelism)

  • 论文现在单独评估 PP 的弱扩展性能,并将非交错调度与交错调度的性能进行比较
Weak Scaling
  • 论文使用弱扩展设置、一个具有 128 个注意力头和隐藏层大小为 20480 的 GPT 模型以及微批处理大小为 1 来评估默认非交错 PP 调度的扩展性
  • 随着论文增加流水线阶段的数量,论文也按比例增加模型中的层数来增加模型的大小
    • 例如,当 PP 大小为 1 时,论文使用具有 3 个 Transformer 层和 15B 参数的模型,当 PP 大小为 8 时,论文使用具有 24 个 Transformer 层和 121B 参数的模型
  • 论文对所有配置使用 TP 大小为 8,并改变使用的 A100 GPU 总数,从 8 到 64
  • 图 11 显示了两种不同批处理大小下每个 GPU 的吞吐量,以说明流水线气泡的影响,其行为符合 \(\frac{p-1}{m}\)(第 2.2.1 节)
    • 正如预期的那样,较高的批处理大小扩展性更好,因为流水线气泡被分摊到更多的微批处理上
Interleaved versus Non-Interleaved Schedule
  • 图 12 显示了在具有 175B 参数(96 层,96 个注意力头,隐藏层大小为 12288)的 GPT-3 (2020) 模型上,交错和非交错调度每个 GPU 的吞吐量
    • 带有分散/聚集通信优化的交错调度比非交错(默认)调度具有更高的计算性能
    • 随着批处理大小的增加,这个差距会缩小,原因有二:
      • (a) 随着批处理大小的增加,默认调度中的气泡大小减小
      • (b) 流水线内的点对点通信量与批处理大小成正比,因此随着通信量的增加,非交错调度会赶上(交错调度每个样本的通信量更多)
    • 在没有分散/聚集优化的情况下,默认调度在较大批处理大小下表现优于交错调度(未显示)

Comparison of Parallel Configurations

  • 在本小节中,论文展示了结合不同并行化维度所带来的各种权衡
  • 特别地,论文展示了对于给定模型和多个批处理大小,使用相同数量 GPU 的并行配置的性能
TP 与 PP (Tensor versus Pipeline Parallelism)
  • 论文评估了对于给定模型和批处理大小,流水线和 TP 对性能的影响
  • 图 13 中的实证结果显示了结合使用张量和 PP 来训练一个 161B 参数 GPT 模型(32 个 Transformer 层以支持 PP 大小为 32,128 个注意力头,隐藏层大小为 20480)的重要性,以实现低通信开销和高计算资源利用率
  • 论文观察到
    • TP 在一个节点(DGX A100 服务器)内效果最好,因为其 All-Reduce 通信开销大
    • PP 使用成本低得多的点对点通信,可以在节点之间进行,而不会成为整个计算的瓶颈
    • 使用 PP 时,可能会在流水线气泡中花费大量时间:
      • 因此,流水线阶段的总数应受到限制,使得流水线中的微批处理数量是流水线阶段数量的合理倍数
    • 当 TP 大小等于单个节点中的 GPU 数量(对于 DGX A100 节点为 \(8\))时 ,达到了峰值性能
  • 这一结果表明,无论是单独使用 TP (由 Megatron (2019) 使用)还是单独使用 PP (由 PipeDream (2019) 和其他人使用),都无法与结合使用这两种技术的性能相媲美
PP 与 DP (Pipeline versus Data Parallelism)
  • 论文在图 14 中评估了数据和 PP 对一个具有 59 亿参数(32 个 Transformer 层,32 个注意力头,隐藏层大小为 3840)的 GPT 模型性能的影响
  • 论文使用比之前更小的模型,因为论文想展示当模型并行大小仅为 \(2\) 时模型能够容纳的性能
  • 为简单起见,论文在这些实验中保持微批处理大小等于 \(1\)
  • 论文看到,对于每个批处理大小,吞吐量随着 PP 大小的增加而降低,这与论文在第 3.3 节中的分析模型相符
  • PP 应主要用于支持训练无法容纳在单个工作器上的大模型,而 DP 应用于扩展训练规模
TP 与 DP (Tensor versus Data Parallelism)
  • 论文在图 15 中评估了数据和 TP 对同一个 59 亿参数 GPT 模型性能的影响(使用较小模型的原因同上)
  • 如前所述,论文最初保持微批处理大小等于 \(1\)
  • 在较大的批处理大小和微批处理大小为 1 的情况下, DP 通信不频繁;
  • TP 中所需的 all-to-all 通信需要对批次中的每个微批处理执行
  • 这种 TP 的 all-to-all 通信主导了端到端训练时间,特别是当通信需要在多 GPU 节点之间执行时
  • 随着 TP 大小的增加,论文在每个 GPU 上执行更小的矩阵乘法,降低了每个 GPU 的利用率
  • 尽管 DP 可以导致高效的扩展,但不能单独使用 DP 来处理具有有限训练批处理大小的非常大的模型,原因是
    • a) 内存容量不足
    • b) DP 的扩展限制
      • 例如,GPT-3 是以 1536 的批处理大小训练到收敛的
      • 因此, DP 仅支持扩展到 1536 个 GPU;然而,大约使用了 \(10,000\) 个 GPU 来在合理的时间内训练该模型

Microbatch Size

  • 论文在图 16 中评估了微批处理大小对结合流水线和 TP 的并行配置性能的影响(针对一个具有 91B 参数(\((t,p)=(8,8)\))的模型)
  • 论文看到:
    • 对于这个模型,最佳微批处理大小是 \(2\);
    • 对于其他模型,最佳微批处理大小是不同的(图中未显示)并且是模型依赖的
  • 对于给定的批处理大小,
    • 增加微批处理大小会减少流水线中的微批处理数量(\(m\)),导致更大的流水线气泡;
    • 但增加微批处理大小也可以通过增加执行内核的算术强度来提高 GPU 利用率
    • 以上这两个因素是相互矛盾的,这使得选择最佳微批处理大小具有挑战性
  • 论文来自第 3.3 节的分析模型合理地近似了真实性能,并且可以作为代理来确定如何为各种训练配置和模型选择此超参数值

Activation Recomputation

  • 图 17 显示了对于具有 145B 参数(80 个 Transformer 层,96 个注意力头,隐藏层大小为 12288)的 GPT 模型,在使用 128 个 A100 GPU、\((t,p)=(8,16)\) 以及一系列批处理大小的情况下,使用和不使用激活重计算的吞吐量
    • 对于小批处理大小,由于在反向传播期间需要执行额外的前向传播,激活重计算导致吞吐量(以每秒序列数计)降低高达 33%
    • 但激活重计算是支持更大批处理大小所必需的
  • 由于流水线气泡更小,使用激活重计算的大批处理大小的吞吐量比不使用激活重计算(对于较小批处理大小)实现的最佳吞吐量高出 up to 2\(\times\)

Scatter-Gather Optimization

  • 图 18 显示了对于具有 175B 参数的 GPT-3 模型,使用和不使用(未优化)分散/聚集通信优化时每个 GPU 的吞吐量
  • 论文看到,通过减少跨节点链路上的通信量,对于通信密集的调度(大批处理大小带交错),吞吐量提高了 up to 11%

Fused Operators(融合操作)

  • 论文还评估了第 4.2 节中描述的操作符融合对性能的影响
  • 对于 GPT-3 模型(175B 参数),通过融合,吞吐量提高了 19%(从每个 GPU 113 teraFLOP/s 到每个 GPU 135 teraFLOP/s)
  • 对于更大的 530B 参数 GPT 模型(图 1 中的模型配置),吞吐量提高了 11%(从每个 GPU 133 teraFLOP/s 到每个 GPU 148 teraFLOP/s)

Inter-Node Communication Bandwidth

  • 论文强劲的结果是优化软件和硬件栈共同使用的副产品
  • 特别地,论文利用了同一服务器内和跨服务器的 GPU 之间的高带宽通信链路
  • 在具有 3072 个 GPU 的万亿参数模型上,论文观察到流水线阶段之间点对点通信的有效二分带宽为 892 GB/s,而 DP 副本之间 All-Reduce 操作的有效二分带宽为 12.9 TB/s
  • 跨设备的操作符分区若优化不足,会导致更多的节点间通信,从而阻碍扩展性能

Checkpoint Loading and Saving

  • 训练大模型的一个重要实际考虑是加载和保存模型检查点,对于论文中考虑的模型,检查点尤其大
  • 例如,万亿参数模型的检查点大小为 13.8 TB
    • 问题:如果仅考虑参数,换算后不太对,1000000000000*4/1000/1000/1000/1000 = 4 TB,若考虑激活值才会到 12 TB
  • 所有 384 个节点(3072 个 GPU)对万亿参数模型的检查点初始加载达到了 1TB/s 的峰值读取带宽,这是并行文件系统可能的最大读取吞吐量
  • 检查点保存达到了峰值写入带宽的 40%(273 GB/s)

Related Work

Parallelism for Large Models

  • PP(Pipeline model parallelism)是一种用于训练大模型的常用技术
  • PP 有几种不同的模式:
    • 论文讨论的模式使用流水线刷新(flush)来确保严格(strict)的优化器语义
    • TeraPipe (2021) 为像 GPT 这样的自回归模型(auto-regressive models)在单个训练序列的 token 之间暴露了细粒度的 PP
    • PipeTransformer (2021) 通过冻结具有“稳定”权重的层,弹性地调整 PP 和 DP 的程度,并将资源专用于训练剩余的“活跃”层
    • HetPipe (2020) 在一组异构加速器上结合使用了流水线和 DP
    • PP 也可以使用松弛的语义来实现:
      • PipeDream-2BW (2021) 维护两个权重版本,并保证权重更新延迟为 1,而无需昂贵的流水线刷新;
      • PipeMare (2021) 和 Kosson 等人 (2021) 使用异步 PP
    • 与论文考虑的带有流水线刷新的技术相比,这些技术提高了吞吐量,但可能以收敛速度或最终精度为代价
    • 此外,单独的 PP 仍然只能扩展到与模型中层数相等数量的设备,这对于某些模型架构来说是有限的
  • PipeDream (2019) 以一种原则性的方式结合了 PP 和 DP ,以减少跨设备通信
    • DeepSpeed (2021) 将 PP 与 TP 和 DP 结合起来,以训练高达万亿参数规模的模型,但吞吐量低于论文所示的结果(峰值利用率的 52% 对比 36%),原因有几个:
      • 通过算子融合使大部分算子图保持计算受限(compute-bound)、使用更高效的 PP 调度以最小化流水线气泡(pipeline bubble)大小、快速的硬件(A100 与 V100 GPU 以及同一服务器内和不同服务器间 GPU 的高带宽链路)以及扩展到更多 GPU 的能力
    • 作者希望强调,这种更高的吞吐量使得估计的训练时间更加实用(约 3 个月);37.6 petaFLOP/s 的总吞吐量将需要大约 40 个月来训练一个同等规模的模型
      • 也可以扩展到更大的模型,但需要更多的 GPU 来保持训练时间的实用性
  • Mesh-TensorFlow (2018) 提出了一种语言,用于轻松指定结合数据和模型并行的并行化策略
    • Switch Transformers (2021) 使用 Mesh-Tensorflow 训练了一个具有 1.6 万亿参数的稀疏激活(sparsely activated)的基于专家(expert-based)的模型,其预训练速度比 T5-11B 模型 (2019) 有所提高

Sharded Data Parallelism(分片 DP)

  • 作为 MLPerf 0.6 (2019) 性能优化的一部分,引入了分片 DP (sharded data parallelism)(2019, 2020),其中优化器状态(optimizer state)在 DP 工作节点(data-parallel workers)上进行分片
  • 这种方法有两个优点:
    • (a) 它不会在原始 DP (vanilla data parallelism)的基础上引入额外的通信;
    • (b) 它将优化器的计算和内存成本分摊到 DP 分区中
  • ZeRO (2019, 2021) 扩展了这个思想:
    • 权重参数和梯度也在 DP 工作节点上进行分片,工作节点在执行计算前从其“拥有”相应状态的工作节点获取相关状态
      • 这增加了额外的通信,但可以通过仔细重叠计算和通信来部分隐藏
      • 但如果不使用 TP 或者批大小不够大以隐藏额外的通信开销,这会变得困难(图 10)
  • ZeRO-Infinity (2021) 使用 NVMe 来高效地交换参数,使得能够在少量 GPU 上训练非常大的模型
  • 论文注意到,使用少量 GPU 训练非常大的模型会导致不切实际训练时间(例如,收敛需要数千年)

Automatic Partitioning(自动分区)

  • FlexFlow (2018)、PipeDream (2019)、DAPPLE (2021) 和 Tarnawski 等人 (2020) 都借助成本模型(cost models)在多个设备上自动分区模型训练图
  • 然而,这些方法都没有考虑论文考虑的所有并行维度:流水线和 TP、DP、微批大小(microbatch size)、以及像激活重计算(activation recomputation)这样的内存节省优化对训练大于加速器内存容量的模型的影响
  • 这些增加的维度扩大了需要探索的搜索空间
  • Gholami 等人 (2018) 展示了如何对数据和模型并行组合的通信成本进行建模

高性能计算(HPC for Model Training)

  • Goyal 等人 (2017) 和 You 等人 (2018) 都展示了使用高性能计算(High Performance Computing, HPC)技术在几分钟内训练高精度 ImageNet 模型
  • 但所考虑的图像分类模型可以轻松地放在单个加速器上,使得模型并行变得不必要;
  • 它们支持非常大的批大小(\(>32k\)),允许将 DP 扩展到大量工作节点,且通信不频繁;
    • 并且它们由紧凑的卷积层组成,这些层本身就很适合 DP 通信

NLP——DeepSeek-GRM

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(DeepSeek-GRM)Inference-Time Scaling for Generalist Reward Modeling, DeepSeek & THU, 20250403-20250925
      • 本工作是 THU 学生在 DeepSeek 实习期间完成
    • 开源模型: huggingface.co/collections/BBQGOD/deepseek-grm 和 modelscope.cn/profile/BBQGOD
      • 开源包含三个模型:
        • BBQGOD/DeepSeek-GRM-16B
        • BBQGOD/DeepSeek-GRM-27B
        • BBQGOD/DeepSeek-GRM-27B-MetaRM

Paper Summary

  • 核心内容:
    • 论文提出了自 Principle Critique 调优 (Self-Principled Critique Tuning, SPCT) 方法
    • SPCT 是一种增强通用奖励建模推理时扩展性的方法
    • 通过 Rule-based Online RL,SPCT 实现了 Principle 和 Critique 的自适应生成,显著提升了 GRM 在多样领域中的奖励质量和推理时扩展性
    • 在实验中,DeepSeek-GRM 超越了基线方法和一些强大的公开 RM,并通过推理时扩展,尤其是在 Mata RM 的引导下,展现出显著的改进
  • 背景:
    • RL 在 LLMs 的后训练中已被广泛采用
    • 在 LLMs 中通过 RL 激励推理能力表明: 适当的学习方法能够实现有效的推理时扩展性(proper learning methods could enable effective inference-time scalability)
  • 问题提出:
    • RL 的一个关键挑战是,在可验证问题或人工规则之外的各个领域为 LLMs 获取准确的奖励信号
  • 论文研究了如何通过增加推理计算来改进通用 Query 的奖励建模(Reward Modeling, RM),即 通用奖励建模的推理时扩展性(inference-time scalability of generalist RM)
    • 对于 RM(即奖励建模)方法,论文采用 Pointwise 生成奖励建模(pointwise generative reward modeling, GRM)以实现对不同输入类型的灵活性和推理时扩展的潜力
    • 对于学习方法,论文提出了 Self-Principled Critique 调优(Self-Principled Critique Tuning, SPCT) ,通过 Online RL 在 GRMs 中培养(foster)可扩展的奖励生成行为,以自适应地生成 Principle 并准确地给出 Critique,从而产生了 DeepSeek-GRM 模型
    • Furthermore,为了实现有效的推理时扩展,论文使用并行采样来扩展计算使用,并引入一个元奖励模型(meta RM)来指导投票过程以获得更好的扩展性能
  • 实验表明,SPCT 显著提高了 GRMs 的质量和可扩展性,在各种 RM 基准测试中优于现有方法和模型,且没有严重的偏差,并且与训练时扩展(training-time scaling)相比,它能获得更好的性能
  • DeepSeek-GRM 在某些任务上仍面临挑战,作者相信未来在通用奖励系统上的努力可以解决这些问题
  • 注:相关模型均已开源
  • 图 1: 不同 RMs 在所有测试的 RM 基准上的推理时扩展性能
    • 结果显示为每种方法最多 8 个样本,论文的方法进一步扩展到 32 个样本
    • 非斜体字体表示基于 Gemma-2-27B 的模型
  • 特别说明:
    • DeepSeek-GRM 的用法看看附录 G 中 DeepSeek-GRM (Default) Prompt 细节更容易理解

Introduction and Discussion

  • LLMs (2023; 2024) 的显著进步推动了人工智能研究的重大转变,使模型能够执行需要理解、生成和细微决策能力的任务
  • Recently,RL 作为 LLMs 的后训练方法已被大规模采用,并在人类价值观对齐(human value alignment)(2024; 2025)、长期推理(long-term reasoning)(2023; 2024) 和 LLMs 的环境适应(environment adaptation)(2024) 方面带来了显著改进。奖励建模(RM)(2024) 作为 RL 中的一个关键组件,对于为 LLM Response 生成准确的奖励信号至关重要
    • 当前研究(2024; 2025)也表明,无论是在训练时还是推理时拥有高质量且稳健的奖励,LLMs 都能在特定领域取得强劲性能
  • However,这种特定领域的高质量奖励主要来源于具有明确条件的人工设计环境(2022; 2024)或为可验证问题(例如数学问题(2021; 2023)和编码任务(2024; 2025))手工制定的规则
    • 在通用领域,奖励生成更具挑战性,因为奖励标准更加多样化和复杂,并且通常没有明确的参考或真实答案
    • 因此,通用奖励建模(generalist reward modeling)对于从后训练(例如大规模 RL)或推理(例如 RM 引导的搜索)角度提高 LLMs 在更广泛应用中的性能至关重要
    • Furthermore,RM 性能应通过增加训练计算(2023)和推理计算(inference compute)来提升
  • 图 2:奖励生成的不同范式,包括 (a) Scalar,(b) Semi-scalar 和 (c) 生成式方法,以及不同的评分模式,包括 (i) Pointwise 和 (ii) Pairwise 方法
    • 论文列出了每种方法的代表性方法,以及相应的推理时扩展性(是否可以从多次采样中获得更好的奖励)和输入灵活性(是否支持对单个和多个 Response 的评分)
  • 在实践中,要使 RMs 既通用又在推理时有效可扩展(effectively scalable)存在挑战
    • 通用性 要求 RM:
      • (1)对不同输入类型的灵活性
      • (2)在各个领域生成准确的奖励
      • 论文将此范式称为 通用奖励建模(generalist reward modeling)
    • Moreover,有效的 推理时扩展性(inference-time scalability) 要求 RM
      • (3)能够通过增加推理计算生成更高质量的奖励信号
      • (4)学习可扩展的行为以实现更好的性能-计算缩放(performance-compute scaling)
    • 现有的奖励建模研究展示了奖励生成的几种范式,包括 Scalar(2021; 2024; 2024)、 Semi-scalar(2025; 2025; 2025) 和生成式(generative)(2024; 2024; 2024; 2024; 2025; 2025; 2025; 2025; 2025) 方法,以及各种评分模式,例如 Pointwise(1940; 2023; 2024; 2025; 2025) 和 Pairwise (2024; 2023; 2023; 2024; 2025)
      • 这些方法本质上决定了 RMs 的输入灵活性(flexibility)和推理时扩展性((1)和(3)),如图 2 所示
      • For Instance, Pairwise RMs 仅考虑 Pairwise Response 的相对偏好,缺乏接受单个或多个 Response 作为输入的灵活性; Scalar RMs 很难为同一 Response 生成多样化的奖励信号,这阻碍了通过基于采样的推理时扩展方法(2025)获得更好的奖励
      • Also,不同的学习方法(2024; 2024; 2024; 2024)用于提高奖励的质量,但其中很少关注推理时扩展性,并研究学习到的奖励生成行为与 RMs 推理时扩展有效性之间的相互联系,导致性能提升有限((2)和(4))
      • 当前研究(2025)表明,有效的推理时扩展性可以通过适当的学习方法实现,这引出了问题:论文能否设计一种旨在实现通用奖励建模有效推理时扩展的学习方法?

        Can we design a learning method aiming to enable effective inference-time scaling for generalist reward modeling?

  • 论文研究了不同的 RM 方法,发现 Pointwise 生成奖励建模(GRM)可以在纯语言表示中统一对单个、 Pairwise 和多个 Response 的评分,克服挑战(1)
  • 论文探索了某些 Principle 可以在适当的准则范围内指导 GRMs 的奖励生成,从而提高奖励质量,这表明 RM 的推理时扩展性可能通过扩展高质量 Principle 和准确 Critique 的生成来实现
  • 基于此初步发现,论文提出了一种新颖的学习方法 Self-Principled Critique 调优(Self-Principled Critique Tuning, SPCT) ,以在 GRMs 中培养有效的推理时可扩展行为
    • 通过利用 Rule-based Online RL,SPCT 使 GRMs 能够学习根据输入 Query 和 Response 自适应地提出 Principle 和 Critique ,从而在通用领域获得更好的结果奖励(挑战(2))
    • 然后论文推出了 DeepSeek-GRM-27B ,它是基于 Gemma-2-27B (2024) 使用 SPCT 进行后训练的
    • 对于推理时扩展,论文通过多次采样来扩展计算使用
      • 通过并行采样,DeepSeek-GRM 可以生成不同的 Principle 集和相应的 Critique ,然后投票决定最终奖励
      • 通过更大规模的采样,DeepSeek-GRM 可以基于更多样化的 Principle 进行更准确的判断,并以更细的粒度输出奖励 ,这解决了挑战(3)和(4)
    • Furthermore,除了投票,论文还训练了一个 Mata RM 以获得更好的扩展性能
  • 实验表明,SPCT 显著提高了 GRMs 的质量和可扩展性,在多个综合 RM 基准测试中优于现有方法和模型,且没有严重的领域偏差
    • 论文还将 DeepSeek-GRM-27B 的推理时扩展性能与参数高达 671B 的更大模型进行了比较,发现与模型大小的训练时扩展相比,它能获得更好的性能
  • 尽管当前方法在效率和特定任务上面临挑战,但作者相信,通过 SPCT 之外的努力,具有增强可扩展性和效率的 GRMs 可以作为通用奖励系统的多功能接口,推进 LLM 后训练和推理的前沿
  • In general,论文的主要贡献如下
    • 1)论文提出了一种新颖的方法 Self-Principled Critique 调优(Self-Principled Critique Tuning, SPCT) ,以培养通用奖励建模的有效推理时扩展性,从而产生了(resulting in) DeepSeek-GRM 模型
      • 论文还进一步引入了一个 Mata RM 来有效提升 DeepSeek-GRM 在投票之外的推理时扩展性能
    • 2)论文通过实验证明,与现有方法和几个强大的公共模型相比,SPCT 显著提高了 GRMs 的质量和推理时扩展性
    • 3)论文还将 SPCT 训练方案应用于更大尺寸的 LLMs,发现推理时扩展可以超越模型大小的训练时扩展

Preliminaries

Comparisons of Different RM approaches

  • 如图 2 所示,RM 方法主要由奖励生成范式和评分模式决定,这本质上影响了 RM 的推理时扩展性和输入灵活性
    • 对于 奖励生成范式(reward generation paradigms) ,论文区分了三种主要方法: Scalar 、 Semi-scalar 和生成式
    • 对于 评分模式(scoring patterns) ,论文区分了两种主要方法: Pointwise 和 Pairwise
  • 为了在推理时扩展计算使用,论文专注于基于采样的方法,这些方法为相同的 Query 和 Response 生成多组奖励,然后聚合最终奖励
    • RMs 的 推理时扩展性(inference-time scalability) 取决于是否可以从多次采样中获得不同的奖励 ,其中 Scalar RMs 在大多数情况下会因奖励的恒定生成而失败;
    • RMs 的 输入灵活性(input flexibility) 由 RM 是否支持对单个、 Pairwise 和多个 Response 的评分来定义,其中 Pairwise RMs 很难对单个 Response 评分,通常需要额外的技术(2023; 2025)来处理多个 Response
Reward Generation Paradigms
  • 经典的 RMs 采用 (a) Scalar 方法(scalar approach) 生成奖励(\(\mathcal{R}\))
    • 为给定的 Query 和 Response 分配 Scalar 值
  • Scalar 方法进一步扩展到 (b) Semi-scalar 方法(semi-scalar approach)
    • 除了 Scalar 值外还生成文本
  • 而 (c) 生成式方法(generative approach) 仅生成文本奖励
    $$
    \mathcal{R}=
    \begin{cases}
    S & \text{(Scalar)} \\
    (S, \boldsymbol{C}) & \text{(Semi-Scalar)} \quad \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right)\\
    \boldsymbol{C} & \text{(Generative)}
    \end{cases} \\
    \tag{1}
    $$
    • 上面的公式表示如下含义:
      $$ \mathcal{R} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right) $$
    • \(x\) 是 Query
    • \(y_i\) 是第 \(i\) 个 Response
    • \(r_{\theta}\) 是由 \(\theta\) 参数化的奖励函数
    • \(S \in \mathbb{R}^{m}, m \leq n\) 是 Scalar 奖励
    • \(\boldsymbol{C}\) 是 Critique
Scoring Patterns
  • 论文区分了奖励的两种主要评分方法: Pointwise 和 Pairwise
  • (i) Pointwise 方法(pointwise approach) 为每个 Response 分配一个单独的分数:
    $$
    \{S_i\}_{i=1}^{n}=f_{\text{point} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right), \quad \mathcal{R} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right), S_i \in \mathbb{R},
    \tag{2}
    $$
    • 其中 \(f_{\text{point} }(\cdot,\cdot)\) 是一个分割函数(Spliting Function)
    • 问题:这里 Pointwise 打分的情况下,输入的 \(y_i\) 仅一个就可以了吧?此时应该有 \(n=1\)? 还是说输入可以是多个,但是一个个分别打分?
  • (ii) Pairwise 方法(pairwise approach) 可以看作是一种最佳选择方法(best-of-\(n\) method),从所有候选中选择一个最佳 Response :
    $$
    \hat{y}=f_{\text{pair} }(\mathcal{R},\{y_i\}_{i=1}^{n}), \quad \mathcal{R} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right), \hat{y} \in \{y_i\}_{i=1}^{n},
    \tag{3}
    $$
    • 其中 \(f_{\text{pair} }(\cdot,\cdot)\) 是一个选择函数,在大多数情况下 \(n=2\)
    • 虽然 Pairwise 方法可以扩展到 \(n>2\),但不能应用于单个 Response 评分(\(n=1\))
    • 理解:这里 Pairwise 方法和 Pointwise 方法的最本质区别是:
      • Pairwise 方法在挑选最佳 Response,而 Pointwise 在给每个 Response 打分,但似乎并没有限制输入的 Response 数量
    • 问题:这里是不是也可以理解为 listwise?如何定义 listwise、pairwise 和 pointwise 更合适?
Representative Methods
  • 图 2 说明了三种奖励生成范式( Scalar 、 Semi-scalar 、生成式)如何与两种评分模式( Pointwise 、 Pairwise )结合
  • Specifically
    • Bradley-Terry 模型(1940)(Scalar + Pointwise)使用 Pairwise 偏好数据进行训练,并以 Pointwise 方式输出 Scalar 奖励:
      $$
      \{S_i\}_{i=1}^{n}=f_{\text{point} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right)=\mathbf{S} \in \mathbb{R}^{n}.
      \tag{4}
      $$
      • 理解:上述公式的意思是,\(\{S_i\}_{i=1}^{n}\) 是一个 \(n\) 维的分数向量 \(\mathbf{S}\),且对应向量 \(\mathbf{S}\in \mathbb{R}^{n}\)
    • PairRM(2023)(Scalar + Pairwise)通过 Scalar 奖励的符号比较一对 Response :
      $$
      \hat{y}=f_{\text{pair} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right)=y_{\left|\frac{1}{2}(3-\text{sgn}(S))\right|}, \quad n=2,S \in \mathbb{R}.
      \tag{5}
      $$
      • 上述两个 Scalar 方法由于奖励生成缺乏多样性,几乎无法进行推理时扩展
    • Cloud(2024)(Semi-Scalar + Pointwise)基于预先生成的 Critique 为每个 Response 生成 Scalar 奖励,类似于公式 4
      • 理解:先生成 Critique,然后通过 Critique 生成一个 Scalar 分数
    • LLM-as-a-Judge(2023; 2024)(Generative + Pairwise)以文本方式判断 Pairwise Response 之间的偏好顺序:
      $$
      \hat{y}=f_{\text{pair} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right)=y_{f_{\text{extract} }(\boldsymbol{C})}, \quad n=2,
      \tag{6}
      $$
      • 其中 \(f_{\text{extract} }(\cdot)\) 从语言表示中提取最佳 Response 的索引
      • However,这种方法默认忽略了 Pairwise Response 的平局情况
      • 理解:LLM-as-a-Judge 其实是一种很广泛的泛指吧?只要是生成式的是不是基本上都属于 LLM-as-a-Judge 的范畴?
    • 根据 Zhang 等人(2025b),指示偏好顺序的 token 的生成概率可以用作 Scalar 奖励(Semi-Scalar + Pairwise):
      $$ \mathcal{S}=\text{TokenProb}(\hat{\boldsymbol{C} })=r_{\theta}(\hat{\boldsymbol{C} }|x,\{y_i\}_{i=1}^{n})$$
      • 其中 \(\hat{\boldsymbol{C} }\) 是与偏好顺序相关的预定义 token(pre-defined token related to the preference order)
      • 理解:这里的含义是:Token 的概率本身就可以作为一个偏好 Scalar 奖励
  • (论文的方法)在没有额外约束的情况下,GRMs 能够在纯语言表示中为多个 Response 生成 Pointwise 奖励(Generative + Pointwise):
    $$
    \{S_i\}_{i=1}^{n}=f_{\text{point} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right)=f_{\text{extract} }(\boldsymbol{C}),
    \tag{7}
    $$
    • 其中 \(f_{\text{extract} }(\cdot)\) 从生成结果中提取分配给每个 Response 的奖励
    • Usually,奖励是离散的,在本工作中,我们设定为自然数 默认分配 \(S_i \in \mathbb{N},1 \leq S_i \leq 10\)
    • 这种方法同时实现了推理时扩展性和输入灵活性

Boosting Reward Quality with Principles

  • 通用 RM 需要在特定领域之外生成高质量的奖励(2021; 2024),在这些领域中奖励标准更加多样化和复杂,并且通常没有明确的参考或真实答案
    • 为此,对于通用领域,论文采用 Principle 来指导奖励生成,以代替人工规则
  • LLMs 的 Principle 首先在宪法式人工智能(Constitutional AI)中引入(2022b; 2025),这些是手工制定的准则(hand-crafted criteria),指导 LLMs 或精选的分类器构建安全的数据 Pipeline
  • 有了 Principle ,GRMs 的奖励生成变为:
    $$
    \mathcal{R}=\mathbf{C} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n},\{p_i\}_{i=1}^{m}\right),
    \tag{8}
    $$
    • 其中 \(\{p_i\}_{i=1}^{m}\) 表示 Principle
    • 理解:这里就是指同时给出 Query、Response,评估指标(Principle),然后使用生成式模型评估奖励(即是否满足 Principle)
    • 论文进行了一项初步实验来检验适当 Principle 对奖励质量的影响,使用了 Reward Bench(2024)的 Chat Hard 子集和 PPE 基准(2025)的 IFEval 子集
  • 在实验中,数据样本包含一个 Query 和两个 Response ,真实标签表示更好的 Response
    • 论文使用 GPT-4o-2024-08-06 生成 Principle ,然后为每个样本生成四次 Pointwise 奖励
    • 论文从正确的奖励生成过程中筛选 Principle (正确的定义:即更大的奖励值被分配给 Token 为更好的 Response )
    • 理解:这里是在筛选对应 Chosen 分数高于 Rejected 分数的数据,Rubrics-based RL 筛选数据也可以这样来筛选
  • 论文用它们自己生成的 Principle 和筛选过的 Principle 测试不同的 LLMs,并将它们与无 Principle 指导的默认设置进行比较,结果如表 1 所示
    • 论文发现, 自生成的 Principle 几乎没有显著提升奖励质量 (注:经过过滤的 Principle 是可以提升奖励质量的 )
    • 这一结果并非微不足道(non-trivial),可以得出两个主要结论:
      • (a) 当前的 LLMs 可以生成多样化的 Principle ,但并非所有 Principle 都适合用于奖励生成
      • (b) 生成的 Principle 的一个子集可以在正确的准则下更好地指导奖励生成,这表明了自我引导(self-bootstrapping)的潜力
    • 这些发现是利用 Online RL 优化 GRMs 的基础,它们可以从自己生成的 Principle 中学习,并有一个清晰的信号来判断 Principle 是否合适
  • 其他细节在附录 D 中描述

Self-Principled Critique Tuning, SPCT

  • 受到初步结果的启发,论文为 Pointwise GRMs 开发了一种新颖的方法,学习生成能够有效指导 Critique 生成的自适应高质量 Principle ,称为 Self-Principled Critique 调优(Self-Principled Critique Tuning, SPCT)
  • 如图 3 所示,SPCT 包括两个阶段:
    • 第一阶段:作为冷启动的拒绝式微调(rejective fine-tuning)
    • 第二阶段:Rule-based Online RL,通过改进生成的 Principle 和 Critique 来强化通用奖励生成
      • SPCT 也在 GRMs 中培养了这些行为以实现推理时扩展
  • 图 3:SPCT 的图示,包括拒绝式微调、 Rule-based RL 以及推理期间相应的可扩展行为
    • 推理时扩展通过朴素投票或由大规模生成的 Principle 指导的 Mata RM 投票实现,从而在扩展的值空间内产生更细粒度的结果奖励

Unpinning Principles from Understanding to Generation(将核心原理从 “理解任务” 抽离并迁移到 “生成任务” 中)

  • 根据第 2.2 节的初步实验,论文发现适当的 Principle 可以在特定准则内指导奖励生成,这对于高质量奖励至关重要
    • However,大规模生成通用 RM 的有效 Principle 仍然具有挑战性
  • 为了解决这一挑战,论文提出 Unpinning Principles from Understanding to Generation,即将 Principle 视为奖励生成的一部分,而不是预处理步骤
  • 形式上, Principle 根据公式 8 指导奖励的生成,当 Principle 是预定义的时
    • GRMs 可以自己生成 Principle ,然后基于这些 Principle 生成 Critique ,形式化为:
      $$
      \{p_i\}_{i=1}^{m} \sim p_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right), \quad \mathcal{R}=\mathbf{C} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n},\{p_i\}_{i=1}^{m}\right),
      \tag{9}
      $$
    • 其中 \(p_{\theta}\) 是由 \(\theta\) 参数化的 Principle 生成函数,与奖励生成 \(r_{\theta}\) 共享同一模型
      • 在实践中,它们使用 LLMs 中的同一语言头实现
    • 这种转变使得 Principle 能够基于输入 Query 和 Response 生成,自适应地对齐奖励生成过程,并且 Principle 和相应 Critique 的质量和粒度可以通过 GRMs 的后训练进一步改进
      • 通过 大规模生成的 Principle ,GRMs 可能以更细的粒度和更广泛的考虑输出奖励,从而实现更好的推理时扩展性

Rule-Based Reinforcement Learning

  • 为了同时优化 GRMs 中的 Principle 和 Critique 生成,论文提出了 SPCT,它整合了拒绝式微调(rejective fine-tuning, RFT)和 Rule-based RL
    • RFT 的作用是冷启动
Rejective Fine-Tuning, Cold Start
  • 拒绝式微调阶段的核心思想是训练 GRM 以正确的格式为各种输入类型生成 Principle 和 Critique
  • 与之前混合不同格式的单个、 Pairwise 和多个(single, paired, and multiple) Response 的 RM 数据的工作(2024; 2024; 2025)不同,论文采用第 2.1 节介绍的 Pointwise GRM,灵活地以相同格式为任意数量的 Response 生成奖励
  • 对于数据构建,除了通用指令数据外,论文还通过给出 Query 和相应 Response 用预训练的 GRM 采样轨迹
    • 每个 RM 数据点(Data Point)包含一个 Query 和一个或多个对该 Query 的 Response ,以及表示最佳 Response 的真实标签
    • 对于每个 RM 数据点, Principle 和 Critique 的采样执行 \(N_{\text{RFT} }\) 次
      • 拒绝策略也是统一的,即拒绝以下两种情况:
        • 第一:预测奖励不正确的轨迹
        • 第二:所有 \(N_{\text{RFT} }\) 条轨迹都正确(太容易)的 Query 和 Response
    • 形式上,令 \(r_i\) 表示对 Query \(x\) 的第 \(i\) 个 Response \(y_i\) 的真实奖励,如果满足下面的条件,则认为预测的 Pointwise 奖励 \(\{S_i\}_{i=1}^{n}\) 是正确的
      $$
      \begin{cases}
      \forall i \neq j, \quad S_j > S_i, \quad j = \arg \max_{l}\{r_l\}_{i=l}^{n}, & \text{if } n \geq 2, \\
      S_1 = r_1, & \text{if } n = 1.
      \end{cases}
      \tag{10}
      $$
      • 只有一个 Response 时,当且仅当真实分数 \(r_1\) 和 预测分数 \(S_1\) 完全相等才算正确
      • 有多个 Response 时,当且仅当真实奖励中最大的 Response 对应的分数高于所有其他 Response(类似 Best-of-N)
    • 并保证真实奖励只包含一个最大值
  • However,与之前的工作类似(2025b),论文发现预训练的 GRMs 在有限的采样配额内很难为一部分 Query 和相应的 Response 生成正确的奖励
    • 理解:这里的问题是有限的采样次数可能是无法生成准确的评估轨迹的(即无法找到最佳的 Response)
  • Thus,论文可选择地将 \(\arg \max_{j}\{r_l\}_{l=1}^{n}\) 附加到 GRM 的提示中,称为 提示采样(hinted sampling) ,期望预测的奖励与真实情况一致,此外还有 非提示采样(non-hinted sampling)
    • 具体来说,将在输入中附加一个额外的片段 “The best response is: Response \(\arg \max_{i}\{r_l\}_{l=1}^{n}\)”
    • 对于提示采样,每个 Query 和相应的 Response 只采样一次 ,只有当轨迹不正确时才拒绝
      • 问题:这样的话,相当于先给答案(告诉模型最佳 Response 是谁),再让模型生成推理过程
    • 除了之前的研究(2024; 2024),论文观察到提示采样的轨迹有时在生成的 Critique 中走捷径,特别是对于推理任务,这表明了 Online RL 对 GRM 的必要性和潜在好处
Rule-Based RL
  • GRM 使用 Rule-based Online RL 进一步微调,论文使用 GRPO(2024)的原始设置以及 Rule-based 结果奖励
  • 在 rollout 期间,GRM 根据输入 Query 和 Response 生成 Principle 和 Critique ,然后提取预测的奖励并与真实值通过准确度规则进行比较
    • 与 DeepSeek-AI(2025)不同,论文不使用格式奖励
    • Instead,论文应用了更大的 KL 惩罚系数以确保格式并避免严重偏差
  • 形式上,对于给定 Query \(x\) 和 Response \(\{y_i\}_{i=1}^{n}\) 的第 \(i\) 个输出 \(o_i\) 的奖励是:
    $$
    \hat{r}_i=
    \begin{cases}
    1, & \text{if } n \geq 2 \text{ and } \forall i’ \neq j’, \quad S_{j’} > S_{i’}, \quad j’ = \arg \max_{l}\{r_l\}_{l=1}^{n}, \\
    1, & \text{if } n = 1 \text{ and } S_1 = r_1, \\
    -1, & \text{otherwise},
    \end{cases}
    \tag{11}
    $$
    • 其中 Pointwise 奖励 \(\{S_i\}_{i=1}^{n}\) 是从 \(o_i\) 中提取的
      • 问题:一个 \(o_i\) 中包含了所有的 Pointwise 奖励 \(\{S_i\}_{i=1}^{n}\) 吗?
    • 该奖励函数鼓励 GRMs 通过在线优化的 Principle 和 Critique 来区分最佳 Response ,有利于有效的推理时扩展
      • 奖励信号可以从任何偏好数据集和带标签的 LLM Response 中无缝获得
      • 理解:即有 Chosen/Rejected 或 Best-of-N 数据的样本都可以用来训练
    • 理解:上述奖励跟前面的 RFT 类似:
      • 只有一个 Response 时,当且仅当真实分数 \(r_1\) 和 预测分数 \(S_1\) 完全相等才算正确
      • 有多个 Response 时,当且仅当真实奖励中最大的 Response 对应的分数高于所有其他 Response(类似 Best-of-N)
        • 理解:在当前的设计下,有多个 Response 时,所有 Response 的分数是同时为 1(预测正确)或 -1(预测错误)的

Inference-Time Scaling with SPCT

  • 为了进一步利用更多推理计算资源来提升 DeepSeek-GRM 在通用奖励生成上的性能,论文探索了基于采样的策略,以实现有效的推理时扩展性

Voting with Generated Rewards

  • 投票是 RM 中广泛采用的实现推理时扩展的方法
  • 回顾第 2.1 节的方法,论文展示了 Semi-scalar RM 和生成式 RM 对于 \( k \) 个样本的投票结果
  • 对于 Semi-scalar RM (2024; ),投票以平均方式进行:
    $$
    S^* = \frac{1}{k} \sum_{i=1}^{k} S_{i}, \quad \{\mathcal{R}_{i}=(S_{i}, C_{i})\}_{i=1}^{k} \sim r_{\theta} \left( x, \{y_{i}\}_{i=1}^{n} \right),
    $$
    • 其中 \( S^* \) 是最终奖励
    • 在实践中, Scalar 值方差有限,这可能会阻碍扩展性
  • 对于 Pairwise GRM (2024; ),投票以多数表决方式选择被识别为最佳的 Response :
    $$
    \hat{y}^* = \arg \max_{y} \sum_{i=1}^{k} \mathbb{I}(y = \hat{y}_{i}), \quad \{\mathcal{R}_{i}=C_{i}\}_{i=1}^{k} \sim r_{\theta} \left( x, \{y_{i}\}_{i=1}^{n} \right),
    $$
    • 其中 \( \hat{y}^* \) 是最终预测的最佳 Response
    • \( f_{\text{pair} }(\cdot, \cdot) \) 是一个选择函数
    • \( \hat{y}_{i} = f_{\text{pair} }(\mathbf{C}_{i}, \{y_{i}\}_{i=1}^{n}) \) 是每个样本单独选择的最佳 Response
    • \( \mathbb{I}(\cdot) \) 是指示函数
    • 虽然投票过程是可扩展的,但由于每个样本中不允许出现平局,多数投票结果可能存在偏差,并且由于缺乏量化分数,可能无法区分 Response 之间的细微差别
  • Pointwise GRM 的投票过程定义为奖励求和:
    $$
    S_{i}^{*} = \sum_{j=1}^{k} S_{ij}, \quad \{p_{ij}\}_{i=1}^{m_{j} } \sim p_{\theta} \left( x, \{y_{i}\}_{i=1}^{n} \right), \mathcal{R}_{j} = C_{j} \sim r_{\theta} \left( x, \{y_{i}\}_{i=1}^{n}, \{p_{ij}\}_{i=1}^{m_{j} } \right), j=1,…,k,
    $$
    • 其中 \( S_{i}^{*} \) 是第 \( i \) 个 Response (\( i=1,…,n \)) 的最终奖励,且 \( \{S_{ij}\}_{i=1}^{n} = f_{\text{point} }(C_{j}, \{y_{i}\}_{i=1}^{n}) \) 是第 \( j \) 组 Pointwise 奖励
    • 由于 \( S_{ij} \) 通常被设定在一个较小的离散范围内, 例如 \{1,…,10\},投票过程实际上将奖励空间扩展了 \( k \) 倍,并使 GRM 能够生成大量 Principle ,这有益于最终奖励的质量和粒度
      • 一个直观的解释是,如果每个 Principle 可以被视为判断视角的代理,那么更多的 Principle 可能更准确地反映真实分布,从而产生扩展效果。值得注意的是,为了避免位置偏差并增加多样性,在采样前会对 Response 进行打乱

Meta Reward Modeling Guided Voting

  • DeepSeek-GRM 的投票过程需要多次采样,并且由于随机性或模型限制,少量生成的 Principle 和评判 (Critique) 可能存在偏差或质量低下
    • 因此,论文训练了一个 Mata RM 来引导投票过程(guide the voting process)
  • Mata RM 是一个 Pointwise Scalar RM,旨在识别 DeepSeek-GRM 生成的 Principle 和 Critique 的正确性,使用二元交叉熵损失,其中标签根据公式 10 确定
    • 提示模板见附录 G,整合了 Query 、候选 Response 、相应 Principle 和 Critique
  • 数据集包括 RFT 阶段来自非提示采样的轨迹,以及来自待引导的 DeepSeek-GRM 的采样轨迹,这既能提供足够的正负奖励,又能缓解训练与推理策略之间的差距,正如 Chow 等 (2025) 所建议
  • 引导的投票过程很简单(即使用 Meta RM 的方式):
    • Mata RM 输出 \( k \) 个采样奖励的元奖励,最终结果由元奖励最高的前 \( k_{\text{meta} } \leq k \) 个奖励进行投票得出,从而过滤掉低质量样本

Results on Reward Modeling Benchmarks

Experiment Settings

Benchmarks and Evaluation Metrics
  • 论文在不同领域的多个 RM 基准测试上评估不同方法的性能:
    • Reward Bench (RB) (2024),PPE(偏好和正确性子集)(2025),RMB (2025),Real.Mistake (2024)
  • 论文对每个基准测试使用标准评估指标:Reward Bench、PPE 和 RMB 中从一组 Response 中选取最佳 Response 的准确率,以及 Real.Mistake 的 ROC-AUC
  • 为了处理多个 Response 预测奖励出现平局的情况,论文打乱 Response 顺序,并通过 \( \arg \max_i S_i \) 确定最佳 Response ,其中 \( S_i \) 是打乱后第 \( i \) 个 Response 的预测奖励
  • 细节见附录 D
Method Implementation
  • 对于基线方法,论文基于 Gemma-2-27B (2024) 并采用与 DeepSeek-GRM 兼容的所有训练数据和设置,重新实现了 LLM-as-a-Judge (2023),DeepSeek-BTRM-27B(Bradley-Terry 模型)(1940),CLoud-Gemma-2-27B (2024) 和 DeepSeek-PairRM-27B (2023)
  • 对于论文的方法,论文基于 Gemma-2-27B 实现了 DeepSeek-GRM-27B-RFT,并在不同规模的 LLM 上实现了 DeepSeek-GRM,包括 DeepSeek-V2-Lite (16B MoE) (2024a),Gemma-2-27B,DeepSeek-V2.5 (236B MoE) 和 DeepSeek-V3 (671B MoE) (2024b)
  • Mata RM 在 Gemma-2-27B 上训练
  • 默认结果使用 贪婪解码(greedy decoding) 报告,推理时扩展(inference-time scaling)使用温度 = 0.5
  • 其他细节见附录 C

Results and Analysis

Performance on RM Benchmarks
  • 不同方法和模型在 RM 基准测试上的总体结果如表 2 所示
  • 论文将 DeepSeek-GRM-27B 的性能与公开模型的报告结果(Reported Results of Public Models)以及基线方法的复现结果(Reproduced Result of Baseline Methods)进行比较
    • 论文发现 DeepSeek-GRM-27B 在整体性能上优于基线方法,并且与强大的公开 RM(如 Nemotron-4-340B-Reward 和 GPT-4o)相比取得了有竞争力的性能;通过推理时扩展,DeepSeek-GRM-27B 可以进一步改进并获得最佳的整体结果
  • 详细比较来看, Scalar(DeepSeek-BTRM-27B)和 Semi-scalar(CLoud-Gemma-2-27B)RM 在不同基准测试上表现出有偏差的结果,在可验证任务(PPE Correctness)上的性能明显优于所有生成式 RM,但在其他不同基准测试上分别失败
    • 问题:如何理解 Skywork-Reward-Gemma-2-27B 反而是在 Reward Bench 上分数很高,其他任务上分数很低呢?是过拟合吗?
  • 尽管如此,大多数公开的 Scalar RM 也表现出严重的领域偏差
    • PairRM 方法可以缓解这个问题
  • LLM-as-a-Judge 与 DeepSeek-GRM-27B 显示出相似的趋势但性能较低,可能是由于缺乏对单 Response 评分的训练
  • 总之,SPCT 提升了 GRM 的通用奖励生成能力,与 Scalar 和 Semi-scalar RM 相比,偏差显著减少
Inference-Time Scalability
  • 不同方法的推理时扩展结果如表 3 所示,总体趋势如图 1 所示
  • 细节见附录 D.3
  • 在最多 8 个样本的情况下(即 Voting@8),论文发现 DeepSeek-GRM-27B 相对于贪婪解码和采样结果的性能提升最高
    • DeepSeek-GRM-27B 进一步显示出使用更多推理计算资源(最多 32 个样本)提升性能的强大潜力
    • 论文将这种有效性归因于细化的 Principle 生成,它以结构化的方式扩展了输出长度,并引导结果奖励更接近真实分布
  • Mata RM 也显示出其在每个基准测试上为 DeepSeek-GRM 过滤低质量轨迹的有效性
  • 使用 Token 概率进行投票的 LLM-as-a-Judge 也显示出显著的性能提升,这表明 作为量化权重(Quantitative Weights)的 Token 概率可以帮助提高仅基于离散索引进行多数投票的可靠性
  • 对于 CLoud-Gemma-2-27B,性能提升有限
    • 主要是因为 Scalar 奖励生成缺乏方差,即使 Critique 发生了很大变化
  • In Summary,SPCT 提升了 GRM 的推理时扩展性,而 Mata RM 进一步提升了通用场景下的扩展性能
Ablation Study
  • 表 4 展示了所提出的 SPCT 不同组件的消融研究结果,详细结果列在附录 D.3
    • 令人惊讶的是(Surprisingly),即使没有经过拒绝采样 Critique 数据的冷启动,经过通用指令微调的 GRM 在经历 Online RL 后性能仍有显著提升(66.1 → 68.7)
      • 理解:这里是指使用 Online RL 去训练 GRM,这里对比的是第8行模型(仅包含通用指令微调)和第3行模型(在通用指令微调模型上经过了 Online RL 的模型)
    • Also,非提示采样似乎比提示采样更重要
      • 可能是因为提示采样轨迹中出现了走捷径的现象
    • 以上这些都表明了 GRM 在线训练的重要性
  • 与先前工作一致,论文确认通用指令数据对于 GRM 的性能至关重要
    • 论文发现 Principle 生成对于 DeepSeek-GRM-27B 的贪婪解码和推理时扩展性能都至关重要
  • 对于推理时扩展, Mata RM 引导的投票在不同的 \( k_{\text{meta} } \) 下表现出鲁棒性
  • 关于通用 RM 性能的进一步分析,包括输入灵活性、训练数据的领域泛化等,在附录 E 中讨论
Scaling Inference and Training Costs
  • 论文通过在不同规模的 LLM 上进行后训练,进一步研究了 DeepSeek-GRM-27B 的推理时和训练时扩展性能
  • 模型在 Reward Bench 上进行测试,结果如图 4 所示
  • 论文发现,使用 32 个样本直接投票的 DeepSeek-GRM-27B 可以达到与 671B MoE 模型相当的性能,而 Mata RM 引导的投票仅用 8 个样本即可获得最佳结果
    • 这证明了 DeepSeek-GRM-27B 的推理时扩展相较于扩展模型规模有更高的有效性
  • Moreover,论文在包含 300 个样本的下采样测试集上测试了 DeepSeek-R1-0120,发现其性能甚至低于 236B MoE RFT 模型
    • 这表明扩展长思维链进行推理任务并不能显著提升通用 RM 的性能

Related Work

Generative Reward Models

  • GRM 代表了从 Scalar RM (2022) 的范式转变,将奖励建模为文本反馈或分数
  • (2024a; 2024; 2025a; 2024; 2024; 2025),实现了更丰富的奖励表示和更灵活的单个及多个 Response Critique
  • 此前,LLM-as-a-judge 方法 (2023; 2024c) 支持基于参考或无参考的 Pairwise Critique 来评估 LLM
  • 最近的研究使用离线和 Online RL 来训练 GRM (2024; 2024; 2025b; 2025b; 2025),将工具和外部知识与 GRM 结合 (2024b; 2025),甚至训练 GRM 作为调整环境奖励的接口 (2025)
  • 尽管这些方法在效率上面临挑战,但它们展示了大规模改进奖励的潜力,朝着更通用的奖励系统发展

Inference-Time Scaling for LLMs

  • LLM 的推理时扩展一直是一个与训练时扩展并行的重要研究方向
  • 研究集中于采样和 RM 引导的聚合 (2024; 2024; 2025; 2025)
  • 最近,从 LLM 中激励产生的长思维链 (2022) 显著提升了模型在解决 (OpenAI, 2024; DeepSeek-AI, 2025; OpenAI, 2025a) 和 Critique (2025; 2025) 困难可验证问题时的推理能力,这是推理时扩展的另一种形式
  • 然而,论文没有找到像 DeepSeek-AI (2025) 那样有效激励长范围奖励生成以实现通用奖励建模的方法,论文将推理与 Principle 引导的奖励生成的结合留待未来的工程努力
  • 也有研究使用可扩展的奖励或验证器来提升策略模型在编码 (2023)、推理 (2025) 等领域的性能
  • 因此,本工作中推理时可扩展的通用 RM 的发展,也可能通过推理时协同扩展,为策略模型的通用性能做出贡献

Ethics Statement

  • 论文提出的方法,自 Principle Critique 调优 (SPCT),旨在增强生成式奖励模型在通用领域的推理时扩展性
    • 尽管这一进展促进了奖励建模的准确性和一致性,但有几个伦理影响可能需要明确考虑
  • 首先,尽管通过论文的实证分析表明 DeepSeek-GRM 在不同领域表现出较少的偏差,但当训练数据存在毒性时,自动生成的 Principle 和 Critique 可能会无意中延续或放大偏差
    • 作者认为应该优先研究 Mata RM 和其他偏见缓解策略,以确保公平的结果
    • 此外,论文的方法并非旨在削弱人类监督
      • 相反,论文主张维护人在环路框架,并开发可靠的代理方法(如 SPCT)来更高效、更有效地扩展人类监督
  • 其次,推理时可扩展 GRM 在多样化领域的适用性扩大,可能会引发关于透明度、问责制等方面的担忧
    • 由于奖励生成行为很大程度上源于自我引导,不忠实的 Principle 和 Critique 的可能性是不可忽视的
    • 论文在附录 F.1 中展示了案例研究,在附录 B 中说明了局限性,并在公开监督下开源了模型,这对于维护信任和确保工件的负责任部署至关重要
  • 最后,在不同 RM 基准测试和实际场景中进行稳健的验证和持续的警惕仍然至关重要
    • 负责任地使用 DeepSeek-GRM 需要主动管理风险并持续评估偏见,这需要在 RM 评估研究方面付出努力

附录 A:Additional Related Work

Constitutional AI

  • Constitutional AI 已成为传统 RLHF (2022) 的一个可扩展替代方案,旨在通过一套指导 Principle 或“宪法”使语言模型与人类价值观对齐 (2022b; 2023, 2024),用基于这些人工制定 Principle 的AI生成反馈 (2024) 或分类器 (2025) 替代人类 Critique
  • 类似地, Rule-based 方法如 Sparrow (2022) 和 Rule-Based Rewards (RBR) (2024) 将明确的自然语言规则纳入特定领域(如安全性)的训练循环中
  • 尽管这些方法有效,但它们依赖于静态的、人工编写的宪法,这些宪法在范围上有限、可能存在偏见且不够灵活
    • 这激发了人们对自动化生成或改进 Principle 的兴趣,这也与论文本工作的目标相一致

Scalar Reward Models

  • Scalar 奖励模型最初是为 LLMs 提出,作为人类反馈的代理模型 (2020; 2023)
  • 近期的研究侧重于 Bradley-Terry 建模 (1940) 和其他回归方法,以提高 Scalar 奖励模型在通用偏好上的表达能力 (2024; 2024e, 2024b; 2024; 2025b)
  • 与这些结果奖励模型相比,过程奖励模型被提出作为推理问题(如数学等)的步骤验证器 (2021; 2024b; 2025b),展示了 Scalar RM 在具有广泛推理和知识的正式领域中的可行性
  • Scalar RM 的优点是简单且计算高效,但表达能力有限,并且难以跨不同输入类型进行泛化或在推理时细化奖励信号

Semi-Scalar Reward Models

  • Semi-scalar 奖励模型旨在通过文本中间表示来丰富 Scalar 奖励信号 (2025a; 2024)
    • (2025b) 提出通过提高生成的 critiques 的质量来最终改进奖励生成
  • 一些研究使用 token 概率来替代 Scalar 头部进行奖励提取 (2024; 2025a)
  • 以上这些工作表明
    • Semi-scalar RM 在基于采样和投票的推理时扩展方面面临挑战,导致性能提升有限
    • Semi-scalar 方法在效率和效果之间权衡了 Scalar RM 和 GRM

附录 B:Limitations and Future Directions

Limitation

  • 尽管 SPCT 显著提升了 GRM 的性能和推理时扩展性,并在通用领域超越了(Semi)Scalar RM,但它仍面临一些局限性
  • (1) 生成式 RM 的效率本质上远远落后于同等规模的 Scalar RM,这抑制了其在 Online RL Pipeline 中的大规模使用
    • 然而,由于论文采用并行采样进行推理时扩展,使用合理数量的采样(例如8次)进行奖励生成的延迟不会显著增加
    • 围绕 LLM 高效生成和 RM 应用创新的进一步研究可能缓解此问题
  • (2) 在特定领域(如可验证任务)中,DeepSeek-GRM 仍然落后于 Scalar 模型
    • 这可能是因为 Scalar RM 捕获了推理 Query 和 Response 的隐藏特征 ,而 GRM 需要更强的推理能力来彻底检查 Response
      • 然而, Scalar RM 存在严重的偏见和扩展性问题
    • 对于 GRM,论文发现基于参考的奖励生成(附录 E.1.3)和长链条推理(附录 D.3)可以缓解这一局限
  • (3) 由于 Pointwise GRM 方法的普适性,DeepSeek-GRM 除了作为结果 RM 外,还可能作为过程 RM
    • 尽管论文在论文中没有深入探索这个方向,但在 Reward Bench 的 Reasoning 子集(主要包含 MATH-prm 数据 (2024))上的性能部分支持了这种应用的潜力

Future Direction

  • 基于 SPCT 或 DeepSeek-GRM 模型,未来研究有几个有希望的方向
  • (1) 先前工作研究了 RM 的工具集成 (2024b),也可用于 DeepSeek-GRM 增强
    • 使用诸如代码解释器和搜索引擎接口等工具 ,生成的 critiques 对于需要严格流程或广泛知识的任务可能更准确,并且可以避免 GRM 在遵循与数值计算、模式匹配等相关 Principle 时失败的情况
  • (2) Principle 和 critiques 的生成范式可以分解 为不同阶段,即 Principle 可以为每个待评分的 Query 和 Response 预先生成并存储,然后使用 GRM、规则或其他智能体方法生成 critiques
    • Principle 生成作为后续 critiques 的接口
    • 这可能会提高当前 GRM 集成到 RL Pipeline 中的效率
  • (3) DeepSeek-GRM 可能用于 LLM 离线评估
    • 由于每个 Principle 反映了一个标准,我们可以从特定 LLM 劣于另一个 LLM 的所有数据点中获取标准,作为解释该特定 LLM 弱点的可解释协议
    • 问题:实践发现,如果 Principle 是 Query-Specific 的,此时使用 Chosen 和 Rejected 来作为 Rubrics 生成参考容易出现过拟合,是否在通用的 Rubrics 中使用更合适?
  • (4) DeepSeek-GRM 可能受益于长链条推理
    • 然而,这会进一步影响其效率
    • 这些方向应在未来工作中进行研究

附录 C:Implementation Details

C.1 Model Training

  • 对于 Rule-based Online RL,论文使用标准的 GRPO 设置 (2024),总体目标函数为:
    $$
    \begin{align}
    \mathcal{J}_{\text{GRPO} }(\theta)=\mathbb{E}_{[q\sim P(Q),\{o_{i}\}_{i=1}^{G}\sim\pi_{\theta_{old} }(O|q)]} &\frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_{i}|} \sum_{t=1}^{|o|} \\
    &\left\{\min\left[\frac{\pi_{\theta}(o_{i,t}|q.o_{i<t})}{\pi_{\theta_{old} }(o_{i,t}|q.o_{i<t})}\hat{A}_{i,t}, \text{clip}\left(\frac{\pi_{\theta}(o_{i,t}|q.o_{i<t})}{\pi_{\theta_{old} }(o_{i,t}|q.o_{i<t})}, 1-\epsilon, 1+\epsilon\right)\hat{A}_{i,t}\right]-\beta\mathbb{D}_{KL}\left[\pi_{\theta}||\pi_{ref}\right]\right\},
    \end{align}
    $$
    • 其中 \(\hat{A}_{i,t}=\frac{\hat{r}_{t}-\text{mean}(\hat{t})}{\text{std}(\hat{t})}\),\(G\) 是组大小,\(\beta\) 是 KL 惩罚系数,\(q=(x,\{y_{i}\}_{i=1}^{n})\) 包含 prompts
    • 论文对超参数 \(\beta\in\{0.00,0.01,0.02,0.08\}\) 进行了网格搜索,发现 \(\beta=0.08\) 是 DeepSeek-GRM-27B 最稳定的配置
      • 当 KL 系数太小时,DeepSeek-GRM-27B 倾向于在基准测试的几个子集上崩溃,例如 Reward Bench 中的 Chat 子集和 RMB 中的 Harmlessness 子集,并对其他一些领域表现出偏见
      • 对于较小的 DeepSeek-GRM-16B,论文使用 \(\beta=0.002\),因为它对 KL 损失系数不那么敏感
    • 论文设置 \(G=4\) 以在效率和性能之间取得更好的平衡
  • 训练集包含 1256K RFT 数据,包括 \(1070\)K 通用指令数据和 \(186\)K 拒绝采样数据,以及 \(237\)K RL 数据
    • 通用指令数据来自内部数据集
    • 拒绝采样数据和 RL 数据来自相同的 RM 数据集,包含对单个、 Pairwise 和多个 Response 的偏好,这些数据由内部数据和开源数据集构建,包括来自 MATH (2021)、UltraFeedback (2024)、OffsetBias (2024)、Skywork-Reward-Preference-80K-v0.2 (2024) 和 HelpSteer2-Preference (2025b) 的训练集
      • Specifically,由于 UltraFeedback 的部分数据存在质量问题,论文重新标记了其偏好标签;
      • 论文根据 Rule-based ground-truth 匹配对 MATH 进行采样和过滤轨迹,生成 Pairwise 偏好数据;
    • 对于评分单个 Response ,论文将正确 Response 的 ground-truth 奖励设置为 1,错误 Response 的奖励设置为 0,仅纳入可验证的问题
    • 对于拒绝采样,论文使用 DeepSeek-v2.5-0905 生成带有 Principle 和 critiques 的轨迹
    • 采样次数 \(N_{\text{RFT} }\) 设置为 3
    • 在 HelpSteer2 上进行 hinted sampling 时,论文添加原始数据集中标注的偏好强度作为提示
    • 论文还从 RL 数据中移除了对 DeepSeek-V2-Lite-Chat 来说过于简单的样本 ,即根据公式 (10),所有生成的奖励在三次生成中都是正确的
  • DeepSeek-GRM 模型和 meta RM 的派生关系(derivation)如图 5 所示
    • 所有 DeepSeek-GRM 模型都是从 LLM 的预训练版本开始训练的
    • 对于 meta RM 的训练,论文复用了 RFT 阶段的拒绝采样数据,并使用 DeepSeek-GRM-27B 进行拒绝采样,\(N_{\text{RFT} }=3\),以避免 meta RM 引导投票中的潜在偏见 (2025)
    • meta RM 训练的学习率为 \(1\times 10^{-5}\),批次大小为 512
  • DeepSeek-GRM-27B 的 RFT 和 RL 训练时间如表 5 所示,基于 Gemma-2-27B 的模型在 Fire-Flyer 平台 (2024) 上使用 128 个 A100 GPU 进行训练
    • RFT 阶段的学习率为 \(5\times 10^{-6}\),RL 阶段的学习率为 \(4\times 10^{-7}\),RFT 阶段的批次大小为 1024,RL 阶段为 512
      • 两个阶段均训练 900 步
    • 由于资源限制,大于 27B 的 DeepSeek-GRM 模型未经过 Rule-based RL,仅使用 50K 拒绝采样数据进行训练

C.2 Baseline Implementation

  • 对于基线方法,论文基于 Gemma-2-27B (Team, 2024) 并采用与 DeepSeek-GRM 兼容的所有训练数据和设置,重新实现了 LLM-as-a-Judge (2023)、DeepSeek-BTRM-27B (Kendall & Smith, 1940)、CLoud-Gemma-2-27B (2024) 和 DeepSeek-PairRM-27B (2023)
  • 对于 LLM-as-a-Judge ,
    • 论文使用与 DeepSeek-GRM-27B 完全相同的训练配置,包括使用 DeepSeek-v2.5-0905 的拒绝采样数据进行 RFT 和 Rule-based Online RL
    • 由于其评分模式,RL 阶段只能使用 Pairwise 数据
    • 对于 CLoud-Gemma-2-27B ,论文也使用相同的 prompt 模板从 DeepSeek-v2.5-0905 生成 pointwise critiques
      • 然而,由于没有训练好的价值头就无法提取奖励,执行拒绝采样是不可行的
      • 论文使用 DeepSeek-GRM-27B 的相同通用指令数据以及采样的 critique 对 Gemma-2-27B 进行微调,得到一个 critique 生成模型
      • 具体来说,论文微调了另一个带有价值头的 Gemma-2-27B 模型用于奖励生成,而不是在 critique 模型上进行事后的价值头训练
    • CLoud-Gemma-2-27B 的价值头、DeepSeek-BTRM-27B 和 DeepSeek-PairRM-27B (2023) 的训练使用与 DeepSeek-GRM-27B 的 RL 阶段相同的数据集,但排除了单个 Response 评分数据

附录 D:Experiment Details

D.1 Hyper-Parameters

  • 对于 DeepSeek-GRM-27B、DeepSeek-GRM-16B、LLM-as-a-Judge 和 CLoud-Gemma-2-27B 的推理时扩展结果,每个模型的温度 (temperature) 设置为 0.5
    • 对于其他实验,所有模型的温度设置为 0
  • 在没有特定说明的情况下,DeepSeek-GRM-27B 的 meta RM 引导投票中默认 \(k_{\text{meta} }=\frac{1}{2}k\)
  • 对于 DeepSeek-R1-0120 的推理,温度设置为 0.6
  • 请注意,论文让 DeepSeek-GRM 在 Real.Mistake 基准测试中为单个 Response 评分时,输出的奖励范围与其他基准测试相同

D.2 Benchmarks

  • 论文在不同领域的各种 RM 基准上评估不同方法的性能:
    • (1) Reward Bench (RB) (2024),一个常用的 RM 评估基准,包含半自动收集的聊天 (2023; 2023; 2024)、推理 (2024; 2024) 和安全性 (Rö2024; 2024d) 偏好数据,其中每个 Query 需要对两个 Response 进行排序;
    • (2) PPE (2025),一个包含众包偏好数据和可验证任务正确性数据的大规模基准,每个 Query 有两个 Response ;
    • (3) RMB (2025),一个更全面的基准,包含各种类型的偏好数据,侧重于帮助性和无害性,每个 Query 有两个或更多 Response ,分别在 Pairwise 和 best-of-N (BoN) 子集中;
    • (4) Real.Mistake (2024),一个用于诊断单个 Response 中错误的基准
    • 论文在总体分数计算中不包括 Reward Bench 基准测试的 prior sets (2022a; 2021; 2022; 2020)
    • 对于报告的公开模型结果,论文使用每个基准发布的分数
      • gpt-4o 的版本略有不同,因为论文报告的是 gpt-4o-2024-08-06 在 Reward Bench 和 PPE(Correctness 子集使用 AlpacaEval prompt 模板复现)上的结果,以及 gpt-4o-2024-05-13 在 RMB 上的结果
  • 论文为每个基准使用标准评估指标:在 Reward Bench、PPE 和 RMB 中从一组 Response 中挑选最佳 Response 的准确度,在 Real.Mistake 中使用 ROC-AUC
    • RMB 基准测试的 BoN 子集每个 Query 包含多个 Response ,只有当最佳 Response 被识别时,每个数据点才被视为正确
    • 评估模型在 RMB BoN 子集上的默认设置是,如果总共有 \(n\) 个 Response,则 Pairwise 评估 \((n-1)\) 对(每对包含最佳 Response 和另一个不同的 Response)
      • 对于基线方法,论文采用这种方法进行评估
      • 而对于论文的模型 (DeepSeek-GRM),论文直接将所有 Response 输入模型,并通过 \(\arg\max_{i} S_i\) 识别最佳 Response ,其中 \(S_i\) 是第 \(i\) 个 Response 的预测奖励
        • 这是一种更直接但也更困难的方式,并且几乎不影响性能
        • 请参阅附录 E.1.1 的经验分析
        • 问题:这里再次强调了论文是同时将所有 Response 输入模型的
  • 对于 DeepSeek-R1-0120,由于推理成本和延迟巨大,论文从 Reward Bench 基准测试中均匀下采样了 300 个数据点,并在该子集上测试 DeepSeek-R1-0120
    • 结果如图 4(b) 所示

D.3 Detailed Results

  • 论文在图 6 中提供了图 1 的详细结果,并提供了更多公开模型的性能作为参考
  • 论文在表 6 中提供了表 3 的详细结果
  • 在表 7 中提供了表 4 的详细结果,并给出了每个 RM 基准测试的分数
  • 此外,论文列出了所有测试方法在每个 RM 基准测试上的详细结果,Reward Bench 基准测试的结果在表 8 中,PPE Correctness 基准测试在表 9 中,RMB 基准测试在表 10 中
    • 论文发现,DeepSeek-R1 在 Reward Bench 的 Reasoning 子集中取得了最高结果,表明长链条推理可以提升 GRM 在广泛推理场景中的表现

附录 E:Additional Experiments

E.1 Input Flexibility of the Pointwise GRM Approach

  • 在章节 2.1 中,论文从理论上论证了 pointwise GRM 方法的输入灵活性
    • 在本节中,论文提供了各种输入类型的经验证据来支持这一观点
E.1.1 Generating Rewards for Many Responses
  • 在表 11 中,论文展示了 DeepSeek-GRM-27B 在 RMB 基准测试 BoN 子集上的实验结果,其中每个 Query 有多个 Response
  • 如果总共有一个 Query 有 \(n, (n>2)\) 个 Response , Pairwise 输入设置是评估 \((n-1)\) 对,每对包含最佳 Response 和其他 Response ,只有当最佳 Response 从所有 \((n-1)\) 对中被正确识别时,该数据点才被视为正确
    • 这也是原始基准测试的默认设置
  • 论文比较了 DeepSeek-GRM-27B 在 Pairwise 输入和列表输入设置下的性能,列表输入设置是输入所有 \(n\) 个 Response 来识别最佳 Response
    • 结果表明,DeepSeek-GRM-27B 几乎不受输入类型的影响,在帮助性和无害性子集上的性能差异都小于 1%
    • 这表明 pointwise GRM 可以灵活地输入多个 Response ,并且性能对输入类型不敏感
E.1.2 Generating Rewards for Single Responses
  • 在表 13 中,论文展示了 DeepSeek-GRM-16B 和 DeepSeek-GRM-27B 在 Real.Mistake 基准测试上的实验结果,其中每个 Query 只有一个 Response
    • 论文与公开模型(如 DeepSeek-V2.5-0905、GPT-4o-2024-08-06、DeepSeek-V2-Lite 和 Gemma-2-27B-it)以及 DeepSeek-BTRM-27B 进行了比较
    • 结果显示,DeepSeek-GRM 在同等规模的模型中取得了最佳性能,并且通过推理时扩展,性能与最佳公开模型相当
    • 这表明 pointwise GRM 可以有效地对单个 Response 进行评分
E.1.3 Generating Rewards with Reference
  • 在章节 5.2 中,论文展示了 Scalar 和 Semi-scalar RM 可能存在显著的领域偏见,并且通常在可验证问题上表现更好
  • 为了缓解这个问题,论文测试了 DeepSeek-GRM-27B 在这些任务中使用参考(即每个 Query 的 ground truth)生成奖励的能力
  • 结果如表 12 所示
    • 论文发现,在提供参考的情况下,DeepSeek-GRM-27B 可以达到超过 90% 的准确率
    • 这表明 pointwise GRM 可以有效地根据参考判断 Response ,从而缓解了在可验证任务上的性能问题

E.2 Transferability of Generated Principles

  • 论文用 DeepSeek-GRM-27B 生成的 Principle 扩展了章节 2.2 中的初步实验
  • 论文测试了 GPT-4o-2024-08-06 和 DeepSeek-GRM-27B 使用与表 1 完全相同的手动过滤 Principle 以及上述 DeepSeek-GRM-27B 生成的 Principle
  • 结果如表 14 所示
    • 论文发现 DeepSeek-GRM-27B 生成的 Principle 可以迁移到其他模型,甚至比手动从 GPT-4o 过滤的 Principle 略好
    • 这表明 DeepSeek-GRM-27B 生成的 Principle 是稳健的且可迁移到其他模型

E.3 eneralization beyond Training Data

  • 论文对 DeepSeek-GRM-27B 训练数据的泛化能力进行了消融研究
  • 论文移除了 MATH 训练集中的所有数据,并重新实施了训练方案
  • 在 Reward Bench 基准测试上的结果如表 15 所示
    • 论文发现,仅添加与数学相关的偏好数据也可以提升通用 RM 在不同领域上的性能,尤其是在 Chat Hard 子集上
    • 结果表明 DeepSeek-GRM-27B 可以泛化到训练数据覆盖范围之外的领域

E.4 Response Length Analysis for Rule-Based RL

  • 论文在图 7 中计算了 DeepSeek-GRM-27B 在进行 Rule-based Online RL 前后在 Reward Bench 基准测试各子集上的 Response 长度
    • DeepSeek-GRM-27B 的 token 计数基于 Gemma-2-27B 的 tokenizer 计算,而 DeepSeek-R1-0120 的结果使用其对应的 tokenizer
    • 论文发现,Chat 子集的 Response 长度在 RL 后几乎没有增加,而 Safety 子集的 Response 长度甚至略有下降
    • Response 长度增加最大的是在 Reasoning 子集,根据表 8,DeepSeek-GRM-27B 在该子集上的性能相比 DeepSeek-GRM-27B-RFT 也提升最大
    • 这可能表明 DeepSeek-GRM-27B 学会了在广泛推理任务上自适应地使用更多推理计算资源,并且在模型学会准确生成 Principle 后,可以节省一些其他领域(如安全性)的计算
    • 然而,DeepSeek-R1-0120 使用了多得多的 tokens 却取得了更低的结果(Reasoning 除外),这表明长链条推理也有助于与广泛推理相关的 RM 任务

附录 F:Qualitative Analysis

F.1 Case Study

  • 论文在表 16、17 和 18 中提供了 DeepSeek-GRM-27B 的案例研究

  • 第一个案例表明, Scalar RM DeepSeek-BTRM-27B 在特定情况下可能被攻击或存在偏见,而 DeepSeek-GRM-27B 生成文本 Principle 和 critiques,表现出更好的鲁棒性

  • 第二个案例展示了 DeepSeek-GRM-27B 的可扩展行为,通过在多个样本上投票生成准确的奖励

    • 相应的 meta RM 分数也显示了 meta RM 在引导投票过程中的有效性
  • 第三个案例展示了 DeepSeek-GRM-27B 的潜在失败,这是由于模型无法根据某些 Principle(例如评估实时数据)准确判断 Response ,并且每个 Principle 的权重可能不平衡

    • 包含权重分配和分数收集的 critique 过程主要来自 RFT 和 Online RL 训练,这在不同的采样和测试案例中可能有很大差异
  • 示例核心:

    • 在输入 <Query, Response1, Response2> 后, DeepSeek-GRM-27B-Result 的输入类似:

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      Specific Criteria:
      1. **Depth of Analogies and Metaphors** (Weight: 30%): The extent
      to which the analogies and metaphors used are deep, creative, and
      effectively convey complex concepts.
      2. **Comprehensiveness of Core Information** (Weight: 30%): The
      thoroughness with which the core information essential to behavioral
      neuroscience is covered.
      3. **Clarity and Organization** (Weight: 20%): The clarity of explanations
      and the logical organization of the information.
      4. **Engagement and Appeal** (Weight: 20%): The level of engagement
      and appeal the response has, making the information interesting and
      memorable.
      Analysis:
      - **Response 1**: This response excels in comprehensiveness and clarity,
      covering all major aspects of behavioral neuroscience with detailed
      and well-organized explanations. The analogies and metaphors are
      well-crafted and effectively enhance understanding. However, some
      metaphors could be more creative to enhance engagement further.
      - **Response 2**: This response is also comprehensive and clear, but
      it stands out more in the depth and creativity of its analogies and
      metaphors. The organization is logical, and the explanations are clear.
      The engagement level is high, making the information appealing and
      memorable.
      Scores: \boxed{8, 9}
      • 特点:先给出具体的 Principle 和 权重,再进行打分分析,最终给出得分
    • 对于使用 Meta RM 的场景,DeepSeek-GRM-27B-Result 模型会回复多个上面的类似打分,每个都是 \boxed{8, 9} 的形式,然后会根据 Meta RM 的评估分数汇总 DeepSeek-GRM-27B-Result 的打分

      • 注意:在使用 Meta RM 时,在输入 DeepSeek-GRM-27B-Result 时,可能会随机调换 Response1 和 Response2 的顺序

Failure Mode Analysis

  • 论文从 DeepSeek-GRM-27B 在每个基准测试上的测试结果中随机抽样了 10 个错误数据点 (只有 10 个数据,诚意不够),并在图 8 中总结了失败模式
  • 对失败案例的分析表明,挑战主要在于模型无法判断过于复杂或属于特定领域(如模式匹配、计数等)的 Response ,以及缺乏专家知识,从而导致错误的 critiques
    • 尽管在大多数情况下 Principle 生成正确,但模型为每个 Principle 分配的权重会影响奖励的生成,有时会导致错误的结果
  • 然而,论文也发现
    • RM 基准测试中少数数据点的 ground truth 与人类标注者的偏好不一致
    • 可能是由于小规模人工标注研究的偏见或 ground truth 标注中的潜在错误

附录 G:Prompt Templates

  • 论文在下面展示了用于 DeepSeek-GRM、训练期间用于单个 Response 的 DeepSeek-GRM、meta-RM 以及 LLM-as-a-Judge 的 prompt 模板
  • 对于 prompt 工程,论文设计了一些示例 Principle ,用于上下文学习和基本的 critique 指导
  • 论文对 meta RM 使用更简洁的模板,以确保 Query 、 Response 以及生成的 Principle 和 critiques 能够适应上下文窗口
  • 在组装 meta RM 的模板后,论文进一步将内容封装在专为 DeepSeek-V3-1226 (DeepSeek-AI, 2024b) 设计的聊天模板中,然后再进行输入

DeepSeek-GRM (Default)

  • DeepSeek-GRM (Default) Prompt

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    You are a skilled little expert at scoring responses. You should evaluate given responses based
    on the given judging criteria.\n Given the context of the conversation (the last round is the
    User’s query) and multiple responses from the Assistant, you need to refer to the [General
    Evaluation Criteria] to score the responses. Based on the general evaluation criteria, state
    potential other specific criteria to the query, the weights of different criteria, and then provide
    an overall comprehensive score upon them.\n Each score is an integer between 1 and 10,
    with a higher score indicating that the response meets the relevant criteria more closely. For
    example, a score of 1 means the response does not meet the criteria at all, a score of 6 means
    the response meets only some parts, and a score of 10 means the response perfectly meets the
    evaluation criteria.\n Before scoring, please analyze step by step. Your scoring needs to be as
    strict as possible.
    #### Evaluation Criteria ####
    1. Instruction Adherence:\n - Fully Adhered (9-10 points): The response fully complies with
    all instructions and requirements of the question.\n - Partially Adhered (6-8 points): The
    response meets most of the instructions but has some omissions or misunderstandings.\n -
    Basically Adhered (3-5 points): The response meets some instructions, but the main
    requirements are not fulfilled.\n - Not Adhered (1-2 points): The response does not meet any
    instructions.\n Example: If the question requires three examples and the response provides
    only one, it falls under “Partially Adhered.”
    2. Usefulness:\n - Highly Useful (9-10 points): The response provides comprehensive and
    accurate information, fully addressing the issue.\n - Useful but Incomplete (6-8 points):
    The response provides some useful information, but lacks details or accuracy.\n - Limited
    Usefulness (3-5 points): The response offers little useful information, with most content
    being irrelevant or incorrect.\n - Useless or Incorrect (1-2 points): The response is completely
    irrelevant or incorrect.\n Example: If there are factual errors in the response but the overall
    direction is correct, it falls under “Useful but Incomplete.”
    3. Level of Detail:\n - Very Detailed (9-10 points): The response includes ample details
    covering all aspects of the issue.\n - Detailed but Slightly Lacking (6-8 points): The response
    is fairly detailed but misses some important details.\n - Basically Detailed (3-5 points): The
    response provides some details but is not thorough enough overall.\n - Not Detailed (1-2
    points): The response is very brief and lacks necessary details.\n Example: If the response
    provides only a simple conclusion without an explanation, it falls under “Not Detailed.”
    4. Relevance:\n - Highly Relevant (9-10 points): The response is highly relevant to the
    question, with information closely aligned with the topic.\n - Generally Relevant (6-8 points):
    The response is generally relevant but includes some unnecessary information.\n - Partially
    Relevant (3-5 points): The response has a lot of content that deviates from the topic.\n - Not
    Relevant (1-2 points): The response is completely irrelevant.\n Example: If the response strays
    from the topic but still provides some relevant information, it falls under “Partially Relevant.”
    #### Conversation Context ####\n{conversation context & query}\n
    #### Responses to be Scored ####
    [The Begin of Response i]\n{the i-th response}\n[The End of Response i]\n
    #### Output Format Requirements ####
    Output with three lines
    Specific Criteria: <Other potential criteria specific to the query and the context, and the
    weights of each criteria>.
    Analysis: <Compare different responses based on given Criteria>.
    Scores: <the overall comprehensive score of all responses in order, separate by comma in the
    boxed, e.g., \boxed{x, x} if there exists 2 responeses>.
    • DeepSeek-GRM Prompt 中,输入的 Reponse 可以多个

Meta RM

  • Meta RM Prompt
    1
    2
    3
    4
    5
    6
    7
    8
    **Prompt:**
    Please score the responses.
    #### Conversation Context ####\n{conversation context & query}\n
    #### Responses to be Scored ####
    [The Begin of Response i]\n{the i-th response}\n[The End of Response i]\n
    -----
    **Response:**
    {principle & critique}

LLM-as-a-Judge

  • LLM-as-a-Judge Prompt

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    You are a skilled little expert at scoring responses. You should evaluate given responses based
    on the given judging criteria.\nGiven the context of the conversation (the last round is the
    User’s query) and multiple responses from the Assistant, you need to refer to the [General
    Evaluation Criteria] to score the responses. Based on the general evaluation criteria, state
    potential other specific criteria to the query, the weights of different criteria, and then select
    the best response among all candidates.\nBefore judging, please analyze step by step. Your
    judgement needs to be as strict as possible.
    #### Evaluation Criteria ####
    1. Instruction Adherence:\n - Fully Adhered: The response fully complies with all instructions
    and requirements of the question.\n - Partially Adhered: The response meets most of the
    instructions but has some omissions or misunderstandings.\n - Basically Adhered: The
    response meets some instructions, but the main requirements are not fulfilled.\n - Not
    Adhered: The response does not meet any instructions.\n Example: If the question requires
    three examples and the response provides only one, it falls under “Partially Adhered.”
    2. Usefulness:\n - Highly Useful: The response provides comprehensive and accurate
    information, fully addressing the issue.\n - Useful but Incomplete: The response provides
    some useful information, but lacks details or accuracy.\n - Limited Usefulness: The response
    offers little useful information, with most content being irrelevant or incorrect.\n - Useless or
    Incorrect: The response is completely irrelevant or incorrect.\n Example: If there are factual
    errors in the response but the overall direction is correct, it falls under “Useful but Incomplete.”
    3. Level of Detail:\n - Very Detailed: The response includes ample details covering all aspects
    of the issue.\n - Detailed but Slightly Lacking: The response is fairly detailed but misses
    some important details.\n - Basically Detailed: The response provides some details but is not
    thorough enough overall.\n - Not Detailed: The response is very brief and lacks necessary
    details.\n Example: If the response provides only a simple conclusion without an explanation,
    it falls under “Not Detailed.”
    4. Relevance:\n - Highly Relevant: The response is highly relevant to the question, with
    information closely aligned with the topic.\n - Generally Relevant: The response is generally
    relevant but includes some unnecessary information.\n - Partially Relevant: The response has
    a lot of content that deviates from the topic.\n - Not Relevant: The response is completely
    irrelevant.\n Example: If the response strays from the topic but still provides some relevant
    information, it falls under “Partially Relevant.”
    #### Conversation Context ####\n{conversation context & query}\n
    #### Responses to be Scored ####
    [The Begin of Response]\n{the response}\n[The End of Response]\n
    #### Output Format Requirements ####
    Output with three lines
    Specific Criteria: <Other potential criteria specific to the query and the context, and the
    weights of each criteria>.
    Analysis: <Compare different responses based on given Criteria>.
    Scores: <the index of the best response based on the judgement, in the format of \boxed{x}>.
    • 除了输入 Response 只有一个以外,其他评估指标等好像和 DeepSeek-GRM(输入的 Reponse 可以多个) 的 Prompt 差不多
1…111213…62
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

618 posts
52 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4