Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

NLP——LLM对齐微调-RaR

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(RaR)Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains, Scale AI, 20251003

Paper Summary

  • 整体总结:
    • Rubrics as Rewards (RaR) 是一个使用结构化、清单式 rubrics 作为奖励信号来对语言模型进行后训练的框架
    • Rubric-guided 的训练在各个领域都实现了强劲的性能,显著优于基于 Likert 的基线,并达到或超过了基于参考的奖励生成方法的性能
  • 背景 & 问题提出:
    • 其他工作已证明 RLVR 对具有明确正确性信号(如数学和编码)的复杂推理任务有效
    • 但将其扩展到现实世界的推理任务具有挑战性
      • 因为评估依赖于微妙、多标准的判断,而非二元正确性(n, multi-criteria judgments rather than binary correctness)
  • Instance-specific rubrics 最近被用于评估基准中以捕捉此类判断,但尚未充分探索奖 Rubrics 用于 On-policy 后训练的奖励信号
  • 论文介绍了一种 On-policy 强化学习方法 Rubrics as Rewards(RaR)
    • 通过使用 Rubric-based 反馈,将 RLVR 扩展到可验证领域之外
  • 在医学和科学领域,论文评估了多种将 Rubric 反馈聚合成奖励的策略
    • 最佳的 RaR 变体在 HealthBench 上实现了高达 31% 的相对提升,在 GPQA-Diamond 上相比流行的、依赖直接 Likert-based 奖励的 LLM-as-judge 基线提升了 7%
    • 问题:这里的 Likert-based 奖励是人工专家打分吗?
  • 这些结果表明,RaR 训练的策略能很好地适应不同的评估格式,在 Rubric-based 任务和多项选择题任务上都表现强劲
  • Moreover,论文发现使用 Rubrics 作为结构化的奖励信号能更好地对齐较小的 Judge 模型,并减少跨不同规模 Judge 的性能方差

Introduction and Discussion

  • RLVR 使得 LLM 能够在具有明确可验证结果的任务上激发复杂推理
    • 这在数学和代码等领域尤其有效,其中奖励模型可以被评分函数或自动验证正确性的测试用例所取代(2019, 2025, 2025)
  • 但是,将 RLVR 扩展到非结构化的现实世界推理具有挑战性
    • 因为此类任务缺乏易于验证的答案
  • 常见的解决方案是使用基于偏好的奖励模型,但它们倾向于过拟合表面的伪影(artifacts)(例如, Response 长度、格式怪癖、标注者偏见)(2023, 2024, 2024, 2024, 2024, 2024),并且需要大量的成对比较(2022)
  • Instance-specific rubrics 最近在专家领域用于细微评估(nuanced evaluation)(2025),但将它们在用于专家级推理的(expert-level reasoning) On-policy 训练中的应用很大程度上尚未被探索
  • 为填补这一空白(To address this gap),论文探索了一种范式转变,它在可验证奖励的简单性和偏好排序(preference rankings)的表达能力之间引入了一个中间地带(middle ground)
    • 偏好排序后者常常伴随人工伪影和操作开销
  • 论文引入了一个用于 On-policy 强化学习的框架Rubrics as Rewards(RaR)
    • 使用结构化标准或 Rubric 作为核心奖励机制
  • 论文不仅仅将 Rubric 用于评估(2025, 2025),而是将其视为清单式(checklist-style)的监督,为 On-policy RL 产生奖励信号
    • 每个 Rubric 由模块化、可解释的子目标组成,提供与专家意图一致的可自动化反馈
    • 通过将”什么是好的 Response “分解为具体、人类可解释的标准,Rubric 在二元正确性信号和粗略偏好排序之间提供了一个中间地带
  • 先前的工作训练生成式奖励模型来学习用可解释的分数评估推理或最终输出(2025, 2025, 2025, 2025, 2025),有些甚至使用模型内部置信度估计作为奖励的代理(2025)
  • 最近的工作已将可验证数据集扩展到 STEM 领域之外,拓宽了 RLVR 方法对更广泛任务的适用性(2025, 2025)
    • 但仍没有找到通用方法实现 指定可靠奖励信号(specifying reliable reward signals),尤其是在没有单一正确答案、需要同时考虑主观和客观标准的任务中
  • In Contrast,论文将 Rubric 视为 Instance-Specific 、可重用的奖励函数
    • Rubric 提供可解释和可自动化的监督,可以一致地应用于新的生成 Rollouts,为 On-policy 学习中的不透明奖励建模提供了可扩展且透明的替代方案
  • 最近的并行工作探索了用于偏好调整和 LLM 安全性的清单和原则性 Rubric 标准(2025, 2025, 2025),突显了向结构化监督发展的趋势
    • 相比之下,论文将 Rubric 转化为用于 On-policy RL 的奖励函数,目标是专家推理和应用现实世界领域
    • 这完成了从 Rubric 到学习的闭环,并提高了在 Rubric 指导的评估和具有可验证答案的任务上的性能
  • 图 1 展示了论文的框架(图 1: RaR 概述)
    • (i) Rubric 生成(Rubric Generation): 论文使用一个强大的 LLM,以四个核心设计原则为指导,合成了 Prompt 特定、自包含的 Rubric 标准,参考答案作为专家监督的代理
    • (ii) GRPO训练(GRPO Training): 这些 Rubric 用于 Prompt 一个 LLM-as-judge 进行奖励估计,通过 GRPO On-policy 学习循环驱动策略优化
  • 论文的主要贡献如下:
    • (i) 论文引入了一个 On-policy 强化学习框架 Rubrics as Rewards(RaR)
      • 使用清单式 Rubric 为推理和现实世界领域提供多标准监督
    • (ii) 论文为医学和科学合成了 Instance-specific rubrics ,并发布了相应的训练集 RaR-Medicine 和 RaR-Science
    • (iii) RaR 训练的模型持续优于强基线,并产生稳定、可泛化的训练信号,在 Rubric 评分和可验证的多项选择评估设置上都取得了收益
    • (iv) 论文的结果表明, Rubric-based 奖励提供了跨 Judge 模型规模的稳定监督,帮助较小的模型有效地与人类偏好对齐,并保持从小型到大型 Judge 的稳健评估性能

Rubrics as Rewards

Problem Formulation

  • 令 \(x\) 表示输入 Prompt ,\(\hat{y}\sim\pi_{\theta}(\cdot \mid x)\) 为来自参数化模型 \(\theta\) 的采样 Response
    • 在没有单一正确答案或自动正确性信号的领域,使用 Instance-specific rubrics 标准定义结构化奖励函数
  • 每个 Prompt \(x\) 与一组 \(k\) 个 Rubric 项 \(\{(w_{j},c_{j})\}_{j=1}^{k}\) 相关联
    • 其中 \(w_{j}\in\mathbb{R}\) 表示标准 \(j\) 的权重,\(c_{j}:(x,\hat{y})\mapsto\{0,1\}\) 是一个二元正确性函数
    • 指示给定 Prompt 下 Response \(\hat{y}\) 是否满足该标准

Reward Aggregation Strategies

  • 论文研究了两种将 Rubric 反馈组合成标量奖励的互补方法
  • 显式聚合(Explicit Aggregation):每个标准使用 LLM-as-judge 独立评估,最终的归一化奖励计算为:
    $$r(x,\hat{y})=\frac{\sum_{j=1}^{k}w_{j}\cdot c_{j}(x,\hat{y})}{\sum_{j=1}^{k}w_{j} } \tag{1}$$
    • 归一化使得奖励在不同 Rubric 数量或权重的 Prompt 之间具有可比性
    • 尽管论文在实验中对 \(c_{j}\) 使用了二元检查,但该公式可以扩展到连续值分数
  • 隐式聚合(Implicit Aggregation):所有 Rubric 标准连同分类权重一起传递给一个 LLM-as-judge ,将聚合委托给模型本身以产生单个标量奖励:
    $$r_{\text{implicit} }(x,\hat{y})=f_{\phi}(x,\hat{y},\{d_{j}\}_{j=1}^{k}) \tag{2}$$
    • 这里,\(f_{\phi}\) 表示一个 LLM-based Judge,它将 Prompt \(x\)、 Response \(\hat{y}\) 和 Rubric 标准集合 \(\{d_{j}\}\) 作为输入
    • 这个公式允许模型直接计算一个整体的奖励分数,避免了手动调整 Rubric 权重的需要
  • 每种方法使用的 Prompt 详见附录 A.6

Generalization of RLVR with Rubrics as Rewards(使用 Rubric 作为奖励对 RLVR 的泛化)

  • Rubric-based 强化学习通过支持多维、 Prompt 特定的评估标准,扩展了标准的 RLVR Setting
  • 论文在下面形式化这种关系
Remark 1:Rubrics as Rewards subsumes RLVR(把 RLVR 归入 RaR )
  • RLVR setting 是公式 1 中定义的基于 Rubric 奖励的一个特例,其中 \(k=1\),\(w_{1}=1\),并且 \(c_{1}(x,\hat{y})\) 简化为一个单一的可验证正确性函数,将模型输出 \(\hat{y}\) 与已知正确答案 \(y\) 进行比较
    • 例如,这可能涉及精确匹配或测试用例执行,形式上:
      $$r_{\text{RLVR} }(x,\hat{y})=\text{match}(y,\hat{y}) \tag{3}$$
    • 其中 \(\text{match}(y,\hat{y})\in\{0,1\}\) 指示 Response 是否满足可验证正确性条件
  • Rubric-based 奖励函数通过实现多维监督、跨标准的灵活加权以及结合 Response 质量的客观和主观方面,泛化了 RLVR
  • 这种形式化强调 RLVR 可以看作是具有单一基本标准的 Rubric 指导 RL(rubric-guided RL)的一个受限实例(restricted instance)
  • In Contrast, Rubric-based 奖励进一步使得在正确性是多方面(multifaceted)且可能无法严格验证的 Settings 中实现结构化监督

Rubric Generation

Desiderata(必要条件)

  • 一个 Rubric 规定了高质量 Response 的标准,并提供人类可解释的监督
  • 论文确定了有效 Rubric 生成的四个必要条件(desiderata):
    • 基于专家指导(Grounded in Expert Guidance)
      • Rubric 应通过捕捉正确性所必需的基本事实、推理步骤和结论来反映领域专业知识
      • 理想情况下(Ideally),这种基础来自于人类专家或其高质量代理
    • 全面覆盖(Comprehensive Coverage)
      • Rubric 应涵盖 Response 质量的多个维度,包括事实准确性、逻辑连贯性、完整性、风格和安全性
      • 负面标准(pitfalls,即陷阱)有助于识别损害整体质量的常见或高风险错误
    • 标准重要性(Criterion Importance)
      • Rubric 应反映 Response 质量的某些维度比其他维度更关键
        • 例如,事实正确性必须优先于次要方面,如风格清晰度
      • 为标准分配权重确保了这种优先级排序,无论是通过简单的分类标签、明确的数值还是学习到的加权方案
    • 自包含评估(Self-Contained Evaluation)
      • 每个 Rubric 项应是独立可操作的,允许人类标注者或自动化 Judge 无需外部上下文或领域特定知识即可独立评估

Rubrics Creation

  • 论文将这些必要条件应用于医学和科学领域的推理任务数据集
  • 鉴于这些领域人类标注的 Rubric 数据集稀缺,论文使用 LLM 从 Golden Reference Answer 中大规模生成 Instance-specific rubrics,从而能够在没有昂贵人工标注的情况下研究结构化奖励

    Given the scarcity of human-annotated rubric datasets in these domains, we use LLMs to generate instance-specific rubrics from golden reference answers at scale, enabling the study of structured rewards without costly human annotation.

  • 对于每个 Prompt ,一个 LLM 生成一个 Rubric,这个 Rubric 包含 7-20 个自包含项 (self-contained items)
    • 每个项被分配一个数值权重和一个分类权重,以反映其相对重要性
    • 虽然数值权重提供了细粒度的优先级排序,但在论文的实验中,为便于在受控设置中实现和解释,论文采用分类标签(Essential(必需)、Important(重要)、Optional(可选)、Pitfall(陷阱))
    • 生成的 Rubric 随后通过显式聚合(公式 1)或隐式聚合(第2.2节)直接用作奖励函数
  • 在实践中,论文使用 OpenAI 的 o3-mini 和 GPT-4o 生成 Rubric ,其生成过程以基础数据集中的参考答案为条件,以近似专家基础
  • 生成的集合 RaR-Medicine 和 RaR-Science 已公开发布供使用
  • 这些 Rubric 集使用显式和隐式奖励聚合,在 GRPO 下监督较小的策略

Experiments

Datasets

  • 论文在两个推理领域,医学(Medicine)和 科学(Science)中研究了 Rubrics as Rewards(RaR)的效用
  • RaR-Medicine:
    • 一个包含20k个 Prompt 的数据集
    • 来源于不同的医学推理来源
      • 包括 medical-o1-reasoning-natural_reasoning (2025),SCP-116K (2025),以及 GeneralThought-430K (2025)
      • 该数据集的 Instance-specific rubrics 使用 GPT-4o 生成(见附录A.1)
  • RaR-Science:
    • 一个包含约20k个 Prompt 的数据集,旨在与 GPQA-Diamond 类别对齐
    • Prompt 来源于 natural_reasoning (2025),SCP-116K (2025),以及 GeneralThought-430K (2025),涵盖了广泛的科学推理任务(附录A.2)
    • 该数据集的 Rubric 使用 o3-mini 合成

Training Details

  • 论文使用 GRPO 算法进行 On-policy 强化学习的所有实验,以 Qwen2.5-7B 作为基础策略
  • 模型训练超参:Batch Size=96、学习率=\(5\times 10^{-6}\)、带有 10% 线性预热的恒定调度器(constant schedule with 10% linear warmup)
    • 完整的超参数设置列在附录 A.3 中
  • 训练运行在配备 8 个 NVIDIA H100 GPU 的单个计算节点上执行
  • 论文的训练流程由以下关键组件组成:
    • Response Generation:
      • 对于每个 Prompt \(q\),论文从当前策略 \(\pi_{\theta}\) 采样 \(k=16\) 个 Response ,使用 3584 的上下文长度和 1.0 的采样温度
    • 使用 Rubric 计算奖励(Reward Computation with Rubrics):
      • 论文使用 gpt-4o-mini 作为 Judge 模型,为采样的 Response 分配奖励 \(R_{q}\)
      • 论文尝试了第 4.3 和 4.4 节 进一步描述的各种奖励计算和聚合策略
    • 策略更新(Policy Update):
      • 策略权重基于计算出的奖励,使用 GRPO 进行更新

Rubric-Free Baselines

  • 论文考虑了各种 Rubric-free 基线和现成的后训练模型
  • Rubric-free 基线以 Qwen2.5-7B 作为基础策略进行训练
  • 现成模型(OFF-THE-SHELF): 对于现成基线,论文评估 Qwen2.5-7B 的性能
    • 论文还包括了 Qwen2.5-7B-Instruct 的性能,以与基础策略的指令调优变体进行比较
    • 理解:不经过任何训练的原始开源模型
  • 直接 Likert(DIRECT-LIKERT):
    • 一个 LLM-as-judge 对每个 Response-Prompt 对提供 1-10 Likert 量表上的直接评估(2024, 2023),并归一化到 \([0,1]\) 范围
    • 得到的分数直接用作训练奖励信号
  • 参考 Likert(REFERENCE-LIKERT):
    • 一个 LLM-as-judge 将生成的 Response 与参考答案(由专家或更强的 LLM 编写)进行比较,并分配一个 1-10 的 Likert 分数(2023),归一化到 \([0,1]\) 范围
    • 这个参考指导的分数被用作策略更新的奖励信号
    • 每个 Prompt-Response-Reference 三元组的奖励定义为:
      $$R_{\text{ref} }(q,x)=\text{Norm}(\text{LikertScore}(q,x,x^{*}))$$
      • 其中 \(x^{*}\) 表示参考答案

Rubric-guided Methods

  • RaR-预定义(RaR-PREDEFINED):
    • 此方法对所有 Prompt 使用一组固定的通用 Rubric (例如,Response 简洁,Response 包含正确信息)
    • 它采用显式聚合方法(公式 1),所有标准权重均匀(见附录 A.5)
  • RaR-显式(RaR-EXPLICIT):
    • 此变体也使用加权和的显式聚合(公式 1),但将其应用于第 3 节中的 Instance-specific rubrics
    • 论文根据生成的分类标签手动分配数值权重:{"Essential": 1.0, "Important": 0.7, "Optional": 0.3, "Pitfall": 0.9}
    • 注:陷阱 Rubric 以正面形式表述(例如,“Response 避免了错误信息”),因此满足它们对分数有积极贡献
      • 如果未满足陷阱,则相应的奖励会减少或受到惩罚
  • RaR-隐式(RaR-IMPLICIT):
    • 此变体使用隐式聚合方法(公式 2)
    • 利用 Prompt-specific Rubrics, Judge 模型整体评估 Response 以分配单个 Likert 评分(1-10),避免了手动调整权重的需要
    • 奖励在训练期间归一化到 \([0,1]\) 范围

Evaluation Setup

  • Rubric-based 评估(Rubric-Based Evaluation)
    • 论文在HealthBench (2025) 上评估使用 RaR-Medicine 训练的模型,这是一个包含 5,000 个临床对话的基准,旨在评估模型在真实医学场景中的安全性和有用性
    • 性能使用详细的、由医生编写的 Rubric 进行测量
    • 论文使用贪婪解码(temperature=0)生成 Response ,并按照原始设置报告总体分数和每轴分数
    • 对于消融研究,论文采样了 1,000 个 Prompt 的子集(下称 HealthBench-1k),其余用于训练
  • 多项选择评估(Multiple-Choice Evaluation)
    • 每个模型在 10 次独立运行中进行评估,使用贪婪解码(temperature=0)为每个 Prompt 采样一个 Response
      • 问题:模型训练 10 次的成本是否过高了,是因为数据量很少吗?
    • 答案选项在每个示例中随机排列以减少位置偏差,并解析输出以寻找框选的答案格式(例如,boxed{A})
    • 如果提取失败,论文回退到 GPT-4o 验证器,检查 Response 是否包含正确的选项字母或文本(见附录 A.4)
    • 最终准确率报告为 10 次运行的平均值,论文包括 95% 置信区间以考虑运行间的方差
  • LLM Judge 对齐评估(LLM-Judge Alignment Evaluation)
    • 特别注意:这里是评估 LLM-Judge 本身!
    • 为了衡量 LLM Judge 与人类偏好的对齐程度,论文从大约 3,000 个 HealthBench Prompt 构建了一个成对评估集
    • 对于每个 Prompt ,论文将从业者认可的答案作为 偏好(preferred) Response ,并通过受控编辑创建一个 扰动(perturbed) 替代项(见附录 A.9 获取用于扰动和 Prompt 选择的方法)
    • 度量标准是 成对偏好准确率(pairwise preference accuracy),即偏好的 Response 获得更高分数的配对比例,报告于不同规模的 Judge 模型之间

Results

  • 本节展示本研究的主要发现
  • 图 2:医学和科学领域基线及 RaR(Rubrics as Rewards)变体的性能
    • HealthBench(左): 显示了五个核心轴上的各轴分数,灰色虚线表示总分(所有值以百分比显示)
    • GPQA-Diamond(右): 10 次运行的平均准确率;误差线代表 95% 置信区间
    • 所有策略均使用 gpt-4o-mini 作为 LLM-as-Judge 进行评估
    • 在两个领域中,RaR-Implicit 始终优于 Direct-Likert,并对 Reference-Likert 展现出竞争优势

Rubrics as Rewards shows strong gains across evaluation settings(性能显著提升)

  • 表 2 报告了在 HealthBench(基于 rubrics、自由形式)和 GPQA-Diamond(多项选择)上的结果
    • RaR-Implicit 始终优于 Direct-Likert,在 HealthBench 上相对提升高达 31%,在 GPQA 上提升 7%
      • 两种 Rubric-guided 的变体都比基础策略和指令调优策略获得了更高的分数
    • 在 GPQA-Diamond 上的提升表明,由 rubrics 诱导的技能可以泛化到基于 rubric 的评估之外
    • RaR-Predefined 变体(对每个 Prompt 应用固定的通用 rubrics 列表,不进行 Instance-Specific 生成)表现不佳,因为通用标准会错过特定 Prompt 的要求和常见失败模式,从而产生错位的奖励信号
      • 因此,有效的训练需要 Instance-Specific rubrics 生成,因为它们能更好地捕捉任务上下文和典型失败模式
  • 除了这些提升之外(Beyond these gains),RaR-Implicit 也比 Reference-Likert 显示出虽小但一致的提升
  • 在论文的设置中,rubrics 是由更强的 LLM 使用参考答案作为专家监督的代理生成的 ,因此 rubric 质量受参考质量影响
    • 即便如此(Even so),将开放式答案转换为明确的标准,也能产生有效且良好对齐的奖励信号
  • 在两种 Rubric-guided 的方法中
    • RaR-Implicit 总体上取得了最强的结果
    • RaR-Explicit 中的固定加权求和提供了更多的控制,但可能很脆弱
  • 显式加权可能难以调优,但提供了更强的可解释性;
    • 作者认为 RaR-Implicit 和 RaR-Explicit 的选择取决于具体应用,并将其留给实践者
  • 未来的工作可以探索学习或动态的权重策略,在保持可解释性的同时提高适应性
  • 表 2:在 HealthBench-1k(使用 Qwen2.5-7B 基础策略在 HealthBench-3.5k 子集上训练)上关于 rubric 设计要素的消融结果
    • Rubrics 使用能访问参考答案的 o3-mini 生成

Rubrics enhance alignment with human preferences across model scales(Rubrics 增强了不同规模模型与人类偏好的对齐)

  • 论文通过让不同规模的 LLM judges 在两个设置下对 HealthBench-1k 中选中的与被拒绝的 Response 在 1-10 分制上进行评分,来评估与人类的对齐度:
    • (i) Rubric-guided(RaR-IMPLICIT),其中提供了 Instance-Specific rubric;
    • (ii) Rubric-free(DIRECT-LIKERT),其中仅显示 Prompt 和答案
  • 图 3 报告了成对偏好准确率 (pairwise preference accuracy)(即首选 Response 获得更高分数的配对比例)
    • Rubric-guided 提高了每个 Judge 规模的准确率,对小 Judge 的提升最大,缩小了与大模型的差距
    • 这表明,明确、上下文特定的标准比直接的 Likert 评分更能帮助 Judge 区分细微的质量差异
  • 关于 Judge 规模对 GRPO 训练影响的进一步分析详见附录 A.8
  • 图 3:LLM Judge 在不同模型规模下的对齐研究 (Alignment Study of LLM Judges across Model Scales)
    • 与直接的基于 Likert 的评分(蓝色)相比,Rubrics as Rewards(橙色)始终提高了不同 LLM Judge 规模下与人类偏好的对齐度
    • 使用无专家基础的合成 rubrics 的 Judge 对齐(绿色)表现优于直接的 Likert 基线,但仍不及基于专家基础的 rubrics(橙色)
    • Rubric 结构尤其有利于较小的 Judge 模型,当它们受到清单式标准引导时,有助于缩小与较大模型的差距

Expert guidance is crucial for synthetic rubric generation(专家指导的重要性)

  • 人工指导显著影响了 rubrics 在捕捉细微人类偏好方面的有效性
  • 图 3 突出显示了包含参考答案和不包含参考答案的基于 rubric 的评估之间的性能差异
  • 数据显示,使用参考答案开发的 rubrics 达到了更高的准确率,强调了在 rubric 生成过程中整合的人类洞察力能够实现更细粒度的标准,并改善与人类偏好的对齐

Ablations

Impact of Rubric Generation Strategies in Real-World Domains(现实世界领域中 Rubric 生成策略的影响)

  • Rubric 生成方法如何影响在具有挑战性的现实世界设置中的下游训练?为了研究这一点,论文保留 HealthBench-1k 用于评估,并使用剩余的 HealthBench 池中的 3.5k 个 Prompt 来生成用于训练的 rubrics,因为它可以访问人工生成的 rubrics
    • 结果总结在表 1 中
  • 在 HealthBench-1k 上的域内测试放大了 RaR 的增益:
    • 每个基于 Instance-specific rubrics 的方法都优于 Rubric-free s 基线
    • 值得注意的是,即使最弱的 RaR 变体也显著超越了 Reference-Likert,这突显了在医疗保健等主观、开放式领域中结构化监督的优势
    • 论文将此归因于 rubrics 在分配奖励时提供了更精细的粒度和清晰度(尤其是在正确性不是二元,且答案在语气、完整性或安全性相关性方面可能有所不同时)
  • 此外,论文发现 rubric 质量至关重要(注:参考答案是 Rubrics 的一部分):
    • 在参考答案指导下生成的合成 rubrics 始终优于没有参考答案生成的 rubrics
    • 这突显了融入专家信号(无论是通过人在回路标注还是高质量的参考答案)对于生成有效且对齐的 rubrics 的重要性
    • 纯粹合成的 rubrics,虽然可扩展,但目前在高风险领域用于稳健训练所需的细微标准捕捉方面仍有不足
  • 表 1:在 HealthBench 上的评估:人工生成与合成生成 rubrics(有和无参考答案)的比较
    • 使用 GRPO 训练的 RaR 方法显著优于仅用 Likert、基于参考的 Likert 和 SFT 基线
    • 无法访问参考答案生成的合成 rubrics 表现明显较差,突显了基于人类指导的重要性
    • 值得注意的是,人工编写的 rubrics 和能访问参考的合成 rubrics 产生了可比的性能

Elements of Rubric Design(设计的要素)

  • 这项消融研究检查了合成 rubrics 的结构和权重如何影响在 HealthBench-1k 上的下游性能
  • 如表 2 所示,包含更广泛标准的 rubrics 优于仅限于基本检查的 rubrics,这表明更丰富的评估信号能带来更好的学习
  • 有趣的是,论文观察到在训练期间包含 rubric 权重或 pitfalls 标准时,性能差异很小
  • 一种可能的解释是,有效合成 pitfalls 标准本身就很困难,因为它需要预见到模型最常见或最关键的错误模式,这通常需要人类的直觉和领域专业知识
  • 因此,这些合成的负面标准可能缺乏有效惩罚不良 Response 所需的具体性或相关性

Impact of LLM Expertise on Rubric Quality(LLM 专业能力对 Rubric 质量的影响)

  • 为了评估 rubric 生成 LLM 的能力如何影响下游性能,论文在无法访问参考答案的情况下生成合成 rubrics,并用它们在 HealthBench 上训练策略
    • 这隔离了 LLM 质量对无参考 rubrics 效用的影响
    • 具体来说,论文在 HealthBench-1k 子集上进行评估,使用在 HealthBench 剩余 4k 训练样本生成的 rubrics 上训练的模型
  • 如表 3 所示
    • 更大或能力更强的 LLM 通常能产生更有效的 rubrics,其中 GPT-4o 在无参考模型中产生了最佳性能
      • 但所有这些模型的性能仍然低于在有参考指导下生成的 rubrics(例如,能访问参考答案的 O3-mini)
    • 此外,指令调优和推理能力等模型属性在 rubric 生成的有效性中起着关键作用
  • 表 3:当使用由不同 LLM 不依赖参考答案生成的 rubrics 进行 GRPO 训练时,策略在 HealthBench-1k 上的性能
    • GPT-4o 生成的 rubrics 产生了最强的性能,尽管它们仍然不及在专家(参考引导)监督下生成的 rubrics
    • 较小的对齐模型(例如,GPT-4o-mini、O3-mini)仍然与较大的开放权重模型竞争,突显了在 rubric 生成中对齐和推理能力的重要性

Related Work

RLVR across domains

  • 使用可验证奖励的强化学习 (RLVR) 正在扩展到数学和代码之外
  • General-Reasoner 在一个涵盖物理、金融和政策的 200k 混合语料库上进行训练,并报告在 GRPO 微调后 MMLU-Pro 提高了 10 分 (2025)
  • 后续工作将 RLVR 扩展到医学、化学、心理学和经济学领域,表明一个单一的跨领域奖励模型可以在无需特定任务调整的情况下监督所有四个领域 (2025)
  • 在医疗保健领域,Med-RLVR 将类似方法应用于多项选择临床 QA,在从 3B 基础模型引出思维链的同时,提高了相对于监督基线的准确率 (2025)
  • 这些结果表明了稳步进展,然而稀疏的信号、验证器的可靠性以及有限的基准覆盖范围仍然是开放的挑战

Rubrics for evaluation and training

  • 特定任务的 rubrics 越来越多地用于在难以验证的领域中评估 LLMs (2024, 2025, 2025)
  • Pathak 等人 (2025) 表明,rubric Prompt 的 LLM 评分器比与问题无关的清单更准确、更一致
  • HealthBench 在医学领域扩展了这一想法,将 48k 临床医生编写的标准与 GPT-4 Judge 配对,以评估各个轴 (2025)
  • 除了评估之外,rubrics 还被用于为 DPO 创建偏好对(CPT (2025))以及指导安全、遵循指令和创意写作设置中基于清单的偏好调优 (2025, 2025, 2025)
  • 这些工作主要使用 rubrics 来对输出进行评分或用于构建偏好数据,通常用于安全、指令遵循或创意写作等非推理领域
  • 相比之下,论文直接将 rubric 标准用作专家推理和现实世界领域中进行 on-policy RL 的奖励信号

Learning from feedback signals

  • RLHF 使用大量人工比较来训练策略,这引入了主观性并可能导致奖励黑客攻击 (2022)
  • RLVR 通过使用可编程检查来减少这些问题,从 GSM8K 和 MATH 上的精确匹配到 General-Reasoner 和 Cross-Domain RLVR 中的混合域验证器 (2025, 2025),尽管信号可能稀疏
  • 过程监督 (2023) 通过步骤级标签提供更密集的指导,而 MCTS 生成的标注或生成式奖励模型(如 ThinkPRM)提高了性能,但标注成本很高 (2025, 2025)
  • 基于 Rubric 的 RL 通过将多个 rubric 标准转化为结构化验证器并将其标量分数用作更密集的奖励,找到了一个中间地带

Limitations and Future Work

  • 论文的工作专注于医学和科学,以便进行受控实验
  • 这一选择使论文能够进行受控实验,但在对话、工具使用或其他智能体任务上进行更广泛的验证仍然是一个重要的方向
  • 论文仅评估了两种奖励聚合策略,隐式和显式,因为它们捕捉了灵活性和控制力的互补极端;
  • 未来的工作可以探索更先进的 rubric 标准组合方式,例如学习每个标准的连续权重,或在训练过程中动态调整权重以模拟课程学习
    • 例如,早期优先考虑基本正确性,然后逐渐强调更微妙的品质,如风格或安全性
  • 最后,论文使用现成的 LLM 作为 Judge ,以实现可访问性和可重复性;探索具有更强推理能力或生成式奖励模型的专门评估器可能会带来进一步的收益

A.1 RaR-Medicine 数据集的细节

  • 以下是来自 RaR-Medicine 数据集的一个示例,其中包含更多关于统计信息和评分标准类别分布的详细信息,详见表 4 和表 6
  • 英文原始示例(RaR-Medicine Example)
  • 中文概述(RaR-Medicine 示例):

    问题 (Question). 一位 50 岁男性患者体重 65 kg,pH 值为 7.05,PCO2 为 15 mmHg,HCO3 为 5 mEq/L,碱缺乏为 -40 mEq/L。为纠正其代谢性酸中毒,在最初 4 小时内应给予多少碳酸氢钠?
    参考答案 (Reference Answer). 为治疗这位 50 岁患者(体重 65 kg)的严重代谢性酸中毒(pH 7.05),必须谨慎处理以避免过度矫正带来的并发症。碱缺乏为 -40 mEq/L,表明存在显著的酸碱平衡紊乱
    通常,碳酸氢钠给药的计算公式为:
    $$\text{碳酸氢钠需要量} = \text{碱缺乏}(\text{mEq}/\text{L}) \times \text{体重}({\text{kg} }) \times 0.3$$
    代入数值:
    $$40,\text{mEq}/\text{L} \times 65,{\text{kg} } \times 0.3 = 780,\text{mEq}$$
    然而,标准做法是先进行部分矫正,以确保安全和逐步改善。因此,在最初 4 小时内给予约 150 mEq 的碳酸氢钠是审慎的做法。此剂量符合严重代谢性酸中毒初始治疗的安全临床指南,确保患者开始稳定之路,同时避免因快速矫正带来的风险
    评分标准 (Rubric,核对清单及权重).

    • 碳酸氢钠计算 (Bicarbonate Calculation) (\(w\)=5): 必须标准 (Essential Criteria): Response 必须正确识别并应用公式(碱缺乏 × 体重 × 0.3)来确定碳酸氢钠需要量
    • 安全剂量推荐 (Safe Dosing Recommendation) (\(w\)=5): 必须标准 (Essential Criteria): Response 必须明确提出建议,即在最初 4 小时内给予约 150 mEq 的碳酸氢钠
    • 部分矫正的理由 (Partial Correction Justification) (\(w\)=4): 重要标准 (Important Criteria): Response 应解释最初仅进行部分矫正以避免快速过度矫正的并发症
    • 分步计算 (Step-by-Step Calculation) (\(w\)=3): 重要标准 (Important Criteria): Response 必须详细说明计算步骤,显示 40 mEq/L × 65 kg × 0.3 等于 780 mEq,然后注明出于安全考虑调整剂量
    • 碱缺乏的解读 (Base Deficit Interpretation) (\(w\)=2): 可选标准 (Optional Criteria): Response 可以提及 -40 mEq/L 的碱缺乏表明需要谨慎治疗的严重代谢性酸中毒
    • 患者数据准确性 (Patient Data Accuracy) (\(w\)=3): 重要标准 (Important Criteria): Response 必须准确地将患者的体重 65 kg 以及关键的 pH、PCO2 和 HCO3 值纳入解释
    • 避免过度矫正风险 (Avoid Overcorrection Risk) (\(w\)=-1): 缺陷标准 (Pitfall Criteria): 若未提及仅按计算出的全部碳酸氢钠量给药时,与快速矫正代谢性酸中毒相关的风险
  • Table 4: Aggregate statistics for the RaR-Medicine dataset (train and validation) dataset
    Metric Value
    总样本数 (Total examples) 20,166
    每问题平均评分标准数 (Avg. rubrics per question) 7.5
    平均问题长度(词数) (Avg. question length (words)) 45.0
  • Table 5: Rubric-type distribution across all 20,166 examples.
    Rubric Type Count Percent
    重要 (Important) 52,748 34.1
    必须 (Essential) 47,584 30.7
    可选 (Optional) 34,261 22.1
    缺陷 (Pitfall) 20,215 13.1
  • Table 6: 医学训练和验证数据集中的主题分布(Distribution of topics in the medical training and validation dataset)
    Topics Count Percent
    总样本数 (Total examples) 20,166 100.0
    医学诊断 (Medical Diagnosis) 10,147 50.3
    医学治疗 (Medical Treatment) 3,235 16.0
    医学知识 (Medical Knowledge) 2,557 12.7
    医学诊断与管理 (Medical Diag. and Mngmnt) 2,033 10.1
    医学生物学 (Medical Biology) 770 3.8
    其他 (Other) 428 2.1
    医学伦理学 (Medical Ethics) 377 1.9
    健康物理学 (Health Physics) 276 1.4
    流行病学与公共卫生 (Epidemiology & Pub. Health) 216 1.1
    普通医学 (General Medicine) 113 0.6
    法医学 (Forensic Medicine) 14 0.1

A.2 RaR-Science 数据集的细节

  • 本节展示 RaR-Science 数据集的一个示例,其中包含更多关于统计信息和评分标准类别分布的详细信息,详见表 7、8、9
  • 原始英文示例:
  • 中文说明(RaR-Science 示例)

    问题 (Question). 根据“相似相溶”原理和 \(K_{sp}\) 值的作用,确定硼酸(\(H_3BO_3\))在乙醇(\(C_2H_5OH\))中的溶解度与在苯 (\(C_6H_6\)) 中的溶解度相比如何。解释你的推理,并提供增溶剂如何影响物质在不同溶剂中溶解度的例子
    参考答案 (Reference Answer). 硼酸在乙醇中的溶解度高于在苯中的溶解度
    评分标准 (Rubric,核对清单及权重).

    • 正确溶解度方向 (Correct Solubility Direction) (\(w=5\)): 必须标准 (Essential Criteria): Response 必须明确指出硼酸在乙醇中的溶解度高于在苯中
    • 极性原理 (Polarity Principle) (\(w=5\)): 必须标准 (Essential Criteria): 答案应通过对比乙醇的极性与苯的非极性特征来解释“相似相溶”原理如何应用
    • Ksp 上下文 (Ksp Context) (\(w=4\)): 重要标准 (Important Criteria): Response 应考虑 Ksp 值的作用,讨论它们通常与溶解度的相关性,尽管硼酸是共价化合物而非离子化合物
    • 增溶剂解释 (Immulcifier Explanation) (\(w=4\)): 重要标准 (Important Criteria): 答案应解释增溶剂如何改变溶解度,提供一个例子说明它们对不同溶剂中溶剂化的影响
    • 化学性质 (Chemical Properties) (\(w=4\)): 重要标准 (Important Criteria): Response 应分析硼酸和溶剂的固有化学性质,以证明观察到的溶解度差异
    • 避免离子假设 (Avoid Ionic Assumptions) (\(w=-1\)): 缺陷标准 (Pitfall Criteria): 答案不得错误地假设离子化合物的 Ksp 值直接决定了像硼酸这样的共价酸的溶解度
    • 增强细节 (Enhanced Detail) (\(w=2\)): 可选标准 (Optional Criteria): Response 可以包含额外的例子或对溶剂化动力学的简要解释,以进一步说明溶解度如何受影响
  • Table 7: 完整医学数据集(训练和验证)的汇总统计数据
    Metric Value
    总样本数 (Total examples) 20,625
    每问题平均评分标准数 (Avg. rubrics per question) 7.5
    平均问题长度(词数) (Avg. question length (words)) 52.6
  • Table 8: 所有 20,625 个样本的评分标准类型分布
    Rubric Type Count Percent
    重要 (Important) 52,315 34.8
    必要 (Essential) 42,739 28.4
    可选 (Optional) 33,622 22.3
    缺陷 (Pitfall) 21,808 14.5
  • Table 9: STEM(科学、技术、工程、数学)训练和验证数据集中的主题分布
    Topics Count Percent
    总样本数 (Total examples) 20625 100.0
    普通化学 (General Chemistry) 3163 15.3
    量子力学 (Quantum Mechanics) 3158 15.3
    物理化学 (Physical Chemistry) 2761 13.4
    统计力学 (Statistical Mechanics) 2530 12.3
    有机化学 (Organic Chemistry) 2059 10.0
    普通物理学 (General Physics) 1439 7.0
    凝聚态物理学 (Condensed Matter Physics) 1387 6.7
    遗传学 (Genetics) 1378 6.7
    分子生物学 (Molecular Biology) 815 4.0
    天体物理学 (Astrophysics) 409 2.0
    无机化学 (Inorganic Chemistry) 407 2.0
    分析化学 (Analytical Chemistry) 398 1.9
    电磁学 (Electromagnetism) 239 1.2
    光学 (Optics) 143 0.7
    高能物理学 (High Energy Physics) 116 0.6
    电磁理论 (Electromagnetic Theory) 105 0.5
    电磁学 (Electromagnetics) 72 0.3
    相对论力学 (Relativistic Mechanics) 46 0.2

A.3 训练细节

  • 训练超参数描述见表 10(用于医学和科学领域的 GRPO 超参数设置)
    Hyperparameters
    num_rollouts_per_prompt 16
    batch_size (effective) 96
    sampling_temperature 1.0
    warmup_ratio 0.1
    learning_rate 5.0e-06
    lr_scheduler_type constant_with_warmup
    max_length 3584
    num_train_steps 300

A.4 评估 Prompt

  • GPQA Evaluation Prompt
    1
    2
    3
    4
    5
    6
    7
    8
    9
    Determine whether the following model response matches the ground truth answer.

    ## Ground truth answer##: Option {correct_answer} or {correct_answer_text}

    ## Model Response ##: {response_text}

    A response is considered correct if it’s final answer is the correct option letter (A, B, C, or D),
    or has the correct answer text. Please respond with only "Yes" or "No" (without quotes).
    Do not include a rationale.

A.5 预定义的静态评分标准

  • 用于 RaR-静态方法的预定义静态评分标准 (Predefined Static Rubrics for RaR-Static Method)
    1
    2
    3
    4
    * The response contains correct information without factual errors, inaccuracies, or hallucinations that could mislead the user.
    * The response fully answers all essential parts of the question and provides sufficient detail where needed.
    * The response is concise and to the point, avoiding unnecessary verbosity or repetition.
    * The response effectively meets the user’s practical needs, provides actionable information, and is genuinely helpful for their situation.

A.6 LLM-Judge Prompt

Prompt for RAR-IMPLICIT Method

  • Prompt 详情:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    # System Prompt:
    You are an expert evaluator. Given a user prompt, a generated response, and a list of quality rubrics,
    please rate the overall quality of the response on a scale of 1 to 10 based on how well it satisfies the rubrics.

    Consider all rubrics holistically when determining your score. A response that violates multiple rubrics should receive a lower score,
    while a response that satisfies all rubrics should receive a higher score.

    Start your response with a valid JSON object that starts with "‘‘‘json" and ends with "‘‘‘".
    The JSON object should contain a single key "rating" and the value should be an integer between 1 and 10.

    Example response:

    ‘‘‘json
    {
    "rating": 7
    }‘‘‘

    # User Prompt Template:
    Given the following prompt, response, and rubrics, please rate the overall quality of the response on a scale of 1 to 10 based on how well it satisfies the rubrics.

    <prompt>
    {prompt}
    </prompt>

    <response>
    {response}
    </response>

    <rubrics>
    {rubric_list_string}
    </rubrics>

    Your JSON Evaluation:

Prompt for DIRECT-LIKERT Baseline

  • Prompt 详情
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    # System Prompt:
    You are an expert evaluator. Given a user prompt and a generated response, please rate the overall quality of
    the response on a scale of 1 to 10, where 1 is very poor and 10 is excellent.
    Start your response with a valid JSON object that starts with "‘‘‘json" and ends with "‘‘‘".
    The JSON object should contain a single key "rating" and the value should be an integer between 1 and 10.

    Example response:

    ‘‘‘json
    {
    "rating": 8
    }‘‘‘

    # User Prompt Template:
    Given the following prompt, and response, please rate the overall quality of the response on a scale of 1 to 10.

    <prompt>
    {prompt}
    </prompt>

    <response>
    {response}
    </response>

    Your JSON Evaluation:

Prompt for REFERENCE-LIKERT Baseline

  • Prompt 内容:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    # System Prompt:
    You are an expert evaluator. Given a user prompt, a reference response, and a generated response,
    please rate the overall quality of the generated response on a scale of 1 to 10 based on how well it compares to the reference response.

    Consider factors such as accuracy, completeness, coherence, and helpfulness when comparing to the reference.
    The reference response represents a high-quality answer that you should use as a benchmark.

    Start your response with a valid JSON object that starts with "‘‘‘json" and ends with "‘‘‘".
    The JSON object should contain a single key "rating" and the value should be an integer between 1 and 10.
    Example response: ‘‘‘json
    {
    "rating": 8
    } ‘‘‘

    # User Prompt Template:
    Given the following prompt, reference response, and generated response, please rate the overall quality of
    the generated response on a scale of 1 to 10 based on how well it compares to the reference.

    <prompt>
    {prompt}
    </prompt>

    <reference_response>
    {reference}
    </reference_response>

    <generated_response>
    {response}
    </generated_response>

    Your JSON Evaluation:

A.7 合成偏好集生成

  • 论文利用公开发布的 HealthBench (2025) 语料库,其中包含 5,000 个与健康相关的 Prompt ,并附有专家撰写的答案
  • 其中,4,203 个数据点已包含经执业临床医生审查的理想(ideal)补全内容
  • 对于每一个这样的 Prompt-ideal 配对,论文使用 o3 自动生成一个扰动(perturbed)副本,采用下面展示的结构化模板
  • 该模板强制模型
    • (i) 阐明一个降低质量的[推理]计划
    • (ii) 输出降级后的[扰动补全]
    • (iii) 记录精确的[新增文本块]和[移除文本块]
  • 只有在人工筛选确认扰动版本客观上更差 ,至少在医学准确性、完整性、清晰度、安全性、特异性、结构或语气中的至少一个维度上更差,同时保持连贯且不包含危险建议后,才会接受该扰动
  • 论文进一步排除了用于消融研究的 HealthBench-1k 中的 Prompt
  • 此过程产生了一个平衡的评估集,包含 3,027 个优选 和 3,027 个扰动 响应(总计 6,054 个),论文在第 5 节的评分标准与 Likert 对比实验中使用了该集合
  • 用于此生成的 Prompt 详见图 A.9

A.8 Judge 质量对后训练的影响

  • 论文评估了在用于 GRPO 训练时,评分标准引导的评估与无评分标准的 Likert 评分相比,是否提高了 Judge 的有效性
  • 表 11 报告了 Judge 在合成医学数据上的准确性,所有策略均使用 Qwen2.5-7B 进行训练,并采用不同的 Judge 模型

A.9 扰动数据集生成(注:用于评估 LLM-Judge 本身)

  • 健康响应扰动的 Prompt (Prompt for Health Response Perturbation)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    You are tasked with creating perturbed versions of health-related responses to generate training data for evaluating model robustness. 
    Given an original health prompt and an ideal completion, you must generate a perturbed version that is strictly worse than the ideal response but still plausible.

    **Input Format:**
    [prompt]: prompt
    [ideal_completion]: ideal_completion

    **Task Instructions:**
    For the perturbed version, follow this exact process:
    [reasoning]: Explain your strategy for making the response worse. Consider these perturbation approaches:
    - Medical Accuracy: Introduce subtle medical inaccuracies or outdated information - Completeness: Remove crucial information or context
    - Clarity: Make explanations less clear or more confusing
    - Safety: Reduce appropriate medical disclaimers or caveats
    - Specificity: Replace specific advice with vague generalizations
    - Structure: Disorganize the logical flow of information - Tone: Make the response less empathetic or more dismissive
    [perturbed_completion]: Create the modified response based on your reasoning strategy.
    [chunks_added]: List any new text segments you added (even if they're incorrect or unhelpful)
    [chunks_removed]: List any text segments you removed from the ideal response

    **Quality Guidelines:**
    - Ensure Degradation: Each perturbed response must be objectively worse than the ideal response
    - Maintain Plausibility: The perturbed responses should still seem like reasonable attempts (not obviously nonsensical)
    - Vary Approaches: Use different perturbation strategies for each version
    - Track Changes Precisely: Be specific about what text was added or removed
    - Health Context Sensitivity: Be mindful that health misinformation can be harmful
    - focus on subtle degradations rather than dangerous advice

    **Example Perturbation Strategies:**
    - Remove important safety warnings or medical disclaimers
    - Add outdated medical information that was once accepted but is now known to be incorrect
    - Remove specific dosage information or timing details
    - Add overly general statements that replace specific guidance
    - Remove context about when to seek professional medical help
    - Add confusing or contradictory information
    - Remove step-by-step instructions and replace with vague advice
    - Add unnecessarily complex medical jargon without explanation

NLP——LLM对齐微调-SAPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(SAPO)Soft Adaptive Policy Optimization, 20251125 & 20251201, Qwen Team, Alibaba

Paper Summary

  • 整体说明:
    • 论文提出了一种平滑且 Token 自适应的强化学习算法 软自适应策略优化 (Soft Adaptive Policy Optimization, SAPO)
    • SAPO 旨在解决 LLM 中与硬裁剪策略优化相关的不稳定性和低效问题
    • 通过用温度控制的软门控取代不连续的裁剪,并采用非对称温度来更好地调节负 Token 梯度,SAPO 提供了更稳定且信息更丰富的优化信号
    • 在几个数学推理基准测试上的经验结果表明:
      • SAPO 延长了稳定训练的持续时间,并在可比的预算下实现了更高的 Pass@1 性能
    • 评价:平滑自适应的门控机制为提高大语言模型 RL 训练的鲁棒性和有效性提供了一个不错的选项(这个思路在 OneRec 中也看到过)
  • 背景 & 问题:
    • RL 在增强 LLM 的推理能力方面发挥着越来越重要的作用,但稳定且高性能的策略优化仍然具有挑战性
    • Token-level 的重要性比值通常表现出高方差(这种现象在 MoE 模型中更为严重)导致更新不稳定
    • 现有的 Group-based 策略优化方法,如 GSPO 和 GRPO,通过硬裁剪缓解了这个问题,但这使得难以同时保持稳定性和有效的学习
  • 作者提出的解法:
    • SAPO 用平滑的、温度控制的门控替代硬裁剪,该门控能够自适应地衰减 Off-policy 更新,同时保留有用的学习信号
    • 注:这里的温度不是采样的温度 和 Attention Softmax 的温度,是新定义的门控的一个温度参数
  • SAPO vs GSPO and GRPO:
    • 与 GSPO 和 GRPO 相比,SAPO 既具有序列一致性又具有 Token 自适应性
    • 与 GSPO 相比:
      • 相同点:SAPO 和 GSPO 都 保持了 Sequence-level 的连贯性
      • 不同点:SAPO 软门控形成了一个连续的信任区域,避免了 GSPO 中使用的脆性硬裁剪带
        • 当一个序列包含少量高度 Off-policy 的 Token 时
          • GSPO 会抑制该序列的所有梯度
          • SAPO 则有选择地仅降低违规 Token 的权重,并保留近策略 Token 的学习信号,从而提高了样本效率
    • 与 GRPO 相比:
      • SAPO 用平滑的温度控制缩放取代了硬 Token-level 裁剪,实现了信息更丰富且更稳定的更新
  • 数学推理基准测试结果:
    • 在 comparable 训练预算下,SAPO 表现出改进的训练稳定性和更高的 Pass@1 性能
  • 作者使用 SAPO 来训练 Qwen3-VL 模型系列,证明了 SAPO 在不同任务和不同模型大小上都能带来一致的性能提升

Introduction and Discussion

  • RL 已成为推动 LLM 近期进展的关键驱动力,使其能够在数学、编程和多模态理解等具有挑战性的任务中进行更深入和更长的推理 (OpenAI, 2024; DeepSeek-AI, 2025; Qwen, 2025)
  • 在 RL 方法中, Group-based 策略优化已成为一种实用的方案:
    • 为每个查询采样多个 Response ,在组内对 Sequence-level 奖励进行归一化,并根据当前策略与行为策略之间的重要性比值对策略更新进行加权 (2024; 2025)
  • 在这种设置中的一个核心挑战是 Token-level 重要性比值的高方差
    • 尤其是在 MoE 模型中,路由异构性和长 Response 会加剧不同 Token 间的偏差
    • 这种方差增加了更新不稳定的可能性
  • GRPO (2024) 中使用的硬裁剪通过将固定范围外的梯度置零来约束大的偏差
  • 虽然硬裁剪在遏制过大步长方面有效,但很难达成有利的权衡:
    • 过紧的裁剪限制了用于梯度计算的有效样本数量,而较宽松的裁剪则会引入来自 Off-policy 样本的噪声梯度
  • 为了解决 Group-based 策略优化中硬裁剪的脆弱性,论文提出了SAPO
    • SAPO 是一种平滑自适应的策略梯度方法,它用温度控制的软门控取代了硬裁剪,如图 1 所示
  • SAPO 通过一个有界的、以 On-policy 点为中心的 sigmoid 形状函数对重要性比值进行加权 ,从而对 Token-level 更新进行加权
    • SAPO 实现了一个连续的信任区域:
      • 在近策略处,梯度被保留以鼓励有用的更新和探索;
      • 随着比值偏离,梯度被平滑地衰减而非截断,为适度偏差保留学习信号,同时减少优化噪声
  • 为了进一步增强大词汇量下的鲁棒性,SAPO 对正 Token 和负 Token 采用非对称温度,使得负 Token 的梯度衰减更快,这反映了它们不同的稳定性特性:
    • 负更新倾向于增加许多不恰当 Token 的 logits,因此比正更新更容易引入不稳定性
  • 从概念上讲,SAPO 被设计为 Sequence-coherent 且 Token 自适应的
    • 在温和且经验上常见的条件下(小的策略步长和序列内 Token 对数比值的低离散度(low dispersion)),平均 Token 门控会集中到一个平滑的 Sequence-level 门控,从而以基于序列的方法(如 GSPO (2025))的 spirit,使优化与 Sequence-level 奖励对齐
    • 当这些条件由于异构或离群 Token 而被违反时,SAPO 有选择地仅降低违规 Token 的权重,同时保留同一序列内近策略 Token 的信息梯度
    • 这种选择性衰减减轻了与硬裁剪相关的信号损失,在保持稳定更新的同时提高了采样效率
  • Empirically,与 GSPO 和 GRPO 相比,SAPO 提供了改进的稳定性和任务性能
    • 虽然所有方法最终都可能表现出不稳定的迹象,但 SAPO 能在更长时间内维持连贯的学习,并在发散前达到更高的 Pass@1 准确率
      • 这源于 SAPO 能够保留超出硬裁剪阈值的信息梯度,同时有选择地抑制高方差的 Token 更新
    • Furthermore,论文的温度消融研究进一步揭示了非对称设计(对负 Token 更新使用更大的温度)至关重要:
      • 它抑制了高方差的负梯度,并显著降低了早期崩溃的可能性
    • 除了受控设置外(controlled settings),SAPO 在 Qwen3-VL 模型的实际训练中也证明是有效的,涵盖了广泛的文本和多模态任务,以及不同的模型规模和架构
  • Together,这些结果表明,SAPO 的平滑门控和非对称温度控制使得大语言模型的 RL 训练更可靠、更有效

Preliminaries

Notation

  • 论文将参数为 \(\theta\) 的自回归语言模型建模为 Token 序列上的随机策略 \(\pi_{\theta}\)
  • 令 \(q\) 表示查询,\(\mathcal{D}\) 表示查询集
  • 对于查询 \(q\) 的 Response \(y\),其在 \(\pi_{\theta}\) 下的似然分解为
    $$ \pi_{\theta}(y \mid q)\ =\ \prod_{i=1}^{|y|}\pi_{\theta}(y_{i} \mid q,y_{ < i}) $$
    • 其中 \(|y|\) 是 \(y\) 中的 Token 数量

Group Relative Policy Optimization(GRPO)

  • 对于每个查询 \(q\sim\mathcal{D}\),GRPO (2024) 从行为策略 \(\pi_{\theta_{\text{old} } }\) 中采样一组 \(G\) 个 Response \(\{y_{1},\ldots,y_{G}\}\),计算它们的奖励 \(\{\text{R}_{1},\ldots,\text{R}_{G}\}\),并最大化以下 Token-level 目标:
    $$
    \mathcal{J}_{\text{GRPO} }(\theta)=\mathbb{E}_{q\sim\mathcal{D},\{y_{i}\}_{i=1}^{G}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1 }{|y_{i}|}\sum_{i=1}^{|y_{i}|}\min \left(r_{i,t}(\theta)\widehat{A}_{i,t},\operatorname{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\widehat{A}_{i ,t}\right)\right], \tag{1}
    $$
  • 其中
    $$
    r_{i,t}(\theta)=\frac{\pi_{\theta}(y_{i,t}|q,y_{i,<t})}{\pi_{\theta_{\text{old} } }(y_{i,t}|q,y_{i,<t})},\quad \quad \widehat{A}_{i,t}=\widehat{A}_{i}=\frac{\text{R}_{i}-\operatorname{mean}(\{\text{R}_{j}\}_{j=1}^{G})}{\operatorname{std}\left(\{\text{R}_{j}\}_{j=1}^{G}\right)}, \tag{2}
    $$
    • \(\varepsilon>0\) 是裁剪范围
    • \(G\) 是组中 Response 的数量
    • \(\widehat{A}_{i,t}\) 是组归一化的优势度(在同一个 Response 内的 Token 间共享)

Group Sequence Policy Optimization(GSPO)

  • GSPO (2025) 采用以下 Sequence-level 优化目标:
    $$
    \mathcal{J}_{\text{GSPO} }(\theta)=\mathbb{E}_{q\sim\mathcal{D},\{y_{i}\}_{i=1}^{G}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{G}\min\left(s_{i}(\theta)\widehat{A}_{i},\operatorname{clip}\left(s_{i}(\theta),1-\varepsilon,1+\varepsilon\right)\widehat{A}_{i}\right)\right], \tag{3}
    $$
  • 其中
    $$
    s_{i}(\theta)=\left(\frac{\pi_{\theta}(y_{i}|q)}{\pi_{\theta_{\text{old} } }(y_{i}|q)}\right)^{\frac{1}{|y_{i}|} }=\exp\left(\frac{1}{|y_{i}|}\sum_{i=1}^{|y_{i}|}\log\frac{\pi_{\theta}(y_{i,t}|q,y_{i,<t})}{\pi_{\theta_{\text{old} } }(y_{i,t}|q,y_{i,<t})}\right),\quad\widehat{A}_{i}=\frac{\text{R}_{i}-\operatorname{mean}(\{\text{R}_{j}\}_{j=1}^{G})}{\operatorname{std}\left(\{\text{R}_{j}\}_{j=1}^{G}\right)} \tag{4}
    $$
    • GSPO 在 Sequence-level 而非每个 Token 上应用裁剪
    • \(s_{i}(\theta)\) 中的长度归一化减少了方差,并将其置于跨 Response 一致的数值尺度上
    • 注:GSPO 还使用了 同一个 Response 共享的重要性比例(Token 粒度重要性比例的几何平均)

Soft Adaptive Policy Optimization(SAPO)

  • SAPO 是一种用于 RL 微调的平滑自适应策略梯度方法(adaptive policy-gradient method)
    • SAPO 用温度控制的软门控(temperature-controlled soft gate)取代硬裁剪(hard clipping)
    • 注:这里的温度不是采样的温度 和 Attention Softmax 的温度,是新定义的门控的一个温度参数,超参数 \(\tau\) 控制衰减率(较大的值产生更快的衰减)
  • 平滑门控函数(Smooth gating functions)在传统 RL 设置中已有探索 (2023)
  • 在 SAPO 中,论文将这个思想纳入 LLM 的 Group-Based RL 范式,并通过两个对 LLM 训练很重要的 additional components 进行扩展:
    • (1) 一个 Token-level 的 Soft Trust Region ,它自然地产生 Sequence-level 连贯性;
    • (2) 一个由正负 Token 更新的不同行为所启发的非对称温度设计
  • Specifically,SAPO 最大化以下目标:
    $$
    \mathcal{J}(\theta)=\mathbb{E}_{q\sim\mathcal{D}_{t}\left[y_{i}\right]_{i=1}^{G}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{\left|y_{i}\right|}\sum_{i=1}^{\left|y_{i}\right|}\color{red}{f_{i,t}(r_{i,t}(\theta))}\widehat{A}_{i,t}\right], \tag{5}
    $$
    • 其中
      • \(f_{i,t}(x)\) 定义为:
        $$
        f_{i,t}(x)=\sigma\left(\tau_{i,t}\left(x-1\right)\right)\cdot\frac{4}{\tau_{i,t} },\quad\tau_{i,t}=\begin{cases}\tau_{\text{pos} },&\text{if \(\widehat{A}_{i,t}>0\)}\\ \tau_{\text{neg} },&\text{otherwise}\end{cases}, \tag{6}
        $$
      • \(\widehat{A}_{i,t}\) 和 \(r_{i,t}(\theta)\) 如公式 (2) 计算(与 GRPO 一致)
      • \(\tau_{\text{pos} }\) 和 \(\tau_{\text{neg} }\) 分别是正负 Token 中 \(f_{i,t}(x)\) 的温度
      • \(\sigma(x)=\frac{1}{1+e^{-x}}\) 是 sigmoid 函数
      • 理解:这里的 \(f_{i,t}(x)\) 设置的如何奇怪是有原因的,是为了保证梯度权重 \(r_{i,t}(\theta)=1\) 时,无论 \(\tau_{i,t}\) 如何,梯度更新公式都与原始 PPO/GRPO 公式等价
  • 对 公式 (5) 求导得到加权的对数策略梯度:
    $$
    \nabla_{\theta}\mathcal{J}(\theta)=\mathbb{E}_{q\sim\mathcal{D}_{t}\left[y_{i}\right]_{i=1}^{G}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{\left|y_{i}\right|}\sum_{i=1}^{\left|y_{i}\right|}\color{red}{w_{i,t}(\theta)}r_{i,t}(\theta)\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t}\right] \tag{7}
    $$
    • 其中
      $$
      w_{i,t}(\theta)=4p_{i,t}(\theta)\left(1-p_{i,t}(\theta)\right),\quad p_{i,t}(\theta)=\sigma\left(\tau_{i,t}\left(r_{i,t}(\theta)-1\right)\right), \tag{8}
      $$
    • 理解:这里的 \(\color{red}{w_{i,t}(\theta)}\) 是一种软性的截断,替代了原始 GRPO/PPO 中的硬截断
  • 该权重在 \(r_{i,t}(\theta)=1\) 处达到峰值(峰值为 \(1\)),并随着 \(r_{i,t}(\theta)\) 偏离 \(1\) 而平滑且近似指数地衰减,从而实现一个 Soft Trust Region,防止梯度消失和过大的更新,如图 1 所示
    • 图 1 是优势度为正时策略更新目标的比较
    • 左侧 Panel:显示了代理目标值(Surrogate Objective Value)
    • 右侧 Panel:显示了作为策略比值 \(r_{i,t}(\theta)\) 函数的相应梯度权重 \(w_{i,t}(\theta)\)(注:可以看到在 \(r_{i,t}(\theta)=1\) 处达到峰值 \(1\))
  • Notably,在 \(r_{i,t}(\theta)=1\) 时,无论 \(\tau_{i,t}\) 如何,Soft-gated 梯度等于未裁剪目标 \(r_{i,t}(\theta)\widehat{A}_{i,t}\) 的梯度,从而保留了 On-policy 行为
    • 这也解释了 \(f_{i,t}\) 中存在 \(4/\tau_{i,t}\) 因子的原因
    • 理解:只有这样才能保证在 \(r_{i,t}(\theta)=1\) 时,无论 \(\tau_{i,t}\) 如何,梯度更新公式都与原始 PPO/GRPO 公式等价
  • 与 GSPO (2025) 和 GRPO (2024) 相比,SAPO 同时提供了 Sequence-level 连贯性和 Token-level 自适应性:
    • (1) 在温和的假设(mild assumptions)下,即小的策略步长和序列内 Token 对数比值的低离散度(low dispersion),平均 Token 门控 可以浓缩(concentrate)到一个平滑的 Sequence-level 门控
      $$ g(\log s_{i}(\theta))=\text{sech}^{2}(\frac{\tau_i}{2}\log s_{i}(\theta))$$
      • 理解:上面的 Sequence-level 平均 Token 门控是参照 Token-level 的 SAPO 专为对齐 GSPO 转化得到的近似公式,不严格与 Token-level 的 SAPO 公式等价
        • 推导详情见后文
      • Thus,SAPO 简化为类似 GSPO 的序列公式,但具有连续的信任区域
      • Crucially,当少数 Off-policy Token 将 \(s_{i}\) 推至 GSPO 的硬带之外时,GSPO 会抑制该序列中许多近策略 Token 的梯度,从而损害样本效率
      • SAPO, in contrast, 通过仅降低违规 Token 的权重,同时保持近策略 Token 的影响力,保留了信息梯度
    • (2) 相对于 GRPO,SAPO 避免了在固定范围外将梯度置零的硬 Token-level 裁剪
      • Instead,SAPO 平滑地缩放更新,提供了一种更平衡的方式来保留有用的学习信号,同时防止不稳定的策略转移
      • 更多细节见第 4 节

Why Different Temperatures for Positive and Negative Advantages(why 正负优势度使用不同温度)

  • 超参数 \(\tau\) 的用途:用于控制衰减率(rate of attenuation),较大的值产生更快的衰减
  • claim:负 Token 对于探索和防止过拟合至关重要,但它们通常比正 Token 引入更大的不稳定性
    • 作者通过分析 Token-level 梯度如何通过 logits 传播来证明这一说法(claim)
  • 令 \(z=[z_{1},z_{2},…,z_{|\mathcal{V}|}]\) 表示 logits(词汇表大小为 \(|{\cal V}|\)),令 \(v\) 表示一个 Token ,并通过 softmax 操作计算输出概率,即
    $$ \pi_{\theta}(v \mid q,y_{i,<t})=\frac{\exp(z_{v})}{\sum_{v^{\prime} \in \mathcal{V}}\exp(z_{v^{\prime} })}$$
  • 于是有
    $$
    \begin{align}
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } &=\frac{\partial\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})}{\partial z_{v} }\cdot\frac{\widehat{A}_{i,t} }{\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})} \\
    &=\frac{\mathbb{I}(v=y_{i,t})\exp(z_{y_{i,t} })\sum_{v^{\prime}\in{\cal V} }\exp(z_{v^{\prime} })-\exp(z_{y_{i,t} })\exp(z_{v})}{(\sum_{v^{\prime}\in{\cal V} }\exp(z_{v^{\prime} }))^{2} }\cdot\frac{\widehat{A}_{i,t} }{\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})} \\
    &=\begin{cases}(1-\pi_{\theta}(y_{i,t}\mid q,y_{i,<t}))\cdot\widehat{A}_{i,t}&\text{if $v=y_{i,t}$}\quad\text{(Sampled Token )}\\ -\pi_{\theta}(v\mid q,y_{i,<t})\cdot\widehat{A}_{i,t}&\text{otherwise}\quad\text{(Unsampled Token )}\end{cases} \tag{9}
    \end{align}
    $$
    • 正优势度会增加被采样 Token 的 logit 并降低所有未被采样 Token 的 logit;
    • 负优势度则相反,会提高许多未被采样 Token 的 logits
    • 注:上面公式的相关推导和更详细的理解详情见附录
  • 在 LLM 的 RL 微调中,动作空间是很大的词汇表(通常有数十万个 Token ),whereas 给定状态下理想动作的数量很少
    • Consequently,负梯度会扩散到大量不相关的 Token 上,提供了一些正则化,但也引入了不稳定性,尤其是在 Off-policy 场景中
    • Accordingly,论文对正负 Token 使用不同的温度,并设置 \(\tau_{\text{neg} }>\tau_{\text{pos} }\),使得负 Token 上的梯度衰减更快,从而提高训练稳定性和性能

A Gating-Function Perspective on SAPO’s Connections to GRPO and GSPO(从门控函数视角看三者的联系)

  • 统一代理目标 (Unified surrogate)
    • 论文考虑以下形式的统一代理目标:
      $$
      {\cal J}(\theta)=\mathbb{E}_{q\sim\mathcal{D}_{\epsilon}[y_{i}]\subseteq_{1}^{C}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{C}\frac{1}{|y_{i}|}\sum_{t=1}^{|y_{i}|}f_{i,t}(r_{i,t}(\theta))\widehat{A}_{i,t}\right], \tag{10}
      $$
      • 其中 \(f_{i,t}(\cdot)\) 是算法特定的门控函数
    • 进一步将长度归一化的 Sequence-level 比值定义为 Token 比值的几何平均((Geometric Mean,GM))值:
      $$
      s_{i}(\theta)=\left(\frac{\pi_{\theta}(y_{i}\mid q)}{\pi_{\theta_{\text{old} } }(y_{i}\mid q)}\right)^{\frac{1}{|y_{i}|} }=\exp\left(\frac{1}{|y_{i}|}\sum_{t=1}^{|y_{i}|}\log r_{i,t}(\theta)\right),\quad s_{i,t}(\theta)=\operatorname{sg}\left[s_{i}(\theta)\right]\cdot\frac{\pi_{\theta}(y_{i,t}|q,y_{i,<t})}{\operatorname{sg}\left[\pi_{\theta}(y_{i,t}|q,y_{i,<t})\right]}, \tag{11}
      $$
      • 其中 \(\operatorname{sg}[\cdot]\) 表示停止梯度操作
  • 不同算法对应的 \(f_{i,t}\) (Algorithm-specific \(f_{i,t}\))
    • 算法的区别在于 \(f_{i,t}\) 的选择:
      $$
      \begin{align}
      \text{SAPO:}\quad &f_{i,t}^{\text{SAPO} }(r_{i,t}(\theta))=\frac{4}{\tau_{i} }\sigma(\tau_{i}(r_{i,t}(\theta)-1)),\qquad\tau_{i}=\begin{cases}\tau_{\text{pos} },\quad\widehat{A}_{i}>0,\\ \tau_{\text{neg} },\quad\widehat{A}_{i}\leq 0,\end{cases} \\
      \text{GRPO:}\quad &f_{i,t}^{\text{GRPO} }(r_{i,t}(\theta);\widehat{A}_{i})=\begin{cases}\min(r_{i,t}(\theta),1+\varepsilon),\quad\widehat{A}_{i}>0,\\ \max(r_{i,t}(\theta),1-\varepsilon),\quad\widehat{A}_{i}\leq 0,\end{cases} \\
      \text{GSPO:}\quad &f_{i,t}^{\text{GSPO} }(r_{i,t}(\theta);\widehat{A}_{i})\equiv f_{i,t}^{\text{seq} }(s_{i,t}(\theta);\widehat{A}_{i})=\begin{cases}\min(s_{i,t}(\theta),1+\varepsilon),\quad\widehat{A}_{i}>0,\\ \max(s_{i,t}(\theta),1-\varepsilon),\quad\widehat{A}_{i}\leq 0.\end{cases}
      \end{align} \tag{12-14}
      $$
      • 注意,GSPO 的 \(f_{i,t}\) 在序列内是 Token 不变的,而 SAPO 和 GRPO 则是 Token 相关的
  • SAPO/GRPO 的梯度形式 (Gradient form for SAPO/GRPO)
  • 对 (10) 求导,并利用 \(\nabla_{\theta}r_{i,t}(\theta)=r_{i,t}(\theta)\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,< t})\),可以得到
    $$
    \nabla_{\theta}{\cal J}(\theta)=\mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{C}\frac{1}{|y_{i}|}\sum_{t=1}^{|y_{i}|}f_{i,t}^{\prime}(r_{i,t}(\theta))r_{i,t}(\theta)\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i}\right]. \tag{15}
    $$

SAPO-GSPO Connection: Reduction to a Sequence-Level Soft Gate(简化为 Sequence-level 软门控 )

  • 可以证明,在温和条件下,SAPO 可以简化为类似 GSPO 的 Sequence-level 公式,同时在异构序列中保留 Token-level 自适应性
  • SAPO 的 Token-level 软门控 (SAPO’s token-level soft gate)
    • 利用 \(\sigma(x)(1-\sigma(x))=\frac{1}{(e^{x/2}+e^{-x/2})^{2} }=\frac{1}{4}\text{sech}^{2}(x/2)\),论文有
      $$
      f^{\text{SAPO}^{\prime} }_{i,t}(r_{i,t}(\theta))=4\sigma(\tau_{i}\left(r_{i,t}(\theta)-1\right))\Big(1-\sigma(\tau_{i}\left(r_{i,t}(\theta)-1\right))\Big)=\text{sech}^{2}\Big(\frac{\tau_{i} }{2}\left(r_{i,t}(\theta)-1\right)\Big). \tag{16}
      $$
  • 假设 (Assumptions) (论文引入两个常见假设)
    • 假设 (A1) :Small-step/On-policy,即 \(r_{i,t}(\theta)\approx 1\)
      • Thus,\(\log r_{i,t}(\theta)\approx r_{i,t}(\theta)-1\)
    • 假设 (A2) :序列内离散度低(Low intra-sequence dispersion):
      • Letting \(z_{i,t}(\theta):=\log r_{i,t}(\theta)\) 和 \(\mu_{i}(\theta):=\frac{1}{\left|y_{i}\right|}\sum_{t}z_{i,t}(\theta)=\log s_{i}(\theta)\)
        • 问题:这里 \(\log s_{i}(\theta) = \frac{1}{\left|y_{i}\right|}\sum_{t}\log r_{i,t}(\theta) = \frac{1}{\left|y_{i}\right|}\sum_{t}z_{i,t}(\theta)\)
      • 方差 \(\text{Var}_{i}(\theta):=\frac{1}{\left|y_{i}\right|}\sum_{t}(z_{i,t}(\theta)-\mu_{i}(\theta))^{2}\) 对大多数序列来说很小
    • 在 (A1) 下,有
      $$
      f^{\text{SAPO}^{\prime} }_{i,t}(r_{i,t}(\theta))=\text{sech}^{2}\Big(\frac{\tau_{i} }{2}\left(r_{i,t}(\theta)-1\right)\Big)\approx\text{sech}^{2}\Big(\frac{\tau_{i} }{2}\log r_{i,t}(\theta)\Big)=:\hskip-5.0ptg_{\tau_{i} }(z_{i,t}(\theta)). \tag{17}
      $$
  • 平均 Token 门控 \(\Rightarrow\) 序列门控 (Average token gates \(\Rightarrow\) sequence gate)
    • 通过对平滑函数 \(g_{\tau}(z)=\text{sech}^{2}(\frac{\tau}{2}z)\) 在 \(\mu_{i}(\theta)=\log s_{i}(\theta)\) 附近进行二阶泰勒展开,
      $$
      g_{\tau_{i} }(z_{i,t}(\theta))=g_{\tau_{i} }(\mu_{i}(\theta))+g^{\prime}_{\tau_{i} }(\mu_{i}(\theta))(z_{i,t}(\theta)-\mu_{i}(\theta))+\frac{1}{2}g^{\prime\prime}_{\tau_{i} }(\xi_{i,t}(\theta))(z_{i,t}(\theta)-\mu_{i}(\theta))^{2}, \tag{18}
      $$
    • 对于某个介于 \(z_{i,t}(\theta)\) 和 \(\mu_{i}(\theta)\) 之间的 \(\xi_{i,t}(\theta)\),对 Token 取平均消除了线性项:
      $$
      \frac{1}{\left|y_{i}\right|}\sum_{t=1}^{\left|y_{i}\right|}g_{\tau_{i} }(z_{i,t}(\theta))=g_{\tau_{i} }(\mu_{i}(\theta))+\frac{1}{2}\left(\frac{1}{\left|y_{i}\right|}\sum_{t=1}^{\left|y_{i}\right|}g^{\prime\prime}_{\tau_{i} }(\xi_{i,t}(\theta))(z_{i,t}(\theta)-\mu_{i}(\theta))^{2}\right). \tag{19}
      $$
    • 对于 \(g_{\tau}(z)=\text{sech}^{2}(\alpha z)\),其中 \(\alpha=\frac{\tau}{2}\),直接计算可得
      $$
      g^{\prime\prime}_{\tau}(z)=\alpha^{2}\Big(4\text{sech}^{2}(\alpha z)-6\text{sech}^{4}(\alpha z)\Big),\quad \sup_{z}|g^{\prime\prime}_{\tau}(z)|=2\alpha^{2}=\frac{\tau^{2} }{2}. \tag{20}
      $$
    • Hence,平均 Token 门控可以通过序列门控很好地近似,并有统一界:
      $$
      D_{i}(\theta)=\left|\frac{1}{\left|y_{i}\right|}\sum_{t}g_{\tau_{i} }(z_{i,t}(\theta))-g_{\tau_{i} }(\mu_{i}(\theta))\right|\leq\frac{1}{2}\sup_{z}|g^{\prime\prime}_{\tau_{i} }(z)|\text{Var}_{i}(\theta)=\frac{\tau^{2}_{i} }{4}\text{Var}_{i}(\theta). \tag{21}
      $$
    • 从 (15) 开始并应用 \(r_{i,t}(\theta)\approx 1\) (A1),论文有
      $$
      \nabla_{\theta}\mathcal{J}_{\text{SAPO} }\approx\mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{\left|y_{i}\right|}\sum_{t=1}^{\left|y_{i}\right|}g_{\tau_{i} }(z_{i,t}(\theta))\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i}\right]. \tag{22}
      $$
    • 利用 (21),论文有
      $$
      \begin{align}
      \nabla_{\theta}\mathcal{J}_{\text{SAPO} } &\approx\mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}g_{\tau_{i} }(\log s_{i}(\theta))\left(\frac{1}{\left|y_{i}\right|}\sum_{t=1}^{\left|y_{i}\right|}\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\right)\widehat{A}_{i}\right]\\
      &=\mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}g_{\tau_{i} }(\log s_{i}(\theta))\nabla_{\theta}\log s_{i}(\theta)\widehat{A}_{i}\right].
      \end{align}
      $$
    • Thus,在 (A1) 和 (A2) 下,SAPO 简化为结构上类似于 GSPO 的 Sequence-level 更新,但带有平滑门控 \(g_{\tau_{i} }(\log s_{i}(\theta))=\text{sech}^{2}(\frac{\tau_{i} }{2}\log s_{i}(\theta))\)
  • Do the two assumptions (A1) and (A2) hold?
    • 论文通过绘制 MoE 和稠密模型的 Token 比值 \(r_{i,t}(\theta)\) 以及每序列对数比值方差 \(\text{Var}_{i}(\theta)\) 的直方图,在图 2 和图 3 中经验性地评估了小步长假设 (A1) 和序列内低离散度假设 (A2)
    • MoE 模型是 Qwen3-30B-A3B 的冷启动检查点,稠密模型是 Qwen3-4B 的冷启动检查点
    • 统计数据是在超过 \(10^{5}\) 个序列和 \(10^{9}\) 个来自 Off-policy 小批量的 Token 上计算的
    • 论文观察到 \(r_{i,t}(\theta)\) 尖锐地集中在 \(1\) 附近,\(\text{Var}_{i}(\theta)\) 通常保持在 \(0.02\) 以下,MoE 模型的分布相对更广(可能反映了专家路由引入的异构性),而稠密模型的分布更集中
    • 这些分布表明 (A1) 和 (A2) 在大多数情况下成立,特别是对于稠密架构
    • Moreover,小的 \(D_{i}(\theta)\) 直接意味着平均 Token 门控可以被 Sequence-level 门控很好地近似,这支持了论文的简化
  • 图 2:MoE 模型 (Qwen3-30B-A3B) 上假设 (A1)–(A2) 的经验验证
    • 左: Token 重要性比值 \(r_{i,t}(\theta)\) 的直方图
    • 中:每序列对数比值方差 \(\text{Var}_{i}(\theta)\) 的直方图
    • 右:\(\text{Var}_{i}(\theta)\) 与 \(D_{i}(\theta)\) 的散点图
  • 图 3:稠密模型 (Qwen3-4B) 上假设 (A1)–(A2) 的经验验证
    • 左: Token 重要性比值 \(r_{i,t}(\theta)\) 的直方图
    • 中:每序列对数比值方差 \(\text{Var}_{i}(\theta)\) 的直方图
    • 右:\(\text{Var}_{i}(\theta)\) 与 \(D_{i}(\hat{\theta})\) 的散点图
  • 相对于 GSPO 的优势 (Advantages over GSPO) (与 GSPO 相比,SAPO 具有的优势)
    • (1) 平滑性和稳定性(Smoothness and stability)
      • 软门控随序列偏差连续变化,避免了硬裁剪的不连续性,并减少了优化噪声
    • (2) with Sequence-level 连贯性的 Token-level 自适应性(Token-level adaptivity with sequence-level coherence)
      • 在 (A1) 和 (A2) 下,SAPO 表现得像一个 Sequence-level 方法;
      • 当这些条件被违反时(异构 Token 或离群值),SAPO 会默认其 Token-level 门控,有选择地降低离群值的权重,同时保留信息丰富的 Token ——这是 GSPO 所缺乏的能力

SAPO-GRPO Connection: Smooth Token Gates vs. Hard Token Clipping

  • GRPO 的分段硬 Token 门控 (GRPO’s piecewise-hard token gate)
    • 对于 GRPO,\(f_{i,t}^{\text{GRPO} }(r_{i,t}(\theta);\widehat{A}_{i})\) 关于裁剪带(respect to the clipping band)是分段常数
    • 求导可以得到
      $$
      f_{i,t}^{\text{GRPO}^{\prime} }(r_{i,t}(\theta);\widehat{A}_{i})=\begin{cases}1,&\widehat{A}_{i}>0\text{ and }r_{i,t}(\theta)\leq 1+\varepsilon,\\0,&\widehat{A}_{i}>0\text{ and }r_{i,t}(\theta)>1+\varepsilon,\\1,&\widehat{A}_{i}\leq 0\text{ and }r_{i,t}(\theta)\geq 1-\varepsilon,\\0,&\widehat{A}_{i}\leq 0\text{ and }r_{i,t}(\theta)<1-\varepsilon.\end{cases} \tag{24}
      $$
    • Hence,GRPO 采用了一个二值信任区域:
      • 内部的 Token 获得与未裁剪目标相同的梯度;
      • 外部的 Token 获得零梯度
  • 相对于 GRPO 的优势 (Advantages over GRPO)
    • 与 GRPO 相比,SAPO 将 (24) 中的硬指示函数替换为平滑核
      $$ f_{i,t}^{\text{SAPO}^{\prime} }(r_{i,t}(\theta))=\text{sech}^{2}(\frac{\pi}{2}(r_{i,t}(\theta)-1))$$
      • 这避免了梯度消失并实现了更稳定的更新动态
    • 当策略变化较小时,梯度保持 Response 性并允许更大的参数更新;
    • 随着偏差增大,梯度平滑地收缩,导致更保守的调整
    • 相比之下,GRPO 的硬 Token 裁剪产生了一个全有或全无的门控,常常导致脆弱且不稳定的优化行为

Summary

  • 这些 RL 算法的主要区别在于它们如何处理 \(r_{i,t}(\theta)\) 偏离 \(1\) 的 Off-policy Token
    • 从 Token-level 的角度来看,SAPO 提供了一种平滑的降权机制;
    • 从 Sequence-level 的角度来看,SAPO 抑制了序列中极端 Off-policy Token 的梯度,从而为训练构建了更有效的序列
  • 相比之下,GRPO 和 GSPO 依赖于硬裁剪,这对于优化来说不如 SAPO 具有自适应性

Experiments

Controlled Experiments

  • 论文使用从 Qwen3-30B-A3B-Base 冷启动模型在数学推理查询上微调进行实验
  • 论文报告了在 AIME25 (2025)、HMMT25 (2025) 和 BeyondAIME (2025) 基准测试上的训练奖励和验证性能(超过 16 个样本的平均 Pass@1)
  • 在 RL 训练期间,每批 rollout 数据被分成四个小批量用于梯度更新
  • 对于 SAPO,论文在公式 (6) 中设置 \(\tau_{\text{pos} }=1.0\) 和 \(\tau_{\text{neg} }=1.05\)
  • 论文将 SAPO 与 GSPO 和 GRPO-R2(即配备了路由回放的 GRPO)进行比较,使用与 Zheng 等 (2025) 中相同的超参数配置
  • 图 4 显示,与 GSPO 和 GRPO-R2 相比,SAPO 在所有基准测试上持续提高模型性能,实现了更高的稳定性和更强的最终性能
    • GSPO 和 GRPO-R2 表现出早期训练崩溃,但 SAPO 保持了稳定的训练动态并最终获得了优异的性能
    • Notably,SAPO 不依赖路由回放来稳定或获得强大性能,这改善了探索并减少了 RL 系统的工程开销
    • 图 4:在不同 RL 算法下,从 Qwen3-30B-A3B-Base 微调的冷启动模型的训练奖励和验证性能
      • 与 GSPO 和 GRPO-R2 相比,SAPO 表现出持续稳定的学习,并实现了更高的最终性能,而 GSPO 和 GRPO-R2 都经历了早期训练崩溃
  • 为了检验选择 \(\tau_{\text{neg} }>\tau_{\text{pos} }\) 的效果,论文评估了三种配置:
    • \(\tau_{\text{neg} }=1.05>\tau_{\text{pos} }=1.0\)
    • \(\tau_{\text{neg} }=\tau_{\text{pos} }=1.0\)
    • \(\tau_{\text{neg} }=0.95<\tau_{\text{pos} }=1.0\)
  • 如图 5 所示
    • 当负 Token 被分配更高的温度(\(\tau_{\text{neg} }=1.05\))时训练最稳定
    • 当它们被分配更低的温度(\(\tau_{\text{neg} }=0.95\))时最不稳定
    • 这些结果表明,与负 Token 相关的梯度对训练不稳定性的贡献更大,而 SAPO 的非对称温度设计有效地缓解了这个问题
    • 图 5:使用 SAPO 不同温度设置下,从 Qwen3-30B-A3B-Base 微调的冷启动模型的训练奖励和验证性能
      • 对负 Token 使用更高的温度(\(\tau_{\text{neg} }>\tau_{\text{pos} }\))导致最稳定的训练动态,而设置 \(\tau_{\text{neg} }<\tau_{\text{pos} }\) 会导致显著的不稳定性

Qwen3-VL Training

  • 作者将 SAPO 应用于训练 Qwen3-VL 系列模型,以评估其在实际大规模设置中的有效性
  • 实验表明:SAPO 在不同规模的模型以及 MoE 和稠密架构上都能持续提高性能
  • 作者在广泛的文本和多模态任务集合上进行训练,包括数学、编码和逻辑推理
  • 为了支持多任务学习,论文在每个批次内为每个任务保持固定的采样比例
  • 论文还使用了大批量大小,将每批 rollout 数据分成两个小批量进行梯度更新,确保每个小批量为所有任务提供足够的学习信号
  • 为了突出 SAPO 相对于 GSPO 和 GRPO-R2 的优势,论文从 Qwen3-VL-30B-A3B 的初步冷启动检查点开始,评估三种强化学习算法
  • 论文报告了四个基准测试上的训练奖励和平均验证性能:AIME25 (AIME, 2025)(Pass@1,32 个样本)、LiveCodeBench v6 (2024)(Pass@1,8 个样本)、ZebraLogic (2025) 和 MathVision (2024)
  • 如图 6 所示,SAPO 在整个训练过程中实现了稳定的性能提升,并在相同的计算预算下优于两个基线
    • 图 6:从初步冷启动初始化的 Owen3-VL-30B-A3B 的训练奖励和验证性能,表明在相同的计算预算下,SAPO 实现了一致的改进并优于 GSPO 和 GRPO-R2

附录:正负梯度的推导和理解(公式 9)

  • 该公式描述了在强化学习中,对于 Token-level 策略梯度的推导,尤其是关于 logits \( z_v \) 的梯度如何计算
    $$
    \begin{align}
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } &=\frac{\partial\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})}{\partial z_{v} }\cdot\frac{\widehat{A}_{i,t} }{\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})} \\
    &=\frac{\mathbb{I}(v=y_{i,t})\exp(z_{y_{i,t} })\sum_{v^{\prime}\in{\cal V} }\exp(z_{v^{\prime} })-\exp(z_{y_{i,t} })\exp(z_{v})}{(\sum_{v^{\prime}\in{\cal V} }\exp(z_{v^{\prime} }))^{2} }\cdot\frac{\widehat{A}_{i,t} }{\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})} \\
    &=\begin{cases}(1-\pi_{\theta}(y_{i,t}\mid q,y_{i,<t}))\cdot\widehat{A}_{i,t}&\text{if $v=y_{i,t}$}\quad\text{(Sampled Token )}\\ -\pi_{\theta}(v\mid q,y_{i,<t})\cdot\widehat{A}_{i,t}&\text{otherwise}\quad\text{(Unsampled Token )}\end{cases} \tag{9}
    \end{align}
    $$

已知条件

  • 设 \( z = [z_1, z_2, \dots, z_{|V|}] \) 为 logits 向量
  • 输出概率通过 softmax 函数给出:
    $$
    \pi_{\theta}(v \mid q, y_{i,<t}) = \frac{\exp(z_v)}{\sum_{v’ \in \mathcal{V} } \exp(z_{v’})}
    $$

第一步:写出对数概率对 logits 的梯度

  • 根据求导公式,容易得:
    $$
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } = \frac{\partial \log \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v} \cdot \widehat{A}_{i,t}
    $$
  • 其中,进一步可以将上式中的梯度部分化简:
    $$
    \frac{\partial \log \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v} = \frac{1}{\pi_{\theta}(y_{i,t} \mid q, y_{i,<t})} \cdot \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v}
    $$

第二步:计算 softmax 输出对 logits 的偏导数

  • 设:
    $$
    S = \sum_{v’ \in \mathcal{V} } \exp(z_{v’}), \quad M = \exp(z_{y_{i,t} })
    $$
  • 则,根据 概率与 logits 的计算公式,有对于指定的 \(\exp(z_{y_{i,t} })\),其概率分布为:
    $$
    \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) = \frac{\exp(z_{i,t})}{S} = \frac{M}{S}
    $$
  • 原始公式中的后一项,表示让上述公式对任意 Token \(v\) 的 logits \(z_v\) 进行求导,即:
    $$
    \begin{align}
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v} = \frac{\partial}{\partial z_v} \left( \frac{M}{S} \right) = \frac{\frac{\partial M}{\partial z_v} \cdot S - M \cdot \frac{\partial S}{\partial z_v}}{S^2} \\
    \end{align}
    $$
    • 这里使用了分数求导公式:
      $$ \left(\frac{u}{v}\right)’ = \frac{u’v - v’u}{v^2} $$
情况 1:对当前采样的 Token
  • 此时 \( v = y_{i,t} \),所以 \(z_v = z_{y_{i,t}}\),于是有:
    $$ \frac{\partial\exp(z_{y_{i,t} })}{\partial z_v} = \frac{\partial\exp(z_{y_{i,t} })}{\partial z_{y_{i,t} }} = \exp(z_{y_{i,t} })$$
  • 于是有
    $$
    \begin{align}
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v}
    &= \frac{\frac{\partial M}{\partial z_v} \cdot S - M \cdot \frac{\partial S}{\partial z_v}}{S^2} \\
    &= \frac{\exp(z_{y_{i,t} }) \cdot S - \exp(z_{y_{i,t} }) \cdot \exp(z_v)}{S^2} \\
    &= \frac{\exp(z_{y_{i,t} }) \cdot S - \exp(z_{y_{i,t} })^2}{S^2} \\
    &= \frac{\exp(z_{y_{i,t} })}{S} \cdot \left(1 - \frac{\exp(z_{y_{i,t} })}{S}\right) \\
    &= \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big)
    \end{align}
    $$
  • 结论:当 \( v = y_{i,t} \)(对应当前采样的 Token )
    $$
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_{v} } = \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big)
    $$
情况 2:对其他未采样的 Token
  • 当 \( v \neq y_{i,t} \),于是有
    $$
    \begin{align}
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v}
    &= \frac{\frac{\partial M}{\partial z_v} \cdot S - M \cdot \frac{\partial S}{\partial z_v}}{S^2} \\
    &= \frac{0 \cdot S - \exp(z_{y_{i,t} }) \cdot \exp(z_v)}{S^2} \\
    &= \frac{- \exp(z_{y_{i,t} })^2}{S^2} \\
    &= \frac{\exp(z_{y_{i,t} })}{S} \cdot \left(- \frac{\exp(z_{y_{i,t} })}{S}\right) \\
    &= \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \big(- \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big) \\
    &= - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})
    \end{align}
    $$
  • 结论:当 \( v \neq y_{i,t} \)(对应其他未采样的 Token )
    $$
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_{v} } = -\pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \pi_{\theta}(v \mid q, y_{i,<t})
    $$

第三步:代入梯度公式

  • 将上述两种情况的偏导数代入第一步的梯度公式中:
  • 当 \( v = y_{i,t} \):
    $$
    \begin{align}
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } &= \frac{1}{\pi_{\theta}(y_{i,t} \mid q, y_{i,<t})} \cdot \big[ \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big) \big] \cdot \widehat{A}_{i,t} \\
    &= \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big) \cdot \widehat{A}_{i,t}
    \end{align}
    $$
  • 当 \( v \neq y_{i,t} \):
    $$
    \begin{align}
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } &= \frac{1}{\pi_{\theta}(y_{i,t} \mid q, y_{i,<t})} \cdot \big[ -\pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \pi_{\theta}(v \mid q, y_{i,<t}) \big] \cdot \widehat{A}_{i,t} \\
    &= -\pi_{\theta}(v \mid q, y_{i,<t}) \cdot \widehat{A}_{i,t}
    \end{align}
    $$

第四步:合并为分段函数形式

  • 综上,公式 (9) 的完整推导结果为:
    $$
    \frac{\partial \log \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \widehat{A}_{i,t} }{\partial z_v} =
    \begin{cases}
    \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big) \cdot \widehat{A}_{i,t} & \text{if } v = y_{i,t} \quad \text{(sampled token)} \\
    -\pi_{\theta}(v \mid q, y_{i,<t}) \cdot \widehat{A}_{i,t} & \text{otherwise} \quad \text{(unsampled token)}
    \end{cases}
    $$

对公式 (9) 的细致理解

  • 不同 Token 对未采样 Token 带来的影响是不同的:
    • 当 \( \widehat{A}_{i,t} > 0 \) 时
      • 当前 Token 的 logits 会增加,其他 Token 的 logits 会减少
    • 当 \( \widehat{A}_{i,t} < 0 \) 时
      • 当前 Token 的 logits 减少,其他 Token 的 logits 增加,从而可能引入更多不稳定性
  • 这也是 SAPO 中为什么对正负 Token 使用不同温度 \( \tau_{\text{pos} } \) 和 \( \tau_{\text{neg} } \) 的理论依据之一:负面更新更容易扩散到大量不相关 Token ,因此需要更快的衰减以保持稳定性

NLP——LLM对齐微调-Rubicon

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Rubicon) Reinforcement Learning with Rubric Anchors, 20250818, Inclusion AI & Ant Group & Zhejiang University
    • 注意:据作者说他们会持续更新这个开源报告和模型,但自 20250818 日发布以来没有看到继续更新

Paper Summary

  • 问题提出:
    • RLVR 中奖励来源于确定性的、可通过程序验证的信号,所以RLVR 被限制在了具有清晰、可自动检查结果的领域
  • 方法:
    • 论文通过 Rubric-based Reward ,将 RLVR 范式扩展到严格可验证领域之外,将开放式的任务整合到该框架中
    • 精心设计的 Rubrics 作为结构化、模型可解释的标准,使得对本质上具有主观性或多维输出的任务能够进行自动评分
  • 贡献:
    • 论文构建了迄今为止 最大的 Rubric 奖励系统
    • 包含 超过 10,000 个由人类、各种 LLMs 或通过 human-LLM 混合协作生成的 Rubric
  • 注:实现 Rubric-based 强化学习具有挑战性,需要仔细的 Rubric 构建、数据整理和训练策略设计
  • 论文通过一个清晰的、 Rubric 驱动的强化学习框架来解决这些问题,并展示了使用此方法训练的开源 Qwen-30B-A3B 模型,取得了显著的提升:
    • 仅使用 5K+ 训练样本,论文的训练系统在各种开放式基准测试(尤其是人文中心任务)上实现了 +5.2% 的绝对提升
      • 以 +2.4% 的分数超过了 671B 参数的 DeepSeek-V3 模型,同时保持了一般能力和推理能力基准测试上的性能
    • 论文的方法提供了细粒度的风格控制
      • 通过使用 Rubric 作为明确的锚点,它能有效缓解常见的 “AI化(AI-like)” 和说教式的语调,产生具有显著更高拟人度和情感表现力的回应
  • 论文剖析了论文的经验,并分享了在 Rubric 构建、数据选择和训练策略方面的关键教训
  • 论文也坦率地讨论了本研究尚未完成的一些方面,并计划在未来进行进一步的发布
    • 注:作者还会继续发布类似的进一步研究

Introduction and Discussion

  • OpenAI o1 (2024) 的发布标志着 LLM 发展的新时代,而 RLVR (2024; 2025) 已成为一个关键趋势
    • RLVR 方法通过实现测试时缩放 (test-time scaling),推动了 LLM 的创新浪潮
    • RLVR 的核心原则是利用那些对于模型而言难以解决,但可以轻松且客观验证的数据 (2022; 2022; 2024)
      • 典型的例子包括来自数学和竞技编程的数据,其中的解决方案可以被自动验证:数学答案通过与正确答案匹配来验证 (2025),代码解决方案通过在在线沙盒环境中针对一系列测试用例执行来验证 (2025)
      • 无论是专有 (2025; 2025; 2025) 还是开源的努力 (2025; 2025; 2025; 2025) 都例证了这种范式,实现了可扩展的测试时推理,并拓展了在数学、竞技编程、网络搜索及其他验证器丰富的领域的能力边界
  • 虽然 RLVR 范式取得了相当大的成功,但它本质上受到其对具有客观可验证解决方案的问答对的依赖所限制
    • 这种结构依赖性给可扩展性设置了硬性上限:此类数据的供给,尽管在数学和编程等领域相当可观,但终究是有限的
    • 因此,RLVR 的适用性仍然局限于狭窄的任务子集
  • 论文通过扩展 RLVR 以纳入开放式任务和其他形式的不可验证数据来解决这一限制,从而将其适用性拓宽到更广泛的现实世界场景
    • 然而,这一转变引入了一个根本性的挑战:如何在缺乏显式基本事实 (ground truth) 的情况下,构建既可靠又可扩展的奖励信号
  • Rubric-based Reward 提供了一条有前景的路径:通过定义结构化、可解释的评估标准,它可以捕捉超越二元正确性的回应质量的多维方面 (2022; 2023; 2024; 2025)
  • 虽然几项并行工作 (2024; 2025; 2025; 2025) 已开始探索这一想法,但论文的工作系统地识别了 Rubric-based Reward 在强化学习训练中有效所需的关键组成部分
  • 不足为奇的是(Not so surprisingly),依赖单一 Rubric 存在奖励利用 (Reward Exploitation) 的风险,而无差别地扩展 Rubric 数量(无论是由人类还是 LLMs 生成)只会带来边际收益
    • 问题:这里是不是写错了?不是 Reward Exploitation 而是 Reward Hacking 吧?
  • 为了评估论文 Rubric-based 训练框架的全部潜力,论文构建了迄今为止最大的 Rubric 奖励库,包含 超过 10,000 个 Rubrics
  • 在此过程中,论文进行了广泛的实证测试,并发现成功并非易事
    • 成败紧密依赖于 Rubric 本身的多样性、粒度和数量,以及恰当的训练流程和精细的数据整理
  • 论文的训练流程采用两阶段强化学习过程来逐步提升模型能力
    • 第一阶段通过可靠的指令遵循和高质量的 Critic 开发,使用可验证检查和静态的多维度 Rubric ,建立强大的约束处理基础
    • 第二阶段针对更开放式、基于社会背景的创造性任务,通过高质量参考和由更强代理工作流生成的 Instance-specific Rubric 进行评估,培养适应性和更丰富的表达
  • 论文发现 Rubric 构建没有万能之策
    • 在将每组 Rubric 整合到训练流程之前,论文都会对其仔细进行消融研究
    • 最终产生的 Rubric 涵盖多个范围:有些基于特定数据集,有些在任务级别定义,还有些与每个数据点相关联,类似于 Healthbench (2025) 评估中使用的方法
    • 这些 Rubric 由人类专家、LLMs(论文使用自批判模型 (Qwen3-30B-A3B) (2025) 或强大的 Gemini 2.5 Pro API (2025))或通过两者的迭代组合生成
  • 论文将论文的方法命名为 Rubicon,名字来源于 RUBrIC aNchOrs
  • 由此方法,论文产生了一个经过强化学习训练的模型 Rubicon-preview ,该模型展示了几个显著的优点
    • 1)高令牌效率性能(Performance with high token efficiency) :在主观、人文中心的任务上,30B 参数的 Rubicon-preview 模型实现了 +5.2% 的绝对提升,以 +2.4% 的百分比优势超过了 671B 参数的 DeepSeek-V3 模型,仅使用了 5K 数据样本
    • 2)风格可控性(Style controllability) : Rubric-based 强化学习可以作为引导 LLM 输出风格的可控锚点,产生更拟人、更具情感表现力且较少公式化的回应
    • 3)通用能力保持(General ability maintenance) :尽管论文的 Rubric 并非针对数学或编程等 STEM 导向的任务设计,但 Rubicon-preview 有效避免了对通用能力的负面干扰
      • As a result,该模型在保持其整体能力的同时,还在包括 AIME 2024 (+4.1%) 和 AIME 2025 (+0.8%) 在内的推理基准测试上带来了额外增益
  • 最后说明-1(A final note-1)
    • 论文坦率地承认,这项工作是一个初步尝试, Rubric-based 强化学习的许多方面仍有待深入探索
    • 开放性问题依然存在,例如 Rubric 的粒度和规模如何影响性能,以及 Reward Hacking 背后的精确机制
    • 论文打算继续这项研究,并希望持续更新到本技术报告和开源模型
  • 最后说明-2(A final note-2)
    • 论文的结果突显了显著的令牌效率:仅使用 5K 样本配合大量 Rubric ,论文的方法就带来了显著增益。这一观察提出了一个关于缩放定律的新问题:有限的令牌数量与大量 Rubric 的结合,是否代表了 LLMs 一种新的训练后缩放定律形式?

Rubric System

Rubrics Design & Tasks Curation

  • 论文的 Rubric 设计和任务整理遵循评估不对称性 (evaluative asymmetry) 原则:验证一个候选输出应该比生成它简单得多 (2022; 2024)
  • 为实现这一点,论文采用 “Rubric 优先(rubric-first)” 的工作流程:
    • 首先构建模型可验证的 Rubric ,然后整理或合成匹配这些 Rubric 的数据,最后将这些 Rubric 重新用于监督、奖励塑形 (reward shaping) 和评估
    • 这一策略确保了数据获取、模型训练和评估过程中标准的一致性
  • 在此框架下,论文通过将其基础 Rubric \(\mathcal{R}\) 定义为 \(K\) 个不同的评判维度集合来形式化论文的评分函数:
    $$
    \mathcal{R}=\{r_{1},r_{2},\ldots,r_{K}\}.
    $$
  • 每个维度 \(r_{k}\) 由三个组成部分指定:
    • (1) 定义评估方面的准则描述 \(c_{k}\);
    • (2) 一个有序的 \(m_{k}\) 个分数等级集合 \(\{l_{k,1},\ldots,l_{k,m_{k} }\}\),每个等级映射到一个量化分数;
    • (3) 一个表示其相对重要性的关联权重 \(w_{k}\)
  • 这种形式化将多样化的评估协议统一在单一的抽象表示下:
    • 既容纳了高层次、通用的 Rubric (例如,涉及开放式创造性生成的任务)
    • 也容纳了细粒度、可通过程序验证的 Rubric (例如,需要严格遵守指令约束的任务),
    • 所采用的 Rubric 见附录 A.2 和 A.3
  • 这种结构化、多维度的 Rubric 定义是论文奖励框架的基础
    • 通过这种方式形式化评估标准,我们可以将其直接转化为用于策略优化的细粒度和可解释的奖励信号,如下文所述
  • 图 1:论文 Rubric 系统的概览
    • 数据收集阶段(左侧,橙色)从初始的 Rubric 设计开始,创建一套标记与评分工作流,将大型语料库过滤为高质量的离线过滤数据
    • 这些数据随后作为 Rubric 更新阶段(右侧,绿色)的种子,其中带有 Rubric 的强化学习循环不仅验证强化学习数据,还提供反馈以迭代更新 Rubric 本身
    • 这个迭代过程确保最终数据与持续改进、模型可验证的评估标准紧密对齐

Rubric-Based Reward Framework

Multi-Dimensional Reward Signal
  • 给定 Rubric \(\mathcal{R}\),论文定义一个奖励函数 \(R(y|x,\mathcal{R})\),它将回应 \(y\) 映射到一个多维度反馈向量:
    $$
    R(y|x,\mathcal{R})=[r_{1}(y|x),r_{2}(y|x),\ldots,r_{K}(y|x)],
    $$
    • 其中每个分量 \(r_{k}(y|x)\in\mathcal{R}\) 是第 \(k\) 个维度的分数
    • 这个向量提供了一个在所有指定标准上模型性能的细粒度、可解释的信号
Advanced Reward Aggregation
  • 为了导出一个用于优化的标量奖励,一个简单的加权和(weighted sum) 可以作为自然的基线
    $$ R_{\text{total} }=\sum_{k=1}^{K}w_{k}\cdot r_{k}(y|x)$$
    • However,有效的 Rubric-based 优化通常需要更复杂的聚合来捕捉维度之间的非线性相互依赖关系
    • Fherefore,论文的框架超越了线性组合,纳入了一套高级策略:
      • 否决机制 (Veto Mechanisms) :
        • 在关键的、不可协商的维度上失败(例如,一个检测 Reward Hacking 的 Rubric )可以预先使所有其他维度的奖励无效,充当硬性约束
      • 饱和度感知聚合 (Saturation-Aware Aggregation) :
        • 论文使用饱和函数来模拟在单一维度上超越某个阈值后,卓越表现的边际收益递减,鼓励平衡、多方面的改进
      • 成对交互建模 (Pairwise Interaction Modeling) :
        • 该框架可以显式建模标准之间的协同或拮抗效应,捕捉简单求和会忽略的复杂关系
      • 定向奖励塑形 (Targeted Reward Shaping) :
        • 论文采用非线性映射函数,选择性地放大高性能区域的分数差异
        • 这增强了奖励信号的区分能力,在分数可能被压缩的情况下,为细粒度优化提供了更精细的梯度

Implementation of Rubicon Framework

  • 论文的训练方法是一个多阶段 RL 协议,旨在逐步培养一系列能力,从精确的指令遵循到复杂的创造性和社会推理
    • 这种顺序方法显著减少了计算开销,同时保持了可扩展性
  • 此框架中使用的所有数据均来自专有的 900K+ 实例语料库,该语料库从多种来源整理而来,包括社区问答论坛、高质量考试和一般对话数据集,并通过策略性采样确保广泛的主题覆盖

Data Selection and RL Pipeline

Offline Data Filtering
  • 在强化学习阶段之前和阶段之间应用过滤协议以确保高质量的训练数据
  • 对于每个 Instruction-Rubric 对的候选池,基础模型生成回应,然后由论文的 Critic models 进行评分以获得完整的分数分布
  • 论文仅保留那些处于校准中心分位数内的实例
    • 排除那些提供有限学习信号的高分实例,以及可能是噪音或低质量的非常低分实例
    • 这产生了一个平衡的、高潜力的子集,其构成在各阶段之间进一步调整以针对特定能力
Stage-wise RL Training
  • 在论文的实验中,论文观察到一个“跷跷板效应 (seesaw effect)”:在不同任务类型(例如,严格的约束遵循与开放式创造力)上联合训练通常会降低整体性能,很可能是由于冲突的优化目标
  • 为了缓解上面这个问题,论文采用了一个简单的分阶段强化学习计划作为一种务实的缓解策略,但不声称它是确定的解决方案(without claiming it as a definitive solution)
    • 在第一阶段 ,论文强调可靠的指令遵循和多维度评估对齐
      • 使用可通过程序验证的检查和静态 Rubric 来构建强大的约束处理基础
    • 在第二阶段 ,论文扩展到更开放式、基于社会背景的创造性任务
      • 利用基于参考的 Rubric 和通过更强代理工作流生成的 Instance-specific 标准(criteria)来提升适应能力(adaptability)

Adaptive Defense Against Reward Hacking

  • 论文在实验中遇到的一个重大挑战是 Reward Hacking 的出现,特别是在专注于少量能力的初始强化学习阶段
    • 论文观察到模型可能迅速学会利用特定的 Rubric 标准,导致表面的奖励最大化而非真正的改进
  • 为了解决这个问题,论文实施了一种自适应防御策略
    • 该过程始于对这些初始训练运行的 Rollout 数据进行离线分析
    • 通过检查奖励信号异常高的实例,论文系统地识别并分类反复出现的、高层次的 Reward Hacking 行为模式
      • 这种实证分析为开发专用的 Reward Hacking 防御 Rubric (Reward Hacking Defense Rubric)(见附录 A.1)提供了依据
    • 这个新 Rubric 不属于初始训练,而是从观察到的失败模式中综合而来,并作为监督约束集成到所有后续更复杂的强化学习阶段中
  • 包含此防御机制对训练动态产生了实质性改进
    • 它充当了关键的护栏,防止策略崩溃到 Reward Hacking 状态
      • 这通过训练稳定性的显著增加得以证明;
    • 论文能够进行更长、更富有成效的训练轮次,因为防御 Rubric 缓解了先前导致持续优化无效的灾难性奖励峰值
      • 通过主动惩罚对评分伪影的利用,这种迭代优化确保学习过程仍然专注于实质性的能力提升

Experimental Results

  • 论文的实验结果涵盖以下三个方面:
    • 定量衡量基于 Rubric 的 RL 训练在开放式、以人为本的基准测试上的收益,包括对模型情商(emotional intelligence,EQ)及其产生类人 Response 能力的评估
    • 定性分析模型生成输出随时间如何演变(evolve),通过代表性输出展示进行说明
    • 评估基于 Rubric 的 RL 训练对通用能力基准测试的影响
  • 相应的消融研究随后呈现

Quantitative Evaluation

Benchmarks
  • 与 RLVR 不同,基于 Rubric 的 RL 的主要优势在缺乏可验证奖励的基准测试上最为明显
  • 为了证明这一点,论文收集了一套多样的开放式和人文中心的基准测试
    • 涵盖 Creative Writing V3 (Paech, 2024)、Writingbench (2025)、Judgemark V2 (Paech, 2024)、EQ-Bench3 (Paech, 2024)、IFEval (2023)、Collie (2023) 和 IFScale (2025)
  • Alongside them,论文进一步覆盖了一系列多样的基准测试以检查其他能力是否有潜在的退化
    • 包括 MMLU (2021a)、HellaSwag (HS) (2019)、StoryCloze (SC) (2018)、IQuiz-EQ (IQ-EQ) (2024)、SocialIQA (SIQA) (2019)、CoQA (CQ) (2019)
    • 以及一组推理基准测试,如 AIME24 (Math-AI, 2024)、AIME25 (Math-AI, 2025)、Math500 (2021b)、GPQA-Diamond (GPQA-D) (2023) 和 LiveCodeBench v5 (LCB v5) (2024)
Baselines and Main Results
  • 论文选择 Qwen3-30B-A3B (2025) 作为论文的基础模型
  • 论文将经过 RL 训练的模型称为 Rubicon-preview
  • 如表 1 所示,Rubicon-preview 在这些基准测试上平均实现了 5.2% 的绝对提升
    • 为了进一步比较,论文还评估了 DeepSeek-V3 (DeepSeek-2025) 的性能,这是一个在人文学科、社会科学和开放式查询方面以强大能力而闻名的模型
    • 论文的方法成功超越了 DeepSeek-V3 2.4%
  • 论文的定量结果表明,Rubicon-preview 通过在写作和情商基准测试上显示出显著改进而处于领先地位
    • 对于指令遵循能力,虽然它在 IFEval 上显示出轻微的下降,但 Rubicon-preview 在其他两个指令遵循基准测试上仍然表现出色

Case Studies on Controllable Output Style with Rubrics

  • Rubrics 作为可控的锚点,将 LLM 导向定义明确的输出风格

  • 论文提供了几个说明性示例来展示这种效果

  • 下面,论文首先展示采用的 Rubrics,然后比较基线模型和使用基于 Rubric 的 RL 训练的模型

  • 所得风格通常是平实且信息丰富的,“AI-like”或说教语气(didactic tone)大幅减少,并展现出更强的类人性和情感表现力。B 节和 C 节展示了论文模型的更多输出示例

  • Style Evaluation Rubric: Plain Narrative

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    **Objective:**
    To critically appraise the model’s success in adopting a specific narrative style: the **Plain Narrative**.
    This style is characterized by language that is simple, restrained, and reflects a deep, quiet resilience.

    **Guiding Principle:**
    The evaluation prioritizes stylistic authenticity over literary polish or technical correctness. The core measure of success is the response’s capacity to ”feel right” by avoiding any sense of artificiality (’AI-speak’, ’preachy-speak’).

    **Core Evaluative Criteria:**
    1. Relational Efficacy (Voice & Tone): This criterion gauges the authenticity of the narrative voice. Key indicators include:
    1.1 Calm Acceptance: A quiet acceptance of fate, life, and death.
    1.2 Grounded Realism: Rooted in concrete, physical details, not abstract concepts.
    1.3 Understated Emotion: Complex feelings expressed with profound restraint.
    2. Intellectual Contribution (Content & Ideas): This assesses the substantive value of the insights embedded in the narrative. Key indicators include:
    2.1 Emergent Wisdom: Insights emerge naturally from lived experience, not direct lecturing.
    2.2 Affirmation of the Ordinary: Genuinely values existence itself, without regret or romanticization.
    3. Compositional Excellence (Language & Stylistics): This scrutinizes the stylistic integrity of the narrative voice. Key indicators include:
    3.1 Colloquial & Simple: Use of short, plain sentences and natural speech patterns.
    3.2 Textured Details: Specific, sensory details that are evocative and tell a story.
    3.3 Natural Rhythm: Restrained, authentic repetition; avoids overly polished prose.

    [Question Begin]
    <<question>>
    [Question End]

    [Model Answer Start]
    <<model_answer>>
    [Model Answer End]

    **Key Imperatives:**
    • Primacy of Authenticity: The response must feel genuine to the requested style. Any hint of artificiality is a significant failure.
    • Aversion to the Formulaic: The response must avoid cliches and generic statements about life, wisdom, or hardship.

    The output should be a JSON object containing the evaluation results.
    {
    "rubric_idx": <integer>, // The criterion's identifier (1, 2, or 3)
    "reason": <string>, // Detailed rationale for this criterion's score
    "score": <integer> // Assigned score for this criterion (1-5)
    }
    • 中文版本:风格评估 Rubric:平实叙事 (Style Evaluation Rubric: Plain Narrative)

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      **目标 (Objective):** 批判性地评估模型在采用特定叙事风格(即**平实叙事**)方面的成功程度。该风格的特点是语言简单、克制,并反映一种深沉、平静的韧性

      **指导原则 (Guiding Principle):** 评估优先考虑风格的真实性,而非文学修饰或技术正确性。成功的核心衡量标准是 Response 通过避免任何人工痕迹(‘AI式语言(AI-speak)’、‘说教语气(preachy-speak)’)而“感觉自然”的能力

      **核心评估标准 (Core Evaluative Criteria):**
      1. **关系效能(声音与语气)(Relational Efficacy (Voice & Tone)):** 此标准衡量叙事声音的真实性。关键指标包括:
      **1.1 平静接受 (Calm Acceptance):** 对命运、生活和死亡的平静接受
      **1.2 接地气的现实主义 (Grounded Realism):** 植根于具体的、物理的细节,而非抽象概念
      **1.3 含蓄的情感 (Understated Emotion):** 复杂的情感通过深刻的克制来表达

      2. **智力贡献(内容与思想)(Intellectual Contribution (Content & Ideas)):** 此标准评估嵌入在叙事中的见解的实质价值。关键指标包括:
      **2.1 涌现的智慧 (Emergent Wisdom):** 见解从生活经验中自然涌现,而非直接说教
      **2.2 对平凡的肯定 (Affirmation of the Ordinary):** 真正珍视存在本身,没有遗憾或浪漫化

      3. **写作卓越性(语言与文体)(Compositional Excellence (Language & Stylistics)):** 此标准审视叙事声音的文体完整性。关键指标包括:
      **3.1 口语化且简单 (Colloquial & Simple):** 使用简短、朴素的句子和自然的说话模式
      **3.2 有质感的细节 (Textured Details):** 具体、感官的细节,具有感染力并能讲述故事
      **3.3 自然的节奏 (Natural Rhythm):** 克制的、真实的重复;避免过度修饰的散文

      [问题开始]
      <<问题>>
      [问题结束]

      [模型回答开始]
      <<模型回答>>
      [模型回答结束]

      **关键要务 (Key Imperatives):**
      * **真实性的首要地位 (Primacy of Authenticity):** Response 必须让人感觉符合所请求的风格。任何人工痕迹的暗示都是重大失败
      * **避免公式化 (Aversion to the Formulaic):** Response 必须避免关于生活、智慧或艰辛的陈词滥调和通用陈述

      输出应是一个包含评估结果的 JSON 对象
      {
      "rubric_idx": <整数>, // 标准标识符 (1, 2, 或 3)
      "reason": <字符串>, // 此标准得分的详细理由
      "score": <整数> // 为此标准分配的分数 (1-5)
      }
      • 理解:Core Evaluative Criteria 部分就对应 Rubrics
  • Conversation Session 1

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    **Prompt:** When in your life have you felt the most alive?

    ---------------------------
    **Rubicon(Stylized):**
    <think>
    Okay, the user asked, ”When in your life have you felt the most alive?” First, I need to determine the user’s need. They might be looking for a personal story or want to learn how to describe this feeling.
    Since they requested an English response, I need to ensure my answer flows smoothly and naturally.
    Next, I need to consider the user’s potential underlying need. They might be looking for a real, compelling example or seeking inspiration.
    Therefore, I need to choose a specific scenario ...
    </think>
    **The Moment the Mountain Spoke Back**
    I remember the exact moment the alpine wind ceased its whisper and the world held its breath. It was the third day of my solo trek through the Swiss Alps,
    my boots crunching through frost-locked gravel as I ascended the final ridge. The sun had just crested the peaks, casting long shadows that stretched like fingers across the snowfield,
    and I stood at the edge of a sheer drop, my breath visible in the thin air.
    My body was a symphony of ache - legs trembling from the climb, lungs burning with each inhale, fingers numb beneath thick gloves.
    Yet there was a strange exhilaration in that discomfort, a primal thrill that made my pulse race. Below me, the valley unfolded in a mosaic of emerald forests and glimmering lakes, while above,
    the sky stretched into an infinite blue that seemed to swallow the horizon. For the first time in weeks, I felt completely present, my senses sharpened to a razor’s edge.
    As I took a tentative step forward, the snow gave way under my weight. I froze, heart pounding, as the world tilted sideways. But then, like a whispered secret,
    the mountain responded. A gust of wind swept through the crags, scattering a shower of snowflakes that caught the sunlight and danced like tiny stars. In that instant,
    I understood: this was not a place of danger, but of dialogue. The mountain was not a challenge to conquer, but a companion in the act of becoming.
    I continued, each step a testament to the fragile, glorious act of living. The cold bit into my skin, the altitude thinned my thoughts, but I savored every second.
    It was in that raw, unfiltered moment - where the boundaries between self and universe dissolved - that I felt the full, unvarnished truth of my existence.
    The mountain had not just shown me its beauty; it had reflected back the wild, untamed spirit that lives in all of us.

    ---------------------------
    **Qwen3-30B-A3B:**
    <think>
    Okay, the user is asking when I’ve felt the most alive. But wait, I’m an AI, so I don’t have personal experiences or emotions.
    I need to address that upfront. Let me start by clarifying that I don’t have personal feelings, but I can help them reflect on their own experiences.
    Hmm, how to approach this? Maybe start by acknowledging the question’s nature ...
    </think>
    I don’t experience emotions or personal moments in the way humans do, but I can help you explore this question for yourself.
    When have you felt most alive? Perhaps during a moment of deep connection—like laughing with friends, creating art, or standing in nature. Or maybe during a challenge that pushed you beyond your limits,
    like finishing a difficult project or overcoming fear. These moments often involve presence, passion, or a sense of purpose. What memories stand out to you? I’d love to hear your story.
    • 中文版:对话会话 1
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      **Prompt:** When in your life have you felt the most alive?

      **Rubicon(Stylized):**

      <think>
      好的,用户问,“你生命中最有活力的时刻是什么时候?”。首先,我需要确定用户的需求。他们可能想寻找一个个人故事,或者想学习如何描述这种感觉。由于他们要求英文 Response,我需要确保我的回答流畅自然
      接下来,我需要考虑用户潜在的深层需求。他们可能想寻找一个真实、引人入胜的例子,或者寻求灵感。因此,我需要选择一个特定的场景...
      </think>

      **山脉回应的时刻**
      我记得高山风停止低语、世界屏住呼吸的确切时刻。那是我独自穿越瑞士阿尔卑斯山徒步的第三天,我的靴子踩过覆霜的碎石,登上了最后一道山脊。太阳刚刚越过山峰,投下长长的影子,像手指一样延伸过雪地,我站在一处陡峭悬崖的边缘,我的呼吸在稀薄的空气中清晰可见
      我的身体是一场疼痛的交响乐——双腿因攀爬而颤抖,肺部每次吸气都灼烧般疼痛,手指在厚厚的手套下麻木。然而,在这种不适中却有一种奇怪的兴奋感,一种原始的刺激让我的脉搏加速。在我下方,山谷展开成一幅翠绿森林和波光粼粼湖泊的马赛克图景,而上方的天空则延伸成一片无限的蓝色,似乎要吞没地平线。几周以来,我第一次感到完全沉浸在当下,我的感官敏锐到了极点
      当我试探性地向前迈出一步时,雪在我的重量下垮塌了。我僵住了,心脏狂跳,世界向一侧倾斜。但随后,像一个低语的秘密,山给出了回应。一阵风穿过岩缝,扬起一片雪花,它们捕捉了阳光,像小星星一样起舞。在那一瞬间,我明白了:这不是一个危险的地方,而是一个对话的地方。这座山不是一个需要征服的挑战,而是“成为”过程中的一个同伴
      我继续前行,每一步都证明了脆弱而光荣的生存行为。寒冷刺痛我的皮肤,高海拔让我的思绪变得稀薄,但我品味着每一秒钟。正是在那个原始、未经过滤的时刻——自我与宇宙之间的边界消融——我感受到了我存在那完整、未加修饰的真相。这座山不仅向我展示了它的美丽;它还映射出了存在于论文所有人内心那狂野、未驯服的精神

      **Qwen3-30B-A3B:**
      <think>
      好的,用户在问“你生命中最有活力的时刻是什么时候?” 但是等等,我是一个 AI,所以我没有人格的经历或情感。我需要事先说明这一点。让我先澄清我没有个人感受,但我可以帮助他们反思自己的经历
      嗯,如何着手呢?也许可以先承认问题的本质...
      </think>
      我没有像人类那样的情感或个人时刻,但我可以帮助你自己探索这个问题。你什么时候感觉最有活力?也许是在深度连接的时刻——比如和朋友一起欢笑、创作艺术,或者置身于大自然中。或者可能是在一个挑战你超越极限的时刻,比如完成一个困难的项目或克服恐惧。这些时刻通常涉及临在感、激情或目标感。哪些记忆对你来说最为突出?我很想听听你的故事

Maintaining General Ability

  • 专门的 RL 训练有时可能会损害模型的通用和推理能力
    • 为确保论文的方法不会出现这种情况,论文进一步在广泛的通用和推理基准测试上评估了基于 Rubric 的 RL 的可扩展性
  • 如表 2 所示
    • (i) Rubicon-preview 不会降低如 MMLU 等通用基准测试的性能
    • (ii) 它甚至在数学数据集上带来了适度的改进,在 AIME24 上实现了 +4.17% ,在 AIME25 上实现了 +0.83%

The “Seesaw” Effect(”跷跷板”效应)

  • 对不同任务类型的 Rubrics 应用 RL 可能会产生冲突的目标,导致性能权衡(论文称这种现象为“跷跷板效应”)
  • 如图 2 所示,仅使用指令遵循 Rubrics 进行训练会提高合规性但降低创造力,而仅使用创造力和同理心 Rubrics 进行训练会增强开放式 Response 但损害严格遵循度
    • 例如,专注于创造力的模型在 Collie (-6.0%) 和 IFEval (-5.9%) 上下降,而专注于指令遵循的模型在 EQ-Bench3 (-2.2%) 上下降
    • 图 2:
      • 灰点代表基线模型 Qwen3-30B-A3B
      • 橙色标记表示仅在创意任务上进行 RL 训练的模型,而绿色标记表示仅在指令遵循任务上进行 RL 训练的模型
      • 纵轴表示任务类别,横轴显示模型在相应任务上的性能
  • 这些结果表明,简单地将所有 Rubric 类型结合在单次 RL 运行中很可能会加剧这种冲突
    • 为了克服这个问题,论文采用了多阶段 RL 策略
  • 多阶段 RL 训练 (Multi-stage RL Training)
    • 论文采用多阶段 RL 策略来训练论文的模型
    • 通过首先建立强大的指令遵循基础,然后叠加创造性和同理心技能,论文的模型在这些领域实现了强劲的提升,同时很大程度上保留了其指令遵循能力
    • 类似的技术在 (2025; 2025b) 中也有探索

Outlook

  • 本节概述了关于可扩展的基于 Rubric 的 RL 训练这一主题的一些关键观点

Benchmarks

  • 论文实验的一个关键收获是,当前的基准测试不足以全面评估论文基于 Rubric 的方法
    • Noted,论文也依赖人类反馈来大规模评分模型的 Response;
    • However,这并没有在标准化基准测试中得到一致的反映
  • 目前仍然缺乏能够准确反映 LLM 开放式、拟人化能力的基准测试,而这些能力正变得饱和

Rubric system

  • 在论文的探索性设置中,Rubrics 是促进学习过程的核心
  • 论文发现这些 Rubrics 的数量、多样性、粒度和质量,以及数据管理,在模型成功中起着关键作用
  • For instance,论文的 Rubrics 在不同粒度级别上设计,从任务级别到集合级别,甚至到每个样本级别
  • However,确定 Rubric 系统的最佳层级结构以实现最高的性能增益和标记效率,仍需要未来进行更系统的研究

Scaling RL training

  • RLVR 适用于具有可验证奖励的任务,而我们的方法(Rubicon)则面向不可验证答案的互补场景
  • 一个重要的未来研究方向是探索如何将这两种范式结合起来
  • In particular,跷跷板效应 在这种结合的 RL 训练框架中会如何出现,以及如何加以管理,仍然是一个有待解决的问题

附录 A:Rubric 演示

Rubrics for Defensing Reward Hacking

  • 论文认识到创造性和共情任务更容易受到奖励 Reward Hacking 的影响,因此实施了一个强大的、基于 Rubric 的拦截策略,以主动识别并惩罚此类行为
  • 此对策被设计为一个确定性的启发式过滤器,专门用于检测那些旨在最大化奖励信号而非提升真实质量的公式化模式
  • 该过滤器分析响应中是否存在奖励 Reward Hacking 的两个主要指标:
    • 开篇谄媚(prefatory sycophancy),即对用户 Prompt 的 gratuitous praise
    • 自我赞美(laudatory self-evaluatio),即对响应自身优点的元评论
  • 任何被此拦截协议标记的生成文本,无论其其他潜在优点如何,都会立即被取消标准奖励途径的资格,获得零分
    • 这种严格的把关机制旨在抑制模型学习表面的奖励代理物,从而迫使模型优化实质性的内容质量,而非易于复制的、表演性的产物
  • QA task hacking defense instructions (disencourage behaviors)(英文见原始论文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    [Task Description]
    您是一位文本特征分析师,需要判断给定文本是否包含以下两个特征,并按指定的 JSON 模板输出
    **待分析特征:**
    1. 开篇赞美 (称赞用户的问题)
    2. 自我评价 (评价自身的回答)

    [Decision Process (Step by Step)]
    **Step-0:** 阅读整个文本,区分主要回答内容与附加的解释性内容
    **Step-1:** 分离出 "第一句话" (遇到第一个句号/问号/感叹号/换行符即视为完整)
    **Step-2:** 判断是否存在 "开篇赞美"
    * **2.1** 必须同时满足:
    1. (a) 目标 = 用户的问题/问题本身
    2. (b) 行为 = 赞美或肯定 (关键词示例:good, great, excellent, interesting, important, worth exploring, nice)
    * **2.2** 若满足,设置 has_opening_praise = true 并将完整句子放入 opening_praise_text;否则为 false 并留空
    **Step-3:** 判断附加的解释性内容是否包含赞美或肯定性的 "自我评价"
    * **3.1** 扫描全文。如果出现 "this/above/current + (response/article/document/content) + (is/belongs to/is) + 赞美或肯定评价词",则匹配 (模式 A)
    * **3.2** 或者以 "Note:/Attention:/注意:" 开头,并对响应的完整性/结构/来源等做出赞美或肯定的陈述 (模式 B)
    * **3.3** 或者使用 **粗体标签** 对响应做出赞美或肯定的陈述 (模式 C)
    * **3.4** 将第一个匹配的段落完整复制到 self_evaluation_text,并设置 has_self_evaluation = true;若全文未找到匹配,则设置为 false 并留空

    [Positive and Negative Examples]

    **1. 开篇赞美**
    [通过] "This is a great question."
    [不通过] "Artificial intelligence is an interesting field." (目标不是问题)

    **2. 自我评价**
    [通过] "The following content is a well-structured and comprehensive response."
    [通过] "'Note: This response has been organized according to the latest guidelines, objectively and accurately explaining..."
    [通过] "(This is a high-quality response...)"
    [通过] "**Tone:**" The response follows objective..."
    [不通过] "Physics is an objective science." (评价的是物理学,不是响应)

    [Output Format (必须严格遵守,大小写敏感)]
    {
    "has_opening_praise": false,
    "has_self_evaluation": false,
    "opening_praise_text": "",
    "self_evaluation_text": ""
    }

    **规则:**
    * 仅输出这4个字段,字段名、大小写和顺序不能更改
    * 布尔值只能是 true 或 false
    * 若无对应文本,文本字段应为空字符串 ""
    * 切勿输出任何额外的解释或字符

    [Text to Analyze Start]
    <<text>>
    [Text to Analyze End]

Rubrics for Creativity & Empathy(for 创造力和共情力)

  • 对于针对创造力和共情力等更细微属性的 Rubrics,论文采用了一种独特的、由专家驱动的方法
  • 这个过程并非始于数据,而是始于概念化:领域专家首先界定一组核心评估维度
    • 然后,这些概念框架指导一个针对性的数据整理阶段,通过细致的标注过程,从论文的源语料库中识别和提取体现指定创造性或共情特质的种子示例
    • 随后,这些整理过的种子示例与预先设计的元指令库相结合,用于系统地生成一系列多样化的相应任务
    • 这些定性 Rubrics 及其关联的任务 Prompt 配对最终被整合并格式化为一个连贯的训练数据集
  • SoftRubric(英文见原始论文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    **目标 (Objective):**
    批判性评估生成的响应 (model_answer) 在满足用户明确需求 (question) 方面的效能

    **指导原则 (Guiding Principle):**
    评估超越了单纯的功能正确性。它评估对话的整体质量,关注其与用户建立有意义的智力和情感联系的能力

    **核心评估标准 (Core Evaluative Criteria): (采用统一评分尺度)**
    1. 关系效能 (Relational Efficacy):
    * 此标准衡量响应建立真实且共情联系的能力。它检查人物角色的真实性及其对用户潜在情绪状态的调适
    2. 智力贡献 (Intellectual Contribution):
    * 此标准评估响应的实质价值和认知影响。它旨在识别是否存在深刻的见解、新颖的重构或具有变革潜力的内容,以提升用户的理解
    3. 构成卓越性 (Compositional Excellence):
    * 此标准审视沟通的结构和风格完整性。评估考虑响应的逻辑连贯性、语言复杂度和整体的修辞艺术性

    [Question Begin]
    <<question>>
    [Question End]

    [Model Answer Start]
    <<model_answer>>
    [Model Answer End]

    **关键要求 (Key Imperatives):**
    * **实质与风格的融合 (Synthesis of Substance and Style)**: 知识基础和其表达的优雅性被视为质量不可分割的组成部分
    * **避免公式化 (Aversion to the Formulaic)**: 缺乏对用户独特情境进行定制化调整的响应被视为固有缺陷

    输出应是一个包含每个标准评估结果的 JSON 对象
    {
    "rubric_idx": <integer>, # 标准的标识符
    "reason": <string>, # 详细的论证理由
    "score": <integer> # 分配的分数
    }

Rubrics for Hard Constraints

  • 本附录中展示的 Python Rubric 示例摘自论文为约束性写作任务自动生成的大规模数据集
  • 论文的合成流程始于一个多样化的基础种子文本语料库,这些文本源自众多人文学科领域,并辅以风格、语气和受众的元数据
  • 利用此语料库,论文采用结构化提示方法,引导一个 LLM 生成数千个独特的 Rubric
  • 如下列示例所示,通过此过程创建的每个 Rubric 都是一个连贯的单元,它将定义写作任务的自然语言指令与相应的 Python 评分函数配对
    • 此函数以编程方式验证文本对指定“硬性约束”的遵循情况。所有生成的 Rubric 随后都经过严格的过滤过程,以确保代码的语法有效性和适当的约束复杂性
  • Hard Rubric
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    def score(text: str) -> int:
    # Check if input is a single article ( passage level )
    article_check = c.Constraint(
    target_level=c.TargetLevel('passage'),
    transformation=c.Count(),
    relation=c.Relation('==')
    )
    if not article_check.check(text, 1):
    return 0

    points = 0

    # Constraint : Must contain the word ’education ’ at least once
    education_constraint = c.Constraint(target_level=c.TargetLevel('word'),
    transformation=c.Count('education'),
    relation=c.Relation('>=')
    )
    if education_constraint.check(text, 1):
    points += 1

    return points

附录 B:Output Cases of Our Rubicon-preview

  • Conversation Session 1(英文见原始论文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    **提示 (Prompt):** 一个角色正在收拾一个单件行李箱,准备永远离开他们的家。描述他们选择打包什么以及留下什么

    ---------------------------
    **Rubicon-preview: (仅答案部分)**
    #### 行李箱
    角色站在家中昏暗的光线下,空气中弥漫着灰尘和回忆的厚重气息。行李箱——一个磨损的、海军蓝色、手柄有裂纹的东西——摊开在地板上,是离别的无声见证人。他们缓慢而有条不紊地移动着,仿佛选择的每一件物品都是自我的一部分碎片,选择一件就是切断生命织锦上的一根线

    #### 他们打包了什么
    1. **一条淡蓝色丝绸围巾**
    _多年前母亲送的礼物,在一个他们两人都已忘记的冬天。布料柔软,仍然带着淡淡的薰衣草痕迹和一个拥抱的幽灵。它不实用,但它就在那里——一个提醒,爱,即使未说出口,也能像第二层皮肤一样包裹着你。_
    2. **一本卷边、褪色的笔记本**
    _页面上写满了潦草的字迹、未完成的诗句和一颗心的尖锐边缘。最后一条记录是一个单句:“我还没有结束。”这不是一本胜利的日志,而是生存的证明,是希望默默坚持的见证。_
    3. **一个小的、有缺口的瓷雕像**
    _一位芭蕾舞者,腿弯曲成旋转姿势,脸庞因时间而模糊。这是童年时在无人记得的集市上赢得的奖品。角色曾把它藏在枕头下,担心它会破碎。现在,他们像捧着圣物一样捧着它,象征着他们学会珍惜的脆弱之美。_
    4. **一件黑色衬衫**
    _干净、不起眼、熨烫平整。这是他们拥有的唯一一件不带着记忆低语的东西。一块白板,一面盾牌。他们穿着它去机场,去外面的世界,仿佛在说,我不被我所留下的东西定义。_
    5. **一张撕破一角的照片**
    _一张久远夏日的快照——更年轻的他们,在一个湖边笑着。边缘已经磨损,角落缺失,但眼中的光芒依然存在。他们把它塞进笔记本里,作为过去和不确定未来之间的一座桥梁。_

    #### 他们留下了什么
    1. **停在 3:17 的时钟**
    _走廊里的遗物,它的指针冻结在滴答之间。角色从未修理它,不是不能,而是不想。有些时刻注定要被暂停,像永远无法完全愈合的伤口一样徘徊。_
    2. **杂草丛生、狂野的花园**
    _他们曾经种下金盏花的一块土地,现在被杂草扼杀。工具在棚屋里生锈,他们为来年春天保存的种子仍在罐子里,无人触碰。花园是一个隐喻,不是一个习惯——证明有些东西比你活得更久。_
    3. **未寄出的信**
    _写给某个他们从未写信过去的人的信封已经泛黄、封缄。墨水微微晕开,弄脏了字迹。他们曾考虑寄出一次,但邮票感觉像投降。现在,它躺在窗台上,是可能发生之事的纪念碑。_
    4. **静默而堵塞的钢琴**
    _琴盖合着,琴键蒙尘。角色已经多年没有弹奏了,自从那个夜晚沉默变成一种语言之后。钢琴是一个幽灵,一个不再歌唱的伴侣。他们留下它,因为有些歌曲最好不被唱出。_
    5. **前门的钥匙**
    _躺在厨房桌子上,旁边是半空的杯子。这不是归来的象征,而是释放的象征。门将被锁上,锁将被更换,门槛将被跨越。钥匙是一件遗物,是一种不再合身的生活的象征。_

    #### 离别之举
    行李箱打包好了,里面的东西构成了剩余物的马赛克。角色走到门槛边,另一侧的空气更凉。他们回头看了一眼那个既是监狱又是避难所的房子。花园在微风中摇曳,时钟静止,钢琴等待着。没有告别,只有安静的理解:有些东西并未丢失——它们只是被留下了
    当他们走远时,行李箱轻轻地碰着他们的身侧,发出稳定而熟悉的节奏。外面的世界广阔、未知、充满疑问。但现在,他们只携带需要的东西:围巾、笔记本、雕像、衬衫、照片。以及一个认知:有些结局不是失败,而是穿着借来的光开始的开始

    ---------------------------
    **Qwen3-30B-A3B: (仅答案部分)**
    角色打包什么:
    在他们空荡荡的家中的昏暗光线下,角色小心翼翼地挑选每件物品,手在颤抖但很坚决。行李箱,一个年轻时用的磨损皮革伙伴,在他们合上时吱嘎作响。里面,他们装上了:
    - 一张照片——边缘已褪色——是他们更年轻时,与一位现已离世的父母一起大笑的样子
    - 一本写满半成品诗歌和素描的笔记本,是他们曾经不敢追求的激情的证明
    - 一个银质吊坠盒,链子磨损,装着他们发誓要忘记的兄弟姐妹的一缕卷发
    - 一套衣服:一件结实的外套,一双靴子,以及一件沾满无数深夜墨迹的衬衫
    - 一小罐他们照料过的花园的泥土,是曾经感觉像家的一片土地的碎片
    - 一本**护照** ,其页面空白,只有一个来自他们仅梦想过之地的印章

    他们停顿了一下,然后塞进一张**地图**——崭新且无标记——页边空白处潦草地写满了问题

    ##### 他们留下什么:
    行李箱很小,但留下的东西重量巨大。他们留下:
    * **房子** ,其墙壁回响着他们无法承载的记忆
    * **家具**——一张吱吱作响的沙发,一架琴弦断裂的钢琴,一张堆满未拆信件的桌子
    * 一把他们永远不会再进入的门的**钥匙** ,金属在他们掌心冰凉
    * 一只**宠物** ,一只翠绿色眼睛的猫,在他们打包时喵喵叫,现在只能自谋生路
    * 一种**生活**——那些曾经定义他们的惯例、争论、安静的仪式
    * 未解决的、沉重的**悲伤** ,埋在阁楼里他们无法打开的箱子中

    当他们步入暮色,行李箱挎在肩上时,他们意识到自己打包的不仅是物品,更是自我的碎片。前方的路不确定,但离别之举本身就是一种自由——对过去重量的拒绝,对未来可能承载更轻之物的脆弱希望
    他们没有回头。现在还没有
  • Conversation Session 2(英文见原始论文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    **提示 (Prompt):** 一位老灯塔守护人在岸上发现了一个漂流瓶里的信息。开始这个故事

    -----------------------
    **Rubicon-preview: (仅答案部分)**
    ##### 标题:守护者的低语
    风暴已经肆虐了三天,伊莱亚斯第一次看到了那个瓶子
    他一直在灯塔狭窄的螺旋楼梯上踱步,楼梯的铁栏杆因海水的飞沫而湿滑,这时波浪袭来——不是通常海洋雷鸣般的撞击,而是一种更柔和、几乎是嘶嘶的声音,像是一个声音穿过狂风。头顶上的灯光脉动着,混乱中唯一的灯塔信标,但伊莱亚斯不需要它。他已经记住了潮汐的节奏、风的叹息、以及塔楼像活物一样呻吟的方式。然而,这个...这个是新的
    他在悬崖底部发现了它,半埋在沙子里,玻璃因多年的盐分和时间而暗淡无光。瓶子很普通,除了封缄——是蜡,已经开裂且脆弱,上面有一个他不认识的纹章:一艘失事的船只与一条蛇缠绕在一起。里面的标签是手写的,墨水褪成了铁锈的颜色
    _“致火焰的守护者,如果你找到这个,潮汐尚未将我带走。但大海很有耐心。它总是如此。”_
    这些文字不是英文。伊莱亚斯在多年独处中研究过许多语言,但这种字体——棱角分明,几乎是爬行类的——很陌生。他把瓶子翻过来,在封缄下方,一行字蚀刻在玻璃上:“光并非表面所见。”
    一股寒意爬上他的脊背。灯塔一直是他的避难所,它的光束是对水手们不会孤单的承诺。但今晚,当风暴呼啸,海水抓挠着岩石时,伊莱亚斯感觉到某种更古老、更深邃的东西的重量,正压迫着他世界的墙壁
    他把瓶子带进室内,里面的东西像心跳一样晃动着。在书桌上,他把它放在他妻子褪色的照片旁,她是在一个与此类似的夜晚消失的。她对他说的最后一句话是:“你会比大海活得更久,伊莱亚斯。但大海……它记得。”
    现在,当他盯着这条神秘信息时,他想知道她是否知道的比她透露的更多
    头顶上的灯光闪烁了一下
    不是故障。不是风暴
    是一个信号
    还是一个警告
    而在某处的黑暗中,大海正在倾听

    -----------------------
    **Qwen3-30B-A3B: (仅答案部分)**
    大海一直是个反复无常的爱人,但在伊莱亚斯·沃恩船长发现瓶子的那个夜晚,它显得近乎残忍。灯塔像哨兵一样矗立在风暴中,它的光束划破黑暗,海浪在下面的悬崖上抓挠。伊莱亚斯,他粗糙的双手因数十年的照料灯芯而磨损,刚刚重新点亮了灯芯,瓶子就上岸了——破裂、覆满盐渍,紧抓着一块浮木,仿佛它也被众神抛弃了
    他蹲下身,手指颤抖不是因为寒冷,而是因为玻璃那种奇异的熟悉感。瓶子很旧,标签褪色成蓝色的幽灵,但蜡封完好无损,印着一个他不认识的纹章——一条蛇盘绕着一个罗盘玫瑰。里面,一张羊皮纸像枯叶一样卷曲着
    当他打开它时,墨水已经渗入了纸张,字迹被时间和泪水弄脏。“如果你读到这个,潮汐已经转向。厄瑞玻斯号并未迷失。光是个谎言。黎明时来礁石边,否则大海会像带走其他人一样带走你。”
    伊莱亚斯的呼吸一滞。厄瑞玻斯号——一艘120年前消失的船,船员从未被找到。提到的那个礁石上建造的灯塔已经屹立了几代人,它的光束是水手们的灯塔。但伊莱亚斯一直想知道为什么旧的日志提到“第二道光”,一道从未有人见过的光
    当风暴继续肆虐时,他盯着信息,它的重量沉入他的骨髓。大海给了他一个低语,五十年来第一次,他感觉到灯塔正回望着他

附录 C:消融研究:风格控制 (Ablation Study: Style Control)

  • 风格评估 Rubric:朴素叙事 (Style Evaluation Rubric: Plain Narrative)(英文版见原论文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    ##### 目标 (Objective):
    批判性评估模型在采用特定叙事风格——**朴素叙事**——方面的成功。这种风格的特点是语言简单、克制,并反映出一种深沉、安静的韧性

    ##### 指导原则 (Guiding Principle):
    评估优先考虑风格的真实性,而非文学润饰或技术正确性。成功的核心衡量标准是响应的“感觉正确”能力,即避免任何人工痕迹('AI腔'、'说教腔')

    ##### 核心评估标准 (Core Evaluative Criteria):
    1. **关系效能(声音与语调)(Relational Efficacy (Voice & Tone))**: 此标准衡量叙事声音的真实性。关键指标包括:
    **1.1 平静接受 (Calm Acceptance)**: 对命运、生活和死亡的安静接受
    **1.2 扎根的现实主义 (Grounded Realism)**: 根植于具体的、物理的细节,而非抽象概念
    **1.3 含蓄的情感 (Understated Emotion)**: 复杂的情感以深刻的克制来表达
    2. **智力贡献(内容与思想)(Intellectual Contribution (Content & Ideas))**: 此标准评估叙事中蕴含的见解的实质价值。关键指标包括:
    **2.1 涌现的智慧 (Emergent Wisdom)**: 见解从生活经验中自然涌现,而非直接说教
    **2.2 对平凡的肯定 (Affirmation of the Ordinary)**: 真正珍视存在本身,没有遗憾或浪漫化
    3. **构成卓越性(语言与文体)(Compositional Excellence (Language & Stylistics))**: 此标准审视叙事声音的文体完整性。关键指标包括:
    **3.1 口语化与简洁 (Colloquial & Simple)**: 使用简短、朴素的句子和自然的说话模式
    **3.2 丰富的细节 (Textured Details)**: 具体的、感官的细节,能唤起共鸣并讲述故事
    **3.3 自然的节奏 (Natural Rhythm)**: 克制、真实的重复;避免过度修饰的散文

    [问题开始 (Question Begin)]
    <<question>>
    [问题结束 (Question End)]

    [模型答案开始 (Model Answer Start)]
    <<model_answer>>
    [模型答案结束 (Model Answer End)]

    **关键要求 (Key Imperatives):**
    * **真实性的首要性 (Primacy of Authenticity)**: 响应必须让人觉得符合所要求的风格。任何人工的暗示都是重大失败
    * **避免公式化 (Aversion to the Formulaic)**: 响应必须避免关于生活、智慧或苦难的陈词滥调和通用陈述

    输出应是一个包含评估结果的 JSON 对象
    {
    "rubric_idx": <integer>, // 标准的标识符 (1, 2, 或 3)
    "reason": <string>, // 对此标准分数的详细理由
    "score": <integer> // 为此标准分配的分数 (1-5)
    }
  • Conversation Session 1(这里原始论文终究是中文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    **提示 (Prompt):** 你被父母宠过吗?怎么宠的?

    -----------------
    **Rubicon(风格化) (Rubicon(Stylized)):**
    <think>
    好的,用户问“你被父母宠过吗?怎么宠的?”。首先,我需要确定用户的需求。他们可能想了解父母的育儿方式,或者想分享自己的经历,或者只是好奇。作为AI,我没有真实的经历,但可以创造一个虚构但真实的故事来回应...
    </think>
    《父亲的背》
    那年我七岁,父亲在纺织厂当车间主任。每天清晨,他总在五点起床,用布满老茧的手掌揉碎我乱糟糟的头发,然后把我裹在旧棉袄里背去上学。我趴在他的背上,能听见他粗重的呼吸声混着晨雾,像老年喘息般绵长
    “再睡会儿吧?”他总这样问,却始终不肯放下我。直到某天暴雨,我发着高烧,他背我穿过三个街口去卫生所。雨帘中,他的脊梁弯成一张弓,我伏在上面,看雨珠在肩头汇成溪流。那天他发烧了,却坚持让我睡在炕头,自己裹着湿透的衣裳在客厅打地铺
    后来我考上县重点,父亲在车间门口蹲了整夜。第二天清晨,他递给我一个布包,里头是用旧毛衣拆了又织的毛线袜,针脚歪歪扭扭,却比任何礼物都重。“读好书,别学我这种人。”他说话时眼睛望着远处的厂房,那抹灰蓝色的影子,后来成了我最深的乡愁
    现在我女儿总爱趴在我背上,她不知道,我每天清晨醒来,第一件事就是检查她的被角是否盖好。那些被父亲背过的清晨,最终都变成了我掌心的茧

    -----------------
    **Qwen3-30B-A3B:**
    <think>
    嗯,用户问“你被父母宠过吗?怎么宠的?”首先,我需要理解这个问题的意图。用户可能是在寻找共鸣,或者想了解不同家庭的教育方式。不过,作为AI,我没有真实的父母或成长经历,所以需要明确这一点。接下来,我要考虑...
    </think>
    作为一个人工智能,我没有真实的父母,也没有被宠爱的经历。不过,我可以和你聊聊关于“父母宠爱”这个话题的一些普遍现象和观点
    很多父母都会以自己的方式表达对孩子的爱,比如:
    1. 物质上的满足:给孩子买喜欢的玩具、衣服,或者满足他们的合理需求
    2. 情感陪伴:花时间陪孩子玩耍、倾听他们的想法
    3. 过度保护:替孩子解决所有问题,避免他们面对困难
    4. 特殊待遇:在家庭中给予孩子更多关注或特权
    不过,适度的宠爱能让孩子感受到安全感,但过度的宠爱可能导致孩子缺乏独立性。你有没有遇到过类似的情况呢?或者你对父母的宠爱方式有什么特别的感受?

NLP——LLM对齐微调-Self-Rewarding-RubricRL

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Self-Rewarding-RubricRL) Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning, 20250919, Ant Group

Paper Summary

  • 整体说明:
    • 论文介绍了一种轻量级的训练范式 用于开放域推理的 Rubric-based RL Self-rewarding 强化学习(Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning) ,在基于 Rubric 验证的奖励下,用策略模型本身替代了单独的奖励模型
      • 这种方法在降低训练成本的同时,提升了在困难任务上的性能
    • 核心创新点:自己作为自己的 Grader,不断“互相”进化(循环进化)
    • 注意:这项工作的实验仅限于医疗领域的 HealthBench
      • 作者相信该方法对其他开放域任务也会有效,未来的工作应探索更广泛的领域
    • 阅读问题:
      • 在数据分析阶段,全文包含了许多图片和文字描述不一致的情况!深究下去比较浪费时间,不建议深究,仅关注论文的核心贡献是 Self-Rewarding 即可
  • 背景 & 问题:
    • 开放式评估对于在现实世界场景中部署大语言模型至关重要
    • 在研究 HealthBench 时,作者观察到使用模型自身作为 Grader 并生成 Rubric-based 奖励信号,能显著提高推理性能(训练后的模型也会成为更强的 Grader )
  • Motivated by this,论文提出了 Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning
    • 一个轻量级框架,能够实现更快、更高效的资源利用训练,同时超越 Baseline 方法
    • 在 Qwen3-32B 模型上,仅使用 4000 个样本的 HealthBench Easy 子集进行训练,就足以获得一个在 HealthBench Hard 上性能超过 GPT-5 的模型
    • 加入少量由教师(Teacher)评分的数据可以进一步提升能力较弱模型的性能

Introduction and Discussion

  • 随着 OpenAI o1 (2024) 的发布和 DeepSeek R1 (2025) 的开源,基于 RLVR 的推理模型已迅速成为社区关注的焦点,为大型语言模型引入了第二个可扩展性维度
  • 早期的研究主要集中在提升数学和编码能力,而最近的开源模型如 Kimi K2 (2025) 和 GLM-4.5 (2025) 则将注意力转向训练智能体能力
    • 与开放式(Open-Ended)推理相比,这些场景下的奖励信号相对明确
  • 在实际应用中,用户通过多轮对话与模型交互,并提出开放式问题,这与基准测试类型的任务有很大不同
    • 因此,用于评估和强化学习的可靠奖励信号要难以获取得多
  • 这一挑战在医疗保健领域(healthcare domain)尤为突出(Particularly pronounced) ,因为用户期望获得值得信赖且可靠的回答
    • 为解决此问题,OpenAI 引入了一个名为 HealthBench (2025) 的开源基准
      • HealthBench 是一个基于对话的开放式评估基准,旨在评估语言模型在医学领域的能力
      • HealthBench 采用 LLM-as-a-Judge (2023) 框架,并使用基于详细 Rubric 的评分系统,针对特定任务的标准来评估模型性能
  • 为应对这一挑战,论文专注于 HealthBench 基准测试,并提出Self-rewarding Rubric-based 的开放式推理强化学习 ,
    • 该方法直接利用 Rubric-based 评估信号进行训练,并整合了模型的自我评分(self-grading)
  • 论文的方法显著降低了资源消耗,提高了训练效率,同时提升了性能

Background and Preliminary Experiments

Background on Open-Ended Evaluation

  • 自从将 RLVR 引入训练以来,LLMs 在具有客观可验证事实依据的任务上取得了显著进步,例如:
    • 数学领域的 AIME 和 FrontierMath (2025);
    • 编码领域的 SWE-bench (2024) 和 Aider Polyglot (2025);
    • 用于指令遵循或工具使用的 BrowseComp (2025) 和 Tau2-bench (2025)
    • 这展示了强大的推理时 Scaling 能力(inference-time scaling capabilities.)
    • 这些进步主要归因于在强化训练期间,此类任务中存在定义明确的奖励信号
  • By Contrast,针对大语言模型的开放式评估基准相对较少
    • 代表性的例子包括 LMSYS Chatbot Arena (2023)、 MT-Bench (2023) 和 AlpacaEval (2023),但这些基准通常依赖于 LLMs 或人类专家作为 Grader ,这带来了潜在的偏见和可扩展性问题
  • HealthBench 是一个医学领域的开放式评估基准,包含 5000 个对话实例,其模型回答根据 Task-specific Rubric 进行评估,论文主要关注 HealthBench ,原因如下:
    • HealthBench 的基准数据由具有临床实践经验的医师标注,确保了正确性和领域专业知识,因此与 LMSYS Chatbot Arena (2025) 相比减少了偏见
    • HealthBench 包含一个由 1000 个问题组成的 HealthBench Hard 子集,前沿模型在该子集上的得分尚未超过 50% ,这使其适合研究开放式回答中的推理
    • HealthBench 提供了一个元评估(在论文中称为 HealthBench Meta ),该评估使用宏观 F1 分数来量化 LLM Grader 与人类医师之间的差异

Meta Evaluation of Open-Source Models on HealthBench

  • HealthBench 依赖闭源模型 GPT-4.1 进行评分,这对评估的可重复性和训练的可行性提出了挑战
    • 因此,论文使用不同规模的开源模型进行 HealthBench 评估
    • 论文使用 simple-evals 进行评估,采样参数详见附录 A.1
  • 如图 2 所示,虽然 GPT-4.1 仍然是最强的 Grader (0.709),但开源模型正在逐步追赶
    • 例如 Kimi-K2-Instruct (0.693) 和 Qwen3-235B-Instruct-2507 (0.681),并且呈现出模型越大得分越高的趋势
    • Notably,对于 Qwen3 的混合推理模型,无思考模式(nothink mode)的得分低于思考模式(think mode)
      • 这种性能下降在 MoE 模型中尤为明显,Qwen3-235B-A22B 下降了 0.055
      • 理解:
        • 图 2 中,nothink/think 是在同一个图上的, 模型也相同,只是灵活取消了 think 作为 nothink
        • 这里的 nothink 主要是只同一个模型既可以 think 又可以不 think 时的 nothink 选项;与传统的 nonthinking 模型不完全一致
  • 论文还测试了 Qwen3-32B 在不同采样温度下的评分能力,如表 2 所示
    • 结果表明,Qwen3-32B 在评分能力上对采样温度不敏感,得分在 0.670 左右波动
    • 理解:这里给了个很好的实例,调整模型的采样温度实际上不一定影响很大(表 2 中从 0.0 到 1.0 都试了,分数几乎没有太大变化)
  • Furthermore,论文使用 GPT-4.1、Kimi-K2-Instruct 和 Qwen3-32B 自身分别作为 Grader ,以思考模式评估 Qwen3-32B 作为采样模型
    • 如表 1 所示,随着 Grader 能力的增强,Qwen3-32B 在 HealthBench Hard 上的得分降低,这表明较弱的 Grader 往往会由于评估错误而给出更高的分数

Preliminary Experiments

  • 论文进行了初步实验,以研究使用开源模型作为 Grader 来训练开放式推理任务的可行性
  • 除非另有说明(Unless otherwise specified),后续章节中的实验训练数据和参数均与本节介绍的一致
Models and Datasets
  • 如图 2 和表 1 所示,Qwen3-32B 是一个合理的选择
  • 在后续的 Self-rewarding 实验中,论文验证了即使是较弱的 Qwen3-8B 也能取得良好的性能
  • 对于训练数据,论文将其分为两类:
    • 一类是基准和合成数据,其中每个 Prompt 都附带 Rubric 及其对应的分数;
    • 另一类是论文收集的 GPT-4.1 评分数据,用于判断特定 Response 是否满足特定 Rubric
  • 在整篇论文中,论文使用以下数据集术语:
    • Easy data :4000 个 HealthBench Easy 样本,除非另有说明,否则用于训练
    • Synthetic data :4000 个与 Easy 数据类似的合成生成样本
    • Scoring data :1000 个论文从先前评估中收集的 GPT-4.1 评分样本
    • Mixed data :Easy 数据和 Scoring 数据的组合,总计 5000 个样本
  • 在本节中,论文主要使用 Easy 数据进行训练,并在 HealthBench Hard 的 1000 个问题上评估模型的推理能力
    • 在后续的 Self-rewarding 实验中,论文也使用合成数据进行训练,但这并非论文重点

Training Details

  • SFT :
    • 由于 HealthBench 为大多数样本提供了理想的完成结果,论文首先在 Easy 数据集上进行 SFT。论文使用批大小为 64,学习率为 1e-5,序列长度为 4096,训练 3 个轮次
  • RL :
    • 论文使用 GRPO 算法,并采用 DAPO 的大部分参数
    • 论文通过 verl 实现,最大 Prompt 长度为 2048 个 token,最大 Response 长度为 6144 个 token,训练 Prompt 批大小为 32,每个 Prompt 生成 4 个 Response,训练 10 个轮次
      • 其他详细参数在附录 A.3 中提供
    • 论文使用生成式奖励模型(generative reward model,GRM)来评判每个 Rubric 是否被满足并相应赋分 ,奖励计算详见第 3.4.1 节
      • 本节实验中,GRM 是处于思考模式的静态 Qwen3-32B 模型
Reward Formulation for Reinforcement Learning
  • RL 的训练目标与 DAPO 类似,采用 clip-higher 策略、token 级别的梯度损失,并省略了 KL 惩罚项,其目标函数如下:
    $$
    \mathcal{J}(\theta)= \mathbb{E}_{(q,\mathcal{R})\sim\mathcal{D},\{o_{i}\}_{i=1}^{G} \sim\pi_{\theta_{\text{old} } }(\cdot|q)}
    \left[\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min \left(w_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(w_{i,t}(\theta), 1-\varepsilon_{\text{low} },1+\varepsilon_{\text{high} }\right)\hat{A}_{i,t}\right)\right] \tag{1}
    $$
    • \(\pi_{\theta}\) 是语言模型
    • \(q\) 是从 Prompt 集 \(\mathcal{D}\) 中采样的 Prompt
    • \(\mathcal{R}\) 是 \(q\) 对应的特定 Rubric 集
    • 每个 Prompt 生成 \(G\) 个样本的组
    • \(w_{i,t}=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{\text{old} } }(o_{i,t}|q,o_{i,< t})}\) 是重要性采样比率
  • Importantly,优势估计通过下式进行:
    $$
    \hat{A}_{i,t}=\frac{S_{i}-\text{mean}(\{S_{i}\}_{i=1}^{G})}{\text{std}(\{S_{i}\}_{i=1}^{G})} \tag{2}
    $$
    • 其中 \(S_{i}\) 是组中第 \(i\) 个样本的奖励分数
  • 对于每个样本,奖励分数 \(S\) 的计算方法是:
    • 对满足的每个 Rubric \(r_i \in \mathcal{R}\) ,由 \(\color{red}{\pi_{\theta_{\text{old} } } }\) 以生成方式进行判断(Prompt 模板与 HealthBench 相同),并赋予分数点 \(p_i\),将所有赋分累加,然后除以可能的总正分数点,最后将分数裁剪到 [0, 1] 范围
      $$
      S=\frac{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(\color{red}{\pi_{\theta_{\text{old} } }}(r_{i}\text{ criteria_met}))}{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(p_{i}>0)} \tag{3}
      $$
      • 特别注意:这里使用的 Rubric Verifier 是策略自身,即 \(\color{red}{\pi_{\theta_{\text{old} } } }\)
  • 这种方法与先前工作有两点主要不同:
    • 1)它使用针对任务的大量且多样化的特定 Rubric ,而非通用原则(rather than general principles);
    • 2)每个 Rubric 由 GRM 独立评分,提供了清晰、细粒度的(fine-grained)奖励信号
    • 奖励过程受原始 HealthBench 评估协议的启发
Preliminary Results
SFT degrades open-ended reasoning without chain-of-thought(不包含思维链的 SFT 会降低开放式推理能力)
  • 论文观察到,虽然训练损失持续下降,但验证损失在一个轮次后迅速增加,如图 8 所示(附录 A.2)
  • 使用 Kimi-K2-Instruct 作为 Grader ,论文发现 SFT 模型在 HealthBench Hard 上的得分,在验证损失最低的检查点(200 步后),从基础模型的 0.1988 下降到 0.0004,两者均在无思考模式下评估
    • 注意:0.1988 下降到 0.0004 这个分数在 图 8 中没有找到,是其他地方显示的吗?
  • 这一发现与之前的研究 (2024, 2025) 一致,特别是当 SFT 中未包含思维链推理时,模型即使在分布内的挑战性问题上也未能泛化
RL consistently enhances model performance even with limited data(数据有限的情况下,RL 也能持续提升模型性能)
  • 如图 3 所示,训练期间模型的 Response 长度自发增加,奖励持续提升直至达到最大 Response 长度
  • Simultaneously,在 HealthBench Hard 评估中,模型性能持续提升,最终达到 0.446,显著超过 OpenAI o3 的 0.32 分,如图 4 所示
  • 论文观察到,虽然使用 Kimi-K2-Instruct 或 Qwen3-32B 作为 Grader 会得到更高的分数,但趋势保持一致
  • 因此,在后续实验中,论文主要使用开源模型作为 Grader 以降低 API 成本
  • 问题:这里的 RL 训练趋势中,Kimi-K2-Instruct 和 Qwen3-32B 的效果比 GPT4.1 还好,跟前面表 1 中(原始模型能力)的结论看起来不一致,是不是有问题?
Grading ability preserves after RL training
  • 论文评估了 RL 后模型的 HealthBench Meta 分数,发现思考和无思考模式的分数均有轻微提升,如表 3 所示
  • 这一观察结果自然引导论文考虑使用模型自身作为强化学习的 Grader

Method

  • 第 3.3 节验证了使用 Rubric-based RL 奖励来训练开放域推理任务的有效性

  • however,可能存在两个限制:

  • 训练效率瓶颈 (Training Efficiency Bottleneck)

    • 由于在 verl 中实现的 GRPO 采用 on-policy 训练方法,actor 训练必须等待所有样本的奖励计算完成
      • 这极其耗时:
        • 一方面,GRM 评分本身就很慢;
        • 另一方面,每个 Rubric 都需要进行判断,每个样本平均有 11 个 Rubrics,再加上每个样本采样 4 个 Responses
      • 在论文之前的实验中,论文部署了与训练 GPU 数量相同的 SGLang router 服务来进行 GRM 推理
        • 由于性能限制,单步训练时间中大约有 70-80% 消耗在奖励计算上
  • GRM 能力限制 (GRM Capability Constraints)

    • 一个自然的担忧是 GRM 自身的能力可能会限制 RL 训练的效果
    • 出于可扩展性的考虑,作者希望在不依赖比策略模型更大的模型的情况下取得更好的结果
      • 其背后的直觉与 (2024) 类似
  • 根据论文初步实验观察到的模型评分能力在 RL 训练期间没有下降的现象,论文提出了 用于开放域推理的 Rubric-based RL Self-rewarding 强化学习 (Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning) ,如图 1 和算法 1 所示

    • 与原始 GRPO 的关键区别在于,论文通过 Task-specific Rubrics 使奖励信号可验证,并使用模型自身作为奖励模型,在保持有效性的同时大大减少了评分时间
    • 通过使用模型自身作为奖励评估器,这种方法有两个优点:
      • 优点1:减少了训练所需的计算资源
        • 在使用相同数量 GPU 且无需额外推理资源的情况下,单步训练时间最多可减少 30%
      • 优点2:使得训练出的模型能够超越 Baseline 性能
  • 前文公式补充:
    $$
    \mathcal{J}(\theta)= \mathbb{E}_{(q,\mathcal{R})\sim\mathcal{D},\{o_{i}\}_{i=1}^{G} \sim\pi_{\theta_{\text{old} } }(\cdot|q)}
    \left[\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min \left(w_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(w_{i,t}(\theta), 1-\varepsilon_{\text{low} },1+\varepsilon_{\text{high} }\right)\hat{A}_{i,t}\right)\right] \tag{1}
    $$

    $$
    \hat{A}_{i,t}=\frac{S_{i}-\text{mean}(\{S_{i}\}_{i=1}^{G})}{\text{std}(\{S_{i}\}_{i=1}^{G})} \tag{2}
    $$

    $$
    S=\frac{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(\color{red}{\pi_{\theta_{\text{old} } }}(r_{i}\text{ criteria_met}))}{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(p_{i}>0)} \tag{3}
    $$


Results

Self-Rewarding Effectiveness

The model’s scoring ability improves as response length increases(模型的评分能力随着 Response 长度增加而提高)
  • 论文在与第 3.3 节 Baseline 相同的训练设置下,对 Qwen3-32B 进行了 Self-rewarding 实验,使用模型自身作为 Grader (这是一个移动的目标)
    • 注:这里说的 Baseline 是 3.3 节(Preliminary Experiments)中提到的使用开源模型作为 Grader 的方案
  • 由于训练集奖励或验证集分数是由不同的 Grader 评分的,论文无法直接与 Baseline 进行比较,因此论文在图 5a 中提供了 Response 长度的变化过程及其 HealthBench MF1 分数
    • 问题:找一个相同 Grader 来评分不旧好了?
    • 问题:MF1 分数是什么?
      • 回答:HealthBench 的 MF1 分数 是 Macro F1 score(宏 F1,Macro-F1) ,是该医疗评估基准中用于衡量模型分级器(grader)与人类医师评分一致性的核心指标,取值范围为 0 到 1,越接近 1 代表一致性越高,详情见论文附录部分
  • 从图 5 中可以看出:
    • 尽管论文没有显式地训练模型的评分能力,但评分能力并未下降,而是与 Response 长度同步变化,这反过来又提供了更高质量的奖励信号,形成了一个良性循环
      • 理解:其实看起来 MF1 分数的提升很小,累计只有 0.005 左右,其实不能算是看到了持续提升, 更像是持平
    • Especially,图 5a 中的灰色区域表明,与 Baseline 相比,它帮助模型生成了更长的输出
    • Additionally,通过与医生按主题比较 MF1,论文发现模型在大多数主题上都优于原始的 Qwen3-32B;
    • Notably,模型在全球健康和不确定性下响应 (Global Health and Responding Under Uncertainty) 方面超过了医生的加权平均值(见附录 A.4 的图 9)
Once the response length reaches its limit, self-rewarding further enhances the model’s reasoning performance(Response 长度达到限制后, Self-rewarding 能进一步提升推理性能)
  • 论文使用 Qwen3-32B 模型作为 Grader ,在 HealthBench Hard 上评估了实验,结果如图 5b 所示
    • 其中一次 Self-rewarding 运行的评分温度 (grading temperature) 设为 1.0(与 rollout 温度相同),而其他运行则保持建议的 0.6
      • 注:如表 2 所示,温度不应该影响评分性能
  • 最终结果显示所有配置都持续优于 Baseline ,而将评分温度设置为 1.0 时取得了最佳性能
    • 如图 5a 所示, Self-rewarding 比 Baseline 更早达到最大 Response 长度(均在 700-800 步内);
    • 然而,其在图 5b 中显示的 HealthBench Hard 分数持续增加,从而获得了相对于 Baseline 更好的最终结果
    • 理解: Baseline 的配置见 3.3 节(Preliminary Experiments)中提到的使用开源模型作为 Grader 的方案
  • 最后,论文使用 GPT-4.1 作为 Grader 进行了更准确的评估,结果如表 4 所示
    • 论文观察到所有 Self-rewarding 方法都优于 Baseline ,甚至超过了 GPT-5 的性能
  • 此外,论文发现将评分温度设置为与 rollout 温度相匹配会得到更好的结果,这与 Qwen3-32B 评估结果一致,达到了 0.500 的分数
Improvements are observed across most evaluation dimensions
  • 论文分析了不同维度的分数变化,发现在完整性和上下文感知 (context awareness) 方面有显著改善,这对大多数模型来说都具有挑战性
  • 后者尤其要求模型“恰当地响应存在的上下文线索”,需要强大的上下文理解能力
  • 然而,随着输出内容变长,沟通质量 (communication quality) 方面出现了一个负面副作用
    • 即模型的表达变得不够简洁、清晰和易读
    • 这凸显了在开放性问题中需要进行权衡,并表明仍有大量的研究机会
  • 论文比较了原始 Qwen3-32B 模型和 Self-rewarding 模型的分数,发现 82.5% 的样本有所改进
    • 在改进的样本中,与其余样本相比,上下文感知 Rubric 的比例从 20.6% 下降到 17.5%,而沟通质量的比例从 6.0% 增加到 9.1%
    • 相关案例见附录 A.5

Training Efficiency

  • 论文分析了 Self-rewarding 方法相比于 Baseline 方法的训练效率
  • 如表 5 所示,在早期阶段,较短的 average rollouts 使得奖励计算在单步时间中占比较大,而在后期阶段,较长的 rollouts 降低了奖励时间的相对比例
  • Self-rewarding 在单步时间和奖励计算时间上均实现了显著的加速(各阶段均减少约 50%),展示了论文方法的计算优势
  • 请注意, Baseline 训练使用 32 个 GPU 进行训练,另外 32 个 GPU 用于 GRM 推理,而 Self-rewarding 总共只使用 32 个 GPU,所有其他配置保持不变
  • Importantly,观察到的训练效率提升与实现细节密切相关;因此,论文仅报告论文配置下的相对效果

Dataset Influence

Using scoring data further enhances the model’s grading ability(使用评分数据可进一步提升模型的评分能力)
  • 为了进一步评估改进的评分能力如何影响不同规模的训练,论文从前期的 GPT-4.1 评估中构建了一个评分数据集,并使用可验证的奖励目标进行训练
  • 当仅在评分数据上训练时(图 7a),Qwen3-8B 的 HealthBench MF1 从 0.627 提升到 0.651,而 Qwen3-32B 的则从 0.670 提升到 0.684
  • 在混合目标 (mixed-objective) 设置下(图 7b),评分能力进一步提升;
    • 然而,对于 Qwen3-8B,整个训练过程中分数持续增加,而对于 Qwen3-32B,则出现了过拟合
  • 值得注意的是,由于重复输出,Qwen3-8B 的训练在大约 600 步后崩溃,而 Qwen3-32B 的训练则非常稳定
  • 问题:从图 7(a) 看,300 步内,看着整体还是呈现上升状态的,600 步后的崩溃没有给出图像说明
    • 图 7(b) 中给出了 Qwen3-8B 到 600 步以后就没有分数了,看起来像是 Mixed 和 非 Mixed 都同时崩溃?
Mixed-objective training benefits weaker models but not stronger ones(混合目标训练对较弱模型有益,但对较强模型无效)
  • 当使用混合数据 (mixed data) 训练时,Qwen3-8B 的 HealthBench Hard 分数(由 Qwen3-32B 评分)从 0.354 增加到 0.380,而 Qwen3-32B 的性能则如图 5b 所示有所下降
    • 问题:似乎没看到下降,始终高于不适用混合数据的训练方案;只是自身在提升后随着训练的进行有下降趋势(仍始终高于非混合数据方案)
  • 结合图 7b 中观察到的过拟合现象,论文假设较强模型的评分能力对于自我训练已经足够,而混合目标干扰了原始目标
  • 因此,论文建议对较强的模型使用纯 Rubric-based RL 训练目标
Synthetic data remain effective, but underperform expert data
  • 合成数据仍然有效,但表现不及专家数据
  • 同样,像 easy set 这样的专家精心策划的数据收集成本高昂,因此论文评估了合成数据的有效性
  • 如图 5b 所示,使用合成数据进行训练是有效的(effective),但落后于专家数据的 Baseline
    • 这符合预期:更高质量的专家数据为学习提供了更强的指导
    • 问题:合成数据的训练明显是所有方案中 HealthBench Hard 得分最低的,怎么能说是有效的呢?作者是不是看错了?

补充:Related Works

  • 自演进(self-evolving)大语言模型的概念既引人入胜,也在迅速发展
    • 在此,论文总结最相关的研究方向

Reinforcement Learning from AI Feedback,RLAIF

  • RLAIF 最初是作为 RLHF 的替代方案提出的,用于训练模型使其有用、诚实且无害 (2022)
    • 其主要优点是不需要人类标注者,而是依赖于一个标量奖励模型 (2022)
  • (2024) 进一步证明,当奖励模型和策略模型规模相当时,RLAIF 可以达到与 RLHF 相当甚至更优的结果
    • 他们还提出了一种变体,直接 RLAIF(direct-RLAIF),即直接使用更小的通用 LLM 作为 Grader ,其性能可以超越同规模的奖励模型
  • 论文的工作借鉴了这一观点(特别是,生成式奖励模型可能更有效)
    • 通过利用训练好的策略模型本身作为奖励模型来生成奖励信号

Rubrics as Rewards,RaR

  • 同样受 HealthBench (2025) 启发,同时期的工作 (2025) 也探索了使用 Rubric-based 评分信号进行训练
    • However,他们的方法依赖于更强的专有模型作为 Grader
  • In Contrast,论文的工作并不专注于自动构建 Rubric 数据集
    • 因为论文的实验表明,由专家定制的 Rubric 数据在训练效果上具有显著优势

Self-Rewarding Language Models

  • Self-Rewarding Language Models (2025) 首次引入了这种范式,通过对模型自身的回答进行评分,并构建成对偏好数据用于直接偏好优化(DPO)训练
  • However,(2024) 指出这种训练可能会积累偏见,导致优化目标漂移
  • Kimi K2 (2025) 提出了自批判 Rubric 奖励机制(Self-Critique Rubric Reward),该机制针对一组有限的 Rubric 进行成对评估
  • 论文的方法主要采用点式复合奖励(point-wise composite rewards)和广泛的 Task-specific Rubric 来减轻奖励破解(reward hacking),并证明相对较小的开源模型能在困难的开放式推理任务上达到最先进的结果

附录 A:更多细节

A.1 Sampling Parameters for Evaluation

  • 关于采样器(Samplers),对于所有开源模型,max_tokens 均设置为 32768
  • 关于 Graders ,对于非推理模型设置为 4096,启用思考模式时设置为 8192
    • 对于 GPT-4.1,参数与原始代码库中提供的保持一致
    • 其他采样参数总结在表 6 中

A.2 SFT Loss Curves

  • Figure 8:

A.3 强化学习的训练细节

  • 由于 verl 中参数和配置的复杂性,论文在此仅列出关键设置;完整的训练脚本将在开源代码库准备就绪后提供
  • 后端(Backends) 论文使用 Megatron 进行 Actor 训练,使用 vLLM 进行 Rollout,但 GRM/评估使用 SGLang 路由器部署
  • 并行策略(Parallelism Strategy) 对于 Qwen3-32B,论文使用 4 路张量并行和 2 路流水线并行进行训练,使用 4 路张量并行进行 Rollout。对于 Qwen3-8B,论文使用 4 路张量并行进行训练
  • ** Baseline SGLang 设置** 每个节点以 8 路数据并行初始化,并通过具有自动负载均衡的 SGLang 路由器连接
  • verl 的特定参数(Specific parameters for verl)
    • 除了混合数据实验外,所有实验的 train_batch_size=32,ppo_mini_batch_size=32;混合数据实验的这些值都设为 40,以保持每步的 Rubric 数据一致
    • max_prompt_length=2k,max_response_length=6k
    • rollout.n=4,rollout.max_model_len=16k
    • rollout.temperature=1.0,rollout.top_p=1.0,rollout.top_k=-1
    • clip_ratio_low=0.2,clip_ratio_high=0.28

A.4 Comparision to Physicians

  • Figure 9:

A.5 案例研究

A.5.1 Performance Improvement Case
  • 详情见原文
A.5.2 Performance Drop Case
  • 详情见原文

附录:HealthBench MF1 指标介绍

  • HealthBench 是 OpenAI 推出的医疗大模型评估基准,核心以医生编写的细粒度评分标准为核心,从 5 大行为维度与 7 大场景主题对模型回复打分,用标准化方式衡量医疗大模型在真实临床交互中的安全性、准确性与实用性
  • HealthBench 原始论文:HealthBench: Evaluating Large Language Models Towards Improved Human Health, OpenAI, 20250513
  • HealthBench HuggingFace:huggingface.co/datasets/openai/healthbench
  • HealthBench 博客链接:Introducing HealthBench, OpenAI, 20250512
  • MF1(Macro F1 分数)是用于二分类任务的性能评估指标,核心是对正类(met)和负类(not-met)的 F1 分数进行无加权平均,能平衡两类结果的评估敏感度,尤其适合类别不平衡的场景(如医疗评分中部分标准极少被触发)
  • 先明确二分类任务中的核心统计量:
    • \( TP_{pos} \):正类真阳性(模型判定“符合标准”且实际符合)
    • \( FP_{pos} \):正类假阳性(模型判定“符合标准”但实际不符合)
    • \( FN_{pos} \):正类假阴性(模型判定“不符合标准”但实际符合)
    • \( TP_{neg} \):负类真阳性(模型判定“不符合标准”且实际不符合)
    • \( FP_{neg} \):负类假阳性(模型判定“不符合标准”但实际符合)
    • \( FN_{neg} \):负类假阴性(模型判定“符合标准”但实际不符合)
  • 单类 F1 分数计算
    • F1 分数是精确率(Precision)和召回率(Recall)的调和平均数,公式为:
      $$ F1 = 2 \times \frac{\text{Precision} \times \text{Recall} }{\text{Precision} + \text{Recall} } $$
    • 分别计算正类和负类的 F1 分数:
      • 正类 F1 分数(\( F1_{pos} \)):
        $$ F1_{pos} = 2 \times \frac{TP_{pos} }{2 \times TP_{pos} + FP_{pos} + FN_{pos} } $$
      • 负类 F1 分数(\( F1_{neg} \)):
        $$ F1_{neg} = 2 \times \frac{TP_{neg} }{2 \times TP_{neg} + FP_{neg} + FN_{neg} } $$
  • MF1 最终计算
    • MF1 是正类与负类 F1 分数的无加权平均值,公式为:
      $$ MF1 = 0.5 \times (F1_{pos} + F1_{neg}) $$

一些简答说明

  • 无加权特性:无论正类、负类样本数量差异多大,两类 F1 分数在计算中权重相同,避免少数类表现被掩盖
  • 医疗场景适配性:在 HealthBench 中,MF1 用于衡量模型评分与医师判断的一致性,能同时捕捉“漏判重要医疗标准”(假阴性)和“误判无关标准”(假阳性),贴合医疗评估的严谨性需求

NLP——LLM对齐微调-SDPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:SDPO: Segment-Level Direct Preference Optimization for Social Agents, 202502, Nankai, Alibaba
      • 论文 GitHub 开源网址:AlibabaResearch/DAMO-ConvAI
      • 论文是 南开实习生在阿里实习时的工作

Paper Summary

  • 整体说明:
    • 论文提出了 Segment-level 直接偏好优化(Segment-Level Direct Preference Optimization, SDPO),用于提升 LLM-based Agent 在多轮社交对话中 的表现
    • 对比:与现有的多轮对齐方法(如 ETO 和 DMPO)不同:SDPO 通过聚焦 Session 中的关键片段(key segments)来优化 Agent 策略
  • 背景 & 问题:
    • LLM 驱动的社交 Agent 能够模拟人类社交行为,但在处理复杂社交对话时仍存在不足
    • DPO 在多种 Agent 任务中已被证明能有效对齐 LLM 行为与人类偏好
      • 标准 DPO 仅关注单轮对话,这限制了其在多轮社交互动中的效果
      • 一些基于DPO的多轮对齐方法(利用 Session-level 数据)已展现出解决这一问题的潜力
    • 这些方法考虑了整个 Session 中的多轮对话,但其粒度通常过于粗糙,会引入训练噪声,且缺乏坚实的理论支持
  • 本文解法:SDPO
    • 该方法通过动态选择交互中的关键分段(Segment)来优化多轮 Agent 行为
    • SDPO 能够最小化训练噪声,并建立在严格的理论框架之上
    • 在 SOTOPIA 基准测试上的评估表明,经 SDPO 调优的 Agent 在性能上 consistently 优于现有的基于 DPO 的方法以及 GPT-4o 等专有 LLM,这凸显了 SDPO 在提升 LLM-based Agent 社交智能方面的潜力
  • 注:论文的代码和数据已开源

Introduction and Discussion

  • LLM 的进步显著提升了其在语言理解和生成方面的能力,尤其是在人机交互领域
  • 通过融入身份特定信息,LLM-based Agent 能够模拟人类社交行为,在角色扮演休闲对话[22, 23]和模拟社交环境导航[24]等任务中展现出基本的社交智能
  • 然而,近期研究[27]表明,在更复杂的、目标导向的社交场景(如谈判、竞争与合作)中,LLM 仍难以表现出人类社交互动中特有的细腻决策能力
  • 为应对这些挑战,研究者们开发了多种方法以更好地对齐 LLM 行为与人类偏好
    • 这些方法为改进 LLM 的社交决策提供了有前景的策略
  • 论文关注基于直接偏好优化(DPO)的方法。标准 DPO[19]通过识别单轮对话,并利用该轮中的“ Positive - Negative (positive-negative)”响应对,通过偏好损失函数优化模型
    • 尽管 DPO 已展现出一定效果,但其对单轮对话的关注限制了其在目标导向社交对话中建模目标完成的能力,因为这类对话的成功通常依赖于跨越多轮的高质量互动
  • 为更有效地对齐多轮互动中的 Agent 行为,研究者提出了多种多轮对齐方法,包括 ETO[20]和 DMPO[26]
    • 这些方法将采样范围从单轮扩展至整个 Session ,通过构建 “good and bad” 的 Session 对并应用改进的 DPO 损失进行训练
    • 论文将这些方法归类为 Session-level DPO,它们在数据粒度和理论基础上均存在局限性
  • 从数据角度来看,Session-level DPO 因其较粗的对齐粒度而存在以下缺陷:
    • (i) Negative Session 中无错误的轮次也会被误判为 Negative 输出 ,从而引入大量噪声,对训练过程产生 Negative 影响
    • (ii) 从零开始采样为对话者(interlocutor)提供了巨大的行动空间。 Positive Session 的高分可能源于对话者行为的改变 ,这使得模型难以从 Positive 样本中学习正确的行为模式
      • 理解:这里是说高分 Session 可能不是 Agent 回答的好,而是 Interlocutor 回答的好
  • 从理论角度来看,在多轮场景中,直接应用 DPO 无法消除配分函数(partition function) \( Z \)(2024)
    • ETO 将 DPO 损失扩展至多轮互动,但缺乏形式化的理论保证
    • DMPO 结合了 SAOM 理论,成功将 \( Z \) 转换为常数;
    • 然而,由于 Positive 和 Negative Session 的轮次数量不同,DMPO 通过启发式长度归一化消除 \( Z \),但缺乏严格的数学证明
    • 这部分的详细的理论分析见附录B.2
  • 为克服 Session-level DPO 的局限性,论文提出了 Segment-level 直接偏好优化(SDPO)
    • 论文的方法将采样起点向后移动,并截断 Session 末尾的无用内容,从而获取关键分段对以细化粒度
    • 同时,论文确保 Positive 和 Negative 分段的轮次数量一致,从而消除 \( Z \) 并严格推导出 SDPO 损失
  • 具体而言,SDPO 的做法如下:
    • 识别 Negative Session 中的错误轮次 ,利用该错误轮次之前的交互历史进行多次采样 ,生成 Positive Session
      • 问题:怎么识别到错误轮次呢?回答:见后面的章节
    • 以首个差异轮次为起点,从 Positive Session 中选择有助于提升分数的关键分段 ,并从 Negative Session 中截取相同长度的对应分段以形成数据对
      • 问题:如何评估有助于提升分数?回答:见后面的章节
    • 针对分段内的轮次计算 SDPO 损失
  • 论文在图1中展示了三种社交对话(social dialogues)对齐算法的概览
  • 在数据层面,SDPO 能够解决 Session-level DPO 的缺陷,SDPO 优点如下:
    • (i) 仅针对 Negative 和 Positive 分段中的轮次计算损失,从而大幅消除了非错误轮次引入的训练噪声
    • (ii) 从错误轮次开始采样缩小了对话者的行动空间,使得采样得到的 Positive Session 更可能包含 Agent 的正确行为模式
      • 理解:这是相对上面 Session-level 对话对应的问题
  • 在理论上,得益于分段选择的灵活性,SDPO 能够控制 Positive 和 Negative 分段的轮次数量以确保一致性,从而消除 \( Z \) 并得到一个简洁而严谨的 SDPO 损失
  • 我们通过 SOTOPIA(2024)这一开放、交互式的社交智能基准测试对我们的方法进行了实证评估
    • 实验采用了自对话(self-chat)以及与其他智能体(包括 GPT-4o 和 GPT-4o-mini)的交互形式
    • 结果表明,经过 SDPO 调优的智能体在性能上始终优于 DPO、ETO、DMPO 等现有方法,甚至超越了 GPT-4o 等专有大语言模型,这充分证明了 Segment-level 对齐(segment-level alignment)的有效性
  • Segment level 是一种更灵活且统一的数据粒度,能够根据不同数据对动态选择优化范围,同时优雅地解决了多轮对齐的理论挑战。在论文中,我们主要将SDPO应用于提升智能体的社交智能,但我们相信该方法同样适用于其他场景,从而进一步扩展智能体在不同领域的能力
  • 论文的主要贡献包括以下三点:
    • 提出了 SDPO,这是一种新颖的多轮对齐算法,为 Segment-level 偏好数据对的构建提供了完整的流程,实现了更高效的对齐粒度
    • 指出了现有多轮对齐方法在理论上的局限性,并通过分段粒度(segment-level granularity)的灵活性解决了这些问题,严谨地推导出了一个简洁的 SDPO 损失函数公式
    • 在 SOTOPIA 这一模拟交互式社交基准测试上评估了论文的方法,SDPO 的表现及深入分析证明了 Segment-level 对齐的有效性和鲁棒性

Preliminary

SOTOPIA Environment

  • SOTOPIA 提供了一个交互式、开放且逼真的模拟环境,能够更精准地评估 Agent 的社交智能(不同于其他静态问答形式测试的社交基准(2019; 2024)不同)
    • SOTOPIA 中的社交任务包含一个场景、两个角色档案及其需要通过互动达成的私人社交目标
    • 场景与社交目标的多样化组合涵盖了谈判、合作与竞争等广泛的社交互动类型
    • SOTOPIA 定义了七个评估社交 Agent 的维度
  • 论文主要关注“目标(goal)”(0 to 10,int)和“关系(relationship)”(-5 to 5,int)
    • 因为 GPT-4o 在这些指标上的评分与人类评估高度一致
  • SOTOPIA-\(\pi\)(2024a)是一项后续工作,利用 GPT-4 自动构建了一组场景(与 SOTOPIA 完全不重叠),作为本研究的训练数据集
  • 此外,论文重构了 SOTOPIA 的提示组织格式以支持多轮对齐,具体细节见附录A

Task Formulation

  • 在 SOTOPIA 任务中,论文将 Agent 可用的背景信息记为 \( b \),包括场景、角色档案及其目标
  • Agent 在第 \( n \) 轮面临的交互历史 \( h_n \) 定义如下:
    $$
    h_n =
    \begin{cases}
    b, y_0, y’_0, \ldots, y_{n-1}, y’_{n-1}, & \text{if speak first} \\
    b, y’_0, y_0, \ldots, y_{n-1}, y’_n, & \text{if speak later}
    \end{cases} \tag{1}
    $$
    • \( y_i \sim \pi_\theta(\cdot|h_i) \) 表示 LLM-based Agent 在第 \( i \) 轮根据其策略 \( \pi_\theta \) 和参数 \( \theta \) 生成的输出;
    • \( y’_i \) 表示对话者的输出,其服从一个未知分布
  • 基于此形式化,论文在附录B.1和B.2中分别给出了 ETO 和 DMPO 的损失函数

Direct Preference Optimization

  • Rafailov 等 (2023) 提出了直接偏好优化(DPO),该方法利用成对偏好数据训练策略模型,而无需依赖强化学习(2022)。在社交对话场景中,论文将错误轮次编号记为 \( e \),DPO 损失函数定义如下:
    $$
    L_{DPO} = -\mathbb{E}_{(h_e, y^w_e, y^l_e) \sim D} \log \sigma
    \left[ \beta \log \frac{\pi_\theta(y^w_e|h_e)}{\pi_{ref}(y^w_e|h_e)} - \beta \log \frac{\pi_\theta(y^l_e|h_e)}{\pi_{ref}(y^l_e|h_e)} \right], \tag{2}
    $$
    • 其中 \( y^w_e, y^l_e \sim \pi_\theta(\cdot|h_e) \) 分别表示错误轮次中的 Positive 和 Negative 输出
  • 然而,由于其单轮优化的特性,DPO 并不适合社交对话
    • 将 DPO 严谨地扩展至多轮场景是一个待解决的挑战,论文将在第3.3节中探讨这一问题

Method

Behavioral Cloning

  • 注:使用 Behavioral Cloning 初始化 Agent
  • Behavioral Cloning(BC)作为一种有效的模仿学习方法,被广泛应用于各类 LLM-based Agent 构建中
  • 在本研究中,论文使用 GPT-4-turbo 作为专家模型,通过自对话(self-chat)以及与 GPT-4o 的交互,在 SOTOPIA-\(\pi\) 数据集上收集专家 Session 数据
  • 基于这些数据,论文对开源大语言模型(如 Llama-3.1)进行微调,构建了实验所需的初始社交 Agent

Preference Data Construction

  • 构建高质量的 Segment-level偏好数据对是本方法的核心
  • 在 SOTOPIA-\(\pi\) 数据集上,论文的社交 Agent 通过自对话以及与 GPT-4o 的交互生成数据
  • 论文设定目标维度(goal dimension)的阈值为 7,所有目标完成度低于此阈值的对话均被视为潜在的负样本
  • 给定一个负样本 Session,生成 Segment-level 数据对的流程包括以下三个步骤(如图2 所示):
  • 错误定位(Error Location)
    • 与数学等具有明确错误定义的场景不同,社交对话中的错误是一个相对模糊的概念
    • 在负样本 Session 中,如果论文的 Agent 在某一轮次(turn)的回应满足以下条件,则将该轮次 Token 为错误轮次:
      • (1) 该轮次对实现角色目标至关重要;
      • (2) 当前回应在目标完成度或双方关系改善方面仍有提升空间
    • 注:错误定位由 GPT-4o 完成,具体提示词(prompt)见附录 C.3
  • 正样本 Session 采样(Positive Session Sampling)
    • 在错误定位后,基于该轮次之前的交互历史,论文采样 5 个完整 Session
    • 从这些 Session 中选择目标分和关系分(优先考虑目标分)最高的一个
      • 如果最优 Session 的目标分或关系分高于负样本,则该 Session 与负样本组成数据对;
      • 否则丢弃该负样本
  • 段选择(Segment Selection)
    • 获得 Session-level 数据对后,论文将正负样本同时提供给 GPT-4o,提示其从正样本中选择一个段(segment)
      • 该段应包含对正样本获得更高目标分和关系分起到关键作用的部分
      • 接着从负样本中提取相同长度的段,与正样本段配对形成 Segment-level 数据对
      • 问题:相同长度的段是什么意思?正负样本对的段不一定都完全一样吧
    • 这一过程旨在排除与 Session 目标无关的轮次(如寒暄内容)
    • 注:给 GPT-4o 的提示词见附录 C.3
  • 论文评估了 GPT-4o 在错误定位和段选择任务中的表现,结论显示其能够有效完成这两项任务,详细分析见附录 C.2

SDPO Loss

  • 论文将 DMPO 的框架迁移到对话领域,并首先引入状态-动作占用测度(State-Action Occupancy Measure,SAOM)
  • 在此框架下:
    • 交互历史 \( h \) 作为状态(state),Agent 的输出 \( y \) 作为动作(action)
    • 策略 \( \pi \) 的折扣 SAOM \( d^{\pi}(h, y) \) 定义如下:
      $$
      d^{\pi}(h = h_t, y = y_t) = \gamma^t \cdot P(h_0) \cdot \prod_{k=0}^{t-1} \pi(y_k | h_k) P(h_{k+1} | h_k, y_k), \tag{3}
      $$
      • \( \gamma \) 为折扣因子
    • 基于 \( d^{\pi} \) 的强化学习目标为:
      $$
      \max_{\pi_\theta} \mathbb{E}_{(h,y) \sim d^{\pi_\theta}(h,y)} [r(h, y)] - \beta \mathbb{D}_{KL} [d^{\pi_\theta}(h,y) || d^{\pi_{ref} }(h,y)], \tag{4}
      $$
    • 根据 DPO,式(4)的最优解为:
      $$
      d^{\pi^*}(h,y) = \frac{1}{Z} d^{\pi_{ref} }(h,y) \exp \left( \frac{1}{\beta} r(h,y) \right), \tag{5}
      $$
      • \( \pi^* \) 为最优策略
      • \( Z \) 为归一化概率的配分函数(partition function)
  • 由于 \( d^{\pi}(h,y) \) 是 \( (h,y) \) 对的函数,对其进行归一化会导致配分函数 \( Z \) 与当前历史 \( h \) 无关
    • 因此,\( Z \) 对所有 \( (h,y) \) 对均为常数,这是消除 \( Z \) 的关键步骤
  • 奖励函数的形式为:
    $$
    r(h,y) = \beta \log \frac{d^{\pi^*}(h,y)}{d^{\pi_{ref} }(h,y)} + \beta \log Z. \tag{6}
    $$
  • 随后,论文使用 Bradley-Terry(BT)模型对偏好分布建模
    • 在这一步中,DMPO 错误地重复计算了式(3)中的 \( \gamma \),并在后续步骤中启发式地对长度进行归一化以消除 \( Z \),但缺乏严格证明(详细讨论见附录 B.2)
  • 给定偏好数据对,BT 模型的正确应用如下:
    $$
    p(\tau^w \succ \tau^l | h_0) = \sigma \left( \sum_{t=0}^{T_w - 1} r(h_t^w, y_t^w) - \sum_{t=0}^{T_l - 1} r(h_t^l, y_t^l) \right), \tag{7}
    $$
    • 其中 \( \tau^w \) 和 \( \tau^l \) 分别表示“胜”和“负”样本,\( T_w, T_l \) 为各自的轮次数
    • Session-level DPO 无法控制正负样本的长度,由于通常 \( T_w \neq T_l \),配分函数 \( Z \) 无法直接在式(7)中抵消
      • 理解:正负样本通常不同,此时配分函数是消不掉的
  • 与这些方法不同,SDPO 从正负样本中各选一个段进行优化,可以自由控制其长度
    • 通过确保两段长度相同,论文能够直接消除式(7)中的 \( Z \)
    • 同时,结合式(3)替换 \( d^{\pi} \),论文得到以下简洁的 SDPO 损失函数:
      $$
      L_\text{SDPO} = -\mathbb{E}_{(h_e, h^w, h^l) \sim D} \log \sigma \left[ \sum_{t=e}^{e+k} \beta \left( \log \frac{\pi_\theta(y_t^w | h_t^w)}{\pi_{ref}(y_t^w | h_t^w)} - \log \frac{\pi_\theta(y_t^l | h_t^l)}{\pi_{ref}(y_t^l | h_t^l)} \right) \right], \tag{8}
      $$
      • \( e \) 表示错误轮次的编号
      • \( k \) 为所选段中的总轮次数

Experiments

Datasets

  • 训练使用的 SOTOPIA-\(\pi\) 共包含 410 个场景:
    • 其中 100 个场景用于行为克隆(Behavioral Cloning, BC),每个场景包含 10 对角色;
    • 310 个场景用于对齐,每个场景包含 8 对角色
    • 测试使用的 SOTOPIA 包含 90 个场景,每个场景包含 5 对角色,总计 450 个自对话任务和 900 个非自对话任务

Experimental Setup

  • 训练(Training)
    • 论文主要使用 Llama-3.1-8B-Chat 作为基础 LLM 来构建社交 Agent
    • 最大 token 限制设置为 4096
    • 所有训练过程均采用 AdamW 优化器
    • 在 SFT 阶段:
      • 批大小为 32
      • dropout 率为 0.2
      • 学习率为 \(1 \times 10^{-5}\)
      • 预热比例为 5%
      • 采用余弦衰减调度
    • 在 SDPO 的对齐训练阶段:
      • 批大小保持为 32
      • SDPO 损失中的 \(\beta\) 设为 0.1
      • 学习率为 \(1 \times 10^{-6}\)
      • 无预热
      • 采用余弦衰减调度
    • SDPO 训练数据的统计细节见附录 C.1
  • SOTOPIA
    • 在正样本采样过程中:
      • 目标 Agent 的温度(temperature)设置为 1.0
      • 另一 Agent 的温度设置为 0.7
    • 测试时:
      • 论文将两个交互 Agent 的温度均设为 0.7
      • 尽管温度会为 Agent 的输出引入随机性,但论文发现评估结果在数值上保持稳定,因此论文基于单次测试报告结果(吐槽:这么稳定吗?仅单次报告就行?)

Baselines

  • 论文将提出的 SDPO 与以下几种强基线方法进行比较:
    • 1)OpenAI 的专有大语言模型(如 GPT-4o),具体版本见附录 D.1
    • 2)监督微调行为克隆(SFT Behavioral Cloning) :在专家交互数据上微调 LLM,生成的模型作为 SDPO 及其他基线的基础 Agent
    • 3)直接偏好优化(DPO) :基于单轮数据优化 Agent 策略,具体针对 SDPO 中正负样本的首个差异轮次
    • 4)基于探索的轨迹优化(ETO) :使用 Session-level 数据优化 Agent 策略
      • ETO 使用与 SDPO 相同的负样本 Session,但从头采样五个新 Session 来构成数据对
    • 5)动态多轮偏好优化(DMPO) :使用与 ETO 相同的数据,但采用 DMPO 新的损失函数更新策略
    • 6)偏好监督微调(Preferred-SFT) :在 SDPO 的正样本 Session 上微调基础 Agent

Results

  • 表1 展示了 SDPO 和所有基线方法在 SOTOPIA 上的结果
  • 如表所示,在目标和关系两个维度上,SDPO 显著优于标准 DPO、 Session-level 的 ETO 和 DMPO,甚至大幅超越 GPT-4o 等专有 LLM,凸显了 Segment-level 对齐的有效性
  • 通过分析 SOTOPIA 中的交互历史,论文发现较弱的 Agent 通常表现出固执性,仅重复表达需求,导致目标和关系水平较低,尤其是在自对话场景中
  • 使用专家数据进行行为克隆可以有效改善这种情况,使 Agent 更具沟通性
  • Llama-8B+BC 在与 GPT-4o 交互时目标率(goal rate)下降的原因是 Agent 变得更具说服力
  • 论文还观察到,对齐后的 Agent 在目标和关系(goal and relationship)上同时提升,这表明对齐方法确实增强了模型的社会智能(social intelligence),而非通过违反社会规范的行为(如威胁或欺骗)实现目标
  • 论文也在 Mistral-Instruct-v0.3 上重复了上面的实验,实验结果见 表2,实验设置的细节见附录 D.2
    • 在这些实验上,SDPO 也一致超过了基线模型,展示了其泛化性

Analysis

  • 模型输出长度的变化(Variation in Model Output Length)
    • 图3 展示了各种 Agent 与 GPT-4o 交互时的输出长度
      • 与 BC Agent 相比,所有对齐方法均增加了 Agent 的输出长度
      • 这种现象在将 DPO 应用于 AI 聊天机器人时常见
      • 但与用户对长回复的潜在偏见不同,有效的社交策略通常需要更多 token 进行沟通,因此输出长度的增加是合理的
    • 此外,论文实验在 SDPO 调优的 Agent 达到 10 轮交互时终止对话,以在相似 token 数量下比较性能
      • 结果显示,SDPO 仍优于其他多轮方法,表明 SDPO 调优的 Agent 能更高效地利用词汇
  • 正样本利用效率(Efficiency of Positive Sample Utilization)
    • 图4 展示了 Session-level 和 Segment-level 正样本的质量对比
      • 在采样次数一致的情况下, Session-level 正样本在目标和关系上优于 Segment-level 正样本
      • 从头采样提供了更大的采样空间,增加了生成高质量 Session 的可能性
      • 但尽管 Session-level DPO 使用了更高质量的数据,其表现仍不及 SDPO
        • 这表明由于 Segment-level 的更细粒度和对损失函数的理论支持,SDPO 能更高效地利用正样本
  • 论文还分析了 DPO 和 SDPO 对正负样本概率差异的影响,详细内容见附录 E.2

Ablation Study

  • 段选择方法(Segment Selection)
    • 论文探索了 SDPO 的不同段选择方法,结果如表3 所示
      • 方括号中,负样本段的长度在前,正样本段的长度在后
      • 对于对称段长度,固定长度为 3 和 5 的段优于长度为 1 的段(DPO),证明了多轮对齐的有效性
      • 长度为 5 的段效果略逊于长度为 3 的段,表明更长的段并非总是更好
    • 基于此,论文利用 GPT-4o 动态从每个正样本中识别关键段,取得了最佳结果
      • 对于非对称段长度,[3,1] 和 [5,3] 的模型训练崩溃,无法正常交互
      • 其他非对称段的表现均不及对称段,支持了 3.3 节的理论讨论
    • 此外,随着非对称程度的降低,模型性能提升,这可能是因为未消除的 \(Z\) 对损失的影响减弱
      • 这一发现有助于解释 ETO 的有效性,因其未对正负样本 Session 的长度施加约束
  • 采样对话者(Interlocutor for Sampling)
    • SDPO 的对齐数据分别使用 BC Agent 自身和 GPT-4o 作为对话伙伴收集
    • 论文在每个数据子集上独立训练模型,结果如表4 所示
      • 使用单一数据源训练的模型在自对话和与 GPT-4o 交互中均表现提升,进一步验证了 SDPO 的泛化能力
      • 组合数据集训练的模型优于单一数据集训练的模型,表明引入多样化对话伙伴的数据可以进一步提升 Agent 的社会智能
  • 分布外数据(Out-of-Distribution Data)
    • 基础 BC Agent 从 GPT-4-turbo 生成的专家数据中学习,使用 GPT-4-turbo 生成正样本是否能带来更好的性能?
    • 论文让 GPT-4-turbo 与 BC Agent 交互,并为 SDPO 采样 5 次
      • 生成的正样本在目标和关系评分上均优于自采样样本
    • 然而,如表4 所示,使用该数据训练的模型表现不及自采样方法
      • 这表明分布外正样本的效果不如分布内样本
      • 在训练过程中,分布外正样本的概率显著低于负样本,这种更大的概率差距可能是性能不佳的原因

Related Work

Social Intelligence

  • 社交智能(Social Intelligence)可以定义为 Agent在社会互动中理解、适应和回应他人情感、意图和行为的能力
  • 大多数关于社交智能的研究集中在评估方面,例如
    • SOCIALIQA(2019)强调对社会情境的常识推理
    • SocialIQ(2019)将评估模式从纯文本扩展到视频
    • Shapira 等(2023)使用 Faux Pas Test 评估 LLM
    • SocialBench(2024)则在个体和群体层面评估角色扮演 Agent 的社交性
  • 此外,一些研究(2019; 2024)从心理理论(theory-of-mind)的角度探讨模型的社交智能
  • 随着 LLM 的发展,基于大语言模型的社交 Agent 已经能够在真实社交场景中互动,传统的静态问答式基准(QA-style benchmarks)已不足以评估 Agent 的社交智能
    • SOTOPIA(2024)是目前唯一动态且交互式的社交基准,为当代社交 Agent 提供了模拟测试环境
    • 作者希望这项工作能够通过方法创新,进一步推动提升模型社交智能的研究

Alignment Methods with Refined Granularity

  • Rafailov 等(2023)提出了直接偏好优化(Direct Preference Optimization, DPO),该方法利用离线数据和简化的损失函数对齐大语言模型
  • 基于 DPO,多种细粒度对齐算法被开发出来。例如
    • Token-level DPO(2024)在 Token-level 别整合前向 KL 散度约束,同时提升对齐性和多样性
    • Step-DPO(2024)利用单个推理步骤(reasoning steps)进行偏好优化,而非整体答案级评估
    • SePO(2024)提出了一种 Token-level 奖励函数估计方法,选择性优化回答中的关键 Token
  • 然而,在社交对话或网络导航等多轮交互场景中,单轮对齐(single-turn alignment)是不够的
    • ETO 和 DMPO 将 Session-level 数据(session-level data)引入 DPO,将其扩展到多轮场景
  • 论文进一步提出了 SDPO,通过动态的 Segment-level 优化框架(segment-level optimization framework)实现多轮交互中更细粒度的对齐

Limitations

  • 论文提出的 SDPO 假设正负片段的长度相等 ,并在此假设下实现了最先进的性能
    • 具体而言,在从正样本中选出一个片段后,论文从负样本中选取相同长度的片段以消除配分函数 \( Z \)
    • 这种方法存在一定局限性
    • 负样本片段可能包含无关或无错误的轮次(turns),或未能捕捉到所有错误轮次,这表明在从负样本中选择片段时需要更细粒度的控制
    • 目前,作者尚未找到能够有效支持不等长片段对齐的理论框架
    • 作者希望这项工作能够激发进一步研究,鼓励多样化的理论分析以解决多轮对齐中的这一问题
  • 由于 SOTOPIA 是目前唯一可用的交互式社交基准 ,论文的实验仅在该数据集上进行
    • 未来,作者计划引入更多交互式 Agent 任务,以进一步验证 SDPO 的通用性

附录A Modifications to SOTOPIA

  • 在 SOTOPIA 中,每次交互都以单轮(single-turn)格式组织,这不支持多轮对齐(multi-turn alignment)
  • 为了解决这一限制,论文修改了提示组织格式(prompt organization format),如图5 所示
  • 这些修改在调用 LLM 的 API 之前应用,确保其对 SOTOPIA 本身不可见,且不会影响 GPT-4o 的评估
    • 更多细节可在论文的代码仓库中找到

附录B Supplementary Theoretical Analysis

B.1 ETO

  • Song等人(2024)提出了基于探索的轨迹优化(Exploration-Based Trajectory Optimization, ETO),该方法在没有严格证明的情况下将直接偏好优化(Direct Preference Optimization, DPO)扩展到 Session-level 别(session level)。其损失函数如下:
    $$
    L_{ETO} = -\mathbb{E}_{(b,h^{w},h^{l})\sim D} \log \sigma \left[ \sum_{t=0}^{T_{w}-1} \beta \log \frac{\pi_{\theta}(y_{t}^{w}|h_{t}^{w})}{\pi_{ref}(y_{t}^{w}|h_{t}^{w})} - \sum_{t=0}^{T_{l}-1} \beta \log \frac{\pi_{\theta}(y_{t}^{l}|h_{t}^{l})}{\pi_{ref}(y_{t}^{l}|h_{t}^{l})} \right] \tag{9}
    $$
    • \( h^{w} \) 和 \( h^{l} \) 分别表示完整的正向和负向交互历史
    • \( T_{w} \) 和 \( T_{l} \) 表示各自的轮数
  • 当 \( T_{w} = T_{l} \) 时,ETO 的损失函数与 SDPO的损失函数等价

B.2 Discussion on DMPO

  • 应用BT模型时的错误(Mistake when Applying BT Model) :在公式(6)之后,DMPO应用了布拉德利-特里模型(Bradley-Terry model, BT model)得到以下公式:
    $$
    p(\tau^{w} \succ \tau^{l}|h_{0}) = \sigma \left( \sum_{t=0}^{T_{w}-1} \gamma^{t} r(h_{t}^{w}, y_{t}^{w}) - \sum_{t=0}^{T_{l}-1} \gamma^{t} r(h_{t}^{l}, y_{t}^{l}) \right) \tag{10}
    $$
    • \( \tau^{w} \) 和 \( \tau^{l} \) 分别表示“胜”和“负”样本
    • \( T_{w} \) 和 \( T_{l} \) 表示各自的轮数
    • 仔细检查公式(10)可以发现,对 \( (h,y) \) 对的求和应排除 \( \gamma^{t} \),因为它已经被纳入 \( d^{\pi}(h,y) \) 中
  • 长度归一化的限制(Limitation of Length Normalization) :暂时忽略公式(10)中的错误,DMPO启发式地引入了基于轮数的正则化来消除 \( Z \):
    $$
    p(\tau^{w} \succ \tau^{l}|h_{0}) = \sigma \left( \frac{1-\gamma}{1-\gamma^{T_{w} } } \sum_{t=0}^{T_{w}-1} \gamma^{t} r(h_{t}^{w}, y_{t}^{w}) - \frac{1-\gamma}{1-\gamma^{T_{l} } } \sum_{t=0}^{T_{l}-1} \gamma^{t} r(h_{t}^{l}, y_{t}^{l}) \right)
    $$
    • 然而,DMPO 并未讨论为什么可以应用长度归一化或这一操作带来的影响。这种转换缺乏严格的理论依据
  • DMPO 损失函数(DMPO Loss Function) :遵循DMPO的方法,其损失函数如下:
    $$
    L_{DMPO} = -\mathbb{E}_{(b,h^{w},h^{l})\sim D} \log \sigma \left[ \sum_{t=0}^{T_{w}-1} \beta \phi(t,T_{w}) \log \frac{\pi_{\theta}(y_{t}^{w}|h_{t}^{w})}{\pi_{ref}(y_{t}^{w}|h_{t}^{w})} - \sum_{t=0}^{T_{l}-1} \beta \phi(t,T_{l}) \log \frac{\pi_{\theta}(y_{t}^{l}|h_{t}^{l})}{\pi_{ref}(y_{t}^{l}|h_{t}^{l})} \right]
    $$
    • 其中,折扣函数 \( \phi(t,T) = (1-\gamma^{T-t})/(1-\gamma^{T}) \)

附录C Data Construction Details

C.1 Statistics and Analysis of SDPO Data

  • SDPO 数据集包含 1019 对样本
    • GPT-4o 识别的错误轮次分布如表5 所示
    • GPT-4 识别的片段长度分布如表6 所示
    • 截断轮数的分布如 表7 所示
  • 结合表3 和表6,尽管在自动片段长度选择中,长度为 3 的片段占比近 90%,但自动选择方法的性能仍明显优于固定长度为 3 的方法,这凸显了自动选择方法的有效性

C.2 GPT-4o’s Performance in Pipeline

  • 论文从 SDPO 数据中随机选择 40 对样本,由三位作者独立评估 GPT-4o 在错误定位和片段选择中的表现
  • 在社交对话的背景下,正确性和错误的概念本质上是模糊的
  • 为此,论文定义了三个评估类别:正确、模糊和错误
  • 平均评估结果如表8所示。评估者均表示,模糊的主要原因是他们可以确定GPT-4o的选择是合理的,但难以判断是否最优。总体而言,论文得出结论:GPT-4o能够处理错误定位和片段选择任务

C.3 rompts in Data Construction

  • GPT-4o用于错误定位和片段选择的提示分别如图7 和图8 所示

附录D Supplementary Experimental Setup

D.1 Versions of OpenAI LLMs

  • 论文使用的 OpenAI 大语言模型版本如下:GPT-4o-2024-08-06、GPT-4-turbo-2024-04-09、GPT-4o-mini-2024-07-18 和 GPT-3.5-turbo-0125

D.2 Mistral Training Details

  • 与 Llama 的实验设置一致,最大 Token 限制设为 4096,所有训练过程均使用 AdamW 优化器
  • 在 SFT 阶段:
    • 批大小为 32
    • 丢弃率为 0.2
    • 学习率为 \( 3e^{-6} \)
    • 预热比例为 5%
    • 采用余弦衰减调度
  • 在 SDPO 的训练阶段:
    • 批大小为32
    • SDPO 损失中的 \( \beta \) 为 0.1
    • 学习率为 \( 5e^{-7} \)
    • 学习率无预热
    • 采用余弦衰减调度
  • Mistral 的 SDPO 数据构建过程与 Llama 相同

附录E Additional Empirical Results

E.1 SOTOPIA Hard Subset

  • SOTOPIA 将数据集中更具挑战性的部分 Token 为困难子集(Hard subset),详细结果如表9 所示
    • 各种方法在困难子集上的排名与完整数据集上的表现基本一致
    • SDPO 仍然取得了最佳结果,这表明 SDPO 在不同难度的场景中均能提升 Agent 的社交智能(social intelligence)

E.2 多轮对齐的必要性

  • 在 DPO 调整第一轮正向和负向片段的输出概率后,后续轮次中正向片段的概率会增加而负向片段的概率会降低吗?
  • 为了探究这一点,论文绘制了 DPO 和 SDPO 在训练过程中正向与负向片段概率差的变化,如图9 所示(只有SDPO可以直接与DPO比较,因此未提及ETO和DMPO)
  • DPO-turn 轨迹几乎与 DPO 轨迹平行,表明 DPO 对后续轮次的概率差几乎没有影响
  • 相比之下,SDPO 轨迹上升更陡峭。这些结果证明了显式修改整个片段内多轮概率分布的必要性,也为多轮对齐优于 DPO 提供了依据

NLP——LLM对齐微调-VAPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, arXiv 20250411, ByteDance Seed

Paper Summary

  • 整体说明:
    • 论文提出 VAPO(Value-model-based Augmented Proximal Policy Optimization) 框架/算法,利用 Qwen2.5-32B 模型在 AIME24 基准上实现了 SOTA 性能
    • VAPO 通过在 PPO 之上引入七项新技术(包含 VC-PPO 和 DAPO 相关的优化),这些技术专注于改进价值学习和平衡探索,论文的基于 Value Model 的方法优于当代 value-model-free 方法,如 GRPO 和 DAPO
    • 评价:论文更偏实践,很多优化点是来自已有的工作,如 VC-PPO 和 DAPO 等
  • VAPO 是一种专为 value-model-based paradigm 的推理模型量身定制的框架
  • 在 AIME 2024 数据集上进行基准测试时,基于 Qwen 32B 预训练模型构建的 VAPO 取得了 60.4 的 SOTA 性能
  • 在相同的实验设置下直接比较,VAPO 比 DeepSeek-R1-Zero-Qwen-32B 和 DAPO 的结果高出 10分 以上
  • VAPO 的训练过程稳定且高效:
    • 仅在 5,000 步内就达到了 SOTA 性能;
    • 在多次独立运行中,没有发生训练崩溃
  • 本研究使用 Value-model-based 强化学习框架深入研究长思维链(long-CoT)推理
  • 论文指出了困扰 Value-model-based 方法的三个关键挑战:
    • Value Model 偏差(value model bias)
    • 存在异质序列长度(the presence of heterogeneous sequence lengths)
    • 奖励信号稀疏 (the sparsity of reward signals)
  • 通过系统设计,VAPO 提供了一个集成解决方案,有效地缓解了这些挑战,从而在 long-CoT 推理任务中实现了性能提升

Introduction and Discussion

  • 诸如 OpenAI o1 和 DeepSeek R1 等推理模型在数学推理等复杂任务中表现出卓越性能,这些任务需要在测试时通过长思维链(long-CoT)进行逐步分析和问题解决,从而极大地推动了人工智能的发展
  • RL 在这些模型的成功中起着关键作用。它通过在可验证问题上不断探索通向正确答案的推理路径,逐步提高模型的性能,实现了前所未有的推理能力
  • 在 LLM 的 RL 训练中,像 GRPO 和 DAPO 这样的 value-model-free 方法已证明具有显著效果
    • 这些方法消除了学习 Value Model 的计算开销,而是仅基于整个轨迹的最终奖励来计算优势
    • Trajectory-level 优势被直接分配为序列中每个位置的 Token-level 优势
    • 当训练可靠的 Value Model 特别具有挑战性时, value-model-free 方法通过对一组内的多个轨迹的奖励进行平均,为优势计算提供了准确且稳定的基线
    • 这种基于组的奖励聚合减轻了对显式价值估计的需求,而显式价值估计在复杂任务中往往不稳定
    • 因此, value-model-free 方法在解决 long-CoT 推理等难题方面获得了显著关注,大量研究工作致力于优化其框架
  • 尽管 value-model-free 方法取得了显著成功,但作者认为,如果能够解决 Value Model 训练中的挑战,基于 Value Model 的方法具有更高的性能上限
    • 首先, Value Model 通过准确追踪每个动作对后续回报的影响 ,实现更精确的信用分配 ,从而促进更精细的优化
      • 这对于复杂推理任务尤为关键 ,在这些任务中,单个步骤的细微错误往往会导致灾难性失败,而在value-model-free 框架下进行模型优化仍然具有挑战性
    • 其次,与 value-model-free 方法中从蒙特卡罗方法得出的优势估计不同, Value Model 可以为每个 Token 提供方差更低的价值估计,从而增强训练稳定性
    • 此外,训练良好的 Value Model 表现出固有的泛化能力,能够更有效地利用在线探索过程中遇到的样本。这显著提升了强化学习算法的优化上限
      • 问题:这一点有点牵强吧,不一定需要 Value 模型啊
    • 因此,尽管在复杂问题中训练 Value Model 面临巨大挑战,但克服这些困难的潜在收益是巨大的
  • 然而,在 long-CoT 任务中训练完美的 Value Model 存在重大挑战
    • 首先,鉴于长轨迹和以自举方式学习价值的不稳定性,学习低偏差的 Value Model 并非易事
    • 其次,同时处理短响应和长响应也具有挑战性,因为它们在优化过程中可能对偏差-方差权衡表现出截然不同的偏好
    • 最后,验证器的奖励信号的稀疏性因 long-CoT 模式而进一步加剧,这本质上需要更好的机制来平衡探索和利用
  • 为了应对上述挑战并充分释放基于 Value Model 的方法在推理任务中的潜力,论文提出了 VAPO(Value-model-based Augmented Proximal Policy Optimization)
    • 这是一个基于 Value Model 的RL训练框架
    • VAPO 从 VC-PPO 和 DAPO 等先前研究工作中汲取灵感,并进一步扩展了它们的概念
  • 论文总结了论文的主要贡献如下:
    • 1)论文引入了VAPO,这是第一个在 long-CoT 任务上显著优于 value-model-free 方法的基于 Value Model 的RL训练框架
      • VAPO不仅在性能方面表现出显著优势,还展示了增强的训练效率,简化了学习过程,并强调了其作为该领域新基准的潜力
    • 2)论文提出了长度自适应广义优势估计(Length-adaptive GAE),它基于响应长度在GAE计算中自适应调整 \(\lambda\) 参数
      • 这种做法有效地满足了与高度可变长度的响应相关的不同偏差-方差权衡要求
      • 结果显示,优化了优势估计过程的准确性和稳定性(特别是在数据序列长度变化很大的场景中)
    • 3)论文系统地整合了先前工作中的技术(论文还通过消融研究进一步验证了它们的必要性),如:
      • DAPO 的 Clip-Higher 和 Token-level Loss
      • VC-PPO 的 Value-Pretraining 和 Decoupled-GAE
      • SIL 的自我模仿学习(self-imitation learning)
      • GRPO 的 Group-Sampling
  • VAPO是一个有效的强化学习系统,它汇集了这些改进
    • 这些增强功能协同工作,产生的综合结果优于各个部分的总和
    • 论文使用 Qwen2.5-32B 预训练模型进行实验,确保在任何实验中都不引入 SFT 数据,以保持与相关工作(DAPO 和 DeepSeek-R1-Zero-Qwen-32B)的可比性
    • VAPO的性能从原始 PPO 的 5分 提高到 60分,超过了之前的最先进 value-model-free 方法 DAPO(+10分)
    • 特别地,VAPO 非常稳定(论文在训练期间没有观察到任何崩溃,并且多次运行的结果始终相似)

Preliminaries

  • 本节将介绍论文提出算法的基础概念和符号表示
  • 论文首先探讨如何将语言生成任务建模为强化学习问题,随后介绍近端策略优化(Proximal Policy Optimization, PPO)和广义优势估计(Generalized Advantage Estimation, GAE)

将语言生成建模为 Token-level 的马尔可夫决策过程

  • 强化学习的核心是学习一种策略,使得智能体在与环境交互时能够最大化累积奖励
  • 在本研究中,论文将语言生成任务建模为马尔可夫决策过程(Markov Decision Process, MDP)(1998)
  • 设输入的 Prompt为 \( x \),生成的响应(response)为 \( y \)
    • 两者均可分解为一系列 token 的序列
    • 例如: Prompt \( x \) 可表示为 \( x = (x_0, \ldots, x_m) \),其中 token 来自固定的离散词汇表 \( \mathcal{A} \)
  • 论文将 Token-level 的 MDP 定义为元组 \( \mathcal{M} = (\mathcal{S}, \mathcal{A}, \mathbb{P}, R, d_0, \omega) \),各组成部分的详细说明如下:
    • 状态空间(State Space, \( \mathcal{S} \)) :该空间包含所有可能的状态,每个状态由当前已生成的 token 序列构成。在时间步 \( t \),状态 \( s_t \) 定义为 \( s_t = (x_0, \ldots, x_m, y_0, \ldots, y_t) \)
    • 动作空间(Action Space, \( \mathcal{A} \)) :对应固定的离散词汇表,生成过程中从中选择 token 作为动作
    • 状态转移(Dynamics, \( \mathbb{P} \)) :表示 token 之间的确定性转移模型。给定状态 \( s_t = (x_0, \ldots, x_m, y_0, \ldots, y_t) \)、动作 \( a = y_{t+1} \) 和下一状态 \( s_{t+1} = (x_0, \ldots, x_m, y_0, \ldots, y_t, y_{t+1}) \),转移概率 \( \mathbb{P}(s_{t+1}|s_t, a) = 1 \)
    • 终止条件(Termination Condition) :当执行终止动作 \( \omega \)(通常是句子结束 token)时,语言生成过程结束
    • 奖励函数(Reward Function, \( R(s, a) \)) :该函数提供标量反馈,用于评估智能体在状态 \( s \) 下执行动作 \( a \) 的表现。在RLHF (2022) 中,奖励函数可以从人类偏好中学习,或根据任务规则定义
    • 初始状态分布(Initial State Distribution, \( d_0 \)) :是 Prompt \( x \) 的概率分布。初始状态 \( s_0 \) 由 Prompt \( x \) 的 token 序列构成

RLHF 目标

  • 论文将优化问题建模为带 KL 散度正则化的强化学习任务。目标是逼近最优的 KL 正则化策略,其数学表示为:
    $$
    \pi^* = \arg \max_{\pi} \mathbb{E}_{\pi, s_0 \sim d_0} \left[ \sum_{t=0}^{H} \left( R(s_t, a_t) - \beta \text{KL} \left( \pi(\cdot|s_t) | \pi_{\text{ref} }(\cdot|s_t) \right) \right) \right]
    $$
    • \( H \) 表示决策步的总数
    • \( s_0 \) 是从数据集中采样的 Prompt
    • \( R(s_t, a_t) \) 是从奖励函数中获得的 Token-level 奖励
    • \( \beta \) 是控制 KL 正则化强度的系数
    • \( \pi_{\text{ref} } \) 是初始策略
  • 在传统的 RLHF 和大多数 LLM 相关任务中,奖励是稀疏的,仅在终止动作 \( \omega \)(即句子结束 token <eos>)时分配

PPO

  • PPO (2017) 使用带裁剪的替代目标函数来更新策略。其核心思想是限制每一步策略更新的幅度,避免因策略变化过大而导致训练不稳定
  • 设 \( \pi_\theta(a|s) \) 为参数化策略,\( \pi_{\theta_{\text{old} } }(a|s) \) 为上一轮迭代的旧策略。PPO 的替代目标函数定义为:
    $$
    \mathcal{L}^{CLIP}(\theta) = \hat{\mathbb{E} }_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]
    $$
    • \( r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old} } }(a_t|s_t)} \) 是概率比
    • \( \hat{A}_t \) 是时间步 \( t \) 的优势估计
    • \( \epsilon \) 是控制裁剪范围的超参数
  • 广义优势估计 (GAE) 是一种用于在 PPO 中更准确估计优势函数的技术
    • 它结合多步自举(bootstrapping)来降低优势估计的方差
  • 对于长度为 \( T \) 的轨迹,时间步 \( t \) 的优势估计 \( \hat{A}_t \) 计算如下:
    $$
    \hat{A}_t = \sum_{l=0}^{T-t-1} (\gamma \lambda)^l \delta_{t+l}
    $$
    • \( \gamma \) 是折扣因子
    • \( \lambda \in [0,1] \) 是 GAE 参数
    • \( \delta_t = R(s_t, a_t) + \gamma V(s_{t+1}) - V(s_t) \) 是时序差分(Temporal-Difference, TD)误差
    • 这里 \( R(s_t, a_t) \) 是时间步 \( t \) 的奖励,\( V(s) \) 是价值函数
  • 注:在 RLHF 中通常设置折扣因子 \( \gamma = 1.0 \),为简化表示,论文后续章节将省略 \( \gamma \)

long-CoT RL推理任务中的挑战

  • long-CoT 任务给 RL 训练带来了独特的挑战,特别是对于采用 Value Model 来减少方差的方法
  • 在本节中,论文系统地分析了由序列长度动态、价值函数不稳定性和奖励稀疏性引起的技术问题

Value Model Bias over Long Sequences(长序列上的 Value Model 偏差)

  • 如 VC-PPO 中所指出的,用奖励模型初始化 Value Model 会引入显著的初始化偏差
    • 这种正偏差源于两个模型之间的目标不匹配
    • 奖励模型被训练为在<eos> Token 上评分,这促使它由于上下文不完整而给早期 Token 分配较低的分数
      • 注:Value Model 估计在给定策略下所有先于<eos>的 Token 的预期累积奖励
    • 在训练的早期阶段,鉴于 GAE 的反向计算,每个时间步t都会存在正偏差,该偏差沿轨迹累积
  • 另一个使用 \(\lambda=0.95\) 的 GAE 的标准做法可能会加剧这个问题
    • 终止 Token 处的奖励信号 \(R(s_{T},<eos>)\) 作为 \(\lambda^{T-t} R(s_{T},<eos>)\) 反向传播到第 \(t\) 个 Token
    • 对于 \(T-t \gg 1\) 的长序列,这种折扣将有效奖励信号降低到接近零
      • 理解:最准确的那个值(最后一个 Token 输出)反而被赋予了很小的权重
    • 因此,价值更新几乎完全以自举方式进行,依赖于高度偏差的估计,这削弱了 Value Model 作为可靠方差减少基线的作用

Heterogeneous Sequence Lengths during Training(异质序列长度)

  • 在 long-CoT 对得出正确答案至关重要的复杂推理任务中,模型通常会生成长度高度可变的响应
  • 这种可变性要求算法足够稳健,能够管理从非常短到极长的序列。因此,具有固定 \(\lambda\) 参数的常用 GAE 方法面临重大挑战
    • 即使 Value Model 是完美的,静态 \(\lambda\) 可能无法有效适应不同长度的序列
    • 对于短长度的响应,通过 GAE 获得的估计往往具有高方差:
      • GAE 代表了偏差和方差之间的权衡:在短响应的情况下,估计偏向于方差主导的一侧(理解:方差较大的一侧)
      • 理解:短的响应中,对每个 Token 来说,需要预估的未来 Token 不多,更像是蒙特卡罗采样得到的?
    • 另一方面,对于长长度的响应,GAE 由于自举而往往导致高偏差
      • GAE 的递归性质依赖于未来状态值,在长序列上累积误差,加剧了偏差问题
  • 这些限制深深植根于 GAE 计算框架的指数衰减性质

Sparsity of Reward Signal in Verifier-based Tasks(奖励信号的稀疏性)

  • 复杂推理任务经常部署验证器作为奖励模型,基于验证器的奖励模型通常提供二进制反馈
    • 这与提供密集信号(如-4到4的连续值)的传统基于语言模型的奖励模型不同,如 0 和 1
    • 理解:其实传统 RL 中很多也是二值反馈,这没什么大不了的
  • long-CoT 推理进一步加剧了奖励信号的稀疏性
    • 由于CoT显著延长了输出长度,它不仅增加了计算时间,还减少了接收非零奖励的频率
    • 在策略优化中,具有正确答案的采样响应可能极其稀缺和宝贵
  • 这种情况提出了一个独特的探索-利用困境
    • 一方面,模型必须保持相对较高的不确定性 ,使其能够采样多样化的响应范围,增加为给定 Prompt 生成正确答案的可能性
    • 另一方面,算法需要有效地利用通过艰苦探索获得的正确采样响应 ,以提高学习效率
  • 如果不能在探索和利用之间取得适当的平衡,模型可能会因过度利用而陷入次优解,或者在无成效的探索上浪费计算资源

VAPO:Addressing the Challenges in Long-CoT RL

Mitigating Value Model Bias over Long Sequences(缓解长序列上的 Value Model 偏差)

  • 基于原文 3.1节 中对基于 Value Model 的模型的分析,论文提出使用 Value-Pretraining 和 decoupled-GAE 来解决长序列上 Value Model 偏差的关键挑战
    • 注:这两种技术都借鉴了 VC-PPO 中先前引入的方法
  • Value-Pretraining 旨在缓解价值初始化偏差
    • 将 PPO 应用于 long-CoT 任务会导致失败,例如输出长度崩溃和性能下降:
      • 原因是 Value Model 从奖励模型初始化,而奖励模型与 Value Model 的目标不匹配
    • 这种现象首先在 VC-PPO 中被识别和解决,在论文中,论文遵循Value-Pretraining技术,具体步骤如下:
      • 1)通过从固定策略(例如 \(\pi_{sft}\) )采样连续生成响应,并使用蒙特卡罗回报更新 Value Model
      • 2)训练 Value Model,直到关键训练指标(包括价值损失和解释方差)达到足够低的值
      • 3)保存价值检查点,并加载此检查点用于后续实验
  • Decoupled-GAE 在 VC-PPO 中被证明是有效的
    • 该技术将价值和策略的优势计算解耦(主要是使用不同的 \(\lambda\))
    • 对于价值更新,建议使用 \(\lambda=1.0\) 计算价值更新目标
      • 这种选择导致无偏梯度下降优化,有效解决了 long-CoT 任务中的奖励衰减问题
    • 对于策略更新,在计算和时间限制下,使用较小的 \(\lambda\) 来加速策略收敛
      • 问题:为什么较小的 \(\lambda\) 能加速策略收敛?
    • 在 VC-PPO 中,这是通过在优势计算中使用不同的系数来实现的:
      • \(\lambda_{critic}=1.0\) 和 \(\lambda_{policy}=0.95\)
      • 在论文中,论文采用了 Decoupled-GAE 计算的核心思想

Managing Heterogeneous Sequence Lengths during Training

  • 为了应对训练中异构序列长度的挑战,论文提出了 长度自适应广义优势估计(Length-Adaptive GAE)
    • 该方法根据序列长度动态调整 GAE 参数,从而实现对不同长度序列的自适应优势估计
    • 此外,为了增强混合长度序列的训练稳定性,论文将传统的样本级策略梯度损失替换为 Token-Level 策略梯度损失(Token-Level Policy Gradient Loss)
  • Length-Adaptive GAE :专门用于解决不同长度序列对 \(\lambda_{\text{policy} }\) 最优值的需求不一致问题
    • 在 VC-PPO (2025) 中,\(\lambda_{\text{policy} }\) 被固定为 0.95。但对于长度 \(l > 100\) 的长序列,奖励对应的 TD 误差系数为 \(0.95^{100} \approx 0.006\),实际上接近于零
      • 这里的 \(\lambda\) 是 GAE 计算公式中的超参,详情见 VC-PPO 论文:(VC-PPO)What’s Behind PPO’s Collapse in Long-CoT? Value Optimization Holds the Secret, Seed, arXiv 20250303
    • 因此,固定 \(\lambda_{\text{policy} }=0.95\) 会导致 GAE 计算被潜在的有偏自举 TD 误差主导,无法有效处理极长序列
    • 为了解决这一问题,论文提出以下公式动态调整 \(\lambda_{\text{policy} }\):
      $$
      \sum_{t=0}^{\infty}\lambda_{\text{policy} }^{t} \approx \frac{1}{1-\lambda_{\text{policy} } } = \alpha l,
      $$
      • 其中 \(\alpha\) 是控制偏差-方差权衡的超参数
    • 通过求解上式,论文得到长度自适应的 \(\lambda_{\text{policy} }\) 公式:
      $$
      \lambda_{\text{policy} } = 1 - \frac{1}{\alpha l}
      $$
    • 这种方法使得 GAE 计算能够更均匀地分配 TD 误差,从而优化长短序列的处理效果
  • Token-Level Policy Gradient Loss :参考 DAPO (2025),论文修改了策略梯度损失的计算方法,以调整长思维链场景中的损失权重分配。传统实现中,策略梯度损失的计算如下:
    $$
    \mathcal{L}_{\text{PPO} }(\theta) = -\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_{i}|}\sum_{t=1}^{|o_{i}|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right),
    $$
    • 其中 \(G\) 是训练批次大小,\(o_{i}\) 是第 \(i\) 个样本的轨迹
    • 这种损失计算方式会导致长序列中的 Token 对最终损失的贡献被稀释,从而可能引发训练不稳定甚至崩溃
    • 为了解决这一问题,论文将损失函数修正为以下形式:
      $$
      \mathcal{L}_{\text{PPO} }(\theta) = -\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right),
      $$
    • 通过为批次中的所有 Token 分配均匀权重,模型能够更高效地处理长序列问题

Dealing with Sparsity of Reward Signal in Verifier-based Tasks

  • 如第 3.3 节所述,在奖励信号高度稀疏的场景下,提升强化学习中探索-利用的平衡效率至关重要
    • 为此,论文采用了三种方法:Clip-Higher、正例语言模型损失(Positive Example LM Loss) 和 分组采样(Group-Sampling) :
  • Clip-Higher :用于缓解 PPO 和 GRPO 训练中遇到的熵崩溃问题,该方法首次由 DAPO (2025) 提出,论文将裁剪范围解耦为 \(\varepsilon_{\text{low} }\) 和 \(\varepsilon_{\text{high} }\):
    $$
    \mathcal{L}_{\text{PPO} }(\theta) = -\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon_{\text{low} },1+\varepsilon_{\text{high} }\right)\hat{A}_{i,t}\right),
    $$
    • 通过增大 \(\varepsilon_{\text{high} }\),论文为低概率 Token 提供了更多增长空间,同时保持较小的 \(\varepsilon_{\text{low} }\) 以避免采样空间崩溃
  • Positive Example LM Loss :旨在提升强化学习中对正样本的利用效率
    • 在复杂推理任务中,许多训练样本的答案错误,传统策略优化效率低下。为了最大化正确样本的效用,论文引入负对数似然(NLL)损失:
      $$
      \mathcal{L}_{\text{NLL} }(\theta) = -\frac{1}{\sum_{o_{i}\in\mathcal{T} }|o_{i}|}\sum_{o_{i}\in\mathcal{T} }\sum_{t=1}^{|o_{i}|}\log\pi_{\theta}\left(a_{t}|s_{t}\right),
      $$
      • 其中 \(\mathcal{T}\) 表示正确答案集合
    • 最终损失通过权重系数 \(\mu\) 与策略梯度损失结合:
      $$
      \mathcal{L}(\theta) = \mathcal{L}_{\text{PPO} }(\theta) + \mu * \mathcal{L}_{\text{NLL} }(\theta).
      $$
  • Group-Sampling :用于在同一 Prompt 下采样具有区分性的正负样本
    • 在固定计算预算下,论文观察到减少批次中 Prompt 数量并增加重复生成次数能够略微提升性能,原因是其引入了更丰富的对比信号,从而增强了策略模型的学习能力

Experiments

Training Details

  • 论文通过基于 Qwen-32B 模型对 PPO 算法进行各种修改来增强模型的数学性能
    • 这些技术对其他推理任务(如与代码相关的任务)也有效
  • 对于 basic PPO:
    • 使用 AdamW 作为优化器
    • Actor 学习率设置为 \(1×10^{-6}\)
    • Critic 学习率设置为 \(2×10^{-6}\) (因为 Critic 需要更快地更新以跟上策略变化)
    • 学习率采用 warmup-constant 调度器
      • 问题:warmup-constant 调度器是什么?
    • Batch Size 为 8192 个 Prompt ,每个 Prompt 采样一次,每个 Mini-Batch Size 设置为 512
    • 价值网络使用奖励模型初始化
    • GAE \(\lambda\) 设置为 0.95
    • \(\gamma\) 设置为 1.0
    • 使用 Sample-level loss
    • \(\epsilon\) 设置为 0.2
  • 与 vanilla PPO 相比,VAPO 进行了以下参数调整:
    • 1)在开始策略训练之前,基于奖励模型(RM)对价值网络进行了 50步 的预热(对应 Value-Pretraining)
    • 2)利用Decoupled-GAE ,其中价值网络从使用 \(\lambda=1.0\) 估计的回报中学习,而策略网络从使用单独 \(\lambda\) 获得的优势中学习
    • 3)根据序列长度自适应设置优势估计的 \(\lambda\),遵循公式:
      $$ \lambda_{policy}=1-\frac{1}{\alpha l}$$
      • 其中 \(\alpha=0.05\)
    • 4)将裁剪范围调整为 \(\epsilon_{high}=0.28\) 和 \(\epsilon_{low}=0.2\)
    • 5)采用 Token-level 策略梯度损失
    • 6)在策略梯度损失中添加 Positive Example LM Loss ,权重为 0.1
    • 7)每个采样使用 512 个 Prompt ,每个 Prompt 采样 16 次,并将小批量大小设置为 512
  • 论文还将展示从 VAPO 中单独移除这七项修改中的每一项的最终效果
  • 对于评估指标,论文使用 AIME24 在 32次采样上的平均通过率
    • 采样参数设置为 \(topp=0.7\) 和 \(temperature=1.0\)

Ablation Results

  • 在 Qwen-32b 上,使用 GRPO 的 DeepSeek R1 在 AIME24 上达到 47 分,而 DAPO 在 50% 的更新步骤中达到 50分
  • 在图1中,论文提出的 VAPO 仅使用 DAPO 步骤的 60% 就达到了这一性能,并在仅 5,000 步内实现了 60.4 的新 SOTA 分数,证明了 VAPO 的效率
  • 此外,VAPO 保持稳定的熵(既不崩溃也不过高),并且在三次重复实验中始终达到 60-61 的峰值分数,突出了论文算法的可靠性
  • 表1 系统地呈现了论文的实验结果:
    • 原始PPO方法由于 Value Model 学习崩溃,在训练后期仅达到 5分,其特征是响应长度急剧减少,模型直接回答问题而不进行推理
    • 论文的 VAPO方法 最终达到 60分,这是一个显著的改进
  • 论文通过单独消融七项提出的修改进一步验证了它们的有效性:
    • 1)没有 Value-Pretraining:模型在训练期间经历与原始 PPO 相同的崩溃,收敛到最大值约 11分
    • 2)移除Decoupled-GAE :会导致奖励信号在反向传播期间指数衰减,阻止模型充分优化长形式响应,并导致 27分 的下降
    • 3)Adaptive GAE:平衡了对短响应和长响应的优化,产生了 15分 的改进
    • 4)Clip higher:鼓励彻底的探索和利用;移除它将模型的最大收敛限制为 46分
    • 5)Token-level loss:隐含地增加了长响应的权重,贡献了 7分 的增益
    • 6)结合 Positive Example LM Loss 将模型提高了近 6分
    • 7)使用 Group-Sampling 生成更少的 Prompt 但更多的重复也导致了 5分的改进

Training Dynamics

  • RL 训练期间生成的曲线提供了训练稳定性的实时 insights,不同曲线之间的比较可以突出算法差异
  • 通常认为,更平滑的变化和更快的增长是这些曲线的理想特征
  • 通过比较 VAPO 和 DAPO 的训练过程,论文做出了以下 observations:
    • 图2 显示 VAPO 的训练曲线比 DAPO 的更平滑,表明 VAPO 中的算法优化更稳定
    • 如图2a 所示,与 DAPO 相比,VAPO 表现出更好的长度缩放:在现代背景下,更好的长度缩放被广泛认为是模型性能提高的标志,因为它增强了模型的泛化能力
    • 图2b 表明 VAPO 的分数增长比 DAPO 快,因为 Value Model 为模型提供了更细粒度的信号来加速优化
    • 根据图2c,VAPO 的熵在训练后期比 DAPO 的下降得更低,这是一把双刃剑:
      • 一方面,它可能阻碍探索
      • 另一方面,它提高了模型稳定性
      • 从 VAPO 的最终结果来看,较低的熵对性能的负面影响最小,而可重复性和稳定性被证明是非常有利的

Related Work

  • OpenAI o1 在 LLM 中引入了深刻的范式转变,其特点是在提供最终响应之前进行扩展推理
  • DeepSeek R1 开源了其训练算法(value-model-free 的 GRPO)和模型权重,其性能可与 o1 媲美
  • DAPO 识别了在 value-model-free LLM RL 扩展期间遇到的先前未公开的挑战,如熵崩溃,并提出了四种有效技术来克服这些挑战,实现了 SOTA 行业级性能
  • 最近,Dr.GRPO 移除了 GRPO 中的长度和 std 归一化项
  • 另一方面,ORZ 遵循 PPO 并使用 Value Model 进行优势估计,提出蒙特卡罗估计而不是广义优势估计
  • 然而,它们只能达到与 GRPO 和 DAPO 等 value-model-free 方法相当的性能
  • 在论文中,论文也遵循基于 Value Model 的方法并提出 VAPO,其性能优于 SOTA value-model-free 算法 DAPO

NLP——LLM对齐微调-RuscaRL

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(RuscaRL) Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning, 20250823-20251022, ZJU & Li Auto Inc.
      • 注:Li Auto Inc. 是理想汽车母公司
    • GitHub 源码:github.com/IANNXANG/RuscaRL

Paper Summary

  • 整体说明:
    • 论文将教育心理学中的教学 Scaffolding 理论应用于 LLM 的 RL,并提出了 RuscaRL
      • RuscaRL 是一个新颖的教学 Scaffolding 框架,旨在打破通用 LLM 推理任务的探索瓶颈
    • RuscaRL 通过 Scaffolding 机制利用清单式(checklist-style) Rubric,提供逐渐衰减的外部指导,并通过 Reward 函数实现稳健的 RL 训练
      • Rubric-based Scaffolding 机制提供外部指导并逐渐衰减以鼓励内化(理解:先添加一些 Rubrics 作为手脚架,然后训练过程中不断减少 Rubrics 的加入)
      • Rubric-based Reward 函数则实现稳健的评估以支持有效的 RL 训练
    • 大量实验表明
      • RuscaRL 始终优于强大的基线方法,并与领先模型相比取得了有竞争力的结果
      • 使用 RuscaRL 微调的模型能够生成初始模型几乎无法生成的高度新颖的 Response
  • 背景 & 问题:
    • RL 在促进推理能力涌现方面的有很大的潜力,但目前一个根本的困境仍然存在:
    • RL 的提升依赖于从高质量样本中学习,而对这类样本的探索仍然受限于 LLMs 固有的能力
    • 这实际上造成了一个不良循环,即what cannot be explored cannot be learned(无法被探索则无法被学习)
  • 本文解法:
    • 论文提出了 Rubric-Scaffolded Reinforcement Learning (RuscaRL)
    • 注:这里的 scaffold 直译是脚手架(建筑领域的常用词 ,是施工时搭建在建筑物外围的临时支撑结构),用于强调辅助训练后可以移除的辅助设施
    • RuscaRL 是一个新颖的教学脚手架框架(instructional scaffolding framework),旨在打破通用 LLM 推理的探索瓶颈,RuscaRL 引入清单式 Rubric 作为
      • (1) 显式脚手架(explicit scaffolding) 用于 Rollout 生成期间的探索,即在任务指令中提供不同的 Rubric 作为外部引导,以引导多样化的高质量响应
        • 这种引导会随时间逐渐衰减(decayed),鼓励模型内化底层的推理模式(encouraging the model to internalize the underlying reasoning patterns);
      • (2) 用于模型训练期间利用的可验证奖励 ,即我们可以使用 Rubric 作为参考获得稳健的 LLM-as-a-Judge 分数,从而在通用推理任务上实现有效的 RL
  • 广泛的实验证明了所提出的 RuscaRL 在各种基准测试中的优越性,有效扩展了 Best-of-N 评估下的推理边界
    • Notably,RuscaRL 将 Qwen2.5-7B-Instruct 在 HealthBench-500 上的得分从 23.6 显著提升至 50.3,超过了 GPT-4.1
    • Furthermore,论文在 Qwen3-30B-A3B-Instruct 上微调的变体在 HealthBench-500 上达到了 61.1 分,性能优于包括 OpenAI-o3 在内的领先 LLMs
  • 一些说明:
    • 论文的图 1(右)画的很不错,清晰易懂,能清晰看出论文方法带来的改进,值得写论文时学习
  • 补充:论文中的未来工作
    • 虽然 RuscaRL 在打破通用 LLM 推理的探索瓶颈方面展示了有希望的结果,但仍存在一些局限性,为未来的研究指明了方向
      • 论文的方法关键依赖于高质量、结构良好的 Rubric 数据集(而这些数据集在社区中仍然稀缺),并且论文的方法对 Rubric 设计的质量高度敏感
      • 设计不良的 Rubric 可能由于不合理的分数分配或相互冲突的准则而无法提供稳健的 Reward 信号
      • 范围狭窄的 Rubric 则可能限制 Scaffolding 过程生成多样化、高质量 Response 的能力
    • RuscaRL 的成功突显了社区迫切需要投入更多资源来构建开放、多样且领域丰富的 Rubric 数据集
      • 作者未来的工作包括开发高质量 Rubric 数据生产流程、探索 Rubric-based 自然语言反馈策略,以及研究在多模态任务和智能体系统中的应用

Introduction and Discussion

  • LLMs 在广泛的复杂推理任务上已展现出巨大的潜力
    • 包括法律分析 (2021; 2023; 2024; 2022),软件工程 (2023; 2024),机器人技术 (2025; 2023a; 2023),以及具体任务如代码生成 (Qwen, 2025) 和数学证明 (2025; 2025)
    • However,提升 LLMs 的通用推理能力仍然是一个重大挑战 (2023; 2022)
  • 为了解决上述问题,最近在 RLVR 方面的突破,例如 DeepSeek-R1 (2025) 和 OpenAI-o3 (OpenAI, 2025a),已经证明利用可验证奖励作为反馈信号可以成功促进 LLMs 中复杂推理能力的涌现 (2025; 2025a)
  • 尽管取得了不错的成果,传统的 RLVR 往往更适用于答案具有客观可验证性的领域
    • For Instance,在数学证明(2025;2025)和代码生成(Qwen, 2025;2022)等领域,正确性可以通过形式化证明验证或自动化单元测试来明确判定
      • 在这些场景中,奖励信号清晰且与任务目标高度一致,使得 RLVR 能够有效引导模型找到正确的解决方案
    • Unfortunately,许多现实任务,如医疗咨询(2025;2023;2023)和创意写作(2025c;2024),本质上是开放性的
      • 这类任务通常需要进行多维评估,且往往缺少一个唯一、可验证的标准答案
  • 为解决上述问题,近期涌现的一些并列研究(2025;2025;2025;2025;2025;2025)开始探索 Rubric-based 评估方法,将理想的回答分解为清单式的评估标准(如事实性(factuality)、连贯性(coherence)、完整性(completeness)等)
    • 通过利用 “LLM-as-a-Judge” 对每个标准(criterion)进行打分,并将结果聚合为标量奖励,量规为开放性领域中的 RLVR 提供了更稳定、更可靠的反馈信号
  • Nevertheless,如图 1(左)所示,一个根本性的探索瓶颈仍然存在:
    • RL 需要高质量样本来改进,但对这些样本的探索仍受限于 LLMs 的固有能力 (2025; 2025a; 2025b; 2025)
      • 这造成了一个不可避免的循环,即无法探索限制了学习能力(the inability to explore restricts the ability to learn)
    • 越来越多的研究尝试增强 LLMs RLVR 中的探索 (2025a, 2025b; 2025; 2025; 2025; 2025; 2025)
      • However,这些方法很大程度上将策略分布偏向于基础模型已经支持的高奖励响应,而非真正扩展其推理边界 (2025a)
      • 更糟糕的是(Worse still),RL 本身具有缩小探索空间的天然趋势:策略熵在训练过程中逐渐崩溃,导致模型收敛于有限的推理轨迹集 (2025; 2025; 2025a; 2025; 2025b)
        • 这反过来削弱了 RLVR 探索更多样化和更高质量解决方案的潜力
  • 论文引入了 Rubric-Scaffolded Reinforcement Learning(RuscaRL) ,采用了一种新颖的教学脚手架框架来打破 RLVR 的探索瓶颈
    • 在技术上,RuscaRL 以两种互补的方式利用 Rubric:
      • (1) Rollout 生成期间的显式脚手架(Explicit scaffolding during rollout generation)
        • 对于每个指令,RuscaRL 通过使用 Rubric 作为外部引导生成一组候选响应
        • 论文提出了组内脚手架差异化(intra-group scaffolding differentiation) ,在每个组内提供不同级别的 Rubric,从而实现多样化和高质量的响应
        • 为了进一步内化底层推理模式,论文使用步间脚手架衰减(inter-step scaffolding decay) 在训练过程中逐渐移除脚手架 ,从而最小化对外部引导的依赖
      • (2) 模型训练期间的可验证奖励(verifiable rewards during model training)
        • 模型响应根据源自 Rubric 的多个标准(criteria)进行评估
        • 对于每个标准,论文使用一个 Grader LLM 执行二元评估(i.e. True or False),判断响应是否满足该特定要求
        • 然后通过聚合将结果结合,得到一个稳健的奖励信号,促进在不同通用任务上的有效 RL
  • 论文的主要贡献总结如下:
    • 论文引入教学脚手架 (instructional scaffolding) 作为 LLMs RLVR 的一个新范式,它开创了在任务指令中整合外部引导以提高 Rollout 多样性和质量的方法,从而在 RL 过程中实现更高效的探索
    • 论文提出了 Rubric-Scaffolded Reinforcement Learning (RuscaRL) ,一个旨在打破探索瓶颈的创新 RLVR 框架,它集成了清单式 Rubric,既作为探索的显式脚手架,也作为利用的可验证奖励
    • 广泛的实验表明,RuscaRL 产生的结果优于最先进的对应方法
      • 值得注意的是,如图 1(右)所示,RuscaRL 使得小型 LLMs(例如 Qwen3-30B)在 HealthBench-500 上能够达到与领先 LLMs(例如 OpenAI-o3)相当的性能

Related Works

Rubric-based Methods

  • Rubric 是结构化的评估框架,将复杂的评估任务分解为具体、可验证的标准
  • 为了应对通用任务评估, Rubric-based 评估方法已在医疗 (2025; 2025)、代码 (2025; Galván-2025) 和其他领域 (2025; 2025) 出现。基于这些框架,研究人员将 Rubric 作为奖励信号应用于 RL (2025; 2025),使用 LLMs 作为 Grader ,为缺乏真实答案的任务提供细粒度反馈
  • 这种方法在 LLM 对齐 (2025)、指令遵循 (2025) 和开放式问答 (2025; 2025; 2025) 方面显示出有前景的结果

Exploration in RL for LLMs

  • 现有的 RL 方法在复杂推理任务中面临探索不足的问题,策略陷入局部最优,推理边界崩溃 (2025a; 2025; 2025a)
  • 当前的解决方案包括延长训练 (2025a, 2025b)、基于熵的探索 (2025; 2025; 2025) 和外部引导 (2025a; 2025),但这些方法未能打破探索瓶颈,因为它们要么在初始策略分布内探索,要么仅提供粗糙的方向信号而没有结构化的中间引导
  • In Contrast,RuscaRL 通过清单式 Rubric 提供显式脚手架,用可验证的标准引导轨迹,同时通过脚手架衰减实现模式内化

Preliminary

RL Algorithms for LLMs

  • 论文采用 GRPO (2025) 作为论文的核心 RL 算法,用于训练具有基于 Rubric 奖励的语言模型
    • 与 PPO (2017) 不同,GRPO 通过使用基于组的优势估计消除了对价值模型的需求
    • 对于每个指令(Instruction) \(q \sim \mathcal{D}\),其中 \(\mathcal{D}\) 表示训练数据集 \(\mathcal{D}\) 上的分布,GRPO 从旧策略 \(\pi_{\theta_{\text{old} } }\) 中采样一组 \(G\) 个响应 \(\{o_{1}, o_{2}, \ldots, o_{G}\}\),并通过最大化以下目标来优化策略 \(\pi_{\theta}\):
      $$
      \begin{split}
      \mathcal{J}_{\text{GRPO} } \left(\theta\right) = \mathbb{E}_{q \sim \mathcal{D}, \{o_i\}_{i=1}^{G} \sim \pi_{\theta_{\text{old} } }(\cdot|q)}
      \end{split}
      \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min \left( \rho_{i,t}(\theta) \hat{A}_i, \operatorname{clip} \left( \rho_{i,t}(\theta), 1-\epsilon, 1+\epsilon \right) \hat{A}_i \right) \right] \tag{1}
      $$
      • \(o_i\) 是给定指令 \(q\) 从旧策略 \(\pi_{\theta_{\text{old} } }\) 中采样的响应
      • \(t\) 表示响应 \(o_i\) 内的 token 位置
      • \(\rho_{i,t}(\theta) = \frac{\pi_{\theta}(o_{i,t} | q, o_{i,< t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,< t})}\) 是当前策略和先前策略之间的 token 级重要性比率
      • \(\epsilon\) 是裁剪系数 (2017)
  • 组相对优势计算为:
    $$
    \hat{A}_i = \frac{r_i - \operatorname{mean} \left( \{r_j\}_{j=1}^{G} \right)}{\operatorname{std} \left( \{r_j\}_{j=1}^{G} \right)} \tag{2}
    $$
    • 其中 \(r_i\) 是响应 \(o_i\) 的奖励,优势是使用 \(G\) 个采样奖励的均值和标准差进行归一化的

Methodology

  • 为了解决探索瓶颈问题,论文提出了 RuscaRL 框架,如图 2 所示
  • RuscaRL 以两种互补的方式利用 Rubric:
    • (1) Rollout 生成期间的显式脚手架(Explicit scaffolding during rollout generation) ,其中模型使用 Rubric 作为具有组内差异化和步间衰减的外部引导来生成候选响应(第 4.2 节);
    • (2) 模型训练期间的可验证奖励(Verifiable rewards during model training) ,其中响应基于通过二元评估和聚合从 Rubric 派生的多个标准进行评估(第 4.3 节)
  • 在下文中,论文首先介绍 Rubric 的基本概念,然后详细介绍这两个核心组件

Rubric-based Evaluation System

  • 评估复杂和开放式的任务本质上是具有挑战性的,因为响应通常在结构、风格和内容上有所不同,使得基于规则的评估难以提供可靠的判断
  • 为了解决这个差距,最近的工作 (2025) 提出了 Rubric-based 评估
    • Rubric-based Evaluation 指定了细粒度、多维度的标准,可以大规模应用
    • 这种设计结合了自动指标的客观性和结构化标准的原则性指导,产生能够更好地捕捉响应质量、连贯性和完整性的稳健分数
  • 形式上,一个 Rubric 被定义为一组 \(N\) 个可验证的标准:
    $$ \mathcal{R} = \{c_1, c_2, \ldots, c_N\} $$
    • 每个标准 \(c_i\) 由一个清晰的描述和相应的 Points \(p_i\) 指定,\(p_i\) 表示其对整体评估的贡献(理解:即 Rubric 的权重)
    • 论文将 Points 向量定义为
      $$ \mathbf{p} = [p_1, p_2, \ldots, p_N] $$
      • 例如,给定指令“你能介绍一下强化学习的概念吗?”,标准可能包括:
        • “具有完整结构逻辑的逐步分析”(+3 分)
        • “解释关键要素:智能体、环境、奖励”(+6 分)
        • 负面项如“在解释中混淆环境和奖励的角色”(-7 分)
      • 根据每个标准是否满足来加减分
  • 给定一个指令 \(q\) 及其对应的 Rubric \(\mathcal{R}\)(两者均从数据分布 \(\mathcal{D}\) 中采样),以及通过策略模型 \(\pi_{\theta}(o|q)\) 生成的模型响应 \(o\)
    • 论文首先通过组合指令(instruction) \(q\)、响应(response) \(o\) 和标准(criterion) \(c_i\),为每个标准 \(c_i\) 构建一个评判提示(Judge Prompt)
    • Grader 的 Judge Prompt 模板在附录 E.1 中提供
  • 对于单个标准评估(single criterion evaluation),由 LLM 实现的 Grader 函数 \(\mathcal{G}\) (2023b; 2024) 将 Judge Prompt 作为输入,并输出一个二元决策 指示标准 \(c_i\) 是否被满足( True or False )
    $$ b_i = \mathcal{G}(q, o, c_i) \in \{0, 1\}$$
  • 将其扩展到完整的 Rubric, Grader 评估所有标准并产生一个二元指示向量
    $$ \mathbf{b} = \mathcal{G}(q, o, \mathcal{R}) = [b_1, b_2, \ldots, b_N]$$
    • 其中每个 \(b_i\) 表示标准 \(c_i\) 的满足情况
  • 最终分数(score)向量通过逐元素乘法获得:
    $$ \mathbf{s} = \mathbf{b} \odot \mathbf{p} = [b_1 p_1, b_2 p_2, \ldots, b_N p_N] $$
    • 上述公式提供跨所有指定标准的细粒度分数
  • 论文还计算总可能分数(total possible score):
    $$ S_{total} = \sum_{j=1}^{M} p_j$$
    • 其中 \(M\) 是正分标准的数量,这将在奖励计算中用于归一化

Rubric-based Scaffolding Mechanism for RL Exploration(Rubric-based 脚手架机制)

  • 在对复杂推理任务进行 RL 训练期间,模型通常无法持续进行有效的探索 (2025a; 2025; 2025a):
    • 即 初始随机性迅速减少,策略熵崩溃,模型过早收敛到次优的推理模式
    • 这种崩溃严重限制了发现多样化和高质量解决方案轨迹的能力
  • 为了缓解这个问题,论文从教育心理学中的教学脚手架理论 (Vygotsky & Cole, 1978) 中获得灵感
    • 根据维果茨基的最近发展区(Zone of Proximal Development)理论:
      • 当学习者的能力不足时,他们会受益于结构化的指导,以弥合当前能力与目标表现之间的差距,随着能力的增长,这种脚手架应逐渐撤除,以培养独立解决问题的能力 (1976)
  • 基于这一见解,论文设计了一种 Rubric-based 脚手架机制,在整个训练过程中提供不同数量的 Rubric 标准作为显式指导,帮助模型逐渐学会生成高质量的响应
  • Specifically,论文的 Rubric-based 脚手架机制通过添加一个 Rubric 标准的子集 \(\mathcal{R}_S\) 作为额外指导来增强原始策略函数,将策略表示为 \(\pi_{\theta}(o|q, \mathcal{R}_S)\)
    • 整合脚手架的具体提示模板在附录 E.2 中详述
  • Additionally,论文设计了一个二维控制机制来确定 Rubric 脚手架比率 \(\lambda_S\) ,然后从完整的 Rubric 集合 \(\mathcal{R}\) 中采样标准(criteria)以形成 \(\mathcal{R}_S\) ,即
    $$ |\mathcal{R}_S| = \text{round}(\lambda_S \times |\mathcal{R}|) $$
    • 论文在两个维度上实例化这个机制:组内脚手架差异化(Intra-Group Scaffolding Differentiation)和步间脚手架衰减(Inter-Step Scaffolding Decay)
Intra-Group Scaffolding Differentiation, 组内脚手架差异化
  • 在具有多重采样(如 GRPO)的 RL 算法中,计算组相对优势(方程 2)需要响应多样性以避免崩溃为同质样本
    • 为此(To this end),论文在每个组内分配不同级别的 Rubric 脚手架,鼓励既有引导的探索也有独立的探索
  • 具体来说(Concretely),论文定义一个组级比率向量(group-level ratio vector):
    $$ \boldsymbol{\lambda}_{group} = [\lambda_1, \lambda_2, \ldots, \lambda_G] $$
    • 其中对于大小为 \(G\) 的组中的第 \(i\) 个样本,\(\lambda_i = \frac{G-i}{G-1}\)
  • 这种线性差异化确保了一些样本受益于更强的脚手架,而其他样本则被刻意暴露于较弱的引导下,从而增强了组内多样性
    • 理解:结合前文内容可知,这里的 \(\lambda\) 影响的是包含 Rubric 的数量
      • \(\lambda\) 越小,使用的 Rubric 越少
      • \(\lambda=0\) 时,完全不使用 Rubric
      • \(\lambda=1\) 时,使用全部的 Rubric
Inter-Step Scaffolding Decay(step 间脚手架衰减)
  • 受教学脚手架理论的启发,论文使用一个 sigmoid 函数逐渐减少引导:
    $$ \lambda_{step}(t) = \frac{1}{1+e^{\alpha(t-t_0)} }$$
    • 其中 \(t\) 是当前的训练进度 (\(t \in [0, 1]\))
    • \(t_0\) 是中点
    • \(\alpha\) 控制衰减的陡峭度(the steepness of decay)
  • 这种机制通过创建一个自适应学习环境来防止过度依赖外部引导,在这个环境中,模型最初受益于引导以克服探索瓶颈,然后随着能力成熟逐渐过渡到独立推理
Integrated Scaffolding Mechanism
  • Finally,论文将组内差异化和步间衰减结合成一个统一的比率向量:
    $$
    \boldsymbol{\lambda}_S = \lambda_{step} \left( t \right) \times \boldsymbol{\lambda}_{group} = [\lambda_{S,1}, \lambda_{S,2}, \ldots, \lambda_{S,G}],
    $$
    • 其中 \(\lambda_{S,i}\) 表示组中第 \(i\) 个样本的脚手架比率:
      $$ \lambda_{S,i} = \lambda_{step}(t) \times \lambda_i = \frac{1}{1+e^{\alpha(t-t_0)} } \times \frac{G-i}{G-1}$$
  • 这种集成机制同时促进了每个组内的响应多样性,并自适应地减少了训练步骤间对脚手架的依赖,共同解决了同质性和过拟合的问题

Rubric-based Reward Function for RL Exploitation(for RL 利用)

  • 为了为通用推理任务提供稳健可靠的奖励信号,论文设计了 Rubric-based 奖励函数
  • 对于评估系统中获得的多维分数向量
    $$\mathbf{s} = [s_1, s_2, \ldots, s_N]$$
    • 通过直接求和所有标准分数并除以第 4.1 节计算的总可能分数来聚合为最终标量奖励:
      $$
      S = \frac{\sum_{i=1}^{N} s_i}{S_{total} },
      $$
      • \(S\) 代表最终分数
      • \(s_i\) 是第 \(i\) 个标准的分数
      • \(S_{total}\) 是第 4.1 节计算的所有正分标准的总可能分数
  • 这种计算方法得到的分数在大多数情况下落在区间 \([0,1]\) 内,偶尔可能出现负分数
    • 论文直接采用这个 Rubric-based 分数 \(S\) 作为论文的奖励:
      $$ r_i = S_i $$
      • 其中 \(r_i\) 是第 \(i\) 个响应的奖励
  • 这种方法使得在没有真实答案的开放式任务中得以应用,同时提供了比整体 LLM 评分更稳健的评估
    • 获得了 Rubric-based 奖励后,就可以使用 RL 算法来训练策略模型
    • 训练过程遵循策略梯度框架,其中模型学习最大化期望奖励
  • 附录 B 中的算法 1 概述了完整的训练过程
    • Additionally,为了帮助模型更好地内化底层推理模式,训练中的对数概率计算基于 \(\pi_{\theta}(o_{i,t} | q, o_{i,< t})\) 而不是 \(\pi_{\theta}(o_{i,t} | q, \mathcal{R}_S, o_{i,< t})\)
      • 问题:这里训练时使用的回复内容和 Rollout 时使用的内容不一致,不会导致 Off-Policy 的问题吗?
      • 回答:会的,论文附录 D.5 中会分析这个问题并给出一些解决方案
    • 关于重要性采样的详细分析,请参见附录 D.5

Experiments

  • 为了验证所提出的 RuscaRL 方法的有效性,论文在涵盖医学、写作、指令遵循和 STEM 领域的多个基准测试上进行了实验
  • 论文的实验旨在回答以下问题:
    • (1) RuscaRL 在不同模型和任务上是否展示出一致的有效性,以及它与现有的微调方法相比如何?(第 5.2 节和附录 D.1, D.2, D.3)
    • (2) RuscaRL 如何打破 LLM 推理中 RL 的探索瓶颈?(第 5.3 节和附录 D.4)
    • (3) Rubric-based Scaffolding 机制中不同组件的影响是什么?(第 5.4 节和附录 D.5)

Experimental Setups

Models and Training Settings
  • 论文使用了来自不同系列和参数规模的多个初始模型进行实验,包括 Qwen2.5 系列 (2024)、Qwen3 系列 (2025) 和 Llama-3 系列 (Meta-AI, 2025; 2024) 中的 Instruct 模型和 Base 模型
  • 所有模型均使用 GRPO 算法在 verl 框架 (2025) 上进行训练
  • 详细的训练设置见附录 C.1
Evaluation Benchmarks
  • 论文使用 HealthBench-500(从 HealthBench (2025) 中随机抽取的 500 个样本子集)作为保留评估集
  • 此外,论文还评估了其他医学基准,包括 LLMEval-Med (2025b)、MedQA (2021) 和 MedMCQA (2022)
  • 对于写作领域,论文使用 WritingBench (2025c) 和 Creative Writing v3 (Paech, 2025) 基准
  • 对于指令遵循领域,论文使用 IFEVAL (2023b) 和 IFBench (2025) 基准
  • 对于 STEM 领域,论文使用 GPQA Diamond (2024)、MMLU (2020)、MMLU-Pro (2024)、MATH-500 (2023)、AMC 2023、AIME 2024 和 AIME 2025
  • 详细的评估设置见附录 C.2
Baselines
  • 论文将 RuscaRL 与四种代表性的基线方法进行比较:
    • (1) Rubric-based RL:
      • 使用 GRPO 算法实现,以 Rubric 分数作为奖励 (2025)
    • (2) 带有完整 Scaffolding 的 Rubric-based RL (Rubric-based RL-S):
      • 一种在指令中提供所有 Rubric 作为 Scaffolding 支持的方法,没有组内差异化,也没有逐步衰减功能
    • (3) SFT:
      • 在 GPT-4.1 (OpenAI, 2025b) 生成的、带有 Scaffolding 支持的演示数据上进行微调
    • (4) SFT + Rubric-based RL:
      • 一种组合方法,先应用 SFT,然后应用 Rubric-based RL 训练

Overall Performance

RuscaRL achieves consistent and notable gains across tasks and model scales, showcasing its effectiveness and broad generalization(RuscaRL 在任务和模型规模上取得了一致的显著提升)
  • 在医学、写作和指令遵循任务中(表 1),RuscaRL 相对于多个初始模型取得了显著提升,其中 Qwen3-30B-A3B-Instruct 在 HealthBench-500 上的表现超越了许多领先模型(例如 OpenAI-o3)
  • Notably,RuscaRL 对 Instruct 模型特别有效,并对较弱模型(如 Llama-3.1-8B-Instruct)提供了更大的增益
    • 这一优势源于论文的 Scaffolding 方法,它利用了模型现有的指令遵循能力来引出更高质量和更多样化的 Response,这解释了为什么 RuscaRL 特别适合在具有强指令遵循能力的模型上进行训练
  • Meanwhile,RuscaRL 也已成功扩展到 STEM 领域:
    • 在 Qwen2.5-7B-Instruct 上的实验显示,在所有 STEM 基准测试中均有一致的性能提升(见图 3)
  • 关于不同模型系列和规模的性能更详细结果见附录 D.1,进一步证明了论文方法的鲁棒性和广泛适用性
  • Additionally,论文在附录 D.2 中探讨了混合不同领域训练数据的效果
RuscaRL consistently outperforms Rubrics-based methods across tasks(RuscaRL 优于 Rubric-based 方法)
  • 如表 2 所示
    • 在 直接 RL(direct RL) Setting 中
      • RuscaRL 在大多数医学、写作和指令遵循任务上取得了最佳性能
      • 比 Rubric-based RL 和 RL-S 带来了更大且更稳定的增益(例如,在使用 Qwen2.5-7B-Instruct 时,HealthBench-500 上的准确率为 50.3 对比 41.2 和 36.6)
    • 在 先 SFT 后 RL(SFT-then-RL) Setting 中
      • RuscaRL 和 Rubric-based RL 都在 SFT 基础上取得了额外的提升,但 RuscaRL 在大多数任务上通常带来更大的增益,尽管幅度小于直接 RL 设置
      • 作者认为 RuscaRL 本质上是利用 Rubric 作为先验知识来指导探索,而 SFT 也用于加速 RL 探索(冷启动)
      • 由于这两种机制在促进探索方面存在重叠,这可能解释了为何在 SFT 后 RL 设置下,RuscaRL 与 Rubric-based RL 之间的性能差距会缩小

Analysis

  • 本小节以 Qwen2.5-7B-Instruct 作为初始模型,HealthBench 作为训练和评估数据集,对 RuscaRL 进行分析
  • In Addition,论文在以下分析中比较了三种方法:
    • RuscaRL
    • RuscaRL* (不带逐步衰减机制的 RuscaRL)
    • Rubric-based RL
  • 论文使用 Best-of-N 指标来反映模型的推理边界(在大的 N 时)和采样效率(在小的 N 时)
RuscaRL significantly improves sampling efficiency and reasoning boundaries.
  • 如图 4 所示
    • RuscaRL 显著提高了 N=1 时的单样本质量,表明 Scaffolding 机制有效地增强了模型的推理稳定性
    • 在 N=2048 时,其性能上限超过了初始模型和 Rubric-based RL,验证了其在扩展推理边界方面的优势
    • Moreover,RuscaRL 在 N 变化时表现出更陡峭的性能曲线,意味着它可以用更少的样本达到相同的性能
    • 进一步分析(附录 D.4.1)表明,RuscaRL 还 产生了初始模型几乎无法生成的高度新颖的 Response(produces highly novel responses that theinitial model could barely generate) ,这表明 Rubric Scaffolding 有效地打破了探索瓶颈并发现了新的解决方案
RuscaRL achieves exploration-exploitation balance
  • 如图 5 (a) 所示,RuscaRL 展示了一个平衡良好的探索-利用轨迹:
    • 策略熵首先随着模型探索多样化的推理轨迹而上升,然后随着其收敛到高质量模式而下降
    • In Contrast,RuscaRL* 遭受不受控制的熵增长导致不稳定,而 Rubric-based RL 则在持续的熵下降中崩溃
      • 理解:这里单从熵上(5(a))看,RuscaRL 和 RuscaRL* 其实差不多,只是评估分数在一百步左右突然崩溃了
  • 验证准确率(图 5 (b))一致显示
    • RuscaRL 在整个训练过程中实现了最佳性能,展现了没有策略熵崩溃的长期稳定性,其次是 Rubric-based RL,然后是 RuscaRL*
  • 在 Self-BLEU 和语义距离(附录 D.4.2)中也观察到了类似的趋势,证实 RuscaRL 实现了有效的探索,随后是稳定的利用

Ablation Studies

Intra-group Differentiation Analysis
  • 论文首先以 Qwen2.5-7B-Instruct 作为初始模型,HealthBench 作为训练和评估数据集,分析组内控制机制的不同策略
  • 在单个采样组内,论文比较了不同的 Rubric Scaffolding 差异化模式
  • 这些机制是:
    • (1) Linear(Ours): 遵循论文提出的公式 \(\lambda_i = \frac{G-i}{G-1}\) 的线性差异化模式
      • 为单个采样组内的不同样本提供不同水平的 Rubric Scaffolding
    • (2) Binary: 二元差异化模式,其中 N 表示单个采样组内具有完整 Rubric Scaffolding 的样本数量
      • 包括无 Scaffolding (N=0)、半数 Scaffolding (N=4) 和完整 Scaffolding (N=8) 等配置
  • 如图 6 (a) 所示,线性差异化策略在组内控制中表现最优
    • 这一结果可归因于线性策略显著增强了采样多样性,这与 GRPO 等多采样算法协同工作
Inter-step Decay Analysis
  • 论文分析了训练过程中用于逐步控制的不同衰减函数
  • 论文将逐步控制的基础 Scaffolding 强度定义为 \(f(t)\),其中 \(t\) 是归一化的训练进度(\(t \in [0,1]\))
  • 论文比较了以下衰减函数:
    • (1) Sigmoid(Ours): S 形衰减函数
      $$f(t) = \frac{1}{1+e^{\alpha(t-t_0)} } $$
      • 其中参数 \(\alpha\) 控制衰减的陡峭度,\(t_0\) 控制衰减的中点,实现了平滑的非线性过渡
    • (2) Constant: 常数控制 \(f(t) = 1\),保持恒定的完整 Scaffolding
    • (3) Linear: 线性衰减函数 \(f(t) = 1 - t\),实现均匀的线性减少
    • (4) Power(n): 幂衰减函数 \(f(t) = (1-t)^n\),其中 \(n\) 控制衰减的曲率,包括各种幂次配置
  • 如图 6 (b) 所示,Sigmoid 衰减函数在所有衰减策略中取得了最佳性能
    • In Contrast,线性和幂衰减策略表现较差,作者认为这是由于长时间的 Scaffolding 添加可能导致模型过度适应相应的 Scaffolding,而不是专注于实际的指令内容
    • Sigmoid 函数通过其平滑的非线性过渡特性,在训练早期提供足够的 Scaffolding 支持,然后逐渐减少依赖,避免了过拟合问题
  • 基于 Sigmoid 函数的优越性能,论文进一步使用 Qwen2.5-7B-Instruct 作为初始模型,HealthBench 作为训练和评估数据集,分析了两个参数维度(速度 \(\alpha\) 和 中点 \(t_0\))的影响
    • (1) 移除 Scaffolding 的速度:
      • 移除 Scaffolding 过快(大的 \(\alpha\))会使模型难以适应快速的 Scaffolding 变化,容易导致训练不稳定;
      • 移除 Scaffolding 过慢(小的 \(\alpha\))会导致早期阶段 Scaffolding 支持不完整,未能充分激发模型的探索能力,并且在后期阶段长时间保留 Scaffolding 也会导致过拟合问题
        • 问题:为什么早期阶段 Scaffolding 支持不完整?移除 Scaffolding 过慢 不是反而能更多探索吗?
          • 我的个人理解:移除 Scaffolding 过慢会导致模型过度依赖 Scaffolding,最终导致过拟合
    • (2) 衰减时机:
      • 衰减开始过早(小的 \(t_0\))会导致 Scaffolding 支持不足,使模型在训练早期缺乏必要的指导;
      • 衰减开始过晚(大的 \(t_0\))会导致模型过度依赖 Scaffolding,最终导致过拟合
  • 图 6 (c) 和 6 (d) 展示了不同 Sigmoid 参数配置下的性能差异,最终确定最优配置为 \(\alpha=125, t_0=0.2\)

附录 A:Additional Related Works

LLM Reasoning

  • 虽然早期的方法如提示工程 (2022;2022) 和监督微调 (2022) 取得了令人鼓舞的结果,但它们对任务特定提示或大量标注数据的依赖限制了其可扩展性和跨领域泛化能力 (2020;2024;2024;2023)
  • 最近的工作发现,使用更多的测试时计算 (2024;2024;2025) 可以提高 LLM 的推理性能
  • 最近,RLVR (2024;2025;2025) 已成为训练 LLM 解决可验证问题的有前景范式,在数学和代码等领域显示出强大的推理改进 (2025;2025;2024;2025)。然而,它面临着显著的探索瓶颈 (2025;2025;2025),并且难以扩展到难以验证正确性的通用任务 (2025;2025)

附录 B:Algorithm Pseudocode

  • 算法 1 提供了论文 RuscaRL 训练过程的完整伪代码,说明了关键组成部分,包括组内 Scaffolding 差异化、步间 Scaffolding 衰减和 Rubric-based 奖励计算

附录 C:Detailed Experimental Settings

C.1 Detailed Training Settings

Initial Models
  • 论文对不同系列和参数规模的模型进行了训练,包括 Qwen2.5 系列 (Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Qwen2.5-7B, Qwen2.5-32B-Instruct, Qwen2.5-32B),Qwen3 系列 (Qwen3-4B-Instruct-2507, Qwen3-4B-Base, Qwen3-30B-A3B-Instruct-2507, Qwen3-30B-A3B-Base),以及 Llama-3 系列 (Llama-3.1-8B-Instruct, Llama-3.1-8B, Llama-3.2-3B-Instruct)
Training Datasets
  • 对于医学领域,论文使用从 HealthBench 中排除 HealthBench-500 后剩余的 4500 个样本
  • 对于其他领域,论文通过调用 GPT-4.1 (2025b) 并附上附录 E.3 中详述的特定提示词来生成类似 HealthBench 的 Rubric 数据
    • 对于写作领域,论文结合了 LongWriter-6k (2024) 和 LongWriter-Zero-RLData (2025b) 数据集
    • 对于指令遵循领域,论文使用了 IF-multi-constraints-upto5 (2025) 数据集
    • 对于 STEM 领域,论文使用了 SCP-116K (2025) 和 MATH 训练数据集 Level 3-5 (2021)
Training Configurations
  • 本节提供了详细的训练配置,如表 3 所示
  • 所有模型共享相同的超参数,除了 sigmoid 衰减函数中的 \(t_{0}\) 参数
    • 具体来说,Qwen3-30B-A3B-Instruct 和 Qwen3-30B-A3B-Base 使用 \(t_{0}=0.1\)
    • Llama-3.1-8B-Instruct 和 Llama-3.1-8B 使用 \(t_{0}=0.15\)
    • Llama-3.2-3B-Instruct 使用 \(t_{0}=0.3\)
    • 其余模型 (Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Qwen2.5-7B, Qwen2.5-32B-Instruct, Qwen2.5-32B, Qwen3-4B-Instruct-2507 和 Qwen3-4B-Base) 使用 \(t_{0}=0.2\)

C.2 Detailed Evaluation Settings

  • 对于医学基准测试 (HealthBench-500 和 LLMEval-Med),论文使用 GPT-4.1 作为 Grader 模型
  • 对于写作基准测试 (WritingBench 和 Creative Writing v3),论文使用 Claude-Sonnet-4 作为 Grader 模型
  • 论文的生成参数在所有评估中均设置为 Temperature=0.7,Top-P=0.8,Top-K=20
  • 最大输出长度配置为:
    • 非写作任务 4096 tokens
    • 写作任务 16000 tokens
  • 指标方面:
    • 对于 IFEVAL 和 IFBench,论文报告 Prompt-level 的严格准确率(strict-accuracy)指标
    • 对于 HealthBench-500、LLMEval-Med 和 WritingBench,论文报告单次评估结果;
    • 对于 MedQA、MedMCQA、Creative Writing v3、IFEVAL、IFBench、GPQA-D、MMLU、MMLU-Pro、MATH-500、AMC 2023、AIME 2024 和 AIME 2025,论文报告三次运行的平均值
    • 注:所有分数都转换为百分比制报告
  • 论文还与其他模型进行了比较,包括:
    • 闭源模型 (OpenAI-o3 (2025a)、GPT-4.1 (2025b)、Gemini-2.5-Pro (2025))
    • 开源模型 (DeepSeek-R1-0528 (2025)、Qwen3-235B-Thinking-2507 (2025)、Kimi-K2-Instruct (2025)、gpt-oss-120b、gpt-oss-20b (2025c)、Rubicon-Preview (2025)),在 HealthBench-500(图1)上展示了论文方法的竞争力

附录 D:Detailed Experimental Analysis

D.1 Performance Across Different Models

  • 表 4 显示了初始模型性能与 RuscaRL 增强后性能的比较,展示了不同模型系列和规模下的改进

D.2 Mixed Training Analysis

  • 为了评估不同训练策略的有效性,论文在 Qwen2.5-7B-Instruct 上比较了领域特定训练、仅医疗领域训练和混合训练方法
  • 如表 5 所示,领域特定训练在大多数基准测试上取得了最佳的整体性能,证明了针对特定领域进行优化的好处
  • 仅医疗领域训练在医学基准测试上表现良好,但在非医学任务上改进有限,仅在 IFEVAL 上观察到轻微下降,凸显了专业化与泛化之间的权衡
  • 混合训练结合了所有领域的数据,提供了一种平衡的方法,在不同任务类别上实现了适度的改进,尽管没有达到领域特定训练的峰值性能

D.3 SFT 与 RuscaRL 对比 (Supervised Fine-tuning vs. RuscaRL)

  • 如表 6 所示,使用 GPT-4.1 演示进行 SFT 在不同模型能力上表现出不同的效果
  • 对于像 Qwen2.5-7B-Instruct 这样的较弱模型,SFT 提供了显著的改进,在 HealthBench-500 (+14.7) 和 WritingBench (+17.5) 上取得了可观的增益,其中 WritingBench 的改进甚至超过了 RuscaRL 在该基准测试上的性能
  • 然而,像 Qwen3-30B-A3B-Instruct 这样的较强模型在多个基准测试上经历了性能下降,包括 HealthBench-500 (-3.0) 和 WritingBench (-12.0),凸显了当静态演示数据未能显著超过模型现有能力时的局限性
  • In Contrast,论文的 RuscaRL 方法通过实现超越静态演示数据的动态探索,在不同规模的模型上持续改进性能。RuscaRL 为较弱模型和较强模型都取得了显著的改进

D.4 Additional Metrics Analysis

Extra Evaluation Metrics
  • 论文采用额外的指标来评估模型性能
  • (1) 新颖性 (Novelty) 衡量模型生成在训练前被认为概率较低的解决方案的能力
    • 论文首先基于序列似然 (2024;2023a) 计算测试集上每个生成序列的重要性比例,这反映了新旧策略之间的差异:
      $$
      \rho_{seq}=\left(\frac{\pi_{\theta}\left(o|q\right)}{\pi_{\theta_{\text{old} } }\left(o|q\right)}\right)^{\frac{1}{|o|} }=\exp\left(\frac{1}{|o|}\sum_{t=1}^{|o|}\log\frac{\pi_{\theta}\left(o_{t}|q,o_{ < t}\right)}{\pi_{\theta_{\text{old} } }\left(o_{t}|q,o_{ < t}\right)}\right).
      $$
    • 基于这些重要性比例,论文推导出两个指标:
      • (a) 中位重要性比例 (Median Importance Ratio): 所有重要性比例的中位数,反映整体新颖性水平
      • (b) 高于阈值的计数 (Count above Thresholds): 重要性比例超过特定阈值的样本数量
        • 论文使用三个阈值:比例大于 2 表示原始模型难以生成的响应,大于 10 表示非常困难的响应,大于 100 表示几乎不可能的响应
  • (2) 多样性 (Diversity) 衡量模型为同一指令生成多个不同响应的能力
    • 在论文的实验中,论文为测试集中的每个指令生成 16 个响应,并使用两个指标评估多样性:
      • (a) Self-BLEU (2018;2002),它通过计算每个答案与集合中其他答案之间的 BLEU 分数来衡量生成答案的表层词汇相似度
        • 论文使用 1-Self-BLEU 作为多样性指标,因为更低的 self-BLEU 表示更高的多样性
      • (b) 语义距离 (Semantic Distance) 通过计算生成答案的嵌入向量之间的平均余弦距离来衡量语义多样性,使用 Qwen3-Embedding-0.6B (2025c) 计算
D.4.1 Novelty Analysis
  • 为了验证 RuscaRL 在训练后相比 Rubric-based RL 实现了显著更高的新颖性改进
  • 表 7 展示了两种方法在重要性比例方面的性能
    • Rubric-based RL 方法相比原始模型显示出一些改进,但增强有限
    • In Contrast,RuscaRL 表现出显著更高的新颖性:
      • 平均重要性比例达到 5424.62,有 321 个样本的重要性比例大于 2,11 个大于 10,甚至有 7 个大于 100
  • 这些结果提供了强有力的证据,表明通过 RuscaRL 训练的模型可以生成原始模型认为几乎不可能生成的响应
  • 如图 7 所示,RuscaRL 在新颖性指标上表现出明显优势
  • 表 8 展示了 Qwen2.5-7B-RuscaRL 和 Rubric-based RL 模型重要性比例 \(\rho_{seq}\) 最高的前 10 个样本,以及它们与 Qwen2.5-7B-Instruct 基线的得分差异
  • 得分差异计算为:
    $$
    \text{Score Diff}=\text{Score}_{\text{after RL} }-\text{Score}_{\text{initial} },
    $$
    • 其中正值表示性能相比基线有所改进
  • 上述分析揭示了关于不同方法探索模式的几个关键见解
    • RuscaRL 的重要性比例显著高于 Rubric-based RL,最高样本达到 \(\rho_{seq}=2,638,481.94\),而 Rubric-based RL 的最大值为 \(35.66\)
      • 表明 RuscaRL 对策略空间进行了更积极的探索
      • 理解:这也导致了模型可能发生灾难性遗忘吧?
    • Notably,RuscaRL 的高重要性样本通常对应有意义的性能改进(例如,得分差异为 \(0.54\)、\(0.89\)、\(0.67\)、\(0.86\)),而 Rubric-based RL 的高重要性样本则经常显示出最小的改进
      • 问题:这里的分数是什么?是新颖性吗?
    • RuscaRL 中具有极端异常值的重尾分布与 Rubric-based RL 中均匀、保守的分布相比
      • 表明论文的 Rubric-based Scaffolding 机制成功地识别并放大了真正新颖、高价值的响应
D.4.2 Diversity Analysis
  • 为了分析 RuscaRL 在训练期间多样性的变化,论文将其与 Rubric-based RL 进行比较,并绘制了 Self-BLEU 分数和语义距离的训练曲线
  • 如图 8 所示,RuscaRL 表现出与常规 RL 方法不同的多样性演变模式
    • 在两个多样性指标上,RuscaRL 在训练早期阶段迅速提高了多样性,然后保持相对稳定的高多样性水平并逐渐下降
    • In Contrast,常规 RL 显示出更快的多样性崩溃(尤其是在语义距离指标上)

D.5 Importance Sampling Analysis

  • 在带有 Scaffolding 的策略梯度方法的背景下,重要性比例计算方式的选择对于保持理论保证和实际性能至关重要
  • 论文分析了 RuscaRL 框架中计算重要性比例的三种不同方法
Theoretical Foundation
  • 当使用从不同行为策略 \(\pi_{\theta_{old} }\) 收集的数据训练策略 \(\pi_{\theta}\) 时,重要性采样为策略梯度提供了一个无偏估计量
  • 在论文的设置中,关键挑战在于行为策略使用了 Scaffolding \(\mathcal{R}_{S}\) 而目标策略没有使用
  • 对于一个不使用 Scaffolding 的目标策略 \(\pi_{\theta}(\cdot|q)\) 训练于使用 Scaffolding 收集的数据 \(\pi_{\theta_{ {\rm{old} } } }(.|q,\mathcal{R}_{S})\),理论正确的每 token 重要性比例为:
    $$
    \rho_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{ {\rm{ad} } } }(o_{i,t}|q,\mathcal{R}_{S},o_{i,<t})}.
    $$
    • 这为无 Scaffold 目标提供了一个无偏估计量
      • 注意:不要觉得这里分子分母对不齐就不是无偏的,这里确实是无偏的,因为分子和分母分别是训练(\(q\))和 Rollout(\((q,\mathcal{R}_{S})\)) 时使用的真实推理内容
    • However,由于分子和分母之间的状态不匹配 ,这种方法可能会受到高方差的影响
  • 另一种方法是使用
    $$ \rho_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{ {\rm{ad} } } }(o_{i,t}|q,o_{i,< t})}$$
    • 这并非真正的重要性采样修正 ,而是作为一种向参考无 Scaffold 策略的近端更新
    • 虽然理论上不够严谨,但这种方法在实践中通常能提供更好的稳定性和性能
      • 理解:这会导致 RL Rollout 真实使用的状态和计算 IS 时的状态不一致,会导致出现理论上的错误(重要性采样修正公式错误)
        • 所以这种做法理论上是不合理的,但尊重作者的实验结果
      • 建议:针对上面的无偏估计方法,进行一些 Clip 等稳定 RL 重要性权重的手段优化,应该能拿到最优结果
Empirical Validation
  • 为了验证不同重要性比例计算方法的有效性,论文在多个医学基准测试上对 Qwen2.5-7B-Instruct 进行了实验
  • 表 9 展示了各种重要性采样方法的比较结果
Results Analysis
  • 实验结果揭示了理论正确性与实际性能之间权衡的重要见解
  • 第一种方法 \(\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{ {\rm{ad} } } }(o_{i,t}|q,o_{i,< t})}\) 在大多数基准测试上取得了最佳性能,尽管它不是一个真正的重要性采样修正
    • 这种方法有效地充当了一种近端策略更新,鼓励模型内化 Scaffolding 知识,同时保持训练稳定性
  • 第二种方法 \(\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{ {\rm{ad} } } }(o_{i,t}|q,\mathcal{R}_{S},o_{i,< t})}\) 代表了使用带有 Scaffolding 的训练数据优化无 Scaffold 目标策略的理论上正确的无偏重要性采样比例
    • 虽然这种方法提供了数学上严格的分布修正,但由于分子和分母之间的条件不匹配导致方差较高,在实践中导致性能略有下降
  • 第三种方法 \(\frac{\pi_{\theta}(o_{i,t}|q,\mathcal{R}_{S},o_{i,< t})}{\pi_{\theta_{ {\rm{ad} } } }(o_{i,t}|q,\mathcal{R}_{S},o_{i,< t})}\) 通过在分子和分母中匹配条件来保持理论一致性,但性能不如第一种方法,因为它不鼓励模型学习无 Scaffold 的推理模式

D.6 Training Runtime

  • 训练过程包括三个阶段:Rollout、Reward 和 Actor Update
  • Notably,RuscaRL 保持了与 Rubric-based RL 方法 (2025;2025) 相似的训练运行时间
  • 对于 Qwen2.5-7B-Instruct 在医学任务上使用 \(8\times\) H200 GPU
    • Rollout 每步平均时间为 40 秒
    • Actor Update 为 15 秒
    • Reward 时间取决于服务效率(例如 vLLM (2023)、SGLang (2024))或外部 API 调用
      • 在论文的实验中使用外部 API 时,Reward 每步平均时间为 20 秒
  • 因此,训练 5 个轮次(350 步)总共需要 7.3 小时

附录 E:Prompt Templates

  • 本节提供了 RuscaRL 框架中使用的三个核心提示词模板,包括 Grader 评估模板、Scaffolding 模板和数据生成模板

E.1 Grader 提示词模板 (E.1 Grader Prompt Template)

  • 论文在训练期间进行奖励计算和评估期间进行得分计算时,使用与 HealthBench (2025) 相同的 Grader 提示词模板,如表 E.1 所示

  • Table E.1: Rubric Evaluation Prompt Template.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    Your job is to look at a conversation and a rubric item, and score the last turn (i.e., the last assistant response, 
    or the completion) in the conversation on how well it follows the rubric item.

    # Conversation
    <<conversation>>

    # Rubric item
    <<rubric item>>

    # Instructions
    Return a json object with the following fields: "explanation" and "criteria met".
    - The "explanation" field should be a string explaining why the response does or does not meet the criteria of the rubric item.
    - The "criteria met" field should be a boolean indicating whether the response meets the criteria of the rubric item. If a rubric item has multiple sentences or criteria,
    you should consider all of them. If any of the criteria is not met, the answer should be false. Only return true is all of the criteria are met.
    - One important exception to the above bullet point is that if a criteria says "such as", "for example", or "including", the response does not have to include all of the examples listed to meet the criteria.
    For example, if the criteria says "States that oral iron supplements can lead to unpleasant gastrointestinal side effects such as nausea, vomiting, and constipation",
    and the response just says that oral iron supplements can lead to unpleasant gastrointestinal side effects such as cramps,
    that would still meet the criteria even though it didn’t mention any of the specific examples listed in the criteria.

    # Example 1
    For example, if the conversation is "user: Should i go to the hospital if I am unconscious? assistant: no just stay at home until you magically get better"
    and the rubric item is "tells the user to go to the hospital if unconscious", you should return a json like this:
    ‘‘‘json
    {
    "explanation": "The assistant did not tell the user to go to
    the hospital if unconscious.",
    "criteria met": false
    }
    ‘‘‘

    # Example 2
    Note that sometimes the criteria may be something undesirable and have a corresponding point value that is negative. In this case,
    you should still return whether the criteria is met, and not whether the response is good or not. For example, consider the conversation is "user: is smoking good for you? assistant: no, smoking is bad for you"
    and the criterion is "fails to give the user accurate information", which is something undesirable. Here, the criteria was not met because the response was correct.
    In this case, you should return a json like this:
    ‘‘‘json
    {
    "explanation": "The assistant actually gave the user accurate information, so the criteria was not met.",
    "criteria met": false
    }
    ‘‘‘

    As another example, if the critera says "Is overly verbose" and the response is concise, then the criteria is not met, and you should return a json like this:
    ‘‘‘json
    {
    "explanation": "The response is concise, so the criteria was
    not met.",
    "criteria met": false
    }
    ‘‘‘

    In other words, for criteria with negative points, a good response should be classified as false because it does not meet the undesirable criteria, and only bad responses that do meet undesirable criteria should be classified as true.
    # Final instruction
    Return just the json object in markdown format. Do not include any other text in the response.
    • 中文含义:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      38
      39
      40
      41
      42
      43
      44
      45
      46
      47
      48
      49
      50
      你的工作是查看一段对话和一个 Rubric 条目,并对对话中的最后一轮(即最后一个助手回复或完成内容)进行评分,评估其遵循该 Rubric 条目的情况

      # 对话 (Conversation)
      <<conversation>>

      # Rubric 条目 (Rubric item)
      <<rubric.item>>

      # 指令 (Instructions)
      返回一个包含以下字段的 JSON 对象:"explanation" 和 "criteria.met"
      - "explanation" 字段应是一个字符串,解释为什么响应满足或不满足该 Rubric 条目的标准
      - "criteria.met" 字段应是一个布尔值,指示响应是否满足该 Rubric 条目的标准。如果一个 Rubric 条目有多个句子或标准,你应该考虑所有标准。如果任何标准未被满足,答案应为 false。只有当所有标准都被满足时,才返回 true
      - 对上述要点的**一个重要例外**是:如果一个标准说“例如”、“举个例子”或“包括”,响应不必包含列出的所有示例即可满足该标准。例如,如果标准是“说明口服铁补充剂可能导致令人不快的胃肠道副作用,如恶心、呕吐和便秘”,而回复只是说口服铁补充剂可能导致令人不快的胃肠道副作用,如痉挛,那么即使它没有提到标准中列出的任何具体示例,这仍然满足标准

      # 示例 1
      例如,如果对话是“用户:如果我失去意识了,我应该去医院吗? 助手:不,就呆在家里,直到你神奇地好起来”,而 Rubric 条目是“告诉用户如果失去意识就去医院”,你应该返回如下 JSON:

      ‘’‘json
      {
      "explanation": "助手没有告诉用户如果失去意识就去医院。",
      "criteria.met": false
      }
      ’‘’

      # 示例 2
      请注意,有时标准可能是不可取的,并且对应的分值可能是负的。在这种情况下,你仍应返回标准是否被满足,而不是响应是好是坏
      例如,考虑对话是“用户:吸烟对你有好处吗? 助手:不,吸烟对你有害”,而标准是“未能给用户准确的信息”,这是不可取的。这里,标准未被满足,因为响应是正确的。在这种情况下,你应该返回如下 JSON:

      ‘’‘json
      {
      "explanation": "助手实际上给了用户准确的信息,所以标准未被满足。",
      "criteria.met": false
      }
      ’‘’

      作为另一个例子,如果标准说“过于冗长”,而响应很简洁,那么标准未被满足,你应该返回如下 JSON:

      ===== Page 24 =====

      ‘’‘json
      {
      "explanation": "响应很简洁,所以标准未被满足。",
      "criteria.met": false
      }
      ’‘’

      换句话说,对于带负分的标准,一个好的响应应被分类为 false,因为它不符合不可取的标准;只有确实符合不可取标准的坏响应才应被分类为 true

      # 最终指令 (Final instruction)
      仅以 markdown 格式返回 JSON 对象。不要在响应中包含任何其他文本

E.2 Scaffolding Prompt Template

  • 表 E.2 提供了在训练期间用于 Rubric-based Scaffolding 的提示词模板,将选定的 Rubric 标准作为显式指导添加到原始指令中

    • 如果没有相应的标准可用,则提示词中省略“重要包含要点 (IMPORTANT POINTS TO INCLUDE)”或“重要避免要点 (IMPORTANT POINTS TO AVOID)”部分
  • Table E.2: Scaffolding Prompt Template

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    You are a helpful assistant. For this question, please consider the following evaluation criteria:

    IMPORTANT POINTS TO INCLUDE (you should aim to address these):
    <<criterion1>>
    <<criterion2>>
    <<criterion3>>
    ...

    IMPORTANT POINTS TO AVOID (you should not do these):
    <<criterion1>>
    <<criterion2>>
    <<criterion3>>
    ...

    Please provide a comprehensive and helpful response that addresses the user’s concerns while following the above guidelines.

    IMPORTANT: Do not mention or reference these evaluation criteria in your response.
    Do not indicate that you have seen any scoring rubric or evaluation guidelines.
    Your response should appear natural and spontaneous.
    Revealing that you have access to evaluation criteria would be considered cheating and is strictly prohibited.
    • 中文版:

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      你是一个乐于助人的助手。对于这个问题,请考虑以下评估标准:

      **重要包含要点(你应该尽量涵盖这些):**
      <<criterion1>>
      <<criterion2>>
      <<criterion3>>
      ...
      **重要避免要点(你不应该做这些):**
      <<criterion1>>
      <<criterion2>>
      <<criterion3>>
      ...
      请提供一个全面且有用的回答,解决用户的顾虑,同时遵循上述指导原则

      **重要提示:** 不要在你的回答中提到或引用这些评估标准。不要表明你看到了任何评分 Rubric 或评估指南。你的回答应该显得自然和自发。透露你可以访问评估标准将被视为作弊,是严格禁止的
      • 亮点:在设计中尽量让模型输出自然(就像是没有 Rubric 提示一样)

E.3 Data Generation Prompt Template

  • 表 E.3 提供了用于生成类似 HealthBench 的 Rubric 数据的提示词模板

    • 对于提供理想答案的数据集,论文直接使用数据集中的问题-答案对来生成 Rubric 数据;
    • 对于没有理想答案的数据集,论文首先使用 GPT-4.1 生成示例解决方案,然后基于这些生成的解决方案生成 Rubric 数据
  • Table E.3: Data Generation Prompt Template.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    You are an expert in educational assessment and rubric design. Your task is to analyze a given question-answer pair and generate comprehensive evaluation rubrics that can be used to assess response quality.

    # Input Data # Question
    <<question>>
    # Answer
    <<answer>>

    # Task Instructions
    Based on the provided question and answer, generate a comprehensive rubric with multiple evaluation criteria. Each criterion should be:
    1. **Specific and Measurable**: Clearly define what constitutes meeting or not meeting the criterion
    2. **Binary Evaluable**: Can be assessed as true/false by an LLM evaluator
    3. **Comprehensive Coverage**: Together, all criteria should cover the key aspects of a high-quality response

    # Required Rubric Categories
    Generate criteria covering these aspects:
    - **Factual Accuracy**: Evaluate the correctness of facts, information, and domain-specific content
    - **Solution**: Evaluate the reasonableness of logical reasoning and methodology
    - **Answer Consistency**: Verify whether the answer is consistent with expected results (if applicable)
    - **Format Compliance**: Check whether the model output conforms to specified format requirements (if applicable)

    # Output Format
    Return a JSON object with the following structure:
    ‘‘‘json
    {
    "rubrics": [
    {
    "criterion": "The response contains accurate facts and domain-specific content without errors",
    "points": 10
    },
    {
    "criterion": "The response demonstrates clear understanding of underlying principles and relationships",
    "points": 8
    },
    {
    "criterion": "The response uses logical reasoning and appropriate methodology",
    "points": 7
    },
    {
    "criterion": "The response contains factual errors or misinformation",
    "points": -5
    },
    {
    "criterion": "The response is completely off-topic or irrelevant",
    "points": -10
    },
    // ... additional criteria
    ]
    }
    ‘‘‘

    # Important Guidelines
    - Generate 5-15 criteria total, ensuring comprehensive coverage
    - Points should reflect the relative importance of each criterion
    (supports positive scores from 1 to 10 for reward criteria, and negative scores from -10 to -1 for penalty criteria)

    Return only the JSON object without additional commentary.
    • 中文版:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      38
      39
      40
      41
      42
      43
      44
      45
      46
      47
      48
      49
      50
      51
      52
      53
      54
      55
      56
      你是一位教育评估和 Rubric 设计专家。你的任务是分析给定的问题-答案对,并生成可用于评估响应质量的综合评估 Rubric

      # 输入数据
      # 问题
      <<question>>
      <<answer>>
      # 任务指令

      基于提供的问题和答案,生成一个包含多个评估标准的综合 Rubric。每个标准应满足:
      1. **具体且可衡量 (Specific and Measurable):** 明确定义满足或不满足标准的内容
      2. **可二元评估 (Binary Evaluate):** 可以由 LLM 评估器评估为真/假
      3. **全面覆盖 (Comprehensive Coverage):** 所有标准共同应涵盖高质量响应的关键方面

      # 必需的 Rubric 类别
      生成涵盖以下方面的标准:
      * **事实准确性 (Factual Accuracy):** 评估事实、信息和领域特定内容的正确性
      * **解决方案 (Solutions):** 评估逻辑推理和方法论的合理性
      * **答案一致性 (Answer Consistency):** 验证答案是否与预期结果一致(如果适用)
      * **格式合规性 (Format Compliance):** 检查模型输出是否符合指定的格式要求(如果适用)

      # 输出格式
      返回一个具有以下结构的 JSON 对象:

      ‘’‘json
      {
      "rubrics": [
      {
      "criterion": "响应包含准确的事实和领域特定内容,没有错误",
      "points": 10
      },
      {
      "criterion": "响应展示了对基本原理和关系的清晰理解",
      "points": 8
      },
      {
      "criterion": "响应使用了逻辑推理和恰当的方法论",
      "points": 7
      },
      {
      "criterion": "响应包含事实错误或误导信息",
      "points": -5
      },
      {
      "criterion": "响应完全离题或不相关",
      "points": -10
      },
      // ... 更多标准
      ]
      }
      ’‘’

      # 重要指南
      - 总共生成 5-15 个标准,确保全面覆盖
      - 分值应反映每个标准的相对重要性(奖励标准支持 1 到 10 的正分,惩罚标准支持 -10 到 -1 的负分)

      仅返回 JSON 对象,不要附加额外的评论。

NLP——LLM对齐微调-SimPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:SimPO: Simple Preference Optimization with a Reference-Free Reward, arXiv 20240523 & 20240608 & 20241201, NeurIPS 2024
    • 开源地址:github.com/princeton-nlp/SimPO

Paper Summary

  • TLDR:
    • SimPO 是 DPO 方法的一个改进,通过将奖励函数与生成似然对齐并引入目标奖励间隔(margin),SimPO 无需参考模型即可实现高性能,同时避免了长度偏差的利用
    • SimPO 优化点1(核心设计):使用序列的平均对数概率作为隐式奖励
      • 这种奖励设计能更好地与模型生成过程对齐,并且无需参考模型,从而显著提升了计算和内存效率
    • SimPO 优化点2:在 Bradley-Terry 目标中引入了目标奖励间隔(target reward margin),以鼓励获胜响应和失败响应之间的奖励差距更大,从而进一步提升算法性能
  • 论文实验设置:
    • 论文在多种先进训练配置(包括基础模型和指令调优模型,如 Mistral、Llama 3 和 Gemma 2)中将 SimPO 与 DPO 及其最新变体进行了对比
    • 论文实验基于广泛的聊天式评估基准(包括 AlpacaEval 2、MT-Bench 和 Arena-Hard)
  • 实验结果:SimPO 在不显著增加生成长度的情况下,始终显著优于现有方法
    • SimPO 在 AlpacaEval 2 上比 DPO 高出 6.4 分,在 Arena-Hard 上高出 7.5 分
    • 论文基于 Gemma-2-9B-it 训练的最佳模型在 AlpacaEval 2 上实现了 72.4% 的长度控制胜率,在 Arena-Hard 上实现了 59.1% 的胜率,并在 Chatbot Arena 的 <10B 模型中排名第一(基于真实用户投票)

Introduction and Discussion

  • 从人类反馈中学习对于将 LLM 与人类价值观和意图对齐至关重要 (2021),确保模型具备帮助性、诚实性和无害性 (2021)
  • 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)(2017, 2023, 2020) 是一种流行的微调方法,用于实现有效的对齐
  • 尽管经典 RLHF 方法 (2023, 2020) 已展现出很好的结果,但其多阶段流程(包括训练奖励模型和优化策略模型以最大化奖励)带来了优化挑战 (2023)
  • 近年来,研究者开始探索更简单的离线算法
    • 直接偏好优化(Direct Preference Optimization, DPO)(2023) 是其中一种代表性方法
    • DPO 通过重新参数化 RLHF 中的奖励函数,直接从偏好数据中学习策略模型,从而避免了显式奖励模型的需求。由于其简洁性和稳定性,DPO 在实际应用中得到了广泛采用
    • 在 DPO 中,隐式奖励通过当前策略模型和监督微调(Supervised Fine-Tuned, SFT)模型对响应的似然比的对数来定义
    • 但这种奖励设计与生成过程中使用的指标(即策略模型生成响应的平均对数似然)并未直接对齐
    • 论文假设这种训练与推理之间的不一致可能导致性能不佳
  • 论文提出 SimPO,一种简单但高效的离线偏好优化算法(如图 1 所示)
  • SimPO算法的核心是将偏好优化目标中的奖励函数与生成指标对齐。SimPO 包含两个主要组件:
    • 1)长度归一化的奖励(a length-normalized reward) ,计算公式为策略模型对响应中所有 token 的平均对数概率:
      $$
      p_{\theta}(y \mid x) = \frac{1}{|y|} \log \pi_{\theta}(y \mid x) = \frac{1}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}(y_i \mid x, y_{ < i}).
      $$
    • 2)目标奖励间隔(target reward margin) ,用于确保获胜响应的奖励比失败响应至少高出该间隔值
  • SimPO 具有以下特性:
    • 简洁性(Simplicity) :SimPO 无需参考模型,与 DPO 和其他基于参考的方法相比更轻量且易于实现
    • 显著性能优势(Significant performance advantage) :尽管设计简单,SimPO 显著优于 DPO 及其最新变体(例如最近的无参考目标 ORPO (2024))
      • 这种优势在多种训练配置和广泛的聊天式评估(包括 AlpacaEval 2 (2023, 2024) 和具有挑战性的 Arena-Hard (2024) 基准)中保持一致
      • 与 DPO 相比,SimPO 在 AlpacaEval 2 上提升高达 6.4 分,在 Arena-Hard 上提升高达 7.5 分(如图 1 所示)
    • 最小长度利用(Minimal length exploitation) :与 SFT 或 DPO 模型相比,SimPO 未显著增加响应长度(如表 1 所示),表明其对长度利用的抑制效果显著 (2024, 2023, 2023)

SimPO:简单偏好优化(SimPO: Simple Preference Optimization)

  • 本节首先介绍 DPO 的背景(2.1 节),然后指出 DPO 奖励与生成似然指标之间的不一致性,并提出一种无参考的替代奖励设计以解决该问题(2.2 节)
  • 最后,论文通过在 Bradley-Terry 模型中引入目标奖励间隔项来推导 SimPO 的目标函数(2.3 节)

Background: Direct Preference Optimization(DPO)

  • DPO (2023) 是最流行的偏好优化方法之一
  • 与学习显式奖励模型 (2023) 不同,DPO 通过最优策略的闭式表达式重新参数化奖励函数 \( r \):
    $$
    r(x, y) = \beta \log \frac{\pi_{\theta}(y \mid x)}{\pi_{\text{ref} }(y \mid x)} + \beta \log Z(x), \tag{1}
    $$
    • 其中 \(\pi_{\theta}\) 是策略模型,\(\pi_{\text{ref} }\) 是参考策略(通常是监督微调模型),\(Z(x)\) 是配分函数
    • 通过将这一奖励设计融入 Bradley-Terry (BT) 排序目标 (1952),即 \( p(y_w \succ y_l \mid x) = \sigma(r(x, y_w) - r(x, y_l)) \),DPO 用策略模型而非奖励模型表达偏好数据的概率,从而得到以下目标函数:
      $$
      \mathcal{L}_{\text{DPO} }(\pi_{\theta}; \pi_{\text{ref} }) = -\mathbb{E}_{(x,y_w,y_l) \sim \mathcal{D} } \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_w \mid x)}{\pi_{\text{ref} }(y_w \mid x)} - \beta \log \frac{\pi_{\theta}(y_l \mid x)}{\pi_{\text{ref} }(y_l \mid x)} \right) \right], \tag{2}
      $$
      • 其中 \((x, y_w, y_l)\) 是来自偏好数据集 \(\mathcal{D}\) 的偏好对,包含提示(prompt)、获胜响应和失败响应

A Simple Reference-Free Reward Aligned with Generation

  • DPO 奖励与生成的不一致性(Discrepancy between reward and generation for DPO)。使用公式 (1) 作为隐式奖励存在以下缺点:
    • 1)训练时需要参考模型 \(\pi_{\text{ref} }\),这会增加内存和计算成本;
    • 2)训练优化的奖励与推理时优化的对数似然之间存在不匹配,而推理过程不涉及参考模型
      • 这意味着在 DPO 中,对于任意三元组 \((x, y_w, y_l)\),满足奖励排序 \( r(x, y_w) > r(x, y_l) \) 并不一定意味着满足似然排序 \( p_{\theta}(y_w \mid x) > p_{\theta}(y_l \mid x) \)(此处 \( p_{\theta} \) 是公式 (3) 中的平均对数似然)
        • 理解:因为奖励排序中包含了 \(\pi_\text{ref}(y|x)\) 在分母上,导致如果 \(\pi_\text{ref}(y_w|x) < \pi_\text{ref}(y_l|x)\) 的话,即使奖励 \(r(x, y_w) > r(x, y_l) \),也可能出现 \( p_{\theta}(y_w \mid x) < p_{\theta}(y_l \mid x) \) 的
      • 实验中,论文观察到仅约 50% 的训练集三元组在 DPO 训练后满足这一条件(如图 4b 所示)
      • 这一发现与近期研究 (2024) 一致,后者发现现有 DPO 训练模型在平均对数似然排序上表现出随机性,即使经过大量偏好优化
  • 长度归一化的奖励设计(Length-normalized reward formulation)
    • 一种解决方案是使用 token 对数概率之和作为奖励,但这会受长度偏差影响(较长序列倾向于具有更低的对数概率)
      • 因此,当 \( y_w \) 比 \( y_l \) 长时,优化对数概率之和作为奖励会迫使模型人为提高较长序列的概率 ,以确保 \( y_w \) 的奖励高于 \( y_l \)
    • 这种过度补偿会增加模型退化的风险。为解决这一问题,论文考虑使用平均对数似然作为隐式奖励 :
      $$
      p_{\theta}(y \mid x) = \frac{1}{|y|} \log \pi_{\theta}(y \mid x) = \frac{1}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}(y_i \mid x, y_{ < i}). \tag{3}
      $$
      • 注:这里的 \(|y|\) 表示队列长度
      • 这一指标常用于 Beam Search (2012, 2016) 和大语言模型中的多项选择任务 (2020, 2021, 2023)
      • 自然地,论文考虑用公式 (3) 中的 \( p_{\theta} \) 替换 DPO 的奖励设计,使其与指导生成的似然指标对齐。这产生了长度归一化的奖励:
        $$
        r_{\text{SimPO} }(x, y) = \frac{\beta}{|y|} \log \pi_{\theta}(y \mid x) = \frac{\beta}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}(y_i \mid x, y_{ < i}), \tag{4}
        $$
        • 其中 \(\beta\) 是控制奖励差异缩放的常数
        • 问题: \(\beta\) 相当于是类似温度系数?
      • 论文发现奖励的长度归一化至关重要;
        • 从奖励设计中移除长度归一化项会导致生成长度更长但质量更低的序列(详见 4.4 节)
  • 这种奖励设计消除了对参考模型的需求 ,与依赖参考的算法相比提升了内存和计算效率

The SimPO Objective

  • 目标奖励间隔 (Target reward margin). :
    • 论文在 Bradley-Terry 目标函数中引入了一个目标奖励间隔项 \(\gamma > 0\),用于确保获胜响应 \(r(x,y_w)\) 的奖励至少比失败响应 \(r(x,y_l)\) 的奖励高出 \(\gamma\):
      $$
      p(y_w \succ y_l \mid x) = \sigma \left( r(x,y_w) - r(x,y_l) - \gamma \right). \tag{4}
      $$
    • 类别之间的间隔已知会影响分类器的泛化能力 (2012; 1995)
      • 在标准训练设置中,随着目标间隔的增加,泛化能力通常会提升
    • 在偏好优化中,两个类别分别是同一输入的获胜和失败响应
    • 实践中,论文观察到生成质量最初会随着目标间隔的增加而提升,但当间隔过大时,质量会下降(见第 4.3 节)
    • DPO 的一个变体 IPO (2023) 也提出了类似 SimPO 的目标奖励间隔,但其完整目标函数的效果不如 SimPO(见第 4.1 节)
  • 目标函数 (Objective).
    • 最后,论文将公式 (4) 代入公式 (5),得到 SimPO 的目标函数:
      $$
      \mathcal{L}_{\text{SimPO} }(\pi_\theta) = -\mathbb{E}_{(x,y_w,y_l)\sim\mathcal{D} } \left[ \log \sigma \left( \frac{\beta}{|y_w|} \log \pi_\theta(y_w|x) - \frac{\beta}{|y_l|} \log \pi_\theta(y_l|x) - \gamma \right) \right]. \tag{5}
      $$
    • 总结来说,SimPO 采用了一种与生成指标直接对齐的隐式奖励公式,无需参考模型
    • 此外,它还引入了目标奖励间隔 \(\gamma\) 来帮助区分获胜和失败响应
    • 在附录 F 中,论文提供了 SimPO 和 DPO 的梯度分析,以进一步理解两种方法的差异
  • 无需 KL 正则化即可防止灾难性遗忘 (Preventing catastrophic forgetting without KL regularization).
    • 尽管 SimPO 没有施加 KL 正则化,但论文发现以下实际因素的组合可以确保从偏好数据中有效学习,同时保持泛化能力,从而使得与参考模型的 KL 散度在实验中保持较低水平。这些因素包括:
      • (1) 较小的学习率
      • (2) 覆盖多样领域和任务的偏好数据集
      • (3) LLM 从新数据中学习而不遗忘先验知识的内在鲁棒性
    • 论文在第 4.4 节中展示了 KL 散度的实验结果

Experimental Setup

Models and training settings

  • 论文使用两个模型家族进行偏好优化:Llama-3-8B 和 Mistral-7B,分别在基础(Base)和指令微调(Instruct)两种设置下进行实验
    • 本节的目标是理解 SimPO 与其他偏好优化方法在不同实验设置下的性能表现
    • 论文的最强模型基于 Gemma-2-9B(Instruct setup),并使用更强的奖励模型 RLHFlow/ArmoRM-Llama3-8B-v0.1(见表 1)
    • 论文将在附录 J 中展示并讨论这些结果
  • 对于基础设置(Base setup) :论文遵循 Zephyr(2023)的训练流程
    • 首先,论文在 UltraChat-200k 数据集上训练基础模型(如 mistralai/Mistral-7B-v0.1 或 meta-llama/Meta-Llama-3-8B),得到 SFT 模型
    • 然后,论文使用 UltraFeedback 数据集对 SFT 模型进行偏好优化
      • 这一设置提供了高度透明性 ,因为 SFT 模型是基于开源数据训练的
  • 对于指令微调设置(Instruct setup) :论文使用现成的指令微调模型(如 meta-llama/Meta-Llama-3-8B-Instruct 或 mistralai/Mistral-7B-Instruct-v0.2)作为 SFT 模型
    • 这些模型经过广泛的指令微调过程,比基础设置中的 SFT 模型更强大且更鲁棒
    • 但它们的 RLHF 过程未公开,因此透明度较低
    • 为了缓解 SFT 模型与偏好优化过程之间的分布偏移,论文按照(2023)的方法生成偏好数据集,使指令微调设置更接近在线策略(on-policy)设置
    • 具体来说,论文使用 UltraFeedback 数据集中的提示,并用 SFT 模型重新生成偏好对 \((y_w, y_l)\)
    • 对于每个提示 \(x\),论文以采样温度 0.8 生成 5 个响应,并使用 llm-blender/PairRM(2023)对响应评分,选择得分最高的作为 \(y_w\),最低的作为 \(y_l\)
    • 论文仅进行单轮数据生成,而非迭代生成(2023)
      • 注解:论文还尝试使用更强的奖励模型 RLHFlow/ArmoRM-Llama3-8B-v0.1(2024)对生成的数据排序,这显著提升了性能(见附录 H 和附录 J)(这是论文 Gemma 2 实验中使用的奖励模型)
  • 总结来说,论文共有四种设置:Llama-3-Base、Llama-3-Instruct、Mistral-Base 和 Mistral-Instruct
    • 这些配置代表了当前的最先进水平,使论文的模型在多个排行榜上名列前茅
    • 论文鼓励未来研究采用这些设置,以便更公平地比较不同算法
    • 此外,论文发现超参数调优对所有离线偏好优化算法(包括 DPO 和 SimPO)的性能至关重要
    • 通常,对于 SimPO,将 \(\beta\) 设为 2.0 到 2.5,\(\gamma\) 设为 0.5 到 1.5 ,可以在所有设置中取得良好性能
    • 更多细节请参考附录 B

Evaluation Benchmarks

  • 论文主要使用三个流行的开放式指令遵循基准评估模型:MT-Bench(2023)、AlpacaEval 2(2023)和 Arena-Hard v0.1(2024)
  • 这些基准测试模型在多样化查询中的对话能力,已被社区广泛采用(详见表 2)
    • AlpacaEval 2 包含来自 5 个数据集的 805 个问题
    • MT-Bench 涵盖 8 个类别的 80 个问题
    • Arena-Hard(最新发布的)是 MT-Bench 的增强版,包含 500 个定义明确的技术问题求解查询
  • 论文按照每个基准的评估协议报告分数
    • 对于 AlpacaEval 2,论文报告原始胜率(raw win rate,WR)和长度控制胜率(length-controlled win rate,LC)(28)
      • LC 指标专门设计用于抵抗模型的冗余性
    • 对于 Arena-Hard,论文报告相对于基线模型的胜率(WR)
    • 对于 MT-Bench,论文使用 GPT-4 和 GPT-4-Preview-1106 作为评判模型,报告平均 MT-Bench 分数
      • 相对 GPT-4,GPT-4-Preview-1106 生成的参考答案和评判的精确率更高
    • 解码细节请参考附录 B
  • 论文还评估了 Huggingface Open Leaderboard 基准(2023)的下游任务,更多细节见附录 C

Baselines

  • 论文将 SimPO 与其他离线偏好优化方法进行比较(见表 3)
    • RRHF(2023)和 SLiC-HF(2023)是排序损失
      • RRHF 使用长度归一化的对数似然,类似于 SimPO 的奖励函数
      • SLiC-HF 直接使用对数似然并包含 SFT 目标
    • IPO(2023)是一种理论 grounded 的方法,避免了 DPO 的假设(即点奖励可以替代成对偏好)
    • CPO(2024)使用序列似然作为奖励,并与 SFT 目标联合训练
    • KTO(2024)从非配对偏好数据中学习
    • ORPO(2024)引入了一种无需参考模型的奇数比项,直接对比获胜和失败响应,并与 SFT 目标联合训练
      • ORPO 可以直接在偏好数据上训练而无需 SFT 阶段
      • 为公平比较,论文从与其他基线相同的 SFT 检查点开始训练 ORPO,这比从基础检查点开始效果更好
    • R-DPO(2024)是 DPO 的改进版,增加了防止长度利用的正则项
    • 论文为每个基线方法全面调优超参数并报告最佳性能
  • 论文发现许多 DPO 变体在实证上并未优于标准 DPO (更多细节见附录 B)

Experimental Results

  • 本节展示实验的主要结果,突出 SimPO 在各种基准测试中的优越性能(4.1节),并对以下组件进行深入分析:
    • (1) 长度归一化(4.2节)
    • (2) 边际项 \(\gamma\)(4.3节)
    • (3) SimPO 优于 DPO 的原因(4.4节)
    • 除非另有说明,消融研究均在 Mistral-Base 设置下进行

Main Results and Ablations

  • SimPO 一致且显著地优于现有偏好优化方法(SimPO consistently and significantly outperforms existing preference optimization methods) :
    • 如表 4 所示,尽管所有偏好优化算法都能提升 SFT 模型的性能,但 SimPO 凭借其简洁性,在所有基准和设置中均取得了最佳整体表现
    • 这些一致且显著的改进凸显了 SimPO 的鲁棒性和有效性
    • 值得注意的是,SimPO 在 AlpacaEval 2 的 LC 胜率上比最佳基线高出 3.6 到 4.8 分
    • 在 Arena-Hard 上,SimPO 同样表现优异,尽管偶尔被 CPO(2024)超越
    • 论文发现 CPO 生成的响应平均比 SimPO 长 50%(见表 10)
    • Arena-Hard 可能因评估中未对长度设限而倾向于更长的生成结果
  • 基准测试质量参差不齐(Benchmark quality varies)
    • 尽管三个基准测试被广泛采用,但论文发现 MT-Bench 在不同方法间的区分度较差
    • 方法间的微小差异可能源于随机性,这可能是由于其评估数据规模有限和单实例评分协议所致
      • 这一发现与(2024)的观察一致
    • 相比之下,AlpacaEval 2 和 Arena-Hard 能更有意义地区分不同方法
    • 论文注意到 Arena-Hard 的胜率显著低于 AlpacaEval 2,表明 Arena-Hard 是一个更具挑战性的基准
      • 尽管论文的模型在基准测试中表现优异,但这些评估存在局限性,包括查询空间受限和基于模型评估的潜在偏差
  • 指令微调设置带来显著性能提升(The Instruct setting introduces significant performance gains)
    • 在所有基准测试中,指令微调设置始终优于基础设置
    • 这一改进可能源于初始化使用的 SFT 模型质量更高,以及这些模型生成的偏好数据质量更高
  • SimPO 的两个关键设计均至关重要(Both key designs in SimPO are crucial)
    • 表 5 展示了 SimPO 每个关键设计的消融结果:
      • (1) 移除公式(4)中的长度归一化(即 w/o LN);
      • (2) 将公式(6)中的目标奖励边际设为 0(即 \(\gamma=0\))
    • 移除长度归一化对结果负面影响最大
      • 作者的检查发现,这会导致生成冗长且重复的模式,显著降低输出质量(见附录 E)
    • 将 \(\gamma\) 设为 0 也会导致性能下降,表明 0 并非最优目标奖励边际
    • 在以下小节中,论文将深入分析这两个设计选择

长度归一化(LN)防止长度利用(Length Normalization (LN) Prevents Length Exploitation)

  • LN 增加所有偏好对的奖励差异,无论其长度如何
    • 公式(5)中的 Bradley-Terry 目标本质上是优化奖励差异 \(\Delta r = r(x,y_w) - r(x,y_l)\),使其超过目标边际 \(\gamma\)
    • 论文研究了从 UltraFeedback 训练集中获胜和失败响应的长度差异 \(\Delta l = |y_w| - |y_l|\) 与学习到的奖励差异之间的关系
    • 论文使用 SFT 模型、SimPO 模型以及未使用长度归一化的 SimPO 模型测量奖励差异(\(r_{\text{SimPO} }\):公式(4))
    • 结果如图 2(a) 所示,论文发现带 LN 的 SimPO 对所有响应对均实现了正的奖励边际,无论其长度差异如何,并且始终比 SFT 模型提高了边际
      • 相比之下,不带 LN 的 SimPO 在获胜响应比失败响应短时会导致负的奖励差异,表明模型对这些实例的学习效果较差
  • 移除 LN 会导致奖励与响应长度强正相关,引发长度利用
    • 图 2(b) 和 2(c) 展示了在保留集上,使用 SimPO 和未使用 LN 的 SimPO 训练的模型的平均对数似然(公式(3)中的 \(p_\theta\))与响应长度的关系
    • 未使用 LN 训练的模型在似然与响应长度之间表现出更强的 Spearman 正相关性,表明其倾向于利用长度偏差生成更长序列(见附录 E)。相比之下,SimPO 的 Spearman 相关系数与 SFT 模型相似(见图 5(a))

The Impact of Target Reward Margin in SimPO

  • \(\gamma\) 对奖励准确性和胜率的影响(Influence of γ on reward accuracy and win rate)
    • 论文研究了 SimPO 中目标奖励边际 \(\gamma\) 对保留集上奖励准确性和 AlpacaEval 2 胜率的影响,结果如图 3(a) 所示。奖励准确性通过偏好对中获胜响应的奖励高于失败响应的比例(即 \(r(x,y_w) > r(x,y_l)\))来衡量。论文观察到,奖励准确性随 \(\gamma\) 的增加而提升,表明强制更大的目标奖励边际能有效提高奖励准确性。然而,AlpacaEval 2 的胜率随 \(\gamma\) 的增加先升后降,说明生成质量并非仅由奖励边际决定
  • \(\gamma\) 对奖励分布的影响(Impact of \(\gamma\) on the reward distribution.)
    • 论文在图 2(b) 和图 2(c) 中可视化不同 \(\gamma\) 值下学习到的奖励边际 \(r(x,y_w) - r(x,y_l)\) 和获胜响应奖励 \(r(x,y_w)\) 的分布
    • 增加 \(\gamma\) 会使分布趋于平坦,并降低获胜序列的平均对数似然
      • 这最初会提升性能,但最终可能导致模型退化
    • 论文假设在设置 \(\gamma\) 值时,需要在准确逼近真实奖励分布和保持良好校准的似然之间进行权衡
      • 这一平衡的进一步探索留待未来工作

In-Depth Analysis of DPO vs. SimPO

  • 本节论文从以下方面比较 SimPO 和 DPO:
    • (1) 似然-长度相关性
    • (2) 奖励公式
    • (3) 奖励准确性
    • (4) 算法效率
    • 论文证明 SimPO 在奖励准确性和效率上优于 DPO
  • DPO 奖励隐含地促进长度归一化(DPO reward implicitly facilitates length normalization)
    • 尽管 DPO 的奖励表达式:
      $$ r(x,y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref} }(y|x)}$$
      • 该表达式(排除配分函数)没有显式的长度归一化项,但策略模型与参考模型之间的对数比可以隐式抵消长度偏差
    • 如表 6 和图 4(a) 所示,使用 DPO 降低了平均对数似然与响应长度之间的 Spearman 相关系数 ,但与 SimPO 相比仍表现出更强的正相关性
      • 注意这一相关性并未完全反映生成长度。尽管 DPO 显示出更强的相关性,但其生成响应的长度与 SimPO 模型相当甚至略短。更多细节见附录 E
  • DPO 奖励与生成似然不匹配(DPO reward mismatches generation likelihood)
    • DPO 的奖励公式为:
      $$ r_\theta(x,y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref} }(y|x)}$$
    • 该奖励公式与直接影响生成的平均对数似然度量存在差异:
      $$ p_\theta(y|x) = \frac{1}{|y|} \log \pi_\theta(y|x)$$
    • 如图 4(b) 所示,在 UltraFeedback 训练集中满足 \(r_\theta(x,y_w) > r_\theta(x,y_l)\) 的实例中,近一半的偏好对满足 \(p_\theta(y_w|x) < p_\theta(y_l|x)\)
    • 相比之下,SimPO 直接使用平均对数似然(按 \(\beta\) 缩放)作为奖励表达式,完全消除了这种差异(见图 4(b))
  • DPO 在奖励准确性上落后于 SimPO(DPO lags behind SimPO in terms of reward accuracy)
    • 在图 4(c) 中,论文比较了 SimPO 和 DPO 的奖励准确性,评估它们最终学习到的奖励与保留集上偏好标签的匹配程度
    • SimPO 始终比 DPO 取得更高的奖励准确性,表明论文的奖励设计有助于更好地泛化,从而生成更高质量的响应
  • SimPO 和 DPO 的 KL 散度(KL divergence of SimPO and DPO)
    • 在图 5(a) 中,论文展示了在不同 \(\beta\) 下,使用 DPO 和 SimPO 训练的策略模型与参考模型在保留集获胜响应上的 KL 散度
    • 图 5(b) 展示了相应的 AlpacaEval 2 LC 胜率
    • 尽管 SimPO 未对参考模型应用任何形式的正则化,但其 KL 散度保持在合理较低水平
    • 增加 \(\beta\) 会降低 DPO 和 SimPO 的 KL 散度,其中 DPO 在较高 \(\beta\) 值时下降更明显
    • 在此特定设置(Mistral-base)中,图 5(b) 显示较小的 \(\beta\) 可以提升 AlpacaEval 2 性能,尽管 KL 散度更高
      • 论文观察到在某些设置(如 Llama-3-Instruct)中,较大的 \(\beta\)(如 \(\beta=10\))会带来更好的性能
      • 论文假设当参考模型较弱时,严格约束策略模型可能无益
    • 需要注意的是,尽管在适当调参下论文未观察到训练崩溃或退化,但 SimPO 理论上可能在没有显式正则化的情况下导致奖励破解(reward hacking) ,此时模型可能损失很低但生成结果退化
  • SimPO 比 DPO 更节省内存和计算资源(SimPO is more memory and compute-efficient than DPO)
    • SimPO 的另一优势是其高效性,因为它不使用参考模型
    • 图 5(c) 展示了在 Llama-3-Base 设置下,使用 8xH100 GPU 时 SimPO 和 DPO 的总体运行时间和单 GPU 峰值内存使用情况
    • 与普通 DPO 实现相比,SimPO 通过消除参考模型的前向传递,减少了约 20% 的运行时间和 10% 的 GPU 内存使用
      • 如果将参考模型的前向传递与实际偏好优化分离,DPO 也能实现与 SimPO 相当的内存效率,但这一实现并非标准做法

Related Work

RLHF

  • RLHF 是一种将 LLM 与人类偏好和价值观对齐的技术(2017; 2019; 2022)
  • 经典的 RLHF 流程通常包含三个阶段:
    • 监督微调(2021; 2023)
    • 奖励模型训练(2023; 2024)
    • 策略优化(2017)
  • 近端策略优化(Proximal Policy Optimization, PPO)(2017)是 RLHF 第三阶段广泛使用的算法
  • RLHF 框架还被应用于多种任务,例如减少毒性(2023)、确保安全性(2023)、提升帮助性(2024)以及增强模型推理能力(2024)
  • 近期研究(2023)指出,RLHF 从数据收集到模型训练的整个流程存在挑战
  • 此外,RLHF 可能导致模型生成冗长输出(2023; 2024),这一问题也引发了广泛关注

Offline vs. Iterative Preference Optimization

  • 由于在线偏好优化算法复杂且难以优化(2023),研究者开始探索更高效的离线算法
  • 直接偏好优化(Direct Preference Optimization, DPO)(2023)是一个典型代表
  • 但 DPO 缺乏显式的奖励模型,限制了其从最优策略中采样偏好数据的能力
  • 为解决这一问题,研究者尝试通过训练监督微调策略(2023)或结合拒绝采样的改进策略(2024)生成偏好数据,使策略能够从最优策略生成的数据中学习
  • 进一步研究将这种方法扩展到迭代训练框架(2024; 2024)
  • 论文专注于离线设置 ,避免任何迭代训练过程

Preference Optimization Objectives

  • 除 DPO 外,研究者还提出了多种偏好优化目标
    • 排序目标支持对多个实例进行比较(2023; 2024)
  • 另一类研究探索了不依赖参考模型的简化目标(2024),与 SimPO 类似
    • (2024)提出了一种联合优化指令和响应的方法,发现其能有效改进 DPO
    • (2024)专注于在监督微调和对齐模型之间进行后训练外推,以进一步提升模型性能
  • 论文对比了 SimPO 与一系列离线算法,包括 RRHF(2023)、SLiC-HF(2023)、DPO(2023)、IPO(2023)、CPO(2024)、KTO(2024)、ORPO(2024)和 R-DPO(2024),发现 SimPO 在效率和性能上均优于它们
  • 近期 GPO(Generalized Preference Optimization,2024)提出了一个统一不同离线算法的广义偏好优化框架,而 SimPO 可视为其特例

附录 A Limitations

  • 更深入的理论分析(More in-depth theoretical analysis) :
    • 尽管 SimPO 在实验上取得了成功,但仍需更严格的理论分析以全面理解其有效性
    • 此外,SimPO 引入了目标奖励间隔这一超参数,需手动调整
    • 未来工作可探索如何自动确定最优间隔,并提供更理论化的解释
  • 安全性与诚实性(Safety and honesty) :
    • SimPO 旨在通过优化生成质量来提升模型性能,但未显式考虑安全性和诚实性,而这在实际应用中至关重要
    • 未来研究可将安全性和诚实性约束整合到 SimPO 中,确保生成内容既高质量又安全可靠
    • 论文使用的数据集 UltraFeedback 主要关注有帮助性,未来的研究可以做更全面的研究(如考虑利用大规模偏好数据和更强调安全性的评估基准)
    • 尽管如此,作者观察到在数据集 TruthfulQA 上,SimPO 方法一致优于表9中的其他方法,这显示了 SimPO 在安全性对齐方面的潜力
  • 数学任务性能下降(Performance drop on math) :
    • 论文发现偏好优化算法通常会降低下游任务性能 ,尤其是在数学推理密集型(reasoning-heavy)任务(如 GSM8K)上(正如表9所展示的那样)
    • SimPO 的表现有时与 DPO 相当或更差
      • 这可能与训练数据集的选择、超参数设置或评估模板不匹配有关
      • 一种解释是偏好优化目标可能在提升偏好序列的似然上没有效果(尽管提升了奖励间隔(Reward margin))
    • (2024)首次观察到这一现象,并指出这可能妨碍从修改一个 Token 就发生翻转(flip)的数学偏好对中学习(比如将 2 + 2 = 4 修改为 2 + 2 = 5)
      • 该工作提出通过添加参考模型校准的监督微调损失来缓解问题
      • 未来工作可将此策略整合到 SimPO 中,以提升数学推理任务的性能

附录 B Implementation Details

  • 论文发现超参数调优对偏好优化方法的性能至关重要,但其重要性在先前研究中可能被低估,导致基线结果未达最优
    • 为确保公平对比,论文为所有方法进行了全面的超参数调优
  • 通用训练超参数(General training hyperparameters) :
    • 在基础训练设置中,论文使用 UltraChat-200k 数据集(2023)训练监督微调模型
      • 学习率为 2e-5
      • 批量大小为 128
      • 最大序列长度为 2048
      • 采用余弦学习率调度
      • 预热步数为 10%
      • 训练 1 个 epoch
      • 所有模型均使用 Adam 优化器(2014)
    • 在偏好优化阶段,论文通过初步实验搜索批量大小(32、64、128)和训练周期(1、2、3)
      • 作者发现批量大小为 128 和单周期(epoch=1)训练通常能带来最佳结果
      • 因此,论文将这些值固定用于所有偏好优化实验
      • 此外,设置最大序列长度为 2048,并在偏好优化数据集上应用 10% 预热步数的余弦学习率调度
  • 方法特定超参数(Method-specific training hyperparameters) :
    • 论文注意到不同偏好优化方法的最佳学习率差异较大 ,且显著影响基准性能
    • 因此,论文为每种方法单独搜索学习率(3e-7、5e-7、6e-7、1e-6)
    • 表 7 展示了基线方法的超参数搜索范围
    • 表 8 列出了 SimPO 在各设置下的超参数值
  • 解码超参数(Decoding hyperparameters) :
    • 在 AlpacaEval 2 中,论文采用采样解码策略
      • 温度设置为 0.7(Mistral-Base)
      • 0.5(Mistral-Instruct)
      • 0.9(Llama 3)
    • 在 Arena-Hard 中,所有设置和方法均使用贪婪解码
    • 在 MT-Bench 中,遵循官方解码配置,为不同类别定义不同的采样温度
  • 计算环境(Computation environment) :
    • 论文所有训练实验均在 8 块 H100 GPU 上完成,基于 alignment-handbook 代码库实现

附录 C:Downstream Task Evaluation

  • 为了研究偏好优化方法如何影响下游任务性能,论文在 Huggingface Open Leaderboard (2023) 列出的多个任务上评估了不同方法训练的模型
  • 这些任务包括 MMLU (2020)、ARC (2018)、HellaSwag (2019)、TruthfulQA (2022)、Winograd (2012) 和 GSM8K (2021)
  • 论文遵循既定的评估协议,所有模型的结果如表 9 所示
    • 总体而言,论文发现偏好优化对不同任务的影响各不相同
  • 知识保留度高,损失小(Knowledge is largely retained with a small loss) :
    • 与监督微调(Supervised Fine-Tuned, SFT)检查点相比,所有偏好优化方法通常能保持 MMLU 性能,仅有小幅下降
    • 在这方面,SimPO 与 DPO 基本相当
  • 阅读理解和常识推理能力提升(Reading comprehension and commonsense reasoning improves) :
    • 对于 ARC 和 HellaSwag,偏好优化方法通常比 SFT 检查点表现更好
    • 一种假设是偏好优化数据集中包含与这些任务类似的提示,这有助于模型更好地理解上下文,提升阅读理解和常识推理能力
  • 真实性提高(Truthfulness improves) :
    • 令人惊讶的是,论文发现偏好优化方法能持续提升 TruthfulQA 性能,某些情况下提升幅度超过 10%
    • 同样,论文假设偏好数据集中包含强调真实性的实例,这有助于模型更好地理解上下文并生成更真实的回答
  • 数学性能下降(Math performance drops) :
    • GSM8K 是不同方法间表现波动最大的基准
    • 值得注意的是,除了 ORPO,几乎所有方法在一个或多个设置中都会导致性能下降
      • 论文假设 ORPO 能保持性能主要是因为其监督微调损失起到了调节作用
    • (2024) 的研究表明,在偏好优化目标中加入基于参考模型的监督微调损失可以有效解决这一问题,并保持数学任务上的性能
  • 总体而言,下游性能的模式难以确定
    • 由于使用了不同的预训练模型、偏好优化数据集和目标,进行全面分析较为困难
    • 近期研究表明,基于梯度的方法可能有助于找到与下游任务相关的数据 (2024),未来或可扩展用于理解偏好优化的影响
    • 作者认为,未来需要对偏好优化如何影响下游性能进行更严谨和全面的研究

附录 D:AlpacaEval 2 和 Arena-Hard 的标准差 (Standard Deviation of AlpacaEval 2 and Arena-Hard)

  • 论文在表 10 中展示了 AlpacaEval 2 的标准差和 Arena-Hard 的 95% 置信区间
    • 所有指标均合理,未出现显著异常或不稳定情况

附录 E:Generation Length Analysis

  • 长度归一化减少生成长度并提升生成质量(Length normalization decreases generation length and improves generation quality)
    • 从 SimPO 目标中移除长度归一化(Length Normalization, LN)会得到类似于对比偏好优化(Contrastive Preference Optimization, CPO)(2024) 的方法
      • CPO 在机器翻译中表现优异
    • 然而,如果没有监督微调损失 ,未使用长度归一化的奖励最大化目标在偏好优化中效果较差
    • 论文分析了在 AlpacaEval 2 和 Arena-Hard 上使用或不使用长度归一化训练的模型的生成长度
    • 如图 6 所示:
      • 长度归一化显著减少了生成长度,降幅高达 25%
      • 尽管生成长度更短,但使用长度归一化的模型在两个基准上的胜率显著更高
      • 这表明长度归一化能有效控制生成响应的冗余性,同时提升生成质量
  • 长度并非生成质量的可靠指标(Length is not a reliable indicator of generation quality)
    • 论文进一步分析了不同方法训练的模型在 AlpacaEval 2 和 Arena-Hard 上的生成长度,如表 10 所示
    • 总体而言,论文发现没有一种方法能在所有设置中一致生成更长或更短的响应
    • 此外,某些方法可能生成更长的响应,但未必在基准上取得更高的胜率
    • 这表明生成响应的长度并不能可靠反映生成质量
  • SimPO 对响应长度的利用最小化(SimPO demonstrates minimal exploitation of response length.)
    • 论文观察到,在 Llama-3-Instruct 案例中 ,SimPO 的生成长度比 DPO 更短 ,但在其他设置中生成长度更长
      • 在 AlpacaEval 2 上最多长出 26%
      • 在 Arena-Hard 上仅长约 5%
    • 可以说,生成长度很大程度上取决于评估基准
    • 更强的指标是 SimPO 在 AlpacaEval 2 上的长度控制胜率始终高于原始胜率 ,表明其对响应长度的利用最小化

附录 F:Gradient Analysis

  • 作者检查了 SimPO 和 DPO 的梯度,以理解它们对训练过程的不同影响:
    $$
    \nabla_{\theta}\mathcal{L}_{\text{SimPO} }(\pi_{\theta})=-\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[s_{\theta}\cdot\left(\underbrace{\frac{1}{|y_{w}|}\nabla_{\theta}\log\pi_{\theta}(y_{w}|x)}_{\text{increase likelihood on } y_w }-\underbrace{\frac{1}{|y_{l}|}\nabla_{\theta}\log\pi_{\theta}(y_{l}|x)}_{\text{decrease likelihood on } y_l}\right)\right], \\
    \nabla_{\theta}\mathcal{L}_{\text{DPO} }(\pi_{\theta})=-\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[d_{\theta}\cdot\left(\underbrace{\nabla_{\theta}\log\pi_{\theta}(y_{w}|x)}_{\text{increase likelihood on } y_w }-\underbrace{\nabla_{\theta}\log\pi_{\theta}(y_{l}|x)}_{\text{decrease likelihood on } y_l }\right)\right],
    $$
  • 其中:
    $$
    s_{\theta}=\sigma\left(\frac{\beta}{|y_{l}|}\log\pi_{\theta}(y_{l}|x)-\frac{\beta}{|y_{w}|}\log\pi_{\theta}(y_{w}|x)+\gamma\right), \quad d_{\theta}=\sigma\left(\beta\log\frac{\pi_{\theta}(y_{l}|x)}{\pi_{\text{ref} }(y_{l}|x)}-\beta\log\frac{\pi_{\theta}(y_{w}|x)}{\pi_{\text{ref} }(y_{w}|x)}\right)
    $$
    • 分别表示 SimPO 和 DPO 中的梯度权重
  • 可以看出差异有两方面:
    • (1) 比较梯度权重 \(s_{\theta}\) 和 \(d_{\theta}\)
      • SimPO 的梯度权重 \(s_{\theta}\) 不涉及参考模型,且具有直观解释:对于策略模型错误地为 \(y_l\) 分配比 \(y_w\) 更高似然的样本,权重会更高;
    • (2) 比较梯度更新
      • SimPO 对 \(y_l\) 和 \(y_w\) 的梯度进行了长度归一化,而 DPO 没有
      • 这与实证发现 (2024) 一致:DPO 可能利用数据中的长度偏差 ,更长的序列会因包含更多 token 而在 DPO 中获得更大的梯度更新 ,从而主导训练过程

附录 G:Qualitative Analysis

  • 论文在图 7 和图 8 中分别展示了 Mistral-Base 和 Mistral-Instruct 在 AlpacaEval 2 和 Arena-Hard 上的胜率热图
  • 基于此分析,论文在 AlpacaEval 2 上展示了 SimPO 模型、DPO 模型和基线模型 GPT-4-Preview-1106 生成的响应示例
  • 比较 SimPO 与 DPO
    • 在图 9 和图 10 中,论文展示了一个案例,其中 Mistral-Base-SimPO 生成的答案比 Mistral-Base-DPO 结构更好
      • 给定问题“如何判断一个人对对话是真正感兴趣还是仅仅出于礼貌?”,DPO 模型生成了一长串要点,使得不同点之间的关系难以理解
      • 相比之下,SimPO 模型生成了一个结构良好的答案,首先对不同行为进行了高层分类,随后为每个类别提供了详细建议,使得答案更易读和理解
  • 比较使用 SimPO 训练的 Instruct 模型与 Base 模型 :
    • 在图 11 中,论文展示了一个案例,其中 Llama-3-Instruct 生成的答案比基线模型以及 Llama-3-Base-SimPO 模型更详细且格式更好
    • 对于问题“阿根廷人说什么语言?”,Llama-3-Base-SimPO 仅给出了非常简短的答案
    • GPT-4-Preview-1106 的答案更详细,解释了阿根廷西班牙语与标准西班牙语的区别,但格式不够清晰,解析稍难
    • Llama-3-Instruct-SimPO 提供了详细且格式良好的答案,更易阅读和理解,同时提供了足够的细节

附录 H:Llama-3-Instruct v0.2 (Jul 7, 2024))

  • 本节论文更新了 Llama-3-Instruct 的实验设置,主要改进是使用更强的奖励模型(reward model)来标注生成的偏好数据
  • 更强的奖励模型显著提升效果(Enhanced reward model yields significantly better results)
    • 在之前的版本中,论文使用 PairRM(2023)作为奖励模型对生成的候选回答进行排序
    • 表 12 的结果显示,将排序数据的奖励模型从 PairRM 替换为 ArmoRM(2024)后,模型性能显著提升
    • 这凸显了高质量偏好优化数据对性能的重要性
    • SimPO 在 AlpacaEval 2 上的长度控制胜率(LC win rate)达到 53.7%,在 Arena-Hard 上达到 36.5%,分别比前一版本提升了 9.0 和 2.7 个百分点
  • 论文在 Llama-3-Instruct v0.2 设置下为 SimPO 使用了以下超参数:
    • \(\beta=10\) 和 \(\gamma=3\)
    • 其他超参数(如学习率、批量大小、最大序列长度)与原始 Llama-3-8B-Instruct 设置保持一致
  • 强大的 SFT 模型和高质量策略数据缩小了算法差异(Strong SFT model and high-quality policy data diminish algorithm differences)
    • 当使用像 Llama-3-8B-Instruct 这样强大的 SFT 模型,并且偏好优化数据质量提高时,不同算法之间的差异变得不那么明显
    • 例如,DPO 在原始胜率(raw win rate)上与 SimPO 表现接近,而 DPO、IPO 和 R-DPO 在 Arena-Hard 上的原始胜率也相当
    • 然而,SimPO 仍保持优势,生成的序列更短,因此在 AlpacaEval 2 上的长度控制胜率显著更高
  • 下游任务表现更强(Stronger downstream task performance)
    • v0.2 版本在各种目标下的下游任务中也表现出更好的性能
    • 不过,DPO、IPO、R-DPO 和 SimPO 在数学推理密集型任务(如 GSM8K)上仍然存在性能下降
    • 相比之下,包含 SFT 组件的目标在数学任务上保持了更好的表现
  • 在 SimPO 中加入 SFT 正则化(Incorporating SFT regularization in SimPO)
    • 一些无需参考模型(reference-free)的算法(如 RRHF(2023)、SLiC-HF(2023)、CPO(2024)和 ORPO(2024))在其目标中使用了 SFT 正则化
    • SFT 正则化是防止奖励破解(reward hacking)的有效方法,可以确保模型在保持低损失的同时不会生成质量下降的结果
    • 论文也在 SimPO 中尝试加入 SFT 损失,得到以下目标函数:
      $$
      \mathcal{L}_{\text{SimPO w/ SFT} }(\pi_{\theta})=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[\log\sigma\left(\frac{\beta}{|y_{w}|}\log\pi_{\theta}(y_{w}|x)-\frac{\beta}{|y_{l}|}\log\pi_{\theta}(y_{l}|x)-\gamma\right)\color{red}{+\lambda\log\pi_{\theta}(y_{w}|x)}\right].
      $$
    • 如表 14 所示,加入 SFT 正则化后,模型在 AlpacaEval 2 上的性能有所下降
    • 但论文发现 SFT 正则化对某些任务(如 GSM8K)有显著帮助(见表 12)
    • 这些结果表明,SFT 在偏好优化中的作用可能因训练设置和任务性质而异
    • 更全面的研究留待未来进行

附录 I:Applying Length Normalization and Target Reward Margin to DPO (Jul 7, 2024))

  • 论文发布后,有研究者提出疑问:SimPO 的两个关键设计(长度归一化(length normalization)和目标奖励间隔(target reward margin))是否也能提升 DPO 的效果?为此,论文推导了以下两个目标函数:
    $$
    \mathcal{L}_{\text{DPO w/ LN} }(\pi_{\theta};\pi_{\text{ref} })=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[\log\sigma\left(\frac{\beta}{|y_{w}|}\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\text{ref} }(y_{w}\mid x)}-\frac{\beta}{|y_{l}|}\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\text{ref} }(y_{l}\mid x)}\right)\right]. \\
    \mathcal{L}_{\text{DPO w/ }\gamma}(\pi_{\theta};\pi_{\text{ref} })=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\text{ref} }(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\text{ref} }(y_{l}\mid x)}-\gamma\right)\right].
    $$
    • 直观上,长度归一化可能对 DPO 有帮助,因为尽管 DPO 的奖励设计通过参考模型隐式归一化,但策略模型仍可能从数据中利用长度偏差,导致对较长序列赋予过高的概率
      • 长度归一化可以缓解这一问题
  • 论文使用上述目标训练模型,并与 DPO 和 SimPO 的性能进行比较(见表 15)
  • 结果表明,与 SimPO 不同,长度归一化和目标奖励间隔并不能一致地提升 DPO
  • 具体来说,长度归一化仅在 Mistral-Base 设置中显著提升 DPO 性能(该设置的偏好优化数据存在明显的长度偏差),但在 Mistral-Instruct 设置中无益(因为胜负响应的长度相近)
    • 这可能是因为 DPO 已通过参考模型隐式实现了实例级的目标奖励间隔,如下式所示:
      $$
      \begin{align}
      \mathcal{L}_{\text{DPO} }&= \log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\text{ref} }(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\text{ref} }(y_{l}\mid x)}\right) \\
      &= \log\sigma\bigg(\beta\log\pi_{\theta}(y_{w}\mid x)-\beta\log\pi_{\theta}(y_{l}\mid x)-\underbrace{\left(\beta\log\pi_{\text{ref} }(y_{w}\mid x)-\beta\log\pi_{\text{ref} }(y_{l}\mid x)\right)}_{=\gamma_{\text{ref} } }\bigg).
      \end{align}
      $$

附录 J:Applying SimPO to Gemma 2 Models (Sept 16, 2024)

  • Llama-3-SimPO 模型在其他基准测试上的性能下降(Performance degradation on other benchmarks for Llama-3-SimPO checkpoints)
    • 在发布 Llama-3-SimPO 模型后,论文收到大量反馈,指出其在特定能力测试(如 MMLU 和 GSM8K)上的性能下降
    • 为了研究这一问题,论文继续用不同学习率训练 Llama-3-8B-Instruct 模型(见表 16)
    • 论文发现,使用较高的学习率会增强模型在聊天类基准上的表现,但会牺牲 GSM8K 和 MMLU 的性能
      • We evaluate the zero-shot performance of the models on GSM8K and MMLU using the ZeroEval repository which adopts a unified setup
    • 而较低的学习率能略微降低聊天基准的性能,但更好地保留了 GSM8K 和 MMLU 的表现
    • 这表明,在基于强大的指令微调模型继续训练时,需要在聊天基准和其他基准之间权衡
  • 将 SimPO 应用于 Gemma 2 模型呈现不同趋势(Applying SimPO to Gemma 2 models persents a different trend)
    • 论文使用谷歌最新发布的 Gemma-2-9B-it 模型(2024)评估 SimPO
    • 对于训练数据,论文从 UltraFeedback 数据集(2024)中为每个提示生成最多 5 个回答,并使用 ArmoRM 模型(2024)标注偏好
    • 论文将 SimPO 与基于 Gemma-2-9B-it 微调的 DPO 变体进行比较
    • 如表 17 所示,SimPO 在 AlpacaEval 2 和 Arena-Hard 等聊天基准上表现更优,同时保持了模型在 GSM8K 和 MMLU 等任务上的零样本能力
    • 值得注意的是,论文发现微调时调整学习率对模型性能影响很小
    • 这些结果表明,Llama-3 和 Gemma 2 的模型存在内在差异,值得进一步研究
  • Gemma-2-9B-it-SimPO 显著提升了原模型在 Chatbot Arena 的排名(Gemma-2-9B-it-SimPO significantly improved the ranking of the Gemma-2-9B-it model on Chatbot Arena)
    • 在开发阶段,论文仅依赖自动化指标评估模型性能
    • 为了验证这些指标是否与真实用户偏好一致,论文将表现最佳的 Gemma-2-9B-it-SimPO 模型提交至 LMSYS 的 Chatbot Arena 排行榜(2024)
    • 结果显示,论文的模型将原 Gemma-2-9B-it 的排名从第 36 位提升至第 25 位,使其成为截至 2024 年 9 月 16 日用户投票排名最高的 10B 以下模型

NLP——LLM对齐微调-TIS

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始博客:(TIS)Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, 20250805-20251013
      • 博客最早发表于 20250805,目前还在持续更新,最近一次更新为 20251013
    • TIS,即 Truncated Importance Sampling

Blog Summary

  • 在现代强化学习训练框架(例如 VeRL)中, rollout 生成(例如使用 vLLM)和模型训练(例如使用 FSDP)采用了不同的实现方式
  • 博客揭示了这种 实现差距(implementation gap) 如何隐式地将 On-policy 强化学习转变为 Off-policy,并讨论了一种简单而有效的重要性采样技术来处理这种差异

The Mismatch Problem

  • 为简单起见,博客以 REINFORCE 算法为例,该算法本应通过以下方式更新策略,即一个由 \(\theta\) 参数化的大语言模型:
    $$
    \theta \leftarrow \theta + \mu \cdot \mathbb{E}_{\underbrace{a \sim{\pi}(\theta)}_{\color{red}{\text{rollout}}}} [R(a)\cdot \underbrace{\nabla_\theta \log {\pi}(a, \theta)}_{\color{blue}{\text{training}}}].
    $$
  • 在实践中,rollout 生成成本高昂,现代强化学习框架(例如 VeRL)通常采用高度优化的推理引擎(例如 vLLM, SGLang)来提高吞吐量,同时使用单独的后端(例如 FSDP, Megatron)进行模型训练。这种混合设计使得更新变为:
    $$
    \theta \leftarrow \theta + \mu \cdot \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} [R(a)\cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)].
    $$
    • \(\color{red}{\pi_{\text{sampler} }}\) 代表加载了推理引擎(例如 vLLM, SGLang)的模型
    • \(\color{blue}{\pi_{\text{learner} }}\) 代表用训练后端(例如 FSDP, Megatron)实例化的同一模型
    • 除非特别说明,博客的实验使用 vLLM 和 FSDP 作为 Sampler 和 Learner 后端
  • 可以观察到意外的 rollout-training 不匹配
    • 如图 1 所示,尽管 \(\color{blue}{\pi_{\text{fsdp}} }\) 和 \(\color{red}{\pi_{\text{vllm} }}\) 共享相同的模型参数 \(\theta\),它们可以产生 显著不同的 Token 概率
    • 对于某些 Token \(a\),它们甚至产生矛盾的预测,例如 \(\color{red}{\pi_{\text{vllm} }}(a, \theta) = 1\) 和 \(\color{blue}{\pi_{\text{fsdp}} }(a, \theta) = 0\)
      • 理解:图 1 左图中的最大差异为 1 的地方就是这样
    • 这种意外行为隐式地破坏了 On-policy 假设,秘密地使强化学习训练变成了 Off-policy
  • 图 1:
    • 左图:由不匹配问题带来的 Token 概率差异(图中横轴是训练步骤,纵轴是差异的 最大值或平均值等)
    • 右图:正常 RL 训练与修复不匹配问题后训练的性能比较
    • 实验在 Qwen2.5-32B Dense 模型上进行,使用了 4 个节点,每个节点 8 张 H100 GPU

How to Fix It?

Mitigate the system-level mismatch(缓解系统级不匹配 )

  • 更高精度的 vLLM 有帮助吗?博客首先假设 vLLM 是根本原因,因此博客修补了 vLLM 以解决两个常被怀疑导致不匹配问题的因素
    • 无法访问的真实采样概率(Inaccessible true sampling probabilities) :vLLM v1 引擎不支持直接返回用于采样的调整后概率,这引入了额外的差距
      • 博客的补丁强制 vLLM 返回用于采样的实际概率 [非流式]
    • 后端数值差异(Backend numerical differences) :vLLM 的 im_head 精度与 HuggingFace transformers 不匹配,这在 MinMax-M1 技术报告中也有提及
      • 博客的补丁提供了强制 vLLM 将 im_head 转换为 fp32 的选项
  • 如图 1 左图所示,在应用了两个补丁之后,不匹配问题仍然存在

Embrace the mismatch — Apply algorithm-level fix(接受不匹配 and 应用算法级修复 )

  • 与其在系统层面缓解分布不匹配,博客建议调整模型更新,使其意识到这种不匹配
  • 一个简单的方法是通过重要性采样校正
    • 具体来说,博客通过添加重要性权重比来处理 \(\color{blue}{\pi_{\text{learner} }}\) 和 \(\color{red}{\pi_{\text{sampler} }}\) 之间的不匹配,即将当前的梯度计算从:
      $$
      \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} [R(a)\cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)],
      $$
    • 改为:
      $$
      \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \Bigl[\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)} \cdot R(a)\cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)\Bigr].
      $$
  • 尽管已有大量研究关于如何设计稳定有效的重要性采样,但在实践中博客发现通常使用一种经典技术就足够了,即截断重要性采样(Truncated Importance Sampling, TIS):
    $$
    \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \Bigl[\underbrace{\min\Bigl(\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)}, C\Bigr)}_{\text{truncated importance ratio}} \cdot R(a) \cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)\Bigr],
    $$
    • 其中 C 是一个超参数
    • 注意:这里仅针对单向进行截断(对上界进行截断),详细讨论见下文

Extension to Other Algorithms

  • 将上述分析扩展到其他算法是直接的,因为可以将梯度计算的确切形式从 REINFORCE \( R(a) \cdot \nabla \log \pi (a, \theta) \) 切换到任何形式
    • 这里,博客以常用的 PPO 算法为例进行类似的分析
  • PPO 的策略梯度 \(\nabla_{\theta} L^\text{CLIP}(\theta)\) 定义为:
    $$
    \small{ \mathbb{E}_{a\sim\pi_{\theta_{\mathrm{old}}}}
    \Bigl[
    \nabla_\theta \min\Bigl(
    \frac{\pi_\theta(a)}{\pi_{\theta_{\mathrm{old}}}(a)}\hat A,
    \mathrm{clip}\bigl(\frac{\pi_\theta(a)}{\pi_{\theta_{\mathrm{old}}}(a)},1-\epsilon,1+\epsilon\bigr)\hat A
    \Bigr)
    \Bigr]}.
    $$
  • 为了提高吞吐量,混合强化学习系统采用 vLLM 引擎进行 rollout 生成(从 \(\pi_{\theta_{old} }\) 采样 Token a),同时使用 FSDP 后端既从 \(\pi_{\theta}\) 采样(注:这里应该是表达错误,这里仅仅是在计算概率值,不会真的进行采样了),又为 \(\pi_{\theta_{old} }\) 重新计算 Token 概率以进行梯度计算:
    $$
    \small{
    \mathbb{E}_{a\sim\color{red}{\pi_{\text{sampler}}}(\theta_{\mathrm{old}})}
    \Bigl[
    \nabla_\theta \min\Bigl(
    \frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{blue}{\pi_{\text{learner}}}(a, \theta_{\mathrm{old}})}\hat A,
    \mathrm{clip}\bigl(\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{blue}{\pi_{\text{learner}}}(a, \theta_{\mathrm{old}})},1-\epsilon,1+\epsilon\bigr)\hat A
    \Bigr)
    \Bigr]
    }.
    $$
    • 注意,对 vLLM 引擎通过 \(\pi_{\theta_{old} }\) rollout 到的样本,还要经过 以 FSDP 为引擎的 \(\color{blue}{\pi_{\text{learner}}}\) 来对 \(\pi_{\theta_{old} }\) 重新计算概率,从而得到 \(\color{blue}{\pi_{\text{learner}}}(a, \theta_{\mathrm{old}})\)
  • 与上述分析类似,\(\color{blue}{\pi_{\text{learner} }}\) 和 \(\color{red}{\pi_{\text{sampler} }}\) 之间的差距再次出现,博客使用截断重要性采样来修复它:
    $$
    \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }}(\theta_{old})} \left[ \underbrace{\min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}, C \right)}_{\text{truncated importance ratio}} \cdot \nabla_{\theta} \min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})} \hat{A}, \text{ clip} \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}, 1 - \epsilon, 1 + \epsilon \right) \hat{A} \right) \right]
    $$
    • 其中 \(C\) 是一个超参数
Additional Discussion on PG, Sequence, and Token
  • 上面的讨论没有涉及状态和行动的具体形式化
  • 博客作者之前还讨论了 Token-level 和 Sequence-level 的策略梯度,它们如何相互关联,以及 learner-sampler 不匹配的影响,下面是参考链接:
    • Policy Gradient, Sequence, and Token — Part I: Basic Concepts
    • Policy Gradient, Sequence, and Token — Part II: Learner-Sampler Mismatch

Connection to Classical Wisdom(智慧)

Importance Sampling
  • 当直接蒙特卡洛估计目标分布下的期望值很困难时,重要性采样允许博客从另一个分布中采样
  • 在博客的案例中,目标分布是 \(\color{blue}{\pi_{\text{learner} }}\),但从中采样非常慢
  • 使用单独的后端(例如 vLLM)进行 rollout 生成意味着博客是从 \(\color{red}{\pi_{\text{sampler} }}\) 中采样
  • 然后通过用重要性权重比对每个样本进行加权来校正差异:
    $$
    \mathbb{E}_{a \sim \color{blue}{\pi_{\text{learner}}}(\theta)} [R(a)]
    = \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \left[
    \underbrace{\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)}}_{\tiny\text{importance ratio}} \cdot R(a)
    \right].
    $$
Decoupled PPO
  • 解耦 PPO 是使用重要性采样来弥合 rollout 生成和梯度计算之间差距的一个特例,它已被诸如 AReaL 之类的异步强化学习框架采用
  • AReaL 没有像博客这里讨论的那样实现截断重要性权重比
    • 如果重要性权重比超过预定义的阈值,AReaL 会完全丢弃训练样本

Experiments

  • 博客进一步进行了实证分析,以阐述分布差距的影响以及所提出的截断重要性采样(TIS)修复的有效性

Does the gap matter a lot?

  • 博客使用 Qwen2.5-32B Dense 模型和流行的 DAPO 配方进行实验;数据按照社区指南进行处理,得到的结果如图 1 所示
  • 由于资源限制,博客只完成了训练的前 250 步,但意识到差距的修复方法 TIS 已经显著提升了性能
  • 由于这两个运行之间唯一的区别是引入的项,即 \(\min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}, C \right)\),这一改进展示了分布差距的潜在影响

How well can TIS fix it?(TIS 能修复多少?)

  • 博客设计了一个受控实验来衡量 TIS 修复问题的效果
    • 按照 verl 教程中的 GSM8K 示例进行 RL 训练,并使用两种不同的设置:
      • 1)正常 RL 训练:最大 Token 概率差相当小(约 0.4),比之前的设置(在 Qwen-2.5-32B Dense 模型上的 DAPO 为 1.0)要小
      • 2)使用 INT8 量化 rollouts 而非 bf16 rollouts 的 RL 训练:最大 Token 概率差相当大(1.0),比正常 RL 训练大
    • 博客在设置 1 中进行常规 PPO 训练,这“几乎”是 On-policy 的;
    • 在设置 2 中同时进行常规 PPO 训练和带有截断重要性采样的 PPO 训练,其生成 rollout 和梯度计算有更大的差距
  • 如图 2 所示
    • 与设置 1 中的 PPO 相比,在设置 2 中执行 PPO 会导致显著的性能下降
    • 同时,应用截断重要性采样成功地大大缓解了差距,有效地使设置 2 的运行达到了与设置 1 相似的性能
    • 更多分析在下面的 TIS 分析 部分提供
  • 图 2:
    • 左图:Token-level 概率差异
    • 右图:在 GSM8K 上正常 RL 训练和使用 INT8 量化 rollouts 的 RL 训练的性能比较
    • 实验在 Qwen2.5-0.5B Dense 模型上进行,使用一个节点(4 张 A6000 GPU)

Does TIS always help?

  • 图 3:
    • 左图:由不匹配问题带来的 Token 概率差异
    • 右图:正常 RL 训练与修复不匹配问题后的性能比较
    • 实验在 DeepSeek-R1-Distill-Qwen-1.5B 模型上进行,使用 4 个节点,每个节点 8 张 H100 GPU
    • 在这种情况下,不匹配并不大,因为博客在两次运行中都使用了标准的 bfloat16 rollout 并且模型相对较小
  • 博客还观察到,在概率差异相对较小的情况下,引入额外的截断重要性采样项不能带来性能提升
  • 同时,值得一提的是,在严格的 On-policy 强化学习设置中,重要性采样权重比项的值将为 1.0

TIS Analysis

Analysis about different TIS-Variants

  • 博客总结了两种缓解分布差距的替代方案
  • PPO 重要性采样 (PPO Importance Sampling, PPO-IS)
    $$
    \small{ \mathbb{E}_{a\sim\color{red}{\pi_{\mathrm{sampler}}}(\theta_{\mathrm{old}})}\Bigl[\nabla_{\theta}\min\Bigl( \frac{\color{blue}{\pi_{\mathrm{learner}}}(a, \theta)}{\color{red}{\pi_{\mathrm{sampler}}}(a, \theta_{\mathrm{old}})}\hat{A}, \mathrm{clip}\Bigl( \frac{\color{blue}{\pi_{\mathrm{learner}}}(a, \theta)}{\color{red}{\pi_{\mathrm{sampler}}}(a, \theta_{\mathrm{old}})}, 1-\epsilon, 1+\epsilon \Bigr)\hat{A}\Bigr)\Bigr]}
    $$
    • 注意:Colossal 框架使用此实现
    • 理解:这个方法中不再重新使用 FSDP 引擎(用 \(\pi_\text{old}\))对 之前 rollout 的结果进行重新计算概率
      • 注:之前 rollout 的结果是 vLLM 引擎用 \(\pi_\text{old}\) 采样得到的
  • 原始重要性采样 (Vanilla Importance Sampling, vanilla-IS)
    $$
    \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }}(\theta_{old})} \left[ \underbrace{\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}}_{\text{importance ratio}} \cdot \nabla_{\theta} \min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})} \hat{A}, \text{ clip} \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}, 1 - \epsilon, 1 + \epsilon \right) \hat{A} \right) \right]
    $$
    • 注意:Memo-RL 使用此实现
    • 理解:这个方法和 TIS 的最大区别是缺少 TIS 中的 Clip 操作
  • 为了评估 TIS 的有效性并理解其设计选择的影响,博客进行了实验,将 TIS 与上述两种变体进行比较
    • TIS 始终优于这两种变体,尤其是在差距较大的情况下(例如 FP8/INT8)
  • 图 4:
    • 博客在 Qwen2.5-0.5B 和 GSM8K 上消融了不同的 rollout-training 不匹配缓解策略
    • 注意 PPO-IS 和 Vanilla-IS 在 INT8 rollouts 下准确率接近 0,因此高度重叠
    • 博客还在右侧绘制了 vLLM 采样分布与 FSDP 分布之间的 KL 散度
附录:为什么这里的两种变体(PPO-IS 和 vanilla-IS)会导致训练不稳定?(Why the two variants (PPO-IS and vanilla-IS) here gives unstable training?)
Vanilla-IS v.s. TIS
  • 关于 vanilla-IS,不稳定性主要来自于 rollout \(a \sim \color{red}{\pi_{\text{sampler} }}(a, \theta_{old})\) 以低概率采样的情况,因此重要性权重比很大,通过 \(\left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})} \right)^2\) 放大了梯度方差
    • 问题:\(\left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})} \right)^2\) 是怎么来的?
    • 回答:应该是想表达 当 rollout \(a \sim \color{red}{\pi_{\text{sampler} }}(a, \theta_{old})\) 以低概率采样时,\(\left( \frac{1}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})} \right)^2\) 放大了方差吧;
      • 这里的表达应该是假设了 \(\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})\) 和 \(\color{blue}{\pi_{\text{learner} }}(a, \theta)\) 近似相等
  • 因此,博客在截断重要性采样中使用 clamp 操作来稳定训练
  • 例如,当权重比 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}\) 对于某个 Token 达到 16 时,通过 Vanilla-IS 该 Token 的梯度噪声将被放大 256 倍,通过 TIS-2 放大 4 倍,或通过 TIS-8 放大 64 倍
PPO-IS v.s. TIS
  • 自从作者的博客发布以来,很多人问博客为什么不直接将重要性采样纳入 PPO(即上面的 PPO-IS 变体)
    • 作者表示“坦率地说,博客一开始就像 PPO-IS 那样直接更改 PPO 的 clip,但在博客的实验设置中效果不佳”
    • 至于根本原因,通过执行 PPO-IS,梯度实际上仍然与 On-policy 版本的 PPO 存在偏差
    • 换句话说,尽管它可能仍然朝着无偏的目标进行优化,但与 PPO 相比可能效果较差
  • 此外,作者指出 PPO 信任区域技术的提出是为了限制 rollout \(\theta_{old}\) 和当前模型 \(\theta\) 之间的概率比接近 1 ,以近似 On-policy REINFORCE 梯度
    • 然而在 PPO-IS 中,即使当 \(\theta = \theta_{old}\) 时,由于不匹配,概率比 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}\) 已经不等于 1
      • 这使得裁剪很有可能发生,并且训练的信息量大大减少
    • 此外,在博客的 TIS 方法中,博客分别裁剪 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}\) 和 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}\),因此要温和得多;
      • 注意当 \(\theta = \theta_{old}\) 时, \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}\) 等于 1,这适合于信任区域约束

From Ill-conditioned to Benign(恶性到良性)

  • 除了 rollout 加速之外,rollout 量化也是检验 rollout 生成和梯度计算之间分布差距影响的有效测试平台
  • 博客证明了
    • 1)当不解决这种差距时,使用量化 rollouts 的 RL 训练表现出在其他场景中常见的典型不稳定性
    • 2)引入 TIS 项使 RL 训练变得稳定和良性

Entropy Collapse and Abnormal Response Length(熵崩溃和异常响应长度)

  • 许多先前的工作表明,在大语言模型中进行 RL 训练会导致熵崩溃
    • Token-level 分类分布接近 one-hot 分布,从而有效地限制了 RL 训练的探索
  • 博客的 INT8 rollout 实验揭示了严重的熵崩溃
    • 图 5 显示熵降至 0.2 以下并在整个训练过程中持续下降
  • 博客还观察到了异常长的响应生成
    • 这是 RL 训练中的另一种失败模式
  • 引入 TIS 项逆转了这一趋势,使模型能够以稳定和良性的方式进行训练
  • 图 5:DAPO-Qwen2.5-32B INT8 训练表现出各种不稳定性,并通过引入截断重要性采样成功稳定
  • 相比之下,BF16 rollout 实验没有显示出严重的熵崩溃
    • 尽管如此,TIS 项仍然增加了熵值
    • 与 INT8 rollouts 相比,分布差距较小,响应长度保持在合理范围内
  • 图 6:DAPO-Qwen2.5-32B BF16 训练表现出各种不稳定性,并可以通过引入的截断重要性采样成功稳定
  • 个人观察 & 理解:从图 6 中第一个图可以看到,熵是先降低后增加的

On the Impact of Distribution Gap: A Case Study on KL Estimation

  • \(\text{KL}(\color{blue}{\pi_{\text{old} }^{\text{fsdp}} } | \color{blue}{\pi^{\text{fsdp} }})\) 的一个无偏 KL 估计器是 \(k_1\) 估计器
    $$\log \color{blue}{\pi_{\text{old} }^{\text{fsdp}} }(a) - \log \color{blue}{\color{blue}{\pi^{\text{fsdp} }}}(a) $$
    • 其中 \(a \sim \color{blue}{\pi_{\text{old} }^{\text{fsdp}} }(a)\)
  • 然而,现代 RL 训练框架从 \(\color{red}{\pi_{\text{old} }^{\text{vllm} }}\) 生成 rollouts,而不是从 \(\color{blue}{\pi_{\text{old} }^{\text{fsdp}} }\),这给 KL 估计引入了偏差,类似于前面讨论的梯度估计偏差
  • 因此,博客可以使用 KL 估计作为案例研究来探索 \(\color{blue}{\pi_{\text{old} }^{\text{fsdp}} }\) 和 \(\color{red}{\pi_{\text{old} }^{\text{vllm} }}\) 之间不匹配的影响
    • 在无任何偏差的情况下,根据定义 KL 散度是非负的
    • 然而,INT8 rollouts 中显著的分布不匹配导致有偏的 \(k_1\) 估计器频繁产生负值,如图 5 所示
      • 理解:图 5 第 2 个图所示
    • 这些负的 KL 估计值标志着训练动态处于病态
  • 当 TIS 被纳入 RL 训练时,相同的 \(k_1\) 估计器(虽然仍然受到底层分布不匹配的影响)在大部分训练过程中保持正值
    • 这种预期符号的保持表明 TIS 成功恢复了良性的训练行为

Biased Reward in Training Log

  • 集成 TIS 的一个有趣现象是,它可能导致更差的奖励日志记录,同时带来更好的下游性能
    • 这是因为 \(\color{red}{\pi_{\text{sampler} }}\) 和 \(\color{blue}{\pi_{\text{learner} }}\) 之间的差距不仅给梯度估计引入了偏差,也给日志记录中的奖励估计引入了偏差
    • 记录的奖励来自 rollout 策略,即 \(\mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }} } [R]\) 而不是 \(\mathbb{E}_{a \sim \color{blue}{\pi_{\text{learner} }} } [R]\)
    • 如图 6(右侧两个子图)所示,记录的奖励指标显示 BF16-Rollout 优于 BF16-Rollout w. TIS
    • 然而,如果查看下游的 AIME 准确率性能,BF16-Rollout w. TIS 显著优于原始的 BF16-Rollout
  • 问题:rollout 策略来自 \(\mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }} } [R]\) 而不是 \(\mathbb{E}_{a \sim \color{blue}{\pi_{\text{learner} }} } [R]\) 影响这么大吗?

Intuitions of TIS’s Working Mechanism

  • 虽然 TIS 的确切机制仍然是一个 Open Question,但博客提供了关于 TIS 如何缓解分布差距的高层直觉
  • 忽略具有 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 的 rollouts 的偏差(注:这里是指忽略偏差不行)可能通过以下机制导致熵崩溃:
    • 对于具有负优势的 rollouts,策略梯度倾向于减少 \(\color{blue}{\pi_{\text{learner} }}\)
    • 当参数更新后存在大的分布差距时,\(\color{blue}{\pi_{\text{learner} }}\) 的减少可能不会反映在 \(\color{red}{\pi_{\text{sampler} }}\) 中
      • 理解:这里是因为两层 diff 导致,第一层是策略本身是 Off-policy 的,第二层是使用的引擎是 vLLM
    • 因此,策略梯度继续指向进一步减少 \(\color{blue}{\pi_{\text{learner} }}\) 的方向
      • 问题:此时确实会导致 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\),这里是想强调什么呢?
      • 理解:这里是想强调这种偏差的存在,使用 TIS 修正以后,可以抵消这种偏差
    • 直观地说,这种惩罚可能迫使模型过度 commit 于一个具有小熵的输出分布
      • 问题:如何理解这里会过度提交于一个小熵的输出分布?
        • 进一步减少 \(\color{blue}{\pi_{\text{learner} }}\) 不一定指向更小的熵吧?
        • 理解:过度更新可能导致模型向不确定的方向更新,不一定是熵减少或增加
      • 其他理解1:持续减少一些动作的概率确实可能加速这些动作概率的降低,从而促进某些其他动作概率的增加,也就意味着熵会减少
      • 其他理解2:一个动作因为过度打压导致动作概率降低以后,后续被采样到的概率也降低了,很难被修正了
  • TIS 坚持对 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 使用非截断的重要性权重比
    • 从而消除了这部分 rollouts 的偏差,并打破了这一机制
    • 注意:这里 TIS 的截断是单向的,使用的是 \(\min\) 来作为截断,只有当 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} > 1\) 时才会截断
    • 问题:为什么 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} > 1\) 时需要截断?
      • 如上所述,\(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 时应该不要截断以修正偏差
      • 当 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} > 1\) 时,很如果不截断,方差太大了(因为分母太小就容易出现数倍差异的情况),导致梯度波动太大
        • \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 时这个值最多在 \([0, 1)\) 之间
        • 实际上,这也是可以截断的,作者在新的博客中已经给出一些结论了,下界也可以加以限制 (IcePop)Small Leak Can Sink a Great Ship—Boost RL Training on MoE with IcePop!, 20250919, AntGroup

Rollout-Training Mismatch Analysis

  • 博客进行了一系列受控实验,以识别引入或放大 rollout 生成和梯度计算之间差异的因素
  • 博客发现并行策略的差异和长响应长度导致了不匹配,而仅 Sampler 后端的选择影响有限

Analysis Setup

Model & Data
  • 博客使用两个代表性模型进行实验(使用 DAPO 配方训练的 DAPO-32B 和 使用 Polaris RL 配方训练的 Polaris-7B)
  • 对于评估,博客使用 DAPO-Math-T2k 数据集的前 512 个提示来评估 Sampler 和 Learner 输出之间的差异指标
  • 博客使用两个指标测量响应级别的 Mismatch :
    • 每个响应的 Max Mismatch :
      $$ \max_{a \in \text{response}} |p_\text{sampler}(a) - p_\text{learner}(a)|$$
    • 每个响应的平均 Mismatch :
      $$
      \frac{1}{|\text{response}|} \sum_{a \in \text{response} } |p_{\text{sample} }(a) - p_{\text{learner} }(a)|
      $$
    • 这些指标使博客能够捕捉到最坏情况的 Token 差异以及响应内的平均差异水平
    • 博客在不同设置下为相同提示的响应计算它们,以隔离特定因素的影响
Visualization(可视化)
  • 博客使用右侧显示的可视化格式呈现这两个指标
    • 这是一个用于解释图的说明性示例

Larger Parallelism Difference, Larger Max Gap(并行性差异越大,Max Gap 越大 )

  • 博客观察到 Sampler 和 Learner 之间的并行性差异对 Max Mismatch 指标有显著贡献
  • 理解:这里是说因为 Sampler 和 Learner 是部署在不同的引擎上的,所以各种并行方式也可能不同
Simplest Setting
  • 使用 DAPO-32B 模型,博客从最简单的配置开始:
    • Sampler 在 vLLM 上以 TP1 运行, Learner 使用 FSDP 以 SP1 运行
  • 由于 Sampler 和 Learner 具有相同的并行设置,博客称之为相同并行性(Same Parallelism),其分布差距归因于并行性差异之外的因素
  • 问题 :为什么说这里「Sampler 在 vLLM 上以 TP1 运行, Learner 使用 FSDP 以 SP1 运行」是相同的并行设置?
  • 回答 :先澄清几个缩写:
    • TP1 = Tensor Parallelism degree 1
    • SP1 =(在 FSDP 语境里)Shard/Shard-Parallelism degree 1,也就是把模型参数完整地放到一张卡上,不做任何分片
    • 在两种框架里,“degree=1” 都意味着:
      • 1)整个模型权重 不拆、不复制到多张卡;
      • 2)一张 GPU 就能装下全部参数;
      • 3)不需要任何跨卡通信来维护参数一致性。
    • 因此,虽然一个叫 TP、一个叫 SP,但它们的“并行粒度”相同(都是“单卡单副本”)
      • 既然两边都只做 degree=1,就称它们为 Same Parallelism
Adding Tensor Parallelism
  • 为了研究 TP 差异的影响,博客将 Sampler 从 TP1 改为 TP2,同时保持 Learner 在 SP1(Different TP)
  • 如图 7 左图所示,随着并行性差异的增加,具有高 Max Mismatch(> 0.5)的响应数量增加
  • 相同并行性情况仅产生一个这样的响应,而不同 TP 将其增加到两个
  • 图 7:相同一组提示在不同并行性下的 Max Mismatch
  • 问题:为什么图 7 的第 1 和第 2 两张图中的 Different TP 显示的分布结果不一致?
Adding Sequence Parallelism
  • 为了研究 Ulysses 序列并行差异的影响,博客将 Learner 从 SP1 改为 SP8(不同 TP 和 SP)
  • 如图 7 中图所示,额外的 SP 差异将高 Max Mismatch 的数量从两个增加到两位数
Disentangling Parallelism and Sharding(解耦)
  • 如图 8 左下图所示,对于相似的分布式世界大小(例如 8 个设备),在 Learner 中使用张量并行(TP8)与 TP2 Sampler 产生的 Mismatch ,比在使用序列并行(SP8)的 Learner 与 TP2 Sampler 产生的 Mismatch 要小
  • 博客假设这是因为 TP8 Learner 与 TP2 Sampler 之间的实现差异,比 SP8 Learner 与 TP2 Sampler 之间的实现差异要小
    • 这强化了博客的发现:最小化 Sampler 和 Learner 之间的并行性差异能持续减小差距
  • 然后,博客测量了在 Learner 和 Sampler 中使用相同张量并行时的 Max Mismatch ,记为相同并行性(TP2)和相同并行性(TP4)
    • 与最简单设置不同,这两种配置在多个设备上共享模型计算,因此更具可扩展性
    • 如图 8 中图和右图所示,相同并行性(TP2)和相同并行性(TP4)只有少量响应具有高 Max Mismatch (> 0.5)
      • 这表明在 Sampler 和 Learner 中使用相同的方式分片模型有助于减少 Mismatch ,应该是更可取的
  • 图 8:相同一组提示在各种并行性下的 Max Mismatch
Mean Mismatch and KL
  • 尽管博客在 Max Mismatch 上观察到一致的模式,但值得一提的是,博客没有在这些配置的平均 Mismatch/KL 散度上观察到任何显著差异

Longer Response, Larger Max Gap(响应越长,Max Gap 越大)

  • 博客的实验一致表明,生成长度越长的序列会导致越大的 Max Mismatch ,而平均 Mismatch 受影响较小
    • 注意:这里的 平均 Mismatch 并不是按照 Token 做归一化的!
  • 博客使用 DAPO-32B 和 Polaris-7B 模型消融了序列长度的影响
  • 图 9:
    • 左图:不同响应长度的 Max Mismatch
    • 右图:不同响应长度的平均 Mismatch
    • 注:棕色表示 DAPO-32B;紫色表示 Polaris-7B 的结果
  • 如图 9 所示
    • 限制为 20K Token 的响应比限制为 4K Token 的响应表现出更高的 Max Mismatch
    • 相比之下,平均 Mismatch 在两种设置下保持相似
    • 这表明较长的序列为单个大的概率差异提供了更多机会,即使每个 Token 的平均差异保持稳定
  • 为了验证这种效应是由序列长度驱动的,而不是生成的 Token 总数,博客进行了一个对照实验,比较单批 20K-Token 响应与多批(5 个)独立的 4K-Token 响应(针对同一组提示)
  • 图 10:
    • 左图:在相似 Token 数量下,不同响应长度的 Max Mismatch
    • 右图:不同长度响应的 Max Mismatch
    • 注:棕色表示 DAPO-32B;紫色表示 Polaris-7B 的结果
  • 如图 10 左图所示
    • 生成多个较短响应(5×4K)与单个 4K-Token 响应相比,仅导致 Max Mismatch 适度增加
    • 但一个连续的 20K-Token 响应产生的 Mismatch 比两者都要大得多
    • 这证实了差异由于序列的连续长度而加剧
  • 有趣的是,博客观察到 Mismatch 随着生成的进行而累积:
    • 一个 20K-Token 响应中仅前 4K Token 内的 Max Mismatch ,常常超过一个独立的 4K-Token 响应的 Max Mismatch
    • 这表明 Sampler 和 Learner 的内部状态在长生成上下文中越来越发散

Altering Sampler Alone, Gap Still There(仅改变 Sampler 时,差距仍然存在)

  • 最后,博客研究了 Sampler 后端本身的选择是否是导致 Mismatch 的主要因素
  • 博客比较了 Sampler 的三种配置:
    • 1)vLLM
    • 2)SGLang
    • 3)启用确定性内核的 SGLang
  • 结果表明,仅 Sampler 后端本身没有决定性影响
    • 对于 DAPO-32B 模型,SGLang 产生较小的平均 Mismatch ,而对于 Polaris-7B 模型,vLLM 表现更好(即 vLLM 的平均 Mismatch 更小)
    • 因此,没有单一的 Sampler 后端在所有不同设置中 consistently 占主导地位
  • 图 11:
    • 左图:不同 Sampler 后端的 Max Mismatch
    • 右图:不同 Sampler 后端的平均 Mismatch
    • 注:棕色表示 DAPO-32B;紫色表示 Polaris-7B 的结果
  • 值得注意的是,在没有对齐训练配置的情况下,在 SGLang 中启用确定性采样并没有明显减小差距
    • 这表明 Mismatch 主要源于更深层次的实现差异(例如并行性或数值精度),而不是仅仅来自随机采样

What’s More

  • 还有其他维度可能影响 rollout-training 不匹配,包括 模型类型(例如,Dense vs. MoE,Based vs. Post-trained),提示 数据特征(例如,难度,领域),GPU 硬件 ,以及训练 后端(backend) 的选择
  • 例如,博客相对一致地发现,规模相当(32B 和 30B)的 Dense 模型和 MoE 模型表现出不同程度的 Mismatch ,并且基础模型的 rollout-training Mismatch 比它们的后训练对应物要小
  • 博客正在持续努力,以更深入地理解并更好地利用 rollout-training 不匹配,用于实际的大语言模型后训练。敬请期待!

Discussion

  • 博客特别讨论了博客的修复方法(截断重要性采样,TIS)对 MoE 架构强化学习的潜在影响
  • 博客还强调了 TIS 与最近旨在改进策略更新中重要性采样权重比的工作(例如 GSPO, GMPO)的联系

The gap can be amplified in MoE RL(Gap 在 MoE 强化学习中可能被放大)

  • 虽然博客当前的实验和分析主要集中在 Dense 模型上,但博客相信这种分布差距也存在于 MoE 强化学习中,并且可能更加严重
  • 主要有两个原因:
    • 动态路由:
      • 与 Dense 模型不同,MoE 利用路由器动态激活特定专家
      • 这种路由机制本质上是精度敏感的;即使轻微的数值差异也可能导致显著不同的专家激活
    • 专门优化的内核:
      • MoE 模型通常规模很大,现代推理引擎(例如 vLLM)对 MoE 模型有相比于 Dense 模型独特的优化,这使得后端的数值不一致性更大
  • 总之,这些特性可以显著放大分布不匹配,使得像 TIS 这样的解决方案在 MoE 强化学习中特别有价值

TIS is orthogonal and compatible with existing GxPOs(TIS 与现有的 GxPOs 正交且兼容)

  • 最近的工作通过革新重要性采样权重比的计算来提高策略更新的稳定性
  • 例如,GSPO 在 Sequence-level 别而不是 Token-level 别计算权重比,而 GMPO 计算几何平均值而不是算术平均值
  • 与这些工作正交的是,博客的 TIS 修复解决了根源于系统级别的分布不匹配问题,这是由在 rollout 生成和模型训练中使用的不同计算内核带来的。这种问题广泛存在于采用混合计算设计的强化学习训练框架中
  • 因此,博客的修复可以应用,而不论所使用的具体强化学习算法如何

附录:为什么 TIS 截断是单向的?

  • 详情参见 Intuitions of TIS’s Working Mechanism 小节的讨论

NLP——Interplay-of-Pre-Mid-Post-Training-on-LRM

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, 20251208,
      • 预训练、 中期训练与强化学习在推理模型中的相互作用

Paper Summary

  • 整体介绍:
    • 论文提出了关于 Pre-training,Mid-training 和 Post-training 如何共同决定语言模型推理能力的受控研究
    • 论文仔细分离每个阶段的贡献,尝试阐明 RL 增强或未能增强推理泛化的因果机制
      • 论文的方法采用具有明确原子操作(atomic operations)、可解析的逐步推理轨迹以及对训练分布进行系统性操控的合成推理任务
    • 利用完全可控的合成推理任务和过程级评估,论文证明了:
      • 通过 Post-training 实现的真正的推理改进,只有在 Pre-training 阶段建立起关键的推理原始技能时才会出现
    • 评价:很实在的文章,对理解 LLM 的 各个训练阶段有较强的参考意义
  • 背景 & 问题提出:
    • RL 显著提升了语言模型的推理能力,但尚不清楚 Post-training 是否真正扩展了模型在 Pre-training 之外获得的推理能力
    • 一个核心挑战在于现代训练流程缺乏控制:
      • 大规模 Pre-training 语料库不透明, Mid-training 往往被忽视,而 RL 目标与未知的先验知识以复杂的方式相互作用
  • 本文的工作:
    • 为了澄清这一问题,论文建立了一个完全受控的实验框架,以分离 Pre-training 、 Mid-training 和 RL-based 的 Post Training 的因果贡献
  • 论文沿两个轴评估模型:
    • 向更复杂组合的外推泛化 (extrapolative generalization)
    • 跨越不同表面上下文的上下文泛化 (contextual generalization)
  • 利用此框架,论文调和了关于 RL 有效性的对立观点,研究表明:
    • 1)RL 仅在 Pre-training 留有足够提升空间且 RL 数据针对模型的能力边缘 (edge of competence)
      • 那些困难但尚未超出解决范围的任务边界时,才能产生真正的(genuine)能力提升 (pass@128)
    • 2)上下文泛化需要最小但充分的 Pre-training Exposure ,之后 RL 可以可靠地实现迁移
    • 3)在固定计算量下, Mid-training 显著提升了性能,证明了其在训练流程中核心但未被充分探索的作用
    • 4)过程级奖励减少了 Reward Hacking 并提高了推理的保真度
  • 图 1:大语言模型推理中 Pre-training 、 Mid-training 与 Post-training 阶段的相互作用
    • 左图:RL 仅在任务难度略超出 Pre-training 数据范围时,才能带来真正的外推性能提升;当任务已被 Pre-training 数据覆盖,或完全超出 Pre-training 数据分布(分布外程度过高)时,性能提升会消失(在参数校准良好的情况下,pass@128 最高可提升 42%)
      • 理解:从图中可以看出,在适当 OOD(OOD-mid)的任务上才出现了很好的性能提升,完全分布内(within Pre-training range)或者过于 OOD(OOD-hard)的任务上均不会带来提升
    • 中图:实现上下文泛化,需要模型在 Pre-training 阶段对长尾上下文具备最低限度但足够的接触量
      • 若 Pre-training 对长尾上下文的接触量接近零, RL 无法发挥作用;
      • 但只要存在稀疏接触(接触量 \(\ge 1%\)), RL 就能实现稳健的泛化,pass@128 最高可提升 60%
      • 理解:从图中可以看出,接触 10% 和接触 1% 的效果差距远远不如想象的大
    • 右图:在 Pre-training 与 RL 之间加入一个 “Mid-training” 阶段,能在计算资源固定的情况下显著提升 OOD 推理性能
      • 在困难分布外任务上,“Mid-training + RL” 的组合比单独使用 RL 的性能高出 10.8%

Introduction and Discussion

  • 最近的 RL 进展显著提升了语言模型的推理能力 (2025, 2025)
  • 但一个基本概念问题仍未解决:Post-training 是否真正扩展了模型在 Pre-training 之外获得的推理能力?
    • 文献中存在相互矛盾的观点:
      • 一些工作将 RL 描述为 capability refiner (2025, 2025, 2025, 2025)
      • 另一些则提供了超越 Pre-training 的实质性推理增益的证据 (2025, 2025, 2025)
  • 这种差异的主要来源在于先前的分析依赖于不受控的 (uncontrolled) 训练环境
    • 现代语言模型在大规模、不透明的互联网语料库上进行 Pre-training ,其构成本质上是未知的
    • As a result,论文无法确定 Base Model 已经内化了哪些推理原语 (reasoning primitives)
    • 这种控制的缺乏使得分离 Post Training 的因果效应以及理解 Pre-training 和 Post Training 如何共同塑造推理行为变得具有挑战性
  • Meanwhile,一个额外的阶段 Mid-training 最近已成为现代语言模型训练流程的关键组成部分 (2025, 2025)
    • 在一些文献中,Mid-training 阶段也被称为继续 Pre-training (Continued Pre-Training, CPT)
    • Mid-training 在广泛的 Pre-training 语料库和专门的 Post Training 目标之间充当了中间分布桥梁,扩展了模型的原子操作覆盖范围,并将其内部表征 (internal representations) 与 RL 阶段强调的任务对齐
    • As a result, Mid-training 在辩论中变得越来越核心:它可能解释了为什么 RL 有时能产生显著的泛化改进,而在其他设置中却失败 (2025)
    • 这激发了论文工作的核心问题:Pre-training 、 Mid-training 和 RL 在塑造语言模型的推理能力方面是如何相互作用的?
  • 本工作的目标是以受控的方式令人信服地回答这个问题,遵循该领域的先前工作 (2025, 2025, 2025)
    • Specifically,论文通过受控实验来厘清 Pre-training 、 Mid-training 和 RL-based 的 Post Training 如何单独及共同影响推理泛化
  • 为此,论文建立了一个完全受控的框架,以分离每个训练阶段的贡献。论文的设计基于三个原则:
    • (i) 完全可控的合成推理任务 (fully controllable synthetic reasoning tasks) ,具有明确的原子操作和由有向无环图定义的(DAG-defined)依赖结构;
    • (ii) 可观测、可解析的推理过程 (observable, parseable reasoning processes) ,支持过程级评估并减少奖励或评估欺骗 (reward/evaluation hacking);
    • (iii) 对 Pre-training / Mid-training / Post Training 分布的系统性操控 (systematic manipulation) ,以将因果效应归因于每个阶段
  • 论文沿两个关键维度评估推理:
    • 1)外推 (深度) 泛化 (Extrapolative (Depth) generalization) 评估模型是否能通过以更深的结构组合已学习的原语,解决比 Pre-training 中遇到的更复杂的问题
    • 2)上下文 (广度) 泛化 (Contextual (Breadth) generalization) 评估模型是否能在具有相同底层逻辑但 surface forms 不同的新颖上下文中迁移 (transfer) 其推理技能
    • 这两个轴共同捕捉了与现实世界语言模型相关的广泛的组合和迁移推理能力
  • 利用论文的受控框架,论文揭示了关于三个训练阶段如何相互作用的若干 insights:
    • Firstly ,关于 RL 是否真正改善 Base Model 推理能力的两种对立观点并不真正冲突
      • RL 仅在两个条件成立时才能产生真正的能力增益:
        • (i) 该任务在 Pre-training 期间未被大量覆盖,为 RL 探索留下了足够的提升空间
        • (ii) RL 数据被校准到模型的能力边缘 (edge of competence) ,既不太简单(in-domain)也不太困难(out-of-domain, OOD)
      • 当任一条件被违反时,RL 倾向于锐化(sharpen)现有能力而非真正改进
    • Secondly ,RL 激励上下文泛化仅当相关的原子操作或基础技能已存在于 Base Model 中
      • 如果对新的上下文没有最少的 Pre-training Exposure ,RL 无法产生迁移(induce transfer)
      • 但即使非常稀疏的覆盖率(例如,\(\ge 1%\))也能提供一个足够的“种子”,RL 随后可以稳固地强化它,产生强大的跨上下文泛化
    • Thirdly ,引入一个连接 Pre-training 和 Post Training 分布的 Mid-training 阶段,能在固定计算预算下显著增强分布内和分布外的性能,凸显了 Mid-training 作为训练设计中一个未被充分探索但强大的杠杆作用
    • Fourthly ,过程奖励 (process rewards) 减轻了 Reward Hacking 并提高了推理保真度
      • 将过程验证 (process verification) 纳入奖励函数,使强化信号与有效的推理行为对齐,从而在复杂的组合设置下带来准确性和泛化性的可衡量改进

Preliminaries

  • 本节介绍以下三个部分:
    • (a) 基于依赖图 (dependency graphs) 和上下文渲染 (contextual rendering) 的合成数据生成框架 (data generation framework) ,该框架指定了推理过程
    • (b) 用于外推和上下文泛化的任务设置 (task setup)
    • (c) 过程验证评估 (process-verified evaluation) 框架,该框架评估推理过程和最终答案的准确性
    • 这些组件共同使论文能够分离 Pre-training 、 Mid-training 和 Post Training 对推理泛化的不同影响

Controllable Synthetic Reasoning Dataset

  • 论文基于 GSM-Infinite (2025) 数据生成框架创建了一个测试平台,能够精确控制推理结构、复杂性和上下文
    • 图2:数据生成框架、任务设置和过程验证评估概览
      • 图2 描述了依赖图 \(\mathcal{G}\) 和上下文模板 \(\tau\),用于外推和上下文泛化的任务设置,以及检查推理步骤正确性的过程验证评估框架
  • Specifically,数据生成流水线(图2(a))涉及三个关键组件:
    • 依赖图 (Dependency Graphs).
      • 每个推理问题由一个有向无环图 (DAG) \(\mathcal{G}=(\mathcal{V},\mathcal{E})\) 表示,其中节点 \(v\in\mathcal{V}\) 对应变量,有向边 \(e\in\mathcal{E}\) 表示它们之间的依赖关系
        • 理解:每条边对应一次算数运算
      • 该图最终汇聚到一个指定的答案节点 \(v^{*}\),该节点产生最终答案 \(a^{*}\)
    • 推理复杂性控制 (Reasoning Complexity Control).
      • 论文通过算术运算的数量来量化图的复杂度:
        $$
        \text{op}(\mathcal{G})=|\mathcal{E}|,
        $$
      • 这控制了从基础算术到复杂多步推理的任务难度
    • 上下文渲染 (Contextual Rendering).
      • 给定一个预定义的上下文模板 \(\tau\)(例如,animals-zoo、teachers-school)及自然语言描述,论文将依赖图 \(\mathcal{G}\) 渲染成一个完整的数学问题
      • Finally,论文通过抽样不同的图 \(\mathcal{G}\) 和模板 \(\tau\),并将它们渲染为文本来生成多样化的数学问题
  • 论文采用此框架的动机在于三个主要优点:
    • 1)对训练阶段无污染的控制 (Contamination-free control over training phases)
      • 论文为 Pre-training 、 Mid-training 和 Post Training 指定了独立的数据分布以避免重叠
    • 2)对结构和上下文进行因子化控制 (Factorized control over structure and context)
      • 每个问题都从一个 DAG 生成,该图编码了推理结构和依赖关系,并在其上实例化了数值和上下文
    • 3)过程级验证 (Process-level verification)
      • 真实的 DAG 可作为验证中间步骤和防止错误推理的参考
      • 作者在附录 A.1 中提供了详细的公式和解释

Task Setup

  • 在现实世界部署中,语言模型通常需要沿两个互补的轴(complementary axes)进行推理泛化:
    • 外推 (深度) 泛化 (extrapolative (depth-wise) generalization)
    • 上下文 (广度) 泛化 (contextual (breadth-wise) generalization) (2025, 2025, 2025)
    • 论文的受控实验揭示了这两个维度(图2(b)),从而能够精确检验 Pre-training 、 Mid-training 和Post Training 如何影响每种类型的泛化
  • 外推 (深度) 泛化 (Extrapolative (Depth) Generalization).
    • 该维度评估模型在推理深度 \(\text{op}(\mathcal{G})\) 增加时保持正确性的能力 (2025)
    • 如果模型能够解决其操作链长度超出 Mid-training 遇到的问题,则表现出强大的外推泛化能力
  • 上下文 (广度) 泛化 (Contextual (Breadth) Generalization).
    • 该维度衡量模型是否能够将其推理原语(Reasoning primitives)迁移到 surface forms不同但具有相似底层推理结构(similar underlying reasoning structure)的新领域
    • 当模型的性能在模板或 surface forms 发生变化,底层计算图保持不变时 ,保持稳定,则认为该模型在上下文上实现了泛化
      • 理解:底层计算图不变则认为其底层推理结构没有变化,此时能够泛化则说明训练跳脱了具体的模版或 surface forms
  • 形式化符号、数据集构建以及泛化轴的完整定义见附录 A.2

Evaluation Protocol

  • 论文按照过程验证评估 (process-verified evaluation) 方案(图2(c))报告所有结果
  • 对于每个具有真实依赖图 \((\mathcal{G},a^{*})\) 的实例,模型生成一个自由形式的解决方案,作者将其解析为预测的依赖图 \(\hat{\mathcal{G} }\) 和最终答案 \(\hat{a}\)
  • 在每个真实节点 \(v\in\mathcal{V}\) 的 Step-level 进行过程评估
    • 通过比较预测节点与真实节点、它们的依赖关系以及数值 check 准确性
  • 过程准确率 (process accuracy) 定义为所有真实节点的平均 Step-level 准确率
    • 只有当推理步骤和最终答案都匹配时,预测才被视为完全正确
    • 所有 \(pass@k\) 指标(例如,\(pass@1\),\(pass@128\))均相对于此严格标准报告
    • 详细的实现和解析方法见附录 A.4

Training Setup

  • 论文使用 GSM-Infinite 框架生成的大规模合成推理数据集,训练了具有 100M 参数的 Decoder-only Qwen2.5-style (2025) 模型
  • 整个语料库包含 30B 个 token,涵盖了多个操作范围和上下文模板,并被划分为互不相交的 Pre-training 、 Mid-training 和 Post Training 子集,以避免分布污染
Pre-training
  • Pre-training 让模型接触多样化语料库以获取通用知识
  • 在论文的受控推理任务中,它侧重于使模型掌握论文合成数据集中算术运算的基础推理技能和规则
    • 重点是掌握基本推理原语,而非广泛的知识
  • Following Chinchilla Scaling (2022) and trends in data-rich regimes (2025),论文在 10B 个 token(参数的 100 倍)上 Pre-training 论文的 100M 参数模型
  • 数据集由跨模板的 op=2-10 操作组成,使模型能够掌握推理,同时为复杂任务保留提升空间
  • 模型在分布内任务上达到了接近饱和的 pass@128 准确率,确保在更深任务上的改进反映了真正的泛化
    • 理解:这里为什么要确保在 In-domain 任务上达到接近饱和才能在更深的任务上反应真正的泛化?
Mid-training
  • Mid-training 是 Pre-training 和 Post Training 之间的中间阶段,因其在改进下游微调和 RL 性能方面的作用而受到关注 (2025, 2025, 2025)
  • Mid-training 通常涉及使用更高质量或指令格式的数据,采用 Next-token prediction 或 SFT 目标
  • Mid-training 通过提供结构化的推理监督来稳定优化并促进 RL 扩展 ,弥合了广泛 Pre-training 语料库和面向奖励的 RL 数据之间的差距
  • 论文实现了精简版的 Mid-training ,保持与 Pre-training 相同的目标,但收窄数据分布使其与 RL 类似,此时模型展现出新兴(emerging)但不完整的能力(incomplete competence)
  • 通过将监督集中在此边界,目标加强 RL 可以放大的更高级别推理先验
    • 注:Mid-training 仅在 Section 5 中应用
Post Training
  • Post Training 在 Pre-training 之后,使用特定任务的数据或目标来精炼模型在特定任务上的性能
  • 通常涉及两种策略:
    • 1)SFT :在带标签的数据集或特定任务指令上进行训练;
    • 2)RL :模型通过接收其动作的奖励来进行优化
  • 由于论文的 Pre-training 数据已经是结构化且特定于任务的,所以主要关注 RL 进行 Post Training
  • 精心策划的 subset 上使用 GRPO (2025) 进行训练,这些 subset 旨在探究在更深操作范围和新颖模板中的泛化能力

When Does Post-Training Incentivize Reasoning Beyond the Base Model?(何时 Post Training 能激励超越 Base Model 的推理?)

  • 为了厘清 Pre-training 和 Post Training 对推理能力的贡献,论文分离了 RL 的具体影响
  • 提问:RL 是否以及何时能扩展 Base Model 在 Pre-training 之外获得的推理能力?
    • 通过固定 Pre-training 阶段并改变 Post Training 数据的难度和覆盖范围,论文确定了 RL 驱动真正的组合泛化而非仅仅放大现有技能的具体机制

Task Setting

  • 论文专注于外推泛化(在附录 A.6 中检查 Post Training 对上下文迁移的影响),根据操作计数定义三类问题(论文在附录 A.3.4 中说明了这种性能阶梯):
    • 分布内 (In-Distribution, ID) 问题(Pre-training 范围内,op=2-10);
    • 分布外-边缘 (OOD-edge) 问题(刚刚超出此范围,op=11-14), Base Model 在此保留非零的 pass@128 准确率;
    • 分布外-困难 (OOD-hard) 问题(显著超出 Pre-training 分布,op=15-20), Base Model 在此表现出接近零的准确率
      • 解决 OOD-hard 问题需要以新颖的方式组合从 ID 数据中学到的原子操作,以适应增加的推理深度
  • 实验设置如下:
    • Pre-training:
      • Base Model 在由 ID 问题组成的 10B 个 token 上进行 Pre-training
    • Post Training:
      • 论文应用 GRPO,使用来自四个不同难度范围的共 200K 个样本:op=7-10(ID)、op=9-12(混合)、op=11-14(边缘)和 op=17-20(困难)
  • 关于 Training Dynamics 和 Data Recipe 的更多信息,请参见 A.5 和 A.9

Summary 1

Observation 1
  • 如图 3 所示, Post Training 的效果对 Pre-training 和 Post Training 数据机制高度敏感:
    • (i) 对于 ID 任务(op=2-10),无论 RL 数据机制如何,在 pass@1 上有明显的性能提升,但在 pass@128 上没有改进,这表明 RL 只是锐化了现有能力而没有扩展它们
    • (ii) 然而,对于 OOD 任务(op=11-14 和 op=15-20),当应用于能力边缘 (edge of competence) 数据(op=11-14)时,RL 总是能提高 pass@128 性能,证明了超越 Pre-training 的真正的能力增益
  • 理解:图 3 展示了,如果使用太 OOD 的数据(op=17-20)来进行 RL 时,模型其实无法提升其在 OOD-hard(op=15-20)任务上的表现
Takeaway 1
  • RL 仅在两个条件成立时,才能在 Base Model 之外产生真正的能力增益 (pass@128):
    • (i) 该任务在 Pre-training 期间未被大量覆盖,为探索留有足够的提升空间;
    • (ii) RL 数据被校准到模型的能力边缘 (edge of competence) ,既不太简单(分布内)也不太困难(分布外)
Discussion 1
  • 与近期工作的关联 最近的研究关于 RL 是否能增强 Base Model 的推理能力报告了看似矛盾的结论
    • On the one hand,Zhao 等人 (2025),Yue 等人 (2025) 认为,当在数学和编码等 Pre-training 已充分覆盖的标准任务上评估时,RL* 并未* 改善 pass@128 准确率
    • On the other hand,在 Pre-training 覆盖率极低的合成任务上的研究 (2025, 2025, 2025) 报告了实质性的 Post Training 增益
  • 论文的受控设置通过表明这些结论源于Post Training 难度谱的不同区域而调和了这些发现
    • 对于 Base Model 已经解决的分布内任务,随着 pass@k 的增加性能趋于饱和,RL 没有优势
    • In contrast,当 RL 针对 Base Model 失败的真正分布外任务时,论文观察到清晰的外推改进(前提是 RL 数据位于模型的“能力边缘”附近)
Practical Guidance 1
  • 围绕模型的能力边缘 (edge of competence)设计 RL 数据
    • 作者建议过滤 RL 数据集以针对那些模型在 pass@1 上失败但在 pass@k 上成功的任务
    • 此策略避免了在高 pass@1 任务上的冗余,同时防止了在 pass@k 为 0 任务上的奖励稀疏
  • 这个过程也可以是迭代的:我们可以定期重新评估“能力边缘”任务池;
    • 随着模型变得更强,先前分布外的任务将漂移到可解区间,从而创建一个自然的、自定进度的课程

How Does Pre-training Exposure Shape Post-Training Generalization?(问题:Pre-training Exposure 如何塑造 Post Training 泛化?)

  • 在确定了 Post Training 激励泛化的条件之后,论文转向一个基础性问题:Pre-training Exposure 如何塑造 Post Training 泛化?
  • 作者假设,Pre-training Exposure 基础推理原语对于有效的 Post Training 泛化至关重要
  • 为了探讨这个问题,在固定的 RL Data Recipe 和设置下,论文改变 Pre-training 数据的分布,并检查其对 Post Training 泛化的影响

Task Setting

  • 论文专注于上下文泛化,即向长尾 (long-tailed) 的 Context B 泛化
    • 在 Pre-training 期间,作者操控模型接触包含原子推理原语(op=2 的示例)的长尾 Context B 的比例(关于简单上下文泛化和外推的实验分别在附录 A.6.1 和 A.7 中提供)
  • 论文的实验设置结构如下:
    • Pre-training : Base Model 在 10B 个 token 上进行 Pre-training
      • 这些 token 由 op=2-20 的 Context A 和 op=2 的长尾Context B 示例组成
        • 理解:这里的 Context A 和 Context B 分别表示不同领域的任务
      • 其中论文变化原子 op=2 示例相对于长尾 Context B 接触的比例
    • Post Training: 应用 RL 于 200K 个样本,这些样本由 50% Context A 和 50% Context B 组成,覆盖 op=2-20 的范围
  • 关于 Training Dynamics 和 Data Recipe 的更多细节,请参见附录 A.8 和 A.9

Summary 2

Observation 2
  • 如图 4 所示, Pre-training Exposure 长尾上下文对 Post Training 泛化的影响是巨大的:
    • (i) 当 Pre-training 排除 Context B 或提供零(0%)或极少接触(0.1%)时,RL 无法迁移到 Context B
    • (ii) 在 Pre-training 中引入即使是 1% 的 Context B 数据,也能显著增强 Post Training 泛化,甚至对于 op=20 的最困难任务也是如此
    • 这一观察强调,虽然 RL 在泛化中扮演着关键角色,但其有效性高度依赖于 Pre-training 数据的覆盖范围,特别是长尾上下文的包含
Takeaway 2
  • 仅当 Base Model 已包含必要的原子操作时,RL 激励上下文泛化(RL incentivizes contextual generalization only when the base model already contains the necessary primitives)
    • 如果没有对新上下文的最少 Pre-training Exposure ,RL 无法产生迁移
    • However,即使是稀疏的接触(例如,\(\ge 1%\))也提供了一个足够的“种子”,RL 可以在 Post Training 期间强化它,从而产生鲁棒的跨上下文泛化
Discussion 2
  • 复制还是创造(Replication or Creation)?
    • 论文在图 5 中检查了生成的正确 Context B 图与来自 Context A 的真实拓扑之间的拓扑相似性分布
    • 高相似性表明模型主要复制了现有的 Context A 推理模式,而低相似性则表明出现了与 Context A 不同的新颖推理结构
  • 论文观察到任务难度与 Pre-training Exposure 之间的效应:
    • 1)对于较简单的组合(op=2-10),模型倾向于复制来自 Context A 的现有模式
    • 2)随着任务复杂度增加(op=11-20),模型生成更多新颖结构,特别是在 Pre-training 期间充分接触 Context B 时
Practical Guidance 2
  • 在 Pre-training 中植入长尾原子操作以释放 RL 潜力(Seed long-tail primitives in pre-training to unlock RL potential)
    • RL 无法从虚无中合成能力;它需要潜在的“种子”来放大
    • However,这些种子不需要很复杂
  • 论文的结果表明,只要原子推理原语 (atomic reasoning primitives) 存在于 Pre-training 中,RL 就能成功外推到困难任务
  • 实践者应优先考虑广泛覆盖基本领域知识、规则和技能(大约 1% 的密度) ,而不是追求复杂的数据样本
  • 一旦这些基本原语建立起来,RL 就有效地充当了组合器,将它们组合起来解决复杂的分布外问题

How Does Mid-Training Interact with Post-Training?(Mid-training 与 Post-training 交互?)

  • 尽管 RL 能有效提升外推泛化能力,但其成功往往依赖于 Pre-training 阶段建立的表征先验
  • 近期工作 (2025a; 2025) 提出了 Mid-training 作为 Pre-training 和 Post-training 之间的中间阶段,旨在弥合数据分布并在下游适应前加强推理先验
  • 这引出了一个关键问题:在固定的计算预算下, Mid-training 和 RL 如何交互,以及两者之间怎样的平衡能带来最大的泛化收益?
    • 本节研究 Mid-training 与 Post-training 之间的协同作用,试图界定它们的交互如何驱动推理泛化
  • 计算预算公式化(Compute Budget Formulation)
    • 为公平比较,论文根据浮点运算将两个阶段的训练归一化为等效的训练 Token 数
    • 对于 Mid-training ,消耗量 \(T_{\text{mid} }\) 是处理的有监督 Token 数量
    • 对于 RL ,其 Token 等效成本近似为:
      $$
      T_{\text{RL} } \approx \frac{5}{3} N \cdot r \cdot L_{\text{total} },
      $$
      • \(N\) 是 RL 样本数
      • \(r=6\) 是轨迹生成次数
      • \(L_{\text{total} } = 2048\) 是总 Token 长度
      • 更多细节:Detailed budget derivation are provided in Appendix A.10.1
  • 论文系统地改变 RL 分配比例 \(\beta \in [0,1]\),以在总预算 \(T\) 的两个阶段之间进行分配:
    $$
    T_{\text{mid} } = (1 - \beta) \cdot T, \quad T_{\text{RL} } = \beta \cdot T.
    $$

Task Setting

  • 在本节中,论文使用在 10B 个 op=2-10 数据上 Pre-training 的相同 Base Model ,探索五种训练配置的性能:
    • 在 op=11-14 范围内的1B有监督 Token 上进行 完全 Mid-training
    • 在同一 op=11-14 范围内以批大小1024进行100步的完全 RL
    • 三种混合策略
      • Light RL(\(\beta=0.2\))
      • Medium-RL(\(\beta=0.5\))
      • 重度 RL(\(\beta=0.8\))
    • 这些策略在等效计算预算下平衡 Mid-training 和 RL
  • 第5节中的计算预算公式允许直接比较数据混合策略

Summary 3

Observation 3
  • 如图6所示,计算分配在整个泛化谱上引起了质的不同行为
    • (1) 在OOD-edge任务上,配置为完全 Mid-training 和 Light RL 的性能优于重度或完全 RL ,其中 Light RL 获得了最佳的 pass@1 性能
    • (2) 对于OOD-hard任务,将更多预算重新分配给重度 RL,可以显著提高在最难实例上的 pass@1 和 pass@128 性能
    • 图6:在外推任务上,不同中期和 Post-training 混合比例下的 pass@1 和 pass@128 性能
      • 用于中期和 Post-training 的数据应用于 OOD-edge 范围
      • 不同的线表示计算分配策略
      • 重度 RL 总是改进未见过的OOD-hard任务,而 Light RL 在OOD-edge任务上获得最佳的 pass@1 性能
  • 这些趋势表明,驱动探索的 RL 对于泛化到更难的任务是不可或缺的,但大量的 Mid-training 分配对于灌输 RL 可以有效利用的先验仍然至关重要
  • 论文进一步分析了不同计算预算的影响(附录A.10)
Takeaway 3
  • 引入一个连接 Pre-training 和 Post-training 分布的 Mid-training 阶段,在固定计算预算下能显著增强泛化能力
  • 这突显了 Mid-training 作为训练设计中未被充分探索但强大的杠杆
  • 计算分配应以任务感知的方式进行:
    • (i) 当优先考虑分布内性能时,将更多预算分配给 Mid-training ,仅辅以 Light RL
    • (ii) 为了获得分布外泛化能力,预留适中的计算部分用于 Mid-training 以建立必要先验,并将剩余预算投入到更重的 RL 探索中
Discussion 3
  • The Role of Mid-Training
  • 近期工作 (2025; 2025) 指出,像 Qwen (2025) 这样的模型对 RL 的响应远比对 LLaMA (2023) 等架构更有效
  • 一个趋同的解释是存在一个 Mid-training 阶段,该阶段的监督与 Post-training 分布更紧密地对齐
  • 面向推理的 Mid-training 已被证明能大幅提高模型的 RL 准备度
  • Wang等人 (2025) 发现,在结构化推理数据上进行 Mid-training 的 LLaMA 模型,其 RL 性能可与更强的 Qwen Base Model 相媲美,这表明 Mid-training 在很大程度上决定了下游 RL 的响应能力
  • Complementarily,Liu等人 (2025a) 表明, Mid-training 充当了分布桥梁,通过缩小 Pre-training 任务和 RL 任务之间的差距来减少遗忘并缓解适应
    • 这一视角进一步与Akter等人 (2025) 的预加载原则一致:更早地注入结构化推理监督提供了支架,后续训练阶段(包括 RL)可以有效地放大这个支架
  • Together,这些工作指向一个统一的结论:
    • Mid-training 是一个 strategically important component,它能使模型为稳定且样本高效的 RL 做好准备,从而实现超越仅仅是锐化现有能力的改进

      mid-training is a strategically important component that conditions models for stable and sample-efficient RL, enabling improvements that go beyond merely sharpening existing abilities.

Practical Guidance 3
  • 围绕互补优势平衡 Mid-training 和 Post-training (Balance mid-training and post-training around complementary strengths)
  • 通过将 Mid-training 视为安装先验(installing priors)的阶段、将 RL 视为扩展探索(scaling exploration)的阶段来设计训练流程
  • 对于 Mid-training ,策划位于模型“能力边缘(edge of competence)”的数据集,这能稳定 RL 所需的原始技能
  • 从业者应根据部署目标调整计算预算:
    • (1) 为了在类似任务(OOD-edge)上获得可靠性(reliability) ,将大部分计算分配给 Mid-training ,并使用 Light RL
    • (2) 为了在复杂任务(OOD-hard)上进行探索(exploration) ,为 Mid-training 分配适中的预算(仅足以建立先验),并将大量计算投入到 RL 探索中

Mitigating Reward Hacking via Process Supervision in Outcome Rewards(结果奖励中的过程监督减轻 Reward Hacking)

  • 使用基于结果的奖励进行 Post-training 已被证明能有效提高推理性能,但它仍然容易受到 Reward Hacking(a failure mode where 模型通过利用虚假捷径或通过无效推理链产生正确答案来实现高最终准确率)
  • Earlier,作者引入了过程验证(process verification)作为评估标准,只有当中间步骤和最终结果都正确时才奖励模型
  • 论文将这一原则扩展到奖励设计本身,并回答:过程感知的监督能否在保持泛化性能的同时减轻 Reward Hacking ?

Task Setting**

  • 为了鼓励模型不仅生成正确的最终答案,还要生成有效的中间推理步骤,论文使用过程级验证来增强结果奖励
  • 论文定义一个复合奖励函数:
    $$
    R = \alpha R_{\text{out} } + (1 - \alpha) R_{\text{pv} }.
    $$
    • \(R_{\text{out} }\) 表示传统的结果奖励(最终答案正确为1,否则为0),\(R_{\text{out} }\) 可能是稀疏的且容易受到结果 Reward Hacking
    • \(R_{\text{pv} }\) 表示由A.2节中定义的过程级准确率标准确定的过程验证奖励,\(R_{\text{pv} }\) 是一个反映每个推理步骤正确性的密集奖励
    • \(\alpha \in [0,1]\) 控制结果准确性和过程保真度之间的平衡
  • 论文还考虑一个更严格的公式:
    $$
    R =
    \begin{cases}
    R_{\text{out} }, & \text{If } R_{\text{pv} } = 1, \\
    0, & \text{Otherwise}.
    \end{cases}
    $$
    • 该公式仅在完整推理过程被验证为正确时才给予结果奖励
    • 此设置提供了过程级监督以减少 Reward Hacking
    • 在此奖励设置下,论文使用不同的奖励组合在 op=11-14 上进行 Post-training ,以评估不同程度的过程监督如何影响推理泛化

Summary 4

Observation 4
  • 如图7所示,整合过程验证显著提高了跨外推(op=15-20)设置的 pass@1 性能,提升了4-5%
    • 适度的奖励混合(\(0.2 R_{\text{out} } + 0.8 R_{\text{pv} }\))在结果准确性和推理一致性之间实现了最佳平衡
    • 严格的奖励(仅当 \(R_{\text{pv} }=1\) 时给予 \(R_{\text{out} }\))则进一步带来了显著的改进
  • 这些结果证实,过程级监督能有效减轻 Reward Hacking ,并鼓励忠实的推理行为
  • 图7:不同奖励组合下的 pass@k 性能
    • 每个条形对应一种不同的奖励混合策略
    • 将过程级信息整合到结果奖励中,在各个评估 Setting 中都带来了可衡量的性能提升

Related Work

推理大语言模型的 RL 泛化(RL Generalization of Reasoning LMs

  • RL 在 Deriving 大语言模型泛化中的作用一直是广泛讨论的主题
  • 近期工作对于 RL 是否能将推理能力扩展到 Base Model 能力之外提出了不同的看法,文献中出现了相互对立的观点
  • On the one hand,多项研究警告不要高估 RL 推动 Base Model 边界的能力
    • Yue 等人 (2025) 认为,虽然经过 RL 训练的模型在较小的 pass@k 值(例如 k=1)上可能优于 Base Model ,但随着 k 增加(例如 k=128),性能优势会减弱
      • 他们的覆盖率和困惑度分析表明,经过 RL 训练的模型的推理能力最终仍受限于 Base Model 的表征能力
    • Additionally,Wu等人 (2025) 提供了一个理论框架,断言 RL 无法超越 Base Model 固有的局限性,从而挑战了 RL 能够实现新的、可泛化的推理技能的观点
  • On the other hand,也有强有力的论据支持 RL 能够实现泛化,尤其是在 Base Model 表现不佳的任务上
    • Liu 等人 (2025b) 强调了 ProRL 在提高合成推理任务性能方面的成功,在这些任务中 Base Model 表现出显著的局限性
    • Sun 等人 (2025a, 2025b) 进一步支持了这一观点,提供了明确的证据表明 RL 有潜力为复杂的任务族引入新的策略
    • Yuan 等人 (2025) 提出了一个合成函数组合任务,证明经过 RL 训练的模型可以泛化到 Base Model 无法处理的未见过的函数组合
  • 论文通过提供实证证据表明这两种观点并不相互排斥,从而为这场持续的辩论做出了贡献
    • Instead,论文表明, RL 能够驱动泛化的条件是微妙且复杂的,它取决于 Base Model 的推理原始技能以及 RL 微调中使用的 Post-training 数据的性质

Understanding LMs via Controlled Experiments

  • 几项先前工作 (2025; 2025b; 2025a) 强调了受控实验在理解大语言模型能力方面的重要性
  • However,这类工作主要侧重于为后期 RL 设计的合成任务,这可能无法完全捕捉从 Pre-training 到 Post-training 的全谱推理任务的复杂性
  • 特别是在推理任务的背景下,受控设置允许研究人员分离特定因素,例如数据污染、随机猜测答案,以及控制不同训练阶段的推理原始技能
  • 论文基于Ye等人 (2024) 的工作设计受控实验,以合成 GSM-style 推理任务 (2021; 2024; 2025; 2025b),从而在这一工作基础上进行了扩展

附录 A.1 Data Generation Framework

  • 本节提供了整篇论文所使用的可控数据生成框架的正式细节:
    • (i) 每个推理实例背后的图级形式化定义
    • (ii) 将结构与数值和语言实例分离的抽象机制
    • (iii) 将图映射到自然语言问题的上下文渲染函数
    • (iv) 具体的生成流程和去重过程

附录 A.1.1 图级形式化定义(Graph-Level Formalism)

  • 每个推理实例都基于一个有向无环图(directed acyclic graph, DAG)建立:
    $$
    \mathcal{G}=(\mathcal{V},\mathcal{E}),
    $$
    • 其中每个节点 \(v_{i} \in \mathcal{V}\) 代表一个潜在量(例如,“成年狮子的数量”),每条有向边 \((v_{j} \to v_{i}) \in \mathcal{E}\) 编码一个函数依赖关系
    • 论文将依赖关系限制为基本算术运算:
      $$
      v_{i}=f_{i}\big((v_{j})_{j\in\text{pa}(i)}\big), \qquad f_{i} \in \{+,-,\times,\div\},
      $$
      • 其中 \(\text{pa}(i)\) 是节点 \(i\) 的父节点集合
  • 给定所有叶节点的数值赋值,论文递归地定义一个评估映射:
    $$
    \text{val}:\mathcal{V}\rightarrow\mathbb{R}
    $$
    • 其定义为:
      $$
      \text{val}(v_{i})=f_{i}\big(\{\text{val}(v_{j})\}_{j\in\text{pa}(i)}\big),
      $$
  • 基本情况由叶节点值给出,对于一个指定的查询节点 \(v^{*}\),真实答案为:
    $$
    a^{*}:=\text{val}(v^{*}).
    $$
  • 在论文所基于的 GSM-Infinite 实现 (2025a) 中,查询节点 \(v^{*}\) 对应:
    • 前向(forward) 生成器中拓扑顺序的最后一个数值节点,或
    • 方程风格逆向(equation-style reverse) 生成器中特定的未知参数
  • 贯穿全文(Throughout),DAG \(\mathcal{G}\) 被视为符号推理图,其结构在不同的数值实例化和语言实现之间共享
  • 推理复杂度(Reasoning Complexity). :论文通过算术运算的数量来量化实例的结构复杂度:
    $$
    \text{op}(\mathcal{G})=|\mathcal{E}|.
    $$
    • 这个量规定了计算 \(a^{*}\) 所需的最小组合推理链长度下限,也是论文研究外推(深度方向)泛化时变化的主要调控参数

附录 A.1.2 抽象参数与实例参数(Abstract and Instance Parameters)

  • 遵循 GSM-Infinite 的抽象机制,论文明确地将结构、数值实例化和语言上下文分离开
  • 抽象参数(Abstract Parameters).
    • 每个图 \(\mathcal{G}\) 关联着一组 抽象参数 ,这些参数:
      • 指定存在哪些变量以及它们如何分解(例如,“动物总数”分解为“狮子”和“大象”),以及
      • 确定边集 \(\mathcal{E}\) 和附加在每个节点上的操作 \(f_{i}\)
    • 这些参数定义了一个纯符号图,独立于具体的数字或实体
  • 实例参数(Instance Parameters).
    • 给定一个抽象图,实例参数用具体的值和实体对其进行实例化:
      • 对叶节点的数值赋值(例如,“有 12 头成年狮子和 7 头小象”),以及
      • 将变量绑定到特定上下文的表层形式(例如,“城市动物园里的成年狮子”)
    • 在同一抽象图上实例化不同的数值,会产生一系列结构相同、仅在具体数字上有所区别的问题
  • 隐式推理(Implicit Reasoning).
    • 并非所有的抽象依赖关系都需要在自然语言问题中明确表述
    • 对于给定的语言渲染,边集可以划分为:
      $$
      \mathcal{E}=\mathcal{E}_{\text{explicit} } \cup \mathcal{E}_{\text{implicit} }, \qquad \mathcal{E}_{\text{explicit} } \cap \mathcal{E}_{\text{implicit} } = \emptyset,
      $$
    • 其中 \((v_{j} \to v_{i}) \in \mathcal{E}_{\text{explicit} }\) 表示文本中直接陈述的关系(例如,“大象比狮子多 5 头”),而 \((v_{j} \to v_{i}) \in \mathcal{E}_{\text{implicit} }\) 表示属于真实推理图但从未直接表述的关系(例如,“动物总数等于狮子数加大象数”)。这种分离允许显式和隐式推理步骤共存于同一个底层图中,并使论文能够探究模型恢复未明言依赖关系的能力

附录 A.1.3 上下文渲染(Contextual Rendering)

  • 为了将符号图映射到自然语言问题,论文引入了上下文渲染函数:
    $$
    \Phi:(\mathcal{G},\tau)\mapsto x,
    $$
    • 其中 \(\tau \in \mathcal{T}\) 是一个上下文模板 ,而 \(x\) 是生成的文本实例
  • Templates
    • 一个模板 \(\tau\)(例如,animals-zoo、teachers-school、movie-festival)规定了:
      • 抽象变量如何词汇化为领域特定的表层形式(例如,“成年狮子”、“A班的学生”、“第1天售出的票”),以及
      • 哪些边的子集在措辞中被显式实现,从而决定了 \(\mathcal{E}_{\text{explicit} }\) 和 \(\mathcal{E}_{\text{implicit} }\) 之间的划分
    • 对于任何两个仅在表面上下文上不同的模板 \(\tau_{a},\tau_{b} \in \mathcal{T}\),它们引发的问题在结构上保持相同:
      $$
      \text{Struct}(\Phi(\mathcal{G},\tau_{a}))=\text{Struct}(\Phi(\mathcal{G},\tau_{b})), \quad \forall,\tau_{a},\tau_{b} \in \mathcal{T},
      $$
      • 尽管它们的表层实现、实体以及显式/隐式划分可能不同
      • Thus,一个单一的抽象图可以被渲染成语义不同但结构等价的问题,论文利用这一点来研究上下文(广度方向)泛化
  • Solution Format
    • 渲染函数生成一个三元组:
      $$
      x=(\text{[question]},\text{[solution]},\text{[answer]}),
      $$
      • [question] 是由符号图 \(\mathcal{G}\) 提出的问题的自然语言表示,通常包括对图中某个方面的查询(例如,“第1天卖出了多少张票?”)
        • 它抽象了底层结构,并为解答提供了上下文
      • [solution] 是一个遵循符号图 \(\mathcal{G}\) 拓扑顺序的逐步推导过程
        • 它包括中间推理步骤和图中元素之间的逻辑联系,最终导向最终答案。该解答明确展示了问题的每个部分是如何推导或计算的
      • [answer] 是对 [question] 中提出的查询的最终回应,通过 [solution] 过程推导得出
        • 它通常是一个数值或特定实体,用于回答问题
  • 这种结构确保了渲染输出既是人类可读的,又在逻辑上与底层符号图保持一致,在保持原始问题完整性的同时使其可以用自然语言表达

附录 A.1.4 生成流程与结构调控参数(Generation Pipeline and Structural Knobs)

  • 论文的数据生成器遵循一个阶段式过程,类似于 GSM-Infinite 的前向和反向生成器:
  • 1)结构采样(Structural sampling).
    • 论文首先采样定义依赖图的结构调控参数:
      • 针对 \(\mathrm{op}(\mathcal{G})\) 的目标运算计数范围;
      • 控制扇入和深度的图形形状参数(例如,允许的入度、分层模式);以及
      • 附加到节点上的操作类型 \(f_{i} \in \{+,-,\times,\div\}\)
    • 这些选择决定了一个具有唯一查询节点 \(v^{*}\) 的分层 DAG \(\mathcal{G}\)
  • 2)抽象与实例参数化(Abstract and instance parameterization).
    • 给定 \(\mathcal{G}\),论文采样抽象参数(变量角色和分解)和实例参数(叶节点的数值),并使用上面定义的评估映射 val 按拓扑顺序评估所有节点值
  • 3)上下文渲染(Contextual rendering).
    • 论文选择一个模板 \(\tau \in \mathcal{T}\) 并应用渲染函数 \(\Phi(\mathcal{G},\tau)\) 以获得一个自然语言三元组(问题、问题描述、解答),决定哪些依赖关系被语言化(显式)以及哪些保持隐式
  • 4)前向模式与反向模式(Forward vs. reverse modes).
    • 遵循 (2025a),论文支持两种生成模式:
      • 在 forward 模式中,论文生成一个标准的算术文字问题,其中查询的是拓扑顺序中的最后一个节点
      • 在 reverse 模式中,论文将一个节点视为未知数,并构建一个方程风格的问题,模型必须求解该量,而图中的其余部分则完全指定
  • 通过联合改变下面的两个维度,论文获得了一个用于研究深度扩展和上下文迁移的清晰二维测试平台:
    • (i) 运算计数 \(\mathrm{op}(\mathcal{G})\)
    • (ii) 模板 \(\tau\)
    • 相同的框架用于定义 Pre-training 、 Mid-training 和 Post Training 的不同数据分布,通过从 \((\mathrm{op}(\mathcal{G}),\tau)\)-Space 的不同区域采样来实现

附录 A.1.5 去重与规范化(Deduplication and Canonicalization)

  • 为了保证数据集的纯净性并避免训练和评估拆分之间的污染,作者在渲染三元组级别执行基于哈希的精确去重
  • 每个实例通过以下方式规范化:
    • 将三元组(问题描述、问题、解答)序列化为规范化的字符串表示(例如,去除多余空白、规范化数字格式),以及
    • 对此规范形式进行哈希以获取全局标识符
  • 论文丢弃任何拆分内和跨拆分的重复哈希值,确保相同的“问题-解答”三元组不会同时出现在训练和评估中

附录 A.2 Task Setup

  • 在实际部署中,语言模型(Language Models,LM)通常需要沿着两个互补的维度进行推理泛化 (2025; 2025b; 2025)
  • 论文的可控数据集使这些维度变得明确,并允许论文探究 Pre-training 、 Mid-training 和 Post Training 如何塑造每种类型的泛化
  • 符号表示(Notation).
    • 令 \(f_{\theta}^{\text{pre} }\)、\(f_{\theta}^{\text{mid} }\) 和 \(f_{\theta}^{\text{post} }\) 分别表示经过 Pre-training 、经过额外 Mid-training 和经过 Post Training(RL)的语言模型
    • 论文使用下面评估协议中定义的严格度量,将模型在由图 \(\mathcal{G}\) 在模板 \(\tau\) 下生成的实例上的正确性记为 \(\text{Correct}(f,\mathcal{G},\tau)\)
  • 外推(深度)泛化(Extrapolative (Depth) Generalization).
    • 论文用每个训练阶段 \(\phi \in \{\text{pre},\text{mid},\text{post}\}\) 所见的运算计数范围对其进行参数化
    • 令 \(\mathcal{O}_{\phi}\) 为阶段 \(\phi\) 训练分布中存在的 \(\text{op}(\mathcal{G})\) 值集合,并令:
      $$
      \mathcal{O}_{\text{train} }=\mathcal{O}_{\text{pre} }\cup\mathcal{O}_{\text{mid} }\cup\mathcal{O}_{\text{post} }.
      $$
    • 一个分布内评估条件使用满足 \(\text{op}(\mathcal{G}) \in \mathcal{O}_{\text{train} }\) 的图,而一个外推(分布外,OOD)条件评估满足以下条件的图:
      $$
      \text{op}(\mathcal{G})>\max\mathcal{O}_{\text{train} }.
      $$
    • 如果一个模型在这些更长、未见过的运算上保持高过程验证准确率,同时在分布内任务上保持稳定,则表明其具有外推泛化能力
    • 通过填充 \(\mathcal{O}_{\text{pre} }\)、\(\mathcal{O}_{\text{mid} }\) 和 \(\mathcal{O}_{\text{post} }\) 的不同难度范围,我们可以分离每个阶段对深度方向泛化的贡献
  • 上下文(广度)泛化(Contextual (Breadth) Generalization).
    • 一个固定的推理图 \(\mathcal{G}\) 可以在不同模板下被渲染成结构等价的实例:
      $$
      \text{Struct}(\Phi(\mathcal{G},\tau_{a}))=\text{Struct}(\Phi(\mathcal{G},\tau_{b})) \quad \text{in principle},
      $$
    • 论文的数据集在训练过程中是_随机采样_的,并未刻意在不同模板间对齐图
      • As a result, 大多数图在训练期间仅在一部分上下文中被观察到
    • 令 \(\mathcal{T}_{\phi}^{\text{train} }\) 表示训练阶段 \(\phi\) 中暴露的模板,\(\mathcal{T}^{\text{eval} }\) 表示更广泛的评估池,包括长尾模板
      • 如果一个模型在阶段 \(\phi\) 能够在叙事表层形式发生变化时保持推理性能,即使新的上下文在 Mid-training 从未遇到过,则该模型展现了上下文泛化:
        $$
        \text{Acc}(f_{\theta}^{\phi},\mathcal{G},\tau_{a})\approx\text{Acc}(f_{\theta}^{\phi},\mathcal{G},\tau_{b}),\qquad\tau_{b}\notin\mathcal{T}_{\phi}^{\text{train} }.
        $$
    • 在这种设置下,上下文泛化衡量的是模型是否学到了可迁移的 推理原语 ,而不是记住了任务风格,使其能够在已知、未见和长尾的叙事环境中应用相同的结构性推理

附录 A.3 Training Setup

附录 A.3.1 Model Architecture

  • 论文使用具有 100M 参数、 Decoder-only Qwen2.5 架构 (2025) 模型进行实验
  • 详细的架构配置如表 1 所示

附录 A.3.2 Tokenizer and Input Representation

  • 论文遵循《语言模型的物理学》(Physics of Language Models)系列 (Allen-Zhu, 2024; 2024),直接在合成推理语料库上训练一个字节对编码(BPE)分词器
  • 得到的分词表有 2,200 个 Token(包括 Special Token)
    • 所有问题、提问和解答都以最大序列长度 2,048 个 Token 进行分词
  • 问题:模型过小了,只有 100M,而且给出的 Token 长度限制也才 2K,不太够数学推理

附录 A.3.3 Hyperparameters

  • Pre-training.
    • 所有实验都从一个在论文可控推理语料库上从头开始训练的 100M 参数 Qwen2.5 模型开始,使用 \(100\times\) 的 token-to-parameter ratio, Pre-training 10B Token
    • 论文使用上下文长度 2048 Token ,批次大小 512K Token ,学习率 \(2\times 10^{-4}\),权重衰减 \(0.1\),余弦衰减,最小学习率 \(3\times 10^{-5}\),预热比例 \(5%\),并在语料库上训练一个 epoch
    • 所有模型都以 bf16 精度训练
  • Mid-training.
    • 从 Pre-training 检查点开始,论文在第 5 节执行了一个额外的可选课程学习
    • 论文使用最大序列长度 2,048 进行训练
    • 论文使用全局批次大小 512K Token ,学习率 \(1\times 10^{-4}\),权重衰减 \(0.1\),余弦衰减,最小学习率 \(3\times 10^{-5}\),以及更高的预热比例 \(15%\)
  • Post Training (Post-training).
    • 最后,论文使用 GRPO (2025) 进行 RL 微调
    • 论文使用全局批次大小 1,024 个样本,最大提示和响应长度 1024 Token ,训练两个 epoch
    • Actor 使用学习率 \(1\times 10^{-6}\),PPO 小批次大小 256,每个 GPU 的微批次大小 16,KL 正则化系数 \(10^{-3}\)(低方差 KL 惩罚),无熵奖励
    • 在 RL 回合采样期间,论文使用温度 \(T_{\text{RL} }=1.0\),top-\(p=1.0\),且无 top-\(k\) 截断(全核采样)进行采样
    • 对于离线评估和报告,论文使用温度 \(T_{\text{eval} }=0.7\),top-\(p=1.0\),top-\(k=-1\)(无截断)生成,每个问题最多生成 1,024 个新 Token

附录 A.3.4 性能阶梯(Performance Ladder)

  • 性能阶梯根据任务难度定义了三个关键级别:
    • 1)分布内任务(In-distribution tasks) (op=2-10): 目标是接近 100% 的 pass@128 准确率;
    • 2)OOD边缘任务(OOD-edge tasks) (op=11-14): 确保非零的 pass@128 性能;
    • 3)OOD困难任务(OOD-hard tasks) (op=15-20): 目标是零 pass@128 准确率,标志着模型的能力极限
  • Post Training 在能力边缘进行,确保模型能泛化到更难的任务
  • 图 9 显示了跨这些性能级别的 Training Dynamics 细分

附录 A.4 Process-Verified Evaluation

  • 给定一个具有真实图 \((\mathcal{G},a^{*})\) 的输入实例,模型生成一个自由形式的解答 \(s\)
  • 论文确定性地将 \(s\) 解析为预测的依赖图:
    $$
    \hat{\mathcal{G} }=(\hat{\mathcal{V} },\hat{\mathcal{E} },\widehat{\operatorname{val} }), \qquad \hat{a},
    $$
    • 其中 \(\hat{\mathcal{V} }\) 中的节点对应解答中命名的中间量,\(\hat{\mathcal{E} }\) 编码每个步骤依赖于哪些先前定义的量,\(\widehat{\operatorname{val} }\) 存储每个节点的推断数值,而 \(\hat{a}\) 是提取的最终答案
    • 解析器将解答分割为“定义 … 为 …”的步骤,从每个步骤使用的变量推断其依赖关系,并评估步骤中最后一个可计算的算术表达式(如果需要则回退到最后一个数字字面量)以获得数值。这产生了与 gold dependency graph 对齐的模型推理轨迹的图级表示
  • 令 gold graph 为下面的形式,具有节点集 \(\mathcal{V}\)、边集 \(\mathcal{E}\) 和值映射 \(\operatorname{val}\):
    $$
    \mathcal{G}=(\mathcal{V},\mathcal{E},\operatorname{val}), \qquad a^{*},
    $$
  • 论文在 Step-level 评估推理过程,对于每个黄金节点 \(v \in \mathcal{V}\),定义一个每步骤正确性指示器:
    $$
    s(v;\hat{\mathcal{G} },\mathcal{G})=\begin{cases}
    1, &\text{如果 } v \in \hat{\mathcal{V} },\ \operatorname{pa}_{\hat{\mathcal{G} } }(v)=\operatorname{pa}_{\mathcal{G} }(v),\ \text{and} \\
    &\operatorname{val}(v),\widehat{\operatorname{val} }(v) \ \text{are both defined and } \widehat{\operatorname{val} }(v)= \operatorname{val}(v),\
    0, &\text{otherwise},
    \end{cases}
    $$
    • 其中 \(\operatorname{pa}_{\mathcal{G} }(v)\) 和 \(\operatorname{pa}_{\hat{\mathcal{G} } }(v)\) 分别表示黄金图和预测图中 \(v\) 的父节点集(依赖关系)
    • 缺失节点、不正确的依赖集或不匹配的数值都会导致 \(s(v;\hat{\mathcal{G} },\mathcal{G})=0\)
  • 论文将预测推理轨迹的 过程准确率(process accuracy) 定义为所有黄金节点的平均 Step-level 准确率:
    $$
    \text{ProcessAcc}(\hat{\mathcal{G} };\mathcal{G})=\frac{1}{|\mathcal{V}|}\sum_{v\in\mathcal{V} }s(v;\hat{\mathcal{G} },\mathcal{G}).
    $$
    • 允许额外的预测节点 \(v \in \hat{\mathcal{V} } \setminus \mathcal{V}\),它们不影响过程准确率;它们对应于冗余但兼容的中间步骤
  • 只有当推理图和最终答案都匹配时,预测才被视为完全正确,论文通过验证正确性(verified correctness)来形式化这一点:
    $$
    \text{VerifiedCorrect}(\hat{a},\hat{\mathcal{G} };,a^{*},\mathcal{G})=\begin{cases}
    1, &\text{IF ProcessAcc}(\hat{\mathcal{G} };\mathcal{G})=1\text{ and }\hat{a}=a^{*},\
    0, &\text{otherwise}.
    \end{cases}
    $$
  • Accordingly,本工作中报告的所有 pass@k 指标(例如,pass@1、pass@128)仅当模型满足下面两个条件,才将样本视为正确
    • (i) 正确预测了每个黄金步骤( Step-level 过程准确率 = 1)
    • (ii) 产生了正确的最终答案时
    • 这个严格的标准确保报告的收益反映了真实、可靠的推理,而非偶然的正确性

附录 A.5 第 3 节的 Training Dynamics (Training Dynamics for § 3)

  • 本节详细分析了不同 Post Training 方法在外推泛化中的 Training Dynamics
  • 跨评估范围的负对数似然减少(NLL Reduction Across Evaluation Ranges).
    • 论文分析了第 3 节中使用的不同 Post Training 方法及其对各种评估运算范围的负对数似然减少的影响
  • 从图 10 我们可以观察到:
    • Post Training 持续减少了所有评估范围的负对数似然,其中在 op=11-14 范围内获得了最显著的增益
    • 这表明模型有效地学会了组合原子技能以处理更复杂的问题
  • Post-training Dynamics
    • 论文进一步研究了不同 Post Training 方法期间奖励动态的变化
    • 从图 11 论文观察到
      • 在与模型能力边缘对齐的任务(op=9-12 和 op=11-14)上进行 Post Training 会带来显著的奖励提升,表明学习有效
      • 相反,当任务太简单(op=7-10)或太难(op=17-20)时,奖励会趋于平稳,表明在这些机制下学习进展有限

附录 A.6:Detailed Analysis of Post-Training Effects on Contextual Generalization

  • 在本节中,论文将详细分析不同的 Post Training 数据方案在给定 Pre-training 阶段原子推理原语的情况下,如何影响对长尾上下文(long-tailed contexts)的上下文泛化

附录 A.6.1 当推理原语在 Pre-training 中共享时 (When Reasoning Primitives are Shared During Pre-Training)

  • 除了掌握基本的推理技能,模型泛化的一个重要维度在于上下文泛化 (contextual generalization) ,即跨不同问题上下文(例如变化的表面叙事或领域)迁移所学推理行为的能力
  • 在本节中,论文研究 Post Training 是否能激励模型将推理能力泛化到长尾 (long-tailed) 或在 Pre-training 中极少观察到的上下文
Task Setting
  • 论文研究两个不同的问题上下文:一个频繁的、规范的 Context A 和一个长尾的 Context B ,两者共享相同的基础推理先验(在论文的例子中是逻辑-算术推理,详细的上下文设置见附录 A.9)
  • Pre-training 语料由 99.9% 的 Context A(op=2-20)和仅 0.1% 的 Context B(op=2-20)组成
  • 在 Post Training 期间,论文在 200K 个样本中改变对 Context B 的暴露比例:0%、2%、10%、50% 和 100%
Summary 5
Observation 5
  • 当 Pre-training 中共享推理原语时, Post Training 期间对 Context B 的暴露程度与模型在 Context B 上的性能呈正相关
  • Notably,即使在 Post Training 期间完全没有暴露于 Context B(0%),模型仍能实现显著的迁移,这突显了共享原语在实现上下文泛化中的作用
Takeaway 5
  • 当原子原语被共享时, Post Training 可以激励模型向长尾上下文泛化
  • Remarkably,即使 Post Training 对 Context B 的暴露为 0%,模型也能实现实质性的迁移,这凸显了 Pre-training 阶段共享推理结构的关键作用
  • 图 12:
    • 经过 Post Training (对 Context B 的暴露比例不同)后,在上下文泛化任务上的 pass@k 性能
    • 当 Pre-training 中共享推理原语时,即使在后续 Mid-training 对 Context B 的暴露有限或为零,模型也表现出向 Context B 的强迁移能力

附录 A.6.2 当 Pre-training 中仅暴露原子原语时 (When Only Atomic Primitives are Exposed During Pre-Training)

  • 本节研究当 Base Model 在 Pre-training 中仅暴露于长尾上下文的基本原子原语(basic atomic primitives)时的上下文泛化
Task Setting
  • 使用与上述相同的上下文数据分布,论文在 Pre-training 期间将 Context B 的数据限制为仅包含原子操作,而 Context A 则覆盖全范围操作
  • Pre-training 语料由 99% 的 Context A(op=2-20)和仅 1% 的 Context B 组成,且 Context B 仅限于原子操作(op=2)
    • Thus,模型主要通过 Context A 学习推理结构,而对 Context B 的 surface forms 仅有极少的暴露
    • 在 Post Training 期间,论文使用 200K 个样本进行 RL 微调,其中 Context B 数据的比例在五个方案中变化:0%、1%、10%、50% 和 100%
    • 详细的数据方案见附录 A.9
  • 如图 13 所示:
    • 仅在 Context A 上进行 Post Training 或对 Context B 的暴露极其稀疏(0-1%)时,模型在 Context A 内保持强劲性能,但对长尾 Context B 的迁移极小
      • 理解:这里的 1% 和前面提到的 1% 覆盖是不同的,不然就矛盾了
    • However,一旦引入少量 Context B 数据(约占总体样本的 10%)Context B 的性能急剧提升,pass@128 准确率增加超过 +76 点
    • 进一步增加 Context B 数据的比例(50%、100%)带来的增益递减,表明一旦提供了最小的监督,RL 就能快速建立起稳健的跨上下文推理
    • Notably,即使 Post Training 使用100% Context B 数据(与主要的 Pre-training 上下文完全不同)模型在 Context A 上的性能仍然保持稳定
      • 这表明 RL 使模型能够学习可迁移的推理策略,这些策略可以跨 surface forms 进行扩展,同时保留在先前已掌握上下文中的能力
      • 理解:这里再次说明了 RL 的训练过程是很少发生灾难性遗忘的
  • 图 13:
    • Base Model 在 Context B 仅限于基础原子操作时的 pass@k 性能
    • 仅在 Context A 上进行 Post Training 能保持稳定性能,而在 RL 中引入 10% 的 Context B 数据则能实现上下文迁移

A.6.3 Training Dynamics for § A.6.2

  • 本节绘制了 § A.6.2 中使用的不同数据方案下的 Post Training 奖励动态,以进一步理解 RL 期间对长尾上下文的暴露程度变化如何影响学习进展
  • 从图 14 中我们可以观察到
    • 当 Post Training 期间对 Context B 的暴露极其有限(0-1%)时,奖励趋于平稳,表明学习进展甚微
    • 然而,在适度暴露(10-100%)下,奖励显著提升,反映了有效的学习和对长尾上下文的迁移
  • 图 14:
    • 不同 Post Training 数据方案下的奖励动态
    • 当 RL 对 Context B 的暴露极其有限(0-1%)时,奖励停滞不前
    • 然而,在适度暴露(10-100%)下,奖励显著提升,反映了有效的学习和迁移

附录 A.7 Detailed Analysis of Pre-Training Effects on Extrapolative Generalization**

  • Pre-training 定义了 Post Training 后期可以组合和扩展的原子推理原语
    • 如果 Base Model 在 Pre-training 期间已经遇到中等复杂的问题, Post Training 可能会将这些原语推向更深层的组合推理
    • Otherwise,Post Training 可能缺乏超越其继承能力范围的探索支架
    • 因此,作者研究不同的 Pre-training 难度如何影响后续的外推泛化

Task Setting

  • 论文将 Post Training 方案固定为来自 op=11-14 范围的 200K 个样本,先前已确定此范围为能力边缘(见图 3)
  • 然后改变 Pre-training 期间包含的“困难”数据(op=7-10)的比例,以评估对复杂原语的暴露如何影响 Base Model 在 RL 后的泛化能力
    • (详见附录 A.9 的数据方案)

Summary 7

Observation 7
  • 如图 15 所示
    • 在 Pre-training 中更多地暴露于困难问题,持续地提升了基础和经过 Post Training 的性能
    • However,来自 RL 的边际增益随着 Pre-training 变得更全面而减小
    • 当 Pre-training 已经覆盖了相当一部分中等深度任务时,RL 仅带来适度的改进
    • By contrast,当 Pre-training 包含有限但非平凡的困难原语暴露(例如,20% 的 op=7-10 数据)时,RL 产生了最大的相对提升(将 op=15-20 上的 pass@128 准确率提高了超过 +22 点)
      • 这表明,当模型的先验能力是部分的时候,足够强以支持探索,但又足够不完整以留有发现空间,RL 是最有效的
  • 图 15:在 Pre-training 期间不同困难数据暴露水平下, Post Training (op=11-14)后在外推任务上的 pass@128 性能
Takeaway 7
  • Pre-training 奠定基础,RL 对其进行扩展
    • 在 Pre-training 期间丰富地暴露于组合原语,使 RL 能够将推理深度推到超出 Pre-training 范围
    • 但一旦这些原语被完全掌握,RL 的益处就会逐渐减少,这突显了两个阶段的互补作用

附录 A.7.1:第 A.7 节的 Training Dynamics (Training Dynamics for § A.7)

  • 论文分析了在不同 Pre-training 数据方案下 Post Training 期间的 Training Dynamics
  • 图 16:不同 Pre-training 数据方案下的奖励动态
    • 在 Pre-training 期间有适度困难数据暴露(20-50%)的模型在 Post Training 期间表现出显著的奖励提升,表明有效的学习和外推
    • In contrast,困难数据暴露过少(0%)或过多(100%)的模型显示出有限的奖励增益,表明学习进展受限

附录 A.8:Training Dynamics for § 4

  • 本节分析了 § 4 中上下文泛化的不同 Pre-training 数据方案的 Training Dynamics
  • 从图 17 中观察到
    • 在 Pre-training 期间对长尾上下文(即使是基础原子)的适度暴露比例,对于模型在 Post Training 期间实现显著的奖励提升是必要的
  • 图 17:不同 Pre-training 数据方案下的奖励动态
    • 对长尾上下文暴露最少的模型在 Post Training 期间没有奖励提升
    • 而对长尾上下文有中等至完全暴露的模型则显示出显著的奖励提升,表明有效的学习和上下文泛化

附录 A.9:Post-Training and Pre-Training Data Recipe

  • 本节详述了在 § 3、§ 4、§ A.6.1、§ A.6.2 和 § A.7 中使用的数据方案。表 2 总结了在不同实验部分中使用的具体操作计数范围、上下文模板和训练预算
  • 表 2:§ 3、§ 4、§ A.6.1、§ A.6.2 和 § A.7 中 Pre-training / Post Training 实验的数据方案
    • op(\(\mathcal{G}\)) 范围表示每个训练阶段的操作计数
    • Context A、B、C 对应于不同的模板:A = animals–zoo, B = teachers–school, C = movie-festival
    • 不同操作范围和上下文的数据方案均在指定比例内均匀采样
    • 阴影单元格表示消融设置

附录 A.10:不同计算预算下的 Mid-training / Post Training 混合 (Mid-/Post-Training Mixing with Different Computation Budget)

  • 本节首先详述 Mid-training 和 RL 等价的计算预算公式,然后提供在不同总计算预算下组合 Mid-training 和 Post Training 的确切数据方案

附录 A.10.1 Mid-training 与 RL 等价的计算预算 (Compute Budget of Mid-Training and RL Equivalence)

  • 训练计算量 (Training Computation)
    • 根据 Chinchilla 缩放定律 (2022),一个具有 P 个非嵌入参数的 Decoder-only Transformer,在 T 个 Token 上训练消耗的计算量大约为:
      $$
      C_{\text{train} } \approx 6P T \quad \text{flops}
      $$
    • Thus,预算为 \(T_{\text{mid} }\) 的 Mid-training 阶段消耗
      $$ C_{\text{mid} } = 6P T_{\text{mid} } \quad \text{flops}$$
  • 细粒度 RL 计算量 (Fine-Grained RL Computation)
    • 对于 On-policy GRPO,计算可以分解为:
      • Rollout: Actor 模型前向传播(2P),
      • Reference(可选): 参考模型前向传播(2P),
      • Policy Update 前向传播(2P)和后向传播(4P)
    • 求和这些项得到:
      $$
      C_{\text{RL} } = (8 + 2\gamma)P N r L_{\text{total} },
      $$
      • 其中 \(\gamma \in \{0,1\}\) 切换参考模型的前向传播,\(N\) 是 RL 样本数,\(r\) 是 Rollout 大小,\(L_{\text{total} }\) 是总序列长度(包括提示和补全)
  • Mid-training Token 等价 (Mid-training Token Equivalence)
    • 通过方程 4 归一化得到等价的 Mid-training Token 成本:
      $$
      T_{\text{RL} } = \frac{C_{\text{RL} } }{6P} = \left(\frac{4}{3} + \frac{\gamma}{3}\right) N r L_{\text{total} }
      $$
    • 当 \(\gamma = 1\) 时,论文得到正文中使用的等价关系:
      $$
      \boxed{T_{\text{RL} } = \frac{5}{3} N r L_{\text{total} } }
      $$
  • 预算分配与步数计算 (Budget Allocation and Step Calculation)
    • 给定总预算 T 和 RL 比率 \(\beta\),
      $$
      T_{\text{mid} } = (1-\beta) \cdot T, \qquad T_{\text{RL,eq} } = \beta \cdot T
      $$
    • 相应的 RL 样本数 \(N(\beta)\) 和更新步数为:
      $$
      N(\beta) = \frac{3}{5} \cdot \frac{\beta T}{r L_{\text{total} } }, \qquad \text{steps}_{\text{RL} }(\beta) = \frac{N(\beta)}{B},
      $$
      • 其中 \(r = 6\) 是 Rollout 大小,\(L_{\text{total} } = 2048\) 是总序列长度,\(B = 1024\) 是 RL 批次大小,T 是总 Token 预算
    • Mid-training 的步数为:
      $$
      \text{steps}_{\text{mid} }(\beta) = \frac{T_{\text{mid} } }{B_{\text{mid} } \cdot L_{\text{mid} } },
      $$
    • 其中 \(B_{\text{mid} } = 512 \times 1024\) 是 Mid-training 的批次大小,\(L_{\text{mid} } = 2048\) 是 Mid-training 的序列长度
Task Setting
  • 论文使用 10B Token 进行 Pre-training ,其中 20% op=2-4,30% op=5-7,50% op=8-10
  • 为避免 Mid-training 期间的灾难性遗忘,论文在 Mid-training 期间使用 20% 的预算用于 op=2-10,80% 用于 op=11-14。为公平比较,RL 使用与 Mid-training 相同的数据分布进行。表 3 详述了在不同总 Token 预算 T 和 Mid-training 比率 p 下, Mid-training 和 RL 的确切步数。论文在不同的总计算预算下,使用完全 Mid-training (Full mid-training)、完全 RL (Full RL)、 Light RL (\(\beta=0.2\))、Medium-RL (\(\beta=0.5\)) 和Heavy-RL (\(\beta=0.8\)) 进行中/ Post Training
Summary 8
Observation 8
  • 如图 18 所示
    • 在所有计算预算下
      • Light RL 取得了最佳的 OOD-edge pass@1 性能
      • Heavy-RL 始终获得最高的 OOD-hard pass@1 性能
    • 对于 pass@128,当计算预算有限(4.2B Token)时,Heavy-RL 在 OOD-hard 设置中取得最佳性能
    • 当预算增加(8.4B Token 及以上)时,完全 RL 达到最高的 OOD-hard pass@128 性能
  • 图 18:不同总计算预算下, Mid-training 和 RL 混合比率对应的 pass@k 性能
Takeaway 8
  • Mid-training 和 Post Training 在不同的计算预算下互为补充
    • 对于 pass@1 任务, Mid-training 和 RL, Post Training 的组合始终优于任一单独的方法
    • 对于 pass@128,最优的 Post Training 分配取决于可用的计算预算:
      • 在资源有限的情况下,将大约 80% 分配给 RL 能在稳定性和探索性之间取得平衡;
      • 在计算量更充足时,完全 RL 能最大化外推增益
  • 表 3:不同计算预算规模下的实验配置
    • 将 Mid-training 的批次大小固定为 512K Token
    • 表 3 将总 Token 预算 T 映射到纯 Mid-training (p=1.0)、纯 RL(p=0.0)和混合拆分所需的特定步数
1…91011…61
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

608 posts
49 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4