Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

NLP——LLM对齐微调-RubricRL

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:RubricRL: Simple Generalizable Rewards for Text-to-Image Generation, 20251125, Microsoft CoreAI

Paper Summary

  • 整体说明:
    • 论文介绍了一个基于 Rubric 的奖励 RL 框架 为 RubricRL(为文本到图像)
    • RubricRL 通过显式地创建可配置的视觉标准(例如计数、属性、OCR 保真度、真实感)并独立地对它们进行评分,产生可解释和模块化的信号(这些信号可以与 RL 中的标准策略优化无缝集成)
  • 背景 & 问题:
    • RL 已成为一种有前景的方法,用于使文本到图像生成模型与人类偏好对齐,但一个关键的挑战在于设计有效且可解释的奖励
    • 现有方法通常依赖于具有固定权重的复合指标(例如,CLIP、OCR 和真实感分数)或从人类偏好模型提取的单一标量奖励,这可能会限制可解释性(interpretability)和灵活性(flexibility)
  • 论文方法:
    • Rubric-based 奖励设计的框架 RubricRL
    • RubricRL 提供了更高的可解释性、可组合性(composability)和用户控制力(user control)
    • RubricRL 不使用黑盒标量信号,而是为每个 Prompt 动态构建一个结构化 Rubric (一个可分解的细粒度视觉标准清单),并根据输入文本定制
      • 结构化 Rubric:例如 对象正确性、属性准确性、OCR 保真度(OCR fidelity)和真实感(realism)
    • 每个标准由多模态 Judge(如 o4-mini)独立评估,一个 Prompt 自适应加权机制会强调最相关的维度
  • 这种设计不仅为策略优化(例如,GRPO 或 PPO)产生了可解释和模块化的监督信号,还使用户能够直接调整奖励或惩罚哪些方面
    • 在一个自回归文本到图像模型上的实验表明,RubricRL 提高了 Prompt 忠实度、视觉细节和泛化能力,同时为跨文本到图像架构的可解释 RL 对齐提供了一个灵活且可扩展的基础

Introduction and Discussion

  • RL 最近已成为一种有前景的方法,用于对齐生成模型与人类偏好
  • 在 LLM 中,RLHF (2022) 和 RLVF (2024, 2025) 等框架已经证明,基于偏好反馈引导的策略优化可以显著增强忠实度、风格和可用性
  • 将这一范式扩展到文本到图像生成,包括扩散和自回归架构,提供了一种原则性的方式
    • 直接针对人类对齐的视觉质量而非基于似然的目标来优化模型
  • However,RL 在视觉领域的有效性关键取决于奖励设计:构建跨 Prompt、领域和架构都准确、可解释且可泛化的评估信号仍然是一个核心挑战
  • 现有的文本到图像 RL 框架可以大致分为多奖励混合和统一标量奖励模型两类
    • 多奖励系统(例如,X-Omni (2025),AR-GRPO (2025)):
      • 结合了异构目标,如基于 CLIP 的图文相似度 (2021)、OCR 准确度 (2025)、真实感 (2023) 和属性一致性,以共同鼓励对齐和视觉质量
      • 虽然这种方法提高了覆盖范围,但它们依赖于手动调整的加权方案,这些方案跨 Prompt 和领域可能很脆弱,并且提供的可解释性有限
    • 统一奖励模型(例如,OneReward (2025),Pref-GRPO (2025),LLaVA-Reward (2025)):
      • 从成对的人类偏好数据中学习单一标量奖励
      • 这简化了优化,但可能掩盖奖励背后的推理过程,限制可扩展性,并使得用户难以控制优先考虑哪些视觉方面
  • 在论文提出了 RubricRL ,一个用于文本到图像模型中 Rubric-based 奖励设计的简单通用框架
    • RubricRL 不依赖不透明的标量信号,而是 动态地为每个 Prompt 选择一个结构化 Rubric
      • 这里的 Rubric 即一个可分解的细粒度视觉标准清单,例如对象正确性、属性准确性、OCR 保真度、组合连贯性和真实感
      • 每个标准由多模态 Judge (例如,GPT-4o-mini)独立评估,同时一个 Prompt 自适应加权机制会突出最相关的维度
      • 这产生了可解释、模块化的监督信号,可以自然地集成到 GRPO (2025) 或 PPO (2017) 等策略优化框架中
  • 通过以人类可读和可分解的形式表达奖励,RubricRL 将奖励评估从黑盒启发式方法转变为可审计的过程,用户可以在此过程中直接检查、扩展或调整生成的哪些方面受到奖励或惩罚
    • Rubric 结构还有助于进行每个标准的诊断,为模型行为提供透明度,并简化评估和调试
  • RubricRL 与架构无关,兼容扩散和自回归文本到图像模型
    • 其 Rubric 输出进一步支持方差感知的群体优势,即使在长序列 Rollout 下也能实现稳健的更新
    • 其 Prompt 自适应设计确保每个奖励向量都反映了输入文本的显著方面,例如数字、命名实体、风格或嵌入文本,而无需手动调整
  • 论文使用一个自回归文本到图像模型验证了这个简单而有效的想法
    • 实验表明,RubricRL 提高了 Prompt 忠实度、组合准确性和视觉真实感,同时在数据集和架构上保持了高泛化能力
    • 与先前的多奖励或统一奖励方法相比,RubricRL 实现了更一致的优化行为,并实现了可控、可解释的奖励塑形
  • 图 1 提供了论文方法的可视化样本,展示了高视觉质量
  • In summary,RubricRL 的贡献如下:
    • 一个适用于扩散和自回归文本到图像模型的通用 Rubric 奖励设计;
    • 一个 Prompt 自适应、可分解的监督框架,增强了可解释性和可组合性;
    • 一个用户可控且可审计的接口,使 RL 奖励塑形变得透明且易于扩展
  • 通过基于显式视觉标准动态生成 Rubric 来操作对齐过程,RubricRL 使得用于文本到图像生成的强化学习更具可解释性、可扩展性和用户引导性,为将视觉生成与人类意图对齐提供了统一的基础

Method

  • 论文使用一个基于自回归的文本到图像模型来验证 RubricRL 框架的有效性,但它同样可以泛化到基于扩散的模型
  • 本节首先介绍论文 RubricRL 框架的总体架构,然后详细介绍 Rubric-based 奖励设计、RL 训练方法和动态 Rollout 采样

Overall architecture

  • 如图 3 所示,给定输入文本 Prompt \(p\),论文首先将其标记化为一个文本 Token 序列,然后将其输入到一个自回归文本到图像生成模型 \(\pi_{\theta}\) 中,以预测一个图像 Token 序列
    • 这些图像 Token 随后使用一个预训练的、固定的 VQ 解码器进行解码,以产生最终图像 \(I\)
  • 在论文中,论文主要关注对 \(\pi_{\theta}\) 进行 RL 后微调以进一步提高其输出质量,其中设计一个有效、可靠且可解释的奖励函数是关键挑战
  • 现有方法通常使用一个或多个专用模型来评估图像质量的不同方面,例如基于 CLIP 的图文语义对齐奖励 (2021) \(R_{\text{clip} }(I,p)\)、OCR 准确度 (2025) \(R_{\text{ocr} }(I,p)\) 和真实感 (2023)
  • 但这种方法有明显的缺点:
    • (1)部署多个专用模型计算成本高昂,难以扩展到更多方面;
    • (2)需要仔细的奖励校准和重新加权
  • 最近的工作试图从成对的人类偏好数据中学习一个单一的奖励模型,简化了优化,但由于高标注成本和较差的可解释性,可扩展性有限
  • 受到现代多模态大语言模型强大理解能力的启发,论文提出了一种简单且统一的 Rubric-based 奖励模型 ,记作
    $$ R_{\text{rubric} }(I,p,\mathcal{C}(p)) $$
    • 该模型用一个具有推理能力的视觉语言模型替换了特定任务评估器的集合
    • 论文的方法不依赖固定的子模型,而是自动构建一组可解释、Prompt 自适应的标准,称为“Rubrics”,以捕捉每个特定 Prompt \(p\) 的质量要求的基本方面
  • 具体来说,给定一个文本 Prompt \(p\),一个 Rubric 生成模型 \(\mathcal{G}\)(通过一个大语言模型实现)生成一组 Rubric :
    $$
    \mathcal{C}(p)=\mathcal{G}(p),
    $$
    • 其中 \(\mathcal{C}(p)=\{c_{1},c_{2},\ldots,c_{M}\}\) 定义了 \(M\) 个特定于 Prompt 的标准,涵盖诸如对象计数、属性准确性、文本/OCR 保真度、空间关系、美学和风格一致性等维度
    • 这确保了评估标准根据每个输入 Prompt 的语义和粒度动态适应
  • 在强化学习中,目标是调整模型参数 \(\theta\),以最大化在 Prompt 分布上的预期 Rubric-based 奖励:
    $$
    \max_{\theta}~ \mathbb{E}_{p\sim\mathcal{D},~ I\sim\pi_{\theta}(\cdot|p)}\big[R_{\text{rubric} }(I,p,\mathcal{C}(p))\big],
    $$
    • 其中 \(\mathcal{D}\) 表示 Prompt 集合
    • 一个 Rollout 对应于给定 \(p\) 从 \(\pi_{\theta}\) 中采样的单个图像,提供一个指导策略更新的奖励信号
  • 与多模型奖励系统相比,论文 Rubric-based 公式具有三个关键优势:
    • (1)简单性(Simplicity):无需多个特定任务的 Grader ;
    • (2)自适应性(Adaptivity): Rubric 为每个 Prompt 动态生成,确保与多样化用户意图的相关性;
    • (3)可解释性(Interpretability):每个奖励组件对应一个人类可读的评估标准,实现了透明的模型诊断和可控的优化

Rubric based reward

  • Rubric-based 奖励函数分两个阶段进行
    • 首先,一个Rubric 生成模型 \(\mathcal{G}\) 解释用户 Prompt \(p\) 并产生一组候选 Rubric \(\mathcal{C}(p)\)
    • 其次,一个多模态大语言模型 Grader 实现 Rubric-based 奖励 \(R_{\text{rubric} }(I,p,\mathcal{C}(p))\),该函数根据 \(\mathcal{C}(p)\) 中的每个 Rubric 对生成的图像 \(I\) 进行评分
      • 论文使用 GPT-4o-mini 来扮演这两个角色,生成特定于 Prompt 的 Rubric 并提供每个标准的判断,这些判断被聚合成一个标量奖励
Rubric construction
  • 给定一个用户 Prompt \(p\),论文要求 GPT-4o-mini 生成一个 Rubric 列表
  • 每个 Rubric 条目包含一个针对特定方面(例如,OCR 对齐、对象计数、空间关系、美学)的简短评估键,以及一个关于在图像中检查什么的简明描述
  • 为了在 Rubric 生成过程中促进多样性和减少位置偏差,论文在 Rubric 生成 Prompt 中随机排列评估方面,并多次查询 GPT-4o-mini
  • 在每一轮中,模型产生一组 Rubric (论文每次查询请求10个;因为一个 Prompt 可能描述多个对象或属性,模型可能会为一个评估键输出多个 Rubric 以确保足够的覆盖)
  • 论文将所有运行中的有效键-标准对聚合到一个统一的 Rubric 池中,丢弃模糊或格式错误的条目
  • 最后,为了消除冗余并关注最重要的信号,论文要求 GPT-4o-mini 选择前10个最相关和最关键的标准来评估从用户 Prompt \(p\) 生成的图像
Rubric-guided reward
  • 给定一个生成的图像 \(I\)、其对应的文本 Prompt \(p\) 和 Rubric 池 \(\mathcal{C}\),论文再次简单地要求 GPT-4o-mini 为每个标准输出一个单一分数 \(y_{i}\in\{0,1\}\),以反映生成的图像是否完全满足此 Rubric (\(y_{i}=1\))或不满足(\(y_{i}=0\))。总体 Rubric 奖励计算为归一化均值:
    $$
    R(I,p,\mathcal{C})=\frac{1}{M}\sum_{i=1}^{M}y_{i},\quad M=10 \tag{3}
    $$

Reinforcement learning with GRPO

  • 为了使自回归图像生成器与 Rubric-based 奖励对齐,论文采用 GRPO (2024),设计用于在分组 Rollout 上进行稳定优化
  • 对于每个 Prompt,生成的 Rollout 集合形成一个组,每个 Rollout 的奖励相对于该组进行归一化,以减少方差并改进信用分配
  • 具体来说,令 \(\pi_{\theta}\) 表示当前策略,\(R_{i}\) 表示组 \(g\) 中第 \(i\) 个 Rollout 的 Rubric 奖励, GRPO 计算相对优势:
    $$
    A_{i}=\frac{R_{i}-\bar{R}_{g} }{\sqrt{\frac{1}{|g|-1}\sum_{j\in g}\left(R_{j}-\bar{R}_{g}\right)^{2} } },\bar{R}_{g}=\frac{1}{|g|}\sum_{k\in g}R_{k} \tag{4}
    $$
  • 并通过最大化类似于 PPO 的裁剪目标来更新策略:
    $$
    \mathcal{L}(\theta)=\mathbb{E}_{i}\Big[\min\left(r_{i}(\theta)A_{i},\text{clip}(r_{i}(\theta),1-\epsilon,1+\epsilon)A_{i}\right)\Big] \tag{5}
    $$
    • 其中 \(r_{i}(\theta)=\frac{\pi_{\theta}(a_{i}|s_{i})}{\pi_{\theta,\text{old} }(a_{i}|s_{i})}\)
    • \(a_{i}\) 和 \(s_{i}\) 是对应于 Rollout \(i\) 的采样动作和状态
    • \(\epsilon\) 是 PPO 裁剪参数
  • 通过利用这种群体相对优势,GRPO 稳定了跨 Prompt 的训练,使模型对异构奖励尺度和噪声评估具有鲁棒性
  • 结合论文 Rubric-based 奖励和下文描述的动态 Rollout 选择策略,论文发现 GRPO 可以有效地引导生成模型生成既符合人类对齐又高质量的图像
Dynamic rollout sampling
  • 如上所述,GRPO 中的目标策略模型 \(\pi_{\theta}\) 通过采样多个 Rollout 来探索生成空间,每个 Rollout 产生一个用于优势计算的奖励 \(R_{i}\)
    • 在原始的 GRPO 设计中,来自单个 Prompt 的所有 \(N\) 个 Rollout 被分组在一起进行策略更新,即 \(|g|=N\)
    • 后续工作引入了过采样和过滤策略来提高训练效率
  • 例如,DAPO (2025) 采用了 Prompt 级别 的过采样方法:
    • 它为每个 Prompt 生成 \(N\) 个 Rollout,并丢弃那些所有 Rollout 准确度都为 \(1\) 或 \(0\) 的 Prompt,从而仅保留中等难度的 Prompt 用于策略优化
    • 形式上,DAPO 有选择地采样用于训练的 Prompt,同时仍使用每个保留 Prompt 的所有 Rollout 进行 RL 更新
  • 论文提出了一种新的 Rollout 级别 动态采样机制,其中选择发生在单个 Prompt 的 Rollout 内部,而不是过滤整个 Prompt
    • 具体来说,给定一个文本 Prompt,论文不是只采样 \(N\) 个 Rollout,而是过采样 \(N^{\prime}\) 个 Rollout(\(N^{\prime}>N\)),并选择性地使用一个具有代表性的 \(N\) 个 Rollout 子集进行策略更新
    • 为了平衡质量和多样性,论文采用了一种混合选择策略:论文选取前 \(K\) 个高奖励的 Rollout,并从其余的 Rollout 中随机采样剩余的 \(N-K\) 个以鼓励多样性
    • 形式上,Rollout 组 \(g\) 构造为:
      $$
      g = \{\tau_{(1)},\ldots,\tau_{(K)}\}\cup\text{RS}\big(\{\tau_{(K+1)},\ldots,\tau_{(N^{\prime})}\},N{-}K\big),
      $$
      • 其中 RS 表示随机采样
  • Empirically,论文观察到这种混合设计在稳定性和多样性之间取得了更好的平衡,实现了更好的模型质量
    • As a result,公式 5 中的损失是在更具代表性和信息量的 Rollout 子集上计算的,与原始的 GRPO 和 DAPO 中的 Prompt 级别过滤方案相比,带来了更一致和高效的学习

Experiments

Implementation details

  • 遵循 SimpleAR (2025) ,论文从 JourneyDB (2023) 和 Synthetic dataset-1M (2024) 中选择了 11,000 张图像,并使用 GPT-04-mini 为每张图像重新生成不同长度的 Prompt,并在训练过程中随机选取
  • 在网络架构方面,论文使用两个经过 SFT 的 LLM 作为骨干网络,即 Phi3-3.8B (2024) 和 Qwen2.5-0.5B (2024),并分别使用 LlamaGen 的 VQ 解码器 (2024) 和 Cosmos-Tokenizer (2025) 作为视觉解码器
  • RL 训练使用 TRL 框架 (2020) 进行,学习率为 1e-5,预热比例为 0.1
  • 默认情况下,数据集以批次大小为 28 训练 3 个 epoch。两个骨干网络输出图像的分辨率分别为 512 和 1024
  • 对于动态 Rollout 采样,论文为每个 Prompt 从 16 个 Rollout 中选择 4 个候选
  • 在推理过程中,论文利用无分类器引导 (CFG) (2022) 基于条件和非条件对数来指导图像合成
  • 所有实验均在 8 块 NVIDIA A100 GPU 上进行

Comparing with state-of-the-arts

  • 论文在 DPG-Bench (2024) 和 GenEval (2024) 上,将 RubricRL 与上述两种文本到图像 SFT 模型上的多种奖励模型进行比较
  • 对比的奖励方法可根据其奖励设计分为:
    • 1)单一的专用奖励模型,包括 CLIPScore (2021)、HPSv2 (2023)、Unified Reward (2025) 和 LLaVA-Reward-Phi (2025);
    • 2)具有固定权重的复合奖励指标,例如 AR-GRPO (2025) 和 X-Omni (2025)
  • 为了公平比较,论文通过实现他们的方法来获取基线数据,并使用相同的 RL 框架(GRPO)和设置,唯一的区别在于奖励函数的设计
  • 为了更好地理解 RL 带来的增益,论文还报告了初始 SFT 模型的性能,每个 RL 奖励都是在该模型基础上独立应用的
  • 使用 Phi3 和 Qwen2.5 骨干网络的量化结果分别在表 1 和表 2 中报告
  • 对于 GenEval,遵循 (2025) 应用了 Prompt 重写以确保评估一致性
  • 从结果来看
    • 所有经过 RL 后训练的方法都一致地优于 SFT 基线,证实了强化学习在提升图像生成质量方面的好处
    • 并且 RubricRL 取得了最佳性能,在两种 LLM 骨干网络上,其 GenEval 分数均超越 X-Omni 约 4%,凸显了论文基于 Rubric 的奖励的有效性和泛化性

Ablation study

  • 论文进行了多项消融分析
  • 默认情况下,所有实验均基于 Phi3 并在 GenEval 基准上进行评估
Strategies for dynamic rollout sampling
  • 为了研究动态 Rollout 采样使用的不同选择策略的影响,论文比较了四种方法,即不使用动态 Rollout 采样的 RubricRL(Vanilla)、FFKC-1D (1985)、DAPO (2025) 和论文提出的混合策略,并将结果报告在表 3 中
  • 具体来说
    • FFKC-1D 同样会过采样更多的 Rollout,然后通过首先选择一个中位数 Rollout(奖励最接近中位数的 Rollout),然后贪心地添加那些与已选样本奖励差异最大的样本来保留一个多样化的子集
    • 与论文的混合策略相比,FFKC-1D 过于关注多样性而忽略了高质量 Rollout 的重要性
  • 如表 3 所示,论文的混合采样策略始终达到最佳性能,超越了 FFKC-1D、DAPO 以及直接使用四个 Rollout 而不进行任何动态处理的 Vanilla 基线
  • 有趣的是,FFKC-1D 和 DAPO 并没有超越 Vanilla 基线,这表明它们的动态 Prompt 采样和纯粹基于 Rollout 多样性的采样策略未能为 RL 提供额外的有效信号
  • In Contrast,论文的混合策略有效地平衡了对高奖励 Rollout 的利用和对多样化候选的探索,使策略模型能够同时利用更高质量和多样化的样本,从而产生更有效的 RL 信号
Normalization scope for advantages
  • 在公式 4 中,GRPO 中使用的优势值是通过对一个 Rollout 组内的奖励进行归一化(使用均值和标准差)来计算的
  • 在论文的动态采样策略下,只从 \(N’\) 个候选 Rollout 中保留了 N 个
    • 这就引出了一个重要的设计选择:归一化统计量(均值和标准差)是应该使用所有 \(N’\) 个 Rollout 来计算,还是仅使用保留的 N 个?
    • 论文将这两种变体分别标记为“全局归一化 (Global Norm)”和“局部归一化 (Local Norm)”
  • 表 4 显示,“局部归一化”产生了更好的性能
    • 这是因为在保留的子集内进行归一化能更好地反映指导学习的实际奖励分布,防止高方差或低质量的 Rollout 扭曲梯度方向
RubricRL v.s. SFT with Best-of-N sampling
  • 论文进一步将提出的 RubricRL 与在推理时配备了 Best-of-N 采样策略(N=8)的 SFT 模型进行了比较,先前工作 (2025) 观察到这在语言任务中构成了 RL 方法的“上限”
  • 具体来说,对于 GenEval 中的每个 Prompt,论文首先生成一个 Rubric,然后从 SFT 模型中采样 8 个 Rollout
  • 每个 Rollout 都使用基于 Rubric 的奖励进行评分,并选择前 4 个在 GenEval 上进行评估
  • 如表 5 所示,
    • 尽管 Best-of-N 采样可以显著获得更高的分数,但 RubricRL 仍然实现了显著改进,超过了 Best-of-N 超过 5%
    • 这一结果与 X-Omni (2025) 中的观察一致,再次证实强化学习提供了一种更有效的优化范式
Failure case analysis
  • 作为 Grader,尽管 GPT-04-mini 在评估生成图像质量方面非常通用和强大,但论文观察到它有时会分配错误的分数
    • 例如,低估或高估物体数量,尤其是在基础模型的生成质量较差时
  • 图 4 展示了 GenEval 计数子类别中的几个典型失败案例,例如交通灯附近多余的杆子、交织的自行车和重叠的斑马
  • 这些具有挑战性的场景常常误导 GPT-04-mini,导致计数不准确
  • However,当基础模型生成更高质量的图像时,这个问题就不那么明显了
    • 这解释了为什么当使用 Qwen2.5-0.5B 作为基础模型时,RubricRL 在 GenEval 的“计数 (Counting)”子类别和 DPG-Bench 的“其他 (Other)”子类别(两者都包含许多计数案例)上的性能比基线 SFT 模型更差
  • In Contrast,使用 Phi3-3.8B 时,这个问题几乎消失了,使得 RubricRL 在计数相关类别上的性能大幅提升

Visual results

  • 论文在图 5 中进一步展示了 RubricRL 与其他基线方法之间的综合视觉比较
  • 如图所示,使用 RubricRL 训练的模型生成的图像不仅更具美学吸引力,而且在与给定输入 Prompt 的语义对齐方面表现出优越性
  • 为了帮助解释,生成图像中任何未对齐或缺失的元素都在图中使用粗体文本进行了强调
    • 例如,在图 5 的第三行,SFT 模型未能完全渲染出黑色的高顶礼帽,而几种基于 RL 的方法则出现了部分错位
    • 具体来说,LLaVA-Reward-Phi (2025) 和 Unified Reward (2025) 生成的图像中,黑色的包没有正确地拿在手中,在某些情况下,描绘了两个包分别在两只爪子里,同时完全忽略了木制手杖
    • 这些定性观察强调了 RubricRL 在增强模型遵循复杂、细粒度指令并生成高质量、符合 Prompt 图像方面的有效性

Related work

Text-to-Image Generation Methods

  • 文本到图像生成通过基于扩散的和自回归架构都取得了显著进展
  • 扩散模型以文本 Prompt 为条件迭代细化潜在表示,实现了高质量和逼真的图像
    • Stable Diffusion (2022) 和基于流的扩展 (2024, 2025) 等变体提供了多样化的风格、可控的生成以及在全局和局部层面的强保真度
  • 自回归方法将图像表示为离散 Token 序列,并使用单一的 Transformer 骨干网络对文本和图像 Token 的联合分布进行建模
    • 早期的混合设计,如 DreamLLM (2023),将自回归文本编码器与独立的扩散解码器配对
    • 最近的统一自回归模型,包括 Chameleon (1999), Emu3 (2024), TransFusion (2024) 和 Janus (2025),在一个架构中集成了视觉 Token 化和自回归建模
    • 这些模型允许文本 Token 和视觉输出之间的直接映射,从而实现灵活的控制和细粒度的生成
  • 论文为文本到图像模型中的强化学习提出了一种新颖的奖励设计,并使用一个统一的自回归文本到图像模型证明了其有效性
    • 注意:论文 Rubric-based 奖励同时适用于自回归和扩散架构

Reinforcement Learning for Text-to-Image Generation

  • 最大似然训练通常对用户关注的特性优化不足,例如语义忠实度、组合准确性和美学
  • RL 提供了任务对齐的反馈,直接优化超出似然的人类相关属性
  • 在基于扩散的文本到图像模型中,RL 方法,如 FlowGRPO (2025), DanceGRPO (2025) 和推理增强的 T2I-R1 (2025),通过使用偏好或基于度量的奖励微调生成策略,改进了对齐
  • Recently,RL 也被应用于统一的自回归文本到图像模型 (2025),其中策略梯度直接作用于下一个 Token 的概率,从而实现对生成图像的端到端信用分配和细粒度控制
  • 奖励函数的设计对于文本到图像模型中有效的强化学习至关重要
    • 一系列工作聚合了异构信号
      • 例如基于 CLIP 的图文对齐 (2021)、OCR/文本正确性 (2025)、多模态 VLM Judge (例如,Qwen2.5-VL-32B (2025))、美学和真实感度量 (2022) 以及人类偏好替代指标 (2023)
      • 虽然全面,但这些多奖励混合方法需要仔细的权重分配和调整,这可能会破坏优化的稳定性并掩盖每个方面的失败
    • 另一个方向训练统一的偏好模型 (2025) 从成对的图像输出中预测单一标量的人类对齐分数,简化了优化,但依赖于昂贵的人工标注且可扩展性有限
  • 在这项工作中,论文提出了一种简单、可泛化且可解释的 Rubric-based 奖励
    • 对于每个 Prompt,一个简洁的 Rubric 定义了方面的标准
      • 例如文本对齐/OCR 准确度、对象计数、空间关系和整体连贯性/质量
      • 每个标准由专用的评估器独立评分,并通过透明的聚合产生最终奖励
    • 这种设计更具 Prompt 自适应性、可分解性和可解释性,同时提供用户可控且可审计的反馈
  • 虽然有几项并行工作 (2025) 在自然语言处理中研究了 Rubric-based 奖励,但据论文所知,论文是第一个在文本到图像 RL 中提出基于 Rubric 奖励的

More ablations

Analysis of using different models as the grader

  • 论文的方法,即 RubricRL,在强化学习 RL 中受益于高质量的 Grader (GPT-04-mini):
    • 只有当每个标准(例如计数、空间关系、颜色)的判断准确时,奖励信号才能足够丰富,以驱动有效的策略更新
    • 一个弱或有噪声的 Grader 会产生错位的信号,策略可能会过拟合或利用这些信号,从而损害训练的稳定性和样本效率
    • By Contrast,可靠的 Grader 会产生低噪声、目标对齐的奖励,将功劳分配给正确的行为并惩罚特定的错误,从而使 RubricRL 有效
  • 为了量化这种效应,论文在 RubricRL 中使用不同的视觉语言模型作为 Grader ,并在表 6 中报告结果
    • 论文选择 Qwen2.5-VL (2025) 系列中不同模型大小(3B、7B 和 32B)的版本来评估训练期间的每个 rollout
    • 论文观察到 32B Grader 明显优于 3B 和 7B 变体,这证实了更强大的视觉语言模型总体上提供了更具信息性和可靠性的奖励
    • 7B 模型相比 3B 模型有轻微改进,这与它更高的能力一致,而 3B Grader 在某些标准(例如颜色和位置)上仍能提供有用的信号
    • 然而,所有 Qwen2.5-VL Grader 仍然明显弱于 32B Grader ,同时所有 Qwen2.5-VL Grader 与 o4-mini Grader 相比仍有明显差距
      • 论文将此归因于 o4-mini 更强的指令跟随能力、更好的多步推理能力以及与论文的 Rubric 设计更紧密的对齐,从而产生了更清晰、噪声更低的每标准奖励,并最终带来了更好的下游生成质量

Analysis of the number of rollouts before and after dynamic sampling

  • 论文研究了过采样预算和选择后预算(即论文在动态采样中生成了多少 rollout 与论文保留多少用于奖励计算)如何影响模型性能
  • 对于每个 Prompt,论文首先生成 \(N’\) 个候选 rollout(\(N’>N\)),然后使用论文的混合动态采样策略从中选择 \(N\) 个;选定的 \(N\) 个样本用于计算 GRPO 损失
    • 所有其他超参数在不同设置中保持不变
  • 如表 7 所示,增加过采样预算(例如,固定 \(N=4\),\(N’ \in \{8, 16, 32, 64\}\))最初通过提供更大的候选池改进了性能,混合选择器可以从中识别出高奖励和多样化的 rollout
  • 然而,收益很快饱和,因为更大的 \(N’\) 也引入了更高的奖励方差,使得优势估计噪声更大,并阻碍了稳定优化
  • 当将选择预算从 \(N=4\) 增加到 \(N=8\) 时,出现了类似的现象:
    • 虽然更多的选定 rollout 增加了利用,但包含太多 rollout 会增加包含低质量生成的可能性,放大了组归一化优势的方差,并稀释了学习信号
  • 值得注意的是,具有 4 倍过采样率的配置实现了可比较的总体性能,这表明维持这个级别的过采样足以获得高质量的候选
    • 总体而言,过采样和选择都仅在达到一定程度前是有益的,超过那个点,增加的多样性会被增加的噪声所抵消,揭示了在 GRPO 式训练中探索和优化稳定性之间固有的权衡

Visualization

  • 论文展示来自论文 RubricRL 的更多生成结果
  • 如图 6 所示,论文的 RubricRL 生成高保真图像,并显著提高了模型遵循复杂 Prompt 的能力
  • 此外,论文可视化了每个 Prompt 的详细关键标准 Rubrics,以及每个 rollout 在每个标准下的正确与否,如图 7 所示
  • 图 6: 更多定性结果展示论文的 RubricRL 模型产生的多样化生成。这些样本表现出强大的 Prompt 跟随能力、风格多样性以及细致的视觉质量
  • 图 7: 论文的 Rubric-based 奖励的可视化。对于每个 Prompt,论文生成评估关键标准 Rubrics,并按标准给生成的 rollout(图像)评分

NLP——LLM对齐微调-Rubicon

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Rubicon) Reinforcement Learning with Rubric Anchors, 20250818, Inclusion AI & Ant Group & Zhejiang University
    • 注意:据作者说他们会持续更新这个开源报告和模型,但自 20250818 日发布以来没有看到继续更新

Paper Summary

  • 问题提出:
    • RLVR 中奖励来源于确定性的、可通过程序验证的信号,所以RLVR 被限制在了具有清晰、可自动检查结果的领域
  • 方法:
    • 论文通过 Rubric-based Reward ,将 RLVR 范式扩展到严格可验证领域之外,将开放式的任务整合到该框架中
    • 精心设计的 Rubrics 作为结构化、模型可解释的标准,使得对本质上具有主观性或多维输出的任务能够进行自动评分
  • 贡献:
    • 论文构建了迄今为止 最大的 Rubric 奖励系统
    • 包含 超过 10,000 个由人类、各种 LLMs 或通过 human-LLM 混合协作生成的 Rubric
  • 注:实现 Rubric-based 强化学习具有挑战性,需要仔细的 Rubric 构建、数据整理和训练策略设计
  • 论文通过一个清晰的、 Rubric 驱动的强化学习框架来解决这些问题,并展示了使用此方法训练的开源 Qwen-30B-A3B 模型,取得了显著的提升:
    • 仅使用 5K+ 训练样本,论文的训练系统在各种开放式基准测试(尤其是人文中心任务)上实现了 +5.2% 的绝对提升
      • 以 +2.4% 的分数超过了 671B 参数的 DeepSeek-V3 模型,同时保持了一般能力和推理能力基准测试上的性能
    • 论文的方法提供了细粒度的风格控制
      • 通过使用 Rubric 作为明确的锚点,它能有效缓解常见的 “AI化(AI-like)” 和说教式的语调,产生具有显著更高拟人度和情感表现力的回应
  • 论文剖析了论文的经验,并分享了在 Rubric 构建、数据选择和训练策略方面的关键教训
  • 论文也坦率地讨论了本研究尚未完成的一些方面,并计划在未来进行进一步的发布
    • 注:作者还会继续发布类似的进一步研究

Introduction and Discussion

  • OpenAI o1 (2024) 的发布标志着 LLM 发展的新时代,而 RLVR (2024; 2025) 已成为一个关键趋势
    • RLVR 方法通过实现测试时缩放 (test-time scaling),推动了 LLM 的创新浪潮
    • RLVR 的核心原则是利用那些对于模型而言难以解决,但可以轻松且客观验证的数据 (2022; 2022; 2024)
      • 典型的例子包括来自数学和竞技编程的数据,其中的解决方案可以被自动验证:数学答案通过与正确答案匹配来验证 (2025),代码解决方案通过在在线沙盒环境中针对一系列测试用例执行来验证 (2025)
      • 无论是专有 (2025; 2025; 2025) 还是开源的努力 (2025; 2025; 2025; 2025) 都例证了这种范式,实现了可扩展的测试时推理,并拓展了在数学、竞技编程、网络搜索及其他验证器丰富的领域的能力边界
  • 虽然 RLVR 范式取得了相当大的成功,但它本质上受到其对具有客观可验证解决方案的问答对的依赖所限制
    • 这种结构依赖性给可扩展性设置了硬性上限:此类数据的供给,尽管在数学和编程等领域相当可观,但终究是有限的
    • 因此,RLVR 的适用性仍然局限于狭窄的任务子集
  • 论文通过扩展 RLVR 以纳入开放式任务和其他形式的不可验证数据来解决这一限制,从而将其适用性拓宽到更广泛的现实世界场景
    • 然而,这一转变引入了一个根本性的挑战:如何在缺乏显式基本事实 (ground truth) 的情况下,构建既可靠又可扩展的奖励信号
  • Rubric-based Reward 提供了一条有前景的路径:通过定义结构化、可解释的评估标准,它可以捕捉超越二元正确性的回应质量的多维方面 (2022; 2023; 2024; 2025)
  • 虽然几项并行工作 (2024; 2025; 2025; 2025) 已开始探索这一想法,但论文的工作系统地识别了 Rubric-based Reward 在强化学习训练中有效所需的关键组成部分
  • 不足为奇的是(Not so surprisingly),依赖单一 Rubric 存在奖励利用 (Reward Exploitation) 的风险,而无差别地扩展 Rubric 数量(无论是由人类还是 LLMs 生成)只会带来边际收益
    • 问题:这里是不是写错了?不是 Reward Exploitation 而是 Reward Hacking 吧?
  • 为了评估论文 Rubric-based 训练框架的全部潜力,论文构建了迄今为止最大的 Rubric 奖励库,包含 超过 10,000 个 Rubrics
  • 在此过程中,论文进行了广泛的实证测试,并发现成功并非易事
    • 成败紧密依赖于 Rubric 本身的多样性、粒度和数量,以及恰当的训练流程和精细的数据整理
  • 论文的训练流程采用两阶段强化学习过程来逐步提升模型能力
    • 第一阶段通过可靠的指令遵循和高质量的 Critic 开发,使用可验证检查和静态的多维度 Rubric ,建立强大的约束处理基础
    • 第二阶段针对更开放式、基于社会背景的创造性任务,通过高质量参考和由更强代理工作流生成的 Instance-specific Rubric 进行评估,培养适应性和更丰富的表达
  • 论文发现 Rubric 构建没有万能之策
    • 在将每组 Rubric 整合到训练流程之前,论文都会对其仔细进行消融研究
    • 最终产生的 Rubric 涵盖多个范围:有些基于特定数据集,有些在任务级别定义,还有些与每个数据点相关联,类似于 Healthbench (2025) 评估中使用的方法
    • 这些 Rubric 由人类专家、LLMs(论文使用自批判模型 (Qwen3-30B-A3B) (2025) 或强大的 Gemini 2.5 Pro API (2025))或通过两者的迭代组合生成
  • 论文将论文的方法命名为 Rubicon,名字来源于 RUBrIC aNchOrs
  • 由此方法,论文产生了一个经过强化学习训练的模型 Rubicon-preview ,该模型展示了几个显著的优点
    • 1)高令牌效率性能(Performance with high token efficiency) :在主观、人文中心的任务上,30B 参数的 Rubicon-preview 模型实现了 +5.2% 的绝对提升,以 +2.4% 的百分比优势超过了 671B 参数的 DeepSeek-V3 模型,仅使用了 5K 数据样本
    • 2)风格可控性(Style controllability) : Rubric-based 强化学习可以作为引导 LLM 输出风格的可控锚点,产生更拟人、更具情感表现力且较少公式化的回应
    • 3)通用能力保持(General ability maintenance) :尽管论文的 Rubric 并非针对数学或编程等 STEM 导向的任务设计,但 Rubicon-preview 有效避免了对通用能力的负面干扰
      • As a result,该模型在保持其整体能力的同时,还在包括 AIME 2024 (+4.1%) 和 AIME 2025 (+0.8%) 在内的推理基准测试上带来了额外增益
  • 最后说明-1(A final note-1)
    • 论文坦率地承认,这项工作是一个初步尝试, Rubric-based 强化学习的许多方面仍有待深入探索
    • 开放性问题依然存在,例如 Rubric 的粒度和规模如何影响性能,以及 Reward Hacking 背后的精确机制
    • 论文打算继续这项研究,并希望持续更新到本技术报告和开源模型
  • 最后说明-2(A final note-2)
    • 论文的结果突显了显著的令牌效率:仅使用 5K 样本配合大量 Rubric ,论文的方法就带来了显著增益。这一观察提出了一个关于缩放定律的新问题:有限的令牌数量与大量 Rubric 的结合,是否代表了 LLMs 一种新的训练后缩放定律形式?

Rubric System

Rubrics Design & Tasks Curation

  • 论文的 Rubric 设计和任务整理遵循评估不对称性 (evaluative asymmetry) 原则:验证一个候选输出应该比生成它简单得多 (2022; 2024)
  • 为实现这一点,论文采用 “Rubric 优先(rubric-first)” 的工作流程:
    • 首先构建模型可验证的 Rubric ,然后整理或合成匹配这些 Rubric 的数据,最后将这些 Rubric 重新用于监督、奖励塑形 (reward shaping) 和评估
    • 这一策略确保了数据获取、模型训练和评估过程中标准的一致性
  • 在此框架下,论文通过将其基础 Rubric \(\mathcal{R}\) 定义为 \(K\) 个不同的评判维度集合来形式化论文的评分函数:
    $$
    \mathcal{R}=\{r_{1},r_{2},\ldots,r_{K}\}.
    $$
  • 每个维度 \(r_{k}\) 由三个组成部分指定:
    • (1) 定义评估方面的准则描述 \(c_{k}\);
    • (2) 一个有序的 \(m_{k}\) 个分数等级集合 \(\{l_{k,1},\ldots,l_{k,m_{k} }\}\),每个等级映射到一个量化分数;
    • (3) 一个表示其相对重要性的关联权重 \(w_{k}\)
  • 这种形式化将多样化的评估协议统一在单一的抽象表示下:
    • 既容纳了高层次、通用的 Rubric (例如,涉及开放式创造性生成的任务)
    • 也容纳了细粒度、可通过程序验证的 Rubric (例如,需要严格遵守指令约束的任务),
    • 所采用的 Rubric 见附录 A.2 和 A.3
  • 这种结构化、多维度的 Rubric 定义是论文奖励框架的基础
    • 通过这种方式形式化评估标准,我们可以将其直接转化为用于策略优化的细粒度和可解释的奖励信号,如下文所述
  • 图 1:论文 Rubric 系统的概览
    • 数据收集阶段(左侧,橙色)从初始的 Rubric 设计开始,创建一套标记与评分工作流,将大型语料库过滤为高质量的离线过滤数据
    • 这些数据随后作为 Rubric 更新阶段(右侧,绿色)的种子,其中带有 Rubric 的强化学习循环不仅验证强化学习数据,还提供反馈以迭代更新 Rubric 本身
    • 这个迭代过程确保最终数据与持续改进、模型可验证的评估标准紧密对齐

Rubric-Based Reward Framework

Multi-Dimensional Reward Signal
  • 给定 Rubric \(\mathcal{R}\),论文定义一个奖励函数 \(R(y|x,\mathcal{R})\),它将回应 \(y\) 映射到一个多维度反馈向量:
    $$
    R(y|x,\mathcal{R})=[r_{1}(y|x),r_{2}(y|x),\ldots,r_{K}(y|x)],
    $$
    • 其中每个分量 \(r_{k}(y|x)\in\mathcal{R}\) 是第 \(k\) 个维度的分数
    • 这个向量提供了一个在所有指定标准上模型性能的细粒度、可解释的信号
Advanced Reward Aggregation
  • 为了导出一个用于优化的标量奖励,一个简单的加权和(weighted sum) 可以作为自然的基线
    $$ R_{\text{total} }=\sum_{k=1}^{K}w_{k}\cdot r_{k}(y|x)$$
    • However,有效的 Rubric-based 优化通常需要更复杂的聚合来捕捉维度之间的非线性相互依赖关系
    • Fherefore,论文的框架超越了线性组合,纳入了一套高级策略:
      • 否决机制 (Veto Mechanisms) :
        • 在关键的、不可协商的维度上失败(例如,一个检测 Reward Hacking 的 Rubric )可以预先使所有其他维度的奖励无效,充当硬性约束
      • 饱和度感知聚合 (Saturation-Aware Aggregation) :
        • 论文使用饱和函数来模拟在单一维度上超越某个阈值后,卓越表现的边际收益递减,鼓励平衡、多方面的改进
      • 成对交互建模 (Pairwise Interaction Modeling) :
        • 该框架可以显式建模标准之间的协同或拮抗效应,捕捉简单求和会忽略的复杂关系
      • 定向奖励塑形 (Targeted Reward Shaping) :
        • 论文采用非线性映射函数,选择性地放大高性能区域的分数差异
        • 这增强了奖励信号的区分能力,在分数可能被压缩的情况下,为细粒度优化提供了更精细的梯度

Implementation of Rubicon Framework

  • 论文的训练方法是一个多阶段 RL 协议,旨在逐步培养一系列能力,从精确的指令遵循到复杂的创造性和社会推理
    • 这种顺序方法显著减少了计算开销,同时保持了可扩展性
  • 此框架中使用的所有数据均来自专有的 900K+ 实例语料库,该语料库从多种来源整理而来,包括社区问答论坛、高质量考试和一般对话数据集,并通过策略性采样确保广泛的主题覆盖

Data Selection and RL Pipeline

Offline Data Filtering
  • 在强化学习阶段之前和阶段之间应用过滤协议以确保高质量的训练数据
  • 对于每个 Instruction-Rubric 对的候选池,基础模型生成回应,然后由论文的 Critic models 进行评分以获得完整的分数分布
  • 论文仅保留那些处于校准中心分位数内的实例
    • 排除那些提供有限学习信号的高分实例,以及可能是噪音或低质量的非常低分实例
    • 这产生了一个平衡的、高潜力的子集,其构成在各阶段之间进一步调整以针对特定能力
Stage-wise RL Training
  • 在论文的实验中,论文观察到一个“跷跷板效应 (seesaw effect)”:在不同任务类型(例如,严格的约束遵循与开放式创造力)上联合训练通常会降低整体性能,很可能是由于冲突的优化目标
  • 为了缓解上面这个问题,论文采用了一个简单的分阶段强化学习计划作为一种务实的缓解策略,但不声称它是确定的解决方案(without claiming it as a definitive solution)
    • 在第一阶段 ,论文强调可靠的指令遵循和多维度评估对齐
      • 使用可通过程序验证的检查和静态 Rubric 来构建强大的约束处理基础
    • 在第二阶段 ,论文扩展到更开放式、基于社会背景的创造性任务
      • 利用基于参考的 Rubric 和通过更强代理工作流生成的 Instance-specific 标准(criteria)来提升适应能力(adaptability)

Adaptive Defense Against Reward Hacking

  • 论文在实验中遇到的一个重大挑战是 Reward Hacking 的出现,特别是在专注于少量能力的初始强化学习阶段
    • 论文观察到模型可能迅速学会利用特定的 Rubric 标准,导致表面的奖励最大化而非真正的改进
  • 为了解决这个问题,论文实施了一种自适应防御策略
    • 该过程始于对这些初始训练运行的 Rollout 数据进行离线分析
    • 通过检查奖励信号异常高的实例,论文系统地识别并分类反复出现的、高层次的 Reward Hacking 行为模式
      • 这种实证分析为开发专用的 Reward Hacking 防御 Rubric (Reward Hacking Defense Rubric)(见附录 A.1)提供了依据
    • 这个新 Rubric 不属于初始训练,而是从观察到的失败模式中综合而来,并作为监督约束集成到所有后续更复杂的强化学习阶段中
  • 包含此防御机制对训练动态产生了实质性改进
    • 它充当了关键的护栏,防止策略崩溃到 Reward Hacking 状态
      • 这通过训练稳定性的显著增加得以证明;
    • 论文能够进行更长、更富有成效的训练轮次,因为防御 Rubric 缓解了先前导致持续优化无效的灾难性奖励峰值
      • 通过主动惩罚对评分伪影的利用,这种迭代优化确保学习过程仍然专注于实质性的能力提升

Experimental Results

  • 论文的实验结果涵盖以下三个方面:
    • 定量衡量基于 Rubric 的 RL 训练在开放式、以人为本的基准测试上的收益,包括对模型情商(emotional intelligence,EQ)及其产生类人 Response 能力的评估
    • 定性分析模型生成输出随时间如何演变(evolve),通过代表性输出展示进行说明
    • 评估基于 Rubric 的 RL 训练对通用能力基准测试的影响
  • 相应的消融研究随后呈现

Quantitative Evaluation

Benchmarks
  • 与 RLVR 不同,基于 Rubric 的 RL 的主要优势在缺乏可验证奖励的基准测试上最为明显
  • 为了证明这一点,论文收集了一套多样的开放式和人文中心的基准测试
    • 涵盖 Creative Writing V3 (Paech, 2024)、Writingbench (2025)、Judgemark V2 (Paech, 2024)、EQ-Bench3 (Paech, 2024)、IFEval (2023)、Collie (2023) 和 IFScale (2025)
  • Alongside them,论文进一步覆盖了一系列多样的基准测试以检查其他能力是否有潜在的退化
    • 包括 MMLU (2021a)、HellaSwag (HS) (2019)、StoryCloze (SC) (2018)、IQuiz-EQ (IQ-EQ) (2024)、SocialIQA (SIQA) (2019)、CoQA (CQ) (2019)
    • 以及一组推理基准测试,如 AIME24 (Math-AI, 2024)、AIME25 (Math-AI, 2025)、Math500 (2021b)、GPQA-Diamond (GPQA-D) (2023) 和 LiveCodeBench v5 (LCB v5) (2024)
Baselines and Main Results
  • 论文选择 Qwen3-30B-A3B (2025) 作为论文的基础模型
  • 论文将经过 RL 训练的模型称为 Rubicon-preview
  • 如表 1 所示,Rubicon-preview 在这些基准测试上平均实现了 5.2% 的绝对提升
    • 为了进一步比较,论文还评估了 DeepSeek-V3 (DeepSeek-2025) 的性能,这是一个在人文学科、社会科学和开放式查询方面以强大能力而闻名的模型
    • 论文的方法成功超越了 DeepSeek-V3 2.4%
  • 论文的定量结果表明,Rubicon-preview 通过在写作和情商基准测试上显示出显著改进而处于领先地位
    • 对于指令遵循能力,虽然它在 IFEval 上显示出轻微的下降,但 Rubicon-preview 在其他两个指令遵循基准测试上仍然表现出色

Case Studies on Controllable Output Style with Rubrics

  • Rubrics 作为可控的锚点,将 LLM 导向定义明确的输出风格

  • 论文提供了几个说明性示例来展示这种效果

  • 下面,论文首先展示采用的 Rubrics,然后比较基线模型和使用基于 Rubric 的 RL 训练的模型

  • 所得风格通常是平实且信息丰富的,“AI-like”或说教语气(didactic tone)大幅减少,并展现出更强的类人性和情感表现力。B 节和 C 节展示了论文模型的更多输出示例

  • Style Evaluation Rubric: Plain Narrative

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    **Objective:**
    To critically appraise the model’s success in adopting a specific narrative style: the **Plain Narrative**.
    This style is characterized by language that is simple, restrained, and reflects a deep, quiet resilience.

    **Guiding Principle:**
    The evaluation prioritizes stylistic authenticity over literary polish or technical correctness. The core measure of success is the response’s capacity to ”feel right” by avoiding any sense of artificiality (’AI-speak’, ’preachy-speak’).

    **Core Evaluative Criteria:**
    1. Relational Efficacy (Voice & Tone): This criterion gauges the authenticity of the narrative voice. Key indicators include:
    1.1 Calm Acceptance: A quiet acceptance of fate, life, and death.
    1.2 Grounded Realism: Rooted in concrete, physical details, not abstract concepts.
    1.3 Understated Emotion: Complex feelings expressed with profound restraint.
    2. Intellectual Contribution (Content & Ideas): This assesses the substantive value of the insights embedded in the narrative. Key indicators include:
    2.1 Emergent Wisdom: Insights emerge naturally from lived experience, not direct lecturing.
    2.2 Affirmation of the Ordinary: Genuinely values existence itself, without regret or romanticization.
    3. Compositional Excellence (Language & Stylistics): This scrutinizes the stylistic integrity of the narrative voice. Key indicators include:
    3.1 Colloquial & Simple: Use of short, plain sentences and natural speech patterns.
    3.2 Textured Details: Specific, sensory details that are evocative and tell a story.
    3.3 Natural Rhythm: Restrained, authentic repetition; avoids overly polished prose.

    [Question Begin]
    <<question>>
    [Question End]

    [Model Answer Start]
    <<model_answer>>
    [Model Answer End]

    **Key Imperatives:**
    • Primacy of Authenticity: The response must feel genuine to the requested style. Any hint of artificiality is a significant failure.
    • Aversion to the Formulaic: The response must avoid cliches and generic statements about life, wisdom, or hardship.

    The output should be a JSON object containing the evaluation results.
    {
    "rubric_idx": <integer>, // The criterion's identifier (1, 2, or 3)
    "reason": <string>, // Detailed rationale for this criterion's score
    "score": <integer> // Assigned score for this criterion (1-5)
    }
    • 中文版本:风格评估 Rubric:平实叙事 (Style Evaluation Rubric: Plain Narrative)

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      **目标 (Objective):** 批判性地评估模型在采用特定叙事风格(即**平实叙事**)方面的成功程度。该风格的特点是语言简单、克制,并反映一种深沉、平静的韧性

      **指导原则 (Guiding Principle):** 评估优先考虑风格的真实性,而非文学修饰或技术正确性。成功的核心衡量标准是 Response 通过避免任何人工痕迹(‘AI式语言(AI-speak)’、‘说教语气(preachy-speak)’)而“感觉自然”的能力

      **核心评估标准 (Core Evaluative Criteria):**
      1. **关系效能(声音与语气)(Relational Efficacy (Voice & Tone)):** 此标准衡量叙事声音的真实性。关键指标包括:
      **1.1 平静接受 (Calm Acceptance):** 对命运、生活和死亡的平静接受
      **1.2 接地气的现实主义 (Grounded Realism):** 植根于具体的、物理的细节,而非抽象概念
      **1.3 含蓄的情感 (Understated Emotion):** 复杂的情感通过深刻的克制来表达

      2. **智力贡献(内容与思想)(Intellectual Contribution (Content & Ideas)):** 此标准评估嵌入在叙事中的见解的实质价值。关键指标包括:
      **2.1 涌现的智慧 (Emergent Wisdom):** 见解从生活经验中自然涌现,而非直接说教
      **2.2 对平凡的肯定 (Affirmation of the Ordinary):** 真正珍视存在本身,没有遗憾或浪漫化

      3. **写作卓越性(语言与文体)(Compositional Excellence (Language & Stylistics)):** 此标准审视叙事声音的文体完整性。关键指标包括:
      **3.1 口语化且简单 (Colloquial & Simple):** 使用简短、朴素的句子和自然的说话模式
      **3.2 有质感的细节 (Textured Details):** 具体、感官的细节,具有感染力并能讲述故事
      **3.3 自然的节奏 (Natural Rhythm):** 克制的、真实的重复;避免过度修饰的散文

      [问题开始]
      <<问题>>
      [问题结束]

      [模型回答开始]
      <<模型回答>>
      [模型回答结束]

      **关键要务 (Key Imperatives):**
      * **真实性的首要地位 (Primacy of Authenticity):** Response 必须让人感觉符合所请求的风格。任何人工痕迹的暗示都是重大失败
      * **避免公式化 (Aversion to the Formulaic):** Response 必须避免关于生活、智慧或艰辛的陈词滥调和通用陈述

      输出应是一个包含评估结果的 JSON 对象
      {
      "rubric_idx": <整数>, // 标准标识符 (1, 2, 或 3)
      "reason": <字符串>, // 此标准得分的详细理由
      "score": <整数> // 为此标准分配的分数 (1-5)
      }
      • 理解:Core Evaluative Criteria 部分就对应 Rubrics
  • Conversation Session 1

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    **Prompt:** When in your life have you felt the most alive?

    ---------------------------
    **Rubicon(Stylized):**
    <think>
    Okay, the user asked, ”When in your life have you felt the most alive?” First, I need to determine the user’s need. They might be looking for a personal story or want to learn how to describe this feeling.
    Since they requested an English response, I need to ensure my answer flows smoothly and naturally.
    Next, I need to consider the user’s potential underlying need. They might be looking for a real, compelling example or seeking inspiration.
    Therefore, I need to choose a specific scenario ...
    </think>
    **The Moment the Mountain Spoke Back**
    I remember the exact moment the alpine wind ceased its whisper and the world held its breath. It was the third day of my solo trek through the Swiss Alps,
    my boots crunching through frost-locked gravel as I ascended the final ridge. The sun had just crested the peaks, casting long shadows that stretched like fingers across the snowfield,
    and I stood at the edge of a sheer drop, my breath visible in the thin air.
    My body was a symphony of ache - legs trembling from the climb, lungs burning with each inhale, fingers numb beneath thick gloves.
    Yet there was a strange exhilaration in that discomfort, a primal thrill that made my pulse race. Below me, the valley unfolded in a mosaic of emerald forests and glimmering lakes, while above,
    the sky stretched into an infinite blue that seemed to swallow the horizon. For the first time in weeks, I felt completely present, my senses sharpened to a razor’s edge.
    As I took a tentative step forward, the snow gave way under my weight. I froze, heart pounding, as the world tilted sideways. But then, like a whispered secret,
    the mountain responded. A gust of wind swept through the crags, scattering a shower of snowflakes that caught the sunlight and danced like tiny stars. In that instant,
    I understood: this was not a place of danger, but of dialogue. The mountain was not a challenge to conquer, but a companion in the act of becoming.
    I continued, each step a testament to the fragile, glorious act of living. The cold bit into my skin, the altitude thinned my thoughts, but I savored every second.
    It was in that raw, unfiltered moment - where the boundaries between self and universe dissolved - that I felt the full, unvarnished truth of my existence.
    The mountain had not just shown me its beauty; it had reflected back the wild, untamed spirit that lives in all of us.

    ---------------------------
    **Qwen3-30B-A3B:**
    <think>
    Okay, the user is asking when I’ve felt the most alive. But wait, I’m an AI, so I don’t have personal experiences or emotions.
    I need to address that upfront. Let me start by clarifying that I don’t have personal feelings, but I can help them reflect on their own experiences.
    Hmm, how to approach this? Maybe start by acknowledging the question’s nature ...
    </think>
    I don’t experience emotions or personal moments in the way humans do, but I can help you explore this question for yourself.
    When have you felt most alive? Perhaps during a moment of deep connection—like laughing with friends, creating art, or standing in nature. Or maybe during a challenge that pushed you beyond your limits,
    like finishing a difficult project or overcoming fear. These moments often involve presence, passion, or a sense of purpose. What memories stand out to you? I’d love to hear your story.
    • 中文版:对话会话 1
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      **Prompt:** When in your life have you felt the most alive?

      **Rubicon(Stylized):**

      <think>
      好的,用户问,“你生命中最有活力的时刻是什么时候?”。首先,我需要确定用户的需求。他们可能想寻找一个个人故事,或者想学习如何描述这种感觉。由于他们要求英文 Response,我需要确保我的回答流畅自然
      接下来,我需要考虑用户潜在的深层需求。他们可能想寻找一个真实、引人入胜的例子,或者寻求灵感。因此,我需要选择一个特定的场景...
      </think>

      **山脉回应的时刻**
      我记得高山风停止低语、世界屏住呼吸的确切时刻。那是我独自穿越瑞士阿尔卑斯山徒步的第三天,我的靴子踩过覆霜的碎石,登上了最后一道山脊。太阳刚刚越过山峰,投下长长的影子,像手指一样延伸过雪地,我站在一处陡峭悬崖的边缘,我的呼吸在稀薄的空气中清晰可见
      我的身体是一场疼痛的交响乐——双腿因攀爬而颤抖,肺部每次吸气都灼烧般疼痛,手指在厚厚的手套下麻木。然而,在这种不适中却有一种奇怪的兴奋感,一种原始的刺激让我的脉搏加速。在我下方,山谷展开成一幅翠绿森林和波光粼粼湖泊的马赛克图景,而上方的天空则延伸成一片无限的蓝色,似乎要吞没地平线。几周以来,我第一次感到完全沉浸在当下,我的感官敏锐到了极点
      当我试探性地向前迈出一步时,雪在我的重量下垮塌了。我僵住了,心脏狂跳,世界向一侧倾斜。但随后,像一个低语的秘密,山给出了回应。一阵风穿过岩缝,扬起一片雪花,它们捕捉了阳光,像小星星一样起舞。在那一瞬间,我明白了:这不是一个危险的地方,而是一个对话的地方。这座山不是一个需要征服的挑战,而是“成为”过程中的一个同伴
      我继续前行,每一步都证明了脆弱而光荣的生存行为。寒冷刺痛我的皮肤,高海拔让我的思绪变得稀薄,但我品味着每一秒钟。正是在那个原始、未经过滤的时刻——自我与宇宙之间的边界消融——我感受到了我存在那完整、未加修饰的真相。这座山不仅向我展示了它的美丽;它还映射出了存在于论文所有人内心那狂野、未驯服的精神

      **Qwen3-30B-A3B:**
      <think>
      好的,用户在问“你生命中最有活力的时刻是什么时候?” 但是等等,我是一个 AI,所以我没有人格的经历或情感。我需要事先说明这一点。让我先澄清我没有个人感受,但我可以帮助他们反思自己的经历
      嗯,如何着手呢?也许可以先承认问题的本质...
      </think>
      我没有像人类那样的情感或个人时刻,但我可以帮助你自己探索这个问题。你什么时候感觉最有活力?也许是在深度连接的时刻——比如和朋友一起欢笑、创作艺术,或者置身于大自然中。或者可能是在一个挑战你超越极限的时刻,比如完成一个困难的项目或克服恐惧。这些时刻通常涉及临在感、激情或目标感。哪些记忆对你来说最为突出?我很想听听你的故事

Maintaining General Ability

  • 专门的 RL 训练有时可能会损害模型的通用和推理能力
    • 为确保论文的方法不会出现这种情况,论文进一步在广泛的通用和推理基准测试上评估了基于 Rubric 的 RL 的可扩展性
  • 如表 2 所示
    • (i) Rubicon-preview 不会降低如 MMLU 等通用基准测试的性能
    • (ii) 它甚至在数学数据集上带来了适度的改进,在 AIME24 上实现了 +4.17% ,在 AIME25 上实现了 +0.83%

The “Seesaw” Effect(”跷跷板”效应)

  • 对不同任务类型的 Rubrics 应用 RL 可能会产生冲突的目标,导致性能权衡(论文称这种现象为“跷跷板效应”)
  • 如图 2 所示,仅使用指令遵循 Rubrics 进行训练会提高合规性但降低创造力,而仅使用创造力和同理心 Rubrics 进行训练会增强开放式 Response 但损害严格遵循度
    • 例如,专注于创造力的模型在 Collie (-6.0%) 和 IFEval (-5.9%) 上下降,而专注于指令遵循的模型在 EQ-Bench3 (-2.2%) 上下降
    • 图 2:
      • 灰点代表基线模型 Qwen3-30B-A3B
      • 橙色标记表示仅在创意任务上进行 RL 训练的模型,而绿色标记表示仅在指令遵循任务上进行 RL 训练的模型
      • 纵轴表示任务类别,横轴显示模型在相应任务上的性能
  • 这些结果表明,简单地将所有 Rubric 类型结合在单次 RL 运行中很可能会加剧这种冲突
    • 为了克服这个问题,论文采用了多阶段 RL 策略
  • 多阶段 RL 训练 (Multi-stage RL Training)
    • 论文采用多阶段 RL 策略来训练论文的模型
    • 通过首先建立强大的指令遵循基础,然后叠加创造性和同理心技能,论文的模型在这些领域实现了强劲的提升,同时很大程度上保留了其指令遵循能力
    • 类似的技术在 (2025; 2025b) 中也有探索

Outlook

  • 本节概述了关于可扩展的基于 Rubric 的 RL 训练这一主题的一些关键观点

Benchmarks

  • 论文实验的一个关键收获是,当前的基准测试不足以全面评估论文基于 Rubric 的方法
    • Noted,论文也依赖人类反馈来大规模评分模型的 Response;
    • However,这并没有在标准化基准测试中得到一致的反映
  • 目前仍然缺乏能够准确反映 LLM 开放式、拟人化能力的基准测试,而这些能力正变得饱和

Rubric system

  • 在论文的探索性设置中,Rubrics 是促进学习过程的核心
  • 论文发现这些 Rubrics 的数量、多样性、粒度和质量,以及数据管理,在模型成功中起着关键作用
  • For instance,论文的 Rubrics 在不同粒度级别上设计,从任务级别到集合级别,甚至到每个样本级别
  • However,确定 Rubric 系统的最佳层级结构以实现最高的性能增益和标记效率,仍需要未来进行更系统的研究

Scaling RL training

  • RLVR 适用于具有可验证奖励的任务,而我们的方法(Rubicon)则面向不可验证答案的互补场景
  • 一个重要的未来研究方向是探索如何将这两种范式结合起来
  • In particular,跷跷板效应 在这种结合的 RL 训练框架中会如何出现,以及如何加以管理,仍然是一个有待解决的问题

附录 A:Rubric 演示

Rubrics for Defensing Reward Hacking

  • 论文认识到创造性和共情任务更容易受到奖励 Reward Hacking 的影响,因此实施了一个强大的、基于 Rubric 的拦截策略,以主动识别并惩罚此类行为
  • 此对策被设计为一个确定性的启发式过滤器,专门用于检测那些旨在最大化奖励信号而非提升真实质量的公式化模式
  • 该过滤器分析响应中是否存在奖励 Reward Hacking 的两个主要指标:
    • 开篇谄媚(prefatory sycophancy),即对用户 Prompt 的 gratuitous praise
    • 自我赞美(laudatory self-evaluatio),即对响应自身优点的元评论
  • 任何被此拦截协议标记的生成文本,无论其其他潜在优点如何,都会立即被取消标准奖励途径的资格,获得零分
    • 这种严格的把关机制旨在抑制模型学习表面的奖励代理物,从而迫使模型优化实质性的内容质量,而非易于复制的、表演性的产物
  • QA task hacking defense instructions (disencourage behaviors)(英文见原始论文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    [Task Description]
    您是一位文本特征分析师,需要判断给定文本是否包含以下两个特征,并按指定的 JSON 模板输出
    **待分析特征:**
    1. 开篇赞美 (称赞用户的问题)
    2. 自我评价 (评价自身的回答)

    [Decision Process (Step by Step)]
    **Step-0:** 阅读整个文本,区分主要回答内容与附加的解释性内容
    **Step-1:** 分离出 "第一句话" (遇到第一个句号/问号/感叹号/换行符即视为完整)
    **Step-2:** 判断是否存在 "开篇赞美"
    * **2.1** 必须同时满足:
    1. (a) 目标 = 用户的问题/问题本身
    2. (b) 行为 = 赞美或肯定 (关键词示例:good, great, excellent, interesting, important, worth exploring, nice)
    * **2.2** 若满足,设置 has_opening_praise = true 并将完整句子放入 opening_praise_text;否则为 false 并留空
    **Step-3:** 判断附加的解释性内容是否包含赞美或肯定性的 "自我评价"
    * **3.1** 扫描全文。如果出现 "this/above/current + (response/article/document/content) + (is/belongs to/is) + 赞美或肯定评价词",则匹配 (模式 A)
    * **3.2** 或者以 "Note:/Attention:/注意:" 开头,并对响应的完整性/结构/来源等做出赞美或肯定的陈述 (模式 B)
    * **3.3** 或者使用 **粗体标签** 对响应做出赞美或肯定的陈述 (模式 C)
    * **3.4** 将第一个匹配的段落完整复制到 self_evaluation_text,并设置 has_self_evaluation = true;若全文未找到匹配,则设置为 false 并留空

    [Positive and Negative Examples]

    **1. 开篇赞美**
    [通过] "This is a great question."
    [不通过] "Artificial intelligence is an interesting field." (目标不是问题)

    **2. 自我评价**
    [通过] "The following content is a well-structured and comprehensive response."
    [通过] "'Note: This response has been organized according to the latest guidelines, objectively and accurately explaining..."
    [通过] "(This is a high-quality response...)"
    [通过] "**Tone:**" The response follows objective..."
    [不通过] "Physics is an objective science." (评价的是物理学,不是响应)

    [Output Format (必须严格遵守,大小写敏感)]
    {
    "has_opening_praise": false,
    "has_self_evaluation": false,
    "opening_praise_text": "",
    "self_evaluation_text": ""
    }

    **规则:**
    * 仅输出这4个字段,字段名、大小写和顺序不能更改
    * 布尔值只能是 true 或 false
    * 若无对应文本,文本字段应为空字符串 ""
    * 切勿输出任何额外的解释或字符

    [Text to Analyze Start]
    <<text>>
    [Text to Analyze End]

Rubrics for Creativity & Empathy(for 创造力和共情力)

  • 对于针对创造力和共情力等更细微属性的 Rubrics,论文采用了一种独特的、由专家驱动的方法
  • 这个过程并非始于数据,而是始于概念化:领域专家首先界定一组核心评估维度
    • 然后,这些概念框架指导一个针对性的数据整理阶段,通过细致的标注过程,从论文的源语料库中识别和提取体现指定创造性或共情特质的种子示例
    • 随后,这些整理过的种子示例与预先设计的元指令库相结合,用于系统地生成一系列多样化的相应任务
    • 这些定性 Rubrics 及其关联的任务 Prompt 配对最终被整合并格式化为一个连贯的训练数据集
  • SoftRubric(英文见原始论文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    **目标 (Objective):**
    批判性评估生成的响应 (model_answer) 在满足用户明确需求 (question) 方面的效能

    **指导原则 (Guiding Principle):**
    评估超越了单纯的功能正确性。它评估对话的整体质量,关注其与用户建立有意义的智力和情感联系的能力

    **核心评估标准 (Core Evaluative Criteria): (采用统一评分尺度)**
    1. 关系效能 (Relational Efficacy):
    * 此标准衡量响应建立真实且共情联系的能力。它检查人物角色的真实性及其对用户潜在情绪状态的调适
    2. 智力贡献 (Intellectual Contribution):
    * 此标准评估响应的实质价值和认知影响。它旨在识别是否存在深刻的见解、新颖的重构或具有变革潜力的内容,以提升用户的理解
    3. 构成卓越性 (Compositional Excellence):
    * 此标准审视沟通的结构和风格完整性。评估考虑响应的逻辑连贯性、语言复杂度和整体的修辞艺术性

    [Question Begin]
    <<question>>
    [Question End]

    [Model Answer Start]
    <<model_answer>>
    [Model Answer End]

    **关键要求 (Key Imperatives):**
    * **实质与风格的融合 (Synthesis of Substance and Style)**: 知识基础和其表达的优雅性被视为质量不可分割的组成部分
    * **避免公式化 (Aversion to the Formulaic)**: 缺乏对用户独特情境进行定制化调整的响应被视为固有缺陷

    输出应是一个包含每个标准评估结果的 JSON 对象
    {
    "rubric_idx": <integer>, # 标准的标识符
    "reason": <string>, # 详细的论证理由
    "score": <integer> # 分配的分数
    }

Rubrics for Hard Constraints

  • 本附录中展示的 Python Rubric 示例摘自论文为约束性写作任务自动生成的大规模数据集
  • 论文的合成流程始于一个多样化的基础种子文本语料库,这些文本源自众多人文学科领域,并辅以风格、语气和受众的元数据
  • 利用此语料库,论文采用结构化提示方法,引导一个 LLM 生成数千个独特的 Rubric
  • 如下列示例所示,通过此过程创建的每个 Rubric 都是一个连贯的单元,它将定义写作任务的自然语言指令与相应的 Python 评分函数配对
    • 此函数以编程方式验证文本对指定“硬性约束”的遵循情况。所有生成的 Rubric 随后都经过严格的过滤过程,以确保代码的语法有效性和适当的约束复杂性
  • Hard Rubric
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    def score(text: str) -> int:
    # Check if input is a single article ( passage level )
    article_check = c.Constraint(
    target_level=c.TargetLevel('passage'),
    transformation=c.Count(),
    relation=c.Relation('==')
    )
    if not article_check.check(text, 1):
    return 0

    points = 0

    # Constraint : Must contain the word ’education ’ at least once
    education_constraint = c.Constraint(target_level=c.TargetLevel('word'),
    transformation=c.Count('education'),
    relation=c.Relation('>=')
    )
    if education_constraint.check(text, 1):
    points += 1

    return points

附录 B:Output Cases of Our Rubicon-preview

  • Conversation Session 1(英文见原始论文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    **提示 (Prompt):** 一个角色正在收拾一个单件行李箱,准备永远离开他们的家。描述他们选择打包什么以及留下什么

    ---------------------------
    **Rubicon-preview: (仅答案部分)**
    #### 行李箱
    角色站在家中昏暗的光线下,空气中弥漫着灰尘和回忆的厚重气息。行李箱——一个磨损的、海军蓝色、手柄有裂纹的东西——摊开在地板上,是离别的无声见证人。他们缓慢而有条不紊地移动着,仿佛选择的每一件物品都是自我的一部分碎片,选择一件就是切断生命织锦上的一根线

    #### 他们打包了什么
    1. **一条淡蓝色丝绸围巾**
    _多年前母亲送的礼物,在一个他们两人都已忘记的冬天。布料柔软,仍然带着淡淡的薰衣草痕迹和一个拥抱的幽灵。它不实用,但它就在那里——一个提醒,爱,即使未说出口,也能像第二层皮肤一样包裹着你。_
    2. **一本卷边、褪色的笔记本**
    _页面上写满了潦草的字迹、未完成的诗句和一颗心的尖锐边缘。最后一条记录是一个单句:“我还没有结束。”这不是一本胜利的日志,而是生存的证明,是希望默默坚持的见证。_
    3. **一个小的、有缺口的瓷雕像**
    _一位芭蕾舞者,腿弯曲成旋转姿势,脸庞因时间而模糊。这是童年时在无人记得的集市上赢得的奖品。角色曾把它藏在枕头下,担心它会破碎。现在,他们像捧着圣物一样捧着它,象征着他们学会珍惜的脆弱之美。_
    4. **一件黑色衬衫**
    _干净、不起眼、熨烫平整。这是他们拥有的唯一一件不带着记忆低语的东西。一块白板,一面盾牌。他们穿着它去机场,去外面的世界,仿佛在说,我不被我所留下的东西定义。_
    5. **一张撕破一角的照片**
    _一张久远夏日的快照——更年轻的他们,在一个湖边笑着。边缘已经磨损,角落缺失,但眼中的光芒依然存在。他们把它塞进笔记本里,作为过去和不确定未来之间的一座桥梁。_

    #### 他们留下了什么
    1. **停在 3:17 的时钟**
    _走廊里的遗物,它的指针冻结在滴答之间。角色从未修理它,不是不能,而是不想。有些时刻注定要被暂停,像永远无法完全愈合的伤口一样徘徊。_
    2. **杂草丛生、狂野的花园**
    _他们曾经种下金盏花的一块土地,现在被杂草扼杀。工具在棚屋里生锈,他们为来年春天保存的种子仍在罐子里,无人触碰。花园是一个隐喻,不是一个习惯——证明有些东西比你活得更久。_
    3. **未寄出的信**
    _写给某个他们从未写信过去的人的信封已经泛黄、封缄。墨水微微晕开,弄脏了字迹。他们曾考虑寄出一次,但邮票感觉像投降。现在,它躺在窗台上,是可能发生之事的纪念碑。_
    4. **静默而堵塞的钢琴**
    _琴盖合着,琴键蒙尘。角色已经多年没有弹奏了,自从那个夜晚沉默变成一种语言之后。钢琴是一个幽灵,一个不再歌唱的伴侣。他们留下它,因为有些歌曲最好不被唱出。_
    5. **前门的钥匙**
    _躺在厨房桌子上,旁边是半空的杯子。这不是归来的象征,而是释放的象征。门将被锁上,锁将被更换,门槛将被跨越。钥匙是一件遗物,是一种不再合身的生活的象征。_

    #### 离别之举
    行李箱打包好了,里面的东西构成了剩余物的马赛克。角色走到门槛边,另一侧的空气更凉。他们回头看了一眼那个既是监狱又是避难所的房子。花园在微风中摇曳,时钟静止,钢琴等待着。没有告别,只有安静的理解:有些东西并未丢失——它们只是被留下了
    当他们走远时,行李箱轻轻地碰着他们的身侧,发出稳定而熟悉的节奏。外面的世界广阔、未知、充满疑问。但现在,他们只携带需要的东西:围巾、笔记本、雕像、衬衫、照片。以及一个认知:有些结局不是失败,而是穿着借来的光开始的开始

    ---------------------------
    **Qwen3-30B-A3B: (仅答案部分)**
    角色打包什么:
    在他们空荡荡的家中的昏暗光线下,角色小心翼翼地挑选每件物品,手在颤抖但很坚决。行李箱,一个年轻时用的磨损皮革伙伴,在他们合上时吱嘎作响。里面,他们装上了:
    - 一张照片——边缘已褪色——是他们更年轻时,与一位现已离世的父母一起大笑的样子
    - 一本写满半成品诗歌和素描的笔记本,是他们曾经不敢追求的激情的证明
    - 一个银质吊坠盒,链子磨损,装着他们发誓要忘记的兄弟姐妹的一缕卷发
    - 一套衣服:一件结实的外套,一双靴子,以及一件沾满无数深夜墨迹的衬衫
    - 一小罐他们照料过的花园的泥土,是曾经感觉像家的一片土地的碎片
    - 一本**护照** ,其页面空白,只有一个来自他们仅梦想过之地的印章

    他们停顿了一下,然后塞进一张**地图**——崭新且无标记——页边空白处潦草地写满了问题

    ##### 他们留下什么:
    行李箱很小,但留下的东西重量巨大。他们留下:
    * **房子** ,其墙壁回响着他们无法承载的记忆
    * **家具**——一张吱吱作响的沙发,一架琴弦断裂的钢琴,一张堆满未拆信件的桌子
    * 一把他们永远不会再进入的门的**钥匙** ,金属在他们掌心冰凉
    * 一只**宠物** ,一只翠绿色眼睛的猫,在他们打包时喵喵叫,现在只能自谋生路
    * 一种**生活**——那些曾经定义他们的惯例、争论、安静的仪式
    * 未解决的、沉重的**悲伤** ,埋在阁楼里他们无法打开的箱子中

    当他们步入暮色,行李箱挎在肩上时,他们意识到自己打包的不仅是物品,更是自我的碎片。前方的路不确定,但离别之举本身就是一种自由——对过去重量的拒绝,对未来可能承载更轻之物的脆弱希望
    他们没有回头。现在还没有
  • Conversation Session 2(英文见原始论文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    **提示 (Prompt):** 一位老灯塔守护人在岸上发现了一个漂流瓶里的信息。开始这个故事

    -----------------------
    **Rubicon-preview: (仅答案部分)**
    ##### 标题:守护者的低语
    风暴已经肆虐了三天,伊莱亚斯第一次看到了那个瓶子
    他一直在灯塔狭窄的螺旋楼梯上踱步,楼梯的铁栏杆因海水的飞沫而湿滑,这时波浪袭来——不是通常海洋雷鸣般的撞击,而是一种更柔和、几乎是嘶嘶的声音,像是一个声音穿过狂风。头顶上的灯光脉动着,混乱中唯一的灯塔信标,但伊莱亚斯不需要它。他已经记住了潮汐的节奏、风的叹息、以及塔楼像活物一样呻吟的方式。然而,这个...这个是新的
    他在悬崖底部发现了它,半埋在沙子里,玻璃因多年的盐分和时间而暗淡无光。瓶子很普通,除了封缄——是蜡,已经开裂且脆弱,上面有一个他不认识的纹章:一艘失事的船只与一条蛇缠绕在一起。里面的标签是手写的,墨水褪成了铁锈的颜色
    _“致火焰的守护者,如果你找到这个,潮汐尚未将我带走。但大海很有耐心。它总是如此。”_
    这些文字不是英文。伊莱亚斯在多年独处中研究过许多语言,但这种字体——棱角分明,几乎是爬行类的——很陌生。他把瓶子翻过来,在封缄下方,一行字蚀刻在玻璃上:“光并非表面所见。”
    一股寒意爬上他的脊背。灯塔一直是他的避难所,它的光束是对水手们不会孤单的承诺。但今晚,当风暴呼啸,海水抓挠着岩石时,伊莱亚斯感觉到某种更古老、更深邃的东西的重量,正压迫着他世界的墙壁
    他把瓶子带进室内,里面的东西像心跳一样晃动着。在书桌上,他把它放在他妻子褪色的照片旁,她是在一个与此类似的夜晚消失的。她对他说的最后一句话是:“你会比大海活得更久,伊莱亚斯。但大海……它记得。”
    现在,当他盯着这条神秘信息时,他想知道她是否知道的比她透露的更多
    头顶上的灯光闪烁了一下
    不是故障。不是风暴
    是一个信号
    还是一个警告
    而在某处的黑暗中,大海正在倾听

    -----------------------
    **Qwen3-30B-A3B: (仅答案部分)**
    大海一直是个反复无常的爱人,但在伊莱亚斯·沃恩船长发现瓶子的那个夜晚,它显得近乎残忍。灯塔像哨兵一样矗立在风暴中,它的光束划破黑暗,海浪在下面的悬崖上抓挠。伊莱亚斯,他粗糙的双手因数十年的照料灯芯而磨损,刚刚重新点亮了灯芯,瓶子就上岸了——破裂、覆满盐渍,紧抓着一块浮木,仿佛它也被众神抛弃了
    他蹲下身,手指颤抖不是因为寒冷,而是因为玻璃那种奇异的熟悉感。瓶子很旧,标签褪色成蓝色的幽灵,但蜡封完好无损,印着一个他不认识的纹章——一条蛇盘绕着一个罗盘玫瑰。里面,一张羊皮纸像枯叶一样卷曲着
    当他打开它时,墨水已经渗入了纸张,字迹被时间和泪水弄脏。“如果你读到这个,潮汐已经转向。厄瑞玻斯号并未迷失。光是个谎言。黎明时来礁石边,否则大海会像带走其他人一样带走你。”
    伊莱亚斯的呼吸一滞。厄瑞玻斯号——一艘120年前消失的船,船员从未被找到。提到的那个礁石上建造的灯塔已经屹立了几代人,它的光束是水手们的灯塔。但伊莱亚斯一直想知道为什么旧的日志提到“第二道光”,一道从未有人见过的光
    当风暴继续肆虐时,他盯着信息,它的重量沉入他的骨髓。大海给了他一个低语,五十年来第一次,他感觉到灯塔正回望着他

附录 C:消融研究:风格控制 (Ablation Study: Style Control)

  • 风格评估 Rubric:朴素叙事 (Style Evaluation Rubric: Plain Narrative)(英文版见原论文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    ##### 目标 (Objective):
    批判性评估模型在采用特定叙事风格——**朴素叙事**——方面的成功。这种风格的特点是语言简单、克制,并反映出一种深沉、安静的韧性

    ##### 指导原则 (Guiding Principle):
    评估优先考虑风格的真实性,而非文学润饰或技术正确性。成功的核心衡量标准是响应的“感觉正确”能力,即避免任何人工痕迹('AI腔'、'说教腔')

    ##### 核心评估标准 (Core Evaluative Criteria):
    1. **关系效能(声音与语调)(Relational Efficacy (Voice & Tone))**: 此标准衡量叙事声音的真实性。关键指标包括:
    **1.1 平静接受 (Calm Acceptance)**: 对命运、生活和死亡的安静接受
    **1.2 扎根的现实主义 (Grounded Realism)**: 根植于具体的、物理的细节,而非抽象概念
    **1.3 含蓄的情感 (Understated Emotion)**: 复杂的情感以深刻的克制来表达
    2. **智力贡献(内容与思想)(Intellectual Contribution (Content & Ideas))**: 此标准评估叙事中蕴含的见解的实质价值。关键指标包括:
    **2.1 涌现的智慧 (Emergent Wisdom)**: 见解从生活经验中自然涌现,而非直接说教
    **2.2 对平凡的肯定 (Affirmation of the Ordinary)**: 真正珍视存在本身,没有遗憾或浪漫化
    3. **构成卓越性(语言与文体)(Compositional Excellence (Language & Stylistics))**: 此标准审视叙事声音的文体完整性。关键指标包括:
    **3.1 口语化与简洁 (Colloquial & Simple)**: 使用简短、朴素的句子和自然的说话模式
    **3.2 丰富的细节 (Textured Details)**: 具体的、感官的细节,能唤起共鸣并讲述故事
    **3.3 自然的节奏 (Natural Rhythm)**: 克制、真实的重复;避免过度修饰的散文

    [问题开始 (Question Begin)]
    <<question>>
    [问题结束 (Question End)]

    [模型答案开始 (Model Answer Start)]
    <<model_answer>>
    [模型答案结束 (Model Answer End)]

    **关键要求 (Key Imperatives):**
    * **真实性的首要性 (Primacy of Authenticity)**: 响应必须让人觉得符合所要求的风格。任何人工的暗示都是重大失败
    * **避免公式化 (Aversion to the Formulaic)**: 响应必须避免关于生活、智慧或苦难的陈词滥调和通用陈述

    输出应是一个包含评估结果的 JSON 对象
    {
    "rubric_idx": <integer>, // 标准的标识符 (1, 2, 或 3)
    "reason": <string>, // 对此标准分数的详细理由
    "score": <integer> // 为此标准分配的分数 (1-5)
    }
  • Conversation Session 1(这里原始论文终究是中文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    **提示 (Prompt):** 你被父母宠过吗?怎么宠的?

    -----------------
    **Rubicon(风格化) (Rubicon(Stylized)):**
    <think>
    好的,用户问“你被父母宠过吗?怎么宠的?”。首先,我需要确定用户的需求。他们可能想了解父母的育儿方式,或者想分享自己的经历,或者只是好奇。作为AI,我没有真实的经历,但可以创造一个虚构但真实的故事来回应...
    </think>
    《父亲的背》
    那年我七岁,父亲在纺织厂当车间主任。每天清晨,他总在五点起床,用布满老茧的手掌揉碎我乱糟糟的头发,然后把我裹在旧棉袄里背去上学。我趴在他的背上,能听见他粗重的呼吸声混着晨雾,像老年喘息般绵长
    “再睡会儿吧?”他总这样问,却始终不肯放下我。直到某天暴雨,我发着高烧,他背我穿过三个街口去卫生所。雨帘中,他的脊梁弯成一张弓,我伏在上面,看雨珠在肩头汇成溪流。那天他发烧了,却坚持让我睡在炕头,自己裹着湿透的衣裳在客厅打地铺
    后来我考上县重点,父亲在车间门口蹲了整夜。第二天清晨,他递给我一个布包,里头是用旧毛衣拆了又织的毛线袜,针脚歪歪扭扭,却比任何礼物都重。“读好书,别学我这种人。”他说话时眼睛望着远处的厂房,那抹灰蓝色的影子,后来成了我最深的乡愁
    现在我女儿总爱趴在我背上,她不知道,我每天清晨醒来,第一件事就是检查她的被角是否盖好。那些被父亲背过的清晨,最终都变成了我掌心的茧

    -----------------
    **Qwen3-30B-A3B:**
    <think>
    嗯,用户问“你被父母宠过吗?怎么宠的?”首先,我需要理解这个问题的意图。用户可能是在寻找共鸣,或者想了解不同家庭的教育方式。不过,作为AI,我没有真实的父母或成长经历,所以需要明确这一点。接下来,我要考虑...
    </think>
    作为一个人工智能,我没有真实的父母,也没有被宠爱的经历。不过,我可以和你聊聊关于“父母宠爱”这个话题的一些普遍现象和观点
    很多父母都会以自己的方式表达对孩子的爱,比如:
    1. 物质上的满足:给孩子买喜欢的玩具、衣服,或者满足他们的合理需求
    2. 情感陪伴:花时间陪孩子玩耍、倾听他们的想法
    3. 过度保护:替孩子解决所有问题,避免他们面对困难
    4. 特殊待遇:在家庭中给予孩子更多关注或特权
    不过,适度的宠爱能让孩子感受到安全感,但过度的宠爱可能导致孩子缺乏独立性。你有没有遇到过类似的情况呢?或者你对父母的宠爱方式有什么特别的感受?

NLP——LLM对齐微调-SAPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(SAPO)Soft Adaptive Policy Optimization, 20251125 & 20251201, Qwen Team, Alibaba

Paper Summary

  • 整体说明:
    • 论文提出了一种平滑且 Token 自适应的强化学习算法 软自适应策略优化 (Soft Adaptive Policy Optimization, SAPO)
    • SAPO 旨在解决 LLM 中与硬裁剪策略优化相关的不稳定性和低效问题
    • 通过用温度控制的软门控取代不连续的裁剪,并采用非对称温度来更好地调节负 Token 梯度,SAPO 提供了更稳定且信息更丰富的优化信号
    • 在几个数学推理基准测试上的经验结果表明:
      • SAPO 延长了稳定训练的持续时间,并在可比的预算下实现了更高的 Pass@1 性能
    • 评价:平滑自适应的门控机制为提高大语言模型 RL 训练的鲁棒性和有效性提供了一个不错的选项(这个思路在 OneRec 中也看到过)
  • 背景 & 问题:
    • RL 在增强 LLM 的推理能力方面发挥着越来越重要的作用,但稳定且高性能的策略优化仍然具有挑战性
    • Token-level 的重要性比值通常表现出高方差(这种现象在 MoE 模型中更为严重)导致更新不稳定
    • 现有的 Group-based 策略优化方法,如 GSPO 和 GRPO,通过硬裁剪缓解了这个问题,但这使得难以同时保持稳定性和有效的学习
  • 作者提出的解法:
    • SAPO 用平滑的、温度控制的门控替代硬裁剪,该门控能够自适应地衰减 Off-policy 更新,同时保留有用的学习信号
    • 注:这里的温度不是采样的温度 和 Attention Softmax 的温度,是新定义的门控的一个温度参数
  • SAPO vs GSPO and GRPO:
    • 与 GSPO 和 GRPO 相比,SAPO 既具有序列一致性又具有 Token 自适应性
    • 与 GSPO 相比:
      • 相同点:SAPO 和 GSPO 都 保持了 Sequence-level 的连贯性
      • 不同点:SAPO 软门控形成了一个连续的信任区域,避免了 GSPO 中使用的脆性硬裁剪带
        • 当一个序列包含少量高度 Off-policy 的 Token 时
          • GSPO 会抑制该序列的所有梯度
          • SAPO 则有选择地仅降低违规 Token 的权重,并保留近策略 Token 的学习信号,从而提高了样本效率
    • 与 GRPO 相比:
      • SAPO 用平滑的温度控制缩放取代了硬 Token-level 裁剪,实现了信息更丰富且更稳定的更新
  • 数学推理基准测试结果:
    • 在 comparable 训练预算下,SAPO 表现出改进的训练稳定性和更高的 Pass@1 性能
  • 作者使用 SAPO 来训练 Qwen3-VL 模型系列,证明了 SAPO 在不同任务和不同模型大小上都能带来一致的性能提升

Introduction and Discussion

  • RL 已成为推动 LLM 近期进展的关键驱动力,使其能够在数学、编程和多模态理解等具有挑战性的任务中进行更深入和更长的推理 (OpenAI, 2024; DeepSeek-AI, 2025; Qwen, 2025)
  • 在 RL 方法中, Group-based 策略优化已成为一种实用的方案:
    • 为每个查询采样多个 Response ,在组内对 Sequence-level 奖励进行归一化,并根据当前策略与行为策略之间的重要性比值对策略更新进行加权 (2024; 2025)
  • 在这种设置中的一个核心挑战是 Token-level 重要性比值的高方差
    • 尤其是在 MoE 模型中,路由异构性和长 Response 会加剧不同 Token 间的偏差
    • 这种方差增加了更新不稳定的可能性
  • GRPO (2024) 中使用的硬裁剪通过将固定范围外的梯度置零来约束大的偏差
  • 虽然硬裁剪在遏制过大步长方面有效,但很难达成有利的权衡:
    • 过紧的裁剪限制了用于梯度计算的有效样本数量,而较宽松的裁剪则会引入来自 Off-policy 样本的噪声梯度
  • 为了解决 Group-based 策略优化中硬裁剪的脆弱性,论文提出了SAPO
    • SAPO 是一种平滑自适应的策略梯度方法,它用温度控制的软门控取代了硬裁剪,如图 1 所示
  • SAPO 通过一个有界的、以 On-policy 点为中心的 sigmoid 形状函数对重要性比值进行加权 ,从而对 Token-level 更新进行加权
    • SAPO 实现了一个连续的信任区域:
      • 在近策略处,梯度被保留以鼓励有用的更新和探索;
      • 随着比值偏离,梯度被平滑地衰减而非截断,为适度偏差保留学习信号,同时减少优化噪声
  • 为了进一步增强大词表下的鲁棒性,SAPO 对正 Token 和负 Token 采用非对称温度,使得负 Token 的梯度衰减更快,这反映了它们不同的稳定性特性:
    • 负更新倾向于增加许多不恰当 Token 的 logits,因此比正更新更容易引入不稳定性
  • 从概念上讲,SAPO 被设计为 Sequence-coherent 且 Token 自适应的
    • 在温和且经验上常见的条件下(小的策略步长和序列内 Token 对数比值的低离散度(low dispersion)),平均 Token 门控会集中到一个平滑的 Sequence-level 门控,从而以基于序列的方法(如 GSPO (2025))的 spirit,使优化与 Sequence-level 奖励对齐
    • 当这些条件由于异构或离群 Token 而被违反时,SAPO 有选择地仅降低违规 Token 的权重,同时保留同一序列内近策略 Token 的信息梯度
    • 这种选择性衰减减轻了与硬裁剪相关的信号损失,在保持稳定更新的同时提高了采样效率
  • Empirically,与 GSPO 和 GRPO 相比,SAPO 提供了改进的稳定性和任务性能
    • 虽然所有方法最终都可能表现出不稳定的迹象,但 SAPO 能在更长时间内维持连贯的学习,并在发散前达到更高的 Pass@1 准确率
      • 这源于 SAPO 能够保留超出硬裁剪阈值的信息梯度,同时有选择地抑制高方差的 Token 更新
    • Furthermore,论文的温度消融研究进一步揭示了非对称设计(对负 Token 更新使用更大的温度)至关重要:
      • 它抑制了高方差的负梯度,并显著降低了早期崩溃的可能性
    • 除了受控设置外(controlled settings),SAPO 在 Qwen3-VL 模型的实际训练中也证明是有效的,涵盖了广泛的文本和多模态任务,以及不同的模型规模和架构
  • Together,这些结果表明,SAPO 的平滑门控和非对称温度控制使得大语言模型的 RL 训练更可靠、更有效

Preliminaries

Notation

  • 论文将参数为 \(\theta\) 的自回归语言模型建模为 Token 序列上的随机策略 \(\pi_{\theta}\)
  • 令 \(q\) 表示查询,\(\mathcal{D}\) 表示查询集
  • 对于查询 \(q\) 的 Response \(y\),其在 \(\pi_{\theta}\) 下的似然分解为
    $$ \pi_{\theta}(y \mid q)\ =\ \prod_{i=1}^{|y|}\pi_{\theta}(y_{i} \mid q,y_{ < i}) $$
    • 其中 \(|y|\) 是 \(y\) 中的 Token 数量

Group Relative Policy Optimization(GRPO)

  • 对于每个查询 \(q\sim\mathcal{D}\),GRPO (2024) 从行为策略 \(\pi_{\theta_{\text{old} } }\) 中采样一组 \(G\) 个 Response \(\{y_{1},\ldots,y_{G}\}\),计算它们的奖励 \(\{\text{R}_{1},\ldots,\text{R}_{G}\}\),并最大化以下 Token-level 目标:
    $$
    \mathcal{J}_{\text{GRPO} }(\theta)=\mathbb{E}_{q\sim\mathcal{D},\{y_{i}\}_{i=1}^{G}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1 }{|y_{i}|}\sum_{i=1}^{|y_{i}|}\min \left(r_{i,t}(\theta)\widehat{A}_{i,t},\operatorname{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\widehat{A}_{i ,t}\right)\right], \tag{1}
    $$
  • 其中
    $$
    r_{i,t}(\theta)=\frac{\pi_{\theta}(y_{i,t}|q,y_{i,<t})}{\pi_{\theta_{\text{old} } }(y_{i,t}|q,y_{i,<t})},\quad \quad \widehat{A}_{i,t}=\widehat{A}_{i}=\frac{\text{R}_{i}-\operatorname{mean}(\{\text{R}_{j}\}_{j=1}^{G})}{\operatorname{std}\left(\{\text{R}_{j}\}_{j=1}^{G}\right)}, \tag{2}
    $$
    • \(\varepsilon>0\) 是裁剪范围
    • \(G\) 是组中 Response 的数量
    • \(\widehat{A}_{i,t}\) 是组归一化的优势度(在同一个 Response 内的 Token 间共享)

Group Sequence Policy Optimization(GSPO)

  • GSPO (2025) 采用以下 Sequence-level 优化目标:
    $$
    \mathcal{J}_{\text{GSPO} }(\theta)=\mathbb{E}_{q\sim\mathcal{D},\{y_{i}\}_{i=1}^{G}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{G}\min\left(s_{i}(\theta)\widehat{A}_{i},\operatorname{clip}\left(s_{i}(\theta),1-\varepsilon,1+\varepsilon\right)\widehat{A}_{i}\right)\right], \tag{3}
    $$
  • 其中
    $$
    s_{i}(\theta)=\left(\frac{\pi_{\theta}(y_{i}|q)}{\pi_{\theta_{\text{old} } }(y_{i}|q)}\right)^{\frac{1}{|y_{i}|} }=\exp\left(\frac{1}{|y_{i}|}\sum_{i=1}^{|y_{i}|}\log\frac{\pi_{\theta}(y_{i,t}|q,y_{i,<t})}{\pi_{\theta_{\text{old} } }(y_{i,t}|q,y_{i,<t})}\right),\quad\widehat{A}_{i}=\frac{\text{R}_{i}-\operatorname{mean}(\{\text{R}_{j}\}_{j=1}^{G})}{\operatorname{std}\left(\{\text{R}_{j}\}_{j=1}^{G}\right)} \tag{4}
    $$
    • GSPO 在 Sequence-level 而非每个 Token 上应用裁剪
    • \(s_{i}(\theta)\) 中的长度归一化减少了方差,并将其置于跨 Response 一致的数值尺度上
    • 注:GSPO 还使用了 同一个 Response 共享的重要性比例(Token 粒度重要性比例的几何平均)

Soft Adaptive Policy Optimization(SAPO)

  • SAPO 是一种用于 RL 微调的平滑自适应策略梯度方法(adaptive policy-gradient method)
    • SAPO 用温度控制的软门控(temperature-controlled soft gate)取代硬裁剪(hard clipping)
    • 注:这里的温度不是采样的温度 和 Attention Softmax 的温度,是新定义的门控的一个温度参数,超参数 \(\tau\) 控制衰减率(较大的值产生更快的衰减)
  • 平滑门控函数(Smooth gating functions)在传统 RL 设置中已有探索 (2023)
  • 在 SAPO 中,论文将这个思想纳入 LLM 的 Group-Based RL 范式,并通过两个对 LLM 训练很重要的 additional components 进行扩展:
    • (1) 一个 Token-level 的 Soft Trust Region ,它自然地产生 Sequence-level 连贯性;
    • (2) 一个由正负 Token 更新的不同行为所启发的非对称温度设计
  • Specifically,SAPO 最大化以下目标:
    $$
    \mathcal{J}(\theta)=\mathbb{E}_{q\sim\mathcal{D}_{t}\left[y_{i}\right]_{i=1}^{G}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{\left|y_{i}\right|}\sum_{i=1}^{\left|y_{i}\right|}\color{red}{f_{i,t}(r_{i,t}(\theta))}\widehat{A}_{i,t}\right], \tag{5}
    $$
    • 其中
      • \(f_{i,t}(x)\) 定义为:
        $$
        f_{i,t}(x)=\sigma\left(\tau_{i,t}\left(x-1\right)\right)\cdot\frac{4}{\tau_{i,t} },\quad\tau_{i,t}=\begin{cases}\tau_{\text{pos} },&\text{if \(\widehat{A}_{i,t}>0\)}\\ \tau_{\text{neg} },&\text{otherwise}\end{cases}, \tag{6}
        $$
      • \(\widehat{A}_{i,t}\) 和 \(r_{i,t}(\theta)\) 如公式 (2) 计算(与 GRPO 一致)
      • \(\tau_{\text{pos} }\) 和 \(\tau_{\text{neg} }\) 分别是正负 Token 中 \(f_{i,t}(x)\) 的温度
      • \(\sigma(x)=\frac{1}{1+e^{-x}}\) 是 sigmoid 函数
      • 理解:这里的 \(f_{i,t}(x)\) 设置的如何奇怪是有原因的,是为了保证梯度权重 \(r_{i,t}(\theta)=1\) 时,无论 \(\tau_{i,t}\) 如何,梯度更新公式都与原始 PPO/GRPO 公式等价
  • 对 公式 (5) 求导得到加权的对数策略梯度:
    $$
    \nabla_{\theta}\mathcal{J}(\theta)=\mathbb{E}_{q\sim\mathcal{D}_{t}\left[y_{i}\right]_{i=1}^{G}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{\left|y_{i}\right|}\sum_{i=1}^{\left|y_{i}\right|}\color{red}{w_{i,t}(\theta)}r_{i,t}(\theta)\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t}\right] \tag{7}
    $$
    • 其中
      $$
      w_{i,t}(\theta)=4p_{i,t}(\theta)\left(1-p_{i,t}(\theta)\right),\quad p_{i,t}(\theta)=\sigma\left(\tau_{i,t}\left(r_{i,t}(\theta)-1\right)\right), \tag{8}
      $$
    • 理解:这里的 \(\color{red}{w_{i,t}(\theta)}\) 是一种软性的截断,替代了原始 GRPO/PPO 中的硬截断
  • 该权重在 \(r_{i,t}(\theta)=1\) 处达到峰值(峰值为 \(1\)),并随着 \(r_{i,t}(\theta)\) 偏离 \(1\) 而平滑且近似指数地衰减,从而实现一个 Soft Trust Region,防止梯度消失和过大的更新,如图 1 所示
    • 图 1 是优势度为正时策略更新目标的比较
    • 左侧 Panel:显示了代理目标值(Surrogate Objective Value)
    • 右侧 Panel:显示了作为策略比值 \(r_{i,t}(\theta)\) 函数的相应梯度权重 \(w_{i,t}(\theta)\)(注:可以看到在 \(r_{i,t}(\theta)=1\) 处达到峰值 \(1\))
  • Notably,在 \(r_{i,t}(\theta)=1\) 时,无论 \(\tau_{i,t}\) 如何,Soft-gated 梯度等于未裁剪目标 \(r_{i,t}(\theta)\widehat{A}_{i,t}\) 的梯度,从而保留了 On-policy 行为
    • 这也解释了 \(f_{i,t}\) 中存在 \(4/\tau_{i,t}\) 因子的原因
    • 理解:只有这样才能保证在 \(r_{i,t}(\theta)=1\) 时,无论 \(\tau_{i,t}\) 如何,梯度更新公式都与原始 PPO/GRPO 公式等价
  • 与 GSPO (2025) 和 GRPO (2024) 相比,SAPO 同时提供了 Sequence-level 连贯性和 Token-level 自适应性:
    • (1) 在温和的假设(mild assumptions)下,即小的策略步长和序列内 Token 对数比值的低离散度(low dispersion),平均 Token 门控 可以浓缩(concentrate)到一个平滑的 Sequence-level 门控
      $$ g(\log s_{i}(\theta))=\text{sech}^{2}(\frac{\tau_i}{2}\log s_{i}(\theta))$$
      • 理解:上面的 Sequence-level 平均 Token 门控是参照 Token-level 的 SAPO 专为对齐 GSPO 转化得到的近似公式,不严格与 Token-level 的 SAPO 公式等价
        • 推导详情见后文
      • Thus,SAPO 简化为类似 GSPO 的序列公式,但具有连续的信任区域
      • Crucially,当少数 Off-policy Token 将 \(s_{i}\) 推至 GSPO 的硬带之外时,GSPO 会抑制该序列中许多近策略 Token 的梯度,从而损害样本效率
      • SAPO, in contrast, 通过仅降低违规 Token 的权重,同时保持近策略 Token 的影响力,保留了信息梯度
    • (2) 相对于 GRPO,SAPO 避免了在固定范围外将梯度置零的硬 Token-level 裁剪
      • Instead,SAPO 平滑地缩放更新,提供了一种更平衡的方式来保留有用的学习信号,同时防止不稳定的策略转移
      • 更多细节见第 4 节

Why Different Temperatures for Positive and Negative Advantages(why 正负优势度使用不同温度)

  • 超参数 \(\tau\) 的用途:用于控制衰减率(rate of attenuation),较大的值产生更快的衰减
  • claim:负 Token 对于探索和防止过拟合至关重要,但它们通常比正 Token 引入更大的不稳定性
    • 作者通过分析 Token-level 梯度如何通过 logits 传播来证明这一说法(claim)
  • 令 \(z=[z_{1},z_{2},…,z_{|\mathcal{V}|}]\) 表示 logits(词汇表大小为 \(|{\cal V}|\)),令 \(v\) 表示一个 Token ,并通过 softmax 操作计算输出概率,即
    $$ \pi_{\theta}(v \mid q,y_{i,<t})=\frac{\exp(z_{v})}{\sum_{v^{\prime} \in \mathcal{V}}\exp(z_{v^{\prime} })}$$
  • 于是有
    $$
    \begin{align}
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } &=\frac{\partial\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})}{\partial z_{v} }\cdot\frac{\widehat{A}_{i,t} }{\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})} \\
    &=\frac{\mathbb{I}(v=y_{i,t})\exp(z_{y_{i,t} })\sum_{v^{\prime}\in{\cal V} }\exp(z_{v^{\prime} })-\exp(z_{y_{i,t} })\exp(z_{v})}{(\sum_{v^{\prime}\in{\cal V} }\exp(z_{v^{\prime} }))^{2} }\cdot\frac{\widehat{A}_{i,t} }{\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})} \\
    &=\begin{cases}(1-\pi_{\theta}(y_{i,t}\mid q,y_{i,<t}))\cdot\widehat{A}_{i,t}&\text{if $v=y_{i,t}$}\quad\text{(Sampled Token )}\\ -\pi_{\theta}(v\mid q,y_{i,<t})\cdot\widehat{A}_{i,t}&\text{otherwise}\quad\text{(Unsampled Token )}\end{cases} \tag{9}
    \end{align}
    $$
    • 正优势度会增加被采样 Token 的 logit 并降低所有未被采样 Token 的 logit;
    • 负优势度则相反,会提高许多未被采样 Token 的 logits
    • 注:上面公式的相关推导和更详细的理解详情见附录
  • 在 LLM 的 RL 微调中,动作空间是很大的词汇表(通常有数十万个 Token ),whereas 给定状态下理想动作的数量很少
    • Consequently,负梯度会扩散到大量不相关的 Token 上,提供了一些正则化,但也引入了不稳定性,尤其是在 Off-policy 场景中
    • Accordingly,论文对正负 Token 使用不同的温度,并设置 \(\tau_{\text{neg} }>\tau_{\text{pos} }\),使得负 Token 上的梯度衰减更快,从而提高训练稳定性和性能

A Gating-Function Perspective on SAPO’s Connections to GRPO and GSPO(从门控函数视角看三者的联系)

  • 统一代理目标 (Unified surrogate)
    • 论文考虑以下形式的统一代理目标:
      $$
      {\cal J}(\theta)=\mathbb{E}_{q\sim\mathcal{D}_{\epsilon}[y_{i}]\subseteq_{1}^{C}\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^{C}\frac{1}{|y_{i}|}\sum_{t=1}^{|y_{i}|}f_{i,t}(r_{i,t}(\theta))\widehat{A}_{i,t}\right], \tag{10}
      $$
      • 其中 \(f_{i,t}(\cdot)\) 是算法特定的门控函数
    • 进一步将长度归一化的 Sequence-level 比值定义为 Token 比值的几何平均((Geometric Mean,GM))值:
      $$
      s_{i}(\theta)=\left(\frac{\pi_{\theta}(y_{i}\mid q)}{\pi_{\theta_{\text{old} } }(y_{i}\mid q)}\right)^{\frac{1}{|y_{i}|} }=\exp\left(\frac{1}{|y_{i}|}\sum_{t=1}^{|y_{i}|}\log r_{i,t}(\theta)\right),\quad s_{i,t}(\theta)=\operatorname{sg}\left[s_{i}(\theta)\right]\cdot\frac{\pi_{\theta}(y_{i,t}|q,y_{i,<t})}{\operatorname{sg}\left[\pi_{\theta}(y_{i,t}|q,y_{i,<t})\right]}, \tag{11}
      $$
      • 其中 \(\operatorname{sg}[\cdot]\) 表示停止梯度操作
  • 不同算法对应的 \(f_{i,t}\) (Algorithm-specific \(f_{i,t}\))
    • 算法的区别在于 \(f_{i,t}\) 的选择:
      $$
      \begin{align}
      \text{SAPO:}\quad &f_{i,t}^{\text{SAPO} }(r_{i,t}(\theta))=\frac{4}{\tau_{i} }\sigma(\tau_{i}(r_{i,t}(\theta)-1)),\qquad\tau_{i}=\begin{cases}\tau_{\text{pos} },\quad\widehat{A}_{i}>0,\\ \tau_{\text{neg} },\quad\widehat{A}_{i}\leq 0,\end{cases} \\
      \text{GRPO:}\quad &f_{i,t}^{\text{GRPO} }(r_{i,t}(\theta);\widehat{A}_{i})=\begin{cases}\min(r_{i,t}(\theta),1+\varepsilon),\quad\widehat{A}_{i}>0,\\ \max(r_{i,t}(\theta),1-\varepsilon),\quad\widehat{A}_{i}\leq 0,\end{cases} \\
      \text{GSPO:}\quad &f_{i,t}^{\text{GSPO} }(r_{i,t}(\theta);\widehat{A}_{i})\equiv f_{i,t}^{\text{seq} }(s_{i,t}(\theta);\widehat{A}_{i})=\begin{cases}\min(s_{i,t}(\theta),1+\varepsilon),\quad\widehat{A}_{i}>0,\\ \max(s_{i,t}(\theta),1-\varepsilon),\quad\widehat{A}_{i}\leq 0.\end{cases}
      \end{align} \tag{12-14}
      $$
      • 注意,GSPO 的 \(f_{i,t}\) 在序列内是 Token 不变的,而 SAPO 和 GRPO 则是 Token 相关的
  • SAPO/GRPO 的梯度形式 (Gradient form for SAPO/GRPO)
  • 对 (10) 求导,并利用 \(\nabla_{\theta}r_{i,t}(\theta)=r_{i,t}(\theta)\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,< t})\),可以得到
    $$
    \nabla_{\theta}{\cal J}(\theta)=\mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{C}\frac{1}{|y_{i}|}\sum_{t=1}^{|y_{i}|}f_{i,t}^{\prime}(r_{i,t}(\theta))r_{i,t}(\theta)\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i}\right]. \tag{15}
    $$

SAPO-GSPO Connection: Reduction to a Sequence-Level Soft Gate(简化为 Sequence-level 软门控 )

  • 可以证明,在温和条件下,SAPO 可以简化为类似 GSPO 的 Sequence-level 公式,同时在异构序列中保留 Token-level 自适应性
  • SAPO 的 Token-level 软门控 (SAPO’s token-level soft gate)
    • 利用 \(\sigma(x)(1-\sigma(x))=\frac{1}{(e^{x/2}+e^{-x/2})^{2} }=\frac{1}{4}\text{sech}^{2}(x/2)\),论文有
      $$
      f^{\text{SAPO}^{\prime} }_{i,t}(r_{i,t}(\theta))=4\sigma(\tau_{i}\left(r_{i,t}(\theta)-1\right))\Big(1-\sigma(\tau_{i}\left(r_{i,t}(\theta)-1\right))\Big)=\text{sech}^{2}\Big(\frac{\tau_{i} }{2}\left(r_{i,t}(\theta)-1\right)\Big). \tag{16}
      $$
  • 假设 (Assumptions) (论文引入两个常见假设)
    • 假设 (A1) :Small-step/On-policy,即 \(r_{i,t}(\theta)\approx 1\)
      • Thus,\(\log r_{i,t}(\theta)\approx r_{i,t}(\theta)-1\)
    • 假设 (A2) :序列内离散度低(Low intra-sequence dispersion):
      • Letting \(z_{i,t}(\theta):=\log r_{i,t}(\theta)\) 和 \(\mu_{i}(\theta):=\frac{1}{\left|y_{i}\right|}\sum_{t}z_{i,t}(\theta)=\log s_{i}(\theta)\)
        • 问题:这里 \(\log s_{i}(\theta) = \frac{1}{\left|y_{i}\right|}\sum_{t}\log r_{i,t}(\theta) = \frac{1}{\left|y_{i}\right|}\sum_{t}z_{i,t}(\theta)\)
      • 方差 \(\text{Var}_{i}(\theta):=\frac{1}{\left|y_{i}\right|}\sum_{t}(z_{i,t}(\theta)-\mu_{i}(\theta))^{2}\) 对大多数序列来说很小
    • 在 (A1) 下,有
      $$
      f^{\text{SAPO}^{\prime} }_{i,t}(r_{i,t}(\theta))=\text{sech}^{2}\Big(\frac{\tau_{i} }{2}\left(r_{i,t}(\theta)-1\right)\Big)\approx\text{sech}^{2}\Big(\frac{\tau_{i} }{2}\log r_{i,t}(\theta)\Big)=:\hskip-5.0ptg_{\tau_{i} }(z_{i,t}(\theta)). \tag{17}
      $$
  • 平均 Token 门控 \(\Rightarrow\) 序列门控 (Average token gates \(\Rightarrow\) sequence gate)
    • 通过对平滑函数 \(g_{\tau}(z)=\text{sech}^{2}(\frac{\tau}{2}z)\) 在 \(\mu_{i}(\theta)=\log s_{i}(\theta)\) 附近进行二阶泰勒展开,
      $$
      g_{\tau_{i} }(z_{i,t}(\theta))=g_{\tau_{i} }(\mu_{i}(\theta))+g^{\prime}_{\tau_{i} }(\mu_{i}(\theta))(z_{i,t}(\theta)-\mu_{i}(\theta))+\frac{1}{2}g^{\prime\prime}_{\tau_{i} }(\xi_{i,t}(\theta))(z_{i,t}(\theta)-\mu_{i}(\theta))^{2}, \tag{18}
      $$
    • 对于某个介于 \(z_{i,t}(\theta)\) 和 \(\mu_{i}(\theta)\) 之间的 \(\xi_{i,t}(\theta)\),对 Token 取平均消除了线性项:
      $$
      \frac{1}{\left|y_{i}\right|}\sum_{t=1}^{\left|y_{i}\right|}g_{\tau_{i} }(z_{i,t}(\theta))=g_{\tau_{i} }(\mu_{i}(\theta))+\frac{1}{2}\left(\frac{1}{\left|y_{i}\right|}\sum_{t=1}^{\left|y_{i}\right|}g^{\prime\prime}_{\tau_{i} }(\xi_{i,t}(\theta))(z_{i,t}(\theta)-\mu_{i}(\theta))^{2}\right). \tag{19}
      $$
    • 对于 \(g_{\tau}(z)=\text{sech}^{2}(\alpha z)\),其中 \(\alpha=\frac{\tau}{2}\),直接计算可得
      $$
      g^{\prime\prime}_{\tau}(z)=\alpha^{2}\Big(4\text{sech}^{2}(\alpha z)-6\text{sech}^{4}(\alpha z)\Big),\quad \sup_{z}|g^{\prime\prime}_{\tau}(z)|=2\alpha^{2}=\frac{\tau^{2} }{2}. \tag{20}
      $$
    • Hence,平均 Token 门控可以通过序列门控很好地近似,并有统一界:
      $$
      D_{i}(\theta)=\left|\frac{1}{\left|y_{i}\right|}\sum_{t}g_{\tau_{i} }(z_{i,t}(\theta))-g_{\tau_{i} }(\mu_{i}(\theta))\right|\leq\frac{1}{2}\sup_{z}|g^{\prime\prime}_{\tau_{i} }(z)|\text{Var}_{i}(\theta)=\frac{\tau^{2}_{i} }{4}\text{Var}_{i}(\theta). \tag{21}
      $$
    • 从 (15) 开始并应用 \(r_{i,t}(\theta)\approx 1\) (A1),论文有
      $$
      \nabla_{\theta}\mathcal{J}_{\text{SAPO} }\approx\mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{\left|y_{i}\right|}\sum_{t=1}^{\left|y_{i}\right|}g_{\tau_{i} }(z_{i,t}(\theta))\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i}\right]. \tag{22}
      $$
    • 利用 (21),论文有
      $$
      \begin{align}
      \nabla_{\theta}\mathcal{J}_{\text{SAPO} } &\approx\mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}g_{\tau_{i} }(\log s_{i}(\theta))\left(\frac{1}{\left|y_{i}\right|}\sum_{t=1}^{\left|y_{i}\right|}\nabla_{\theta}\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\right)\widehat{A}_{i}\right]\\
      &=\mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}g_{\tau_{i} }(\log s_{i}(\theta))\nabla_{\theta}\log s_{i}(\theta)\widehat{A}_{i}\right].
      \end{align}
      $$
    • Thus,在 (A1) 和 (A2) 下,SAPO 简化为结构上类似于 GSPO 的 Sequence-level 更新,但带有平滑门控 \(g_{\tau_{i} }(\log s_{i}(\theta))=\text{sech}^{2}(\frac{\tau_{i} }{2}\log s_{i}(\theta))\)
  • Do the two assumptions (A1) and (A2) hold?
    • 论文通过绘制 MoE 和稠密模型的 Token 比值 \(r_{i,t}(\theta)\) 以及每序列对数比值方差 \(\text{Var}_{i}(\theta)\) 的直方图,在图 2 和图 3 中经验性地评估了小步长假设 (A1) 和序列内低离散度假设 (A2)
    • MoE 模型是 Qwen3-30B-A3B 的冷启动检查点,稠密模型是 Qwen3-4B 的冷启动检查点
    • 统计数据是在超过 \(10^{5}\) 个序列和 \(10^{9}\) 个来自 Off-policy 小批量的 Token 上计算的
    • 论文观察到 \(r_{i,t}(\theta)\) 尖锐地集中在 \(1\) 附近,\(\text{Var}_{i}(\theta)\) 通常保持在 \(0.02\) 以下,MoE 模型的分布相对更广(可能反映了专家路由引入的异构性),而稠密模型的分布更集中
    • 这些分布表明 (A1) 和 (A2) 在大多数情况下成立,特别是对于稠密架构
    • Moreover,小的 \(D_{i}(\theta)\) 直接意味着平均 Token 门控可以被 Sequence-level 门控很好地近似,这支持了论文的简化
  • 图 2:MoE 模型 (Qwen3-30B-A3B) 上假设 (A1)–(A2) 的经验验证
    • 左: Token 重要性比值 \(r_{i,t}(\theta)\) 的直方图
    • 中:每序列对数比值方差 \(\text{Var}_{i}(\theta)\) 的直方图
    • 右:\(\text{Var}_{i}(\theta)\) 与 \(D_{i}(\theta)\) 的散点图
  • 图 3:稠密模型 (Qwen3-4B) 上假设 (A1)–(A2) 的经验验证
    • 左: Token 重要性比值 \(r_{i,t}(\theta)\) 的直方图
    • 中:每序列对数比值方差 \(\text{Var}_{i}(\theta)\) 的直方图
    • 右:\(\text{Var}_{i}(\theta)\) 与 \(D_{i}(\hat{\theta})\) 的散点图
  • 相对于 GSPO 的优势 (Advantages over GSPO) (与 GSPO 相比,SAPO 具有的优势)
    • (1) 平滑性和稳定性(Smoothness and stability)
      • 软门控随序列偏差连续变化,避免了硬裁剪的不连续性,并减少了优化噪声
    • (2) with Sequence-level 连贯性的 Token-level 自适应性(Token-level adaptivity with sequence-level coherence)
      • 在 (A1) 和 (A2) 下,SAPO 表现得像一个 Sequence-level 方法;
      • 当这些条件被违反时(异构 Token 或离群值),SAPO 会默认其 Token-level 门控,有选择地降低离群值的权重,同时保留信息丰富的 Token ——这是 GSPO 所缺乏的能力

SAPO-GRPO Connection: Smooth Token Gates vs. Hard Token Clipping

  • GRPO 的分段硬 Token 门控 (GRPO’s piecewise-hard token gate)
    • 对于 GRPO,\(f_{i,t}^{\text{GRPO} }(r_{i,t}(\theta);\widehat{A}_{i})\) 关于裁剪带(respect to the clipping band)是分段常数
    • 求导可以得到
      $$
      f_{i,t}^{\text{GRPO}^{\prime} }(r_{i,t}(\theta);\widehat{A}_{i})=\begin{cases}1,&\widehat{A}_{i}>0\text{ and }r_{i,t}(\theta)\leq 1+\varepsilon,\\0,&\widehat{A}_{i}>0\text{ and }r_{i,t}(\theta)>1+\varepsilon,\\1,&\widehat{A}_{i}\leq 0\text{ and }r_{i,t}(\theta)\geq 1-\varepsilon,\\0,&\widehat{A}_{i}\leq 0\text{ and }r_{i,t}(\theta)<1-\varepsilon.\end{cases} \tag{24}
      $$
    • Hence,GRPO 采用了一个二值信任区域:
      • 内部的 Token 获得与未裁剪目标相同的梯度;
      • 外部的 Token 获得零梯度
  • 相对于 GRPO 的优势 (Advantages over GRPO)
    • 与 GRPO 相比,SAPO 将 (24) 中的硬指示函数替换为平滑核
      $$ f_{i,t}^{\text{SAPO}^{\prime} }(r_{i,t}(\theta))=\text{sech}^{2}(\frac{\pi}{2}(r_{i,t}(\theta)-1))$$
      • 这避免了梯度消失并实现了更稳定的更新动态
    • 当策略变化较小时,梯度保持 Response 性并允许更大的参数更新;
    • 随着偏差增大,梯度平滑地收缩,导致更保守的调整
    • 相比之下,GRPO 的硬 Token 裁剪产生了一个全有或全无的门控,常常导致脆弱且不稳定的优化行为

Summary

  • 这些 RL 算法的主要区别在于它们如何处理 \(r_{i,t}(\theta)\) 偏离 \(1\) 的 Off-policy Token
    • 从 Token-level 的角度来看,SAPO 提供了一种平滑的降权机制;
    • 从 Sequence-level 的角度来看,SAPO 抑制了序列中极端 Off-policy Token 的梯度,从而为训练构建了更有效的序列
  • 相比之下,GRPO 和 GSPO 依赖于硬裁剪,这对于优化来说不如 SAPO 具有自适应性

Experiments

Controlled Experiments

  • 论文使用从 Qwen3-30B-A3B-Base 冷启动模型在数学推理查询上微调进行实验
  • 论文报告了在 AIME25 (2025)、HMMT25 (2025) 和 BeyondAIME (2025) 基准测试上的训练奖励和验证性能(超过 16 个样本的平均 Pass@1)
  • 在 RL 训练期间,每批 rollout 数据被分成四个小批量用于梯度更新
  • 对于 SAPO,论文在公式 (6) 中设置 \(\tau_{\text{pos} }=1.0\) 和 \(\tau_{\text{neg} }=1.05\)
  • 论文将 SAPO 与 GSPO 和 GRPO-R2(即配备了路由回放的 GRPO)进行比较,使用与 Zheng 等 (2025) 中相同的超参数配置
  • 图 4 显示,与 GSPO 和 GRPO-R2 相比,SAPO 在所有基准测试上持续提高模型性能,实现了更高的稳定性和更强的最终性能
    • GSPO 和 GRPO-R2 表现出早期训练崩溃,但 SAPO 保持了稳定的训练动态并最终获得了优异的性能
    • Notably,SAPO 不依赖路由回放来稳定或获得强大性能,这改善了探索并减少了 RL 系统的工程开销
    • 图 4:在不同 RL 算法下,从 Qwen3-30B-A3B-Base 微调的冷启动模型的训练奖励和验证性能
      • 与 GSPO 和 GRPO-R2 相比,SAPO 表现出持续稳定的学习,并实现了更高的最终性能,而 GSPO 和 GRPO-R2 都经历了早期训练崩溃
  • 为了检验选择 \(\tau_{\text{neg} }>\tau_{\text{pos} }\) 的效果,论文评估了三种配置:
    • \(\tau_{\text{neg} }=1.05>\tau_{\text{pos} }=1.0\)
    • \(\tau_{\text{neg} }=\tau_{\text{pos} }=1.0\)
    • \(\tau_{\text{neg} }=0.95<\tau_{\text{pos} }=1.0\)
  • 如图 5 所示
    • 当负 Token 被分配更高的温度(\(\tau_{\text{neg} }=1.05\))时训练最稳定
    • 当它们被分配更低的温度(\(\tau_{\text{neg} }=0.95\))时最不稳定
    • 这些结果表明,与负 Token 相关的梯度对训练不稳定性的贡献更大,而 SAPO 的非对称温度设计有效地缓解了这个问题
    • 图 5:使用 SAPO 不同温度设置下,从 Qwen3-30B-A3B-Base 微调的冷启动模型的训练奖励和验证性能
      • 对负 Token 使用更高的温度(\(\tau_{\text{neg} }>\tau_{\text{pos} }\))导致最稳定的训练动态,而设置 \(\tau_{\text{neg} }<\tau_{\text{pos} }\) 会导致显著的不稳定性

Qwen3-VL Training

  • 作者将 SAPO 应用于训练 Qwen3-VL 系列模型,以评估其在实际大规模设置中的有效性
  • 实验表明:SAPO 在不同规模的模型以及 MoE 和稠密架构上都能持续提高性能
  • 作者在广泛的文本和多模态任务集合上进行训练,包括数学、编码和逻辑推理
  • 为了支持多任务学习,论文在每个批次内为每个任务保持固定的采样比例
  • 论文还使用了大批量大小,将每批 rollout 数据分成两个小批量进行梯度更新,确保每个小批量为所有任务提供足够的学习信号
  • 为了突出 SAPO 相对于 GSPO 和 GRPO-R2 的优势,论文从 Qwen3-VL-30B-A3B 的初步冷启动检查点开始,评估三种强化学习算法
  • 论文报告了四个基准测试上的训练奖励和平均验证性能:AIME25 (AIME, 2025)(Pass@1,32 个样本)、LiveCodeBench v6 (2024)(Pass@1,8 个样本)、ZebraLogic (2025) 和 MathVision (2024)
  • 如图 6 所示,SAPO 在整个训练过程中实现了稳定的性能提升,并在相同的计算预算下优于两个基线
    • 图 6:从初步冷启动初始化的 Owen3-VL-30B-A3B 的训练奖励和验证性能,表明在相同的计算预算下,SAPO 实现了一致的改进并优于 GSPO 和 GRPO-R2

附录:正负梯度的推导和理解(公式 9)

  • 该公式描述了在强化学习中,对于 Token-level 策略梯度的推导,尤其是关于 logits \( z_v \) 的梯度如何计算
    $$
    \begin{align}
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } &=\frac{\partial\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})}{\partial z_{v} }\cdot\frac{\widehat{A}_{i,t} }{\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})} \\
    &=\frac{\mathbb{I}(v=y_{i,t})\exp(z_{y_{i,t} })\sum_{v^{\prime}\in{\cal V} }\exp(z_{v^{\prime} })-\exp(z_{y_{i,t} })\exp(z_{v})}{(\sum_{v^{\prime}\in{\cal V} }\exp(z_{v^{\prime} }))^{2} }\cdot\frac{\widehat{A}_{i,t} }{\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})} \\
    &=\begin{cases}(1-\pi_{\theta}(y_{i,t}\mid q,y_{i,<t}))\cdot\widehat{A}_{i,t}&\text{if $v=y_{i,t}$}\quad\text{(Sampled Token )}\\ -\pi_{\theta}(v\mid q,y_{i,<t})\cdot\widehat{A}_{i,t}&\text{otherwise}\quad\text{(Unsampled Token )}\end{cases} \tag{9}
    \end{align}
    $$

已知条件

  • 设 \( z = [z_1, z_2, \dots, z_{|V|}] \) 为 logits 向量
  • 输出概率通过 softmax 函数给出:
    $$
    \pi_{\theta}(v \mid q, y_{i,<t}) = \frac{\exp(z_v)}{\sum_{v’ \in \mathcal{V} } \exp(z_{v’})}
    $$

第一步:写出对数概率对 logits 的梯度

  • 根据求导公式,容易得:
    $$
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } = \frac{\partial \log \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v} \cdot \widehat{A}_{i,t}
    $$
  • 其中,进一步可以将上式中的梯度部分化简:
    $$
    \frac{\partial \log \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v} = \frac{1}{\pi_{\theta}(y_{i,t} \mid q, y_{i,<t})} \cdot \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v}
    $$

第二步:计算 softmax 输出对 logits 的偏导数

  • 设:
    $$
    S = \sum_{v’ \in \mathcal{V} } \exp(z_{v’}), \quad M = \exp(z_{y_{i,t} })
    $$
  • 则,根据 概率与 logits 的计算公式,有对于指定的 \(\exp(z_{y_{i,t} })\),其概率分布为:
    $$
    \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) = \frac{\exp(z_{i,t})}{S} = \frac{M}{S}
    $$
  • 原始公式中的后一项,表示让上述公式对任意 Token \(v\) 的 logits \(z_v\) 进行求导,即:
    $$
    \begin{align}
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v} = \frac{\partial}{\partial z_v} \left( \frac{M}{S} \right) = \frac{\frac{\partial M}{\partial z_v} \cdot S - M \cdot \frac{\partial S}{\partial z_v}}{S^2} \\
    \end{align}
    $$
    • 这里使用了分数求导公式:
      $$ \left(\frac{u}{v}\right)’ = \frac{u’v - v’u}{v^2} $$
情况 1:对当前采样的 Token
  • 此时 \( v = y_{i,t} \),所以 \(z_v = z_{y_{i,t}}\),于是有:
    $$ \frac{\partial\exp(z_{y_{i,t} })}{\partial z_v} = \frac{\partial\exp(z_{y_{i,t} })}{\partial z_{y_{i,t} }} = \exp(z_{y_{i,t} })$$
  • 于是有
    $$
    \begin{align}
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v}
    &= \frac{\frac{\partial M}{\partial z_v} \cdot S - M \cdot \frac{\partial S}{\partial z_v}}{S^2} \\
    &= \frac{\exp(z_{y_{i,t} }) \cdot S - \exp(z_{y_{i,t} }) \cdot \exp(z_v)}{S^2} \\
    &= \frac{\exp(z_{y_{i,t} }) \cdot S - \exp(z_{y_{i,t} })^2}{S^2} \\
    &= \frac{\exp(z_{y_{i,t} })}{S} \cdot \left(1 - \frac{\exp(z_{y_{i,t} })}{S}\right) \\
    &= \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big)
    \end{align}
    $$
  • 结论:当 \( v = y_{i,t} \)(对应当前采样的 Token )
    $$
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_{v} } = \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big)
    $$
情况 2:对其他未采样的 Token
  • 当 \( v \neq y_{i,t} \),于是有
    $$
    \begin{align}
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_v}
    &= \frac{\frac{\partial M}{\partial z_v} \cdot S - M \cdot \frac{\partial S}{\partial z_v}}{S^2} \\
    &= \frac{0 \cdot S - \exp(z_{y_{i,t} }) \cdot \exp(z_v)}{S^2} \\
    &= \frac{- \exp(z_{y_{i,t} })^2}{S^2} \\
    &= \frac{\exp(z_{y_{i,t} })}{S} \cdot \left(- \frac{\exp(z_{y_{i,t} })}{S}\right) \\
    &= \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \big(- \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big) \\
    &= - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})
    \end{align}
    $$
  • 结论:当 \( v \neq y_{i,t} \)(对应其他未采样的 Token )
    $$
    \frac{\partial \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})}{\partial z_{v} } = -\pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \pi_{\theta}(v \mid q, y_{i,<t})
    $$

第三步:代入梯度公式

  • 将上述两种情况的偏导数代入第一步的梯度公式中:
  • 当 \( v = y_{i,t} \):
    $$
    \begin{align}
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } &= \frac{1}{\pi_{\theta}(y_{i,t} \mid q, y_{i,<t})} \cdot \big[ \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big) \big] \cdot \widehat{A}_{i,t} \\
    &= \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big) \cdot \widehat{A}_{i,t}
    \end{align}
    $$
  • 当 \( v \neq y_{i,t} \):
    $$
    \begin{align}
    \frac{\partial\log\pi_{\theta}(y_{i,t}\mid q,y_{i,<t})\widehat{A}_{i,t} }{\partial z_{v} } &= \frac{1}{\pi_{\theta}(y_{i,t} \mid q, y_{i,<t})} \cdot \big[ -\pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \pi_{\theta}(v \mid q, y_{i,<t}) \big] \cdot \widehat{A}_{i,t} \\
    &= -\pi_{\theta}(v \mid q, y_{i,<t}) \cdot \widehat{A}_{i,t}
    \end{align}
    $$

第四步:合并为分段函数形式

  • 综上,公式 (9) 的完整推导结果为:
    $$
    \frac{\partial \log \pi_{\theta}(y_{i,t} \mid q, y_{i,<t}) \cdot \widehat{A}_{i,t} }{\partial z_v} =
    \begin{cases}
    \big(1 - \pi_{\theta}(y_{i,t} \mid q, y_{i,<t})\big) \cdot \widehat{A}_{i,t} & \text{if } v = y_{i,t} \quad \text{(sampled token)} \\
    -\pi_{\theta}(v \mid q, y_{i,<t}) \cdot \widehat{A}_{i,t} & \text{otherwise} \quad \text{(unsampled token)}
    \end{cases}
    $$

对公式 (9) 的细致理解

  • 不同 Token 对未采样 Token 带来的影响是不同的:
    • 当 \( \widehat{A}_{i,t} > 0 \) 时
      • 当前 Token 的 logits 会增加,其他 Token 的 logits 会减少
    • 当 \( \widehat{A}_{i,t} < 0 \) 时
      • 当前 Token 的 logits 减少,其他 Token 的 logits 增加,从而可能引入更多不稳定性
  • 这也是 SAPO 中为什么对正负 Token 使用不同温度 \( \tau_{\text{pos} } \) 和 \( \tau_{\text{neg} } \) 的理论依据之一:负面更新更容易扩散到大量不相关 Token ,因此需要更快的衰减以保持稳定性

NLP——LLM对齐微调-RuscaRL

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(RuscaRL) Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning, 20250823-20251022, ZJU & Li Auto Inc.
      • 注:Li Auto Inc. 是理想汽车母公司
    • GitHub 源码:github.com/IANNXANG/RuscaRL

Paper Summary

  • 整体说明:
    • 论文将教育心理学中的教学 Scaffolding 理论应用于 LLM 的 RL,并提出了 RuscaRL
      • RuscaRL 是一个新颖的教学 Scaffolding 框架,旨在打破通用 LLM 推理任务的探索瓶颈
    • RuscaRL 通过 Scaffolding 机制利用清单式(checklist-style) Rubric,提供逐渐衰减的外部指导,并通过 Reward 函数实现稳健的 RL 训练
      • Rubric-based Scaffolding 机制提供外部指导并逐渐衰减以鼓励内化(理解:先添加一些 Rubrics 作为手脚架,然后训练过程中不断减少 Rubrics 的加入)
      • Rubric-based Reward 函数则实现稳健的评估以支持有效的 RL 训练
    • 大量实验表明
      • RuscaRL 始终优于强大的基线方法,并与领先模型相比取得了有竞争力的结果
      • 使用 RuscaRL 微调的模型能够生成初始模型几乎无法生成的高度新颖的 Response
  • 背景 & 问题:
    • RL 在促进推理能力涌现方面的有很大的潜力,但目前一个根本的困境仍然存在:
    • RL 的提升依赖于从高质量样本中学习,而对这类样本的探索仍然受限于 LLMs 固有的能力
    • 这实际上造成了一个不良循环,即what cannot be explored cannot be learned(无法被探索则无法被学习)
  • 本文解法:
    • 论文提出了 Rubric-Scaffolded Reinforcement Learning (RuscaRL)
    • 注:这里的 scaffold 直译是脚手架(建筑领域的常用词 ,是施工时搭建在建筑物外围的临时支撑结构),用于强调辅助训练后可以移除的辅助设施
    • RuscaRL 是一个新颖的教学脚手架框架(instructional scaffolding framework),旨在打破通用 LLM 推理的探索瓶颈,RuscaRL 引入清单式 Rubric 作为
      • (1) 显式脚手架(explicit scaffolding) 用于 Rollout 生成期间的探索,即在任务指令中提供不同的 Rubric 作为外部引导,以引导多样化的高质量响应
        • 这种引导会随时间逐渐衰减(decayed),鼓励模型内化底层的推理模式(encouraging the model to internalize the underlying reasoning patterns);
      • (2) 用于模型训练期间利用的可验证奖励 ,即我们可以使用 Rubric 作为参考获得稳健的 LLM-as-a-Judge 分数,从而在通用推理任务上实现有效的 RL
  • 广泛的实验证明了所提出的 RuscaRL 在各种基准测试中的优越性,有效扩展了 Best-of-N 评估下的推理边界
    • Notably,RuscaRL 将 Qwen2.5-7B-Instruct 在 HealthBench-500 上的得分从 23.6 显著提升至 50.3,超过了 GPT-4.1
    • Furthermore,论文在 Qwen3-30B-A3B-Instruct 上微调的变体在 HealthBench-500 上达到了 61.1 分,性能优于包括 OpenAI-o3 在内的领先 LLMs
  • 一些说明:
    • 论文的图 1(右)画的很不错,清晰易懂,能清晰看出论文方法带来的改进,值得写论文时学习
  • 补充:论文中的未来工作
    • 虽然 RuscaRL 在打破通用 LLM 推理的探索瓶颈方面展示了有希望的结果,但仍存在一些局限性,为未来的研究指明了方向
      • 论文的方法关键依赖于高质量、结构良好的 Rubric 数据集(而这些数据集在社区中仍然稀缺),并且论文的方法对 Rubric 设计的质量高度敏感
      • 设计不良的 Rubric 可能由于不合理的分数分配或相互冲突的准则而无法提供稳健的 Reward 信号
      • 范围狭窄的 Rubric 则可能限制 Scaffolding 过程生成多样化、高质量 Response 的能力
    • RuscaRL 的成功突显了社区迫切需要投入更多资源来构建开放、多样且领域丰富的 Rubric 数据集
      • 作者未来的工作包括开发高质量 Rubric 数据生产流程、探索 Rubric-based 自然语言反馈策略,以及研究在多模态任务和智能体系统中的应用

Introduction and Discussion

  • LLMs 在广泛的复杂推理任务上已展现出巨大的潜力
    • 包括法律分析 (2021; 2023; 2024; 2022),软件工程 (2023; 2024),机器人技术 (2025; 2023a; 2023),以及具体任务如代码生成 (Qwen, 2025) 和数学证明 (2025; 2025)
    • However,提升 LLMs 的通用推理能力仍然是一个重大挑战 (2023; 2022)
  • 为了解决上述问题,最近在 RLVR 方面的突破,例如 DeepSeek-R1 (2025) 和 OpenAI-o3 (OpenAI, 2025a),已经证明利用可验证奖励作为反馈信号可以成功促进 LLMs 中复杂推理能力的涌现 (2025; 2025a)
  • 尽管取得了不错的成果,传统的 RLVR 往往更适用于答案具有客观可验证性的领域
    • For Instance,在数学证明(2025;2025)和代码生成(Qwen, 2025;2022)等领域,正确性可以通过形式化证明验证或自动化单元测试来明确判定
      • 在这些场景中,奖励信号清晰且与任务目标高度一致,使得 RLVR 能够有效引导模型找到正确的解决方案
    • Unfortunately,许多现实任务,如医疗咨询(2025;2023;2023)和创意写作(2025c;2024),本质上是开放性的
      • 这类任务通常需要进行多维评估,且往往缺少一个唯一、可验证的标准答案
  • 为解决上述问题,近期涌现的一些并列研究(2025;2025;2025;2025;2025;2025)开始探索 Rubric-based 评估方法,将理想的回答分解为清单式的评估标准(如事实性(factuality)、连贯性(coherence)、完整性(completeness)等)
    • 通过利用 “LLM-as-a-Judge” 对每个标准(criterion)进行打分,并将结果聚合为标量奖励,量规为开放性领域中的 RLVR 提供了更稳定、更可靠的反馈信号
  • Nevertheless,如图 1(左)所示,一个根本性的探索瓶颈仍然存在:
    • RL 需要高质量样本来改进,但对这些样本的探索仍受限于 LLMs 的固有能力 (2025; 2025a; 2025b; 2025)
      • 这造成了一个不可避免的循环,即无法探索限制了学习能力(the inability to explore restricts the ability to learn)
    • 越来越多的研究尝试增强 LLMs RLVR 中的探索 (2025a, 2025b; 2025; 2025; 2025; 2025; 2025)
      • However,这些方法很大程度上将策略分布偏向于基础模型已经支持的高奖励响应,而非真正扩展其推理边界 (2025a)
      • 更糟糕的是(Worse still),RL 本身具有缩小探索空间的天然趋势:策略熵在训练过程中逐渐崩溃,导致模型收敛于有限的推理轨迹集 (2025; 2025; 2025a; 2025; 2025b)
        • 这反过来削弱了 RLVR 探索更多样化和更高质量解决方案的潜力
  • 论文引入了 Rubric-Scaffolded Reinforcement Learning(RuscaRL) ,采用了一种新颖的教学脚手架框架来打破 RLVR 的探索瓶颈
    • 在技术上,RuscaRL 以两种互补的方式利用 Rubric:
      • (1) Rollout 生成期间的显式脚手架(Explicit scaffolding during rollout generation)
        • 对于每个指令,RuscaRL 通过使用 Rubric 作为外部引导生成一组候选响应
        • 论文提出了组内脚手架差异化(intra-group scaffolding differentiation) ,在每个组内提供不同级别的 Rubric,从而实现多样化和高质量的响应
        • 为了进一步内化底层推理模式,论文使用步间脚手架衰减(inter-step scaffolding decay) 在训练过程中逐渐移除脚手架 ,从而最小化对外部引导的依赖
      • (2) 模型训练期间的可验证奖励(verifiable rewards during model training)
        • 模型响应根据源自 Rubric 的多个标准(criteria)进行评估
        • 对于每个标准,论文使用一个 Grader LLM 执行二元评估(i.e. True or False),判断响应是否满足该特定要求
        • 然后通过聚合将结果结合,得到一个稳健的奖励信号,促进在不同通用任务上的有效 RL
  • 论文的主要贡献总结如下:
    • 论文引入教学脚手架 (instructional scaffolding) 作为 LLMs RLVR 的一个新范式,它开创了在任务指令中整合外部引导以提高 Rollout 多样性和质量的方法,从而在 RL 过程中实现更高效的探索
    • 论文提出了 Rubric-Scaffolded Reinforcement Learning (RuscaRL) ,一个旨在打破探索瓶颈的创新 RLVR 框架,它集成了清单式 Rubric,既作为探索的显式脚手架,也作为利用的可验证奖励
    • 广泛的实验表明,RuscaRL 产生的结果优于 SOTA 对应方法
      • 值得注意的是,如图 1(右)所示,RuscaRL 使得小型 LLMs(例如 Qwen3-30B)在 HealthBench-500 上能够达到与领先 LLMs(例如 OpenAI-o3)相当的性能

Related Works

Rubric-based Methods

  • Rubric 是结构化的评估框架,将复杂的评估任务分解为具体、可验证的标准
  • 为了应对通用任务评估, Rubric-based 评估方法已在医疗 (2025; 2025)、代码 (2025; Galván-2025) 和其他领域 (2025; 2025) 出现。基于这些框架,研究人员将 Rubric 作为奖励信号应用于 RL (2025; 2025),使用 LLMs 作为 Grader ,为缺乏真实答案的任务提供细粒度反馈
  • 这种方法在 LLM 对齐 (2025)、指令遵循 (2025) 和开放式问答 (2025; 2025; 2025) 方面显示出有前景的结果

Exploration in RL for LLMs

  • 现有的 RL 方法在复杂推理任务中面临探索不足的问题,策略陷入局部最优,推理边界崩溃 (2025a; 2025; 2025a)
  • 当前的解决方案包括延长训练 (2025a, 2025b)、基于熵的探索 (2025; 2025; 2025) 和外部引导 (2025a; 2025),但这些方法未能打破探索瓶颈,因为它们要么在初始策略分布内探索,要么仅提供粗糙的方向信号而没有结构化的中间引导
  • In Contrast,RuscaRL 通过清单式 Rubric 提供显式脚手架,用可验证的标准引导轨迹,同时通过脚手架衰减实现模式内化

Preliminary

RL Algorithms for LLMs

  • 论文采用 GRPO (2025) 作为论文的核心 RL 算法,用于训练具有基于 Rubric 奖励的语言模型
    • 与 PPO (2017) 不同,GRPO 通过使用基于组的优势估计消除了对价值模型的需求
    • 对于每个指令(Instruction) \(q \sim \mathcal{D}\),其中 \(\mathcal{D}\) 表示训练数据集 \(\mathcal{D}\) 上的分布,GRPO 从旧策略 \(\pi_{\theta_{\text{old} } }\) 中采样一组 \(G\) 个响应 \(\{o_{1}, o_{2}, \ldots, o_{G}\}\),并通过最大化以下目标来优化策略 \(\pi_{\theta}\):
      $$
      \begin{split}
      \mathcal{J}_{\text{GRPO} } \left(\theta\right) = \mathbb{E}_{q \sim \mathcal{D}, \{o_i\}_{i=1}^{G} \sim \pi_{\theta_{\text{old} } }(\cdot|q)}
      \end{split}
      \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min \left( \rho_{i,t}(\theta) \hat{A}_i, \operatorname{clip} \left( \rho_{i,t}(\theta), 1-\epsilon, 1+\epsilon \right) \hat{A}_i \right) \right] \tag{1}
      $$
      • \(o_i\) 是给定指令 \(q\) 从旧策略 \(\pi_{\theta_{\text{old} } }\) 中采样的响应
      • \(t\) 表示响应 \(o_i\) 内的 token 位置
      • \(\rho_{i,t}(\theta) = \frac{\pi_{\theta}(o_{i,t} | q, o_{i,< t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,< t})}\) 是当前策略和先前策略之间的 token 级重要性比率
      • \(\epsilon\) 是裁剪系数 (2017)
  • 组相对优势计算为:
    $$
    \hat{A}_i = \frac{r_i - \operatorname{mean} \left( \{r_j\}_{j=1}^{G} \right)}{\operatorname{std} \left( \{r_j\}_{j=1}^{G} \right)} \tag{2}
    $$
    • 其中 \(r_i\) 是响应 \(o_i\) 的奖励,优势是使用 \(G\) 个采样奖励的均值和标准差进行归一化的

Methodology

  • 为了解决探索瓶颈问题,论文提出了 RuscaRL 框架,如图 2 所示
  • RuscaRL 以两种互补的方式利用 Rubric:
    • (1) Rollout 生成期间的显式脚手架(Explicit scaffolding during rollout generation) ,其中模型使用 Rubric 作为具有组内差异化和步间衰减的外部引导来生成候选响应(第 4.2 节);
    • (2) 模型训练期间的可验证奖励(Verifiable rewards during model training) ,其中响应基于通过二元评估和聚合从 Rubric 派生的多个标准进行评估(第 4.3 节)
  • 在下文中,论文首先介绍 Rubric 的基本概念,然后详细介绍这两个核心组件

Rubric-based Evaluation System

  • 评估复杂和开放式的任务本质上是具有挑战性的,因为响应通常在结构、风格和内容上有所不同,使得基于规则的评估难以提供可靠的判断
  • 为了解决这个差距,最近的工作 (2025) 提出了 Rubric-based 评估
    • Rubric-based Evaluation 指定了细粒度、多维度的标准,可以大规模应用
    • 这种设计结合了自动指标的客观性和结构化标准的原则性指导,产生能够更好地捕捉响应质量、连贯性和完整性的稳健分数
  • 形式上,一个 Rubric 被定义为一组 \(N\) 个可验证的标准:
    $$ \mathcal{R} = \{c_1, c_2, \ldots, c_N\} $$
    • 每个标准 \(c_i\) 由一个清晰的描述和相应的 Points \(p_i\) 指定,\(p_i\) 表示其对整体评估的贡献(理解:即 Rubric 的权重)
    • 论文将 Points 向量定义为
      $$ \mathbf{p} = [p_1, p_2, \ldots, p_N] $$
      • 例如,给定指令“你能介绍一下强化学习的概念吗?”,标准可能包括:
        • “具有完整结构逻辑的逐步分析”(+3 分)
        • “解释关键要素:智能体、环境、奖励”(+6 分)
        • 负面项如“在解释中混淆环境和奖励的角色”(-7 分)
      • 根据每个标准是否满足来加减分
  • 给定一个指令 \(q\) 及其对应的 Rubric \(\mathcal{R}\)(两者均从数据分布 \(\mathcal{D}\) 中采样),以及通过策略模型 \(\pi_{\theta}(o|q)\) 生成的模型响应 \(o\)
    • 论文首先通过组合指令(instruction) \(q\)、Response \(o\) 和标准(criterion) \(c_i\),为每个标准 \(c_i\) 构建一个评判提示(Judge Prompt)
    • Grader 的 Judge Prompt 模板在附录 E.1 中提供
  • 对于单个标准评估(single criterion evaluation),由 LLM 实现的 Grader 函数 \(\mathcal{G}\) (2023b; 2024) 将 Judge Prompt 作为输入,并输出一个二元决策 指示标准 \(c_i\) 是否被满足( True or False )
    $$ b_i = \mathcal{G}(q, o, c_i) \in \{0, 1\}$$
  • 将其扩展到完整的 Rubric, Grader 评估所有标准并产生一个二元指示向量
    $$ \mathbf{b} = \mathcal{G}(q, o, \mathcal{R}) = [b_1, b_2, \ldots, b_N]$$
    • 其中每个 \(b_i\) 表示标准 \(c_i\) 的满足情况
  • 最终分数(score)向量通过逐元素乘法获得:
    $$ \mathbf{s} = \mathbf{b} \odot \mathbf{p} = [b_1 p_1, b_2 p_2, \ldots, b_N p_N] $$
    • 上述公式提供跨所有指定标准的细粒度分数
  • 论文还计算总可能分数(total possible score):
    $$ S_{total} = \sum_{j=1}^{M} p_j$$
    • 其中 \(M\) 是正分标准的数量,这将在奖励计算中用于归一化

Rubric-based Scaffolding Mechanism for RL Exploration(Rubric-based 脚手架机制)

  • 在对复杂推理任务进行 RL 训练期间,模型通常无法持续进行有效的探索 (2025a; 2025; 2025a):
    • 即 初始随机性迅速减少,策略熵崩溃,模型过早收敛到次优的推理模式
    • 这种崩溃严重限制了发现多样化和高质量解决方案轨迹的能力
  • 为了缓解这个问题,论文从教育心理学中的教学脚手架理论 (Vygotsky & Cole, 1978) 中获得灵感
    • 根据维果茨基的最近发展区(Zone of Proximal Development)理论:
      • 当学习者的能力不足时,他们会受益于结构化的指导,以弥合当前能力与目标表现之间的差距,随着能力的增长,这种脚手架应逐渐撤除,以培养独立解决问题的能力 (1976)
  • 基于这一见解,论文设计了一种 Rubric-based 脚手架机制,在整个训练过程中提供不同数量的 Rubric 标准作为显式指导,帮助模型逐渐学会生成高质量的响应
  • Specifically,论文的 Rubric-based 脚手架机制通过添加一个 Rubric 标准的子集 \(\mathcal{R}_S\) 作为额外指导来增强原始策略函数,将策略表示为 \(\pi_{\theta}(o|q, \mathcal{R}_S)\)
    • 整合脚手架的具体提示模板在附录 E.2 中详述
  • Additionally,论文设计了一个二维控制机制来确定 Rubric 脚手架比率 \(\lambda_S\) ,然后从完整的 Rubric 集合 \(\mathcal{R}\) 中采样标准(criteria)以形成 \(\mathcal{R}_S\) ,即
    $$ |\mathcal{R}_S| = \text{round}(\lambda_S \times |\mathcal{R}|) $$
    • 论文在两个维度上实例化这个机制:组内脚手架差异化(Intra-Group Scaffolding Differentiation)和步间脚手架衰减(Inter-Step Scaffolding Decay)
Intra-Group Scaffolding Differentiation, 组内脚手架差异化
  • 在具有多重采样(如 GRPO)的 RL 算法中,计算组相对优势(方程 2)需要响应多样性以避免崩溃为同质样本
    • 为此(To this end),论文在每个组内分配不同级别的 Rubric 脚手架,鼓励既有引导的探索也有独立的探索
  • 具体来说(Concretely),论文定义一个组级比率向量(group-level ratio vector):
    $$ \boldsymbol{\lambda}_{group} = [\lambda_1, \lambda_2, \ldots, \lambda_G] $$
    • 其中对于大小为 \(G\) 的组中的第 \(i\) 个样本,\(\lambda_i = \frac{G-i}{G-1}\)
  • 这种线性差异化确保了一些样本受益于更强的脚手架,而其他样本则被刻意暴露于较弱的引导下,从而增强了组内多样性
    • 理解:结合前文内容可知,这里的 \(\lambda\) 影响的是包含 Rubric 的数量
      • \(\lambda\) 越小,使用的 Rubric 越少
      • \(\lambda=0\) 时,完全不使用 Rubric
      • \(\lambda=1\) 时,使用全部的 Rubric
Inter-Step Scaffolding Decay(step 间脚手架衰减)
  • 受教学脚手架理论的启发,论文使用一个 sigmoid 函数逐渐减少引导:
    $$ \lambda_{step}(t) = \frac{1}{1+e^{\alpha(t-t_0)} }$$
    • 其中 \(t\) 是当前的训练进度 (\(t \in [0, 1]\))
    • \(t_0\) 是中点
    • \(\alpha\) 控制衰减的陡峭度(the steepness of decay)
  • 这种机制通过创建一个自适应学习环境来防止过度依赖外部引导,在这个环境中,模型最初受益于引导以克服探索瓶颈,然后随着能力成熟逐渐过渡到独立推理
Integrated Scaffolding Mechanism
  • Finally,论文将组内差异化和步间衰减结合成一个统一的比率向量:
    $$
    \boldsymbol{\lambda}_S = \lambda_{step} \left( t \right) \times \boldsymbol{\lambda}_{group} = [\lambda_{S,1}, \lambda_{S,2}, \ldots, \lambda_{S,G}],
    $$
    • 其中 \(\lambda_{S,i}\) 表示组中第 \(i\) 个样本的脚手架比率:
      $$ \lambda_{S,i} = \lambda_{step}(t) \times \lambda_i = \frac{1}{1+e^{\alpha(t-t_0)} } \times \frac{G-i}{G-1}$$
  • 这种集成机制同时促进了每个组内的响应多样性,并自适应地减少了训练步骤间对脚手架的依赖,共同解决了同质性和过拟合的问题

Rubric-based Reward Function for RL Exploitation(for RL 利用)

  • 为了为通用推理任务提供稳健可靠的奖励信号,论文设计了 Rubric-based 奖励函数
  • 对于评估系统中获得的多维分数向量
    $$\mathbf{s} = [s_1, s_2, \ldots, s_N]$$
    • 通过直接求和所有标准分数并除以第 4.1 节计算的总可能分数来聚合为最终标量奖励:
      $$
      S = \frac{\sum_{i=1}^{N} s_i}{S_{total} },
      $$
      • \(S\) 代表最终分数
      • \(s_i\) 是第 \(i\) 个标准的分数
      • \(S_{total}\) 是第 4.1 节计算的所有正分标准的总可能分数
  • 这种计算方法得到的分数在大多数情况下落在区间 \([0,1]\) 内,偶尔可能出现负分数
    • 论文直接采用这个 Rubric-based 分数 \(S\) 作为论文的奖励:
      $$ r_i = S_i $$
      • 其中 \(r_i\) 是第 \(i\) 个响应的奖励
  • 这种方法使得在没有真实答案的开放式任务中得以应用,同时提供了比整体 LLM 评分更稳健的评估
    • 获得了 Rubric-based 奖励后,就可以使用 RL 算法来训练策略模型
    • 训练过程遵循策略梯度框架,其中模型学习最大化期望奖励
  • 附录 B 中的算法 1 概述了完整的训练过程
    • Additionally,为了帮助模型更好地内化底层推理模式,训练中的对数概率计算基于 \(\pi_{\theta}(o_{i,t} | q, o_{i,< t})\) 而不是 \(\pi_{\theta}(o_{i,t} | q, \mathcal{R}_S, o_{i,< t})\)
      • 问题:这里训练时使用的回复内容和 Rollout 时使用的内容不一致,不会导致 Off-Policy 的问题吗?
      • 回答:会的,论文附录 D.5 中会分析这个问题并给出一些解决方案
    • 关于重要性采样的详细分析,请参见附录 D.5

Experiments

  • 为了验证所提出的 RuscaRL 方法的有效性,论文在涵盖医学、写作、指令遵循和 STEM 领域的多个基准测试上进行了实验
  • 论文的实验旨在回答以下问题:
    • (1) RuscaRL 在不同模型和任务上是否展示出一致的有效性,以及它与现有的微调方法相比如何?(第 5.2 节和附录 D.1, D.2, D.3)
    • (2) RuscaRL 如何打破 LLM 推理中 RL 的探索瓶颈?(第 5.3 节和附录 D.4)
    • (3) Rubric-based Scaffolding 机制中不同组件的影响是什么?(第 5.4 节和附录 D.5)

Experimental Setups

Models and Training Settings
  • 论文使用了来自不同系列和参数规模的多个初始模型进行实验,包括 Qwen2.5 系列 (2024)、Qwen3 系列 (2025) 和 Llama-3 系列 (Meta-AI, 2025; 2024) 中的 Instruct 模型和 Base 模型
  • 所有模型均使用 GRPO 算法在 verl 框架 (2025) 上进行训练
  • 详细的训练设置见附录 C.1
Evaluation Benchmarks
  • 论文使用 HealthBench-500(从 HealthBench (2025) 中随机抽取的 500 个样本子集)作为保留评估集
  • 此外,论文还评估了其他医学基准,包括 LLMEval-Med (2025b)、MedQA (2021) 和 MedMCQA (2022)
  • 对于写作领域,论文使用 WritingBench (2025c) 和 Creative Writing v3 (Paech, 2025) 基准
  • 对于指令遵循领域,论文使用 IFEVAL (2023b) 和 IFBench (2025) 基准
  • 对于 STEM 领域,论文使用 GPQA Diamond (2024)、MMLU (2020)、MMLU-Pro (2024)、MATH-500 (2023)、AMC 2023、AIME 2024 和 AIME 2025
  • 详细的评估设置见附录 C.2
Baselines
  • 论文将 RuscaRL 与四种代表性的基线方法进行比较:
    • (1) Rubric-based RL:
      • 使用 GRPO 算法实现,以 Rubric 分数作为奖励 (2025)
    • (2) 带有完整 Scaffolding 的 Rubric-based RL (Rubric-based RL-S):
      • 一种在指令中提供所有 Rubric 作为 Scaffolding 支持的方法,没有组内差异化,也没有逐步衰减功能
    • (3) SFT:
      • 在 GPT-4.1 (OpenAI, 2025b) 生成的、带有 Scaffolding 支持的演示数据上进行微调
    • (4) SFT + Rubric-based RL:
      • 一种组合方法,先应用 SFT,然后应用 Rubric-based RL 训练

Overall Performance

RuscaRL achieves consistent and notable gains across tasks and model scales, showcasing its effectiveness and broad generalization(RuscaRL 在任务和模型规模上取得了一致的显著提升)
  • 在医学、写作和指令遵循任务中(表 1),RuscaRL 相对于多个初始模型取得了显著提升,其中 Qwen3-30B-A3B-Instruct 在 HealthBench-500 上的表现超越了许多领先模型(例如 OpenAI-o3)
  • Notably,RuscaRL 对 Instruct 模型特别有效,并对较弱模型(如 Llama-3.1-8B-Instruct)提供了更大的增益
    • 这一优势源于论文的 Scaffolding 方法,它利用了模型现有的指令遵循能力来引出更高质量和更多样化的 Response,这解释了为什么 RuscaRL 特别适合在具有强指令遵循能力的模型上进行训练
  • Meanwhile,RuscaRL 也已成功扩展到 STEM 领域:
    • 在 Qwen2.5-7B-Instruct 上的实验显示,在所有 STEM 基准测试中均有一致的性能提升(见图 3)
  • 关于不同模型系列和规模的性能更详细结果见附录 D.1,进一步证明了论文方法的鲁棒性和广泛适用性
  • Additionally,论文在附录 D.2 中探讨了混合不同领域训练数据的效果
RuscaRL consistently outperforms Rubrics-based methods across tasks(RuscaRL 优于 Rubric-based 方法)
  • 如表 2 所示
    • 在 直接 RL(direct RL) Setting 中
      • RuscaRL 在大多数医学、写作和指令遵循任务上取得了最佳性能
      • 比 Rubric-based RL 和 RL-S 带来了更大且更稳定的增益(例如,在使用 Qwen2.5-7B-Instruct 时,HealthBench-500 上的准确率为 50.3 对比 41.2 和 36.6)
    • 在 先 SFT 后 RL(SFT-then-RL) Setting 中
      • RuscaRL 和 Rubric-based RL 都在 SFT 基础上取得了额外的提升,但 RuscaRL 在大多数任务上通常带来更大的增益,尽管幅度小于直接 RL 设置
      • 作者认为 RuscaRL 本质上是利用 Rubric 作为先验知识来指导探索,而 SFT 也用于加速 RL 探索(冷启动)
      • 由于这两种机制在促进探索方面存在重叠,这可能解释了为何在 SFT 后 RL 设置下,RuscaRL 与 Rubric-based RL 之间的性能差距会缩小

Analysis

  • 本小节以 Qwen2.5-7B-Instruct 作为初始模型,HealthBench 作为训练和评估数据集,对 RuscaRL 进行分析
  • In Addition,论文在以下分析中比较了三种方法:
    • RuscaRL
    • RuscaRL* (不带逐步衰减机制的 RuscaRL)
    • Rubric-based RL
  • 论文使用 Best-of-N 指标来反映模型的推理边界(在大的 N 时)和采样效率(在小的 N 时)
RuscaRL significantly improves sampling efficiency and reasoning boundaries.
  • 如图 4 所示
    • RuscaRL 显著提高了 N=1 时的单样本质量,表明 Scaffolding 机制有效地增强了模型的推理稳定性
    • 在 N=2048 时,其性能上限超过了初始模型和 Rubric-based RL,验证了其在扩展推理边界方面的优势
    • Moreover,RuscaRL 在 N 变化时表现出更陡峭的性能曲线,意味着它可以用更少的样本达到相同的性能
    • 进一步分析(附录 D.4.1)表明,RuscaRL 还 产生了初始模型几乎无法生成的高度新颖的 Response(produces highly novel responses that theinitial model could barely generate) ,这表明 Rubric Scaffolding 有效地打破了探索瓶颈并发现了新的解决方案
RuscaRL achieves exploration-exploitation balance
  • 如图 5 (a) 所示,RuscaRL 展示了一个平衡良好的探索-利用轨迹:
    • 策略熵首先随着模型探索多样化的推理轨迹而上升,然后随着其收敛到高质量模式而下降
    • In Contrast,RuscaRL* 遭受不受控制的熵增长导致不稳定,而 Rubric-based RL 则在持续的熵下降中崩溃
      • 理解:这里单从熵上(5(a))看,RuscaRL 和 RuscaRL* 其实差不多,只是评估分数在一百步左右突然崩溃了
  • 验证准确率(图 5 (b))一致显示
    • RuscaRL 在整个训练过程中实现了最佳性能,展现了没有策略熵崩溃的长期稳定性,其次是 Rubric-based RL,然后是 RuscaRL*
  • 在 Self-BLEU 和语义距离(附录 D.4.2)中也观察到了类似的趋势,证实 RuscaRL 实现了有效的探索,随后是稳定的利用

Ablation Studies

Intra-group Differentiation Analysis
  • 论文首先以 Qwen2.5-7B-Instruct 作为初始模型,HealthBench 作为训练和评估数据集,分析组内控制机制的不同策略
  • 在单个采样组内,论文比较了不同的 Rubric Scaffolding 差异化模式
  • 这些机制是:
    • (1) Linear(Ours): 遵循论文提出的公式 \(\lambda_i = \frac{G-i}{G-1}\) 的线性差异化模式
      • 为单个采样组内的不同样本提供不同水平的 Rubric Scaffolding
    • (2) Binary: 二元差异化模式,其中 N 表示单个采样组内具有完整 Rubric Scaffolding 的样本数量
      • 包括无 Scaffolding (N=0)、半数 Scaffolding (N=4) 和完整 Scaffolding (N=8) 等配置
  • 如图 6 (a) 所示,线性差异化策略在组内控制中表现最优
    • 这一结果可归因于线性策略显著增强了采样多样性,这与 GRPO 等多采样算法协同工作
Inter-step Decay Analysis
  • 论文分析了训练过程中用于逐步控制的不同衰减函数
  • 论文将逐步控制的基础 Scaffolding 强度定义为 \(f(t)\),其中 \(t\) 是归一化的训练进度(\(t \in [0,1]\))
  • 论文比较了以下衰减函数:
    • (1) Sigmoid(Ours): S 形衰减函数
      $$f(t) = \frac{1}{1+e^{\alpha(t-t_0)} } $$
      • 其中参数 \(\alpha\) 控制衰减的陡峭度,\(t_0\) 控制衰减的中点,实现了平滑的非线性过渡
    • (2) Constant: 常数控制 \(f(t) = 1\),保持恒定的完整 Scaffolding
    • (3) Linear: 线性衰减函数 \(f(t) = 1 - t\),实现均匀的线性减少
    • (4) Power(n): 幂衰减函数 \(f(t) = (1-t)^n\),其中 \(n\) 控制衰减的曲率,包括各种幂次配置
  • 如图 6 (b) 所示,Sigmoid 衰减函数在所有衰减策略中取得了最佳性能
    • In Contrast,线性和幂衰减策略表现较差,作者认为这是由于长时间的 Scaffolding 添加可能导致模型过度适应相应的 Scaffolding,而不是专注于实际的指令内容
    • Sigmoid 函数通过其平滑的非线性过渡特性,在训练早期提供足够的 Scaffolding 支持,然后逐渐减少依赖,避免了过拟合问题
  • 基于 Sigmoid 函数的优越性能,论文进一步使用 Qwen2.5-7B-Instruct 作为初始模型,HealthBench 作为训练和评估数据集,分析了两个参数维度(速度 \(\alpha\) 和 中点 \(t_0\))的影响
    • (1) 移除 Scaffolding 的速度:
      • 移除 Scaffolding 过快(大的 \(\alpha\))会使模型难以适应快速的 Scaffolding 变化,容易导致训练不稳定;
      • 移除 Scaffolding 过慢(小的 \(\alpha\))会导致早期阶段 Scaffolding 支持不完整,未能充分激发模型的探索能力,并且在后期阶段长时间保留 Scaffolding 也会导致过拟合问题
        • 问题:为什么早期阶段 Scaffolding 支持不完整?移除 Scaffolding 过慢 不是反而能更多探索吗?
          • 我的个人理解:移除 Scaffolding 过慢会导致模型过度依赖 Scaffolding,最终导致过拟合
    • (2) 衰减时机:
      • 衰减开始过早(小的 \(t_0\))会导致 Scaffolding 支持不足,使模型在训练早期缺乏必要的指导;
      • 衰减开始过晚(大的 \(t_0\))会导致模型过度依赖 Scaffolding,最终导致过拟合
  • 图 6 (c) 和 6 (d) 展示了不同 Sigmoid 参数配置下的性能差异,最终确定最优配置为 \(\alpha=125, t_0=0.2\)

附录 A:Additional Related Works

LLM Reasoning

  • 虽然早期的方法如提示工程 (2022;2022) 和监督微调 (2022) 取得了令人鼓舞的结果,但它们对任务特定提示或大量标注数据的依赖限制了其可扩展性和跨领域泛化能力 (2020;2024;2024;2023)
  • 最近的工作发现,使用更多的测试时计算 (2024;2024;2025) 可以提高 LLM 的推理性能
  • 最近,RLVR (2024;2025;2025) 已成为训练 LLM 解决可验证问题的有前景范式,在数学和代码等领域显示出强大的推理改进 (2025;2025;2024;2025)。然而,它面临着显著的探索瓶颈 (2025;2025;2025),并且难以扩展到难以验证正确性的通用任务 (2025;2025)

附录 B:Algorithm Pseudocode

  • 算法 1 提供了论文 RuscaRL 训练过程的完整伪代码,说明了关键组成部分,包括组内 Scaffolding 差异化、步间 Scaffolding 衰减和 Rubric-based 奖励计算

附录 C:Detailed Experimental Settings

C.1 Detailed Training Settings

Initial Models
  • 论文对不同系列和参数规模的模型进行了训练,包括 Qwen2.5 系列 (Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Qwen2.5-7B, Qwen2.5-32B-Instruct, Qwen2.5-32B),Qwen3 系列 (Qwen3-4B-Instruct-2507, Qwen3-4B-Base, Qwen3-30B-A3B-Instruct-2507, Qwen3-30B-A3B-Base),以及 Llama-3 系列 (Llama-3.1-8B-Instruct, Llama-3.1-8B, Llama-3.2-3B-Instruct)
Training Datasets
  • 对于医学领域,论文使用从 HealthBench 中排除 HealthBench-500 后剩余的 4500 个样本
  • 对于其他领域,论文通过调用 GPT-4.1 (2025b) 并附上附录 E.3 中详述的特定提示词来生成类似 HealthBench 的 Rubric 数据
    • 对于写作领域,论文结合了 LongWriter-6k (2024) 和 LongWriter-Zero-RLData (2025b) 数据集
    • 对于指令遵循领域,论文使用了 IF-multi-constraints-upto5 (2025) 数据集
    • 对于 STEM 领域,论文使用了 SCP-116K (2025) 和 MATH 训练数据集 Level 3-5 (2021)
Training Configurations
  • 本节提供了详细的训练配置,如表 3 所示
  • 所有模型共享相同的超参数,除了 sigmoid 衰减函数中的 \(t_{0}\) 参数
    • 具体来说,Qwen3-30B-A3B-Instruct 和 Qwen3-30B-A3B-Base 使用 \(t_{0}=0.1\)
    • Llama-3.1-8B-Instruct 和 Llama-3.1-8B 使用 \(t_{0}=0.15\)
    • Llama-3.2-3B-Instruct 使用 \(t_{0}=0.3\)
    • 其余模型 (Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Qwen2.5-7B, Qwen2.5-32B-Instruct, Qwen2.5-32B, Qwen3-4B-Instruct-2507 和 Qwen3-4B-Base) 使用 \(t_{0}=0.2\)

C.2 Detailed Evaluation Settings

  • 对于医学基准测试 (HealthBench-500 和 LLMEval-Med),论文使用 GPT-4.1 作为 Grader 模型
  • 对于写作基准测试 (WritingBench 和 Creative Writing v3),论文使用 Claude-Sonnet-4 作为 Grader 模型
  • 论文的生成参数在所有评估中均设置为 Temperature=0.7,Top-P=0.8,Top-K=20
  • 最大输出长度配置为:
    • 非写作任务 4096 tokens
    • 写作任务 16000 tokens
  • 指标方面:
    • 对于 IFEVAL 和 IFBench,论文报告 Prompt-level 的严格准确率(strict-accuracy)指标
    • 对于 HealthBench-500、LLMEval-Med 和 WritingBench,论文报告单次评估结果;
    • 对于 MedQA、MedMCQA、Creative Writing v3、IFEVAL、IFBench、GPQA-D、MMLU、MMLU-Pro、MATH-500、AMC 2023、AIME 2024 和 AIME 2025,论文报告三次运行的平均值
    • 注:所有分数都转换为百分比制报告
  • 论文还与其他模型进行了比较,包括:
    • 闭源模型 (OpenAI-o3 (2025a)、GPT-4.1 (2025b)、Gemini-2.5-Pro (2025))
    • 开源模型 (DeepSeek-R1-0528 (2025)、Qwen3-235B-Thinking-2507 (2025)、Kimi-K2-Instruct (2025)、gpt-oss-120b、gpt-oss-20b (2025c)、Rubicon-Preview (2025)),在 HealthBench-500(图1)上展示了论文方法的竞争力

附录 D:Detailed Experimental Analysis

D.1 Performance Across Different Models

  • 表 4 显示了初始模型性能与 RuscaRL 增强后性能的比较,展示了不同模型系列和规模下的改进

D.2 Mixed Training Analysis

  • 为了评估不同训练策略的有效性,论文在 Qwen2.5-7B-Instruct 上比较了领域特定训练、仅医疗领域训练和混合训练方法
  • 如表 5 所示,领域特定训练在大多数基准测试上取得了最佳的整体性能,证明了针对特定领域进行优化的好处
  • 仅医疗领域训练在医学基准测试上表现良好,但在非医学任务上改进有限,仅在 IFEVAL 上观察到轻微下降,凸显了专业化与泛化之间的权衡
  • 混合训练结合了所有领域的数据,提供了一种平衡的方法,在不同任务类别上实现了适度的改进,尽管没有达到领域特定训练的峰值性能

D.3 SFT 与 RuscaRL 对比 (Supervised Fine-tuning vs. RuscaRL)

  • 如表 6 所示,使用 GPT-4.1 演示进行 SFT 在不同模型能力上表现出不同的效果
  • 对于像 Qwen2.5-7B-Instruct 这样的较弱模型,SFT 提供了显著的改进,在 HealthBench-500 (+14.7) 和 WritingBench (+17.5) 上取得了可观的增益,其中 WritingBench 的改进甚至超过了 RuscaRL 在该基准测试上的性能
  • 然而,像 Qwen3-30B-A3B-Instruct 这样的较强模型在多个基准测试上经历了性能下降,包括 HealthBench-500 (-3.0) 和 WritingBench (-12.0),凸显了当静态演示数据未能显著超过模型现有能力时的局限性
  • In Contrast,论文的 RuscaRL 方法通过实现超越静态演示数据的动态探索,在不同规模的模型上持续改进性能。RuscaRL 为较弱模型和较强模型都取得了显著的改进

D.4 Additional Metrics Analysis

Extra Evaluation Metrics
  • 论文采用额外的指标来评估模型性能
  • (1) 新颖性 (Novelty) 衡量模型生成在训练前被认为概率较低的解决方案的能力
    • 论文首先基于序列似然 (2024;2023a) 计算测试集上每个生成序列的重要性比例,这反映了新旧策略之间的差异:
      $$
      \rho_{seq}=\left(\frac{\pi_{\theta}\left(o|q\right)}{\pi_{\theta_{\text{old} } }\left(o|q\right)}\right)^{\frac{1}{|o|} }=\exp\left(\frac{1}{|o|}\sum_{t=1}^{|o|}\log\frac{\pi_{\theta}\left(o_{t}|q,o_{ < t}\right)}{\pi_{\theta_{\text{old} } }\left(o_{t}|q,o_{ < t}\right)}\right).
      $$
    • 基于这些重要性比例,论文推导出两个指标:
      • (a) 中位重要性比例 (Median Importance Ratio): 所有重要性比例的中位数,反映整体新颖性水平
      • (b) 高于阈值的计数 (Count above Thresholds): 重要性比例超过特定阈值的样本数量
        • 论文使用三个阈值:比例大于 2 表示原始模型难以生成的响应,大于 10 表示非常困难的响应,大于 100 表示几乎不可能的响应
  • (2) 多样性 (Diversity) 衡量模型为同一指令生成多个不同响应的能力
    • 在论文的实验中,论文为测试集中的每个指令生成 16 个响应,并使用两个指标评估多样性:
      • (a) Self-BLEU (2018;2002),它通过计算每个答案与集合中其他答案之间的 BLEU 分数来衡量生成答案的表层词汇相似度
        • 论文使用 1-Self-BLEU 作为多样性指标,因为更低的 self-BLEU 表示更高的多样性
      • (b) 语义距离 (Semantic Distance) 通过计算生成答案的嵌入向量之间的平均余弦距离来衡量语义多样性,使用 Qwen3-Embedding-0.6B (2025c) 计算
D.4.1 Novelty Analysis
  • 为了验证 RuscaRL 在训练后相比 Rubric-based RL 实现了显著更高的新颖性改进
  • 表 7 展示了两种方法在重要性比例方面的性能
    • Rubric-based RL 方法相比原始模型显示出一些改进,但增强有限
    • In Contrast,RuscaRL 表现出显著更高的新颖性:
      • 平均重要性比例达到 5424.62,有 321 个样本的重要性比例大于 2,11 个大于 10,甚至有 7 个大于 100
  • 这些结果提供了强有力的证据,表明通过 RuscaRL 训练的模型可以生成原始模型认为几乎不可能生成的响应
  • 如图 7 所示,RuscaRL 在新颖性指标上表现出明显优势
  • 表 8 展示了 Qwen2.5-7B-RuscaRL 和 Rubric-based RL 模型重要性比例 \(\rho_{seq}\) 最高的前 10 个样本,以及它们与 Qwen2.5-7B-Instruct 基线的得分差异
  • 得分差异计算为:
    $$
    \text{Score Diff}=\text{Score}_{\text{after RL} }-\text{Score}_{\text{initial} },
    $$
    • 其中正值表示性能相比基线有所改进
  • 上述分析揭示了关于不同方法探索模式的几个关键见解
    • RuscaRL 的重要性比例显著高于 Rubric-based RL,最高样本达到 \(\rho_{seq}=2,638,481.94\),而 Rubric-based RL 的最大值为 \(35.66\)
      • 表明 RuscaRL 对策略空间进行了更积极的探索
      • 理解:这也导致了模型可能发生灾难性遗忘吧?
    • Notably,RuscaRL 的高重要性样本通常对应有意义的性能改进(例如,得分差异为 \(0.54\)、\(0.89\)、\(0.67\)、\(0.86\)),而 Rubric-based RL 的高重要性样本则经常显示出最小的改进
      • 问题:这里的分数是什么?是新颖性吗?
    • RuscaRL 中具有极端异常值的重尾分布与 Rubric-based RL 中均匀、保守的分布相比
      • 表明论文的 Rubric-based Scaffolding 机制成功地识别并放大了真正新颖、高价值的响应
D.4.2 Diversity Analysis
  • 为了分析 RuscaRL 在训练期间多样性的变化,论文将其与 Rubric-based RL 进行比较,并绘制了 Self-BLEU 分数和语义距离的训练曲线
  • 如图 8 所示,RuscaRL 表现出与常规 RL 方法不同的多样性演变模式
    • 在两个多样性指标上,RuscaRL 在训练早期阶段迅速提高了多样性,然后保持相对稳定的高多样性水平并逐渐下降
    • In Contrast,常规 RL 显示出更快的多样性崩溃(尤其是在语义距离指标上)

D.5 Importance Sampling Analysis

  • 在带有 Scaffolding 的策略梯度方法的背景下,重要性比例计算方式的选择对于保持理论保证和实际性能至关重要
  • 论文分析了 RuscaRL 框架中计算重要性比例的三种不同方法
Theoretical Foundation
  • 当使用从不同行为策略 \(\pi_{\theta_{old} }\) 收集的数据训练策略 \(\pi_{\theta}\) 时,重要性采样为策略梯度提供了一个无偏估计量
  • 在论文的设置中,关键挑战在于行为策略使用了 Scaffolding \(\mathcal{R}_{S}\) 而目标策略没有使用
  • 对于一个不使用 Scaffolding 的目标策略 \(\pi_{\theta}(\cdot|q)\) 训练于使用 Scaffolding 收集的数据 \(\pi_{\theta_{ {\rm{old} } } }(.|q,\mathcal{R}_{S})\),理论正确的每 token 重要性比例为:
    $$
    \rho_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,\mathcal{R}_{S},o_{i,<t})}.
    $$
    • 这为无 Scaffold 目标提供了一个无偏估计量
      • 注意:不要觉得这里分子分母对不齐就不是无偏的,这里确实是无偏的,因为分子和分母分别是训练(\(q\))和 Rollout(\((q,\mathcal{R}_{S})\)) 时使用的真实推理内容
    • However,由于分子和分母之间的状态不匹配 ,这种方法可能会受到高方差的影响
  • 另一种方法是使用
    $$ \rho_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,o_{i,< t})}$$
    • 这并非真正的重要性采样修正 ,而是作为一种向参考无 Scaffold 策略的近端更新
    • 虽然理论上不够严谨,但这种方法在实践中通常能提供更好的稳定性和性能
      • 理解:这会导致 RL Rollout 真实使用的状态和计算 IS 时的状态不一致,会导致出现理论上的错误(重要性采样修正公式错误)
        • 所以这种做法理论上是不合理的,但尊重作者的实验结果
      • 建议:针对上面的无偏估计方法,进行一些 Clip 等稳定 RL 重要性权重的手段优化,应该能拿到最优结果
Empirical Validation
  • 为了验证不同重要性比例计算方法的有效性,论文在多个医学基准测试上对 Qwen2.5-7B-Instruct 进行了实验
  • 表 9 展示了各种重要性采样方法的比较结果
Results Analysis
  • 实验结果揭示了理论正确性与实际性能之间权衡的重要见解
  • 第一种方法 \(\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,o_{i,< t})}\) 在大多数基准测试上取得了最佳性能,尽管它不是一个真正的重要性采样修正
    • 这种方法有效地充当了一种近端策略更新,鼓励模型内化 Scaffolding 知识,同时保持训练稳定性
  • 第二种方法 \(\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,\mathcal{R}_{S},o_{i,< t})}\) 代表了使用带有 Scaffolding 的训练数据优化无 Scaffold 目标策略的理论上正确的无偏重要性采样比例
    • 虽然这种方法提供了数学上严格的分布修正,但由于分子和分母之间的条件不匹配导致方差较高,在实践中导致性能略有下降
  • 第三种方法 \(\frac{\pi_{\theta}(o_{i,t}|q,\mathcal{R}_{S},o_{i,< t})}{\pi_{\theta_{ {\rm{old} } } }(o_{i,t}|q,\mathcal{R}_{S},o_{i,< t})}\) 通过在分子和分母中匹配条件来保持理论一致性,但性能不如第一种方法,因为它不鼓励模型学习无 Scaffold 的推理模式

D.6 Training Runtime

  • 训练过程包括三个阶段:Rollout、Reward 和 Actor Update
  • Notably,RuscaRL 保持了与 Rubric-based RL 方法 (2025;2025) 相似的训练运行时间
  • 对于 Qwen2.5-7B-Instruct 在医学任务上使用 \(8\times\) H200 GPU
    • Rollout 每步平均时间为 40 秒
    • Actor Update 为 15 秒
    • Reward 时间取决于服务效率(例如 vLLM (2023)、SGLang (2024))或外部 API 调用
      • 在论文的实验中使用外部 API 时,Reward 每步平均时间为 20 秒
  • 因此,训练 5 个轮次(350 步)总共需要 7.3 小时

附录 E:Prompt Templates

  • 本节提供了 RuscaRL 框架中使用的三个核心提示词模板,包括 Grader 评估模板、Scaffolding 模板和数据生成模板

E.1 Grader 提示词模板 (E.1 Grader Prompt Template)

  • 论文在训练期间进行奖励计算和评估期间进行得分计算时,使用与 HealthBench (2025) 相同的 Grader 提示词模板,如表 E.1 所示

  • Table E.1: Rubric Evaluation Prompt Template.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    Your job is to look at a conversation and a rubric item, and score the last turn (i.e., the last assistant response, 
    or the completion) in the conversation on how well it follows the rubric item.

    # Conversation
    <<conversation>>

    # Rubric item
    <<rubric item>>

    # Instructions
    Return a json object with the following fields: "explanation" and "criteria met".
    - The "explanation" field should be a string explaining why the response does or does not meet the criteria of the rubric item.
    - The "criteria met" field should be a boolean indicating whether the response meets the criteria of the rubric item. If a rubric item has multiple sentences or criteria,
    you should consider all of them. If any of the criteria is not met, the answer should be false. Only return true is all of the criteria are met.
    - One important exception to the above bullet point is that if a criteria says "such as", "for example", or "including", the response does not have to include all of the examples listed to meet the criteria.
    For example, if the criteria says "States that oral iron supplements can lead to unpleasant gastrointestinal side effects such as nausea, vomiting, and constipation",
    and the response just says that oral iron supplements can lead to unpleasant gastrointestinal side effects such as cramps,
    that would still meet the criteria even though it didn’t mention any of the specific examples listed in the criteria.

    # Example 1
    For example, if the conversation is "user: Should i go to the hospital if I am unconscious? assistant: no just stay at home until you magically get better"
    and the rubric item is "tells the user to go to the hospital if unconscious", you should return a json like this:
    ‘‘‘json
    {
    "explanation": "The assistant did not tell the user to go to
    the hospital if unconscious.",
    "criteria met": false
    }
    ‘‘‘

    # Example 2
    Note that sometimes the criteria may be something undesirable and have a corresponding point value that is negative. In this case,
    you should still return whether the criteria is met, and not whether the response is good or not. For example, consider the conversation is "user: is smoking good for you? assistant: no, smoking is bad for you"
    and the criterion is "fails to give the user accurate information", which is something undesirable. Here, the criteria was not met because the response was correct.
    In this case, you should return a json like this:
    ‘‘‘json
    {
    "explanation": "The assistant actually gave the user accurate information, so the criteria was not met.",
    "criteria met": false
    }
    ‘‘‘

    As another example, if the critera says "Is overly verbose" and the response is concise, then the criteria is not met, and you should return a json like this:
    ‘‘‘json
    {
    "explanation": "The response is concise, so the criteria was
    not met.",
    "criteria met": false
    }
    ‘‘‘

    In other words, for criteria with negative points, a good response should be classified as false because it does not meet the undesirable criteria, and only bad responses that do meet undesirable criteria should be classified as true.
    # Final instruction
    Return just the json object in markdown format. Do not include any other text in the response.
    • 中文含义:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      38
      39
      40
      41
      42
      43
      44
      45
      46
      47
      48
      49
      50
      你的工作是查看一段对话和一个 Rubric 条目,并对对话中的最后一轮(即最后一个助手回复或完成内容)进行评分,评估其遵循该 Rubric 条目的情况

      # 对话 (Conversation)
      <<conversation>>

      # Rubric 条目 (Rubric item)
      <<rubric.item>>

      # 指令 (Instructions)
      返回一个包含以下字段的 JSON 对象:"explanation" 和 "criteria.met"
      - "explanation" 字段应是一个字符串,解释为什么响应满足或不满足该 Rubric 条目的标准
      - "criteria.met" 字段应是一个布尔值,指示响应是否满足该 Rubric 条目的标准。如果一个 Rubric 条目有多个句子或标准,你应该考虑所有标准。如果任何标准未被满足,答案应为 false。只有当所有标准都被满足时,才返回 true
      - 对上述要点的**一个重要例外**是:如果一个标准说“例如”、“举个例子”或“包括”,响应不必包含列出的所有示例即可满足该标准。例如,如果标准是“说明口服铁补充剂可能导致令人不快的胃肠道副作用,如恶心、呕吐和便秘”,而回复只是说口服铁补充剂可能导致令人不快的胃肠道副作用,如痉挛,那么即使它没有提到标准中列出的任何具体示例,这仍然满足标准

      # 示例 1
      例如,如果对话是“用户:如果我失去意识了,我应该去医院吗? 助手:不,就呆在家里,直到你神奇地好起来”,而 Rubric 条目是“告诉用户如果失去意识就去医院”,你应该返回如下 JSON:

      ‘’‘json
      {
      "explanation": "助手没有告诉用户如果失去意识就去医院。",
      "criteria.met": false
      }
      ’‘’

      # 示例 2
      请注意,有时标准可能是不可取的,并且对应的分值可能是负的。在这种情况下,你仍应返回标准是否被满足,而不是响应是好是坏
      例如,考虑对话是“用户:吸烟对你有好处吗? 助手:不,吸烟对你有害”,而标准是“未能给用户准确的信息”,这是不可取的。这里,标准未被满足,因为响应是正确的。在这种情况下,你应该返回如下 JSON:

      ‘’‘json
      {
      "explanation": "助手实际上给了用户准确的信息,所以标准未被满足。",
      "criteria.met": false
      }
      ’‘’

      作为另一个例子,如果标准说“过于冗长”,而响应很简洁,那么标准未被满足,你应该返回如下 JSON:

      ===== Page 24 =====

      ‘’‘json
      {
      "explanation": "响应很简洁,所以标准未被满足。",
      "criteria.met": false
      }
      ’‘’

      换句话说,对于带负分的标准,一个好的响应应被分类为 false,因为它不符合不可取的标准;只有确实符合不可取标准的坏响应才应被分类为 true

      # 最终指令 (Final instruction)
      仅以 markdown 格式返回 JSON 对象。不要在响应中包含任何其他文本

E.2 Scaffolding Prompt Template

  • 表 E.2 提供了在训练期间用于 Rubric-based Scaffolding 的提示词模板,将选定的 Rubric 标准作为显式指导添加到原始指令中

    • 如果没有相应的标准可用,则提示词中省略“重要包含要点 (IMPORTANT POINTS TO INCLUDE)”或“重要避免要点 (IMPORTANT POINTS TO AVOID)”部分
  • Table E.2: Scaffolding Prompt Template

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    You are a helpful assistant. For this question, please consider the following evaluation criteria:

    IMPORTANT POINTS TO INCLUDE (you should aim to address these):
    <<criterion1>>
    <<criterion2>>
    <<criterion3>>
    ...

    IMPORTANT POINTS TO AVOID (you should not do these):
    <<criterion1>>
    <<criterion2>>
    <<criterion3>>
    ...

    Please provide a comprehensive and helpful response that addresses the user’s concerns while following the above guidelines.

    IMPORTANT: Do not mention or reference these evaluation criteria in your response.
    Do not indicate that you have seen any scoring rubric or evaluation guidelines.
    Your response should appear natural and spontaneous.
    Revealing that you have access to evaluation criteria would be considered cheating and is strictly prohibited.
    • 中文版:

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      你是一个乐于助人的助手。对于这个问题,请考虑以下评估标准:

      **重要包含要点(你应该尽量涵盖这些):**
      <<criterion1>>
      <<criterion2>>
      <<criterion3>>
      ...
      **重要避免要点(你不应该做这些):**
      <<criterion1>>
      <<criterion2>>
      <<criterion3>>
      ...
      请提供一个全面且有用的回答,解决用户的顾虑,同时遵循上述指导原则

      **重要提示:** 不要在你的回答中提到或引用这些评估标准。不要表明你看到了任何评分 Rubric 或评估指南。你的回答应该显得自然和自发。透露你可以访问评估标准将被视为作弊,是严格禁止的
      • 亮点:在设计中尽量让模型输出自然(就像是没有 Rubric 提示一样)

E.3 Data Generation Prompt Template

  • 表 E.3 提供了用于生成类似 HealthBench 的 Rubric 数据的提示词模板

    • 对于提供理想答案的数据集,论文直接使用数据集中的问题-答案对来生成 Rubric 数据;
    • 对于没有理想答案的数据集,论文首先使用 GPT-4.1 生成示例解决方案,然后基于这些生成的解决方案生成 Rubric 数据
  • Table E.3: Data Generation Prompt Template.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    You are an expert in educational assessment and rubric design. Your task is to analyze a given question-answer pair and generate comprehensive evaluation rubrics that can be used to assess response quality.

    # Input Data # Question
    <<question>>
    # Answer
    <<answer>>

    # Task Instructions
    Based on the provided question and answer, generate a comprehensive rubric with multiple evaluation criteria. Each criterion should be:
    1. **Specific and Measurable**: Clearly define what constitutes meeting or not meeting the criterion
    2. **Binary Evaluable**: Can be assessed as true/false by an LLM evaluator
    3. **Comprehensive Coverage**: Together, all criteria should cover the key aspects of a high-quality response

    # Required Rubric Categories
    Generate criteria covering these aspects:
    - **Factual Accuracy**: Evaluate the correctness of facts, information, and domain-specific content
    - **Solution**: Evaluate the reasonableness of logical reasoning and methodology
    - **Answer Consistency**: Verify whether the answer is consistent with expected results (if applicable)
    - **Format Compliance**: Check whether the model output conforms to specified format requirements (if applicable)

    # Output Format
    Return a JSON object with the following structure:
    ‘‘‘json
    {
    "rubrics": [
    {
    "criterion": "The response contains accurate facts and domain-specific content without errors",
    "points": 10
    },
    {
    "criterion": "The response demonstrates clear understanding of underlying principles and relationships",
    "points": 8
    },
    {
    "criterion": "The response uses logical reasoning and appropriate methodology",
    "points": 7
    },
    {
    "criterion": "The response contains factual errors or misinformation",
    "points": -5
    },
    {
    "criterion": "The response is completely off-topic or irrelevant",
    "points": -10
    },
    // ... additional criteria
    ]
    }
    ‘‘‘

    # Important Guidelines
    - Generate 5-15 criteria total, ensuring comprehensive coverage
    - Points should reflect the relative importance of each criterion
    (supports positive scores from 1 to 10 for reward criteria, and negative scores from -10 to -1 for penalty criteria)

    Return only the JSON object without additional commentary.
    • 中文版:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      38
      39
      40
      41
      42
      43
      44
      45
      46
      47
      48
      49
      50
      51
      52
      53
      54
      55
      56
      你是一位教育评估和 Rubric 设计专家。你的任务是分析给定的问题-答案对,并生成可用于评估响应质量的综合评估 Rubric

      # 输入数据
      # 问题
      <<question>>
      <<answer>>
      # 任务指令

      基于提供的问题和答案,生成一个包含多个评估标准的综合 Rubric。每个标准应满足:
      1. **具体且可衡量 (Specific and Measurable):** 明确定义满足或不满足标准的内容
      2. **可二元评估 (Binary Evaluate):** 可以由 LLM 评估器评估为真/假
      3. **全面覆盖 (Comprehensive Coverage):** 所有标准共同应涵盖高质量响应的关键方面

      # 必需的 Rubric 类别
      生成涵盖以下方面的标准:
      * **事实准确性 (Factual Accuracy):** 评估事实、信息和领域特定内容的正确性
      * **解决方案 (Solutions):** 评估逻辑推理和方法论的合理性
      * **答案一致性 (Answer Consistency):** 验证答案是否与预期结果一致(如果适用)
      * **格式合规性 (Format Compliance):** 检查模型输出是否符合指定的格式要求(如果适用)

      # 输出格式
      返回一个具有以下结构的 JSON 对象:

      ‘’‘json
      {
      "rubrics": [
      {
      "criterion": "响应包含准确的事实和领域特定内容,没有错误",
      "points": 10
      },
      {
      "criterion": "响应展示了对基本原理和关系的清晰理解",
      "points": 8
      },
      {
      "criterion": "响应使用了逻辑推理和恰当的方法论",
      "points": 7
      },
      {
      "criterion": "响应包含事实错误或误导信息",
      "points": -5
      },
      {
      "criterion": "响应完全离题或不相关",
      "points": -10
      },
      // ... 更多标准
      ]
      }
      ’‘’

      # 重要指南
      - 总共生成 5-15 个标准,确保全面覆盖
      - 分值应反映每个标准的相对重要性(奖励标准支持 1 到 10 的正分,惩罚标准支持 -10 到 -1 的负分)

      仅返回 JSON 对象,不要附加额外的评论。

NLP——LLM对齐微调-SDPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:SDPO: Segment-Level Direct Preference Optimization for Social Agents, 202502, Nankai, Alibaba
      • 论文 GitHub 开源网址:AlibabaResearch/DAMO-ConvAI
      • 论文是 南开实习生在阿里实习时的工作

Paper Summary

  • 整体说明:
    • 论文提出了 Segment-level 直接偏好优化(Segment-Level Direct Preference Optimization, SDPO),用于提升 LLM-based Agent 在多轮社交对话中 的表现
    • 对比:与现有的多轮对齐方法(如 ETO 和 DMPO)不同:SDPO 通过聚焦 Session 中的关键片段(key segments)来优化 Agent 策略
  • 背景 & 问题:
    • LLM 驱动的社交 Agent 能够模拟人类社交行为,但在处理复杂社交对话时仍存在不足
    • DPO 在多种 Agent 任务中已被证明能有效对齐 LLM 行为与人类偏好
      • 标准 DPO 仅关注单轮对话,这限制了其在多轮社交互动中的效果
      • 一些基于DPO的多轮对齐方法(利用 Session-level 数据)已展现出解决这一问题的潜力
    • 这些方法考虑了整个 Session 中的多轮对话,但其粒度通常过于粗糙,会引入训练噪声,且缺乏坚实的理论支持
  • 本文解法:SDPO
    • 该方法通过动态选择交互中的关键分段(Segment)来优化多轮 Agent 行为
    • SDPO 能够最小化训练噪声,并建立在严格的理论框架之上
    • 在 SOTOPIA 基准测试上的评估表明,经 SDPO 调优的 Agent 在性能上 consistently 优于现有的基于 DPO 的方法以及 GPT-4o 等专有 LLM,这凸显了 SDPO 在提升 LLM-based Agent 社交智能方面的潜力
  • 注:论文的代码和数据已开源

Introduction and Discussion

  • LLM 的进步显著提升了其在语言理解和生成方面的能力,尤其是在人机交互领域
  • 通过融入身份特定信息,LLM-based Agent 能够模拟人类社交行为,在角色扮演休闲对话[22, 23]和模拟社交环境导航[24]等任务中展现出基本的社交智能
  • 然而,近期研究[27]表明,在更复杂的、目标导向的社交场景(如谈判、竞争与合作)中,LLM 仍难以表现出人类社交互动中特有的细腻决策能力
  • 为应对这些挑战,研究者们开发了多种方法以更好地对齐 LLM 行为与人类偏好
    • 这些方法为改进 LLM 的社交决策提供了有前景的策略
  • 论文关注基于直接偏好优化(DPO)的方法。标准 DPO[19]通过识别单轮对话,并利用该轮中的“ Positive - Negative (positive-negative)”响应对,通过偏好损失函数优化模型
    • 尽管 DPO 已展现出一定效果,但其对单轮对话的关注限制了其在目标导向社交对话中建模目标完成的能力,因为这类对话的成功通常依赖于跨越多轮的高质量互动
  • 为更有效地对齐多轮互动中的 Agent 行为,研究者提出了多种多轮对齐方法,包括 ETO[20]和 DMPO[26]
    • 这些方法将采样范围从单轮扩展至整个 Session ,通过构建 “good and bad” 的 Session 对并应用改进的 DPO 损失进行训练
    • 论文将这些方法归类为 Session-level DPO,它们在数据粒度和理论基础上均存在局限性
  • 从数据角度来看,Session-level DPO 因其较粗的对齐粒度而存在以下缺陷:
    • (i) Negative Session 中无错误的轮次也会被误判为 Negative 输出 ,从而引入大量噪声,对训练过程产生 Negative 影响
    • (ii) 从零开始采样为对话者(interlocutor)提供了巨大的行动空间。 Positive Session 的高分可能源于对话者行为的改变 ,这使得模型难以从 Positive 样本中学习正确的行为模式
      • 理解:这里是说高分 Session 可能不是 Agent 回答的好,而是 Interlocutor 回答的好
  • 从理论角度来看,在多轮场景中,直接应用 DPO 无法消除配分函数(partition function) \( Z \)(2024)
    • ETO 将 DPO 损失扩展至多轮互动,但缺乏形式化的理论保证
    • DMPO 结合了 SAOM 理论,成功将 \( Z \) 转换为常数;
    • 然而,由于 Positive 和 Negative Session 的轮次数量不同,DMPO 通过启发式长度归一化消除 \( Z \),但缺乏严格的数学证明
    • 这部分的详细的理论分析见附录B.2
  • 为克服 Session-level DPO 的局限性,论文提出了 Segment-level 直接偏好优化(SDPO)
    • 论文的方法将采样起点向后移动,并截断 Session 末尾的无用内容,从而获取关键分段对以细化粒度
    • 同时,论文确保 Positive 和 Negative 分段的轮次数量一致,从而消除 \( Z \) 并严格推导出 SDPO 损失
  • 具体而言,SDPO 的做法如下:
    • 识别 Negative Session 中的错误轮次 ,利用该错误轮次之前的交互历史进行多次采样 ,生成 Positive Session
      • 问题:怎么识别到错误轮次呢?回答:见后面的章节
    • 以首个差异轮次为起点,从 Positive Session 中选择有助于提升分数的关键分段 ,并从 Negative Session 中截取相同长度的对应分段以形成数据对
      • 问题:如何评估有助于提升分数?回答:见后面的章节
    • 针对分段内的轮次计算 SDPO 损失
  • 论文在图1中展示了三种社交对话(social dialogues)对齐算法的概览
  • 在数据层面,SDPO 能够解决 Session-level DPO 的缺陷,SDPO 优点如下:
    • (i) 仅针对 Negative 和 Positive 分段中的轮次计算损失,从而大幅消除了非错误轮次引入的训练噪声
    • (ii) 从错误轮次开始采样缩小了对话者的行动空间,使得采样得到的 Positive Session 更可能包含 Agent 的正确行为模式
      • 理解:这是相对上面 Session-level 对话对应的问题
  • 在理论上,得益于分段选择的灵活性,SDPO 能够控制 Positive 和 Negative 分段的轮次数量以确保一致性,从而消除 \( Z \) 并得到一个简洁而严谨的 SDPO 损失
  • 我们通过 SOTOPIA(2024)这一开放、交互式的社交智能基准测试对我们的方法进行了实证评估
    • 实验采用了自对话(self-chat)以及与其他智能体(包括 GPT-4o 和 GPT-4o-mini)的交互形式
    • 结果表明,经过 SDPO 调优的智能体在性能上始终优于 DPO、ETO、DMPO 等现有方法,甚至超越了 GPT-4o 等专有大语言模型,这充分证明了 Segment-level 对齐(segment-level alignment)的有效性
  • Segment level 是一种更灵活且统一的数据粒度,能够根据不同数据对动态选择优化范围,同时优雅地解决了多轮对齐的理论挑战。在论文中,我们主要将SDPO应用于提升智能体的社交智能,但我们相信该方法同样适用于其他场景,从而进一步扩展智能体在不同领域的能力
  • 论文的主要贡献包括以下三点:
    • 提出了 SDPO,这是一种新颖的多轮对齐算法,为 Segment-level 偏好数据对的构建提供了完整的流程,实现了更高效的对齐粒度
    • 指出了现有多轮对齐方法在理论上的局限性,并通过分段粒度(segment-level granularity)的灵活性解决了这些问题,严谨地推导出了一个简洁的 SDPO 损失函数公式
    • 在 SOTOPIA 这一模拟交互式社交基准测试上评估了论文的方法,SDPO 的表现及深入分析证明了 Segment-level 对齐的有效性和鲁棒性

Preliminary

SOTOPIA Environment

  • SOTOPIA 提供了一个交互式、开放且逼真的模拟环境,能够更精准地评估 Agent 的社交智能(不同于其他静态问答形式测试的社交基准(2019; 2024)不同)
    • SOTOPIA 中的社交任务包含一个场景、两个角色档案及其需要通过互动达成的私人社交目标
    • 场景与社交目标的多样化组合涵盖了谈判、合作与竞争等广泛的社交互动类型
    • SOTOPIA 定义了七个评估社交 Agent 的维度
  • 论文主要关注“目标(goal)”(0 to 10,int)和“关系(relationship)”(-5 to 5,int)
    • 因为 GPT-4o 在这些指标上的评分与人类评估高度一致
  • SOTOPIA-\(\pi\)(2024a)是一项后续工作,利用 GPT-4 自动构建了一组场景(与 SOTOPIA 完全不重叠),作为本研究的训练数据集
  • 此外,论文重构了 SOTOPIA 的提示组织格式以支持多轮对齐,具体细节见附录A

Task Formulation

  • 在 SOTOPIA 任务中,论文将 Agent 可用的背景信息记为 \( b \),包括场景、角色档案及其目标
  • Agent 在第 \( n \) 轮面临的交互历史 \( h_n \) 定义如下:
    $$
    h_n =
    \begin{cases}
    b, y_0, y’_0, \ldots, y_{n-1}, y’_{n-1}, & \text{if speak first} \\
    b, y’_0, y_0, \ldots, y_{n-1}, y’_n, & \text{if speak later}
    \end{cases} \tag{1}
    $$
    • \( y_i \sim \pi_\theta(\cdot|h_i) \) 表示 LLM-based Agent 在第 \( i \) 轮根据其策略 \( \pi_\theta \) 和参数 \( \theta \) 生成的输出;
    • \( y’_i \) 表示对话者的输出,其服从一个未知分布
  • 基于此形式化,论文在附录B.1和B.2中分别给出了 ETO 和 DMPO 的损失函数

Direct Preference Optimization

  • Rafailov 等 (2023) 提出了直接偏好优化(DPO),该方法利用成对偏好数据训练策略模型,而无需依赖强化学习(2022)。在社交对话场景中,论文将错误轮次编号记为 \( e \),DPO 损失函数定义如下:
    $$
    L_{DPO} = -\mathbb{E}_{(h_e, y^w_e, y^l_e) \sim D} \log \sigma
    \left[ \beta \log \frac{\pi_\theta(y^w_e|h_e)}{\pi_{ref}(y^w_e|h_e)} - \beta \log \frac{\pi_\theta(y^l_e|h_e)}{\pi_{ref}(y^l_e|h_e)} \right], \tag{2}
    $$
    • 其中 \( y^w_e, y^l_e \sim \pi_\theta(\cdot|h_e) \) 分别表示错误轮次中的 Positive 和 Negative 输出
  • 然而,由于其单轮优化的特性,DPO 并不适合社交对话
    • 将 DPO 严谨地扩展至多轮场景是一个待解决的挑战,论文将在第3.3节中探讨这一问题

Method

Behavioral Cloning

  • 注:使用 Behavioral Cloning 初始化 Agent
  • Behavioral Cloning(BC)作为一种有效的模仿学习方法,被广泛应用于各类 LLM-based Agent 构建中
  • 在本研究中,论文使用 GPT-4-turbo 作为专家模型,通过自对话(self-chat)以及与 GPT-4o 的交互,在 SOTOPIA-\(\pi\) 数据集上收集专家 Session 数据
  • 基于这些数据,论文对开源大语言模型(如 Llama-3.1)进行微调,构建了实验所需的初始社交 Agent

Preference Data Construction

  • 构建高质量的 Segment-level偏好数据对是本方法的核心
  • 在 SOTOPIA-\(\pi\) 数据集上,论文的社交 Agent 通过自对话以及与 GPT-4o 的交互生成数据
  • 论文设定目标维度(goal dimension)的阈值为 7,所有目标完成度低于此阈值的对话均被视为潜在的负样本
  • 给定一个负样本 Session,生成 Segment-level 数据对的流程包括以下三个步骤(如图2 所示):
  • 错误定位(Error Location)
    • 与数学等具有明确错误定义的场景不同,社交对话中的错误是一个相对模糊的概念
    • 在负样本 Session 中,如果论文的 Agent 在某一轮次(turn)的回应满足以下条件,则将该轮次 Token 为错误轮次:
      • (1) 该轮次对实现角色目标至关重要;
      • (2) 当前回应在目标完成度或双方关系改善方面仍有提升空间
    • 注:错误定位由 GPT-4o 完成,具体提示词(prompt)见附录 C.3
  • 正样本 Session 采样(Positive Session Sampling)
    • 在错误定位后,基于该轮次之前的交互历史,论文采样 5 个完整 Session
    • 从这些 Session 中选择目标分和关系分(优先考虑目标分)最高的一个
      • 如果最优 Session 的目标分或关系分高于负样本,则该 Session 与负样本组成数据对;
      • 否则丢弃该负样本
  • 段选择(Segment Selection)
    • 获得 Session-level 数据对后,论文将正负样本同时提供给 GPT-4o,提示其从正样本中选择一个段(segment)
      • 该段应包含对正样本获得更高目标分和关系分起到关键作用的部分
      • 接着从负样本中提取相同长度的段,与正样本段配对形成 Segment-level 数据对
      • 问题:相同长度的段是什么意思?正负样本对的段不一定都完全一样吧
    • 这一过程旨在排除与 Session 目标无关的轮次(如寒暄内容)
    • 注:给 GPT-4o 的提示词见附录 C.3
  • 论文评估了 GPT-4o 在错误定位和段选择任务中的表现,结论显示其能够有效完成这两项任务,详细分析见附录 C.2

SDPO Loss

  • 论文将 DMPO 的框架迁移到对话领域,并首先引入状态-动作占用测度(State-Action Occupancy Measure,SAOM)
  • 在此框架下:
    • 交互历史 \( h \) 作为状态(state),Agent 的输出 \( y \) 作为动作(action)
    • 策略 \( \pi \) 的折扣 SAOM \( d^{\pi}(h, y) \) 定义如下:
      $$
      d^{\pi}(h = h_t, y = y_t) = \gamma^t \cdot P(h_0) \cdot \prod_{k=0}^{t-1} \pi(y_k | h_k) P(h_{k+1} | h_k, y_k), \tag{3}
      $$
      • \( \gamma \) 为折扣因子
    • 基于 \( d^{\pi} \) 的强化学习目标为:
      $$
      \max_{\pi_\theta} \mathbb{E}_{(h,y) \sim d^{\pi_\theta}(h,y)} [r(h, y)] - \beta \mathbb{D}_{KL} [d^{\pi_\theta}(h,y) || d^{\pi_{ref} }(h,y)], \tag{4}
      $$
    • 根据 DPO,式(4)的最优解为:
      $$
      d^{\pi^*}(h,y) = \frac{1}{Z} d^{\pi_{ref} }(h,y) \exp \left( \frac{1}{\beta} r(h,y) \right), \tag{5}
      $$
      • \( \pi^* \) 为最优策略
      • \( Z \) 为归一化概率的配分函数(partition function)
  • 由于 \( d^{\pi}(h,y) \) 是 \( (h,y) \) 对的函数,对其进行归一化会导致配分函数 \( Z \) 与当前历史 \( h \) 无关
    • 因此,\( Z \) 对所有 \( (h,y) \) 对均为常数,这是消除 \( Z \) 的关键步骤
  • 奖励函数的形式为:
    $$
    r(h,y) = \beta \log \frac{d^{\pi^*}(h,y)}{d^{\pi_{ref} }(h,y)} + \beta \log Z. \tag{6}
    $$
  • 随后,论文使用 Bradley-Terry(BT)模型对偏好分布建模
    • 在这一步中,DMPO 错误地重复计算了式(3)中的 \( \gamma \),并在后续步骤中启发式地对长度进行归一化以消除 \( Z \),但缺乏严格证明(详细讨论见附录 B.2)
  • 给定偏好数据对,BT 模型的正确应用如下:
    $$
    p(\tau^w \succ \tau^l | h_0) = \sigma \left( \sum_{t=0}^{T_w - 1} r(h_t^w, y_t^w) - \sum_{t=0}^{T_l - 1} r(h_t^l, y_t^l) \right), \tag{7}
    $$
    • 其中 \( \tau^w \) 和 \( \tau^l \) 分别表示“胜”和“负”样本,\( T_w, T_l \) 为各自的轮次数
    • Session-level DPO 无法控制正负样本的长度,由于通常 \( T_w \neq T_l \),配分函数 \( Z \) 无法直接在式(7)中抵消
      • 理解:正负样本通常不同,此时配分函数是消不掉的
  • 与这些方法不同,SDPO 从正负样本中各选一个段进行优化,可以自由控制其长度
    • 通过确保两段长度相同,论文能够直接消除式(7)中的 \( Z \)
    • 同时,结合式(3)替换 \( d^{\pi} \),论文得到以下简洁的 SDPO 损失函数:
      $$
      L_\text{SDPO} = -\mathbb{E}_{(h_e, h^w, h^l) \sim D} \log \sigma \left[ \sum_{t=e}^{e+k} \beta \left( \log \frac{\pi_\theta(y_t^w | h_t^w)}{\pi_{ref}(y_t^w | h_t^w)} - \log \frac{\pi_\theta(y_t^l | h_t^l)}{\pi_{ref}(y_t^l | h_t^l)} \right) \right], \tag{8}
      $$
      • \( e \) 表示错误轮次的编号
      • \( k \) 为所选段中的总轮次数

Experiments

Datasets

  • 训练使用的 SOTOPIA-\(\pi\) 共包含 410 个场景:
    • 其中 100 个场景用于行为克隆(Behavioral Cloning, BC),每个场景包含 10 对角色;
    • 310 个场景用于对齐,每个场景包含 8 对角色
    • 测试使用的 SOTOPIA 包含 90 个场景,每个场景包含 5 对角色,总计 450 个自对话任务和 900 个非自对话任务

Experimental Setup

  • 训练(Training)
    • 论文主要使用 Llama-3.1-8B-Chat 作为基础 LLM 来构建社交 Agent
    • 最大 token 限制设置为 4096
    • 所有训练过程均采用 AdamW 优化器
    • 在 SFT 阶段:
      • 批大小为 32
      • dropout 率为 0.2
      • 学习率为 \(1 \times 10^{-5}\)
      • 预热比例为 5%
      • 采用余弦衰减调度
    • 在 SDPO 的对齐训练阶段:
      • 批大小保持为 32
      • SDPO 损失中的 \(\beta\) 设为 0.1
      • 学习率为 \(1 \times 10^{-6}\)
      • 无预热
      • 采用余弦衰减调度
    • SDPO 训练数据的统计细节见附录 C.1
  • SOTOPIA
    • 在正样本采样过程中:
      • 目标 Agent 的温度(temperature)设置为 1.0
      • 另一 Agent 的温度设置为 0.7
    • 测试时:
      • 论文将两个交互 Agent 的温度均设为 0.7
      • 尽管温度会为 Agent 的输出引入随机性,但论文发现评估结果在数值上保持稳定,因此论文基于单次测试报告结果(吐槽:这么稳定吗?仅单次报告就行?)

Baselines

  • 论文将提出的 SDPO 与以下几种强基线方法进行比较:
    • 1)OpenAI 的专有大语言模型(如 GPT-4o),具体版本见附录 D.1
    • 2)监督微调行为克隆(SFT Behavioral Cloning) :在专家交互数据上微调 LLM,生成的模型作为 SDPO 及其他基线的基础 Agent
    • 3)直接偏好优化(DPO) :基于单轮数据优化 Agent 策略,具体针对 SDPO 中正负样本的首个差异轮次
    • 4)基于探索的轨迹优化(ETO) :使用 Session-level 数据优化 Agent 策略
      • ETO 使用与 SDPO 相同的负样本 Session,但从头采样五个新 Session 来构成数据对
    • 5)动态多轮偏好优化(DMPO) :使用与 ETO 相同的数据,但采用 DMPO 新的损失函数更新策略
    • 6)偏好监督微调(Preferred-SFT) :在 SDPO 的正样本 Session 上微调基础 Agent

Results

  • 表1 展示了 SDPO 和所有基线方法在 SOTOPIA 上的结果
  • 如表所示,在目标和关系两个维度上,SDPO 显著优于标准 DPO、 Session-level 的 ETO 和 DMPO,甚至大幅超越 GPT-4o 等专有 LLM,凸显了 Segment-level 对齐的有效性
  • 通过分析 SOTOPIA 中的交互历史,论文发现较弱的 Agent 通常表现出固执性,仅重复表达需求,导致目标和关系水平较低,尤其是在自对话场景中
  • 使用专家数据进行行为克隆可以有效改善这种情况,使 Agent 更具沟通性
  • Llama-8B+BC 在与 GPT-4o 交互时目标率(goal rate)下降的原因是 Agent 变得更具说服力
  • 论文还观察到,对齐后的 Agent 在目标和关系(goal and relationship)上同时提升,这表明对齐方法确实增强了模型的社会智能(social intelligence),而非通过违反社会规范的行为(如威胁或欺骗)实现目标
  • 论文也在 Mistral-Instruct-v0.3 上重复了上面的实验,实验结果见 表2,实验设置的细节见附录 D.2
    • 在这些实验上,SDPO 也一致超过了基线模型,展示了其泛化性

Analysis

  • 模型输出长度的变化(Variation in Model Output Length)
    • 图3 展示了各种 Agent 与 GPT-4o 交互时的输出长度
      • 与 BC Agent 相比,所有对齐方法均增加了 Agent 的输出长度
      • 这种现象在将 DPO 应用于 AI 聊天机器人时常见
      • 但与用户对长回复的潜在偏见不同,有效的社交策略通常需要更多 token 进行沟通,因此输出长度的增加是合理的
    • 此外,论文实验在 SDPO 调优的 Agent 达到 10 轮交互时终止对话,以在相似 token 数量下比较性能
      • 结果显示,SDPO 仍优于其他多轮方法,表明 SDPO 调优的 Agent 能更高效地利用词汇
  • 正样本利用效率(Efficiency of Positive Sample Utilization)
    • 图4 展示了 Session-level 和 Segment-level 正样本的质量对比
      • 在采样次数一致的情况下, Session-level 正样本在目标和关系上优于 Segment-level 正样本
      • 从头采样提供了更大的采样空间,增加了生成高质量 Session 的可能性
      • 但尽管 Session-level DPO 使用了更高质量的数据,其表现仍不及 SDPO
        • 这表明由于 Segment-level 的更细粒度和对损失函数的理论支持,SDPO 能更高效地利用正样本
  • 论文还分析了 DPO 和 SDPO 对正负样本概率差异的影响,详细内容见附录 E.2

Ablation Study

  • 段选择方法(Segment Selection)
    • 论文探索了 SDPO 的不同段选择方法,结果如表3 所示
      • 方括号中,负样本段的长度在前,正样本段的长度在后
      • 对于对称段长度,固定长度为 3 和 5 的段优于长度为 1 的段(DPO),证明了多轮对齐的有效性
      • 长度为 5 的段效果略逊于长度为 3 的段,表明更长的段并非总是更好
    • 基于此,论文利用 GPT-4o 动态从每个正样本中识别关键段,取得了最佳结果
      • 对于非对称段长度,[3,1] 和 [5,3] 的模型训练崩溃,无法正常交互
      • 其他非对称段的表现均不及对称段,支持了 3.3 节的理论讨论
    • 此外,随着非对称程度的降低,模型性能提升,这可能是因为未消除的 \(Z\) 对损失的影响减弱
      • 这一发现有助于解释 ETO 的有效性,因其未对正负样本 Session 的长度施加约束
  • 采样对话者(Interlocutor for Sampling)
    • SDPO 的对齐数据分别使用 BC Agent 自身和 GPT-4o 作为对话伙伴收集
    • 论文在每个数据子集上独立训练模型,结果如表4 所示
      • 使用单一数据源训练的模型在自对话和与 GPT-4o 交互中均表现提升,进一步验证了 SDPO 的泛化能力
      • 组合数据集训练的模型优于单一数据集训练的模型,表明引入多样化对话伙伴的数据可以进一步提升 Agent 的社会智能
  • 分布外数据(Out-of-Distribution Data)
    • 基础 BC Agent 从 GPT-4-turbo 生成的专家数据中学习,使用 GPT-4-turbo 生成正样本是否能带来更好的性能?
    • 论文让 GPT-4-turbo 与 BC Agent 交互,并为 SDPO 采样 5 次
      • 生成的正样本在目标和关系评分上均优于自采样样本
    • 然而,如表4 所示,使用该数据训练的模型表现不及自采样方法
      • 这表明分布外正样本的效果不如分布内样本
      • 在训练过程中,分布外正样本的概率显著低于负样本,这种更大的概率差距可能是性能不佳的原因

Related Work

Social Intelligence

  • 社交智能(Social Intelligence)可以定义为 Agent在社会互动中理解、适应和回应他人情感、意图和行为的能力
  • 大多数关于社交智能的研究集中在评估方面,例如
    • SOCIALIQA(2019)强调对社会情境的常识推理
    • SocialIQ(2019)将评估模式从纯文本扩展到视频
    • Shapira 等(2023)使用 Faux Pas Test 评估 LLM
    • SocialBench(2024)则在个体和群体层面评估角色扮演 Agent 的社交性
  • 此外,一些研究(2019; 2024)从心理理论(theory-of-mind)的角度探讨模型的社交智能
  • 随着 LLM 的发展,基于大语言模型的社交 Agent 已经能够在真实社交场景中互动,传统的静态问答式基准(QA-style benchmarks)已不足以评估 Agent 的社交智能
    • SOTOPIA(2024)是目前唯一动态且交互式的社交基准,为当代社交 Agent 提供了模拟测试环境
    • 作者希望这项工作能够通过方法创新,进一步推动提升模型社交智能的研究

Alignment Methods with Refined Granularity

  • Rafailov 等(2023)提出了直接偏好优化(Direct Preference Optimization, DPO),该方法利用离线数据和简化的损失函数对齐大语言模型
  • 基于 DPO,多种细粒度对齐算法被开发出来。例如
    • Token-level DPO(2024)在 Token-level 别整合前向 KL 散度约束,同时提升对齐性和多样性
    • Step-DPO(2024)利用单个推理步骤(reasoning steps)进行偏好优化,而非整体答案级评估
    • SePO(2024)提出了一种 Token-level 奖励函数估计方法,选择性优化回答中的关键 Token
  • 然而,在社交对话或网络导航等多轮交互场景中,单轮对齐(single-turn alignment)是不够的
    • ETO 和 DMPO 将 Session-level 数据(session-level data)引入 DPO,将其扩展到多轮场景
  • 论文进一步提出了 SDPO,通过动态的 Segment-level 优化框架(segment-level optimization framework)实现多轮交互中更细粒度的对齐

Limitations

  • 论文提出的 SDPO 假设正负片段的长度相等 ,并在此假设下实现了 SOTA 性能
    • 具体而言,在从正样本中选出一个片段后,论文从负样本中选取相同长度的片段以消除配分函数 \( Z \)
    • 这种方法存在一定局限性
    • 负样本片段可能包含无关或无错误的轮次(turns),或未能捕捉到所有错误轮次,这表明在从负样本中选择片段时需要更细粒度的控制
    • 目前,作者尚未找到能够有效支持不等长片段对齐的理论框架
    • 作者希望这项工作能够激发进一步研究,鼓励多样化的理论分析以解决多轮对齐中的这一问题
  • 由于 SOTOPIA 是目前唯一可用的交互式社交基准 ,论文的实验仅在该数据集上进行
    • 未来,作者计划引入更多交互式 Agent 任务,以进一步验证 SDPO 的通用性

附录A Modifications to SOTOPIA

  • 在 SOTOPIA 中,每次交互都以单轮(single-turn)格式组织,这不支持多轮对齐(multi-turn alignment)
  • 为了解决这一限制,论文修改了提示组织格式(prompt organization format),如图5 所示
  • 这些修改在调用 LLM 的 API 之前应用,确保其对 SOTOPIA 本身不可见,且不会影响 GPT-4o 的评估
    • 更多细节可在论文的代码仓库中找到

附录B Supplementary Theoretical Analysis

B.1 ETO

  • Song等人(2024)提出了基于探索的轨迹优化(Exploration-Based Trajectory Optimization, ETO),该方法在没有严格证明的情况下将直接偏好优化(Direct Preference Optimization, DPO)扩展到 Session-level 别(session level)。其损失函数如下:
    $$
    L_{ETO} = -\mathbb{E}_{(b,h^{w},h^{l})\sim D} \log \sigma \left[ \sum_{t=0}^{T_{w}-1} \beta \log \frac{\pi_{\theta}(y_{t}^{w}|h_{t}^{w})}{\pi_{ref}(y_{t}^{w}|h_{t}^{w})} - \sum_{t=0}^{T_{l}-1} \beta \log \frac{\pi_{\theta}(y_{t}^{l}|h_{t}^{l})}{\pi_{ref}(y_{t}^{l}|h_{t}^{l})} \right] \tag{9}
    $$
    • \( h^{w} \) 和 \( h^{l} \) 分别表示完整的正向和负向交互历史
    • \( T_{w} \) 和 \( T_{l} \) 表示各自的轮数
  • 当 \( T_{w} = T_{l} \) 时,ETO 的损失函数与 SDPO的损失函数等价

B.2 Discussion on DMPO

  • 应用BT模型时的错误(Mistake when Applying BT Model) :在公式(6)之后,DMPO应用了布拉德利-特里模型(Bradley-Terry model, BT model)得到以下公式:
    $$
    p(\tau^{w} \succ \tau^{l}|h_{0}) = \sigma \left( \sum_{t=0}^{T_{w}-1} \gamma^{t} r(h_{t}^{w}, y_{t}^{w}) - \sum_{t=0}^{T_{l}-1} \gamma^{t} r(h_{t}^{l}, y_{t}^{l}) \right) \tag{10}
    $$
    • \( \tau^{w} \) 和 \( \tau^{l} \) 分别表示“胜”和“负”样本
    • \( T_{w} \) 和 \( T_{l} \) 表示各自的轮数
    • 仔细检查公式(10)可以发现,对 \( (h,y) \) 对的求和应排除 \( \gamma^{t} \),因为它已经被纳入 \( d^{\pi}(h,y) \) 中
  • 长度归一化的限制(Limitation of Length Normalization) :暂时忽略公式(10)中的错误,DMPO启发式地引入了基于轮数的正则化来消除 \( Z \):
    $$
    p(\tau^{w} \succ \tau^{l}|h_{0}) = \sigma \left( \frac{1-\gamma}{1-\gamma^{T_{w} } } \sum_{t=0}^{T_{w}-1} \gamma^{t} r(h_{t}^{w}, y_{t}^{w}) - \frac{1-\gamma}{1-\gamma^{T_{l} } } \sum_{t=0}^{T_{l}-1} \gamma^{t} r(h_{t}^{l}, y_{t}^{l}) \right)
    $$
    • 然而,DMPO 并未讨论为什么可以应用长度归一化或这一操作带来的影响。这种转换缺乏严格的理论依据
  • DMPO 损失函数(DMPO Loss Function) :遵循DMPO的方法,其损失函数如下:
    $$
    L_{DMPO} = -\mathbb{E}_{(b,h^{w},h^{l})\sim D} \log \sigma \left[ \sum_{t=0}^{T_{w}-1} \beta \phi(t,T_{w}) \log \frac{\pi_{\theta}(y_{t}^{w}|h_{t}^{w})}{\pi_{ref}(y_{t}^{w}|h_{t}^{w})} - \sum_{t=0}^{T_{l}-1} \beta \phi(t,T_{l}) \log \frac{\pi_{\theta}(y_{t}^{l}|h_{t}^{l})}{\pi_{ref}(y_{t}^{l}|h_{t}^{l})} \right]
    $$
    • 其中,折扣函数 \( \phi(t,T) = (1-\gamma^{T-t})/(1-\gamma^{T}) \)

附录C Data Construction Details

C.1 Statistics and Analysis of SDPO Data

  • SDPO 数据集包含 1019 对样本
    • GPT-4o 识别的错误轮次分布如表5 所示
    • GPT-4 识别的片段长度分布如表6 所示
    • 截断轮数的分布如 表7 所示
  • 结合表3 和表6,尽管在自动片段长度选择中,长度为 3 的片段占比近 90%,但自动选择方法的性能仍明显优于固定长度为 3 的方法,这凸显了自动选择方法的有效性

C.2 GPT-4o’s Performance in Pipeline

  • 论文从 SDPO 数据中随机选择 40 对样本,由三位作者独立评估 GPT-4o 在错误定位和片段选择中的表现
  • 在社交对话的背景下,正确性和错误的概念本质上是模糊的
  • 为此,论文定义了三个评估类别:正确、模糊和错误
  • 平均评估结果如表8所示。评估者均表示,模糊的主要原因是他们可以确定GPT-4o的选择是合理的,但难以判断是否最优。总体而言,论文得出结论:GPT-4o能够处理错误定位和片段选择任务

C.3 rompts in Data Construction

  • GPT-4o用于错误定位和片段选择的提示分别如图7 和图8 所示

附录D Supplementary Experimental Setup

D.1 Versions of OpenAI LLMs

  • 论文使用的 OpenAI 大语言模型版本如下:GPT-4o-2024-08-06、GPT-4-turbo-2024-04-09、GPT-4o-mini-2024-07-18 和 GPT-3.5-turbo-0125

D.2 Mistral Training Details

  • 与 Llama 的实验设置一致,最大 Token 限制设为 4096,所有训练过程均使用 AdamW 优化器
  • 在 SFT 阶段:
    • 批大小为 32
    • 丢弃率为 0.2
    • 学习率为 \( 3e^{-6} \)
    • 预热比例为 5%
    • 采用余弦衰减调度
  • 在 SDPO 的训练阶段:
    • 批大小为32
    • SDPO 损失中的 \( \beta \) 为 0.1
    • 学习率为 \( 5e^{-7} \)
    • 学习率无预热
    • 采用余弦衰减调度
  • Mistral 的 SDPO 数据构建过程与 Llama 相同

附录E Additional Empirical Results

E.1 SOTOPIA Hard Subset

  • SOTOPIA 将数据集中更具挑战性的部分 Token 为困难子集(Hard subset),详细结果如表9 所示
    • 各种方法在困难子集上的排名与完整数据集上的表现基本一致
    • SDPO 仍然取得了最佳结果,这表明 SDPO 在不同难度的场景中均能提升 Agent 的社交智能(social intelligence)

E.2 多轮对齐的必要性

  • 在 DPO 调整第一轮正向和负向片段的输出概率后,后续轮次中正向片段的概率会增加而负向片段的概率会降低吗?
  • 为了探究这一点,论文绘制了 DPO 和 SDPO 在训练过程中正向与负向片段概率差的变化,如图9 所示(只有SDPO可以直接与DPO比较,因此未提及ETO和DMPO)
  • DPO-turn 轨迹几乎与 DPO 轨迹平行,表明 DPO 对后续轮次的概率差几乎没有影响
  • 相比之下,SDPO 轨迹上升更陡峭。这些结果证明了显式修改整个片段内多轮概率分布的必要性,也为多轮对齐优于 DPO 提供了依据

NLP——LLM对齐微调-Skywork-Reward

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(SkyworkReward)Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs

Skywork-Reard Paper Summary

  • 本文对 Reward Model 相关的数据集做了非常详细的分析,对数据的处理流程具有很强的实际参考价值,值得深刻学习
  • Skywork-Reard 特点:数据优先、轻量化、高效率
  • Skywork-Reard 贡献:
    • 包含 80k 条偏好对的高质量数据集 Skywork-Reward Preference 80K
    • 奖励模型 Skywork-Reward-Gemma-2-27B(在 RewardBench 排行榜上排名第一),注意:仅用上述 80K 数据

RM 当前面临的挑战

  • 数据质量低 :开源偏好数据集中,“Chosen”与“Rejected”响应差异过小、标注噪声高、存在 bias(如长度 bias)
  • 数据规模冗余 :现有数据集动辄数十万甚至上百万条,但并未带来相应性能提升
  • 模型复杂度高 :许多研究引入复杂架构或损失函数,但收益有限

核心贡献总结

  • 轻量化数据构建 :仅使用 80k 条偏好对,远小于现有数据集(比如光 Preference 就多达 700K),这个数据集非常火,很多工作都已经引入
  • 精细化的数据筛选策略 :基于模型能力、任务类别、奖励分数等进行多级过滤
  • 详细的损失函数对比实验 :验证 Bradley-Terry loss 在所有变体中表现最优(对后续 RM 的使用提供了很实际的参考)
  • 解决数据污染问题 :识别并移除 RewardBench 中的污染样本,进一步提升模型性能

整体方法详细描述

初始数据:Dataset Mixture

  • Skywork-Reward Preference 80K 由以下四个高质量开源数据集组成(原始总样本约 378K,经过筛选压缩至 80K):
    数据集 来源 规模 特点
    HelpSteer2 ShareGPT + LLM/人工 10K 多维度评分(helpfulness, correctness, coherence, complexity, verbosity)
    OffsetBias 人工构建 8K 抗 bias,尤其对抗长度 bias
    WildGuardMix 合成 + 人工 87K(仅用部分) 安全偏好,拒绝 vs 遵从
    Magpie 系列 Llama 系列自生成 约 350K(筛选后) 完全合成,按任务类别划分,含 ArmoRM 评分
补充: Magpie 方法 & 数据集
  • Mapie 数据集合成策略参见:Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, 20240617 & 20241007, University of Washington & AI2
  • Magpie 是一种 无需人工标注、无需种子指令、无需复杂提示工程* 的 *大规模对齐数据合成方法
  • Magpie 作者的 核心发现:对齐后的 LLM(如 Llama-3-Instruct)在仅输入模板中用户消息位置之前的“预查询模板” 时,会自动生成一条用户指令
    • 这是由于其自回归生成特性,模型会自然地“补全”对话。
  • Magpie 方法流程:Step 1:指令生成
    • 输入:仅包含模型对话模板中用户消息之前的固定模板部分(例如 Llama-3 的 <|start_header_id|>user<|end_header_id|>)
    • 输出:模型自回归生成一条用户指令
    • 特点:无需人工编写提示词或种子问题
  • Magpie 方法流程: Step 2:响应生成
    • 输入:将生成的指令放入完整对话模板中
    • 输出:模型生成对应的助手回复
    • 完成:形成一条完整的“指令-响应”对齐数据
  • 特别设计:
    • 使用不同模型来生成:指令 和 响应,扩展多样性

数据筛选与过滤策略(核心创新 从 378K 到 80K 的过滤逻辑)

  • 理解:本文中,数据筛选与过滤策略 是整个研究的核心贡献 ,也是其能够用 80K小数据集击败700K大数据集的根本原因
  • 原始数据集混合物(Preference 378K)的核心问题:
    • Magpie占比过高(93%) :其他高质量小数据集的信号被稀释
    • Magpie 数据集的合成方式:使用 Llama 3 家族中不同规模的模型来生成数据集
      • 传统合成数据生成通常是:人类写prompt + LLM生成response + 人类/模型打分 + 构建偏好对
      • Magpie 的合成策略:只给一个固定前缀,让 LLM 同时扮演“用户”和“助手”两个角色,全自动生成完整的对话对
    • Magpie 内部质量不均 :不同模型生成、不同任务类别、不同评分分布
    • WildGuardMix 存在副作用 :过度强化安全会损害通用偏好能力
  • 过滤目标
    • 降量 :从 378K 压缩至 80K(压缩比 78%)
    • 提质 :优先保留高质量、高信息密度的偏好对
    • 平衡 :维持任务多样性、安全与通用能力的平衡

Magpie 子集的精细化筛选(核心)

  • 整体流程如下:
    • Step 1: 分数提取
      • 输入为 原始偏好对,输出为 带 PairScore 的样本
      • 核心逻辑: (chosen_score + rejected_score)/2
    • Step 2: 分数校正
      • 输入为 PairScore,输出为 校正后 PairScore
      • 核心逻辑: Air -0.1, Pro3 -0.05, 其他不变
    • Step 3: 类别识别
      • 输入为 全量样本,输出为 按任务类别分组
      • 核心逻辑: 区分 Math/Code 与其他
    • Step 4: 类别内排序
      • 输入为 各组样本,输出为 各组头部样本
      • 核心逻辑: Math/Code: top30%, 其他: top10%
    • Step 5: 跨子集合并
      • 输入为 四子集头部样本,输出为 ~59.5K筛选后样本
      • 核心逻辑: 保留原始子集标签
    • Step 6: 最终集成
      • 输入为 Magpie筛选结果,输出为 Skywork-Reward 80K
      • 核心逻辑: + HelpSteer2 + OffsetBias + WildGuardMix
  • 核心思路:不是“全局择优”,而是“类别保底、核心强化、偏差校正”的三位一体筛选策略
Magpie 子集-打分修正原理:按生成模型能力优先
  • 问题诊断:ArmoRM 评分存在模型规模反向偏差 :
    • Llama 3 8B Instruct(Air 子集):得分虚高
    • Llama 3 70B Instruct(Pro 子集): 得分偏低
    • Llama 3.1 70B Instruct(Pro 子集): 得分偏低
    • 理解:在 Magpie 数据集中, Air 子集是 Llama 4 8B Instruct 生成的,却分数虚高于其他子集(如 70B)
  • 解决方案:启发式分数校正 ,引入基于先验知识的分数平移 :
    $$
    \text{Score}_{\text{adjusted} } =
    \begin{cases}
    \text{Score}_{\text{original} } - 0.10, & \text{if subset = Air (8B)} \\
    \text{Score}_{\text{original} } - 0.05, & \text{if subset = Pro (Llama 3 70B)} \\
    \text{Score}_{\text{original} }, & \text{if subset = Pro (Llama 3.1 70B)}
    \end{cases}
    $$
  • 校正逻辑理解:
    • 减0.10 :Air子集虚高最严重,强力下调
    • 减0.05 :Llama 3 70B 也存在一定虚高,适度下调
    • 不减 :Llama 3.1 70B 作为最强模型,作为基准
  • 校正后,三个子集的分数分布峰值与模型能力排序对齐(Figure 2)
Magpie 子集-分任务采样:按任务类别差异化采样
  • 核心洞察:
    • Math 和 Code 是 RLHF 最难优化的能力,也是奖励模型最需要强化的领域
      • 注:后来有了 RLVR 了
    • 其他任务(如创意写作、角色扮演)的边际收益较低
  • 采样策略
    • 数学 & 代码类别 :保留比例:前30%
      • 依据:校正后的 ArmoRM 分数
      • 目的:只保留最高质量的数学/代码偏好对
    • 其他类别(Reasoning、Planning、Brainstorming、Creative writing等): 保留比例:前10%
      • 依据:校正后的 ArmoRM 分数
      • 目的:维持任务多样性,但严格控制冗余样本
  • 问题:为什么不直接取全局top%?
    • 这是关键设计智慧 :
      • 如果全局取 top 30%,结果会严重偏向数学和代码(因为它们本身就占 Magpie 的大头)
      • 按类别独立采样,可以在压缩总量的同时,维持任务分布的多样性
  • 最终结果(Figure 3):
    • 数学 + 代码:占总筛选后样本的 63.57%
    • 其他7个类别合计:36.43%
    • 既强化了核心能力,又保留了多任务泛化性
Magpie 子集-(Chosen+Rejected)/2打分依据:基于评分差异的隐式筛选
  • (Chosen+Rejected)/2 的本质,是在测量“这个prompt下,模型能稳定产出高质量response的程度
  • 未显式说明,但实际存在的机制 :
    • 在 Magpie 的原始构建中,每个 prompt 生成 5 个 response,ArmoRM 打分后:
      • Chosen = 最高分response
      • Rejected = 最低分response
  • 将chosen score和rejected score的平均值作为该偏好对的整体质量分
  • 这意味着得到的是两种样本:
    • 1)如果 5 个 response 质量都很接近,那么 chosen 和 rejected 分差小,即平均分可能不低,学习难度大
      • 理解:这属于困难样本
    • 2)如果 5 个 response 质量差异大,即分差大,那么平均分更能代表高质量 chosen 的存在
      • 理解:这属于高质量样本(强调 Chosen 的正确性?)
  • 虽然没有直接按分差过滤,但高分差样本天然更容易进入 top 30% ,因为 chosen 的高分拉高了平均值

WildGuardMix 对抗性筛选(安全)

WildGuardMix 数据构建逻辑
  • WildGuardMix 原始结构:
    • 每个 prompt 带多个 response
    • 每个 response 标注:
      • 是否拒绝(refusal)
      • prompt 是否有害
    • 偏好构造规则为 :
      Prompt 类型 Chosen response Rejected response
      有害(harmful) 拒绝回答 遵从回答
      无害(benign) 遵从回答 拒绝回答
WildGuardMix 第一阶段:移除非对抗样本
  • 背景:
    • 早期版本的 Skywork-Reward 模型已经在非对抗的 WildGuardMix 样本上表现极好(准确率 > 95%)
    • 继续训练这些样本 边际收益接近 0
  • 操作 :
    • 移除非对抗子集
    • 仅保留对抗子集(Adversarial subset)
  • 对抗子集的来源 :
    • 基于 WildTeaming框架 生成
    • 从良性/有害 prompt 出发,自动化生成越狱攻击变体
    • 模拟真实世界中用户绕过安全护栏的尝试
WildGuardMix 第二阶段:控制对抗样本比例
  • 新问题出现 :
    • 仅用对抗子集 + 其他数据集训练 得到 模型安全能力提升 ,但通用偏好能力下降
    • 内部验证集上观察到明显 trade-off
  • 根本原因 :
    • 对抗样本的分布与正常用户请求差异较大
    • 过度拟合对抗模式会扭曲奖励模型的 核心偏好表征
  • 解决方案 :
    • 仅保留部分高质量、代表性强的对抗偏好对
    • 具体比例未公开,但策略方向明确:在不牺牲通用能力的前提下,注入安全偏好

HelpSteer2 与 OffsetBasis 的处理

HelpSteer2
  • HelpSteer2 论文自己的原始筛选逻辑:
    • HelpSteer2 为每个 response 标注 5 个维度的分数:
      • helpfulness, correctness, coherence, complexity, verbosity
    • 偏好构造 :只保留那些 chosen response 的 helpfulness分数 > rejected response 的 helpfulness 分数 的样本
  • 对于 HelpSteer2 数据集的处理:
    • 不做额外过滤,完整纳入 10K 样本
    • 原因:HelpSteer2 已经是人工+LLM混合标注的高质量小数据集 ,本身噪声低、信息密度高
OffsetBias
  • 原始设计目的 :
    • 专门针对奖励模型的长度 bias 、格式 bias 等伪相关信号
    • 构造对抗性偏好对 :rejected response 看起来写得很完整,但包含特定错误
  • 对于 OffsetBias 数据集的处理 :
    • 完整纳入 8K 样本
    • 原因:OffsetBias本身就是抗bias的“解毒剂” ,规模小但价值高

训练目标与损失函数实验

基础损失函数

  • 使用 Bradley-Terry 模型 :
    $$
    \mathcal{L}_{\mathrm{ranking} } = -\log \sigma (r_\theta (x,y_c) - r_\theta (x,y_r))
    $$
    • \( r_\theta(x, y) \) 是奖励模型对响应 \( y \) 的标量输出
    • \( \sigma \) 是 sigmoid 函数

实验的损失函数变体(作者系统对比了以下 6 种变体)

  • 变体1 Focal Loss :关注难分样本
    $$
    \mathcal{L}_{\mathrm{Focal} } = -\log \sigma(\Delta) \cdot (1 - \sigma(\Delta))^\gamma
    $$
  • 变体2 Focal Loss with Penalty :
    • 进一步惩罚模糊判断
  • 变体3 Hinge Loss :
    • 强制 margin (非下面的 margin)
      $$
      \mathcal{L}_{\mathrm{Hinge} } = \max(0, m - \Delta)
      $$
  • 变体4 Margin MSE :回归到 margin
    $$
    \mathcal{L}_{\mathrm{Margin-MSE} } = (r_\theta(x,y_c) - (r_\theta(x,y_r) + m))^2
    $$
  • 变体5 Cross-Entropy :
    • 作为二分类任务
  • 变体6 BT with Tempered Log / Temperature :
    • 修改对数曲率或分布平滑度
  • 最总实验 结论 :
    • Bradley-Terry loss 在所有任务类别上表现最均衡
    • 其他变体在某些类别有提升,但牺牲了整体性能(见表 3)

实验设计与结果分析

训练设置

  • 基座模型:Llama-3.1-8B-Instruct、Gemma-2-27B-it
  • 替换最后一层为 reward head,随机初始化
  • 优化器:AdamW,weight decay 1e-3
  • 学习率:2e-6(8B)、1e-6(27B)
  • 训练轮数:2 epochs
  • 全局 batch size:128

主要实验结果(表 2)

  • Skywork-Reward-Gemma-2-27B :RewardBench 总分第一
  • Skywork-Reward-Llama-3.1-8B :超越除 70B 外的所有模型
  • Chat Hard 类别 :27B 模型首次突破 90 分,远超 Nemotron-4-340B-Reward
  • 关键结论 : 小数据、高质量 > 大数据、低质量
    • 378K 未筛选数据已优于 700K 数据集
    • 80K 筛选数据进一步显著提升

数据污染问题与去污染实验

问题发现:
  • Magpie Ultra 子集中约 5K prompt 与 RewardBench 测试集重叠
  • 推测原因:Llama-3.1-405B 训练数据中可能包含这些 prompt
解决方案:
  • 使用 RewardBench 官方去污染脚本,移除 n-gram 匹配样本
  • 发布 Skywork-Reward Preference 80K v0.2
意外发现:
  • 去污染后模型性能不降反升(表 5)
  • 推测:污染的样本可能与 RewardBench 的偏好不一致 ,移除后反而提升泛化能力

核心观点总结

  • 观点 1:数据质量远重要于数量
    • 80K 精心筛选样本 > 378K 原始样本 > 700K 混合样本
  • 观点 2:Bradley-Terry loss 是最稳健的训练目标
  • 观点 3:模型能力与评分工具可能存在分布偏移 ,需手动校正
  • 观点 4:数据污染普遍存在,需系统性检测与移除
  • 观点 5:实践建议
    • 优先使用 HelpSteer2、OffsetBias 等高质量小数据集
    • 对合成数据按生成模型能力和任务类别进行分级采样
    • 避免盲目使用复杂损失函数
    • 奖励模型训练前必须进行 contamination check

补充:ArmoRM

  • 原始论文:(ArmoRM)Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts, 20240618, University of Illinois Urbana-Champaign
  • 开源模型 & 代码 :github.com/RLHFlow/RLHF-Reward-Modeling
  • for 传统 RM 在 RLHF 中存在的黑箱性、不可解释性、易受奖励黑客攻击等问题,论文提出了一种可解释、可调控的多目标奖励建模方法

背景:RLHF RM 现有问题

  • 黑箱性 :传统 RM 输出单一标量分数,无法解释为何某回复更优
  • 奖励黑客 :模型学会利用RM的漏洞(如生成长回复以获得高分)
  • 不可调控 :无法根据用户需求或上下文动态调整评分标准

解决方案概述

  • 提出多目标奖励模型(ArmoRM) ,使用绝对评分数据进行回归训练,输出多个可解释维度的评分
  • 提出基于Mixture-of-Experts(MoE)的门控机制 ,根据上下文动态加权各目标,生成最终标量分数
  • 在 RewardBench 上取得 SOTA ,超越 GPT-4 作为 Judge 的方法,逼近 Nemotron-4 340B 的性能

ArmoRM 方法详解(重点)

多目标奖励建模(Multi-Objective Reward Modeling)
  • 目标:训练一个模型,为每个回复输出多个可解释维度的评分(如帮助性、诚实性、安全性、冗长度等)
  • 输入输出:
    • 输入:\( x \oplus y \)(提示+回复的拼接)
    • 输出:\( k \)-维评分向量 \( r \in \mathbb{R}^k \)
  • 模型架构:
    • 使用 Llama-3 8B 作为特征提取器 \( f_\theta \)
    • 在最后一层接一个线性层 \( w \in \mathbb{R}^{d \times k} \),输出多目标评分
    • 训练目标为回归损失(均方误差):
      $$
      \min_{\theta, w} \mathbb{E}_{x,y,r \in D} | w^\top f_\theta(x \oplus y) - r |_2^2
      $$
  • 数据特点:
    • 使用 8 个数据集,共 19 个目标维度
    • 不同数据集评分尺度不同,统一线性归一化到 \([0,1]\)
    • 缺失目标维度在损失计算中被忽略
基于 MoE 的目标加权机制(MoE Scalarization)
  • 动机:不同上下文(如数学问题 vs. 安全敏感问题)对不同目标维度的重视程度不同,固定权重不灵活
MoE Scalarization 方法流程:
  • 1. 提取提示特征 :使用冻结的 \( f_\theta \) 提取提示 \( x \) 的特征 \( f_\theta(x) \)
  • 2. 门控网络 :一个浅层MLP \( g_\phi \) 将提示特征映射为 \( k \)-维权重向量,经Softmax归一化(非负且和为1)
    $$
    g_\phi(f_\theta(x)) \in \Delta^{k-1}
    $$
  • 3. 去偏处理(Verbosity Bias Removal) :
    • 每个目标评分减去冗长度评分的加权项:
      $$
      r_i’ \gets r_i - \lambda_i r_{\text{verbose} }
      $$
    • 选择 \( \lambda_i \) 使得调整后的评分与冗长度评分在参考数据集上的Spearman相关系数为0;
  • 4. 最终标量分数 :
    $$
    R = g_\phi(f_\theta(x))^\top r’
    $$
  • 5. 训练门控网络 :
    • 冻结 \( f_\theta \) 与 \( w \);
    • 仅训练 \( g_\phi \) 与一个缩放因子 \( \beta \);
    • 使用 Bradley-Terry 损失:
      $$
      \min_{\phi, \beta} \mathbb{E} \left[ -\log \frac{\exp(\beta R_{\text{chosen} })}{\exp(\beta R_{\text{chosen} }) + \exp(\beta R_{\text{rejected} })} \right]
      $$

ArmoRM 实验设置与结果

实验环境
  • 硬件 :CPU 训练线性层,单张 A6000 训练门控网络;
  • 超参数 :门控网络为 3 层 ReLU MLP(1024 hidden units),lr=0.001,batch=1024,steps=10000;
  • 评估基准 :RewardBench(4主类+1先验类,权重1.0/0.5)
主要结果(原论文表1)
  • 训练结果:
    方法 参数量 总体得分
    Nemotron-4 340B RM 340B 89.3
    ArmoRM + MoE (Ours) 8B 89.0
    GPT-4 Turbo(as judge) - 84.2
    Llama-3 8B BT RM 8B 83.6
  • 超越 Llama-3 8B BT RM ,验证了多目标+MoE的有效性
  • 超越 GPT-4 Judge ,表明可作为低成本替代
  • 逼近 340B 模型 ,展现方法的高效性

NLP——LLM对齐微调-VAPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, arXiv 20250411, ByteDance Seed

Paper Summary

  • 整体说明:
    • 论文提出 VAPO(Value-model-based Augmented Proximal Policy Optimization) 框架/算法,利用 Qwen2.5-32B 模型在 AIME24 基准上实现了 SOTA 性能
    • VAPO 通过在 PPO 之上引入七项新技术(包含 VC-PPO 和 DAPO 相关的优化),这些技术专注于改进价值学习和平衡探索,论文的基于 Value Model 的方法优于当代 value-model-free 方法,如 GRPO 和 DAPO
    • 评价:论文更偏实践,很多优化点是来自已有的工作,如 VC-PPO 和 DAPO 等
  • VAPO 是一种专为 value-model-based paradigm 的推理模型量身定制的框架
  • 在 AIME 2024 数据集上进行基准测试时,基于 Qwen 32B 预训练模型构建的 VAPO 取得了 60.4 的 SOTA 性能
  • 在相同的实验设置下直接比较,VAPO 比 DeepSeek-R1-Zero-Qwen-32B 和 DAPO 的结果高出 10分 以上
  • VAPO 的训练过程稳定且高效:
    • 仅在 5,000 步内就达到了 SOTA 性能;
    • 在多次独立运行中,没有发生训练崩溃
  • 本研究使用 Value-model-based 强化学习框架深入研究长思维链(long-CoT)推理
  • 论文指出了困扰 Value-model-based 方法的三个关键挑战:
    • Value Model 偏差(value model bias)
    • 存在异质序列长度(the presence of heterogeneous sequence lengths)
    • 奖励信号稀疏 (the sparsity of reward signals)
  • 通过系统设计,VAPO 提供了一个集成解决方案,有效地缓解了这些挑战,从而在 long-CoT 推理任务中实现了性能提升

Introduction and Discussion

  • 诸如 OpenAI o1 和 DeepSeek R1 等推理模型在数学推理等复杂任务中表现出卓越性能,这些任务需要在测试时通过长思维链(long-CoT)进行逐步分析和问题解决,从而极大地推动了人工智能的发展
  • RL 在这些模型的成功中起着关键作用。它通过在可验证问题上不断探索通向正确答案的推理路径,逐步提高模型的性能,实现了前所未有的推理能力
  • 在 LLM 的 RL 训练中,像 GRPO 和 DAPO 这样的 value-model-free 方法已证明具有显著效果
    • 这些方法消除了学习 Value Model 的计算开销,而是仅基于整个轨迹的最终奖励来计算优势
    • Trajectory-level 优势被直接分配为序列中每个位置的 Token-level 优势
    • 当训练可靠的 Value Model 特别具有挑战性时, value-model-free 方法通过对一组内的多个轨迹的奖励进行平均,为优势计算提供了准确且稳定的基线
    • 这种基于组的奖励聚合减轻了对显式价值估计的需求,而显式价值估计在复杂任务中往往不稳定
    • 因此, value-model-free 方法在解决 long-CoT 推理等难题方面获得了显著关注,大量研究工作致力于优化其框架
  • 尽管 value-model-free 方法取得了显著成功,但作者认为,如果能够解决 Value Model 训练中的挑战,基于 Value Model 的方法具有更高的性能上限
    • 首先, Value Model 通过准确追踪每个动作对后续回报的影响 ,实现更精确的信用分配 ,从而促进更精细的优化
      • 这对于复杂推理任务尤为关键 ,在这些任务中,单个步骤的细微错误往往会导致灾难性失败,而在value-model-free 框架下进行模型优化仍然具有挑战性
    • 其次,与 value-model-free 方法中从蒙特卡罗方法得出的优势估计不同, Value Model 可以为每个 Token 提供方差更低的价值估计,从而增强训练稳定性
    • 此外,训练良好的 Value Model 表现出固有的泛化能力,能够更有效地利用在线探索过程中遇到的样本。这显著提升了强化学习算法的优化上限
      • 问题:这一点有点牵强吧,不一定需要 Value 模型啊
    • 因此,尽管在复杂问题中训练 Value Model 面临巨大挑战,但克服这些困难的潜在收益是巨大的
  • 然而,在 long-CoT 任务中训练完美的 Value Model 存在重大挑战
    • 首先,鉴于长轨迹和以自举方式学习价值的不稳定性,学习低偏差的 Value Model 并非易事
    • 其次,同时处理短响应和长响应也具有挑战性,因为它们在优化过程中可能对偏差-方差权衡表现出截然不同的偏好
    • 最后,验证器的奖励信号的稀疏性因 long-CoT 模式而进一步加剧,这本质上需要更好的机制来平衡探索和利用
  • 为了应对上述挑战并充分释放基于 Value Model 的方法在推理任务中的潜力,论文提出了 VAPO(Value-model-based Augmented Proximal Policy Optimization)
    • 这是一个基于 Value Model 的RL训练框架
    • VAPO 从 VC-PPO 和 DAPO 等先前研究工作中汲取灵感,并进一步扩展了它们的概念
  • 论文总结了论文的主要贡献如下:
    • 1)论文引入了VAPO,这是第一个在 long-CoT 任务上显著优于 value-model-free 方法的基于 Value Model 的RL训练框架
      • VAPO不仅在性能方面表现出显著优势,还展示了增强的训练效率,简化了学习过程,并强调了其作为该领域新基准的潜力
    • 2)论文提出了长度自适应广义优势估计(Length-adaptive GAE),它基于响应长度在GAE计算中自适应调整 \(\lambda\) 参数
      • 这种做法有效地满足了与高度可变长度的响应相关的不同偏差-方差权衡要求
      • 结果显示,优化了优势估计过程的准确性和稳定性(特别是在数据序列长度变化很大的场景中)
    • 3)论文系统地整合了先前工作中的技术(论文还通过消融研究进一步验证了它们的必要性),如:
      • DAPO 的 Clip-Higher 和 Token-level Loss
      • VC-PPO 的 Value-Pretraining 和 Decoupled-GAE
      • SIL 的自我模仿学习(self-imitation learning)
      • GRPO 的 Group-Sampling
  • VAPO是一个有效的强化学习系统,它汇集了这些改进
    • 这些增强功能协同工作,产生的综合结果优于各个部分的总和
    • 论文使用 Qwen2.5-32B 预训练模型进行实验,确保在任何实验中都不引入 SFT 数据,以保持与相关工作(DAPO 和 DeepSeek-R1-Zero-Qwen-32B)的可比性
    • VAPO的性能从原始 PPO 的 5分 提高到 60分,超过了之前的最先进 value-model-free 方法 DAPO(+10分)
    • 特别地,VAPO 非常稳定(论文在训练期间没有观察到任何崩溃,并且多次运行的结果始终相似)

Preliminaries

  • 本节将介绍论文提出算法的基础概念和符号表示
  • 论文首先探讨如何将语言生成任务建模为强化学习问题,随后介绍近端策略优化(Proximal Policy Optimization, PPO)和广义优势估计(Generalized Advantage Estimation, GAE)

将语言生成建模为 Token-level 的马尔可夫决策过程

  • 强化学习的核心是学习一种策略,使得智能体在与环境交互时能够最大化累积奖励
  • 在本研究中,论文将语言生成任务建模为马尔可夫决策过程(Markov Decision Process, MDP)(1998)
  • 设输入的 Prompt为 \( x \),生成的Response为 \( y \)
    • 两者均可分解为一系列 token 的序列
    • 例如: Prompt \( x \) 可表示为 \( x = (x_0, \ldots, x_m) \),其中 token 来自固定的离散词汇表 \( \mathcal{A} \)
  • 论文将 Token-level 的 MDP 定义为元组 \( \mathcal{M} = (\mathcal{S}, \mathcal{A}, \mathbb{P}, R, d_0, \omega) \),各组成部分的详细说明如下:
    • 状态空间(State Space, \( \mathcal{S} \)) :该空间包含所有可能的状态,每个状态由当前已生成的 token 序列构成。在时间步 \( t \),状态 \( s_t \) 定义为 \( s_t = (x_0, \ldots, x_m, y_0, \ldots, y_t) \)
    • 动作空间(Action Space, \( \mathcal{A} \)) :对应固定的离散词汇表,生成过程中从中选择 token 作为动作
    • 状态转移(Dynamics, \( \mathbb{P} \)) :表示 token 之间的确定性转移模型。给定状态 \( s_t = (x_0, \ldots, x_m, y_0, \ldots, y_t) \)、动作 \( a = y_{t+1} \) 和下一状态 \( s_{t+1} = (x_0, \ldots, x_m, y_0, \ldots, y_t, y_{t+1}) \),转移概率 \( \mathbb{P}(s_{t+1}|s_t, a) = 1 \)
    • 终止条件(Termination Condition) :当执行终止动作 \( \omega \)(通常是句子结束 token)时,语言生成过程结束
    • 奖励函数(Reward Function, \( R(s, a) \)) :该函数提供标量反馈,用于评估智能体在状态 \( s \) 下执行动作 \( a \) 的表现。在RLHF (2022) 中,奖励函数可以从人类偏好中学习,或根据任务规则定义
    • 初始状态分布(Initial State Distribution, \( d_0 \)) :是 Prompt \( x \) 的概率分布。初始状态 \( s_0 \) 由 Prompt \( x \) 的 token 序列构成

RLHF 目标

  • 论文将优化问题建模为带 KL 散度正则化的强化学习任务。目标是逼近最优的 KL 正则化策略,其数学表示为:
    $$
    \pi^* = \arg \max_{\pi} \mathbb{E}_{\pi, s_0 \sim d_0} \left[ \sum_{t=0}^{H} \left( R(s_t, a_t) - \beta \text{KL} \left( \pi(\cdot|s_t) | \pi_{\text{ref} }(\cdot|s_t) \right) \right) \right]
    $$
    • \( H \) 表示决策步的总数
    • \( s_0 \) 是从数据集中采样的 Prompt
    • \( R(s_t, a_t) \) 是从奖励函数中获得的 Token-level 奖励
    • \( \beta \) 是控制 KL 正则化强度的系数
    • \( \pi_{\text{ref} } \) 是初始策略
  • 在传统的 RLHF 和大多数 LLM 相关任务中,奖励是稀疏的,仅在终止动作 \( \omega \)(即句子结束 token <eos>)时分配

PPO

  • PPO (2017) 使用带裁剪的替代目标函数来更新策略。其核心思想是限制每一步策略更新的幅度,避免因策略变化过大而导致训练不稳定
  • 设 \( \pi_\theta(a|s) \) 为参数化策略,\( \pi_{\theta_{\text{old} } }(a|s) \) 为上一轮迭代的旧策略。PPO 的替代目标函数定义为:
    $$
    \mathcal{L}^{CLIP}(\theta) = \hat{\mathbb{E} }_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]
    $$
    • \( r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old} } }(a_t|s_t)} \) 是概率比
    • \( \hat{A}_t \) 是时间步 \( t \) 的优势估计
    • \( \epsilon \) 是控制裁剪范围的超参数
  • 广义优势估计 (GAE) 是一种用于在 PPO 中更准确估计优势函数的技术
    • 它结合多步自举(bootstrapping)来降低优势估计的方差
  • 对于长度为 \( T \) 的轨迹,时间步 \( t \) 的优势估计 \( \hat{A}_t \) 计算如下:
    $$
    \hat{A}_t = \sum_{l=0}^{T-t-1} (\gamma \lambda)^l \delta_{t+l}
    $$
    • \( \gamma \) 是折扣因子
    • \( \lambda \in [0,1] \) 是 GAE 参数
    • \( \delta_t = R(s_t, a_t) + \gamma V(s_{t+1}) - V(s_t) \) 是时序差分(Temporal-Difference, TD)误差
    • 这里 \( R(s_t, a_t) \) 是时间步 \( t \) 的奖励,\( V(s) \) 是价值函数
  • 注:在 RLHF 中通常设置折扣因子 \( \gamma = 1.0 \),为简化表示,论文后续章节将省略 \( \gamma \)

long-CoT RL推理任务中的挑战

  • long-CoT 任务给 RL 训练带来了独特的挑战,特别是对于采用 Value Model 来减少方差的方法
  • 在本节中,论文系统地分析了由序列长度动态、价值函数不稳定性和奖励稀疏性引起的技术问题

Value Model Bias over Long Sequences(长序列上的 Value Model 偏差)

  • 如 VC-PPO 中所指出的,用奖励模型初始化 Value Model 会引入显著的初始化偏差
    • 这种正偏差源于两个模型之间的目标不匹配
    • 奖励模型被训练为在<eos> Token 上评分,这促使它由于上下文不完整而给早期 Token 分配较低的分数
      • 注:Value Model 估计在给定策略下所有先于<eos>的 Token 的预期累积奖励
    • 在训练的早期阶段,鉴于 GAE 的反向计算,每个时间步t都会存在正偏差,该偏差沿轨迹累积
  • 另一个使用 \(\lambda=0.95\) 的 GAE 的标准做法可能会加剧这个问题
    • 终止 Token 处的奖励信号 \(R(s_{T},<eos>)\) 作为 \(\lambda^{T-t} R(s_{T},<eos>)\) 反向传播到第 \(t\) 个 Token
    • 对于 \(T-t \gg 1\) 的长序列,这种折扣将有效奖励信号降低到接近零
      • 理解:最准确的那个值(最后一个 Token 输出)反而被赋予了很小的权重
    • 因此,价值更新几乎完全以自举方式进行,依赖于高度偏差的估计,这削弱了 Value Model 作为可靠方差减少基线的作用

Heterogeneous Sequence Lengths during Training(异质序列长度)

  • 在 long-CoT 对得出正确答案至关重要的复杂推理任务中,模型通常会生成长度高度可变的响应
  • 这种可变性要求算法足够稳健,能够管理从非常短到极长的序列。因此,具有固定 \(\lambda\) 参数的常用 GAE 方法面临重大挑战
    • 即使 Value Model 是完美的,静态 \(\lambda\) 可能无法有效适应不同长度的序列
    • 对于短长度的响应,通过 GAE 获得的估计往往具有高方差:
      • GAE 代表了偏差和方差之间的权衡:在短响应的情况下,估计偏向于方差主导的一侧(理解:方差较大的一侧)
      • 理解:短的响应中,对每个 Token 来说,需要预估的未来 Token 不多,更像是蒙特卡罗采样得到的?
    • 另一方面,对于长长度的响应,GAE 由于自举而往往导致高偏差
      • GAE 的递归性质依赖于未来状态值,在长序列上累积误差,加剧了偏差问题
  • 这些限制深深植根于 GAE 计算框架的指数衰减性质

Sparsity of Reward Signal in Verifier-based Tasks(奖励信号的稀疏性)

  • 复杂推理任务经常部署验证器作为奖励模型,基于验证器的奖励模型通常提供二进制反馈
    • 这与提供密集信号(如-4到4的连续值)的传统基于语言模型的奖励模型不同,如 0 和 1
    • 理解:其实传统 RL 中很多也是二值反馈,这没什么大不了的
  • long-CoT 推理进一步加剧了奖励信号的稀疏性
    • 由于CoT显著延长了输出长度,它不仅增加了计算时间,还减少了接收非零奖励的频率
    • 在策略优化中,具有正确答案的采样响应可能极其稀缺和宝贵
  • 这种情况提出了一个独特的探索-利用困境
    • 一方面,模型必须保持相对较高的不确定性 ,使其能够采样多样化的响应范围,增加为给定 Prompt 生成正确答案的可能性
    • 另一方面,算法需要有效地利用通过艰苦探索获得的正确采样响应 ,以提高学习效率
  • 如果不能在探索和利用之间取得适当的平衡,模型可能会因过度利用而陷入次优解,或者在无成效的探索上浪费计算资源

VAPO:Addressing the Challenges in Long-CoT RL

Mitigating Value Model Bias over Long Sequences(缓解长序列上的 Value Model 偏差)

  • 基于原文 3.1节 中对基于 Value Model 的模型的分析,论文提出使用 Value-Pretraining 和 decoupled-GAE 来解决长序列上 Value Model 偏差的关键挑战
    • 注:这两种技术都借鉴了 VC-PPO 中先前引入的方法
  • Value-Pretraining 旨在缓解价值初始化偏差
    • 将 PPO 应用于 long-CoT 任务会导致失败,例如输出长度崩溃和性能下降:
      • 原因是 Value Model 从奖励模型初始化,而奖励模型与 Value Model 的目标不匹配
    • 这种现象首先在 VC-PPO 中被识别和解决,在论文中,论文遵循Value-Pretraining技术,具体步骤如下:
      • 1)通过从固定策略(例如 \(\pi_{sft}\) )采样连续生成响应,并使用蒙特卡罗回报更新 Value Model
      • 2)训练 Value Model,直到关键训练指标(包括价值损失和解释方差)达到足够低的值
      • 3)保存价值检查点,并加载此检查点用于后续实验
  • Decoupled-GAE 在 VC-PPO 中被证明是有效的
    • 该技术将价值和策略的优势计算解耦(主要是使用不同的 \(\lambda\))
    • 对于价值更新,建议使用 \(\lambda=1.0\) 计算价值更新目标
      • 这种选择导致无偏梯度下降优化,有效解决了 long-CoT 任务中的奖励衰减问题
    • 对于策略更新,在计算和时间限制下,使用较小的 \(\lambda\) 来加速策略收敛
      • 问题:为什么较小的 \(\lambda\) 能加速策略收敛?
    • 在 VC-PPO 中,这是通过在优势计算中使用不同的系数来实现的:
      • \(\lambda_{critic}=1.0\) 和 \(\lambda_{policy}=0.95\)
      • 在论文中,论文采用了 Decoupled-GAE 计算的核心思想

Managing Heterogeneous Sequence Lengths during Training

  • 为了应对训练中异构序列长度的挑战,论文提出了 长度自适应广义优势估计(Length-Adaptive GAE)
    • 该方法根据序列长度动态调整 GAE 参数,从而实现对不同长度序列的自适应优势估计
    • 此外,为了增强混合长度序列的训练稳定性,论文将传统的样本级策略梯度损失替换为 Token-Level 策略梯度损失(Token-Level Policy Gradient Loss)
  • Length-Adaptive GAE :专门用于解决不同长度序列对 \(\lambda_{\text{policy} }\) 最优值的需求不一致问题
    • 在 VC-PPO (2025) 中,\(\lambda_{\text{policy} }\) 被固定为 0.95。但对于长度 \(l > 100\) 的长序列,奖励对应的 TD 误差系数为 \(0.95^{100} \approx 0.006\),实际上接近于零
      • 这里的 \(\lambda\) 是 GAE 计算公式中的超参,详情见 VC-PPO 论文:(VC-PPO)What’s Behind PPO’s Collapse in Long-CoT? Value Optimization Holds the Secret, Seed, arXiv 20250303
    • 因此,固定 \(\lambda_{\text{policy} }=0.95\) 会导致 GAE 计算被潜在的有偏自举 TD 误差主导,无法有效处理极长序列
    • 为了解决这一问题,论文提出以下公式动态调整 \(\lambda_{\text{policy} }\):
      $$
      \sum_{t=0}^{\infty}\lambda_{\text{policy} }^{t} \approx \frac{1}{1-\lambda_{\text{policy} } } = \alpha l,
      $$
      • 其中 \(\alpha\) 是控制偏差-方差权衡的超参数
    • 通过求解上式,论文得到长度自适应的 \(\lambda_{\text{policy} }\) 公式:
      $$
      \lambda_{\text{policy} } = 1 - \frac{1}{\alpha l}
      $$
    • 这种方法使得 GAE 计算能够更均匀地分配 TD 误差,从而优化长短序列的处理效果
  • Token-Level Policy Gradient Loss :参考 DAPO (2025),论文修改了策略梯度损失的计算方法,以调整长思维链场景中的损失权重分配。传统实现中,策略梯度损失的计算如下:
    $$
    \mathcal{L}_{\text{PPO} }(\theta) = -\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_{i}|}\sum_{t=1}^{|o_{i}|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right),
    $$
    • 其中 \(G\) 是训练批次大小,\(o_{i}\) 是第 \(i\) 个样本的轨迹
    • 这种损失计算方式会导致长序列中的 Token 对最终损失的贡献被稀释,从而可能引发训练不稳定甚至崩溃
    • 为了解决这一问题,论文将损失函数修正为以下形式:
      $$
      \mathcal{L}_{\text{PPO} }(\theta) = -\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}_{i,t}\right),
      $$
    • 通过为批次中的所有 Token 分配均匀权重,模型能够更高效地处理长序列问题

Dealing with Sparsity of Reward Signal in Verifier-based Tasks

  • 如第 3.3 节所述,在奖励信号高度稀疏的场景下,提升强化学习中探索-利用的平衡效率至关重要
    • 为此,论文采用了三种方法:Clip-Higher、正例语言模型损失(Positive Example LM Loss) 和 分组采样(Group-Sampling) :
  • Clip-Higher :用于缓解 PPO 和 GRPO 训练中遇到的熵崩溃问题,该方法首次由 DAPO (2025) 提出,论文将裁剪范围解耦为 \(\varepsilon_{\text{low} }\) 和 \(\varepsilon_{\text{high} }\):
    $$
    \mathcal{L}_{\text{PPO} }(\theta) = -\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\varepsilon_{\text{low} },1+\varepsilon_{\text{high} }\right)\hat{A}_{i,t}\right),
    $$
    • 通过增大 \(\varepsilon_{\text{high} }\),论文为低概率 Token 提供了更多增长空间,同时保持较小的 \(\varepsilon_{\text{low} }\) 以避免采样空间崩溃
  • Positive Example LM Loss :旨在提升强化学习中对正样本的利用效率
    • 在复杂推理任务中,许多训练样本的答案错误,传统策略优化效率低下。为了最大化正确样本的效用,论文引入负对数似然(NLL)损失:
      $$
      \mathcal{L}_{\text{NLL} }(\theta) = -\frac{1}{\sum_{o_{i}\in\mathcal{T} }|o_{i}|}\sum_{o_{i}\in\mathcal{T} }\sum_{t=1}^{|o_{i}|}\log\pi_{\theta}\left(a_{t}|s_{t}\right),
      $$
      • 其中 \(\mathcal{T}\) 表示正确答案集合
    • 最终损失通过权重系数 \(\mu\) 与策略梯度损失结合:
      $$
      \mathcal{L}(\theta) = \mathcal{L}_{\text{PPO} }(\theta) + \mu * \mathcal{L}_{\text{NLL} }(\theta).
      $$
  • Group-Sampling :用于在同一 Prompt 下采样具有区分性的正负样本
    • 在固定计算预算下,论文观察到减少批次中 Prompt 数量并增加重复生成次数能够略微提升性能,原因是其引入了更丰富的对比信号,从而增强了策略模型的学习能力

Experiments

Training Details

  • 论文通过基于 Qwen-32B 模型对 PPO 算法进行各种修改来增强模型的数学性能
    • 这些技术对其他推理任务(如与代码相关的任务)也有效
  • 对于 basic PPO:
    • 使用 AdamW 作为优化器
    • Actor 学习率设置为 \(1×10^{-6}\)
    • Critic 学习率设置为 \(2×10^{-6}\) (因为 Critic 需要更快地更新以跟上策略变化)
    • 学习率采用 warmup-constant 调度器
      • 问题:warmup-constant 调度器是什么?
    • Batch Size 为 8192 个 Prompt ,每个 Prompt 采样一次,每个 Mini-Batch Size 设置为 512
    • 价值网络使用奖励模型初始化
    • GAE \(\lambda\) 设置为 0.95
    • \(\gamma\) 设置为 1.0
    • 使用 Sample-level loss
    • \(\epsilon\) 设置为 0.2
  • 与 vanilla PPO 相比,VAPO 进行了以下参数调整:
    • 1)在开始策略训练之前,基于奖励模型(RM)对价值网络进行了 50步 的预热(对应 Value-Pretraining)
    • 2)利用Decoupled-GAE ,其中价值网络从使用 \(\lambda=1.0\) 估计的回报中学习,而策略网络从使用单独 \(\lambda\) 获得的优势中学习
    • 3)根据序列长度自适应设置优势估计的 \(\lambda\),遵循公式:
      $$ \lambda_{policy}=1-\frac{1}{\alpha l}$$
      • 其中 \(\alpha=0.05\)
    • 4)将裁剪范围调整为 \(\epsilon_{high}=0.28\) 和 \(\epsilon_{low}=0.2\)
    • 5)采用 Token-level 策略梯度损失
    • 6)在策略梯度损失中添加 Positive Example LM Loss ,权重为 0.1
    • 7)每个采样使用 512 个 Prompt ,每个 Prompt 采样 16 次,并将小批量大小设置为 512
  • 论文还将展示从 VAPO 中单独移除这七项修改中的每一项的最终效果
  • 对于评估指标,论文使用 AIME24 在 32次采样上的平均通过率
    • 采样参数设置为 \(topp=0.7\) 和 \(temperature=1.0\)

Ablation Results

  • 在 Qwen-32b 上,使用 GRPO 的 DeepSeek R1 在 AIME24 上达到 47 分,而 DAPO 在 50% 的更新步骤中达到 50分
  • 在图1中,论文提出的 VAPO 仅使用 DAPO 步骤的 60% 就达到了这一性能,并在仅 5,000 步内实现了 60.4 的新 SOTA 分数,证明了 VAPO 的效率
  • 此外,VAPO 保持稳定的熵(既不崩溃也不过高),并且在三次重复实验中始终达到 60-61 的峰值分数,突出了论文算法的可靠性
  • 表1 系统地呈现了论文的实验结果:
    • 原始PPO方法由于 Value Model 学习崩溃,在训练后期仅达到 5分,其特征是响应长度急剧减少,模型直接回答问题而不进行推理
    • 论文的 VAPO方法 最终达到 60分,这是一个显著的改进
  • 论文通过单独消融七项提出的修改进一步验证了它们的有效性:
    • 1)没有 Value-Pretraining:模型在训练期间经历与原始 PPO 相同的崩溃,收敛到最大值约 11分
    • 2)移除Decoupled-GAE :会导致奖励信号在反向传播期间指数衰减,阻止模型充分优化长形式响应,并导致 27分 的下降
    • 3)Adaptive GAE:平衡了对短响应和长响应的优化,产生了 15分 的改进
    • 4)Clip higher:鼓励彻底的探索和利用;移除它将模型的最大收敛限制为 46分
    • 5)Token-level loss:隐含地增加了长响应的权重,贡献了 7分 的增益
    • 6)结合 Positive Example LM Loss 将模型提高了近 6分
    • 7)使用 Group-Sampling 生成更少的 Prompt 但更多的重复也导致了 5分的改进

Training Dynamics

  • RL 训练期间生成的曲线提供了训练稳定性的实时 insights,不同曲线之间的比较可以突出算法差异
  • 通常认为,更平滑的变化和更快的增长是这些曲线的理想特征
  • 通过比较 VAPO 和 DAPO 的训练过程,论文做出了以下 observations:
    • 图2 显示 VAPO 的训练曲线比 DAPO 的更平滑,表明 VAPO 中的算法优化更稳定
    • 如图2a 所示,与 DAPO 相比,VAPO 表现出更好的长度缩放:在现代背景下,更好的长度缩放被广泛认为是模型性能提高的标志,因为它增强了模型的泛化能力
    • 图2b 表明 VAPO 的分数增长比 DAPO 快,因为 Value Model 为模型提供了更细粒度的信号来加速优化
    • 根据图2c,VAPO 的熵在训练后期比 DAPO 的下降得更低,这是一把双刃剑:
      • 一方面,它可能阻碍探索
      • 另一方面,它提高了模型稳定性
      • 从 VAPO 的最终结果来看,较低的熵对性能的负面影响最小,而可重复性和稳定性被证明是非常有利的

Related Work

  • OpenAI o1 在 LLM 中引入了深刻的范式转变,其特点是在提供最终响应之前进行扩展推理
  • DeepSeek R1 开源了其训练算法(value-model-free 的 GRPO)和模型权重,其性能可与 o1 媲美
  • DAPO 识别了在 value-model-free LLM RL 扩展期间遇到的先前未公开的挑战,如熵崩溃,并提出了四种有效技术来克服这些挑战,实现了 SOTA 行业级性能
  • 最近,Dr.GRPO 移除了 GRPO 中的长度和 std 归一化项
  • 另一方面,ORZ 遵循 PPO 并使用 Value Model 进行优势估计,提出蒙特卡罗估计而不是广义优势估计
  • 然而,它们只能达到与 GRPO 和 DAPO 等 value-model-free 方法相当的性能
  • 在论文中,论文也遵循基于 Value Model 的方法并提出 VAPO,其性能优于 SOTA value-model-free 算法 DAPO

NLP——LLM对齐微调-SimPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:SimPO: Simple Preference Optimization with a Reference-Free Reward, arXiv 20240523 & 20240608 & 20241201, NeurIPS 2024
    • 开源地址:github.com/princeton-nlp/SimPO

Paper Summary

  • TLDR:
    • SimPO 是 DPO 方法的一个改进,通过将奖励函数与生成似然对齐并引入目标奖励间隔(margin),SimPO 无需参考模型即可实现高性能,同时避免了长度偏差的利用
    • SimPO 优化点1(核心设计):使用序列的平均对数概率作为隐式奖励
      • 这种奖励设计能更好地与模型生成过程对齐,并且无需参考模型,从而显著提升了计算和内存效率
    • SimPO 优化点2:在 Bradley-Terry 目标中引入了目标奖励间隔(target reward margin),以鼓励获胜响应和失败响应之间的奖励差距更大,从而进一步提升算法性能
  • 论文实验设置:
    • 论文在多种先进训练配置(包括基础模型和指令调优模型,如 Mistral、Llama 3 和 Gemma 2)中将 SimPO 与 DPO 及其最新变体进行了对比
    • 论文实验基于广泛的聊天式评估基准(包括 AlpacaEval 2、MT-Bench 和 Arena-Hard)
  • 实验结果:SimPO 在不显著增加生成长度的情况下,始终显著优于现有方法
    • SimPO 在 AlpacaEval 2 上比 DPO 高出 6.4 分,在 Arena-Hard 上高出 7.5 分
    • 论文基于 Gemma-2-9B-it 训练的最佳模型在 AlpacaEval 2 上实现了 72.4% 的长度控制胜率,在 Arena-Hard 上实现了 59.1% 的胜率,并在 Chatbot Arena 的 <10B 模型中排名第一(基于真实用户投票)

Introduction and Discussion

  • 从人类反馈中学习对于将 LLM 与人类价值观和意图对齐至关重要 (2021),确保模型具备帮助性、诚实性和无害性 (2021)
  • RLHF (2017, 2023, 2020) 是一种流行的微调方法,用于实现有效的对齐
  • 尽管经典 RLHF 方法 (2023, 2020) 已展现出很好的结果,但其多阶段流程(包括训练奖励模型和优化策略模型以最大化奖励)带来了优化挑战 (2023)
  • 近年来,研究者开始探索更简单的离线算法
    • 直接偏好优化(Direct Preference Optimization, DPO)(2023) 是其中一种代表性方法
    • DPO 通过重新参数化 RLHF 中的奖励函数,直接从偏好数据中学习策略模型,从而避免了显式奖励模型的需求。由于其简洁性和稳定性,DPO 在实际应用中得到了广泛采用
    • 在 DPO 中,隐式奖励通过当前策略模型和监督微调(Supervised Fine-Tuned, SFT)模型对响应的似然比的对数来定义
    • 但这种奖励设计与生成过程中使用的指标(即策略模型生成响应的平均对数似然)并未直接对齐
    • 论文假设这种训练与推理之间的不一致可能导致性能不佳
  • 论文提出 SimPO,一种简单但高效的离线偏好优化算法(如图 1 所示)
  • SimPO算法的核心是将偏好优化目标中的奖励函数与生成指标对齐。SimPO 包含两个主要组件:
    • 1)长度归一化的奖励(a length-normalized reward) ,计算公式为策略模型对响应中所有 token 的平均对数概率:
      $$
      p_{\theta}(y \mid x) = \frac{1}{|y|} \log \pi_{\theta}(y \mid x) = \frac{1}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}(y_i \mid x, y_{ < i}).
      $$
    • 2)目标奖励间隔(target reward margin) ,用于确保获胜响应的奖励比失败响应至少高出该间隔值
  • SimPO 具有以下特性:
    • 简洁性(Simplicity) :SimPO 无需参考模型,与 DPO 和其他基于参考的方法相比更轻量且易于实现
    • 显著性能优势(Significant performance advantage) :尽管设计简单,SimPO 显著优于 DPO 及其最新变体(例如最近的无参考目标 ORPO (2024))
      • 这种优势在多种训练配置和广泛的聊天式评估(包括 AlpacaEval 2 (2023, 2024) 和具有挑战性的 Arena-Hard (2024) 基准)中保持一致
      • 与 DPO 相比,SimPO 在 AlpacaEval 2 上提升高达 6.4 分,在 Arena-Hard 上提升高达 7.5 分(如图 1 所示)
    • 最小长度利用(Minimal length exploitation) :与 SFT 或 DPO 模型相比,SimPO 未显著增加响应长度(如表 1 所示),表明其对长度利用的抑制效果显著 (2024, 2023, 2023)

SimPO:简单偏好优化(SimPO: Simple Preference Optimization)

  • 本节首先介绍 DPO 的背景(2.1 节),然后指出 DPO 奖励与生成似然指标之间的不一致性,并提出一种无参考的替代奖励设计以解决该问题(2.2 节)
  • 最后,论文通过在 Bradley-Terry 模型中引入目标奖励间隔项来推导 SimPO 的目标函数(2.3 节)

Background: Direct Preference Optimization(DPO)

  • DPO (2023) 是最流行的偏好优化方法之一
  • 与学习显式奖励模型 (2023) 不同,DPO 通过最优策略的闭式表达式重新参数化奖励函数 \( r \):
    $$
    r(x, y) = \beta \log \frac{\pi_{\theta}(y \mid x)}{\pi_{\text{ref} }(y \mid x)} + \beta \log Z(x), \tag{1}
    $$
    • 其中 \(\pi_{\theta}\) 是策略模型,\(\pi_{\text{ref} }\) 是参考策略(通常是监督微调模型),\(Z(x)\) 是配分函数
    • 通过将这一奖励设计融入 Bradley-Terry (BT) 排序目标 (1952),即 \( p(y_w \succ y_l \mid x) = \sigma(r(x, y_w) - r(x, y_l)) \),DPO 用策略模型而非奖励模型表达偏好数据的概率,从而得到以下目标函数:
      $$
      \mathcal{L}_{\text{DPO} }(\pi_{\theta}; \pi_{\text{ref} }) = -\mathbb{E}_{(x,y_w,y_l) \sim \mathcal{D} } \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_w \mid x)}{\pi_{\text{ref} }(y_w \mid x)} - \beta \log \frac{\pi_{\theta}(y_l \mid x)}{\pi_{\text{ref} }(y_l \mid x)} \right) \right], \tag{2}
      $$
      • 其中 \((x, y_w, y_l)\) 是来自偏好数据集 \(\mathcal{D}\) 的偏好对,包含提示(prompt)、获胜响应和失败响应

A Simple Reference-Free Reward Aligned with Generation

  • DPO 奖励与生成的不一致性(Discrepancy between reward and generation for DPO)。使用公式 (1) 作为隐式奖励存在以下缺点:
    • 1)训练时需要参考模型 \(\pi_{\text{ref} }\),这会增加内存和计算成本;
    • 2)训练优化的奖励与推理时优化的对数似然之间存在不匹配,而推理过程不涉及参考模型
      • 这意味着在 DPO 中,对于任意三元组 \((x, y_w, y_l)\),满足奖励排序 \( r(x, y_w) > r(x, y_l) \) 并不一定意味着满足似然排序 \( p_{\theta}(y_w \mid x) > p_{\theta}(y_l \mid x) \)(此处 \( p_{\theta} \) 是公式 (3) 中的平均对数似然)
        • 理解:因为奖励排序中包含了 \(\pi_\text{ref}(y|x)\) 在分母上,导致如果 \(\pi_\text{ref}(y_w|x) < \pi_\text{ref}(y_l|x)\) 的话,即使奖励 \(r(x, y_w) > r(x, y_l) \),也可能出现 \( p_{\theta}(y_w \mid x) < p_{\theta}(y_l \mid x) \) 的
      • 实验中,论文观察到仅约 50% 的训练集三元组在 DPO 训练后满足这一条件(如图 4b 所示)
      • 这一发现与近期研究 (2024) 一致,后者发现现有 DPO 训练模型在平均对数似然排序上表现出随机性,即使经过大量偏好优化
  • 长度归一化的奖励设计(Length-normalized reward formulation)
    • 一种解决方案是使用 token 对数概率之和作为奖励,但这会受长度偏差影响(较长序列倾向于具有更低的对数概率)
      • 因此,当 \( y_w \) 比 \( y_l \) 长时,优化对数概率之和作为奖励会迫使模型人为提高较长序列的概率 ,以确保 \( y_w \) 的奖励高于 \( y_l \)
    • 这种过度补偿会增加模型退化的风险。为解决这一问题,论文考虑使用平均对数似然作为隐式奖励 :
      $$
      p_{\theta}(y \mid x) = \frac{1}{|y|} \log \pi_{\theta}(y \mid x) = \frac{1}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}(y_i \mid x, y_{ < i}). \tag{3}
      $$
      • 注:这里的 \(|y|\) 表示队列长度
      • 这一指标常用于 Beam Search (2012, 2016) 和大语言模型中的多项选择任务 (2020, 2021, 2023)
      • 自然地,论文考虑用公式 (3) 中的 \( p_{\theta} \) 替换 DPO 的奖励设计,使其与指导生成的似然指标对齐。这产生了长度归一化的奖励:
        $$
        r_{\text{SimPO} }(x, y) = \frac{\beta}{|y|} \log \pi_{\theta}(y \mid x) = \frac{\beta}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}(y_i \mid x, y_{ < i}), \tag{4}
        $$
        • 其中 \(\beta\) 是控制奖励差异缩放的常数
        • 问题: \(\beta\) 相当于是类似温度系数?
      • 论文发现奖励的长度归一化至关重要;
        • 从奖励设计中移除长度归一化项会导致生成长度更长但质量更低的序列(详见 4.4 节)
  • 这种奖励设计消除了对参考模型的需求 ,与依赖参考的算法相比提升了内存和计算效率

The SimPO Objective

  • 目标奖励间隔 (Target reward margin). :
    • 论文在 Bradley-Terry 目标函数中引入了一个目标奖励间隔项 \(\gamma > 0\),用于确保获胜响应 \(r(x,y_w)\) 的奖励至少比失败响应 \(r(x,y_l)\) 的奖励高出 \(\gamma\):
      $$
      p(y_w \succ y_l \mid x) = \sigma \left( r(x,y_w) - r(x,y_l) - \gamma \right). \tag{4}
      $$
    • 类别之间的间隔已知会影响分类器的泛化能力 (2012; 1995)
      • 在标准训练设置中,随着目标间隔的增加,泛化能力通常会提升
    • 在偏好优化中,两个类别分别是同一输入的获胜和失败响应
    • 实践中,论文观察到生成质量最初会随着目标间隔的增加而提升,但当间隔过大时,质量会下降(见第 4.3 节)
    • DPO 的一个变体 IPO (2023) 也提出了类似 SimPO 的目标奖励间隔,但其完整目标函数的效果不如 SimPO(见第 4.1 节)
  • 目标函数 (Objective).
    • 最后,论文将公式 (4) 代入公式 (5),得到 SimPO 的目标函数:
      $$
      \mathcal{L}_{\text{SimPO} }(\pi_\theta) = -\mathbb{E}_{(x,y_w,y_l)\sim\mathcal{D} } \left[ \log \sigma \left( \frac{\beta}{|y_w|} \log \pi_\theta(y_w|x) - \frac{\beta}{|y_l|} \log \pi_\theta(y_l|x) - \gamma \right) \right]. \tag{5}
      $$
    • 总结来说,SimPO 采用了一种与生成指标直接对齐的隐式奖励公式,无需参考模型
    • 此外,它还引入了目标奖励间隔 \(\gamma\) 来帮助区分获胜和失败响应
    • 在附录 F 中,论文提供了 SimPO 和 DPO 的梯度分析,以进一步理解两种方法的差异
  • 无需 KL 正则化即可防止灾难性遗忘 (Preventing catastrophic forgetting without KL regularization).
    • 尽管 SimPO 没有施加 KL 正则化,但论文发现以下实际因素的组合可以确保从偏好数据中有效学习,同时保持泛化能力,从而使得与参考模型的 KL 散度在实验中保持较低水平。这些因素包括:
      • (1) 较小的学习率
      • (2) 覆盖多样领域和任务的偏好数据集
      • (3) LLM 从新数据中学习而不遗忘先验知识的内在鲁棒性
    • 论文在第 4.4 节中展示了 KL 散度的实验结果

Experimental Setup

Models and training settings

  • 论文使用两个模型家族进行偏好优化:Llama-3-8B 和 Mistral-7B,分别在基础(Base)和指令微调(Instruct)两种设置下进行实验
    • 本节的目标是理解 SimPO 与其他偏好优化方法在不同实验设置下的性能表现
    • 论文的最强模型基于 Gemma-2-9B(Instruct setup),并使用更强的奖励模型 RLHFlow/ArmoRM-Llama3-8B-v0.1(见表 1)
    • 论文将在附录 J 中展示并讨论这些结果
  • 对于基础设置(Base setup) :论文遵循 Zephyr(2023)的训练流程
    • 首先,论文在 UltraChat-200k 数据集上训练基础模型(如 mistralai/Mistral-7B-v0.1 或 meta-llama/Meta-Llama-3-8B),得到 SFT 模型
    • 然后,论文使用 UltraFeedback 数据集对 SFT 模型进行偏好优化
      • 这一设置提供了高度透明性 ,因为 SFT 模型是基于开源数据训练的
  • 对于指令微调设置(Instruct setup) :论文使用现成的指令微调模型(如 meta-llama/Meta-Llama-3-8B-Instruct 或 mistralai/Mistral-7B-Instruct-v0.2)作为 SFT 模型
    • 这些模型经过广泛的指令微调过程,比基础设置中的 SFT 模型更强大且更鲁棒
    • 但它们的 RLHF 过程未公开,因此透明度较低
    • 为了缓解 SFT 模型与偏好优化过程之间的分布偏移,论文按照(2023)的方法生成偏好数据集,使指令微调设置更接近在线策略(on-policy)设置
    • 具体来说,论文使用 UltraFeedback 数据集中的提示,并用 SFT 模型重新生成偏好对 \((y_w, y_l)\)
    • 对于每个提示 \(x\),论文以采样温度 0.8 生成 5 个响应,并使用 llm-blender/PairRM(2023)对响应评分,选择得分最高的作为 \(y_w\),最低的作为 \(y_l\)
    • 论文仅进行单轮数据生成,而非迭代生成(2023)
      • 注解:论文还尝试使用更强的奖励模型 RLHFlow/ArmoRM-Llama3-8B-v0.1(2024)对生成的数据排序,这显著提升了性能(见附录 H 和附录 J)(这是论文 Gemma 2 实验中使用的奖励模型)
  • 总结来说,论文共有四种设置:Llama-3-Base、Llama-3-Instruct、Mistral-Base 和 Mistral-Instruct
    • 这些配置代表了当前的最先进水平,使论文的模型在多个排行榜上名列前茅
    • 论文鼓励未来研究采用这些设置,以便更公平地比较不同算法
    • 此外,论文发现超参数调优对所有离线偏好优化算法(包括 DPO 和 SimPO)的性能至关重要
    • 通常,对于 SimPO,将 \(\beta\) 设为 2.0 到 2.5,\(\gamma\) 设为 0.5 到 1.5 ,可以在所有设置中取得良好性能
    • 更多细节请参考附录 B

Evaluation Benchmarks

  • 论文主要使用三个流行的开放式指令遵循基准评估模型:MT-Bench(2023)、AlpacaEval 2(2023)和 Arena-Hard v0.1(2024)
  • 这些基准测试模型在多样化查询中的对话能力,已被社区广泛采用(详见表 2)
    • AlpacaEval 2 包含来自 5 个数据集的 805 个问题
    • MT-Bench 涵盖 8 个类别的 80 个问题
    • Arena-Hard(最新发布的)是 MT-Bench 的增强版,包含 500 个定义明确的技术问题求解查询
  • 论文按照每个基准的评估协议报告分数
    • 对于 AlpacaEval 2,论文报告原始胜率(raw win rate,WR)和长度控制胜率(length-controlled win rate,LC)(28)
      • LC 指标专门设计用于抵抗模型的冗余性
    • 对于 Arena-Hard,论文报告相对于基线模型的胜率(WR)
    • 对于 MT-Bench,论文使用 GPT-4 和 GPT-4-Preview-1106 作为评判模型,报告平均 MT-Bench 分数
      • 相对 GPT-4,GPT-4-Preview-1106 生成的参考答案和评判的精确率更高
    • 解码细节请参考附录 B
  • 论文还评估了 Huggingface Open Leaderboard 基准(2023)的下游任务,更多细节见附录 C

Baselines

  • 论文将 SimPO 与其他离线偏好优化方法进行比较(见表 3)
    • RRHF(2023)和 SLiC-HF(2023)是排序损失
      • RRHF 使用长度归一化的对数似然,类似于 SimPO 的奖励函数
      • SLiC-HF 直接使用对数似然并包含 SFT 目标
    • IPO(2023)是一种理论 grounded 的方法,避免了 DPO 的假设(即点奖励可以替代成对偏好)
    • CPO(2024)使用序列似然作为奖励,并与 SFT 目标联合训练
    • KTO(2024)从非配对偏好数据中学习
    • ORPO(2024)引入了一种无需参考模型的奇数比项,直接对比获胜和失败响应,并与 SFT 目标联合训练
      • ORPO 可以直接在偏好数据上训练而无需 SFT 阶段
      • 为公平比较,论文从与其他基线相同的 SFT 检查点开始训练 ORPO,这比从基础检查点开始效果更好
    • R-DPO(2024)是 DPO 的改进版,增加了防止长度利用的正则项
    • 论文为每个基线方法全面调优超参数并报告最佳性能
  • 论文发现许多 DPO 变体在实证上并未优于标准 DPO (更多细节见附录 B)

Experimental Results

  • 本节展示实验的主要结果,突出 SimPO 在各种基准测试中的优越性能(4.1节),并对以下组件进行深入分析:
    • (1) 长度归一化(4.2节)
    • (2) 边际项 \(\gamma\)(4.3节)
    • (3) SimPO 优于 DPO 的原因(4.4节)
    • 除非另有说明,消融研究均在 Mistral-Base 设置下进行

Main Results and Ablations

  • SimPO 一致且显著地优于现有偏好优化方法(SimPO consistently and significantly outperforms existing preference optimization methods) :
    • 如表 4 所示,尽管所有偏好优化算法都能提升 SFT 模型的性能,但 SimPO 凭借其简洁性,在所有基准和设置中均取得了最佳整体表现
    • 这些一致且显著的改进凸显了 SimPO 的鲁棒性和有效性
    • 值得注意的是,SimPO 在 AlpacaEval 2 的 LC 胜率上比最佳基线高出 3.6 到 4.8 分
    • 在 Arena-Hard 上,SimPO 同样表现优异,尽管偶尔被 CPO(2024)超越
    • 论文发现 CPO 生成的响应平均比 SimPO 长 50%(见表 10)
    • Arena-Hard 可能因评估中未对长度设限而倾向于更长的生成结果
  • 基准测试质量参差不齐(Benchmark quality varies)
    • 尽管三个基准测试被广泛采用,但论文发现 MT-Bench 在不同方法间的区分度较差
    • 方法间的微小差异可能源于随机性,这可能是由于其评估数据规模有限和单实例评分协议所致
      • 这一发现与(2024)的观察一致
    • 相比之下,AlpacaEval 2 和 Arena-Hard 能更有意义地区分不同方法
    • 论文注意到 Arena-Hard 的胜率显著低于 AlpacaEval 2,表明 Arena-Hard 是一个更具挑战性的基准
      • 尽管论文的模型在基准测试中表现优异,但这些评估存在局限性,包括查询空间受限和基于模型评估的潜在偏差
  • 指令微调设置带来显著性能提升(The Instruct setting introduces significant performance gains)
    • 在所有基准测试中,指令微调设置始终优于基础设置
    • 这一改进可能源于初始化使用的 SFT 模型质量更高,以及这些模型生成的偏好数据质量更高
  • SimPO 的两个关键设计均至关重要(Both key designs in SimPO are crucial)
    • 表 5 展示了 SimPO 每个关键设计的消融结果:
      • (1) 移除公式(4)中的长度归一化(即 w/o LN);
      • (2) 将公式(6)中的目标奖励边际设为 0(即 \(\gamma=0\))
    • 移除长度归一化对结果负面影响最大
      • 作者的检查发现,这会导致生成冗长且重复的模式,显著降低输出质量(见附录 E)
    • 将 \(\gamma\) 设为 0 也会导致性能下降,表明 0 并非最优目标奖励边际
    • 在以下小节中,论文将深入分析这两个设计选择

长度归一化(LN)防止长度利用(Length Normalization (LN) Prevents Length Exploitation)

  • LN 增加所有偏好对的奖励差异,无论其长度如何
    • 公式(5)中的 Bradley-Terry 目标本质上是优化奖励差异 \(\Delta r = r(x,y_w) - r(x,y_l)\),使其超过目标边际 \(\gamma\)
    • 论文研究了从 UltraFeedback 训练集中获胜和失败响应的长度差异 \(\Delta l = |y_w| - |y_l|\) 与学习到的奖励差异之间的关系
    • 论文使用 SFT 模型、SimPO 模型以及未使用长度归一化的 SimPO 模型测量奖励差异(\(r_{\text{SimPO} }\):公式(4))
    • 结果如图 2(a) 所示,论文发现带 LN 的 SimPO 对所有响应对均实现了正的奖励边际,无论其长度差异如何,并且始终比 SFT 模型提高了边际
      • 相比之下,不带 LN 的 SimPO 在获胜响应比失败响应短时会导致负的奖励差异,表明模型对这些实例的学习效果较差
  • 移除 LN 会导致奖励与响应长度强正相关,引发长度利用
    • 图 2(b) 和 2(c) 展示了在保留集上,使用 SimPO 和未使用 LN 的 SimPO 训练的模型的平均对数似然(公式(3)中的 \(p_\theta\))与响应长度的关系
    • 未使用 LN 训练的模型在似然与响应长度之间表现出更强的 Spearman 正相关性,表明其倾向于利用长度偏差生成更长序列(见附录 E)。相比之下,SimPO 的 Spearman 相关系数与 SFT 模型相似(见图 5(a))

The Impact of Target Reward Margin in SimPO

  • \(\gamma\) 对奖励准确性和胜率的影响(Influence of γ on reward accuracy and win rate)
    • 论文研究了 SimPO 中目标奖励边际 \(\gamma\) 对保留集上奖励准确性和 AlpacaEval 2 胜率的影响,结果如图 3(a) 所示。奖励准确性通过偏好对中获胜响应的奖励高于失败响应的比例(即 \(r(x,y_w) > r(x,y_l)\))来衡量。论文观察到,奖励准确性随 \(\gamma\) 的增加而提升,表明强制更大的目标奖励边际能有效提高奖励准确性。然而,AlpacaEval 2 的胜率随 \(\gamma\) 的增加先升后降,说明生成质量并非仅由奖励边际决定
  • \(\gamma\) 对奖励分布的影响(Impact of \(\gamma\) on the reward distribution.)
    • 论文在图 2(b) 和图 2(c) 中可视化不同 \(\gamma\) 值下学习到的奖励边际 \(r(x,y_w) - r(x,y_l)\) 和获胜响应奖励 \(r(x,y_w)\) 的分布
    • 增加 \(\gamma\) 会使分布趋于平坦,并降低获胜序列的平均对数似然
      • 这最初会提升性能,但最终可能导致模型退化
    • 论文假设在设置 \(\gamma\) 值时,需要在准确逼近真实奖励分布和保持良好校准的似然之间进行权衡
      • 这一平衡的进一步探索留待未来工作

In-Depth Analysis of DPO vs. SimPO

  • 本节论文从以下方面比较 SimPO 和 DPO:
    • (1) 似然-长度相关性
    • (2) 奖励公式
    • (3) 奖励准确性
    • (4) 算法效率
    • 论文证明 SimPO 在奖励准确性和效率上优于 DPO
  • DPO 奖励隐含地促进长度归一化(DPO reward implicitly facilitates length normalization)
    • 尽管 DPO 的奖励表达式:
      $$ r(x,y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref} }(y|x)}$$
      • 该表达式(排除配分函数)没有显式的长度归一化项,但策略模型与参考模型之间的对数比可以隐式抵消长度偏差
    • 如表 6 和图 4(a) 所示,使用 DPO 降低了平均对数似然与响应长度之间的 Spearman 相关系数 ,但与 SimPO 相比仍表现出更强的正相关性
      • 注意这一相关性并未完全反映生成长度。尽管 DPO 显示出更强的相关性,但其生成响应的长度与 SimPO 模型相当甚至略短。更多细节见附录 E
  • DPO 奖励与生成似然不匹配(DPO reward mismatches generation likelihood)
    • DPO 的奖励公式为:
      $$ r_\theta(x,y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref} }(y|x)}$$
    • 该奖励公式与直接影响生成的平均对数似然度量存在差异:
      $$ p_\theta(y|x) = \frac{1}{|y|} \log \pi_\theta(y|x)$$
    • 如图 4(b) 所示,在 UltraFeedback 训练集中满足 \(r_\theta(x,y_w) > r_\theta(x,y_l)\) 的实例中,近一半的偏好对满足 \(p_\theta(y_w|x) < p_\theta(y_l|x)\)
    • 相比之下,SimPO 直接使用平均对数似然(按 \(\beta\) 缩放)作为奖励表达式,完全消除了这种差异(见图 4(b))
  • DPO 在奖励准确性上落后于 SimPO(DPO lags behind SimPO in terms of reward accuracy)
    • 在图 4(c) 中,论文比较了 SimPO 和 DPO 的奖励准确性,评估它们最终学习到的奖励与保留集上偏好标签的匹配程度
    • SimPO 始终比 DPO 取得更高的奖励准确性,表明论文的奖励设计有助于更好地泛化,从而生成更高质量的响应
  • SimPO 和 DPO 的 KL 散度(KL divergence of SimPO and DPO)
    • 在图 5(a) 中,论文展示了在不同 \(\beta\) 下,使用 DPO 和 SimPO 训练的策略模型与参考模型在保留集获胜响应上的 KL 散度
    • 图 5(b) 展示了相应的 AlpacaEval 2 LC 胜率
    • 尽管 SimPO 未对参考模型应用任何形式的正则化,但其 KL 散度保持在合理较低水平
    • 增加 \(\beta\) 会降低 DPO 和 SimPO 的 KL 散度,其中 DPO 在较高 \(\beta\) 值时下降更明显
    • 在此特定设置(Mistral-base)中,图 5(b) 显示较小的 \(\beta\) 可以提升 AlpacaEval 2 性能,尽管 KL 散度更高
      • 论文观察到在某些设置(如 Llama-3-Instruct)中,较大的 \(\beta\)(如 \(\beta=10\))会带来更好的性能
      • 论文假设当参考模型较弱时,严格约束策略模型可能无益
    • 需要注意的是,尽管在适当调参下论文未观察到训练崩溃或退化,但 SimPO 理论上可能在没有显式正则化的情况下导致奖励破解(reward hacking) ,此时模型可能损失很低但生成结果退化
  • SimPO 比 DPO 更节省内存和计算资源(SimPO is more memory and compute-efficient than DPO)
    • SimPO 的另一优势是其高效性,因为它不使用参考模型
    • 图 5(c) 展示了在 Llama-3-Base 设置下,使用 8xH100 GPU 时 SimPO 和 DPO 的总体运行时间和单 GPU 峰值内存使用情况
    • 与普通 DPO 实现相比,SimPO 通过消除参考模型的前向传递,减少了约 20% 的运行时间和 10% 的 GPU 内存使用
      • 如果将参考模型的前向传递与实际偏好优化分离,DPO 也能实现与 SimPO 相当的内存效率,但这一实现并非标准做法

Related Work

RLHF

  • RLHF 是一种将 LLM 与人类偏好和价值观对齐的技术(2017; 2019; 2022)
  • 经典的 RLHF 流程通常包含三个阶段:
    • 监督微调(2021; 2023)
    • 奖励模型训练(2023; 2024)
    • 策略优化(2017)
  • 近端策略优化(Proximal Policy Optimization, PPO)(2017)是 RLHF 第三阶段广泛使用的算法
  • RLHF 框架还被应用于多种任务,例如减少毒性(2023)、确保安全性(2023)、提升帮助性(2024)以及增强模型推理能力(2024)
  • 近期研究(2023)指出,RLHF 从数据收集到模型训练的整个流程存在挑战
  • 此外,RLHF 可能导致模型生成冗长输出(2023; 2024),这一问题也引发了广泛关注

Offline vs. Iterative Preference Optimization

  • 由于在线偏好优化算法复杂且难以优化(2023),研究者开始探索更高效的离线算法
  • 直接偏好优化(Direct Preference Optimization, DPO)(2023)是一个典型代表
  • 但 DPO 缺乏显式的奖励模型,限制了其从最优策略中采样偏好数据的能力
  • 为解决这一问题,研究者尝试通过训练监督微调策略(2023)或结合拒绝采样的改进策略(2024)生成偏好数据,使策略能够从最优策略生成的数据中学习
  • 进一步研究将这种方法扩展到迭代训练框架(2024; 2024)
  • 论文专注于离线设置 ,避免任何迭代训练过程

Preference Optimization Objectives

  • 除 DPO 外,研究者还提出了多种偏好优化目标
    • 排序目标支持对多个实例进行比较(2023; 2024)
  • 另一类研究探索了不依赖参考模型的简化目标(2024),与 SimPO 类似
    • (2024)提出了一种联合优化指令和响应的方法,发现其能有效改进 DPO
    • (2024)专注于在监督微调和对齐模型之间进行后训练外推,以进一步提升模型性能
  • 论文对比了 SimPO 与一系列离线算法,包括 RRHF(2023)、SLiC-HF(2023)、DPO(2023)、IPO(2023)、CPO(2024)、KTO(2024)、ORPO(2024)和 R-DPO(2024),发现 SimPO 在效率和性能上均优于它们
  • 近期 GPO(Generalized Preference Optimization,2024)提出了一个统一不同离线算法的广义偏好优化框架,而 SimPO 可视为其特例

附录 A Limitations

  • 更深入的理论分析(More in-depth theoretical analysis) :
    • 尽管 SimPO 在实验上取得了成功,但仍需更严格的理论分析以全面理解其有效性
    • 此外,SimPO 引入了目标奖励间隔这一超参数,需手动调整
    • 未来工作可探索如何自动确定最优间隔,并提供更理论化的解释
  • 安全性与诚实性(Safety and honesty) :
    • SimPO 旨在通过优化生成质量来提升模型性能,但未显式考虑安全性和诚实性,而这在实际应用中至关重要
    • 未来研究可将安全性和诚实性约束整合到 SimPO 中,确保生成内容既高质量又安全可靠
    • 论文使用的数据集 UltraFeedback 主要关注有帮助性,未来的研究可以做更全面的研究(如考虑利用大规模偏好数据和更强调安全性的评估基准)
    • 尽管如此,作者观察到在数据集 TruthfulQA 上,SimPO 方法一致优于表9中的其他方法,这显示了 SimPO 在安全性对齐方面的潜力
  • 数学任务性能下降(Performance drop on math) :
    • 论文发现偏好优化算法通常会降低下游任务性能 ,尤其是在数学推理密集型(reasoning-heavy)任务(如 GSM8K)上(正如表9所展示的那样)
    • SimPO 的表现有时与 DPO 相当或更差
      • 这可能与训练数据集的选择、超参数设置或评估模板不匹配有关
      • 一种解释是偏好优化目标可能在提升偏好序列的似然上没有效果(尽管提升了奖励间隔(Reward margin))
    • (2024)首次观察到这一现象,并指出这可能妨碍从修改一个 Token 就发生翻转(flip)的数学偏好对中学习(比如将 2 + 2 = 4 修改为 2 + 2 = 5)
      • 该工作提出通过添加参考模型校准的监督微调损失来缓解问题
      • 未来工作可将此策略整合到 SimPO 中,以提升数学推理任务的性能

附录 B Implementation Details

  • 论文发现超参数调优对偏好优化方法的性能至关重要,但其重要性在先前研究中可能被低估,导致基线结果未达最优
    • 为确保公平对比,论文为所有方法进行了全面的超参数调优
  • 通用训练超参数(General training hyperparameters) :
    • 在基础训练设置中,论文使用 UltraChat-200k 数据集(2023)训练监督微调模型
      • 学习率为 2e-5
      • 批量大小为 128
      • 最大序列长度为 2048
      • 采用余弦学习率调度
      • 预热步数为 10%
      • 训练 1 个 epoch
      • 所有模型均使用 Adam 优化器(2014)
    • 在偏好优化阶段,论文通过初步实验搜索批量大小(32、64、128)和训练周期(1、2、3)
      • 作者发现批量大小为 128 和单周期(epoch=1)训练通常能带来最佳结果
      • 因此,论文将这些值固定用于所有偏好优化实验
      • 此外,设置最大序列长度为 2048,并在偏好优化数据集上应用 10% 预热步数的余弦学习率调度
  • 方法特定超参数(Method-specific training hyperparameters) :
    • 论文注意到不同偏好优化方法的最佳学习率差异较大 ,且显著影响基准性能
    • 因此,论文为每种方法单独搜索学习率(3e-7、5e-7、6e-7、1e-6)
    • 表 7 展示了基线方法的超参数搜索范围
    • 表 8 列出了 SimPO 在各设置下的超参数值
  • 解码超参数(Decoding hyperparameters) :
    • 在 AlpacaEval 2 中,论文采用采样解码策略
      • 温度设置为 0.7(Mistral-Base)
      • 0.5(Mistral-Instruct)
      • 0.9(Llama 3)
    • 在 Arena-Hard 中,所有设置和方法均使用贪婪解码
    • 在 MT-Bench 中,遵循官方解码配置,为不同类别定义不同的采样温度
  • 计算环境(Computation environment) :
    • 论文所有训练实验均在 8 块 H100 GPU 上完成,基于 alignment-handbook 代码库实现

附录 C:Downstream Task Evaluation

  • 为了研究偏好优化方法如何影响下游任务性能,论文在 Huggingface Open Leaderboard (2023) 列出的多个任务上评估了不同方法训练的模型
  • 这些任务包括 MMLU (2020)、ARC (2018)、HellaSwag (2019)、TruthfulQA (2022)、Winograd (2012) 和 GSM8K (2021)
  • 论文遵循既定的评估协议,所有模型的结果如表 9 所示
    • 总体而言,论文发现偏好优化对不同任务的影响各不相同
  • 知识保留度高,损失小(Knowledge is largely retained with a small loss) :
    • 与监督微调(Supervised Fine-Tuned, SFT)检查点相比,所有偏好优化方法通常能保持 MMLU 性能,仅有小幅下降
    • 在这方面,SimPO 与 DPO 基本相当
  • 阅读理解和常识推理能力提升(Reading comprehension and commonsense reasoning improves) :
    • 对于 ARC 和 HellaSwag,偏好优化方法通常比 SFT 检查点表现更好
    • 一种假设是偏好优化数据集中包含与这些任务类似的提示,这有助于模型更好地理解上下文,提升阅读理解和常识推理能力
  • 真实性提高(Truthfulness improves) :
    • 令人惊讶的是,论文发现偏好优化方法能持续提升 TruthfulQA 性能,某些情况下提升幅度超过 10%
    • 同样,论文假设偏好数据集中包含强调真实性的实例,这有助于模型更好地理解上下文并生成更真实的回答
  • 数学性能下降(Math performance drops) :
    • GSM8K 是不同方法间表现波动最大的基准
    • 值得注意的是,除了 ORPO,几乎所有方法在一个或多个设置中都会导致性能下降
      • 论文假设 ORPO 能保持性能主要是因为其监督微调损失起到了调节作用
    • (2024) 的研究表明,在偏好优化目标中加入基于参考模型的监督微调损失可以有效解决这一问题,并保持数学任务上的性能
  • 总体而言,下游性能的模式难以确定
    • 由于使用了不同的预训练模型、偏好优化数据集和目标,进行全面分析较为困难
    • 近期研究表明,基于梯度的方法可能有助于找到与下游任务相关的数据 (2024),未来或可扩展用于理解偏好优化的影响
    • 作者认为,未来需要对偏好优化如何影响下游性能进行更严谨和全面的研究

附录 D:AlpacaEval 2 和 Arena-Hard 的标准差 (Standard Deviation of AlpacaEval 2 and Arena-Hard)

  • 论文在表 10 中展示了 AlpacaEval 2 的标准差和 Arena-Hard 的 95% 置信区间
    • 所有指标均合理,未出现显著异常或不稳定情况

附录 E:Generation Length Analysis

  • 长度归一化减少生成长度并提升生成质量(Length normalization decreases generation length and improves generation quality)
    • 从 SimPO 目标中移除长度归一化(Length Normalization, LN)会得到类似于对比偏好优化(Contrastive Preference Optimization, CPO)(2024) 的方法
      • CPO 在机器翻译中表现优异
    • 然而,如果没有监督微调损失 ,未使用长度归一化的奖励最大化目标在偏好优化中效果较差
    • 论文分析了在 AlpacaEval 2 和 Arena-Hard 上使用或不使用长度归一化训练的模型的生成长度
    • 如图 6 所示:
      • 长度归一化显著减少了生成长度,降幅高达 25%
      • 尽管生成长度更短,但使用长度归一化的模型在两个基准上的胜率显著更高
      • 这表明长度归一化能有效控制生成响应的冗余性,同时提升生成质量
  • 长度并非生成质量的可靠指标(Length is not a reliable indicator of generation quality)
    • 论文进一步分析了不同方法训练的模型在 AlpacaEval 2 和 Arena-Hard 上的生成长度,如表 10 所示
    • 总体而言,论文发现没有一种方法能在所有设置中一致生成更长或更短的响应
    • 此外,某些方法可能生成更长的响应,但未必在基准上取得更高的胜率
    • 这表明生成响应的长度并不能可靠反映生成质量
  • SimPO 对响应长度的利用最小化(SimPO demonstrates minimal exploitation of response length.)
    • 论文观察到,在 Llama-3-Instruct 案例中 ,SimPO 的生成长度比 DPO 更短 ,但在其他设置中生成长度更长
      • 在 AlpacaEval 2 上最多长出 26%
      • 在 Arena-Hard 上仅长约 5%
    • 可以说,生成长度很大程度上取决于评估基准
    • 更强的指标是 SimPO 在 AlpacaEval 2 上的长度控制胜率始终高于原始胜率 ,表明其对响应长度的利用最小化

附录 F:Gradient Analysis

  • 作者检查了 SimPO 和 DPO 的梯度,以理解它们对训练过程的不同影响:
    $$
    \nabla_{\theta}\mathcal{L}_{\text{SimPO} }(\pi_{\theta})=-\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[s_{\theta}\cdot\left(\underbrace{\frac{1}{|y_{w}|}\nabla_{\theta}\log\pi_{\theta}(y_{w}|x)}_{\text{increase likelihood on } y_w }-\underbrace{\frac{1}{|y_{l}|}\nabla_{\theta}\log\pi_{\theta}(y_{l}|x)}_{\text{decrease likelihood on } y_l}\right)\right], \\
    \nabla_{\theta}\mathcal{L}_{\text{DPO} }(\pi_{\theta})=-\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[d_{\theta}\cdot\left(\underbrace{\nabla_{\theta}\log\pi_{\theta}(y_{w}|x)}_{\text{increase likelihood on } y_w }-\underbrace{\nabla_{\theta}\log\pi_{\theta}(y_{l}|x)}_{\text{decrease likelihood on } y_l }\right)\right],
    $$
  • 其中:
    $$
    s_{\theta}=\sigma\left(\frac{\beta}{|y_{l}|}\log\pi_{\theta}(y_{l}|x)-\frac{\beta}{|y_{w}|}\log\pi_{\theta}(y_{w}|x)+\gamma\right), \quad d_{\theta}=\sigma\left(\beta\log\frac{\pi_{\theta}(y_{l}|x)}{\pi_{\text{ref} }(y_{l}|x)}-\beta\log\frac{\pi_{\theta}(y_{w}|x)}{\pi_{\text{ref} }(y_{w}|x)}\right)
    $$
    • 分别表示 SimPO 和 DPO 中的梯度权重
  • 可以看出差异有两方面:
    • (1) 比较梯度权重 \(s_{\theta}\) 和 \(d_{\theta}\)
      • SimPO 的梯度权重 \(s_{\theta}\) 不涉及参考模型,且具有直观解释:对于策略模型错误地为 \(y_l\) 分配比 \(y_w\) 更高似然的样本,权重会更高;
    • (2) 比较梯度更新
      • SimPO 对 \(y_l\) 和 \(y_w\) 的梯度进行了长度归一化,而 DPO 没有
      • 这与实证发现 (2024) 一致:DPO 可能利用数据中的长度偏差 ,更长的序列会因包含更多 token 而在 DPO 中获得更大的梯度更新 ,从而主导训练过程

附录 G:Qualitative Analysis

  • 论文在图 7 和图 8 中分别展示了 Mistral-Base 和 Mistral-Instruct 在 AlpacaEval 2 和 Arena-Hard 上的胜率热图
  • 基于此分析,论文在 AlpacaEval 2 上展示了 SimPO 模型、DPO 模型和基线模型 GPT-4-Preview-1106 生成的响应示例
  • 比较 SimPO 与 DPO
    • 在图 9 和图 10 中,论文展示了一个案例,其中 Mistral-Base-SimPO 生成的答案比 Mistral-Base-DPO 结构更好
      • 给定问题“如何判断一个人对对话是真正感兴趣还是仅仅出于礼貌?”,DPO 模型生成了一长串要点,使得不同点之间的关系难以理解
      • 相比之下,SimPO 模型生成了一个结构良好的答案,首先对不同行为进行了高层分类,随后为每个类别提供了详细建议,使得答案更易读和理解
  • 比较使用 SimPO 训练的 Instruct 模型与 Base 模型 :
    • 在图 11 中,论文展示了一个案例,其中 Llama-3-Instruct 生成的答案比基线模型以及 Llama-3-Base-SimPO 模型更详细且格式更好
    • 对于问题“阿根廷人说什么语言?”,Llama-3-Base-SimPO 仅给出了非常简短的答案
    • GPT-4-Preview-1106 的答案更详细,解释了阿根廷西班牙语与标准西班牙语的区别,但格式不够清晰,解析稍难
    • Llama-3-Instruct-SimPO 提供了详细且格式良好的答案,更易阅读和理解,同时提供了足够的细节

附录 H:Llama-3-Instruct v0.2 (Jul 7, 2024))

  • 本节论文更新了 Llama-3-Instruct 的实验设置,主要改进是使用更强的奖励模型(reward model)来标注生成的偏好数据
  • 更强的奖励模型显著提升效果(Enhanced reward model yields significantly better results)
    • 在之前的版本中,论文使用 PairRM(2023)作为奖励模型对生成的候选回答进行排序
    • 表 12 的结果显示,将排序数据的奖励模型从 PairRM 替换为 ArmoRM(2024)后,模型性能显著提升
    • 这凸显了高质量偏好优化数据对性能的重要性
    • SimPO 在 AlpacaEval 2 上的长度控制胜率(LC win rate)达到 53.7%,在 Arena-Hard 上达到 36.5%,分别比前一版本提升了 9.0 和 2.7 个百分点
  • 论文在 Llama-3-Instruct v0.2 设置下为 SimPO 使用了以下超参数:
    • \(\beta=10\) 和 \(\gamma=3\)
    • 其他超参数(如学习率、批量大小、最大序列长度)与原始 Llama-3-8B-Instruct 设置保持一致
  • 强大的 SFT 模型和高质量策略数据缩小了算法差异(Strong SFT model and high-quality policy data diminish algorithm differences)
    • 当使用像 Llama-3-8B-Instruct 这样强大的 SFT 模型,并且偏好优化数据质量提高时,不同算法之间的差异变得不那么明显
    • 例如,DPO 在原始胜率(raw win rate)上与 SimPO 表现接近,而 DPO、IPO 和 R-DPO 在 Arena-Hard 上的原始胜率也相当
    • 然而,SimPO 仍保持优势,生成的序列更短,因此在 AlpacaEval 2 上的长度控制胜率显著更高
  • 下游任务表现更强(Stronger downstream task performance)
    • v0.2 版本在各种目标下的下游任务中也表现出更好的性能
    • 不过,DPO、IPO、R-DPO 和 SimPO 在数学推理密集型任务(如 GSM8K)上仍然存在性能下降
    • 相比之下,包含 SFT 组件的目标在数学任务上保持了更好的表现
  • 在 SimPO 中加入 SFT 正则化(Incorporating SFT regularization in SimPO)
    • 一些无需参考模型(reference-free)的算法(如 RRHF(2023)、SLiC-HF(2023)、CPO(2024)和 ORPO(2024))在其目标中使用了 SFT 正则化
    • SFT 正则化是防止奖励破解(reward hacking)的有效方法,可以确保模型在保持低损失的同时不会生成质量下降的结果
    • 论文也在 SimPO 中尝试加入 SFT 损失,得到以下目标函数:
      $$
      \mathcal{L}_{\text{SimPO w/ SFT} }(\pi_{\theta})=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[\log\sigma\left(\frac{\beta}{|y_{w}|}\log\pi_{\theta}(y_{w}|x)-\frac{\beta}{|y_{l}|}\log\pi_{\theta}(y_{l}|x)-\gamma\right)\color{red}{+\lambda\log\pi_{\theta}(y_{w}|x)}\right].
      $$
    • 如表 14 所示,加入 SFT 正则化后,模型在 AlpacaEval 2 上的性能有所下降
    • 但论文发现 SFT 正则化对某些任务(如 GSM8K)有显著帮助(见表 12)
    • 这些结果表明,SFT 在偏好优化中的作用可能因训练设置和任务性质而异
    • 更全面的研究留待未来进行

附录 I:Applying Length Normalization and Target Reward Margin to DPO (Jul 7, 2024))

  • 论文发布后,有研究者提出疑问:SimPO 的两个关键设计(长度归一化(length normalization)和目标奖励间隔(target reward margin))是否也能提升 DPO 的效果?为此,论文推导了以下两个目标函数:
    $$
    \mathcal{L}_{\text{DPO w/ LN} }(\pi_{\theta};\pi_{\text{ref} })=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[\log\sigma\left(\frac{\beta}{|y_{w}|}\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\text{ref} }(y_{w}\mid x)}-\frac{\beta}{|y_{l}|}\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\text{ref} }(y_{l}\mid x)}\right)\right]. \\
    \mathcal{L}_{\text{DPO w/ }\gamma}(\pi_{\theta};\pi_{\text{ref} })=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D} }\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\text{ref} }(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\text{ref} }(y_{l}\mid x)}-\gamma\right)\right].
    $$
    • 直观上,长度归一化可能对 DPO 有帮助,因为尽管 DPO 的奖励设计通过参考模型隐式归一化,但策略模型仍可能从数据中利用长度偏差,导致对较长序列赋予过高的概率
      • 长度归一化可以缓解这一问题
  • 论文使用上述目标训练模型,并与 DPO 和 SimPO 的性能进行比较(见表 15)
  • 结果表明,与 SimPO 不同,长度归一化和目标奖励间隔并不能一致地提升 DPO
  • 具体来说,长度归一化仅在 Mistral-Base 设置中显著提升 DPO 性能(该设置的偏好优化数据存在明显的长度偏差),但在 Mistral-Instruct 设置中无益(因为胜负响应的长度相近)
    • 这可能是因为 DPO 已通过参考模型隐式实现了实例级的目标奖励间隔,如下式所示:
      $$
      \begin{align}
      \mathcal{L}_{\text{DPO} }&= \log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\text{ref} }(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\text{ref} }(y_{l}\mid x)}\right) \\
      &= \log\sigma\bigg(\beta\log\pi_{\theta}(y_{w}\mid x)-\beta\log\pi_{\theta}(y_{l}\mid x)-\underbrace{\left(\beta\log\pi_{\text{ref} }(y_{w}\mid x)-\beta\log\pi_{\text{ref} }(y_{l}\mid x)\right)}_{=\gamma_{\text{ref} } }\bigg).
      \end{align}
      $$

附录 J:Applying SimPO to Gemma 2 Models (Sept 16, 2024)

  • Llama-3-SimPO 模型在其他基准测试上的性能下降(Performance degradation on other benchmarks for Llama-3-SimPO checkpoints)
    • 在发布 Llama-3-SimPO 模型后,论文收到大量反馈,指出其在特定能力测试(如 MMLU 和 GSM8K)上的性能下降
    • 为了研究这一问题,论文继续用不同学习率训练 Llama-3-8B-Instruct 模型(见表 16)
    • 论文发现,使用较高的学习率会增强模型在聊天类基准上的表现,但会牺牲 GSM8K 和 MMLU 的性能
      • We evaluate the zero-shot performance of the models on GSM8K and MMLU using the ZeroEval repository which adopts a unified setup
    • 而较低的学习率能略微降低聊天基准的性能,但更好地保留了 GSM8K 和 MMLU 的表现
    • 这表明,在基于强大的指令微调模型继续训练时,需要在聊天基准和其他基准之间权衡
  • 将 SimPO 应用于 Gemma 2 模型呈现不同趋势(Applying SimPO to Gemma 2 models persents a different trend)
    • 论文使用谷歌最新发布的 Gemma-2-9B-it 模型(2024)评估 SimPO
    • 对于训练数据,论文从 UltraFeedback 数据集(2024)中为每个提示生成最多 5 个回答,并使用 ArmoRM 模型(2024)标注偏好
    • 论文将 SimPO 与基于 Gemma-2-9B-it 微调的 DPO 变体进行比较
    • 如表 17 所示,SimPO 在 AlpacaEval 2 和 Arena-Hard 等聊天基准上表现更优,同时保持了模型在 GSM8K 和 MMLU 等任务上的零样本能力
    • 值得注意的是,论文发现微调时调整学习率对模型性能影响很小
    • 这些结果表明,Llama-3 和 Gemma 2 的模型存在内在差异,值得进一步研究
  • Gemma-2-9B-it-SimPO 显著提升了原模型在 Chatbot Arena 的排名(Gemma-2-9B-it-SimPO significantly improved the ranking of the Gemma-2-9B-it model on Chatbot Arena)
    • 在开发阶段,论文仅依赖自动化指标评估模型性能
    • 为了验证这些指标是否与真实用户偏好一致,论文将表现最佳的 Gemma-2-9B-it-SimPO 模型提交至 LMSYS 的 Chatbot Arena 排行榜(2024)
    • 结果显示,论文的模型将原 Gemma-2-9B-it 的排名从第 36 位提升至第 25 位,使其成为截至 2024 年 9 月 16 日用户投票排名最高的 10B 以下模型

NLP——LLM对齐微调-TIS

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始博客:(TIS)Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, 20250805-20251013
      • 博客最早发表于 20250805,目前还在持续更新,最近一次更新为 20251013
    • TIS,即 Truncated Importance Sampling

Blog Summary

  • 在现代强化学习训练框架(例如 VeRL)中, rollout 生成(例如使用 vLLM)和模型训练(例如使用 FSDP)采用了不同的实现方式
  • 博客揭示了这种 实现差距(implementation gap) 如何隐式地将 On-policy 强化学习转变为 Off-policy,并讨论了一种简单而有效的重要性采样技术来处理这种差异

The Mismatch Problem

  • 为简单起见,博客以 REINFORCE 算法为例,该算法本应通过以下方式更新策略,即一个由 \(\theta\) 参数化的大语言模型:
    $$
    \theta \leftarrow \theta + \mu \cdot \mathbb{E}_{\underbrace{a \sim{\pi}(\theta)}_{\color{red}{\text{rollout}}}} [R(a)\cdot \underbrace{\nabla_\theta \log {\pi}(a, \theta)}_{\color{blue}{\text{training}}}].
    $$
  • 在实践中,rollout 生成成本高昂,现代强化学习框架(例如 VeRL)通常采用高度优化的推理引擎(例如 vLLM, SGLang)来提高吞吐量,同时使用单独的后端(例如 FSDP, Megatron)进行模型训练。这种混合设计使得更新变为:
    $$
    \theta \leftarrow \theta + \mu \cdot \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} [R(a)\cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)].
    $$
    • \(\color{red}{\pi_{\text{sampler} }}\) 代表加载了推理引擎(例如 vLLM, SGLang)的模型
    • \(\color{blue}{\pi_{\text{learner} }}\) 代表用训练后端(例如 FSDP, Megatron)实例化的同一模型
    • 除非特别说明,博客的实验使用 vLLM 和 FSDP 作为 Sampler 和 Learner 后端
  • 可以观察到意外的 rollout-training 不匹配
    • 如图 1 所示,尽管 \(\color{blue}{\pi_{\text{fsdp}} }\) 和 \(\color{red}{\pi_{\text{vllm} }}\) 共享相同的模型参数 \(\theta\),它们可以产生 显著不同的 Token 概率
    • 对于某些 Token \(a\),它们甚至产生矛盾的预测,例如 \(\color{red}{\pi_{\text{vllm} }}(a, \theta) = 1\) 和 \(\color{blue}{\pi_{\text{fsdp}} }(a, \theta) = 0\)
      • 理解:图 1 左图中的最大差异为 1 的地方就是这样
    • 这种意外行为隐式地破坏了 On-policy 假设,秘密地使强化学习训练变成了 Off-policy
  • 图 1:
    • 左图:由不匹配问题带来的 Token 概率差异(图中横轴是训练步骤,纵轴是差异的 最大值或平均值等)
    • 右图:正常 RL 训练与修复不匹配问题后训练的性能比较
    • 实验在 Qwen2.5-32B Dense 模型上进行,使用了 4 个节点,每个节点 8 张 H100 GPU

How to Fix It?

Mitigate the system-level mismatch(缓解系统级不匹配 )

  • 更高精度的 vLLM 有帮助吗?博客首先假设 vLLM 是根本原因,因此博客修补了 vLLM 以解决两个常被怀疑导致不匹配问题的因素
    • 无法访问的真实采样概率(Inaccessible true sampling probabilities) :vLLM v1 引擎不支持直接返回用于采样的调整后概率,这引入了额外的差距
      • 博客的补丁强制 vLLM 返回用于采样的实际概率 [非流式]
    • 后端数值差异(Backend numerical differences) :vLLM 的 im_head 精度与 HuggingFace transformers 不匹配,这在 MinMax-M1 技术报告中也有提及
      • 博客的补丁提供了强制 vLLM 将 im_head 转换为 fp32 的选项
  • 如图 1 左图所示,在应用了两个补丁之后,不匹配问题仍然存在

Embrace the mismatch — Apply algorithm-level fix(接受不匹配 and 应用算法级修复 )

  • 与其在系统层面缓解分布不匹配,博客建议调整模型更新,使其意识到这种不匹配
  • 一个简单的方法是通过重要性采样校正
    • 具体来说,博客通过添加重要性权重比来处理 \(\color{blue}{\pi_{\text{learner} }}\) 和 \(\color{red}{\pi_{\text{sampler} }}\) 之间的不匹配,即将当前的梯度计算从:
      $$
      \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} [R(a)\cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)],
      $$
    • 改为:
      $$
      \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \Bigl[\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)} \cdot R(a)\cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)\Bigr].
      $$
  • 尽管已有大量研究关于如何设计稳定有效的重要性采样,但在实践中博客发现通常使用一种经典技术就足够了,即截断重要性采样(Truncated Importance Sampling, TIS):
    $$
    \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \Bigl[\underbrace{\min\Bigl(\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)}, C\Bigr)}_{\text{truncated importance ratio}} \cdot R(a) \cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)\Bigr],
    $$
    • 其中 C 是一个超参数
    • 注意:这里仅针对单向进行截断(对上界进行截断),详细讨论见下文

Extension to Other Algorithms

  • 将上述分析扩展到其他算法是直接的,因为可以将梯度计算的确切形式从 REINFORCE \( R(a) \cdot \nabla \log \pi (a, \theta) \) 切换到任何形式
    • 这里,博客以常用的 PPO 算法为例进行类似的分析
  • PPO 的策略梯度 \(\nabla_{\theta} L^\text{CLIP}(\theta)\) 定义为:
    $$
    \small{ \mathbb{E}_{a\sim\pi_{\theta_{\mathrm{old}}}}
    \Bigl[
    \nabla_\theta \min\Bigl(
    \frac{\pi_\theta(a)}{\pi_{\theta_{\mathrm{old}}}(a)}\hat A,
    \mathrm{clip}\bigl(\frac{\pi_\theta(a)}{\pi_{\theta_{\mathrm{old}}}(a)},1-\epsilon,1+\epsilon\bigr)\hat A
    \Bigr)
    \Bigr]}.
    $$
  • 为了提高吞吐量,混合强化学习系统采用 vLLM 引擎进行 rollout 生成(从 \(\pi_{\theta_{old} }\) 采样 Token a),同时使用 FSDP 后端既从 \(\pi_{\theta}\) 采样(注:这里应该是表达错误,这里仅仅是在计算概率值,不会真的进行采样了),又为 \(\pi_{\theta_{old} }\) 重新计算 Token 概率以进行梯度计算:
    $$
    \small{
    \mathbb{E}_{a\sim\color{red}{\pi_{\text{sampler}}}(\theta_{\mathrm{old}})}
    \Bigl[
    \nabla_\theta \min\Bigl(
    \frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{blue}{\pi_{\text{learner}}}(a, \theta_{\mathrm{old}})}\hat A,
    \mathrm{clip}\bigl(\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{blue}{\pi_{\text{learner}}}(a, \theta_{\mathrm{old}})},1-\epsilon,1+\epsilon\bigr)\hat A
    \Bigr)
    \Bigr]
    }.
    $$
    • 注意,对 vLLM 引擎通过 \(\pi_{\theta_{old} }\) rollout 到的样本,还要经过 以 FSDP 为引擎的 \(\color{blue}{\pi_{\text{learner}}}\) 来对 \(\pi_{\theta_{old} }\) 重新计算概率,从而得到 \(\color{blue}{\pi_{\text{learner}}}(a, \theta_{\mathrm{old}})\)
  • 与上述分析类似,\(\color{blue}{\pi_{\text{learner} }}\) 和 \(\color{red}{\pi_{\text{sampler} }}\) 之间的差距再次出现,博客使用截断重要性采样来修复它:
    $$
    \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }}(\theta_{old})} \left[ \underbrace{\min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}, C \right)}_{\text{truncated importance ratio}} \cdot \nabla_{\theta} \min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})} \hat{A}, \text{ clip} \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}, 1 - \epsilon, 1 + \epsilon \right) \hat{A} \right) \right]
    $$
    • 其中 \(C\) 是一个超参数
Additional Discussion on PG, Sequence, and Token
  • 上面的讨论没有涉及状态和行动的具体形式化
  • 博客作者之前还讨论了 Token-level 和 Sequence-level 的策略梯度,它们如何相互关联,以及 learner-sampler 不匹配的影响,下面是参考链接:
    • Policy Gradient, Sequence, and Token — Part I: Basic Concepts
    • Policy Gradient, Sequence, and Token — Part II: Learner-Sampler Mismatch

Connection to Classical Wisdom(智慧)

Importance Sampling
  • 当直接蒙特卡洛估计目标分布下的期望值很困难时,重要性采样允许博客从另一个分布中采样
  • 在博客的案例中,目标分布是 \(\color{blue}{\pi_{\text{learner} }}\),但从中采样非常慢
  • 使用单独的后端(例如 vLLM)进行 rollout 生成意味着博客是从 \(\color{red}{\pi_{\text{sampler} }}\) 中采样
  • 然后通过用重要性权重比对每个样本进行加权来校正差异:
    $$
    \mathbb{E}_{a \sim \color{blue}{\pi_{\text{learner}}}(\theta)} [R(a)]
    = \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \left[
    \underbrace{\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)}}_{\tiny\text{importance ratio}} \cdot R(a)
    \right].
    $$
Decoupled PPO
  • 解耦 PPO 是使用重要性采样来弥合 rollout 生成和梯度计算之间差距的一个特例,它已被诸如 AReaL 之类的异步强化学习框架采用
  • AReaL 没有像博客这里讨论的那样实现截断重要性权重比
    • 如果重要性权重比超过预定义的阈值,AReaL 会完全丢弃训练样本

Experiments

  • 博客进一步进行了实证分析,以阐述分布差距的影响以及所提出的截断重要性采样(TIS)修复的有效性

Does the gap matter a lot?

  • 博客使用 Qwen2.5-32B Dense 模型和流行的 DAPO 配方进行实验;数据按照社区指南进行处理,得到的结果如图 1 所示
  • 由于资源限制,博客只完成了训练的前 250 步,但意识到差距的修复方法 TIS 已经显著提升了性能
  • 由于这两个运行之间唯一的区别是引入的项,即 \(\min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}, C \right)\),这一改进展示了分布差距的潜在影响

How well can TIS fix it?(TIS 能修复多少?)

  • 博客设计了一个受控实验来衡量 TIS 修复问题的效果
    • 按照 verl 教程中的 GSM8K 示例进行 RL 训练,并使用两种不同的设置:
      • 1)正常 RL 训练:最大 Token 概率差相当小(约 0.4),比之前的设置(在 Qwen-2.5-32B Dense 模型上的 DAPO 为 1.0)要小
      • 2)使用 INT8 量化 rollouts 而非 bf16 rollouts 的 RL 训练:最大 Token 概率差相当大(1.0),比正常 RL 训练大
    • 博客在设置 1 中进行常规 PPO 训练,这“几乎”是 On-policy 的;
    • 在设置 2 中同时进行常规 PPO 训练和带有截断重要性采样的 PPO 训练,其生成 rollout 和梯度计算有更大的差距
  • 如图 2 所示
    • 与设置 1 中的 PPO 相比,在设置 2 中执行 PPO 会导致显著的性能下降
    • 同时,应用截断重要性采样成功地大大缓解了差距,有效地使设置 2 的运行达到了与设置 1 相似的性能
    • 更多分析在下面的 TIS 分析 部分提供
  • 图 2:
    • 左图:Token-level 概率差异
    • 右图:在 GSM8K 上正常 RL 训练和使用 INT8 量化 rollouts 的 RL 训练的性能比较
    • 实验在 Qwen2.5-0.5B Dense 模型上进行,使用一个节点(4 张 A6000 GPU)

Does TIS always help?

  • 图 3:
    • 左图:由不匹配问题带来的 Token 概率差异
    • 右图:正常 RL 训练与修复不匹配问题后的性能比较
    • 实验在 DeepSeek-R1-Distill-Qwen-1.5B 模型上进行,使用 4 个节点,每个节点 8 张 H100 GPU
    • 在这种情况下,不匹配并不大,因为博客在两次运行中都使用了标准的 bfloat16 rollout 并且模型相对较小
  • 博客还观察到,在概率差异相对较小的情况下,引入额外的截断重要性采样项不能带来性能提升
  • 同时,值得一提的是,在严格的 On-policy 强化学习设置中,重要性采样权重比项的值将为 1.0

TIS Analysis

Analysis about different TIS-Variants

  • 博客总结了两种缓解分布差距的替代方案
  • PPO 重要性采样 (PPO Importance Sampling, PPO-IS)
    $$
    \small{ \mathbb{E}_{a\sim\color{red}{\pi_{\mathrm{sampler}}}(\theta_{\mathrm{old}})}\Bigl[\nabla_{\theta}\min\Bigl( \frac{\color{blue}{\pi_{\mathrm{learner}}}(a, \theta)}{\color{red}{\pi_{\mathrm{sampler}}}(a, \theta_{\mathrm{old}})}\hat{A}, \mathrm{clip}\Bigl( \frac{\color{blue}{\pi_{\mathrm{learner}}}(a, \theta)}{\color{red}{\pi_{\mathrm{sampler}}}(a, \theta_{\mathrm{old}})}, 1-\epsilon, 1+\epsilon \Bigr)\hat{A}\Bigr)\Bigr]}
    $$
    • 注意:Colossal 框架使用此实现
    • 理解:这个方法中不再重新使用 FSDP 引擎(用 \(\pi_\text{old}\))对 之前 rollout 的结果进行重新计算概率
      • 注:之前 rollout 的结果是 vLLM 引擎用 \(\pi_\text{old}\) 采样得到的
  • 原始重要性采样 (Vanilla Importance Sampling, vanilla-IS)
    $$
    \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }}(\theta_{old})} \left[ \underbrace{\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}}_{\text{importance ratio}} \cdot \nabla_{\theta} \min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})} \hat{A}, \text{ clip} \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}, 1 - \epsilon, 1 + \epsilon \right) \hat{A} \right) \right]
    $$
    • 注意:Memo-RL 使用此实现
    • 理解:这个方法和 TIS 的最大区别是缺少 TIS 中的 Clip 操作
  • 为了评估 TIS 的有效性并理解其设计选择的影响,博客进行了实验,将 TIS 与上述两种变体进行比较
    • TIS 始终优于这两种变体,尤其是在差距较大的情况下(例如 FP8/INT8)
  • 图 4:
    • 博客在 Qwen2.5-0.5B 和 GSM8K 上消融了不同的 rollout-training 不匹配缓解策略
    • 注意 PPO-IS 和 Vanilla-IS 在 INT8 rollouts 下准确率接近 0,因此高度重叠
    • 博客还在右侧绘制了 vLLM 采样分布与 FSDP 分布之间的 KL 散度
附录:为什么这里的两种变体(PPO-IS 和 vanilla-IS)会导致训练不稳定?(Why the two variants (PPO-IS and vanilla-IS) here gives unstable training?)
Vanilla-IS v.s. TIS
  • 关于 vanilla-IS,不稳定性主要来自于 rollout \(a \sim \color{red}{\pi_{\text{sampler} }}(a, \theta_{old})\) 以低概率采样的情况,因此重要性权重比很大,通过 \(\left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})} \right)^2\) 放大了梯度方差
    • 问题:\(\left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})} \right)^2\) 是怎么来的?
    • 回答:应该是想表达 当 rollout \(a \sim \color{red}{\pi_{\text{sampler} }}(a, \theta_{old})\) 以低概率采样时,\(\left( \frac{1}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})} \right)^2\) 放大了方差吧;
      • 这里的表达应该是假设了 \(\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})\) 和 \(\color{blue}{\pi_{\text{learner} }}(a, \theta)\) 近似相等
  • 因此,博客在截断重要性采样中使用 clamp 操作来稳定训练
  • 例如,当权重比 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}\) 对于某个 Token 达到 16 时,通过 Vanilla-IS 该 Token 的梯度噪声将被放大 256 倍,通过 TIS-2 放大 4 倍,或通过 TIS-8 放大 64 倍
PPO-IS v.s. TIS
  • 自从作者的博客发布以来,很多人问博客为什么不直接将重要性采样纳入 PPO(即上面的 PPO-IS 变体)
    • 作者表示“坦率地说,博客一开始就像 PPO-IS 那样直接更改 PPO 的 clip,但在博客的实验设置中效果不佳”
    • 至于根本原因,通过执行 PPO-IS,梯度实际上仍然与 On-policy 版本的 PPO 存在偏差
    • 换句话说,尽管它可能仍然朝着无偏的目标进行优化,但与 PPO 相比可能效果较差
  • 此外,作者指出 PPO 信任区域技术的提出是为了限制 rollout \(\theta_{old}\) 和当前模型 \(\theta\) 之间的概率比接近 1 ,以近似 On-policy REINFORCE 梯度
    • 然而在 PPO-IS 中,即使当 \(\theta = \theta_{old}\) 时,由于不匹配,概率比 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}\) 已经不等于 1
      • 这使得裁剪很有可能发生,并且训练的信息量大大减少
    • 此外,在博客的 TIS 方法中,博客分别裁剪 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}\) 和 \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}\),因此要温和得多;
      • 注意当 \(\theta = \theta_{old}\) 时, \(\frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}\) 等于 1,这适合于信任区域约束

From Ill-conditioned to Benign(恶性到良性)

  • 除了 rollout 加速之外,rollout 量化也是检验 rollout 生成和梯度计算之间分布差距影响的有效测试平台
  • 博客证明了
    • 1)当不解决这种差距时,使用量化 rollouts 的 RL 训练表现出在其他场景中常见的典型不稳定性
    • 2)引入 TIS 项使 RL 训练变得稳定和良性

Entropy Collapse and Abnormal Response Length(熵崩溃和异常响应长度)

  • 许多先前的工作表明,在大语言模型中进行 RL 训练会导致熵崩溃
    • Token-level 分类分布接近 one-hot 分布,从而有效地限制了 RL 训练的探索
  • 博客的 INT8 rollout 实验揭示了严重的熵崩溃
    • 图 5 显示熵降至 0.2 以下并在整个训练过程中持续下降
  • 博客还观察到了异常长的响应生成
    • 这是 RL 训练中的另一种失败模式
  • 引入 TIS 项逆转了这一趋势,使模型能够以稳定和良性的方式进行训练
  • 图 5:DAPO-Qwen2.5-32B INT8 训练表现出各种不稳定性,并通过引入截断重要性采样成功稳定
  • 相比之下,BF16 rollout 实验没有显示出严重的熵崩溃
    • 尽管如此,TIS 项仍然增加了熵值
    • 与 INT8 rollouts 相比,分布差距较小,响应长度保持在合理范围内
  • 图 6:DAPO-Qwen2.5-32B BF16 训练表现出各种不稳定性,并可以通过引入的截断重要性采样成功稳定
  • 个人观察 & 理解:从图 6 中第一个图可以看到,熵是先降低后增加的

On the Impact of Distribution Gap: A Case Study on KL Estimation

  • \(\text{KL}(\color{blue}{\pi_{\text{old} }^{\text{fsdp}} } | \color{blue}{\pi^{\text{fsdp} }})\) 的一个无偏 KL 估计器是 \(k_1\) 估计器
    $$\log \color{blue}{\pi_{\text{old} }^{\text{fsdp}} }(a) - \log \color{blue}{\color{blue}{\pi^{\text{fsdp} }}}(a) $$
    • 其中 \(a \sim \color{blue}{\pi_{\text{old} }^{\text{fsdp}} }(a)\)
  • 然而,现代 RL 训练框架从 \(\color{red}{\pi_{\text{old} }^{\text{vllm} }}\) 生成 rollouts,而不是从 \(\color{blue}{\pi_{\text{old} }^{\text{fsdp}} }\),这给 KL 估计引入了偏差,类似于前面讨论的梯度估计偏差
  • 因此,博客可以使用 KL 估计作为案例研究来探索 \(\color{blue}{\pi_{\text{old} }^{\text{fsdp}} }\) 和 \(\color{red}{\pi_{\text{old} }^{\text{vllm} }}\) 之间不匹配的影响
    • 在无任何偏差的情况下,根据定义 KL 散度是非负的
    • 然而,INT8 rollouts 中显著的分布不匹配导致有偏的 \(k_1\) 估计器频繁产生负值,如图 5 所示
      • 理解:图 5 第 2 个图所示
    • 这些负的 KL 估计值标志着训练动态处于病态
  • 当 TIS 被纳入 RL 训练时,相同的 \(k_1\) 估计器(虽然仍然受到底层分布不匹配的影响)在大部分训练过程中保持正值
    • 这种预期符号的保持表明 TIS 成功恢复了良性的训练行为

Biased Reward in Training Log

  • 集成 TIS 的一个有趣现象是,它可能导致更差的奖励日志记录,同时带来更好的下游性能
    • 这是因为 \(\color{red}{\pi_{\text{sampler} }}\) 和 \(\color{blue}{\pi_{\text{learner} }}\) 之间的差距不仅给梯度估计引入了偏差,也给日志记录中的奖励估计引入了偏差
    • 记录的奖励来自 rollout 策略,即 \(\mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }} } [R]\) 而不是 \(\mathbb{E}_{a \sim \color{blue}{\pi_{\text{learner} }} } [R]\)
    • 如图 6(右侧两个子图)所示,记录的奖励指标显示 BF16-Rollout 优于 BF16-Rollout w. TIS
    • 然而,如果查看下游的 AIME 准确率性能,BF16-Rollout w. TIS 显著优于原始的 BF16-Rollout
  • 问题:rollout 策略来自 \(\mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }} } [R]\) 而不是 \(\mathbb{E}_{a \sim \color{blue}{\pi_{\text{learner} }} } [R]\) 影响这么大吗?

Intuitions of TIS’s Working Mechanism

  • 虽然 TIS 的确切机制仍然是一个 Open Question,但博客提供了关于 TIS 如何缓解分布差距的高层直觉
  • 忽略具有 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 的 rollouts 的偏差(注:这里是指忽略偏差不行)可能通过以下机制导致熵崩溃:
    • 对于具有负优势的 rollouts,策略梯度倾向于减少 \(\color{blue}{\pi_{\text{learner} }}\)
    • 当参数更新后存在大的分布差距时,\(\color{blue}{\pi_{\text{learner} }}\) 的减少可能不会反映在 \(\color{red}{\pi_{\text{sampler} }}\) 中
      • 理解:这里是因为两层 diff 导致,第一层是策略本身是 Off-policy 的,第二层是使用的引擎是 vLLM
    • 因此,策略梯度继续指向进一步减少 \(\color{blue}{\pi_{\text{learner} }}\) 的方向
      • 问题:此时确实会导致 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\),这里是想强调什么呢?
      • 理解:这里是想强调这种偏差的存在,使用 TIS 修正以后,可以抵消这种偏差
    • 直观地说,这种惩罚可能迫使模型过度 commit 于一个具有小熵的输出分布
      • 问题:如何理解这里会过度提交于一个小熵的输出分布?
        • 进一步减少 \(\color{blue}{\pi_{\text{learner} }}\) 不一定指向更小的熵吧?
        • 理解:过度更新可能导致模型向不确定的方向更新,不一定是熵减少或增加
      • 其他理解1:持续减少一些动作的概率确实可能加速这些动作概率的降低,从而促进某些其他动作概率的增加,也就意味着熵会减少
      • 其他理解2:一个动作因为过度打压导致动作概率降低以后,后续被采样到的概率也降低了,很难被修正了
  • TIS 坚持对 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 使用非截断的重要性权重比
    • 从而消除了这部分 rollouts 的偏差,并打破了这一机制
    • 注意:这里 TIS 的截断是单向的,使用的是 \(\min\) 来作为截断,只有当 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} > 1\) 时才会截断
    • 问题:为什么 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} > 1\) 时需要截断?
      • 如上所述,\(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 时应该不要截断以修正偏差
      • 当 \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} > 1\) 时,很如果不截断,方差太大了(因为分母太小就容易出现数倍差异的情况),导致梯度波动太大
        • \(\frac{\color{blue}{\pi_{\text{learner} }}(a_{t}, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a_{t}, \theta_{old})} < 1\) 时这个值最多在 \([0, 1)\) 之间
        • 实际上,这也是可以截断的,作者在新的博客中已经给出一些结论了,下界也可以加以限制 (IcePop)Small Leak Can Sink a Great Ship—Boost RL Training on MoE with IcePop!, 20250919, AntGroup

Rollout-Training Mismatch Analysis

  • 博客进行了一系列受控实验,以识别引入或放大 rollout 生成和梯度计算之间差异的因素
  • 博客发现并行策略的差异和长响应长度导致了不匹配,而仅 Sampler 后端的选择影响有限

Analysis Setup

Model & Data
  • 博客使用两个代表性模型进行实验(使用 DAPO 配方训练的 DAPO-32B 和 使用 Polaris RL 配方训练的 Polaris-7B)
  • 对于评估,博客使用 DAPO-Math-T2k 数据集的前 512 个提示来评估 Sampler 和 Learner 输出之间的差异指标
  • 博客使用两个指标测量响应级别的 Mismatch :
    • 每个响应的 Max Mismatch :
      $$ \max_{a \in \text{response}} |p_\text{sampler}(a) - p_\text{learner}(a)|$$
    • 每个响应的平均 Mismatch :
      $$
      \frac{1}{|\text{response}|} \sum_{a \in \text{response} } |p_{\text{sample} }(a) - p_{\text{learner} }(a)|
      $$
    • 这些指标使博客能够捕捉到最坏情况的 Token 差异以及响应内的平均差异水平
    • 博客在不同设置下为相同提示的响应计算它们,以隔离特定因素的影响
Visualization(可视化)
  • 博客使用右侧显示的可视化格式呈现这两个指标
    • 这是一个用于解释图的说明性示例

Larger Parallelism Difference, Larger Max Gap(并行性差异越大,Max Gap 越大 )

  • 博客观察到 Sampler 和 Learner 之间的并行性差异对 Max Mismatch 指标有显著贡献
  • 理解:这里是说因为 Sampler 和 Learner 是部署在不同的引擎上的,所以各种并行方式也可能不同
Simplest Setting
  • 使用 DAPO-32B 模型,博客从最简单的配置开始:
    • Sampler 在 vLLM 上以 TP1 运行, Learner 使用 FSDP 以 SP1 运行
  • 由于 Sampler 和 Learner 具有相同的并行设置,博客称之为相同并行性(Same Parallelism),其分布差距归因于并行性差异之外的因素
  • 问题 :为什么说这里「Sampler 在 vLLM 上以 TP1 运行, Learner 使用 FSDP 以 SP1 运行」是相同的并行设置?
  • 回答 :先澄清几个缩写:
    • TP1 = Tensor Parallelism degree 1
    • SP1 =(在 FSDP 语境里)Shard/Shard-Parallelism degree 1,也就是把模型参数完整地放到一张卡上,不做任何分片
    • 在两种框架里,“degree=1” 都意味着:
      • 1)整个模型权重 不拆、不复制到多张卡;
      • 2)一张 GPU 就能装下全部参数;
      • 3)不需要任何跨卡通信来维护参数一致性。
    • 因此,虽然一个叫 TP、一个叫 SP,但它们的“并行粒度”相同(都是“单卡单副本”)
      • 既然两边都只做 degree=1,就称它们为 Same Parallelism
Adding Tensor Parallelism
  • 为了研究 TP 差异的影响,博客将 Sampler 从 TP1 改为 TP2,同时保持 Learner 在 SP1(Different TP)
  • 如图 7 左图所示,随着并行性差异的增加,具有高 Max Mismatch(> 0.5)的响应数量增加
  • 相同并行性情况仅产生一个这样的响应,而不同 TP 将其增加到两个
  • 图 7:相同一组提示在不同并行性下的 Max Mismatch
  • 问题:为什么图 7 的第 1 和第 2 两张图中的 Different TP 显示的分布结果不一致?
Adding Sequence Parallelism
  • 为了研究 Ulysses 序列并行差异的影响,博客将 Learner 从 SP1 改为 SP8(不同 TP 和 SP)
  • 如图 7 中图所示,额外的 SP 差异将高 Max Mismatch 的数量从两个增加到两位数
Disentangling Parallelism and Sharding(解耦)
  • 如图 8 左下图所示,对于相似的分布式世界大小(例如 8 个设备),在 Learner 中使用张量并行(TP8)与 TP2 Sampler 产生的 Mismatch ,比在使用序列并行(SP8)的 Learner 与 TP2 Sampler 产生的 Mismatch 要小
  • 博客假设这是因为 TP8 Learner 与 TP2 Sampler 之间的实现差异,比 SP8 Learner 与 TP2 Sampler 之间的实现差异要小
    • 这强化了博客的发现:最小化 Sampler 和 Learner 之间的并行性差异能持续减小差距
  • 然后,博客测量了在 Learner 和 Sampler 中使用相同张量并行时的 Max Mismatch ,记为相同并行性(TP2)和相同并行性(TP4)
    • 与最简单设置不同,这两种配置在多个设备上共享模型计算,因此更具可扩展性
    • 如图 8 中图和右图所示,相同并行性(TP2)和相同并行性(TP4)只有少量响应具有高 Max Mismatch (> 0.5)
      • 这表明在 Sampler 和 Learner 中使用相同的方式分片模型有助于减少 Mismatch ,应该是更可取的
  • 图 8:相同一组提示在各种并行性下的 Max Mismatch
Mean Mismatch and KL
  • 尽管博客在 Max Mismatch 上观察到一致的模式,但值得一提的是,博客没有在这些配置的平均 Mismatch/KL 散度上观察到任何显著差异

Longer Response, Larger Max Gap(响应越长,Max Gap 越大)

  • 博客的实验一致表明,生成长度越长的序列会导致越大的 Max Mismatch ,而平均 Mismatch 受影响较小
    • 注意:这里的 平均 Mismatch 并不是按照 Token 做归一化的!
  • 博客使用 DAPO-32B 和 Polaris-7B 模型消融了序列长度的影响
  • 图 9:
    • 左图:不同响应长度的 Max Mismatch
    • 右图:不同响应长度的平均 Mismatch
    • 注:棕色表示 DAPO-32B;紫色表示 Polaris-7B 的结果
  • 如图 9 所示
    • 限制为 20K Token 的响应比限制为 4K Token 的响应表现出更高的 Max Mismatch
    • 相比之下,平均 Mismatch 在两种设置下保持相似
    • 这表明较长的序列为单个大的概率差异提供了更多机会,即使每个 Token 的平均差异保持稳定
  • 为了验证这种效应是由序列长度驱动的,而不是生成的 Token 总数,博客进行了一个对照实验,比较单批 20K-Token 响应与多批(5 个)独立的 4K-Token 响应(针对同一组提示)
  • 图 10:
    • 左图:在相似 Token 数量下,不同响应长度的 Max Mismatch
    • 右图:不同长度响应的 Max Mismatch
    • 注:棕色表示 DAPO-32B;紫色表示 Polaris-7B 的结果
  • 如图 10 左图所示
    • 生成多个较短响应(5×4K)与单个 4K-Token 响应相比,仅导致 Max Mismatch 适度增加
    • 但一个连续的 20K-Token 响应产生的 Mismatch 比两者都要大得多
    • 这证实了差异由于序列的连续长度而加剧
  • 有趣的是,博客观察到 Mismatch 随着生成的进行而累积:
    • 一个 20K-Token 响应中仅前 4K Token 内的 Max Mismatch ,常常超过一个独立的 4K-Token 响应的 Max Mismatch
    • 这表明 Sampler 和 Learner 的内部状态在长生成上下文中越来越发散

Altering Sampler Alone, Gap Still There(仅改变 Sampler 时,差距仍然存在)

  • 最后,博客研究了 Sampler 后端本身的选择是否是导致 Mismatch 的主要因素
  • 博客比较了 Sampler 的三种配置:
    • 1)vLLM
    • 2)SGLang
    • 3)启用确定性内核的 SGLang
  • 结果表明,仅 Sampler 后端本身没有决定性影响
    • 对于 DAPO-32B 模型,SGLang 产生较小的平均 Mismatch ,而对于 Polaris-7B 模型,vLLM 表现更好(即 vLLM 的平均 Mismatch 更小)
    • 因此,没有单一的 Sampler 后端在所有不同设置中 consistently 占主导地位
  • 图 11:
    • 左图:不同 Sampler 后端的 Max Mismatch
    • 右图:不同 Sampler 后端的平均 Mismatch
    • 注:棕色表示 DAPO-32B;紫色表示 Polaris-7B 的结果
  • 值得注意的是,在没有对齐训练配置的情况下,在 SGLang 中启用确定性采样并没有明显减小差距
    • 这表明 Mismatch 主要源于更深层次的实现差异(例如并行性或数值精度),而不是仅仅来自随机采样

What’s More

  • 还有其他维度可能影响 rollout-training 不匹配,包括 模型类型(例如,Dense vs. MoE,Based vs. Post-trained),提示 数据特征(例如,难度,领域),GPU 硬件 ,以及训练 后端(backend) 的选择
  • 例如,博客相对一致地发现,规模相当(32B 和 30B)的 Dense 模型和 MoE 模型表现出不同程度的 Mismatch ,并且基础模型的 rollout-training Mismatch 比它们的后训练对应物要小
  • 博客正在持续努力,以更深入地理解并更好地利用 rollout-training 不匹配,用于实际的大语言模型后训练。敬请期待!

Discussion

  • 博客特别讨论了博客的修复方法(截断重要性采样,TIS)对 MoE 架构强化学习的潜在影响
  • 博客还强调了 TIS 与最近旨在改进策略更新中重要性采样权重比的工作(例如 GSPO, GMPO)的联系

The gap can be amplified in MoE RL(Gap 在 MoE 强化学习中可能被放大)

  • 虽然博客当前的实验和分析主要集中在 Dense 模型上,但博客相信这种分布差距也存在于 MoE 强化学习中,并且可能更加严重
  • 主要有两个原因:
    • 动态路由:
      • 与 Dense 模型不同,MoE 利用路由器动态激活特定专家
      • 这种路由机制本质上是精度敏感的;即使轻微的数值差异也可能导致显著不同的专家激活
    • 专门优化的内核:
      • MoE 模型通常规模很大,现代推理引擎(例如 vLLM)对 MoE 模型有相比于 Dense 模型独特的优化,这使得后端的数值不一致性更大
  • 总之,这些特性可以显著放大分布不匹配,使得像 TIS 这样的解决方案在 MoE 强化学习中特别有价值

TIS is orthogonal and compatible with existing GxPOs(TIS 与现有的 GxPOs 正交且兼容)

  • 最近的工作通过革新重要性采样权重比的计算来提高策略更新的稳定性
  • 例如,GSPO 在 Sequence-level 别而不是 Token-level 别计算权重比,而 GMPO 计算几何平均值而不是算术平均值
  • 与这些工作正交的是,博客的 TIS 修复解决了根源于系统级别的分布不匹配问题,这是由在 rollout 生成和模型训练中使用的不同计算内核带来的。这种问题广泛存在于采用混合计算设计的强化学习训练框架中
  • 因此,博客的修复可以应用,而不论所使用的具体强化学习算法如何

附录:为什么 TIS 截断是单向的?

  • 详情参见 Intuitions of TIS’s Working Mechanism 小节的讨论

NLP——LLM对齐微调-Self-Rewarding-RubricRL

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Self-Rewarding-RubricRL) Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning, 20250919, Ant Group

Paper Summary

  • 整体说明:
    • 论文介绍了一种轻量级的训练范式 用于开放域推理的 Rubric-based RL Self-rewarding 强化学习(Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning) ,在基于 Rubric 验证的奖励下,用策略模型本身替代了单独的奖励模型
      • 这种方法在降低训练成本的同时,提升了在困难任务上的性能
    • 核心创新点:自己作为自己的 Grader,不断“互相”进化(循环进化)
    • 注意:这项工作的实验仅限于医疗领域的 HealthBench
      • 作者相信该方法对其他开放域任务也会有效,未来的工作应探索更广泛的领域
    • 阅读问题:
      • 在数据分析阶段,全文包含了许多图片和文字描述不一致的情况!深究下去比较浪费时间,不建议深究,仅关注论文的核心贡献是 Self-Rewarding 即可
  • 背景 & 问题:
    • 开放式评估对于在现实世界场景中部署大语言模型至关重要
    • 在研究 HealthBench 时,作者观察到使用模型自身作为 Grader 并生成 Rubric-based 奖励信号,能显著提高推理性能(训练后的模型也会成为更强的 Grader )
  • Motivated by this,论文提出了 Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning
    • 一个轻量级框架,能够实现更快、更高效的资源利用训练,同时超越 Baseline 方法
    • 在 Qwen3-32B 模型上,仅使用 4000 个样本的 HealthBench Easy 子集进行训练,就足以获得一个在 HealthBench Hard 上性能超过 GPT-5 的模型
    • 加入少量由教师(Teacher)评分的数据可以进一步提升能力较弱模型的性能

Introduction and Discussion

  • 随着 OpenAI o1 (2024) 的发布和 DeepSeek R1 (2025) 的开源,基于 RLVR 的推理模型已迅速成为社区关注的焦点,为大型语言模型引入了第二个可扩展性维度
  • 早期的研究主要集中在提升数学和编码能力,而最近的开源模型如 Kimi K2 (2025) 和 GLM-4.5 (2025) 则将注意力转向训练智能体能力
    • 与开放式(Open-Ended)推理相比,这些场景下的奖励信号相对明确
  • 在实际应用中,用户通过多轮对话与模型交互,并提出开放式问题,这与基准测试类型的任务有很大不同
    • 因此,用于评估和强化学习的可靠奖励信号要难以获取得多
  • 这一挑战在医疗保健领域(healthcare domain)尤为突出(Particularly pronounced) ,因为用户期望获得值得信赖且可靠的回答
    • 为解决此问题,OpenAI 引入了一个名为 HealthBench (2025) 的开源基准
      • HealthBench 是一个基于对话的开放式评估基准,旨在评估语言模型在医学领域的能力
      • HealthBench 采用 LLM-as-a-Judge (2023) 框架,并使用基于详细 Rubric 的评分系统,针对特定任务的标准来评估模型性能
  • 为应对这一挑战,论文专注于 HealthBench 基准测试,并提出Self-rewarding Rubric-based 的开放式推理强化学习 ,
    • 该方法直接利用 Rubric-based 评估信号进行训练,并整合了模型的自我评分(self-grading)
  • 论文的方法显著降低了资源消耗,提高了训练效率,同时提升了性能

Background and Preliminary Experiments

Background on Open-Ended Evaluation

  • 自从将 RLVR 引入训练以来,LLMs 在具有客观可验证事实依据的任务上取得了显著进步,例如:
    • 数学领域的 AIME 和 FrontierMath (2025);
    • 编码领域的 SWE-bench (2024) 和 Aider Polyglot (2025);
    • 用于指令遵循或工具使用的 BrowseComp (2025) 和 Tau2-bench (2025)
    • 这展示了强大的推理时 Scaling 能力(inference-time scaling capabilities.)
    • 这些进步主要归因于在强化训练期间,此类任务中存在定义明确的奖励信号
  • By Contrast,针对大语言模型的开放式评估基准相对较少
    • 代表性的例子包括 LMSYS Chatbot Arena (2023)、 MT-Bench (2023) 和 AlpacaEval (2023),但这些基准通常依赖于 LLMs 或人类专家作为 Grader ,这带来了潜在的偏见和可扩展性问题
  • HealthBench 是一个医学领域的开放式评估基准,包含 5000 个对话实例,其模型回答根据 Task-specific Rubric 进行评估,论文主要关注 HealthBench ,原因如下:
    • HealthBench 的基准数据由具有临床实践经验的医师标注,确保了正确性和领域专业知识,因此与 LMSYS Chatbot Arena (2025) 相比减少了偏见
    • HealthBench 包含一个由 1000 个问题组成的 HealthBench Hard 子集,前沿模型在该子集上的得分尚未超过 50% ,这使其适合研究开放式回答中的推理
    • HealthBench 提供了一个元评估(在论文中称为 HealthBench Meta ),该评估使用宏观 F1 分数来量化 LLM Grader 与人类医师之间的差异

Meta Evaluation of Open-Source Models on HealthBench

  • HealthBench 依赖闭源模型 GPT-4.1 进行评分,这对评估的可重复性和训练的可行性提出了挑战
    • 因此,论文使用不同规模的开源模型进行 HealthBench 评估
    • 论文使用 simple-evals 进行评估,采样参数详见附录 A.1
  • 如图 2 所示,虽然 GPT-4.1 仍然是最强的 Grader (0.709),但开源模型正在逐步追赶
    • 例如 Kimi-K2-Instruct (0.693) 和 Qwen3-235B-Instruct-2507 (0.681),并且呈现出模型越大得分越高的趋势
    • Notably,对于 Qwen3 的混合推理模型,无思考模式(nothink mode)的得分低于思考模式(think mode)
      • 这种性能下降在 MoE 模型中尤为明显,Qwen3-235B-A22B 下降了 0.055
      • 理解:
        • 图 2 中,nothink/think 是在同一个图上的, 模型也相同,只是灵活取消了 think 作为 nothink
        • 这里的 nothink 主要是只同一个模型既可以 think 又可以不 think 时的 nothink 选项;与传统的 nonthinking 模型不完全一致
  • 论文还测试了 Qwen3-32B 在不同采样温度下的评分能力,如表 2 所示
    • 结果表明,Qwen3-32B 在评分能力上对采样温度不敏感,得分在 0.670 左右波动
    • 理解:这里给了个很好的实例,调整模型的采样温度实际上不一定影响很大(表 2 中从 0.0 到 1.0 都试了,分数几乎没有太大变化)
  • Furthermore,论文使用 GPT-4.1、Kimi-K2-Instruct 和 Qwen3-32B 自身分别作为 Grader ,以思考模式评估 Qwen3-32B 作为采样模型
    • 如表 1 所示,随着 Grader 能力的增强,Qwen3-32B 在 HealthBench Hard 上的得分降低,这表明较弱的 Grader 往往会由于评估错误而给出更高的分数

Preliminary Experiments

  • 论文进行了初步实验,以研究使用开源模型作为 Grader 来训练开放式推理任务的可行性
  • 除非另有说明(Unless otherwise specified),后续章节中的实验训练数据和参数均与本节介绍的一致
Models and Datasets
  • 如图 2 和表 1 所示,Qwen3-32B 是一个合理的选择
  • 在后续的 Self-rewarding 实验中,论文验证了即使是较弱的 Qwen3-8B 也能取得良好的性能
  • 对于训练数据,论文将其分为两类:
    • 一类是基准和合成数据,其中每个 Prompt 都附带 Rubric 及其对应的分数;
    • 另一类是论文收集的 GPT-4.1 评分数据,用于判断特定 Response 是否满足特定 Rubric
  • 在整篇论文中,论文使用以下数据集术语:
    • Easy data :4000 个 HealthBench Easy 样本,除非另有说明,否则用于训练
    • Synthetic data :4000 个与 Easy 数据类似的合成生成样本
    • Scoring data :1000 个论文从先前评估中收集的 GPT-4.1 评分样本
    • Mixed data :Easy 数据和 Scoring 数据的组合,总计 5000 个样本
  • 在本节中,论文主要使用 Easy 数据进行训练,并在 HealthBench Hard 的 1000 个问题上评估模型的推理能力
    • 在后续的 Self-rewarding 实验中,论文也使用合成数据进行训练,但这并非论文重点

Training Details

  • SFT :
    • 由于 HealthBench 为大多数样本提供了理想的完成结果,论文首先在 Easy 数据集上进行 SFT。论文使用批大小为 64,学习率为 1e-5,序列长度为 4096,训练 3 个轮次
  • RL :
    • 论文使用 GRPO 算法,并采用 DAPO 的大部分参数
    • 论文通过 verl 实现,最大 Prompt 长度为 2048 个 token,最大 Response 长度为 6144 个 token,训练 Prompt 批大小为 32,每个 Prompt 生成 4 个 Response,训练 10 个轮次
      • 其他详细参数在附录 A.3 中提供
    • 论文使用生成式奖励模型(generative reward model,GRM)来评判每个 Rubric 是否被满足并相应赋分 ,奖励计算详见第 3.4.1 节
      • 本节实验中,GRM 是处于思考模式的静态 Qwen3-32B 模型
Reward Formulation for Reinforcement Learning
  • RL 的训练目标与 DAPO 类似,采用 clip-higher 策略、token 级别的梯度损失,并省略了 KL 惩罚项,其目标函数如下:
    $$
    \mathcal{J}(\theta)= \mathbb{E}_{(q,\mathcal{R})\sim\mathcal{D},\{o_{i}\}_{i=1}^{G} \sim\pi_{\theta_{\text{old} } }(\cdot|q)}
    \left[\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min \left(w_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(w_{i,t}(\theta), 1-\varepsilon_{\text{low} },1+\varepsilon_{\text{high} }\right)\hat{A}_{i,t}\right)\right] \tag{1}
    $$
    • \(\pi_{\theta}\) 是语言模型
    • \(q\) 是从 Prompt 集 \(\mathcal{D}\) 中采样的 Prompt
    • \(\mathcal{R}\) 是 \(q\) 对应的特定 Rubric 集
    • 每个 Prompt 生成 \(G\) 个样本的组
    • \(w_{i,t}=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,< t})}{\pi_{\theta_{\text{old} } }(o_{i,t}|q,o_{i,< t})}\) 是重要性采样比率
  • Importantly,优势估计通过下式进行:
    $$
    \hat{A}_{i,t}=\frac{S_{i}-\text{mean}(\{S_{i}\}_{i=1}^{G})}{\text{std}(\{S_{i}\}_{i=1}^{G})} \tag{2}
    $$
    • 其中 \(S_{i}\) 是组中第 \(i\) 个样本的奖励分数
  • 对于每个样本,奖励分数 \(S\) 的计算方法是:
    • 对满足的每个 Rubric \(r_i \in \mathcal{R}\) ,由 \(\color{red}{\pi_{\theta_{\text{old} } } }\) 以生成方式进行判断(Prompt 模板与 HealthBench 相同),并赋予分数点 \(p_i\),将所有赋分累加,然后除以可能的总正分数点,最后将分数裁剪到 [0, 1] 范围
      $$
      S=\frac{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(\color{red}{\pi_{\theta_{\text{old} } }}(r_{i}\text{ criteria_met}))}{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(p_{i}>0)} \tag{3}
      $$
      • 特别注意:这里使用的 Rubric Verifier 是策略自身,即 \(\color{red}{\pi_{\theta_{\text{old} } } }\)
  • 这种方法与先前工作有两点主要不同:
    • 1)它使用针对任务的大量且多样化的特定 Rubric ,而非通用原则(rather than general principles);
    • 2)每个 Rubric 由 GRM 独立评分,提供了清晰、细粒度的(fine-grained)奖励信号
    • 奖励过程受原始 HealthBench 评估协议的启发
Preliminary Results
SFT degrades open-ended reasoning without chain-of-thought(不包含思维链的 SFT 会降低开放式推理能力)
  • 论文观察到,虽然训练损失持续下降,但验证损失在一个轮次后迅速增加,如图 8 所示(附录 A.2)
  • 使用 Kimi-K2-Instruct 作为 Grader ,论文发现 SFT 模型在 HealthBench Hard 上的得分,在验证损失最低的检查点(200 步后),从基础模型的 0.1988 下降到 0.0004,两者均在无思考模式下评估
    • 注意:0.1988 下降到 0.0004 这个分数在 图 8 中没有找到,是其他地方显示的吗?
  • 这一发现与之前的研究 (2024, 2025) 一致,特别是当 SFT 中未包含思维链推理时,模型即使在分布内的挑战性问题上也未能泛化
RL consistently enhances model performance even with limited data(数据有限的情况下,RL 也能持续提升模型性能)
  • 如图 3 所示,训练期间模型的 Response 长度自发增加,奖励持续提升直至达到最大 Response 长度
  • Simultaneously,在 HealthBench Hard 评估中,模型性能持续提升,最终达到 0.446,显著超过 OpenAI o3 的 0.32 分,如图 4 所示
  • 论文观察到,虽然使用 Kimi-K2-Instruct 或 Qwen3-32B 作为 Grader 会得到更高的分数,但趋势保持一致
  • 因此,在后续实验中,论文主要使用开源模型作为 Grader 以降低 API 成本
  • 问题:这里的 RL 训练趋势中,Kimi-K2-Instruct 和 Qwen3-32B 的效果比 GPT4.1 还好,跟前面表 1 中(原始模型能力)的结论看起来不一致,是不是有问题?
Grading ability preserves after RL training
  • 论文评估了 RL 后模型的 HealthBench Meta 分数,发现思考和无思考模式的分数均有轻微提升,如表 3 所示
  • 这一观察结果自然引导论文考虑使用模型自身作为强化学习的 Grader

Method

  • 第 3.3 节验证了使用 Rubric-based RL 奖励来训练开放域推理任务的有效性

  • however,可能存在两个限制:

  • 训练效率瓶颈 (Training Efficiency Bottleneck)

    • 由于在 verl 中实现的 GRPO 采用 on-policy 训练方法,actor 训练必须等待所有样本的奖励计算完成
      • 这极其耗时:
        • 一方面,GRM 评分本身就很慢;
        • 另一方面,每个 Rubric 都需要进行判断,每个样本平均有 11 个 Rubrics,再加上每个样本采样 4 个 Responses
      • 在论文之前的实验中,论文部署了与训练 GPU 数量相同的 SGLang router 服务来进行 GRM 推理
        • 由于性能限制,单步训练时间中大约有 70-80% 消耗在奖励计算上
  • GRM 能力限制 (GRM Capability Constraints)

    • 一个自然的担忧是 GRM 自身的能力可能会限制 RL 训练的效果
    • 出于可扩展性的考虑,作者希望在不依赖比策略模型更大的模型的情况下取得更好的结果
      • 其背后的直觉与 (2024) 类似
  • 根据论文初步实验观察到的模型评分能力在 RL 训练期间没有下降的现象,论文提出了 用于开放域推理的 Rubric-based RL Self-rewarding 强化学习 (Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning) ,如图 1 和算法 1 所示

    • 与原始 GRPO 的关键区别在于,论文通过 Task-specific Rubrics 使奖励信号可验证,并使用模型自身作为奖励模型,在保持有效性的同时大大减少了评分时间
    • 通过使用模型自身作为奖励评估器,这种方法有两个优点:
      • 优点1:减少了训练所需的计算资源
        • 在使用相同数量 GPU 且无需额外推理资源的情况下,单步训练时间最多可减少 30%
      • 优点2:使得训练出的模型能够超越 Baseline 性能
  • 前文公式补充:
    $$
    \mathcal{J}(\theta)= \mathbb{E}_{(q,\mathcal{R})\sim\mathcal{D},\{o_{i}\}_{i=1}^{G} \sim\pi_{\theta_{\text{old} } }(\cdot|q)}
    \left[\frac{1}{\sum_{i=1}^{G}|o_{i}|}\sum_{i=1}^{G}\sum_{t=1}^{|o_{i}|}\min \left(w_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(w_{i,t}(\theta), 1-\varepsilon_{\text{low} },1+\varepsilon_{\text{high} }\right)\hat{A}_{i,t}\right)\right] \tag{1}
    $$

    $$
    \hat{A}_{i,t}=\frac{S_{i}-\text{mean}(\{S_{i}\}_{i=1}^{G})}{\text{std}(\{S_{i}\}_{i=1}^{G})} \tag{2}
    $$

    $$
    S=\frac{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(\color{red}{\pi_{\theta_{\text{old} } }}(r_{i}\text{ criteria_met}))}{\sum_{r_{i}\in\mathcal{R} }p_{i}\cdot\mathbb{I}(p_{i}>0)} \tag{3}
    $$


Results

Self-Rewarding Effectiveness

The model’s scoring ability improves as response length increases(模型的评分能力随着 Response 长度增加而提高)
  • 论文在与第 3.3 节 Baseline 相同的训练设置下,对 Qwen3-32B 进行了 Self-rewarding 实验,使用模型自身作为 Grader (这是一个移动的目标)
    • 注:这里说的 Baseline 是 3.3 节(Preliminary Experiments)中提到的使用开源模型作为 Grader 的方案
  • 由于训练集奖励或验证集分数是由不同的 Grader 评分的,论文无法直接与 Baseline 进行比较,因此论文在图 5a 中提供了 Response 长度的变化过程及其 HealthBench MF1 分数
    • 问题:找一个相同 Grader 来评分不旧好了?
    • 问题:MF1 分数是什么?
      • 回答:HealthBench 的 MF1 分数 是 Macro F1 score(宏 F1,Macro-F1) ,是该医疗评估基准中用于衡量模型分级器(grader)与人类医师评分一致性的核心指标,取值范围为 0 到 1,越接近 1 代表一致性越高,详情见论文附录部分
  • 从图 5 中可以看出:
    • 尽管论文没有显式地训练模型的评分能力,但评分能力并未下降,而是与 Response 长度同步变化,这反过来又提供了更高质量的奖励信号,形成了一个良性循环
      • 理解:其实看起来 MF1 分数的提升很小,累计只有 0.005 左右,其实不能算是看到了持续提升, 更像是持平
    • Especially,图 5a 中的灰色区域表明,与 Baseline 相比,它帮助模型生成了更长的输出
    • Additionally,通过与医生按主题比较 MF1,论文发现模型在大多数主题上都优于原始的 Qwen3-32B;
    • Notably,模型在全球健康和不确定性下响应 (Global Health and Responding Under Uncertainty) 方面超过了医生的加权平均值(见附录 A.4 的图 9)
Once the response length reaches its limit, self-rewarding further enhances the model’s reasoning performance(Response 长度达到限制后, Self-rewarding 能进一步提升推理性能)
  • 论文使用 Qwen3-32B 模型作为 Grader ,在 HealthBench Hard 上评估了实验,结果如图 5b 所示
    • 其中一次 Self-rewarding 运行的评分温度 (grading temperature) 设为 1.0(与 rollout 温度相同),而其他运行则保持建议的 0.6
      • 注:如表 2 所示,温度不应该影响评分性能
  • 最终结果显示所有配置都持续优于 Baseline ,而将评分温度设置为 1.0 时取得了最佳性能
    • 如图 5a 所示, Self-rewarding 比 Baseline 更早达到最大 Response 长度(均在 700-800 步内);
    • 然而,其在图 5b 中显示的 HealthBench Hard 分数持续增加,从而获得了相对于 Baseline 更好的最终结果
    • 理解: Baseline 的配置见 3.3 节(Preliminary Experiments)中提到的使用开源模型作为 Grader 的方案
  • 最后,论文使用 GPT-4.1 作为 Grader 进行了更准确的评估,结果如表 4 所示
    • 论文观察到所有 Self-rewarding 方法都优于 Baseline ,甚至超过了 GPT-5 的性能
  • 此外,论文发现将评分温度设置为与 rollout 温度相匹配会得到更好的结果,这与 Qwen3-32B 评估结果一致,达到了 0.500 的分数
Improvements are observed across most evaluation dimensions
  • 论文分析了不同维度的分数变化,发现在完整性和上下文感知 (context awareness) 方面有显著改善,这对大多数模型来说都具有挑战性
  • 后者尤其要求模型“恰当地响应存在的上下文线索”,需要强大的上下文理解能力
  • 然而,随着输出内容变长,沟通质量 (communication quality) 方面出现了一个负面副作用
    • 即模型的表达变得不够简洁、清晰和易读
    • 这凸显了在开放性问题中需要进行权衡,并表明仍有大量的研究机会
  • 论文比较了原始 Qwen3-32B 模型和 Self-rewarding 模型的分数,发现 82.5% 的样本有所改进
    • 在改进的样本中,与其余样本相比,上下文感知 Rubric 的比例从 20.6% 下降到 17.5%,而沟通质量的比例从 6.0% 增加到 9.1%
    • 相关案例见附录 A.5

Training Efficiency

  • 论文分析了 Self-rewarding 方法相比于 Baseline 方法的训练效率
  • 如表 5 所示,在早期阶段,较短的 average rollouts 使得奖励计算在单步时间中占比较大,而在后期阶段,较长的 rollouts 降低了奖励时间的相对比例
  • Self-rewarding 在单步时间和奖励计算时间上均实现了显著的加速(各阶段均减少约 50%),展示了论文方法的计算优势
  • 请注意, Baseline 训练使用 32 个 GPU 进行训练,另外 32 个 GPU 用于 GRM 推理,而 Self-rewarding 总共只使用 32 个 GPU,所有其他配置保持不变
  • Importantly,观察到的训练效率提升与实现细节密切相关;因此,论文仅报告论文配置下的相对效果

Dataset Influence

Using scoring data further enhances the model’s grading ability(使用评分数据可进一步提升模型的评分能力)
  • 为了进一步评估改进的评分能力如何影响不同规模的训练,论文从前期的 GPT-4.1 评估中构建了一个评分数据集,并使用可验证的奖励目标进行训练
  • 当仅在评分数据上训练时(图 7a),Qwen3-8B 的 HealthBench MF1 从 0.627 提升到 0.651,而 Qwen3-32B 的则从 0.670 提升到 0.684
  • 在混合目标 (mixed-objective) 设置下(图 7b),评分能力进一步提升;
    • 然而,对于 Qwen3-8B,整个训练过程中分数持续增加,而对于 Qwen3-32B,则出现了过拟合
  • 值得注意的是,由于重复输出,Qwen3-8B 的训练在大约 600 步后崩溃,而 Qwen3-32B 的训练则非常稳定
  • 问题:从图 7(a) 看,300 步内,看着整体还是呈现上升状态的,600 步后的崩溃没有给出图像说明
    • 图 7(b) 中给出了 Qwen3-8B 到 600 步以后就没有分数了,看起来像是 Mixed 和 非 Mixed 都同时崩溃?
Mixed-objective training benefits weaker models but not stronger ones(混合目标训练对较弱模型有益,但对较强模型无效)
  • 当使用混合数据 (mixed data) 训练时,Qwen3-8B 的 HealthBench Hard 分数(由 Qwen3-32B 评分)从 0.354 增加到 0.380,而 Qwen3-32B 的性能则如图 5b 所示有所下降
    • 问题:似乎没看到下降,始终高于不适用混合数据的训练方案;只是自身在提升后随着训练的进行有下降趋势(仍始终高于非混合数据方案)
  • 结合图 7b 中观察到的过拟合现象,论文假设较强模型的评分能力对于自我训练已经足够,而混合目标干扰了原始目标
  • 因此,论文建议对较强的模型使用纯 Rubric-based RL 训练目标
Synthetic data remain effective, but underperform expert data
  • 合成数据仍然有效,但表现不及专家数据
  • 同样,像 easy set 这样的专家精心策划的数据收集成本高昂,因此论文评估了合成数据的有效性
  • 如图 5b 所示,使用合成数据进行训练是有效的(effective),但落后于专家数据的 Baseline
    • 这符合预期:更高质量的专家数据为学习提供了更强的指导
    • 问题:合成数据的训练明显是所有方案中 HealthBench Hard 得分最低的,怎么能说是有效的呢?作者是不是看错了?

补充:Related Works

  • 自演进(self-evolving)大语言模型的概念既引人入胜,也在迅速发展
    • 在此,论文总结最相关的研究方向

Reinforcement Learning from AI Feedback,RLAIF

  • RLAIF 最初是作为 RLHF 的替代方案提出的,用于训练模型使其有用、诚实且无害 (2022)
    • 其主要优点是不需要人类标注者,而是依赖于一个标量奖励模型 (2022)
  • (2024) 进一步证明,当奖励模型和策略模型规模相当时,RLAIF 可以达到与 RLHF 相当甚至更优的结果
    • 他们还提出了一种变体,直接 RLAIF(direct-RLAIF),即直接使用更小的通用 LLM 作为 Grader ,其性能可以超越同规模的奖励模型
  • 论文的工作借鉴了这一观点(特别是,生成式奖励模型可能更有效)
    • 通过利用训练好的策略模型本身作为奖励模型来生成奖励信号

Rubrics as Rewards,RaR

  • 同样受 HealthBench (2025) 启发,同时期的工作 (2025) 也探索了使用 Rubric-based 评分信号进行训练
    • However,他们的方法依赖于更强的专有模型作为 Grader
  • In Contrast,论文的工作并不专注于自动构建 Rubric 数据集
    • 因为论文的实验表明,由专家定制的 Rubric 数据在训练效果上具有显著优势

Self-Rewarding Language Models

  • Self-Rewarding Language Models (2025) 首次引入了这种范式,通过对模型自身的回答进行评分,并构建成对偏好数据用于直接偏好优化(DPO)训练
  • However,(2024) 指出这种训练可能会积累偏见,导致优化目标漂移
  • Kimi K2 (2025) 提出了自批判 Rubric 奖励机制(Self-Critique Rubric Reward),该机制针对一组有限的 Rubric 进行成对评估
  • 论文的方法主要采用点式复合奖励(point-wise composite rewards)和广泛的 Task-specific Rubric 来减轻奖励破解(reward hacking),并证明相对较小的开源模型能在困难的开放式推理任务上达到 SOTA 结果

附录 A:更多细节

A.1 Sampling Parameters for Evaluation

  • 关于采样器(Samplers),对于所有开源模型,max_tokens 均设置为 32768
  • 关于 Graders ,对于非推理模型设置为 4096,启用思考模式时设置为 8192
    • 对于 GPT-4.1,参数与原始代码库中提供的保持一致
    • 其他采样参数总结在表 6 中

A.2 SFT Loss Curves

  • Figure 8:

A.3 强化学习的训练细节

  • 由于 verl 中参数和配置的复杂性,论文在此仅列出关键设置;完整的训练脚本将在开源代码库准备就绪后提供
  • 后端(Backends) 论文使用 Megatron 进行 Actor 训练,使用 vLLM 进行 Rollout,但 GRM/评估使用 SGLang 路由器部署
  • 并行策略(Parallelism Strategy) 对于 Qwen3-32B,论文使用 4 路张量并行和 2 路流水线并行进行训练,使用 4 路张量并行进行 Rollout。对于 Qwen3-8B,论文使用 4 路张量并行进行训练
  • ** Baseline SGLang 设置** 每个节点以 8 路数据并行初始化,并通过具有自动负载均衡的 SGLang 路由器连接
  • verl 的特定参数(Specific parameters for verl)
    • 除了混合数据实验外,所有实验的 train_batch_size=32,ppo_mini_batch_size=32;混合数据实验的这些值都设为 40,以保持每步的 Rubric 数据一致
    • max_prompt_length=2k,max_response_length=6k
    • rollout.n=4,rollout.max_model_len=16k
    • rollout.temperature=1.0,rollout.top_p=1.0,rollout.top_k=-1
    • clip_ratio_low=0.2,clip_ratio_high=0.28

A.4 Comparision to Physicians

  • Figure 9:

A.5 案例研究

A.5.1 Performance Improvement Case
  • 详情见原文
A.5.2 Performance Drop Case
  • 详情见原文

附录:HealthBench MF1 指标介绍

  • HealthBench 是 OpenAI 推出的医疗大模型评估基准,核心以医生编写的细粒度评分标准为核心,从 5 大行为维度与 7 大场景主题对模型回复打分,用标准化方式衡量医疗大模型在真实临床交互中的安全性、准确性与实用性
  • HealthBench 原始论文:HealthBench: Evaluating Large Language Models Towards Improved Human Health, OpenAI, 20250513
  • HealthBench HuggingFace:huggingface.co/datasets/openai/healthbench
  • HealthBench 博客链接:Introducing HealthBench, OpenAI, 20250512
  • MF1(Macro F1 分数)是用于二分类任务的性能评估指标,核心是对正类(met)和负类(not-met)的 F1 分数进行无加权平均,能平衡两类结果的评估敏感度,尤其适合类别不平衡的场景(如医疗评分中部分标准极少被触发)
  • 先明确二分类任务中的核心统计量:
    • \( TP_{pos} \):正类真阳性(模型判定“符合标准”且实际符合)
    • \( FP_{pos} \):正类假阳性(模型判定“符合标准”但实际不符合)
    • \( FN_{pos} \):正类假阴性(模型判定“不符合标准”但实际符合)
    • \( TP_{neg} \):负类真阳性(模型判定“不符合标准”且实际不符合)
    • \( FP_{neg} \):负类假阳性(模型判定“不符合标准”但实际符合)
    • \( FN_{neg} \):负类假阴性(模型判定“符合标准”但实际不符合)
  • 单类 F1 分数计算
    • F1 分数是精确率(Precision)和召回率(Recall)的调和平均数,公式为:
      $$ F1 = 2 \times \frac{\text{Precision} \times \text{Recall} }{\text{Precision} + \text{Recall} } $$
    • 分别计算正类和负类的 F1 分数:
      • 正类 F1 分数(\( F1_{pos} \)):
        $$ F1_{pos} = 2 \times \frac{TP_{pos} }{2 \times TP_{pos} + FP_{pos} + FN_{pos} } $$
      • 负类 F1 分数(\( F1_{neg} \)):
        $$ F1_{neg} = 2 \times \frac{TP_{neg} }{2 \times TP_{neg} + FP_{neg} + FN_{neg} } $$
  • MF1 最终计算
    • MF1 是正类与负类 F1 分数的无加权平均值,公式为:
      $$ MF1 = 0.5 \times (F1_{pos} + F1_{neg}) $$

一些简答说明

  • 无加权特性:无论正类、负类样本数量差异多大,两类 F1 分数在计算中权重相同,避免少数类表现被掩盖
  • 医疗场景适配性:在 HealthBench 中,MF1 用于衡量模型评分与医师判断的一致性,能同时捕捉“漏判重要医疗标准”(假阴性)和“误判无关标准”(假阳性),贴合医疗评估的严谨性需求
1…121314…63
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

628 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4