Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

NLP——LLM对齐微调-DMPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(DMPO)Direct Multi-Turn Preference Optimization for Language Agents, arXiv 202502, USTC
    • 开源代码:github.com/swt-user/DMPO

Paper Summary

  • 整体总结:
    • 论文作者分析了 DPO 应用于多轮任务时,由于无法消去配分函数(partition function) 而带来了的挑战
    • 论文提出了一种简单且鲁棒的损失函数 DMPO(是 DPO 的一种改进),可以直接优化多轮智能体任务的强化学习目标
    • 通过将策略约束替换为状态-动作占用度量(SAOM)约束,并在 BT 模型中引入长度归一化,论文消除了 BT 模型中的配分函数,并推导出了 DMPO 损失函数
  • 背景:
    • 直接偏好优化(Direct Preference Optimization, DPO)是一种缓解复合错误(compounding errors)的有前景的技术,能够直接优化 RL 目标
  • 问题提出:
    • 将 DPO 应用于多轮任务时,由于无法消去配分函数(partition function) ,带来了挑战,解决这个问题需要使配分函数独立于当前状态,并解决偏好轨迹与非偏好轨迹之间的长度差异问题
  • 论文提出了一种名为 DMPO 的新型损失函数,用于多轮智能体任务,并提供了理论解释
    • 在强化学习目标中用状态-动作占用度量(state-action occupancy measure, SAOM)约束替换策略约束
    • 并在 Bradley-Terry(BT)模型中引入长度归一化(length normalization)
  • 在三个多轮智能体任务数据集上的广泛实验验证了 DMPO 损失的有效性和优越性

Introduction and Discussion

  • 开发能够解决复杂任务的通用智能体一直是人工智能领域的核心目标(2022;2024)
  • 近年来,语言智能体(Language agents)(2022a)成为一个重要的研究方向
    • Language agents 其利用 LLM 的巨大潜力来解决涉及指令跟随(2022)、动作规划(2022)和工具使用(2024)的复杂任务
    • 然而,LLM 的预训练任务与智能体任务需求之间的巨大差距表明,语言智能体能力仍有很大的提升空间
  • 行为克隆(Behavioral Cloning, BC)(1991)是一种常用的方法,通过专家智能体轨迹对 LLM 进行微调,以弥合领域差距
    • 近期关于 BC 的研究(2023)涉及对最优状态-动作对进行SFT
  • 尽管这些方法能够快速将 LLM 适配到智能体任务中,但 BC 对复合错误(compounding errors)尤为敏感——学习者的微小错误会在智能体与环境的交互过程中累积,导致在非确定性环境中性能下降(2011)
  • 在缓解复合错误方面,直接偏好优化(Direct Preference Optimization, DPO)(2023b)因其简单实现和鲁棒性,在单轮偏好对齐任务中取得了显著成功
    • DPO 通过最大化偏好响应相对于非偏好响应的似然来优化强化学习目标,避免了与传统强化学习算法相关的持续环境交互和训练不稳定性(2023;2024)
    • 尽管已有初步尝试将 DPO 损失应用于智能体任务的 LLM(2024),但其性能欠佳,因为它是专为单轮(single-turn) Bandit设置设计的,不适合( ill-suited)多轮(multi-turn)智能体任务
  • 本研究旨在开发一种鲁棒的损失函数,能够直接优化多轮场景下的强化学习目标。这一目标的关键在于消除 Bradley-Terry(BT)模型(Bradley and Terry, 1952)中的配分函数。具体来说,需要确保配分函数独立于当前状态,并消除偏好与非偏好轨迹长度差异的影响
    • 论文在强化学习目标中用状态-动作占用度量( state-action occupancy measure,SAOM)(2000)约束替换策略约束
    • 并在 BT 模型中引入长度归一化
    • 这些调整最终形成了一种新的简单损失函数 DMPO,用于多轮智能体任务
  • 如图1 所示,DMPO 通过最大化偏好(“win”)轨迹相对于非偏好(“loss”)轨迹的似然,直接优化强化学习目标
    • 值得注意的是,与策略约束相比,SAOM 约束在缓解复合错误方面具有优势(2020)
    • 此外,该推导为长度归一化技术在 DPO 损失中的有效性提供了理论依据(2024)
  • 总结而言,论文的贡献如下:
    • 提出了一种名为 DMPO 的新型损失函数,可直接优化多轮场景下的强化学习目标,从而缓解 BC 方法中的复合错误
    • 为长度归一化技术的有效性提供了理论解释,说明其如何消除 BT 模型中的配分函数并提升性能
    • 在三个多轮智能体任务数据集上的广泛实验验证了 DMPO 损失函数的有效性和优越性

Related Work

  • 本节首先介绍语言智能体的上下文学习方法(in-context learning)和微调方法(fine-tuning),然后回顾基于偏好的强化学习(preference-based RL)相关文献
  • 上下文学习 :受 LLM 强大的上下文学习能力启发(2023),研究人员设计了多种指令提示(instruction prompts),配备记忆模块(2024)、工具包(2024)和各种工作流(2023),以构建适用于不同现实领域任务的语言智能体
    • ReAct(2022b)将 CoT 推理(2022)融入动作生成中
    • Reflexion(2024)和 PROMST(2024)利用环境反馈优化提示
    • 然而,这些上下文学习方法未能充分发挥 LLM 的潜力,因为大多数 LLM 并未专门针对智能体任务进行训练
    • 本研究专注于通过微调将 LLM 适配到智能体任务
  • 智能体微调 :近期研究,如 FireAct(2023)、AgentTuning(2023)、Lumos(2023)、MIMIR(2024)、AUTOACT(2024)和 \(\alpha\)-UMi(2024),通过自指令或专家轨迹对 LLM 进行监督微调
    • 但此类 BC 方法在与动态环境交互时会受到复合错误的影响
    • 更进一步,Pangu(2023)和 CMAT(2024)利用强化学习技术进一步微调 LLM,但这可能导致训练过程复杂且不稳定
    • 为了简化流程,ETO(2024)和 EMMA(2024)直接采用 DPO 损失(2023b)优化智能体任务的强化学习目标,然而,DPO 损失是为单轮 Bandit 设置设计的,不适合多轮场景
    • 沿着这一方向,本研究将 DPO 损失扩展到多轮场景,并推导出 DMPO 损失
  • 基于偏好的强化学习 :在多轮场景中,基于偏好的强化学习通常首先从偏好数据中显式学习奖励函数,然后对其进行优化(2012)
    • 然而,这种两阶段学习过程在训练效率和稳定性方面存在挑战,本研究提出了一种使用 DMPO 损失的单阶段策略学习方法,直接优化策略以满足偏好
    • 尽管 IPL(2024)和 CPL(2023)与本研究在消除奖励学习阶段方面有相似思路,但其损失函数仅限于长度相等的轨迹对,极大地限制了其适用性

Preliminaries

  • 在本节中,论文将介绍多轮智能体任务的数学形式,并简要介绍直接偏好优化(Direct Preference Optimization, DPO)损失函数

任务描述

  • 智能体任务可以建模为一个马尔可夫决策过程(Markov Decision Process, MDP),一个 MDP 是一个五元组 \((\mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \gamma)\)
    • \(\mathcal{S}\) 表示状态空间
    • \(\mathcal{A}\) 表示动作空间
    • \(\mathcal{T}\) 表示动态转移函数 \(\mathcal{S} \times \mathcal{A} \rightarrow \mathcal{S}\)
    • \(\mathcal{R}\) 表示奖励函数 \(\mathcal{S} \times \mathcal{A} \rightarrow [0,1]\)
    • \(\gamma \in [0,1)\) 是折扣因子
  • 智能体的目标是在每个时间步选择动作,以最大化期望的未来折扣奖励
    $$\mathbf{E} \left[\sum_{t=0}^{T-1} \gamma^{t} r(s_{t}, a_{t})\right]$$
    • 其中 \(T\) 是轨迹长度
  • 在语言智能体(Language Agents)的设置中,状态空间和动作空间都是语言空间的子集
    • 初始状态 \(s_{0} \in \mathcal{S}\) 包含任务指令和提示
    • 在每个时间步 \(t\), LLM 根据策略 \(\pi_{\theta}(a_{t}|s_{t})\) 生成动作 \(a_{t}\),其中 \(\theta\) 是参数
    • 随后,环境会返回动态反馈 \(o_{t}\) 并将状态转移到 \(s_{t+1}\)
    • 需要注意的是,新状态 \(s_{t+1}\) 仅仅是 \(s_{t}\)、\(a_{t}\) 和 \(o_{t}\) 的简单组合,而轨迹为
      $$ \tau = (s_{0}, a_{0}, s_{1}, a_{1}, \cdots, s_{T}, a_{T}) $$

DPO

  • DPO 损失的目标是通过在策略函数上施加 KL 散度约束,直接优化 RL 目标:
    $$
    \max_{\pi_{\theta} } \mathbb{E}_{\tau}\left[ \sum_{t=0}^{T-1} \gamma^{t} r(s_{t}, a_{t})\right] - \beta \mathbb{D}_{KL}\left[\pi_{\theta}(a_{t}|s_{t}) || \pi_{ref}(a_{t}|s_{t})\right],
    $$
    • \(\mathbb{E}\) 是期望函数
    • \(\mathbb{D}_{KL}[\cdot || \cdot]\) 表示两个分布之间的 KL 散度
    • \(\pi_{ref}\) 表示参考策略
    • \(\beta\) 是控制与参考策略 \(\pi_{ref}\) 偏离程度的参数
  • DPO 损失专为单轮偏好对齐任务设计,其中轨迹长度 \(T\) 限制为 1
  • 值得注意的是,奖励函数是通过布拉德利-特里(Bradley-Terry, BT)模型学习的:
    $$
    p(a_{0}^{w} \succ a_{0}^{l}|s_{0}) = \frac{\exp(r(s_{0}, a_{0}^{w}))}{\exp(r(s_{0}, a_{0}^{w})) + \exp(r(s_{0}, a_{0}^{l}))}, \tag{2}
    $$
    • 该模型给出了在给定状态 \(s_{0}\) 下,“win”动作 \(a_{0}^{w}\) 优于“loss”动作 \(a_{0}^{l}\) 的概率
  • 随后,DPO 利用单轮强化学习问题的闭式解:
    $$
    \pi^{*}(a|s) = \frac{1}{Z(s)} \pi_{ref}(a|s) e^{r(s,a)},
    $$
    • 其中 \(\pi^{*}\) 表示最优策略,\(Z(s)\) 是归一化的配分函数
  • 我们可以轻松地重新整理上式并将其代入 BT 模型,得到关于策略的 BT 模型:
    $$
    p(a_{0}^{w} \succ a_{0}^{l}|s_{0}) = \sigma \left( \beta \log \frac{\pi_{\theta}(a_{0}^{w}|s_{0})}{\pi_{ref}(a_{0}^{w}|s_{0})} - \beta \log \frac{\pi_{\theta}(a_{0}^{l}|s_{0})}{\pi_{ref}(a_{0}^{l}|s_{0})} \right),
    $$
    • 其中配分函数 \(Z(s)\) 从 BT 模型中消去,\(\sigma\) 是 sigmoid 函数
  • DPO 损失通过最大化似然函数来获得最优策略 \(\pi_{\theta}^{*}\):
    $$
    \mathcal{L}_{DPO} = -\mathbb{E}_{(s_{0}, a_{0}^{w}, a_{0}^{l}) \sim D} \log \left[ p(a_{0}^{w} \succ a_{0}^{l}|s_{0}) \right],
    $$
    • 其中 \(D\) 表示偏好数据集
  • 然而,这种简洁而优雅的推导仅适用于单轮偏好优化任务。如式 (3) 所示,配分函数 \(Z(s)\) 依赖于当前状态 \(s\),因此在多轮设置中无法通过策略约束消去

论文方法细节

  • 在本节中,论文将首先介绍状态-动作占用度量(State-Action Occupancy Measure, SAOM)的定义及其优势
  • 随后,论文将提出两项调整以推导 DMPO 损失函数。最后,论文将深入分析 DMPO 损失的特性

State-Action Occupancy Measure(状态-动作占用度量)

  • 策略 \(\pi\) 的折扣状态-动作占用度量 \(d^{\pi}(s,a)\) 描述了智能体在策略 \(\pi\) 下访问状态-动作对的分布:
    $$
    d^{\pi}(s,a) = \frac{1 - \gamma}{1 - \gamma^T} \sum_{t=0}^{T-1} \gamma^t \mathbb{P}(s_t = s, a_t = a | \pi),
    $$
    • 其中 \(\mathbb{P}(\cdot)\) 表示概率,系数 \((1 - \gamma)/(1 - \gamma^T)\) 用于归一化概率分布
  • 首先,论文将直观解释 SAOM 约束如何减少复合误差(compounding errors)。在模仿学习(imitation learning)中,传统的 SFT 学习目标是最小化专家策略与当前策略之间的 KL 散度:
    $$
    \min_{\pi_{\theta} } \mathbb{E}_{(s,a) \sim d^E} \left[ \mathbb{D}_{KL}(\pi_E(a|s) || \pi_{\theta}(a|s)) \right] = -\max_{\pi_{\theta} } \mathbb{E}_{(s,a) \sim d^E} \left[ \log(\pi_{\theta}(a|s)) \right],
    $$
    • 其中 \(\pi_E\) 是专家策略,\(d^E\) 是策略 \(\pi_E\) 的 SAOM
  • 如图2 所示,在策略约束下学习的轨迹容易受到显著的复合误差影响
    • 这种脆弱性源于专家数据集无法全面覆盖所有可能的状态
    • 因此,SFT 损失会导致模型在专家数据集中未出现的状态下选择随机动作,从而在初始错误后逐渐偏离专家轨迹,这就是所谓的复合误差现象
  • 为了缓解复合误差,后续的模仿学习研究(2004;2020;2016)采用了 SAOM 约束:
    $$
    \min_{\pi_{\theta} } \mathbb{E}_{(s,a) \sim d^E} \left[ \mathbb{D}_{(\cdot)}(d^{\pi_{\theta} }(a|s) || d^{\pi_E}(a|s)) \right],
    $$
    • 其中不同的方法使用了不同的分布距离度量 \(\mathbb{D}_{(\cdot)}\)
    • SAOM 约束的优势在于,它能够引导动作选择向模仿专家状态-动作对的方向靠近,尤其是在专家数据集中未探索的状态下
  • 如图2 所示,在状态 \(s_2\) 下,策略约束会导致模型均匀选择动作,而 SAOM 约束则旨在引导模型选择能将下一状态带回专家轨迹的动作,从而有效缓解复合误差并提升累积奖励

DMPO

  • 受模仿学习的启发,论文将公式(1)中的策略约束替换为 SAOM 约束,得到以下强化学习目标:
    $$
    \max_{\pi_{\theta} } \mathbb{E}_{(s,a) \sim d^{\pi_{\theta} }(s,a)} \left[ r(s,a) \right] - \beta \mathbb{D}_{KL} \left[ d^{\pi_{\theta} }(s,a) || d^{\pi_{ref} }(s,a) \right], \tag{9}
    $$
    • 其中 \(\pi_{ref}\) 表示参考策略。类似于 Rafailov 等(2023b),可以证明公式(9)的 RL 目标的最优解形式为:
      $$
      d^{\pi^{*} }(s,a) = \frac{1}{Z} d^{\pi_{ref} }(s,a) \exp \left( \frac{1}{\beta} r(s,a) \right), \tag{10}
      $$
      • 其中 \(\pi^{*}\) 表示最优策略,\(Z\) 是归一化概率的配分函数。值得注意的是,由于 \(d^{\pi}(s,a)\) 是 \((s,a)\) 对的函数,归一化后配分函数 \(Z\) 与当前状态 \(s\) 无关。因此,\(Z\) 对所有 \((s,a)\) 对保持恒定,这为论文提供了消除它的机会。我们可以轻松地将公式(10)整理为:
        $$
        r(s,a) = \beta \log \frac{d^{\pi^{*} }(s,a)}{d^{\pi_{ref} }(s,a)} + \beta \log Z. \tag{11}
        $$
  • 类似于公式(2),论文通过 Bradley-Terry(BT)模型学习多轮场景的奖励函数:
    $$
    p(\tau^w \succ \tau^l | s_0) = \sigma \left( \sum_{t=0}^{T_w - 1} \gamma^t r(s_t^w, a_t^w) - \sum_{t=0}^{T_l - 1} \gamma^t r(s_t^l, a_t^l) \right), \tag{12}
    $$
    • 其中 \(\tau^w\) 和 \(\tau^l\) 分别表示“win”和“lose”轨迹,\(T_w\) 和 \(T_l\) 分别表示“win”和“lose”轨迹的长度。然而,由于 \(T^w \neq T^l\),配分函数 \(Z\) 无法直接在公式(12)中消除
  • 为了克服这一障碍,论文在公式(12)中引入了长度归一化技术:
    $$
    p(\tau^w \succ \tau^l | s_0) = \sigma \left( \frac{1 - \gamma}{1 - \gamma^{T_w} } \sum_{t=0}^{T_w - 1} \gamma^t r(s_t^w, a_t^w) - \frac{1 - \gamma}{1 - \gamma^{T_l} } \sum_{t=0}^{T_l - 1} \gamma^t r(s_t^l, a_t^l) \right). \tag{13}
    $$
  • 通过这种方式,我们可以通过将公式(11)中的奖励函数 \(r(s,a)\) 代入公式(13)来消除配分函数 \(Z\)。然后,论文最大化似然并得到:
    $$
    L_\text{DMPO} = -\mathbb{E}_{(s_0, \tau^w, \tau^l) \sim D} \log \sigma \left[ \frac{1 - \gamma}{1 - \gamma^{T_w} } \sum_{t=0}^{T_w - 1} \beta \gamma^t \log \frac{d^{\pi_{\theta} }(s_t^w, a_t^w)}{d^{\pi_{ref} }(s_t^w, a_t^w)} - \frac{1 - \gamma}{1 - \gamma^{T_l} } \sum_{t=0}^{T_l - 1} \beta \gamma^t \log \frac{d^{\pi_{\theta} }(s_t^l, a_t^l)}{d^{\pi_{ref} }(s_t^l, a_t^l)} \right], \tag{14}
    $$
    • 其中 \(d^{\pi}(s_t, a_t)\) 可以进一步表示为:
      $$
      d^{\pi}(s = s_t^w, a = a_t^w) = \gamma^t \cdot P(s_0) \cdot \prod_{k=0}^{t-1} \pi(a_k^w | s_k^w) P(s_{k+1}^w | s_k^w, a_k^w), \tag{15}
      $$
      • 其中 \(P(s_0)\) 表示初始状态 \(s_0\) 的概率,\(P(s_{k+1} | s_k, a_k)\) 表示转移函数。通常情况下,获取 SAOM \(d^{\pi}(s_t, a_t)\) 具有挑战性,因为论文在动态环境中不知道转移函数 \(P(s_{k+1} | s_k, a_k)\)。然而,在公式(16)中,论文只需计算当前 SAOM \(d^{\pi_{\theta} }(s_t, a_t)\) 与参考 SAOM \(d^{\pi_{ref} }(s_t, a_t)\) 的比率。值得注意的是,两者的转移函数保持一致,因此可以相互抵消
  • 通过将公式(15)代入公式(14),我们可以得到 DMPO 损失函数:
    $$
    L_\text{DMPO} = -\mathbb{E}_{(s_0, \tau^w, \tau^l) \sim D} \log \sigma \left[ \sum_{t=0}^{T_w - 1} \beta \phi(t, T_w) \log \frac{\pi_{\theta}(a_t^w | s_t^w)}{\pi_{ref}(a_t^w | s_t^w)} - \sum_{t=0}^{T_l - 1} \beta \phi(t, T_l) \log \frac{\pi_{\theta}(a_t^l | s_t^l)}{\pi_{ref}(a_t^l | s_t^l)} \right],
    $$
    • 其中折扣函数 \(\phi(t, T) = \gamma^t \cdot (1 - \gamma^{T - t}) / (1 - \gamma^T)\)。值得注意的是,DMPO 通过折扣函数 \(\phi(t, T)\) 对不同步骤的状态-动作对进行重新加权

深入分析

  • 在本小节中,论文将探讨 DMPO 损失的优势,并提出一些引理和观察结果
  • 推论 4.0.1(Corollary 4.0.1) :DMPO 损失为早期步骤的状态-动作对分配更高的权重,其中权重与折扣因子 \(\gamma\) 相关
  • 证明 :为了证明该引理,论文分析损失函数 \(L_\text{DMPO}\) 关于 \(\theta\) 的梯度:
    $$
    \nabla_{\theta} L_\text{DMPO} = -\mathbb{E}_{(s_0, \tau^w, \tau^l) \sim D} \sigma \left[ \Phi(\tau^l) - \Phi(\tau^w) \right] \left[ \sum_{t=0}^{T_w - 1} \beta \phi(t, T_w) \nabla_{\theta} \log \pi_{\theta}(a_t^w | s_t^w) - \sum_{t=0}^{T_l - 1} \beta \phi(t, T_l) \nabla_{\theta} \log \pi_{\theta}(a_t^l | s_t^l) \right],
    $$
    • 其中函数 \(\Phi(\tau) = \sum_{t=0}^{T-1} \beta \phi(t, T) \log \frac{\pi_{\theta}(a_t | s_t)}{\pi_{ref}(a_t | s_t)}\),且 \(\phi(t, T) = \gamma^t \cdot (1 - \gamma^{T - t}) / (1 - \gamma^T)\)。折扣函数 \(\phi(t, T)\) 随着 \(t\) 的增加而减小,并与折扣因子 \(\gamma\) 相关。证明完成
  • 推论 4.0.2(Corollary 4.0.2) :当折扣因子 \(\gamma\) 趋近于零时,DMPO 损失退化为单轮 DPO 损失
  • 证明 :当 \(\gamma\) 等于 0 时,函数 \(\phi(t, T)\) 在 \(t = 0\) 时为 1,其余情况下为 0,这等价于单轮 DPO 损失
  • 基于上述分析,论文得出以下观察结果:
    • 观察 4.0.1(Observation 4.0.1) :与 DPO 损失类似,DMPO 损失增加了偏好轨迹 \(\tau_w\) 的似然,同时降低了非偏好轨迹 \(\tau_l\) 的似然
    • 观察 4.0.2(Observation 4.0.2) :如果策略 \(\pi_{\theta}\) 对非偏好轨迹的奖励 \(\Phi(\tau_l)\) 估计过高,则权重 \(\sigma \left[ \Phi(\tau^l) - \Phi(\tau^w) \right]\) 会更大
  • 长度归一化解释 :在 SimPO(Meng 等,2024)中,长度归一化技术的有效性已通过实验验证,但未提供理论解释。论文的推导表明,它有助于消除 BT 模型中的配分函数。如果在公式(13)中不使用长度归一化,BT 模型中会出现一个与长度相关的偏置项,随着偏好和非偏好样本之间轨迹长度差异的增加,模型性能会下降
  • 进一步讨论 :如 4.2 节所述,公式(9)的 RL 目标的最优解形式为公式(10)。然而,有人认为,在语言智能体设置中,对于任意奖励函数 \(r(s,a)\),实现最优解可能并不总是可行。这种限制源于新状态 \(s_{t+1}\) 定义为 \(s_t\)、\(a_t\) 和 \(o_t\) 的组合,这引入了状态之间转移函数的内在约束。总体而言,在多轮动态环境中,没有损失函数能够严格优化 RL 目标,而 DMPO 损失是一个良好的近似。在许多情况下,DMPO 损失可以精确优化公式(9)中的 RL 目标

相关实验

  • 在本节中,论文在三个智能体任务上进行了广泛的实验,以验证所提出的 DMPO 损失函数的有效性。论文的实验旨在回答以下问题:
  • RQ1 :DMPO 损失函数能否对噪声训练轨迹数据表现出鲁棒性,并减轻复合错误?
  • RQ2 :与其他基线方法相比,DMPO 损失函数的表现如何?
  • RQ3 :折扣因子 \(\gamma\) 和轨迹长度对 DMPO 损失函数有何影响?

Experiment Setup

  • 数据集(Datasets) :遵循先前的工作(2024),论文在三个代表性的智能体数据集上进行了实验,包括 WebShop(2022a)、ScienceWorld(2022)和 ALFWorld(2020b)
    • WebShop :一个模拟购物网站环境,智能体根据自然语言指令中的规格查找并购买产品。最终奖励 \(r \in [0,1]\) 基于购买产品与指定标准的匹配程度计算
    • ScienceWorld :一个交互式文本环境,测试智能体在基础科学实验中的科学推理能力,包含 10 种任务类型。最终奖励 \(r \in [0,1]\) 基于智能体在每个任务中成功完成的子目标数量计算
    • ALFWorld :一个基于文本的模拟环境,智能体需要完成 ALFRED 基准测试(2020a)中的家庭任务。最终奖励为二元值,表示任务的完成状态
      这三个环境均可形式化为马尔可夫决策过程(MDP),并由语言智能体执行。数据集的统计细节如表1 所示。遵循 Song 等 (2024),除了分布内的“已见”测试集外,ScienceWorld 和 ALFWorld 还包含分布外的“未见”测试集,用于评估不同智能体的泛化能力
  • 训练设置(Training Settings) :论文通过两种不同的训练场景评估 DMPO 损失函数的鲁棒性和有效性:噪声设置(Noisy setting)和干净设置(Clean setting)
    • 遵循 Song 等 (2024),在噪声设置和干净设置中,论文均使用专家轨迹作为“win”轨迹构建偏好轨迹数据
    • 论文使用经过专家轨迹微调的 LLM 在训练集上生成新轨迹。观察到 LLM 倾向于生成包含重复动作或无意义词语的轨迹
    • 在噪声设置中,这些噪声轨迹被用作“lose”轨迹构建偏好数据;
    • 在干净设置中,论文剔除噪声轨迹,使用剩余的轨迹作为“lose”轨迹
  • 参数设置(Parameter Settings) :本研究使用了两个不同的基础模型:Llama-2-7B-Chat(2023)和 Mistral-7B-Instruct-v0.2(2023)来构建语言智能体。其他超参数设置遵循 Song 等 (2024):
    • 使用 AdamW 优化器
    • 在监督微调基础模型以获取参考模型时,批量大小设为 64,学习率从 \(\{1e-5, 2e-5, 3e-5\}\) 中选择,预热比例为 3%,并采用余弦调度器
    • 在使用 DMPO 损失函数优化智能体时,批量大小设为 32,超参数 \(\beta\) 和 \(\gamma\) 分别在 \(\{0.1, 0.2, …, 0.9\}\) 和 \(\{0.1, 0.2, …, 0.9, 0.99\}\) 范围内调优
    • 所有实验均在 8 块 NVIDIA A100 GPU 上完成
  • 评估设置(Evaluation Setting ) :遵循 Song 等 (2024),论文使用 ReAct 风格的交互格式(Yao 等, 2022b)评估所有方法,该格式会交错生成推理轨迹和动作。对于每个任务,论文添加 1-shot 示例,具体可参考 Song 等 (2024)。除非另有说明,解码生成温度设为 0.0

RQ1:噪声设置结果

  • 在噪声设置中,论文使用噪声轨迹作为“lose”轨迹构建偏好数据,以研究 DMPO 损失函数的鲁棒性。如表2 所示,论文在两个不同的基础模型上评估了 DMPO 损失函数在两个代表性智能体任务上的表现,观察到以下现象:
    • 在所有未见测试集和大多数已见测试集中,DMPO 损失函数的表现优于 DPO 损失函数。这种优势源于 DMPO 对初始状态-动作对赋予更高权重,优先学习早期阶段的高质量专家动作,并减少后期噪声“lose”动作的影响。这减轻了噪声的影响,增强了模型的泛化能力。而 DPO 损失函数不适用于多轮设置,无法在 BT 模型中消除配分函数,因此表现较差
    • Mistral-7B-Instruct-v0.2 在 ScienceWorld 和 ALFWorld 上的表现显著优于 Llama-2-7B-Chat。这表明基础模型的有效性与使用 DMPO 损失函数微调后的性能提升呈正相关

RQ2:干净设置结果

  • 在干净设置中,论文过滤掉噪声轨迹,选择高质量轨迹作为“lose”轨迹构建偏好数据,以充分发挥 DMPO 损失函数的潜力
  • 基线方法 :遵循 Song 等 (2024),论文将使用 DMPO 损失函数训练的模型与以下代表性基线进行比较:
    1) Base :未经调优的默认 LLM
    2) SFT :通过监督学习在专家轨迹上微调的 LLM
    3) Best-of-N :使用基于 SFT 的智能体采样,并从 N 个样本中选择奖励最高的轨迹,此处 N=10
    4) RFT(拒绝采样微调,Yuan 等, 2023):通过添加成功轨迹扩展专家轨迹数据集,随后在扩展数据集上训练智能体
    5) PPO(近端策略优化,Schulman 等, 2017):直接优化强化学习目标以最大化累积奖励
    6) ETO(基于探索的轨迹优化,Song 等, 2024):通过迭代探索环境增强训练偏好数据,并使用 DPO 损失从偏好数据中学习
  • 结果 :基于 Llama-2-7B-Chat 模型,论文在干净设置下的对比结果如表3 所示。值得注意的是:
    • 所有微调方法在两个数据集上的表现均显著优于基础模型,提升幅度至少为 49%。在 WebShop 上,它们甚至超越了先进闭源 LLM 的表现。这表明 LLM 的预训练任务与智能体任务之间存在显著差距,通过微调 LLM,语言智能体具有巨大的改进潜力
    • 使用 DMPO 损失函数训练的模型在两个数据集上均取得了最佳性能,凸显了 DMPO 损失函数从偏好数据中学习的有效性。与 SFT 模型相比的改进表明,DMPO 减少了复合错误,从而获得了更高的奖励
    • 与噪声设置相比,使用 DMPO 损失函数训练的模型在性能上有显著提升,WebShop 平均提升 5.2%,ScienceWorld 平均提升 11.3%。这表明在构建偏好数据时选择高质量的“lose”轨迹非常重要,选择此类轨迹能够带来更优的性能

RQ3:消融研究

  • 超参数分析 :为了验证公式(17)中重加权函数 \(\phi(t,T)\) 的影响,论文在 WebShop 上调整超参数 \(\gamma\),结果如图3 所示。论文发现,在噪声设置中,较小的 \(\gamma\) 能使两个基础模型达到最佳性能;而在干净设置中,较大的 \(\gamma\) 表现更优。根据公式(17),较小的 \(\gamma\) 意味着 DMPO 损失函数对后期步骤的状态-动作对赋予较低权重。这表明 DMPO 可以通过调整参数 \(\gamma\) 平衡噪声的影响。面对噪声“lose”轨迹时,选择较小的 \(\gamma\) 可以减轻噪声影响;而面对高质量“lose”轨迹时,选择较大的 \(\gamma\) 可以更好地从后期状态-动作对中学习策略
  • 长度分析 :为了研究轨迹长度对模型性能的影响,论文根据噪声轨迹的最大长度将其分为三组,并确保每组偏好数据的数量相同。如图4 所示,论文观察到,使用 DPO 损失函数训练的模型性能随着噪声“lose”轨迹长度的增加而迅速下降;而使用 DMPO 损失函数训练的模型对噪声“lose”轨迹长度表现出鲁棒性。这归功于 DMPO 损失中采用的长度归一化技术,它减轻了“win”和“lose”轨迹长度不一致的影响

Limitation

  • 论文主要关注在智能体任务上微调 LLM 时的问题,并提出了一种简单且鲁棒的损失函数
  • 论文的研究存在以下局限性:
    • 1)论文仅关注了轮次级别的任务形式化,这导致 LLM 的奖励稀疏。未来可以探索如 Rafailov 等 (2024b) 所建议的 token-level 任务形式化
    • 2)本研究的实验基于 7B 规模的模型和模拟数据集。未来可以在更大模型和数据集上进行实验,以进一步验证论文的结论

附录A 案例研究

  • 在本节中,论文通过一个来自 WebShop 的示例比较 DPO 和 DMPO 的性能。在该示例中,DPO 在回答的第一步丢失了所需的价格信息。相比之下,DMPO 在初始步骤提供了全面的回答,从而取得了成功的结果

附录B MT-Bench 评估

  • 在本节中,论文使用 MT-bench(2023)评估并比较了在不同数据集上使用 DMPO 和 DPO 训练的模型,结果如表4所示
  • 表中胜率分析表明,DMPO 在 MT-bench 的所有训练数据集上均优于 DPO。值得注意的是,DMPO 在 MT-bench 的第二轮评估中胜率显著高于 DPO,这证明了 DMPO 的有效性

NLP——LLM对齐微调-DFT

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Southeast University & …, 20250807

Paper Summary

  • 总体评价:
    • DFT 仅仅修改了一行代码,在 SFT 的损失函数上加入一个权重,得到了大幅的泛化能力提升
    • DFT 本质是从梯度出发,将 SFT 的梯度对齐了 RL 的梯度,企图因此让 SFT 拥有 RL 的泛化性
    • 问题:直接修改了 SFT 的损失函数,真的可行吗?靠近 RL 梯度而不进行探索,是否真的有利于泛化性?
  • 背景:
    • LLM 中,SFT 的泛化能力不如 RL
  • 前置分析:
    • 论文作者通过数学分析发现标准 SFT 的梯度隐式编码了一种有问题的奖励结构,可能会严重限制模型的泛化能力
  • 为了纠正这一问题,论文提出了动态微调(Dynamic Fine-Tuning, DFT) ,通过用该 Token 的概率动态重新调整目标函数,从而稳定每个 Token 的梯度更新
  • 实验结论:
    • 在多个具有挑战性的基准测试和基础模型上显著优于标准 SFT,展示了大幅提升的泛化能力
    • 在 Offline RL 场景中也表现出具有竞争力的结果,提供了一种更简单但有效的替代方案
  • 这项工作结合了理论和实践解决方案,显著提升了 SFT 的性能
  • 代码开源地址:github.com/yongliang-wu/DFT

DFT Method

Preliminaries

Supervised Fine-Tuning
  • 设 \(\mathcal{D}=\{(x,y^{*})\}\) 表示专家示范的语料库,其中 \(y^{*}\) 是查询 \(x\) 的完整参考响应。SFT 最小化句子级的交叉熵:
    $$
    \mathcal{L}_{\textrm{SPT} }(\theta)\ =\ \mathbb{E}_{(x,y^{*})\sim\mathcal{D} }\big{[}-\log \pi_{\theta}\big{(}y^{*} \mid x\big{)}\big{]}. \tag{1}
    $$
  • 其梯度为:
    $$
    \nabla_{\theta}\mathcal{L}_{\textrm{SPT} }(\theta)\ =\ \mathbb{E}_{(x,y^{*})\sim\mathcal{D} }\big{[}-\nabla_{\theta}\log \pi_{\theta}\big{(}y^{*} \mid x\big{)}\big{]}.\tag{2}
    $$
Reinforcement Learning
  • 设 \(y\) 表示从策略 \(\pi_{\theta}(\cdot \mid x)\) 中采样的响应。给定奖励函数 \(r(x,y)\in\mathbb{R}\),策略目标为:
    $$
    J(\theta)\ =\ \mathbb{E}_{x\sim\mathcal{D}_{x},\ y\sim\pi_{\theta}(\cdot \mid x)}\big{[}r(x,y)\big{]}. \tag{3}
    $$
  • 其句子级策略梯度为:
    $$
    \nabla_{\theta}J(\theta)\ =\ \mathbb{E}_{x\sim\mathcal{D}_{x},\ y\sim\pi_{\theta}(\cdot \mid x)}\big{[}\nabla_{\theta}\log \pi_{\theta}(y \mid x)\ r(x,y)\big{]}. \tag{4}
    $$

Unity SFT-RL Gradient Expression

  • 通过重要性采样将 SFT 梯度重写为策略梯度(Rewriting SFT Gradient as Policy Gradient via Importance Sampling)
  • 方程 2 中的 SFT 梯度是在固定的示范分布下计算的
  • 论文通过插入一个重要性权重,将专家(狄拉克δ)分布与模型分布进行比较,将其转换为 On-policy 期望:
    $$
    \mathbb{E}_{(x,y^{*})\sim\mathcal{D} }\left[-\nabla_{\theta}\log \pi_{\theta}\big{(}y^{*} \mid x)\right]=\underbrace{\mathbb{E}_{x\sim\mathcal{D}_{x} }\ \mathbb{E}_{y\sim\pi_{\theta}(\cdot|x)}\frac{\mathbf{1}[y=y^{*}]}{\pi_{\theta}(y \mid x)}\left[-\nabla_{\theta}\log \pi_{\theta}\big{(}y \mid x)\right]}_{\text{resample + reweight} } \tag{5}
    $$
  • 定义辅助变量:
    $$
    w(y \mid x)=\frac{\mathbf{1} }{\pi_{\theta}(y \mid x)},\quad r(x,y)=\mathbf{1}[y=y^{*}],
    $$
  • 重组方程 5 并使用上述辅助变量重写,论文得到以下形式:
    $$
    \nabla_{\theta}\mathcal{L}_{\text{SFT} }(\theta)=-\mathbb{E}_{x\sim\mathcal{D}_{x},\ y\sim\pi_{\theta}(\cdot|x)}\big{[}\color{red}{w(y \mid x)}\ \nabla_{\theta}\log \pi_{\theta}(y \mid x),\color{red}{r(x,y)}\big{]}. \tag{6}
    $$
    • 这种形式的 SFT 梯度现在与策略梯度方程 4 高度一致(除了梯度权重 \(\color{red}{w(y \mid x)}\))外
    • 传统的 SFT 本质上是一种 On-policy 梯度,其奖励是匹配专家轨迹的指示函数,但受到重要性权重 \(1/\pi_{\theta}\) 的偏置
      • 问题:这里改成任意策略都可以吧?岂不是也可以 Off-policy?
      • 补充:从这个视角看,似乎改成任意策略都行,但是为了使用策略梯度法(On-policy),使用当前策略(即 On-policy)会更好

Proposed Method

  • 通过动态重加权进行奖励修正(Rewriting SFT Gradient as Policy Gradient via Importance Sampling)
  • 为了纠正从 RL 目标视角下发现的奖励偏差问题,论文通过乘以策略概率 \(1/w\) 给出的校正逆比率来动态重新加权奖励,得到的“动态微调”梯度为:
    $$
    \nabla_{\theta}\mathcal{L}_{\text{DFT} }(\theta)=\nabla_{\theta}\mathcal{L}_{\text{SFT} }(\theta)\ \cdot\ \operatorname{sg}(\frac{1}{w})=\nabla_{\theta}\mathcal{L}_{\text{SFT} }(\theta)\ \cdot\ \operatorname{sg}(\pi_{\theta}(y^{*} \mid x)).
    $$
    • \(\operatorname{sg}(\cdot)\) 表示停止梯度操作符,确保梯度不通过奖励缩放项 \(w\) 流动
    • 为了便于过渡到后续方程,论文直接将 \(1/w\) 写为 \(\pi_{\theta}(y^{*} \mid x)\) 而非 \(\pi_{\theta}(y \mid x)\),因为方程 5 或方程 6 中的指示函数会将所有 \(y \neq y^{*}\) 的情况置为 0
  • 由于梯度不流动(Stop Gradient),修正后的 SFT 损失也变为一个简单的重加权损失,称为动态微调(DFT):
    $$
    \mathcal{L}_{\text{DFT} }(\theta)=\mathbb{E}_{(x,y^{*})\sim\mathcal{D} }\Big{[}\operatorname{sg}\big{(}\pi_{\theta}(y^{*}_{t} \mid x)\big{)}\log \pi_{\theta}(y^{*}_{t} \mid x)\Big{]}.
    $$
  • 在实践中,计算整个轨迹的重要性权重可能会引发数值不稳定性。解决此问题的常见方法是简单地应用 Token-level 的重要性采样(如 PPO (2017) 中所采用的那样),DFT 的最终损失函数为:
    $$
    \mathcal{L}_{\text{DFT} }(\theta)=\mathbb{E}_{(x,y^{*})\sim\mathcal{D} }\Big{[}-\sum_{t=1}^{|y^{*}|}\operatorname{sg}\big{(}\pi_{\theta}(y^{*}_{t} \mid y^{*}_{ < t},x)\big{)}\log \pi_{\theta}(y^{*}_{t} \mid y^{*}_{ < t},x)\Big{]}.
    $$
    • 修正后的 SFT(以 RL 形式表示)的奖励,即 DFT,现在对所有专家轨迹统一为 1
    • 这与当代基于验证的奖励方法 RLVR (2025) 类似,后者对所有正确样本分配统一的奖励
    • 因此,它避免了对特定低概率参考 Token 的过度关注,从而在不引入额外采样或奖励模型的情况下实现更稳定的更新和更好的泛化能力

Related Work

  • SFT 和 RL 之间的权衡是现代语言模型对齐的核心主题
    • SFT 因其简单且能高效模仿专家行为而被广泛采用,这一过程类似于机器人学中的行为克隆(Behavioral Cloning)(2011; 2020)
    • 但文献中经常指出,与 RL 相比,这种方法可能导致过拟合和较差的泛化能力,因为 RL 利用奖励信号来探索和发现更鲁棒的策略(2024; 2017; 2022)
    • (2024) 对文本和视觉任务上的 SFT 和 RL 进行了系统比较,证实了“SFT 记忆,而 RL 泛化(SFT memorizes while RL generalizes)” 的结论
    • 目前,SFT 仍然是必要的初始化步骤,用于在 RL 训练生效前稳定输出格式
    • 但 RL 仍面临重大实际障碍,包括高计算成本、超参数敏感性以及对显式奖励函数的需求,这些因素常常限制其适用性(2017; 2019; 2025)
  • 为了利用两种范式的优势,主流研究方向集中在混合方法上
    • 最成熟的策略包括 SFT 预训练阶段和基于 RL 的细化阶段,通常使用学习的奖励模型(如 InstructGPT(2022))
    • 最近的方法探索了替代组合,例如交替进行 SFT 和 RL 步骤以提高稳定性和性能(2025; 2025; 2025)
    • 其他比较优秀的方法,如直接偏好优化(Direct Preference Optimization, DPO)(2023),通过直接在偏好数据上优化策略来绕过显式奖励建模,有效地将模仿和强化信号集成到单个损失函数中
    • (2025) 提出的负感知微调(Negative-aware Fine-Tuning, NFT)通过隐式负策略使 LLM 能够通过建模自身错误生成来自我改进
    • 尽管这些方法功能强大,但它们是为奖励信号、偏好对或负样本可用的场景设计的
      • 它们扩展了训练流程,但并未从根本上改进 SFT 在其原生上下文中的过程(即仅存在正例专家行为的情况下)
    • 论文的工作通过专注于增强 SFT 本身而无需任何外部反馈,从而与之分道扬镳
  • 当前的理论探究试图统一 SFT 和 RL
    • (2025) 将 RLHF 重新定义为奖励加权的 SFT 形式,简化了流程但仍依赖于显式奖励
    • (2025) 证明 SFT 可以被视为具有隐式奖励的 RL 方法,并提出诸如较小学习率等解决方案来管理否则会消失的 KL 约束
    • (2025) 分析了从正负反馈中学习的过程,展示了它们的平衡如何影响策略收敛
    • (2025) 将 SFT 重新定义为 RL 的下界,并通过基于数据生成策略的重要性加权来改进它
    • 尽管这些工作通过加权的视角指出了 SFT 和 RL 之间的一般联系,但它们未能提供 SFT 梯度和离线策略梯度之间的精确数学等价性
    • 论文的工作首次严格建立了这种等价性,明确指出关键差异在于 SFT 中存在的逆概率加权项
  • 特别说明:论文的方法产生了一种与著名的 Focal Loss(2017)截然相反的交叉熵(Cross-Entropy, CE)损失设计
    • 论文修改后的 CE 是 \(-p \log(p)\),而 Focal Loss 是 \(-(1-p)^{\gamma} \log(p)\)
    • Focal Loss 有意降低分类良好的样本的权重以提高对少数类的性能,而论文有意降低分类不佳的样本的权重以改善泛化能力
    • 这种对比可能反映了 LLM 时代的一个根本性转变,即欠拟合变得不如过拟合问题严重

Experiments

  • 实验效果比 SFT 好很多
  • 其中 iw-SFT 是 Importance weighted supervised fine-tuning,详情见论文:Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved), 20250717

NLP——LLM对齐微调-CISPO-MiniMax-M1

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, arXiv 20250616, MiniMax
    • 名字说明:Clipped IS-weight Policy Optimization 中 IS 表示 Importance Sampling
    • 开源地址:github.com/MiniMax-AI/MiniMax-M1
    • API 地址:minimax.io

Paper Summary

  • 写在最前面:
    • MiniMax 作为一个小型创业公司,在今天还能独立坚持创新的尝试新的 Transformer 框架(论文的 Lightning Attention 是 线性 Attention(Linear Attention)的变体),是非常值得尊重的
    • 论文中含有非常多的训练和实现细节,比如 AdamW 优化器参数的观察和调整;重复文本生成的提前结束等,都是非常难得的实验观察和实现细节
    • 综上:这篇文章的含金量也非同一般!
  • 论文介绍了 MiniMax-M1(后续有时候也简称 M1),包含许多特性
    • MiniMax-M1 是全球首个开源的、基于混合注意力(hybrid-attention)架构的大规模推理模型
    • MiniMax-M1 采用了 MoE 架构与 Lightning Attention 机制相结合的设计
    • MiniMax-M1 模型基于论文之前的 MiniMax-Text-01 模型(2025)开发
    • MiniMax-M1 总参数量为 456B,每个 token 激活的参数量为 45.9B
    • MiniMax-M1 模型原生支持 1M token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍
    • MiniMax-M1 的 Lightning Attention 机制能够高效扩展测试时计算(test-time compute)
      • 例如,在生成长度为 100K token 时,其 FLOPs 消耗仅为 DeepSeek R1 的 25%
    • 以上这些特性使得 MiniMax-M1 特别适合需要处理长输入并进行深度思考的复杂任务 :
  • 大规模强化学习训练 :MiniMax-M1 通过大规模 RL 在多样化问题上进行训练,涵盖从传统数学推理到基于沙盒(sandbox)的真实世界软件工程环境
    • 改进一:在 RL 训练中,Lightning Attention 存在固有的效率优势
    • 改进二:论文提出了 CISPO(一种新型 RL 算法),通过裁剪重要性采样权重而非 token 更新来进一步提升 RL 效率
  • 训练成本低 :
    • 结合混合注意力与 CISPO,MiniMax-M1 在 512 张 H800 GPU 上的完整 RL 训练仅需三周 ,租赁成本仅为 53.47 万美元
  • 发布版本 :
    • 论文发布了两个版本的 MiniMax-M1 模型,分别支持 40K 和 80K token 的思考预算
    • 其中 40K 模型是 80K 训练过程的中间阶段
    • 作者在 GitHub 和 Hugging Face 上公开了 MiniMax-M1 模型,地址为:https://github.com/MiniMax-AI/MiniMax-M1
  • 模型效果基准测试 :
    • 在标准基准测试中,论文的模型表现优于或与领先的开源模型(如 DeepSeek-R1 和 Owen3-235B)相当,尤其在复杂软件工程、工具使用和长上下文任务中表现突出
  • 整体评价 :
    • 通过高效扩展测试时计算,MiniMax-M1 为下一代语言模型代理提供了强大的基础,使其能够推理并应对现实世界的挑战

Introduction and Discussion

  • 大型推理模型(Large Reasoning Models, LRMs),如 OpenAI o1(2025)和 DeepSeek-R1(2025),通过大规模 RL 扩展推理长度,已取得了显著成功
    • 近几个月来,开源社区和商业组织纷纷跟进这一趋势,在复杂任务(如奥林匹克数学竞赛和竞技编程)上取得了重大进展(Anthropic,2025;Google DeepMind,2025;2025;Kimi Team,2025;Seed Team 2025;2025;2025)
    • LRMs 的成功主要归功于测试时计算这一新的扩展维度,随着更多 FLOPs 被用于生成过程中的扩展推理,模型性能(尤其是复杂现实应用中的性能)表现出持续提升(2024;OpenAI,2025)
  • 在传统的 Transformer 架构(2017)中,持续扩展推理过程具有挑战性,因为 softmax 注意力机制具有固有的二次计算复杂度
    • 已有研究提出了多种技术来缓解这一问题,例如:
      • 稀疏注意力(sparse attention)(2020;2025;2025;2020)
      • 线性注意力(linear attention)(2024;2021;2025;2024;2020;2021;2021;2024;2025,2023;2024)
      • 带 delta 衰减的线性注意力(linear attention with delta decay)(2025;2024a,2024b)
      • 状态空间模型(state space models)(Dao 和 Gu,2024;2024;Gu 和 Dao,2024;2020,2022,2023;2022;Jamba Team,2024;2024)
      • 线性 RNN(linear RNNs)(2024;2024;1997;2018;2023;2023;2025;2024;2025)
    • 以上这些方法尚未在大规模推理模型中得到充分验证 ,几乎所有现有的竞争性 LRMs 仍依赖于传统的注意力机制(理解:即 softmax 注意力机制)
    • 唯一的例外是采用 Mamba 架构(2024;2024)的 Hunyuan-T1 模型(Tencent AI Lab,2025),但该模型未开源且披露细节有限
    • 本工作的目标是构建并开源一个能够高效扩展测试时计算、并与最先进推理模型竞争的大型推理模型
  • MiniMax-M1 模型介绍
    • MiniMax-M1 是一个基于 MoE 架构和 Lightning Attention(2024b)的推理模型
      • Lightning Attention 是线性注意力变体的 I/O 感知实现(2024b)
    • MiniMax-M1 基于论文之前的 MiniMax-Text-01(2025)模型开发,总参数量为 456B,激活参数量为 45.9B,包含 32 个专家
    • 在论文的注意力设计中,每 7 个 Lightning Attention Transformer 块后跟随一个带 softmax 注意力的 Transformer 块(2024b)
      • 理解:相当于在 8 个 attention 中,有 7 个用的 linear attention,仍有 1 个使用的 softmax attention,完全放弃 softmax attention 比较难
    • 这种设计理论上能够高效扩展推理长度至数十万 token,如图 1(右图)所示
      • 与 DeepSeek R1 相比,M1 在生成长度为 64K token 时的 FLOPs 消耗不到 50%,在 100K token 时约为 25%
      • 这种计算成本的大幅降低使得 M1 在推理和大规模 RL 训练中显著更高效
      • 此外,得益于其 Lightning Attention 机制,论文的 M1 模型原生支持高达 1M token 的上下文长度
        • 与 MiniMax-Text-01 一致
        • 这是 DeepSeek R1 上下文大小的 8 倍,比目前所有开源 LRMs 高出一个数量级
      • 这些特性使得 M1 特别适合处理需要长输入和扩展思考的复杂现实任务
    • 表 1 展示了 M1 与其他领先模型在最大输入和输出长度上的对比
  • 为了开发 M1 模型,论文做了以下工作:
    • 第一步 :在精心策划的、以推理为主的语料库上对 MiniMax-Text-01 进行了 7.5T token 的继续预训练
      • 注意:是在 MiniMax-Text-01 上进行的继续预训练,不是从头开始
    • 第二步 :通过 SFT 注入特定的 CoT 模式(2022),为 RL 阶段(M1 开发的核心阶段)奠定了坚实基础
    • 第三步 :论文的高效 RL 框架使得 MiniMax-M1 在 512 张 H800 GPU 上的完整 RL 训练仅需 3 周——相当于约 53.47 万美元的租赁成本
    • 特别讨论:论文的 RL 扩展通过两个关键视角的创新实现了高效性:
      • (1)论文提出了 CISPO,它放弃了信任区域约束,转而裁剪重要性采样权重以稳定训练
        • 这种方法始终利用所有 token 进行梯度计算,在实验中表现出比 GRPO(2024)和 DAPO(2025)更高的效率
        • 在基于 Qwen2.5-32B 模型(2025)的对照研究中,CISPO 实现了比 DAPO 快 2 倍的速度;
      • (2)论文开发了针对性解决方案来应对这些挑战,并成功实现了混合架构的 RL 扩展
        • 背景:尽管 M1 的混合注意力设计天然支持高效的 RL 扩展,但在扩展 RL 训练时仍面临独特挑战
        • 作者发现架构的训练和推理内核之间存在精度不匹配问题,这会阻碍 RL 训练中的奖励增长
  • 除了方法创新外,论文还为 RL 训练策划了多样化的问题和环境。论文的数据涵盖可验证和不可验证的问题
    • 对于通常被视为推理学习关键的可验证问题:
      • 论文不仅包含数学推理和竞技编程问题(相关工作中常用的)
      • 还利用论文之前的数据合成框架 SynLogic(2025a)生成了涵盖 41 种不同任务的多样化逻辑推理问题
      • 论文基于 SWE-bench(2024)构建了复杂软件工程(Software Engineering, SE)环境的沙盒(sandbox),并在真实 SE 问题上进行基于执行的 RL 训练,以提升 M1 在挑战性 SE 场景中的表现
        • 理解:这里应该主要是指模型编程能力
    • 论文的不可验证问题涵盖问答和创意写作等广泛领域,其中论文使用生成式奖励模型提供反馈
  • 开源情况:
    • 论文训练了两个版本的 MiniMax-M1 模型,分别支持最大 40K 和 80K token 的生成长度,对应模型为 MiniMax-M1-40k 和 MiniMax-M1-80k
    • MiniMax-M1-80k 在复杂数学和编程任务上优于 MiniMax-M1-40k,进一步证明了扩展测试时计算的好处
    • 作者已将模型公开发布在 GitHub 和 Hugging Face 上
    • 这些模型现支持 vLLM 和 Transformers 框架,详细的部署指南可在 vLLM 和 Transformers 文档中找到
    • 此外,作者还提供了商业级 API,地址为 minimax.io
  • 如图 1(左图)所示,MiniMax-M1 在整体性能上超越了之前的领先开源模型(如 DeepSeek-R1 和 Qwen-235B),尤其在复杂软件工程、工具使用和长上下文任务中表现突出
    • 与最新的 DeepSeek-R1-0528 模型相比,MiniMax-M1 在数学和编程竞赛中稍逊,但在更现实的工具使用和长上下文场景中表现相当或更优
    • 值得注意的是,MiniMax-M1 在代理工具使用基准 TAU-Bench(2025)上超越了 Gemini 2.5 Pro,并在长上下文理解基准上优于 OpenAI o3 和 Claude 4 Opus
  • 通过高效扩展测试时计算,MiniMax-M1 为下一代语言模型代理应对现实挑战奠定了坚实基础

Preparation for Scalable RL: Continual Pretraining and SFT

  • 在本工作中,论文专注于通过强化学习扩展 MiniMax-Text-01 的推理能力
  • 为了支持可扩展的 RL 训练,论文进行了继续预训练和 SFT 两个阶段:
    • 继续预训练 :对基础模型进行了继续预训练,以增强其内在推理能力
    • SFT :随后通过冷启动的 SFT 阶段为模型注入特定的推理模式,从而为后续 RL 阶段提供更强的基础

Continual Pre-Training: Foundation for RL Scaling

  • 为了增强基础模型的推理和长上下文能力,同时确保多样性,论文使用额外的 7.5T token 继续训练 MiniMax-Text-01 模型,并优化了数据质量和混合比例
Training Data
  • 论文改进了网页和 PDF 解析机制 ,并优化了启发式清洗规则 ,以确保数学和代码相关数据的高召回率
  • 论文优先从网页、论坛和教科书等多样化来源提取自然问答对(QA pairs),同时严格避免使用合成数据
  • 论文对 QA 数据进行了语义去重,以保持其多样性和独特性
  • 论文还提高了 STEM(科学、技术、工程和数学)、代码、书籍和推理相关数据的比例至 70%,这显著增强了基础模型处理复杂任务的能力,同时不影响其其他通用能力
Training Recipe
  • 论文降低了 MoE 辅助损失的系数 ,并调整了并行训练策略以支持更大的训练微批次(micro batch)大小 ,从而减轻辅助损失对模型整体性能的负面影响
  • 基于 MiniMax-Text-01,论文以恒定学习率 8e-5 训练了 2.5T token,随后在 5T token 上采用衰减计划将学习率降至 8e-6
    • 理解:没有 warmup 阶段?
Long Context Extension
  • 对于具有更高收敛复杂性的 hybrid-lightning 架构模型,论文观察到训练长度扩展过于激进会导致梯度爆炸 ,使优化过程极具挑战性
    • 作者将此归因于早期层的参数优化未能跟上后期层的变化(对于 Lightning Attention),早期层和后期层具有不同的衰减率,这使得早期层更关注局部信息
    • 论文通过分阶段平滑扩展上下文长度缓解了这一问题:
      • 从 32K 上下文窗口开始 ,最终将训练上下文扩展至 1M token

SFT: Focused Alignment for Efficient RL

  • 在继续预训练后,论文进行了 SFT,利用高质量示例注入 reflection-based CoT 推理等期望行为,为后续 RL 阶段提供了更高效和稳定的起点
  • 具体而言,论文策划了包含长 CoT 响应的数据样本,涵盖数学、编程、STEM、写作、问答和多轮对话等多样化领域,其中数学和编程样本约占全部数据的 60%

Efficient RL Scaling: Algorithms and Lightning Attention

  • 如图 1(右)所示,M1 架构在推理过程中展现出显著的效率优势
  • 这自然有助于在生成长度逐渐增加的响应时实现高效的强化学习扩展
  • 但作为在这一混合架构中扩展强化学习的先驱者,论文在过程中遇到了独特的挑战,并且由于各种问题,强化学习过程可能会变得不稳定甚至失败
  • 贡献一 :为了解决这些困难,论文开发了针对性的解决方案 ,成功实现了 M1 的强化学习扩展
  • 贡献二 :论文还提出了一种新的强化学习算法 CISPO ,其效率优于现有方法
  • 这两项贡献共同构成了训练 M1 的高效且可扩展的强化学习框架,完整的训练周期在 512 张 H800 GPU 上仅需 3 周时间,相当于约 53 万美元的租赁成本
  • 本节首先介绍强化学习的背景知识并展示论文的新算法,随后描述论文在混合架构中遇到的具体挑战以及为解决这些挑战而设计的方案

Efficient RL Scaling with CISPO

Background
  • 对于数据集 \(\mathcal{D}\) 中的问题 \(q\),论文将策略模型表示为参数化的 \(\pi_\theta\),生成的响应为 \(o\)。PPO(2017)采用以下目标函数来优化策略以最大化预期回报,并通过裁剪操作稳定训练:
    $$
    \mathcal{J}_{\text{PPO} }(\theta) = \mathbb{E}_{q\sim\mathcal{D},o_i\sim\pi_{\theta_{\text{old} } }(\cdot|q)} \left[\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}\min\left(r_{i,t}(\theta)\hat{A}_{i,t}, \text{clip}(r_{i,t}(\theta),1-\epsilon,1+\epsilon)\hat{A}_{i,t}\right) - \beta D_{KL}(\pi_\theta||\pi_{\text{ref} })\right],
    $$
    • 其中 \(r_{i,t}(\theta) = \frac{\pi_\theta(o_{i,t}|q,o_{i,< t})} {\pi_{\theta_{\text{old} } } (o_{i,t}|q,o_{i, < t})}\) 是重要性采样权重(Importance Sampling, IS),用于在 Off-policy 更新时校正分布
  • PPO 需要一个单独的价值模型来计算优势 \(\hat{A}_{i,t}\),GRPO(2024)则通过将优势定义为响应组内相对奖励来消除价值模型:
    $$
    \hat{A}_{i,t} = \frac{R_i - \text{mean}(\{R_j\}_{j=1}^G)}{\text{std}(\{R_j\}_{j=1}^G)},
    $$
    • 其中 \(R_i\) 是响应的奖励,每个问题采样 \(G\) 个响应 \(\{o_i\}_{i=1}^G\)
    • 奖励可以来自基于规则的验证器(如数学问题求解)或奖励模型
Issues of Token Clipping
  • 在 Zero-RL 设置下对混合架构进行初步实验时,论文发现 GRPO 算法对训练性能产生了负面影响,且未能有效促进长链思维推理行为的涌现
  • 通过一系列对照实验,最终确定原始 PPO/GRPO 损失中的裁剪操作是导致学习性能下降的主要因素
    • 作者发现与反思行为相关的 Token(例如“However”、“Recheck”、“Wait”、“Aha”)通常较为罕见,且被基础模型分配了较低的概率
      • 补充说明:当时,可以观察到的是这些词的频次是和下游性能指标一起提升的,推测这是作者会重点关注到这一部分的原因之一
  • 在策略更新过程中,这些 Token 往往会表现出较高的 \(r_{i,t}\) 值,因此在首次策略更新后被裁剪掉,无法为后续的 Off-policy 梯度更新做出贡献
    • 这一问题在混合架构模型中尤为突出,进一步阻碍了 RL 的扩展
  • 问题是:这些低概率 Token 对于稳定熵(2025)和促进可扩展强化学习(2025)至关重要
  • DAPO 尝试通过增加裁剪上限来缓解这一问题,但论文发现这种方法在论文的设置中效果有限,因为每次生成批次需要进行 16 轮 Off-policy 更新
The CISPO Algorithm
  • 基于以上分析,论文提出了一种新算法,明确避免丢弃 Token(即使是那些与大幅更新相关的 Token),同时通过合理范围的熵保持稳定探索
  • 首先,回顾带有校正分布(重要性采样)的原始 REINFORCE 目标函数 :
    $$
    \mathcal{J}_{\text{REINFORCE} }(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D},o_t\sim\pi_{\theta_{\text{old} } }(\cdot|q)} \left[\frac{1}{|o_i|}\sum_{t=1}^{|o_i|} \mathbf{sg}(r_{i,t}(\theta))\hat{A}_{i,t}\log\pi_\theta(o_{i,t} \mid q,o_{i,<t})\right], \tag{3}
    $$
    • 其中 \(\mathbf{sg}(\cdot)\) 表示停止梯度操作
    • 注意:这里的截断方式与 PPO/GRPO 有着明显的不同
      • 在 PPO/GRPO 中,被截断以后就整个 Token 都不生效了(这部分 Token 的梯度因为截断而变成 0);
      • 但是这里的截断方式下,仅仅是将重要性权重比例进行了截断,Token 的重要性比例被截断了,但本身梯度还可以被继续更新
  • 与 PPO/GRPO 中裁剪 Token 更新不同,论文在公式 3 中裁剪重要性采样权重以稳定训练(CISPO 是基于原始 REINFORCE 方法的,而不是基于 PPO/GRPO 的)
    • 论文将这种方法称为 CISPO(Clipped IS-weight Policy Optimization) ,采用 GRPO 的组相对优势和 Token-level 损失(2025),CISPO 优化以下目标函数:
      $$
      \mathcal{J}_{\text{CISPO} }(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D},\{o_i\}_{i=1}^G\sim\pi_{\theta_{\text{old} } }(\cdot|q)} \left[\frac{1}{\sum_{i=1}^G |o_i|} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \mathbf{sg}(\hat{r}_{i,t}(\theta))\hat{A}_{i,t}\log\pi_\theta(o_{i,t} \mid q,o_{i,<t})\right], \tag{4}
      $$
    • 其中 \(\hat{r}_{i,t}(\theta)\) 是裁剪后的重要性采样权重:
      $$
      \hat{r}_{i,t}(\theta) = \text{clip}\left(r_{i,t}(\theta),1-\epsilon_{low}^{IS},1+\epsilon_{high}^{IS}\right).
      $$
    • 特别强调 again:这里 CISPO 的截断方式与 PPO/GRPO 有着明显的不同
      • 在 PPO/GRPO 中,截断对象是整个 Token 本身,被截断以后就整个 Token 都不生效了(这部分梯度因为截断而变成变成 0);
      • 在 CISPO 的截断方式下,仅仅是将重要性权重比例进行了截断,Token 的重要性比例被截断了,但本身梯度还可以被继续更新
        • 严格来讲:CISPO 中,无论怎样的 Token 都会参与更新,只是说重要性比例对应的权重会被截断调整
    • 理解(吐槽一下):现在这种做法改变了重要性采样的比值了,没有科学依据了,这里其实放宽裁剪系数就可以做到相同的效果吧,比如将上界进一步放开
  • 实际上,如果不进行权重裁剪,\(\mathcal{J}_{\text{CISPO} }\) 会退化为标准的策略梯度目标(准确说是带重要性采样修正的策略梯度目标)
    • 注意:此时已经不是 PPO 或 GRPO 的形式了,是标准的 策略梯度形式
  • 在实验中,论文未对重要性采样权重设置下限(即 \(\epsilon_{low}^{IS}\) 设为较大值),仅调整 \(\epsilon_{high}^{IS}\)
  • 尽管公式 4 的梯度因权重裁剪而略有偏差 ,但这种方法保留了所有 Token 的梯度贡献 ,尤其是长响应中的 Token
    • 理解:这里是指尤其在长响应中的 Token 容易出现概率自身概率较低的,此时其重要性采样系数波动可能会比较大(容易被完全 Clip 掉梯度而得不到好的更新)
  • CISPO 在实验中表现有效,有助于降低方差并稳定强化学习训练
  • 此外,论文还采用了动态采样和长度惩罚技术(2025)
  • 与近期其他工作(2025)类似,CISPO 中没有 KL 惩罚项
A General Formulation
  • 这里给出一个通用形式的表达
  • 注意:作者在实验中采用了 CISPO,这里进一步给出了一种统一形式化方法,通过在 CISPO 目标中引入 Token-level 掩码来控制是否以及在何种条件下应丢弃特定 Token 的梯度:
    $$
    \mathcal{J}_{\text{unify} }(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D},\{o_i\}_{i=1}^G\sim\pi_{\theta_{\text{old} } }(\cdot|q)} \left[\frac{1}{\sum_{i=1}^G |o_i|} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \mathbf{sg}(\hat{r}_{i,t}(\theta))\hat{A}_{i,t}\log\pi_\theta(o_{i,t} \mid q,o_{i,<t})M_{i,t}\right].
    $$
    • 掩码 \(M_{i,t}\) 等价于 PPO 信任区域中隐式定义的掩码:
      $$
      M_{i,t} = \begin{cases}
      0 & \text{if } \hat{A}_{i,t} > 0 \text{ and } r_{i,t}(\theta) > 1 + \epsilon_{\text{high} }, \\
      0 & \text{if } \hat{A}_{i,t} < 0 \text{ and } r_{i,t}(\theta) < 1 - \epsilon_{\text{low} }, \\
      1 & \text{otherwise}.
      \end{cases}
      $$
  • 这一统一的损失形式化可以在一个共同框架下灵活表示不同的裁剪策略
    • 理解:
      • 公式仍然不是 PPO 的形式,是一个标准的策略梯度,但可以通过上述的掩码(像 PPO 一样)实现丢弃部分样本
      • 这种做法本质和 PPO 类似了,重要性采样和 Clip 都有了,实际上 PPO 的核心元素应该是都是实现了,只是 CISPO 这个统一目标可以将重要性采样比值的 Mask 和 Clip 使用的上下界分开设置了
        • PPO 中两者是耦合到一起的,没有被 mask 掉的重要性权重,都会采样自身的值
        • CISPO 统一公式中,clip 和 mask 可以分开,即假设 \(r=8\) 才会截断,同时可以配置前面的 Clip 上界为 \(5\),这样可以允许 \(r\in[5, 8]\) 的 Token 被以 \(r=5\) 取更新梯度(防止完全丢弃这部分重要的 Token)
Empirical Validation of CISPO
  • 为了验证 CISPO 的有效性,论文在 Zero-RL 训练设置中将其与 DAPO 和 GRPO 进行了实证比较
  • 论文在数学推理数据集(2025)上应用不同的强化学习算法训练 Qwen2.5-32B-base 模型,并在 AIME 2024 基准测试中报告性能
  • 如图 2 所示,在相同训练步数下,CISPO 显著优于 DAPO 和 GRPO
  • CISPO 展现出更高的训练效率(仅用 50% 的训练步数即可达到 DAPO 的性能)
  • 个人理解:CISPO 的收益来源应该是 CISPO 多训练了一些本该被截断的样本
    • 问题一:这里的实验可以做的更加充分,比如将 DAPO 的上界提升(释放出来更多被截断的 Token),是不是会有不同效果
    • 问题二:CISPO 本质上是让所有 Token 都被更新,在信号相对准确时,确实应该能提升训练效率(实验中也可以看到),但是 PPO 原始的思路不是表面的简单 Clip,而是隐含了希望 \(\pi_\theta\) 偏离 \(\pi_{\theta_\text{old}}\) 的范围在 \([1-\epsilon, 1+\epsilon]\) 之间,超过的先不更新,但允许拉回来
      • 注:CISPO 中介绍的 General Formulation 形式完美的保留了 PPO 的这个思想,PPO 可以认为是这个 CISPO General Formulation 的一个特例

Efficient RL Scaling with Lightning Attention - Challenges and Recipes

  • 如图 1(右)所示,论文强调混合注意力设计相比传统注意力设计天然支持更高效的强化学习扩展,因为 rollout 计算和延迟通常是强化学习训练的主要瓶颈
  • 作为在这一新颖架构中进行大规模强化学习实验的先驱者,论文遇到了独特的挑战并开发了针对性的解决方案,具体如下
Computational Precision Mismatch in Generation and Training
  • 强化学习训练对计算精度高度敏感
  • 在训练过程中,论文观察到训练模式和推理模式下生成 Token 的概率存在显著差异(如图 3 左)
  • 这种差异源于训练和推理内核之间的精度不匹配
    • 这一问题具有破坏性,阻碍了实验中奖励的增长
    • 有趣的是,这一问题并未出现在使用 softmax 注意力的小型 Dense 模型中
  • 通过逐层分析,作者确定了 输出层 LM 头部(LM head at the output layer)的高幅值激活是误差的主要来源
    • 理解:这是很有用也很强的实践经验
  • 为了解决这一问题,作者将 LM 输出头(LM output head)的精度提高到 FP32 ,从而重新对齐理论上相同的概率(如图 3 右)
    • 理解:这里可以大幅缓解训推不一致问题
    • 这一调整将训练和推理概率之间的相关性从约 0.9x 提高到 0.99x
    • 而且,这一相关性指标在整个训练过程中保持稳定,从而实现了奖励的持续增长
Optimizer Hyperparameter Sensitivity
  • 论文使用 AdamW(2019)优化器,但 \(\beta_1\)、\(\beta_2\) 和 \(\epsilon\) 的不当配置可能导致训练不收敛(2023)
    • 例如,使用 VeRL(2024)的默认配置(betas = (0.9, 0.999) 和 eps = 1e-8)会导致此类问题
  • 论文观察到 MiniMax-M1 训练中的梯度幅值范围广泛,从 1e-18 到 1e-5,且大多数梯度小于 1e-14
  • 此外,相邻迭代的梯度相关性较弱(理解:说明不能使用太强的平滑系数,即应该让历史值对当前值的影响变小些)
  • 基于此,论文将 \(\beta_1\) 设为 0.9,\(\beta_2\) 设为 0.95,eps 设为 1e-15
  • 注(表扬):这种非常细节的点是需要实践出来的,这种细节的披露对社区发展很有帮助
Early Truncation via Repetition Detection
  • 在强化学习训练中,论文发现复杂提示可能引发病态的长重复响应 ,其大幅梯度威胁模型稳定性
  • 论文的目标是提前终止这些生成循环 ,而非惩罚已经重复的文本
  • 由于简单的字符串匹配对多样化重复模式无效,论文开发了一种基于 Token 概率的启发式方法
  • 论文观察到,一旦模型进入重复循环,每个 Token 的概率会飙升
  • 因此,论文实施了早期截断规则:
    • 如果连续 3,000 个 Token 的概率均超过 0.99,则停止生成
    • 这一方法成功防止了模型不稳定性,并通过消除这些病态长尾案例提高了生成吞吐量
  • 理解:这里作者给了一个非常有意义的理解(观察),当出现重复循环时,模型的输出非常的自信,此时输出概率非常高

Scaling Reinforcement Learning with Diverse Data

  • 本节将介绍论文在 RL 阶段采用的数据和奖励机制
  • 论文整合了多样化的任务环境到强化学习训练流程中,包括可通过规则验证的任务以及需要通过奖励模型验证的通用任务
  • 所有这些环境均通过精心设计的课程学习(curriculum)融入强化学习阶段

Reasoning-Intensive Tasks with Rule-based Verification

  • 以下介绍论文可通过确定性规则验证的数据
  • 对于以下所有任务,论文采用基于规则的最终正确性作为正确性奖励,并辅以格式奖励
Mathematical Reasoning
  • 论文的初始数学数据集包含数十万道高质量竞赛级题目,这些题目从公开资源和官方数学竞赛中精心整理而来,涵盖广泛的难度范围,每道题目均配有标准参考答案
  • 数据清洗流程:
    • 首先剔除不完整样本以及存在格式或排版错误的样本
    • 随后对强化学习数据源进行 Embedding-based 的去重处理,并严格分离 SFT 数据集以避免重叠
      • 因为监督微调阶段的数据泄漏到强化学习阶段会阻碍探索并削弱训练效果
  • 剔除污染基准的样本 :论文采用 n-gram 和 Embedding-based 的方法剔除可能污染常用数学基准测试集的样本 ,从而确保评估的完整性和公平性
  • 样本优选流程:
    • 首先:论文过滤掉包含多个子问题、证明类题目以及易受随机猜测影响的二元选择题(如判断题) ,并将多选题重新格式化为开放式问题以更好地适应强化学习框架
    • 其次:论文使用内部模型从参考答案中提取最终答案,仅保留那些答案能被基于规则的检查器正确解析的样本
    • 最后:论文通过强推理模型计算每道题目的 pass@10 通过率,仅保留通过率严格介于 0 到 0.9 之间的样本,最终得到近 5 万道高质量数学题目用于强化学习训练
Logical Reasoning
  • 对于逻辑推理数据,论文精心挑选了 41 项需要非平凡推理能力的任务(如密码破解和数独),并通过数据合成框架生成所有数据
  • 具体而言,论文利用 SynLogic 框架(2025a)实现数据合成流程,该框架包含任务特定的数据生成器和基于规则的任务验证器,支持自动生成逻辑数据
  • 论文在生成过程中精细配置难度参数,确保数据的学习挑战性适中
  • 为防止包含过于困难的实例:
    • 论文基于当前强推理模型的可解性上限设定难度上限,要求其 pass@10 通过率大于零;
    • 同时,相似的设置难度下限

      Specifically, to prevent inclusion of overly difficult instances, we establish an upper difficulty bound based on the solvability limits of current strong reasoning models, requiring their pass@10 rates greater than zero. Similarly, we set a lower difficulty bound using the lowest difficulty parameters for which the MiniMax-Text-01 model achieves pass rates between 0 and 0.5

      • 理解:从文章中阅读文字来看,难度下限的设置方式是:
        • 首先测试 MiniMax-Text-01 模型在不同难度参数下的表现
        • 找到一组参数,使得该模型的任务通过率恰好处于 0%-50% 区间
        • 将这组参数对应的难度水平作为数据集的最低难度标准
    • 这一方法确保数据在难度和可学习性之间保持平衡。此外,随着模型能力在训练中提升,论文在后期阶段逐步提高数据难度。通过该框架,论文合成了约 53K 条逻辑推理样本用于强化学习训练
Competitive Programming
  • 对于竞技编程问题,论文从在线判题平台和热门编程网站收集公开题目
  • 对于缺乏测试用例的题目,论文开发了 LLM-based 的工作流,利用 MiniMax-Text-01 模型生成全面的测试套件
  • 与数学推理数据集的处理类似,论文基于模型采样的通过率筛选题目质量和难度,保留中等难度且高质量的算法问题
  • 通过这一流程,论文生成了 30K 条竞技编程数据样本用于强化学习训练
Software Engineering
  • 在软件工程领域,受 SWE-bench(2024)启发,论文通过利用公开 GitHub 仓库的真实数据构建了可验证的强化学习环境
  • 数据集主要由问题和 Pull Request 组成,涵盖常见的软件开发挑战,如错误定位、代码修复和测试用例合成
  • 为支持高效强化学习,论文开发了一个复杂的容器化沙盒环境(sandbox environment),模拟真实的软件开发工作流
  • 该环境支持实际代码执行,为智能体提出的干预措施提供直接且可验证的正确性和有效性反馈
  • 预定义或新生成测试用例的通过/失败状态作为强化学习的主要奖励信号:
    • 成功执行并通过所有相关测试用例将获得正向奖励
    • 编译错误、运行时失败或测试用例回归则导致零或负奖励
    • 从而为策略优化提供清晰信号
  • 通过这一流程,论文整理出数千条高质量数据样本
    • 每条样本包含问题描述(如问题中的错误报告)、初始错误代码和一组关联测试用例
  • 这一设置使强化学习智能体能够学习准确定位错误、提出正确代码修复方案 ,甚至合成新的有效测试用例 ,通过沙盒环境中的执行直接验证性能

General Domain Tasks with Model-based Feedbacks

  • 本节将强化学习范围进一步扩展至更广泛的通用领域任务
  • 由于这些任务难以通过规则验证,论文利用奖励模型提供反馈
Data and Reward Models
  • 论文的通用强化学习数据集总计包含 25K 条复杂样本,可大致分为两类:
    • 难以通过规则验证的,有客观答案的样本
    • 无标准答案的样本
Tasks with Ground Truth
  • 此类任务主要包括 STEM 和其他事实性问题,其答案客观但可能有多种有效表达形式
    • 这种多样性通常导致基于规则的检查器不准确
  • 论文的数据清洗流程与数学推理类似,但使用生成式奖励模型(Generative Reward Model, GenRM)作为验证器,而非依赖基于规则的检查器
  • 为评估标准答案与模型响应的一致性,论文采用五级奖励缩放来评估两个组件:
    • 首先构建人工标注的奖励模型基准,涵盖多样知识领域和任务类型的客观任务,特别是那些基于规则检查器无法准确判断的模型响应-标准答案对;
    • 其次通过比较 GenRM 选择的 Best-of-N(BoN)响应与多个基准上的 pass@N 指标来评估 GenRM 的有效性
      • 问题:这里的基准上的 pass@N 指标是什么?在这种表达形式不确定的多场景怎么会有 pass@N 指标呢?
    • GenRM 的性能评估:通过其在人工标注基准上的准确率以及 BoN 与 pass@N 之间的性能差距来衡量
      • 这些指标指导实验以优化数据分布和 GenRM 训练中的提示设计
Tasks without Ground Truth
  • 此类任务涵盖更广泛的范围,包括指令遵循、创意写作等
  • 提示词从基于内部标签系统的大规模池中采样,确保跨细粒度领域的平衡训练分布
  • 尽管这些查询通常是开放式的且无标准答案,论文仍尝试为每个查询配对参考答案以支持奖励模型判断
    • 论文首先生成来自各种内部和外部模型的响应,随后这些参考答案需通过内部质量评估
    • 在强化学习训练期间,论文采用成对比较框架评估模型输出
      • 每次比较生成 -1、0 或 1 的分数,分别表示模型输出劣于、类似于或优于参考答案
  • 对于特别带有约束的指令遵循任务,论文同时使用基于规则的奖励评估响应是否满足约束,以及基于模型的奖励评估响应质量
  • 与有标准答案的设置类似
    • 论文首先构建人工标注基准,整合来自可靠标注者的多重盲测偏好判断
    • 随后优化评分标准和偏好提示以提高准确性并减少潜在偏差(详见 4.2.2 节)
  • 为最小化潜在偏差,训练数据还通过多重盲测一致判断、位置切换一致判断等方法优化
  • 一旦训练出最优 GenRM,将在训练数据集上执行瑞士轮(Swiss Round)评分系统以确定最适合强化学习训练的参考答案
    • 问题:这里的瑞士轮方法具体是什么?
    • 瑞士轮评分方法:
      • 进行多轮对战
      • 每一轮上让分数尽可能相近的参赛者进行比赛
      • 两个组之间只会进行一次比赛
      • 比赛轮次结束后,按照累计分数排名
Addressing Bias of Generative Reward Models for Long CoT
  • 针对复杂链式推理(CoT)任务的有效通用强化学习高度依赖准确且无偏差的奖励模型,评估此类链式推理响应具有挑战性
    • 论文发现 GenRM 倾向于偏好更长输出而非可能更优质的简洁替代方案 ,而不考虑实际推理质量
  • 这种长度偏差(length bias)是一个严重问题,因为它可能严重误导强化学习策略优化,激励无实质内容的冗长表达并诱发奖励破解(reward hacking)
  • 论文初步改进 GenRM 保真度的努力包括标准离线策略:
    • (1) 多样化训练数据,涵盖广泛的响应长度、来源和质量层级;
    • (2) 纳入对抗样本以暴露脆弱性;
    • (3) 优化模型架构
  • 然而,实证分析表明,纯粹离线评估和预缓解 GenRM 中的长度偏差往往无法在强化学习训练期间防止长度偏差
    • 问题:只要 GenRM 足够精确的话,理论上来说,基于 GenRM 的 RL 训练也是可以避免长度偏差的吧
  • 因此,论文的核心策略是在强化学习训练期间持续在线监测长度偏差
    • 设立特定指标以检测强化学习策略是否过度延长输出长度以最大化 GenRM 奖励,而未能提升任务成功率或推理深度
    • 一旦检测到这种有害的长度追求行为(表明利用了 GenRM 长度偏差),立即触发 GenRM 重新校准
    • 这种迭代调整对于预防与输出长度相关的奖励破解至关重要,确保策略优先提升实质能力而非表面文本膨胀
    • 作为补充,论文系统性地采用强化学习侧技术,包括奖励塑形(reward shaping)、价值裁剪(value clipping)和归一化(normalization)
      • 这些机制使奖励信号对表面特征(如长度)的极端值不敏感,从而引导策略优化专注于长链式推理的实质质量和正确性

Curriculum of Incorporating Diverse Data

  • 鉴于论文的强化学习数据涵盖广泛类别,核心挑战是训练单一策略以同时在推理密集型任务和通用领域任务上表现出色
  • 为此,论文的方法涉及在强化学习训练过程中精心管理课程和动态加权策略:
    • 开始仅使用基于规则奖励的推理密集型任务 ,随后逐步混入通用领域任务
    • 这确保模型持续精进可验证技能(如数学和编程),同时逐步提升在多样化通用任务上的表现,从复杂指令遵循到开放式链式推理
    • 这种混合强化学习训练鼓励模型学习上下文依赖的推理能力应用
      • 即对可验证问题采用严格的逐步演绎,对通用查询采用更灵活的适应性生成
      • 所有能力均统一在单一策略框架下
    • 该方法避免了特定技能的灾难性遗忘,同时促进更广泛的泛化能力

Extending RL Scaling to Longer Thinking

  • 论文的首次 RL 训练设置了 40K 词元的输出长度限制
  • 鉴于 M1 的混合架构天然支持对更长序列的近线性扩展(如图 1 右所示),论文进一步在 RL 训练中将生成长度扩展至 80K 词元,由此得到的新模型称为 MiniMax-M1-80k

Data

  • 为了高效训练支持 80K 输出长度的 RL 模型,论文利用先前训练的 40K 模型指导数据筛选过程
    • 首先,论文在 第4节 描述的精选数据集上评估通过率,并移除易解决的样本
    • 随后,论文调整数据分布,偏向更具挑战性的示例(如高难度数学和编程问题)
  • 此外,论文减少合成推理数据的采样比例 ,因为观察到这类数据会破坏长上下文 RL 训练的稳定性
    • 具体而言,合成推理数据生成的输出往往重复且同质化 ,持续暴露于这些模式会对模型的整体性能产生负面影响

Length Scaling Strategy

  • 为逐步增加输出长度,论文采用分阶段窗口扩展的 RL 策略
    • 具体方法:初始输出长度为 40K,随后逐步扩展至 48K、56K、64K、72K,最终达到 80K
    • 这种分阶段方法确保了每一步的训练稳定性
    • 过渡到下一阶段的依据是一组经验指标 ,包括生成序列的困惑度收敛情况 ,以及输出长度的 99% 分位数是否接近当前上下文窗口限制
      • 这些信号为模型的扩展准备提供了关键洞察,从而在整个过程中保持稳健的训练

Addressing Training Instability During Scaling

  • 在扩展过程中,论文在每个长度窗口的训练后期遇到了一个关键问题:
    • 模型易出现模式崩溃(pattern collapse) ,即生成序列的后半部分退化为不连贯或乱码文本
    • 这一现象始终与困惑度上升同步,表明生成质量和稳定性受损
  • 论文确定了以上问题的根本原因:
    • 在输出长度扩展时,负样本的长度增长显著快于正样本 ,且更早触及上下文窗口限制
    • 这种不平衡源于 GRPO 的优势归一化和论文采用的 Token-level 损失的内在不对称性
  • 为此,论文实施了三种关键解决方案:
    • (1) 通过早期停止检测重复模式(连续高概率词元),防止重复响应过度消耗上下文窗口;
    • (2) 采用 Sample-level 损失与 Token-level 归一化相结合的方法,缓解正负样本不平衡及其负面影响;
      • 问题:Token-level 归一化是什么?
    • (3) 降低梯度裁剪阈值和 \(\epsilon_{high}^{IS}\) 以进一步稳定生成
  • 理解:由于 GRPO 的 Token-level 损失会给所有样本都加了一个权重 \(\color{red}{\frac{1}{|\mathbf{o}_i|}}\),导致模型鼓励长的错误回答和短的正确回答,即出现论文所谓的“负样本的长度增长显著快于正样本”,论文所说的解法应该是跟 DAPO 思路一致

Evaluations

Core Benchmarks

  • 论文对 MiniMax-M1 在多个关键领域进行了全面评估:数学、通用编程、软件工程、推理与知识、长上下文、智能体工具使用、事实性以及通用助手能力
  • 所有任务均使用温度 1.0 和 top-p 0.95 采样进行评估
  • 数学 :
    • 为评估数学推理能力,论文使用了多个竞赛级数学基准,包括 MATH-500 (2021)、AIME 2024 和 AIME 2025
    • 对于 AIME 评估,论文采样 32 次并计算平均通过率作为最终得分
  • 通用编程(General Coding) :
    • 论文使用 LiveCodeBench (2025) 和 FullStackBench (2024) 评估跨多样化编程任务的代码生成能力
    • 对于这两个基准,论文报告 16 次采样的平均通过率
  • 推理与知识(Reasoning & Knowledge) :
    • 通过 GPQA-Diamond (2024)、MMLU-Pro (2024) 和极具挑战性的 HLE (2025) 评估领域知识与推理能力
    • 对于 GPQA-Diamond,论文采样 32 次并报告平均通过率
    • HLE 评估在不使用外部工具的情况下进行
    • 论文使用 ZebraLogic (2025) 测量逻辑推理能力
  • 软件工程(Software Engineering) :
    • 论文使用 SWE-bench Verified (2024) 评估解决真实 GitHub 问题的能力
    • 结果基于 Agentless scaffold (2024) 的方法生成,采用两阶段定位流程(无嵌入检索机制):粗粒度文件定位后细化至具体文件和代码元素
  • 长上下文(Long Context) :
    • 使用 OpenAI-MRCR (OpenAI, 2024b) 测试长上下文中的检索与消歧能力,以及 LongBench-v2 (2024)——一个包含 503 道多选题的挑战性基准,上下文长度从 8K 到 2M 词不等
  • 智能体工具使用(Agentic Tool Use) :
    • 通过 TAU-bench (2025) 评估工具使用能力,该基准模拟动态对话场景,要求智能体遵循领域策略使用 API 工具
    • 评估使用 GPT-4.1 作为用户模型,通用系统提示,且无自定义工具,最大交互步数为 40
      • 注:论文中给出的通用系统提示为:“In each round, you need to carefully examine the tools provided to you to determine if any can be used. You must adhere to all of the policies. Pay attention to the details in the terms. Solutions for most situations can be found within these policies”
  • 事实性(Factuality) :
    • 使用 SimpleQA (2024) 测量模型的事实性,该基准通过对抗性收集的单答案问题构成
  • 通用助手(General Assistant) :
    • 使用 MultiChallenge (2025) 评估多轮对话能力,得分由 GPT-4 评判
  • 表 2 展示了 MiniMax-M1 在核心基准上的性能
  • 图 4 呈现了 RL 训练中准确率与生成长度随训练步数的变化趋势

Conclusion and Future Work

  • 推出并开源了 MiniMax-M1,这是全球首个采用 Lightning Attention 机制的大规模开放权重推理模型
  • 高效的注意力设计使 MiniMax-M1 原生支持高达 1M 词元的输入和 80K 词元的生成长度(远超其他开放权重模型的能力范围)
  • 这些特性使其特别适合需要长上下文和深度推理的复杂现实场景 ,其在软件工程、智能体工具使用和长上下文理解基准上的优异表现也验证了这一点
  • 除 Lightning Attention 对 RL 训练的固有优势外,论文还提出了一种新型 RL 算法 CISPO 以加速训练
  • 结合架构优势与 CISPO,论文高效完成了 MiniMax-M1 的训练,其完整 RL 训练仅需 3 周时间(使用 512 张 H800 GPU)
  • 综合评估表明,MiniMax-M1 与 DeepSeek-R1 和 Qwen3-235B 并列世界顶级开放权重模型
  • 展望未来:
    • 随着测试时计算(test-time compute)持续扩展以支持更复杂场景,作者预见此类高效架构在应对现实挑战中的巨大潜力,例如自动化企业工作流 (2025) 和科学研究 (OpenAI, 2025; 2024)
    • 实际应用尤其需要 LRM 作为智能体与环境、工具、计算机或其他智能体交互,这要求模型在数十至数百轮交互中进行推理,并整合多源长上下文信息
    • 论文期待 MiniMax-M1 凭借其独特优势成为此类应用的坚实基础,并将持续推动其向这一目标演进

NLP——LLM对齐微调-DPO相关改进

本文简单主要记录 DPO 的改进,记录各种类 DPO 类的方法,更详细的介绍见论文的其他讲解
注:本文包含 AI 辅助创作

  • 参考链接:
    • (DPO)Direct Preference Optimization: Your Language Model is Secretly a Reward Model, NeurIPS 2023, Stanford University
    • (DPOP)Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive, 2024, Abacus.AI
    • SLiC-HF: Sequence Likelihood Calibration with Human Feedback, 2023, Google Deepmind
    • (TDPO)Token-level Direct Preference Optimization, ICML 2024, UCAS
    • KTO: Model Alignment as Prospect Theoretic Optimization, ICML 2024, Contextual AI
    • (IPO)A General Theoretical Paradigm to Understand Learning from Human Preferences, 202312, Google DeepMind
      • 一篇容易误解为 IPO 方法的文章:IPO: Your Language Model is Secretly a Preference Classifier, 202502, Indian Institute of Technology Roorkee & Lossfunk,这篇文章不是常说的 IPO 方法,是印度一所理工大学 25 年发的比较新的方法
    • Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models, ICML 2024, UCLA
    • Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks, 202502, Arizona State University
    • (Segment-Level-DPO)SDPO: Segment-Level Direct Preference Optimization for Social Agents, 202502, Nankai, Alibaba
    • (ODPO)Direct Preference Optimization with an Offset, 2024
    • SimPO: Simple Preference Optimization with a Reference-Free Reward, 2024

回顾 DPO 的损失函数

  • DPO 的损失函数 :
    $$
    Loss_{\text{DPO}}(\pi_\theta;\pi_\text{ref}) = - \mathbb{E}_{(x,y_w,y_l) \sim D}\left [ \log \sigma \left( \color{red}{\beta}\log\frac{\pi_\theta(y_w|x)}{\pi_\text{ref}(y_w|x)} - \color{red}{\beta}\log\frac{\pi_\theta(y_l|x)}{\pi_\text{ref}(y_l|x)} \right)\right ]
    $$

DPOP(DPO-Positive)

  • DPO 中存在的问题 :
    • DPO 中的损失函数要求的是 \(\left(\log\frac{\pi_\theta(y_w|x)}{\pi_\text{ref}(y_w|x)} -\log\frac{\pi_\theta(y_l|x)}{\pi_\text{ref}(y_l|x)} \right) \) 变大;实际上,模型可能学习到的是,让 \(\pi_\theta(y_w|x)\) 和 \(\pi_\theta(y_w|x)\) 同时变小,只要正样本变小的幅度较小即可
  • DPOP 的改进 :
    $$
    Loss_{\text{DPOP}}(\pi_\theta;\pi_\text{ref}) = - \mathbb{E}_{(x,y_w,y_l) \sim D}\left [ \log \sigma \left( \color{red}{\beta}\left(\log\frac{\pi_\theta(y_w|x)}{\pi_\text{ref}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_\text{ref}(y_l|x)} - \lambda\cdot \max\left( 0, \log\frac{\pi_\text{ref}(y_w|x)}{\pi_\theta(y_w|x)} \right) \right) \right)\right ]
    $$
    • \(\lambda\) 是一个大于 0 的超参数
    • 在 DPOP 中会加入额外损失函数 \(- \lambda\cdot \max\left( 0, \log\frac{\pi_\text{ref}(y_w|x)}{\pi_\theta(y_w|x)} \right)\) 保证 \(\pi_\theta(y_w|x) > \pi_\text{ref}(y_w|x)\)
      • 核心思路可以一句话总结为:让模型生成正样本的概率高于参考模型生成正样本的概率

SLiC(Sequence Likelihood Calibration)

  • 注:原始论文中的损失函数不够清晰,这里为了跟 DPO 风格统一,我们参考其他论文的表达,SLiC 的损失函数为:
    $$ L_{SLiC}(\pi_{\theta}) = \mathbb{E}_{(x,y_w,y_l) \sim D, y_\text{ref} \color{red}{\sim \pi_\text{ref}(x)}} \left[ \max\left(0, \delta - \log \pi_{\theta}(y_w|x) + \log \pi_{\theta}(y_l|x)\right) - \lambda \log \pi_{\theta}(y_\text{ref}|x) \right] $$
    • \(\max\left(0, \beta - \log \pi_{\theta}(y_w|x) + \log \pi_{\theta}(y_l|x)\right)\) 是 对比学习逻辑 :
      • 通过 \(\log \pi_{\theta}(y_w|x)\)(正样本条件概率的对数)和 \(\log \pi_{\theta}(y_l|x)\)(负样本条件概率的对数)的差,衡量模型对正负样本的区分能力;
    • 边界参数 \(\delta\) :
      • 当正样本对数概率与负样本对数概率的差小于 \(\delta\) 时(说明大的不够多),损失项为 \(\delta - (\log \pi_{\theta}(y_w|x)\log \pi_{\theta}(y_l|x))\)
      • 否则,正样本对数概率与负样本对数概率的差大于 \(\delta\) 时 ,损失为 0,此时正样本概率比负样本概率大的够多了,不需要惩罚了
      • 这类似于 hinge 损失;
    • 正则化项 \(-\lambda \log \pi_{\theta}(y_\text{ref}|x)\):
      • \(\lambda\) 为正则化系数,用于平衡主体损失和正则化强度;
      • \(\log \pi_{\theta}(y_\text{ref}|x)\) 鼓励模型对参考样本 \(y_\text{ref}\) 赋予高概率,避免过拟合或增强对特定参考的拟合能力
  • 文章也同时提出了 SLiC-HF 方法,允许使用多轮迭代来加入人类反馈
  • 注:DPO 方法理论上早于 SLiC,但是 SLiC 没有引用 DPO 方法,也没有与之作比较

TDPO(Token-level Direct Preference Optimization)

  • TDPO1 损失函数
    $$
    \mathcal{L}_{\text{TDPO1} } = -\mathbb{E}_{(x,y_w,y_l) \sim D}\left [\log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref} }(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref} }(y_l|x)} - \beta \left( D_{\text{SeqKL} }(x, y_l; \pi_{\text{ref} } | \pi_\theta) - D_{\text{SeqKL} }(x, y_w; \pi_{\text{ref} } | \pi_\theta) \right) \right) \right]
    $$
    • \(D_{\text{SeqKL} }(x, y; \pi_{\text{ref} } | \pi_\theta)\) 是序列KL散度,定义为 Token-level KL 散度的和
      $$D_{SeqKL}(x, y; \pi_{\text{ref}} \parallel \pi_\theta) = \sum_{t=1}^{T} D_{KL}\left(\pi_{\text{ref}}(\cdot | [x, y^{ < t}]) \parallel \pi_\theta(\cdot | [x, y^{ < t}])\right)$$
  • TDPO2 损失函数
    $$
    \mathcal{L}_{\text{TDPO2} } = -\mathbb{E}_{(x,y_w,y_l) \sim D}\left [\log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref} }(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref} }(y_l|x)} - \alpha \left( \beta D_{\text{SeqKL} }(x, y_l; \pi_{\text{ref} } | \pi_\theta) - \text{sg} \left( \beta D_{\text{SeqKL} }(x, y_w; \pi_{\text{ref} } | \pi_\theta) \right) \right) \right) \right]
    $$
    • \(\text{sg}(\cdot)\) 表示 stop_gradient 操作,主要思想是停止 \(y_w\) 样本上的 KL 散度项
    • 相对 TDPO1,TDPO2 还增加了 \(\alpha\) 参数,用于权衡序列 KL 散度的重要性
    • \(\alpha\) 和 \(\beta\) 是算法超参数
  • 补充:来自原始论文的图示
  • 说明:实验证明 TDPO2 效果更好,可实现在 KL 散度更小的情况下,实现更大的 Reward,详情见原论文图3

KTO(Kahneman-Tversky Optimization)

  • KTO 不需要对比样本,仅需要有标签的样本数据即可,每个 Prompt 可只有一个或正(Desirable)或负(Undesirable)的标签即可
    • KTO 从 Kahneman & Tversky’s prospect theory 中得到启发,定义了一个损失函数家族,称为 human-aware losses (HALOs),不需要对比样本,仅需要有标签的样本数据即可学习
  • KTO 损失函数定义为:
    $$
    L_{KTO}(\pi_{\theta}, \pi_\text{ref}) = \mathbb{E}_{x,y \sim D}[\lambda_y - v(x, y)] \quad (8)
    $$
    • 可以看出,该损失函数在最大化 \(v(x, y)\),其定义为:
      $$
      v(x, y) =
      \begin{cases}
      \lambda_D \sigma(\beta(r_{\theta}(x, y) - z_0)) & \text{if } y \sim y_{\text{desirable} }|x \\
      \lambda_U \sigma(\beta(z_0 - r_{\theta}(x, y))) & \text{if } y \sim y_{\text{undesirable} }|x
      \end{cases}
      $$
      • 直观理解:最大化 Desirable 样本的概率,最小化 Undesirable 样本的概率
    • 其他符号含义:
      $$
      r_{\theta}(x, y) = \log \frac{\pi_{\theta}(y|x)}{\pi_\text{ref}(y|x)} \\
      z_0 = \text{KL}(\pi_{\theta}(y’|x) \parallel \pi_\text{ref}(y’|x))
      $$
      • \(z_0\) 是对分布的 KL 散度估计(注意:不针对特定样本进行估计),估计两个分布的KL散度时,需要从原始空间中随机采样任意样本进行估计
      • \(y’\) 是从原始空间中采样的 \(\mathcal{Y}\) 任意输出
    • \(\lambda_y, \lambda_D, \lambda_U\) 均为超参数
  • 实际实践中,实际训练中,由于直接计算完整分布的期望不现实,采样 microbatch 方法对 KL 散度进行估计:
    $$ \hat{z}_0 = \max\left(0, \frac{1}{m} \sum_{1 \leq i \leq m} \log \frac{\pi_{\theta}(y_j|x_i)}{\pi_\text{ref}(y_j|x_i)}\right) $$
    • 其中 \(j = (i+1) \mod m\),表示输入 \(x_i\) 和输出 \(y_j\) 进行错位匹配
    • 已进行 SFT 的情况 :若 KTO 前已用相同数据进行 SFT,且将 SFT 模型作为 \(\pi_\text{ref}\),则 KL 估计值 \(\hat{z}_0\) 会快速趋近于零(随机样本下,目标策略和参考策略的分布基本相同),此时可直接设 \(\hat{z}_0 = 0\),避免额外计算
    • 未进行 SFT 的情况 :当 KTO 前未进行 SFT,或 SFT 数据与 KTO 数据不重叠时,必须估计 \(\hat{z}_0\) 以确保损失函数的有效性

IPO(Indentity Preference Optimisation, Indentity-PO)

注:原始论文中作者使用了很多新的符号,很影响理解,这里会对部分符号进行讲解

  • IPO 中,作者移除了 DPO 中在概率差上添加激活函数的做法
  • IPO 论文中,作者推导了一个通用的偏好优化目标函数 \(\Psi\)PO ,通过引入一个非递减函数 \(\Psi\),平衡偏好概率的非线性函数最大化与 KL 正则化项,鼓励策略接近参考策略。其表达式为:
    $$\max_{\pi} \underset{\substack{x \sim \rho \\ y \sim \pi(\cdot| x) \\ y’ \sim \mu(\cdot| x)} }{\mathbb{E} }\left[\Psi\left(p^{*}\left(y \succ y’ | x\right)\right)\right]-\tau D_{KL}\left(\pi | \pi_\text{ref}\right)$$
    • \(y’\) 跟 DPO 中的 \(y_l\) 含义一致
    • \(\mu(\cdot|x)\) 是行为策略(用作偏好数据对收集),与 \(\pi_\text{ref}\) 不同(用作 KL 正则化约束)
  • IPO 是在 \(\Psi\)PO 的基础上,将 \(\Psi\) 设定为恒等映射得到的一种特殊形式,其目标函数为:
    $$\max_{\pi} p_{\rho}^{*}(\pi \succ \mu)-\tau D_{KL}\left(\pi | \pi_\text{ref}\right)$$
    • \(\tau\) 为正则化参数,用于平衡偏好优化与策略正则化
    • \(p_{\rho}^{*}(\pi \succ \mu)\) 表示在给定上下文 \(x\) 的条件下,采样 \(y_w \sim \pi(\cdot|x), y_l \sim \mu(\cdot|x)\) 后,人类真实偏好 \(y_w \succ y_l\) 的概率
      • \(p^*\) 是真实概率,\(p\) 是预估概率,是对真实概率的估计值
  • 经推导得到 IPO 损失函数公式如下:
    $$
    L(\pi) = \underset{y, y’ \sim \mu}{\mathbb{E} } \left[ \left( h_{\pi}(y, y’) - \frac{p^{*}(y \succ \mu) - p^{*}(y’ \succ \mu)}{\tau} \right)^2 \right]
    $$
    • \(p^{*}(y \succ \mu)\) 表示在上下文 \(x\) 下,动作 \(y\) 优于分布 \(\mu\) 的真实偏好概率:
      $$ p^{*}(y \succ \mu) = \mathbb{E}_{y’\sim\mu(\cdot|x)}[p^{*}(y \succ y’|x)] $$
      • \(p^{*}(y \succ y’|x)\) 表示在给定上下文 \(x\) 后,人类对 \(y\) 的偏好优于 \(y’\) 的真实概率;给定 \(y,y’\) 后,这个值与模型策略无关,比如在伯努利分布下就取值为 0 或 1
    • \(h_{\pi}(y, y’)\) 表示策略 \(\pi\) 与参考策略 \(\pi_{\text{ref} }\) 的对数似然比差异
      $$ h_{\pi}(y, y’) = \log \left( \frac{\pi(y) \pi_{\text{ref} }(y’)}{\pi(y’) \pi_{\text{ref} }(y)} \right) $$
      • 理解:进一步地,该值还可以写成其他形式
        $$ h_{\pi}(y, y’) = \log \left( \frac{\pi(y)}{\pi_{\text{ref} }(y)} \right) - \log \left( \frac{\pi(y’)} {\pi_{\text{ref} }(y’)}\right) $$
    • Bradley-Terry 模型中,有:
      $$ p^*(y \succ y’) = \sigma(r(y) - r(y’)) $$

基于伯努利采样的 IPO 损失函数

  • 基于伯努利采样的 IPO 损失函数
    $$
    \underset{y, y’ \sim \mu}{\mathbb{E} } \left[ \left( h_{\pi}(y, y’) - \tau^{-1} I(y, y’) \right)^2 \right]
    $$
    • 其中 \(I(y, y’)\) 是伯努利分布采样的偏好指示变量:当 \(y\) 优于 \(y’\) 时取1,否则取0,其均值为 \(p^{*}(y \succ y’)\)

给定数据集上的 IPO 损失函数(其他博客中最常见的形式)

  • 给定数据集上的 IPO 损失函数
    $$
    \underset{(y_w, y_l) \sim D}{\mathbb{E} } \left[ \left( h_{\pi}(y_w, y_l) - \frac{\tau^{-1} }{2} \right)^2 \right]
    $$
    • \(D\) 为经验偏好数据集,包含成对的偏好样本 \((y_w, y_l)\)(\(y_w\) 为偏好动作,\(y_l\) 为非偏好动作)
    • 该表达式通过对称采样(即同时考虑 \((y_w, y_l, 1)\) 和 \((y_l, y_w, 0)\))简化了方差,并最终转化为对对数似然比的回归优化
    • 正则化强度 \(\tau\) 的取值分析(论文中测试时取值为 \(\tau = 0.1,0.5,1.0\)):
      • 当 \(\tau \to +\infty\) 时,\(\tau^-1 \to +0\) ,\(\pi^*\) 收敛到均匀策略 \(\pi_{\text{ref} }\);
      • 当 \(\tau \to 0^+\) 时,\(\tau^-1 \to +\infty\),\(\pi^*(y_1) \to 1\) 且 \(\pi^*(y_2) \to 0\),即收敛到确定性最优策略
  • 给定数据集上的 IPO 的训练伪代码为:

SPIN(Self-Play fIne-tuNing)

  • SPIN(Self-Play Fine-Tuning)是一种无需额外人类标注数据(仅 SFT 数据即可),就能将弱语言模型转化为强语言模型的微调方法,其核心是通过语言模型与自身迭代版本进行自我博弈(Self-Play),逐步提升模型性能
  • SPIN 受游戏领域自我博弈(如 AlphaGo Zero)的启发,让语言模型在迭代过程中与自身的旧版本进行“对抗”:
    • 自我博弈过程 :当前模型(主玩家)需要区分人类标注数据与旧版本模型生成的数据,而旧版本模型(对手玩家)则试图生成与人类数据难以区分的响应。通过这种动态博弈,模型逐步逼近目标数据分布
    • 核心目标 :使模型的生成分布 \( p_{\theta}(y|x) \) 最终与人类标注数据的分布 \( p_{data}(y|x) \) 一致

训练过程(非正式流程,仅作为理解)

  • SPIN 的迭代过程包含两个关键步骤,以第 \( t+1 \) 次迭代为例:
  • 训练主玩家(区分器)
    • 利用旧版本模型 \( p_{\theta_t} \) 生成 synthetic 数据 \( y’ \),主玩家 \( f_{t+1} \) 的目标是最大化人类数据 \( y \) 与旧模型生成数据 \( y’ \) 的期望差异。基于积分概率度量(IPM),目标函数定义为:
      $$
      f_{t+1} = \underset{f \in \mathcal{F}_t}{\text{argmax} } , \mathbb{E}_{ x \sim q(\cdot),y \sim p_{data}(\cdot|x), y’ \sim p_{\theta_t}(\cdot|x)}\left[ f(x, y) - f(x, y’) \right]
      $$
      • 其中 \( \mathcal{F}_t \) 是函数类,为避免目标无界,通常采用逻辑损失函数:
        $$ \ell(t) = \log(1 + \exp(-t)) $$
      • 由此原始问题可转化为:
        $$
        f_{t+1} = \underset{f \in \mathcal{F}_t}{\text{argmin} } , \mathbb{E}_{ x \sim q(\cdot),y \sim p_{data}(\cdot|x), y’ \sim p_{\theta_t}(\cdot|x)} \left[ \ell(f(x, y) - f(x, y’)) \right]
        $$
  • 更新对手玩家(生成器)
    • 基于训练好的主玩家 \( f_{t+1} \),更新旧模型 \( p_{\theta_t} \) 以生成更接近人类数据的响应。引入 KL 正则化项以稳定训练,优化目标为:
      $$
      \underset{p}{\text{argmax} } , \mathbb{E}_{x \sim q(\cdot), y \sim p(\cdot|x)}\left[ f_{t+1}(x, y) \right] - \lambda \mathbb{E}_{x \sim q(\cdot)} \text{KL}\left( p(\cdot|x) || p_{\theta_t}(\cdot|x) \right)
      $$
    • 其闭式解为:
      $$
      \hat{p}(y|x) \propto p_{\theta_t}(y|x) \exp\left( \lambda^{-1} f_{t+1}(x, y) \right)
      $$

端到端训练目标(正式流程)

  • 将上述两步整合为端到端的迭代更新规则,第 \( t+1 \) 次迭代的参数 \( \theta_{t+1} \) 由以下目标函数确定:
    $$
    L_{\text{SPIN} } = \mathbb{E}\left[ \ell\left( \lambda \log\frac{p_{\theta}(y|x)}{p_{\theta_t}(y|x)} - \lambda \log\frac{p_{\theta}(y’|x)}{p_{\theta_t}(y’|x)} \right) \right]
    $$
    • 其中期望同上,\( \ell \) 为逻辑损失函数。该过程不断迭代,直至模型分布收敛到 \( p_{data}(\cdot|x) \)
  • SPIN 训练伪代码为:
  • 注:GAN 的判别器和生成器是独立模型,而SPIN 的主玩家和对手玩家均为同一模型的不同迭代版本
  • 收敛性证明 :在损失函数 \( \ell \) 单调递减且凸的假设下(如逻辑损失),SPIN 的全局最优解当且仅当 \( p_{\theta}(y|x) = p_{data}(y|x) \) 时达到。此时,模型无法区分自身生成数据与人类数据
  • 数据效率 :仅使用 SFT 数据集的 50k 子集(Ultrachat200k),SPIN 迭代 0 次时效果略微不如 DPO,迭代 1 次即可达到甚至超过 DPO 使用 62k 新偏好数据的性能,详情见原始论文 6.2 和图3
  • 迭代必要性 :论文中通过实验证明了,迭代多轮是必要的(对数曲线),原论文图2

SDPO(Segment-Level Direct Preference Optimization)

  • 原始论文:(Segment-Level-DPO)SDPO: Segment-Level Direct Preference Optimization for Social Agents, 20250227, Tongyi Lab
  • 详细介绍链接:NLP——LLM对齐微调-SDPO(Segment-Level-DPO)

sDPO(stepwise DPO)

  • 原始论文:sDPO: Don’t Use Your Data All at Once, Twelve Labs & Upstage AI, 20250119

SimPO

  • 详细介绍链接:NLP——LLM对齐微调-SimPO

ODPO(Offset DPO)

  • 原始论文:(ODPO)Direct Preference Optimization with an Offset, 20240606
  • Offset DPO(ODPO)是DPO的泛化变体,核心是为偏好对引入偏移量以区分偏好强度,让模型按偏好差异优化生成概率,在奖励与KL散度的帕累托前沿表现更优,尤其适合偏好数据有限或偏好强度差异大的场景:
    $$ \mathcal{L}_{\text{ODPO}} = -\mathbb{E}_{(x,y^+,y^-)} \left[ \log \sigma \left( \beta \left( \log \frac{\pi_\theta(y^+|x)}{\pi_{\text{ref}}(y^+|x)} - \log \frac{\pi_\theta(y^-|x)}{\pi_{\text{ref}}(y^-|x)} \right) - \Delta \right) \right] + \lambda \cdot \text{KL}(\pi_\theta \parallel \pi_{\text{ref}}) $$
    • 通过 \(\Delta\) 量化偏好差异,实现差异化优化,提升对齐精度

rDPO(Robust DPO)

  • 原始论文:Provably Robust DPO: Aligning Language Models with Noisy Feedback, Microsoft, 20240412
  • 目标是提升 DPO 稳定性:
    • rDPO :在优化过程中考虑标签可能被随机翻转的情况
      • Label Flip(Label 翻转):标签被错误标注为相反结果,主要用于建模偏好数据中的噪声
    • cDPO :利用 Label Smoothing 处理噪声偏好标签,使优化更稳健
      • Label Smoothing:将硬标签平滑成概率分布,缓解过拟合并提升鲁棒性
  • 上述思想最早在 Secrets of RLHF in Large Language Models Part II: Reward Modeling, Fudan, 202401 中提到的思想

NLP——LLM对齐微调-ETO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents, PKU & AllenAI, 202407
    • 开源代码:https://arxiv.org/pdf/2403.02502

Paper Summary

  • 整体总结:
    • 论文提出了一种旨在提升大语言模型 Agent 能力的方法 称为 ETO(Exploration-based Trajectory Optimization)
      • 论文的方法通过试错学习(trial and error)优化基于行为克隆的基础 Agent
    • ETO 采用探索-训练迭代框架(持续提升 Agent 性能):
      • 在探索阶段, Agent 与环境交互并收集失败轨迹,构建轨迹偏好对
      • 在训练阶段, Agent 通过 DPO 损失从偏好信息中学习
    • 特别说明:ETO 展现出卓越的任务解决效率,并在缺乏专家轨迹的场景中表现出巨大潜力
  • 更详细一些的说明:论文提出了一种基于探索的轨迹优化方法 ETO
    • 与以往仅依赖成功专家轨迹的研究不同,论文的方法允许 Agent 从其探索失败中学习,通过迭代优化框架提升性能
    • 在探索阶段,Agent 通过与环境交互完成任务,收集失败轨迹以构建对比轨迹对;在随后的训练阶段,Agent 利用这些轨迹偏好对,通过对比学习方法(如 DPO)更新策略
    • 这种探索与训练的迭代循环促进了 Agent 的持续改进
  • 论文在三个复杂任务上的实验表明,ETO 始终以显著优势超越基线方法

Introduction and Discussion

  • LLM 通过为环境和工具交互制定行动计划,展现了解决复杂交互任务的强大能力(2023a; 2023)
  • 以 ChatGPT(OpenAI, 2022)和 GPT-4(OpenAI, 2023)为核心控制器的系统已被开发用于多种应用,包括网页浏览(2023; 2023)、具身任务(2022a; 2023)、多模态推理(2023)以及复杂问答
  • 然而,近期研究表明,开源 LLM 在构建 Agent 时的效果远不及 GPT-4(2023; 2023a; 2023)
  • 构建开源 LLM Agent 的标准方法是模仿学习(Imitation Learning),即基于专家轨迹对 LLM 进行微调
    • 行为克隆(BC, Behavioral Cloning)(Pomerleau, 1991)是一种简单有效的模仿学习技术,通过从观察-动作对中进行监督学习来推导策略
    • 近期研究(2023; 2023)如 Agent Lumos(2023)探索了使用 BC 通过专家轨迹的监督微调(SFT, Supervised Fine-Tuning)开发开源 LLM Agent
    • 这些方法采用 teacher-forcing 算法训练 LLM,使其能够基于观察和过去动作学习生成后续动作的策略
    • 然而,这些完全依赖专家演示的 SFT 方法可能由于对目标环境探索不足而产生次优策略,从而限制其泛化能力
  • 人类学习的过程不仅包括观察成功示范,还包含通过与环境的试错交互体验和探索失败 ,受此启发,论文提出了一种新颖的 LLM Agent 学习方法,称为 基于探索的轨迹优化(ETO)
    • 与以往仅依赖成功轨迹的方法不同,论文的方法利用当前策略的探索失败来增强 Agent 的学习过程
  • 具体而言,论文首先使用基于 SFT 的行为克隆构建 Base Agent(如图1 所示)
    • 在探索阶段,Base Agent 与目标环境交互以完成给定任务,并从环境中获取反馈。论文收集 Base Agent 的失败轨迹 ,并将其与先前为这些任务收集的专家轨迹配对
    • 在训练阶段,论文应用 DPO 损失(2023)通过这些对比轨迹对微调 LLM 策略,从而进一步提升 Agent
    • ETO 可以通过从先前调优的 Agent 中收集失败案例扩展到多轮迭代
  • 论文在三个代表性数据集上评估了论文的方法:
    • 用于网页导航的 WebShop(2022a)
    • 用于模拟科学实验的 ScienceWorld(2022)
    • 用于具身家庭任务的 ALFWorld(2021)
    • 在这些数据集上,ETO 始终以显著优势超越 SFT 行为克隆和其他强基线方法,证明了从探索失败中学习的有效性
  • 其他扩展实验和分析:
    • 论文的方法在 ScienceWorld 的挑战性分布外测试集上实现了 22% 的性能提升,展现了强大的泛化能力
    • 论文的方法在任务解决效率上表现优异,能够以更少的动作步骤获得更高的奖励
    • 在极端缺乏专家轨迹的场景下,ETO 在自博弈模式下仍能表现出色,进一步凸显了其潜力
  • 论文的贡献总结如下:
    • 方法 :论文提出了基于探索的轨迹优化方法 ETO,这是一种通过迭代收集失败轨迹并利用对比学习优化 Agent 策略的学习算法
    • 评估 :在三个复杂交互任务上的大量实验表明,论文的方法以显著优势超越了 SFT 行为克隆和其他强基线方法
    • 分析 :论文通过多角度深入分析验证了 ETO 的有效性,包括分布外泛化、动作效率以及无需专家轨迹的可行性

任务形式化

  • 具有环境反馈的 Agent 任务可以形式化为部分可观测马尔可夫决策过程(POMDP, Partially Observable Markov Decision Process)\((\mathcal{U}, \mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{T}, \mathcal{R})\)
    • \(\mathcal{U}\) 是指令空间(instruction space)
    • \(\mathcal{S}\) 是状态空间
    • \(\mathcal{A}\) 是动作空间
    • \(\mathcal{O}\) 是观测空间
    • \(\mathcal{T}: \mathcal{S} \times \mathcal{A} \rightarrow \mathcal{S}\) 是状态转移函数
    • \(\mathcal{R}: \mathcal{S} \times \mathcal{A} \rightarrow [0,1]\) 是奖励函数
    • 注意:在论文的 LLM-based Agent 场景中,\(\mathcal{U}, \mathcal{A}, \mathcal{O}\) 均为自然语言空间的子集
  • 交互过程可总结为:
    • 给定任务指令 \(u \in \mathcal{U}\)
    • 参数为 \(\theta\) 的 LLM Agent 根据其策略 \(\pi_{\theta}\) 生成动作 \(a_1 \sim \pi_{\theta}(\cdot|u) \in \mathcal{A}\)
    • 该动作引发潜在状态空间 \(s_t \in \mathcal{S}\) 的变化,并产生执行反馈作为观测 \(o_t \in \mathcal{O}\)
    • Agent 在第 \(t+1\) 步生成相应动作 \(a_{t+1} \sim \pi_{\theta}(\cdot|u, a_1, o_1, …, o_{t-1}, a_t, \color{red}{o_t}) \in \mathcal{A}\)(注:红色部分 \(\color{red}{o_t}\) 是原始论文中没有加的,这里应该加上才对)
    • 交互循环持续至任务完成或超过最大步数,轨迹 \(e\) 表示为:
      $$
      e = (u, a_1, o_1, …, o_{n-1}, a_n) \sim \pi_{\theta}(e|u), \tag{1}
      $$
      • 其中策略为(\(n\) 为轨迹长度):
        $$
        \pi_{\theta}(e|u) = \prod_{j=1}^n \pi_{\theta}(a_j|u, a_1, o_1, …, o_{j-1}), \tag{2}
        $$
    • 最终计算任务完成度对应的奖励 \(r(u,e) \in [0,1]\),1 表示任务成功完成

Method

  • 论文的方法 ETO 首先通过行为克隆(Behavioral Cloning, BC)训练一个 Base Agent
  • 基于该 Base Agent,论文的框架通过迭代式的试错过程持续优化策略

Behavioral Cloning

  • 行为克隆(BC)通过在专家交互轨迹数据上进行 SFT ,已展现出良好的效果,为构建强大的 Agent 奠定了坚实基础
  • 在本工作中,论文采用 ReAct-style(2022b)的轨迹进行 BC,该方法在生成每个动作前还会生成链式推理(Chain-of-Thought, CoT)的理性解释(rationale)
  • 由于 CoT 和动作在 ReAct 框架中是一起生成的,为简化表示,论文用 \( a \) 表示带有 CoT 的动作
  • 给定专家轨迹数据集 \( \mathcal{D} = \left\{(u, e)^{(i)}\right\}_{i=1}^{|\mathcal{D}|} \),其中 \( |\mathcal{D}| \) 是轨迹数量,论文通过自回归损失对一个 LLM 进行微调,得到 Base Agent \( \pi_{\text{base} } \):
    $$
    \mathcal{L}_{\text{SFT} }(\pi_{\theta}) = -\mathbb{E}_{e \sim \mathcal{D} } \left[\pi_{\theta}(e|u)\right], \tag{3}
    $$
    • 其中 \( e = (u, a_1, o_1, …, o_{n-1}, a_n) \sim \mathcal{D} \) 是一条专家交互轨迹
  • 由于 \( \pi_{\theta}(e|u) = \prod_{j=1}^{n} \pi_{\theta}(a_j|u, …, o_{j-1}) \),在实践中,论文首先将轨迹 \( e \) 中的指令、动作和观察拼接为一个文本序列 \( t \):
    $$
    t = \text{concat}(u, a_1, o_1, …, o_{n-1}, a_n) = (t_1, t_2, …, t_l),
    $$
    • 其中 \( t_k \) 是结果序列中的第 \( k \) 个 词元(token)
    • 注意 token \(t_k\) 和 \(a_j\) 不是一一对应的关系,一个 \(a_j\) 可能对应多个 token \(t_k\)
  • 然后,公式 (3) 中的轨迹概率可以通过直接计算动作的概率(同时掩码任务描述和观察中的 token )得到:
    $$
    \pi_{\theta}(e|u) = -\sum_{k} \log \pi_{\theta}(t_k|t_{<k}) \times \mathbf{1}(t_k \in A),
    $$
    • 其中 \( \mathbf{1}(t_k \in A) \) 是一个指示函数,用于判断 \( t_k \) 是否属于 Agent 生成的动作 token

Learning From Exploration Failures

  • 行为克隆完全依赖于专家轨迹,缺乏对环境探索的能力,这可能导致策略次优
  • 为了训练更强大的 Agent,模型需要能够从失败轨迹中学习
  • 实现这一目标的一种可行方法是 RL ,它使 Agent 能够主动探索环境以获取奖励,并通过试错优化策略(2022):
    $$
    \max_{\pi_{\theta} } \mathbb{E}_{u \sim \mathcal{D}, e \sim \pi_{\theta}(e|u)} \left[r(u, e)\right] - \beta \mathbb{D}_{\text{KL} } \left[\pi_{\theta}(e|u) \mid \mid \pi_{\text{ref} }(e|u)\right], \tag{6}
    $$
    • 其中 KL 项与权重参数 \( \beta \) 用于控制与基础参考策略 \( \pi_{\text{ref} } \)(即 Base Agent \( \pi_{\text{base} } \))的偏离程度
  • 在实践中,待训练的 Agent 策略 \( \pi_{\theta} \) 也初始化为 \( \pi_{\text{base} } \)。然后,公式 (6) 中的优化问题可以通过 RL 方法(如 PPO,2017)求解
  • 然而,直接在 LLM Agent 上应用在线 RL 会面临实际挑战,例如不稳定性和低效率(2023; 2023)。因此,论文设计了一种迭代式离线学习框架 ,通过对比轨迹数据训练 Agent
  • 如图2 所示,训练过程可以表述为一个迭代的探索-训练循环(iterative exploration-training loop)
    • 在 ETO 的探索阶段,Agent 探索环境以收集失败轨迹;
    • 在 ETO 的训练阶段,Agent 从“失败-成功”(failure-success)轨迹对中学习对比信息以更新策略
Exploration Phase
  • 在探索阶段 ,Base Agent \( \pi_{\text{base} } \) 探索环境,收集训练数据中指令对应的轨迹:
    $$
    \hat{e} = (u, \hat{a}_1, \hat{o}_1, …, \hat{o}_{m-1}, \hat{a}_m) \sim \pi_{\text{base} }(e|u). \tag{7}
    $$
  • 环境随后返回轨迹 \( \hat{e} \) 对应的奖励 \( \hat{r} \)
  • 然后,论文基于最终奖励构建“失败-成功”轨迹对,记为 \( e_w \succ e_l \mid u \)
    • \( e_w \) 表示从专家轨迹 \( e \) 中选出的奖励较高的轨迹
    • \( e_l \) 表示从 Agent 生成轨迹 \( \hat{e} \) 中选出的奖励较低的轨迹
  • 注意,论文仅收集奖励不同的轨迹对。如果 \( \hat{e} \) 和 \( e \) 都成功完成任务,则直接丢弃该对
  • 最终,论文得到对比轨迹数据集:
    $$ \mathcal{D}_p = \left\{(u, e_w, e_l)^{(i)}\right\}_{i=1}^{|\mathcal{D}_p|} $$
Training Phase
  • 在训练阶段 ,通过建模轨迹对数据中的“失败-成功”对比信息来更新 Agent 策略
  • 给定轨迹对 \( e_w \succ e_l \mid u \),其“失败-成功”关系可以通过 Bradley-Terry(BT)模型(Bradley and Terry, 1952)建模:
    $$
    p(e_w \succ e_l|u) = \frac{\exp \left(r(u, e_w)\right)}{\exp \left(r(u, e_w)\right) + \exp \left(r(u, e_l)\right)}. \tag{8}
    $$
  • 在公式 (6) 的最优策略 \( \pi_r(e|u) \) 下,环境中的奖励函数 \(r(u, e)\) 可以表示为(2019; 2023):
    $$
    r(u, e) = \beta \log \frac{\pi_r(e|u)}{\pi_{\text{ref} }(e|u)} + \beta \log Z(x), \tag{9}
    $$
    • 其中 \( Z(u) = \sum_{e} \pi_{\text{ref} }(e|u) \exp \left(\frac{1}{\beta} r(u, e)\right) \) 是配分函数
  • 将公式 (9) 代入公式 (8),得到关于策略的 BT 模型:
    $$
    p(e_w \succ e_l|u) = \sigma \left(\beta \log \frac{\pi_{\theta}(e_w|u)}{\pi_{\theta}(e_l|u)} - \beta \log \frac{\pi_{\text{ref} }(e_w|u)}{\pi_{\text{ref} }(e_l|u)}\right),
    $$
    • 其中 \( \sigma \) 是 sigmoid 函数
  • 然后,通过极大似然估计可以得到最优策略 \( \pi_{\theta} \):
    $$
    \mathcal{L}_{\text{DPO} }(\pi_{\theta}; \pi_{\text{ref} }) = -\mathbb{E}_{(u, e_w, e_l) \sim \mathcal{D}_p} \left[\log \sigma \left(\beta \log \frac{\pi_{\theta}(e_w|u)}{\pi_{\theta}(e_l|u)} - \beta \log \frac{\pi_{\text{ref} }(e_w|u)}{\pi_{\text{ref} }(e_l|u)}\right)\right].
    $$
  • 这一优化目标旨在增加成功轨迹 \( e_w \) 的似然,同时降低失败轨迹 \( e_l \) 的似然,并通过约束项保持 Base Agent 的能力。此外,作为公式 (6) 的 RL 目标的重构,公式 (11) 直接最大化最终奖励,同时避免了执行 RL 优化的需求
Iteration
  • 为了进一步提升 Agent 的性能,ETO 采用迭代式的探索-训练方式
  • 在训练阶段后,Agent 策略可用于收集新的失败案例并创建对比轨迹对
  • 这些新数据随后通过轨迹对比学习进一步优化 Agent
  • ETO 的完整学习过程如算法 1 所示

Experiments

  • 在本节中,论文进行了广泛的实验以验证 ETO 的有效性
  • 论文的方法在三个数据集上均表现出优于基线的性能,并且在处理分布外未见任务时展现出更强的优势
  • 分析进一步展示了论文方法的高效性
  • 此外,论文的方法在专家轨迹不可用的场景中也表现出了潜力(注:可解决没有专家轨迹的问题)

Experimental Settings

  • 数据集(Datasets) 论文在三个具有代表性的 Agent 数据集上进行了实验:
    • 用于网页导航的 WebShop(2022a)
    • 用于具身科学实验的 ScienceWorld(2022)
    • 用于具身家务任务的 ALFWorld(2021)
  • WebShop 和 ScienceWorld 环境提供了从 0 到 1 的密集最终奖励
  • ALFWorld 仅提供二进制奖励,表示任务是否完成
  • 这三个环境均可形式化为部分可观测马尔可夫决策过程(POMDP)
  • 关于数据集和专家轨迹收集过程的详细信息,请参阅附录 A
  • 表 1 展示了论文数据集的统计信息
    • 值得注意的是,除了分布内测试集外,ScienceWorld 和 ALFWorld 还包含分布外未见变体的测试集
    • 这些额外的测试集使论文能够评估不同 Agent 的泛化能力
  • Training Setup 论文主要使用 Llama-2-7B-Chat(2023)作为构建 LLM Agent 的基础模型。为了提供更全面的结果,论文还对 Llama-2-13B-Chat 和 Mistral-7B(2023)进行了实验
    • 论文使用了 AdamW 优化器
    • 在 SFT 阶段:
      • 批大小为 64
      • 学习率设置为 1e-5(warmup 后的初始学习率)
      • 预热比例为 3%
      • 使用余弦调度器(cosine scheduler)
      • epochs = 3
    • 随后,Base Agent 将为训练集中的每个实例探索一次以收集失败轨迹
    • 在 ETO 的训练阶段:
      • 批大小为 32
      • 学习率设置为 1e-6(注:一般来说,为了稳定性考虑 DPO/RL的学习率比 SFT 要更小些)
      • DPO 损失中的 \(\beta\):在 WebShop 和 ScienceWorld 中设置为 0.1;在 ALFWorld 中设置为 0.5
      • epochs = 3
    • ETO 的迭代次数:在 WebShop 和 ScienceWorld 中设置为 2;在 ALFWorld 中设置为 1
    • 所有实验均在 8 块 NVIDIA A100 80G GPU 上进行
  • Baselines :论文将 ETO 与 SFT 行为克隆(Behavioral Cloning, BC)和其他后模仿基线方法进行了比较:
    • 1)SFT(2023;)在专家轨迹上进行行为克隆,这是 ETO 和其他基线的 Base Agent
    • 2)Best-of-N 采样 使用 SFT Base Agent,并在 N 次采样中选择奖励最高的轨迹。此处论文将 N 设置为 10
    • 3)RFT(Rejection sampling Fine-Tuning, 2023)是一种强大的基线方法,它将成功轨迹添加到专家轨迹数据集中,并在新的增强轨迹上训练 Agent
    • 4)PPO(Proximal Policy Optimization, 2017)是一种强化学习方法,直接优化 SFT Agent 以最大化最终任务奖励
      论文还纳入了 GPT-3.5-Turbo(OpenAI, 2022)、GPT-4(OpenAI, 2023)以及未调优的 Llama-2-7B-Chat 进行比较
  • Evaluation :所有方法均使用 ReAct-style 的交互格式(2022b)进行评估,并在动作前生成 CoT 推理
    • 每个任务的指令提示中包含 1-shot 上下文示例
    • LLM 的解码温度设置为 0.0 以实现确定性生成,Best-of-N 方法除外
    • 论文主要采用平均奖励(Average Reward)作为指标,表示测试集中所有任务实例的平均奖励
    • 附录 B 中还 Report 了成功率(Success Rate)以供参考

Results

  • 表2 展示了 ETO 和基线方法在三个 Agent 数据集上的性能对比
  • 结果显示,ETO 在 SFT 模仿学习的基础上实现了显著提升,使 WebShop 和 ScienceWorld 的平均奖励分别提高了 8% 和 9.5%
  • 论文的方法在所有数据集上均优于其他基线方法
  • 在 WebShop 数据集上,ETO 的平均奖励甚至超过了 GPT-4,展现了论文方法的卓越性能
  • 尽管 RFT 方法相比 SFT 也有所改进,但其性能仍然受限,因为它是行为克隆的增强版本,仅从成功轨迹中学习
    • 这一对比表明,失败轨迹与专家轨迹的对比对于提升 Agent 性能至关重要
  • 尽管 PPO 在 WebShop 上取得了性能提升,但由于强化学习优化过程固有的不稳定性,它在其他两个数据集上难以取得令人满意的结果,尤其是在仅提供二进制最终奖励的 ALFWorld 数据集上
  • 附录 D 展示了论文方法在任务解决轨迹上的案例分析
  • 泛化性方面:
    • ETO 在分布外未见场景中展现出更强的优势,在 ScienceWorld-Unseen 上实现了 20% 的性能提升;
    • 此外,ETO 在 ALFWorld 的未见场景中也表现出强大的有效性,优于 RFT 和 PPO 基线,后两者均出现了性能下降
    • 这些结果表明,通过试错学习可以进一步提升 Agent 的泛化能力,尤其是在分布外未见场景中
  • 不同 LLM 的结果(Results on Different LLMs):为了进一步证明论文方法的有效性,论文展示了基于其他基础 LLM(包括 Llama-2-13B-Chat 和 Mistral-7B)的结果
    • 表 3 表明,ETO 在不同 LLM 上均能一致提升 Agent 性能
    • 值得注意的是,与 Llama-2-7B 相比,13B 模型在两个数据集上的性能提升相对较小,这表明论文的方法可以为较弱的 Agent 带来更大的收益
    • 尽管 Mistral-7B 是一个比 Llama-2-13B 更强大的 LLM,但在经过 SFT 或 ETO 后,其性能仍不及 Llama-2-7B
    • 这一发现表明,基础 LLM 能力与 Agent 能力之间并无强相关性
  • 效率分析(Analysis on Efficiency):论文在 ScienceWorld 环境中评估了 Agent 的任务解决效率,该环境为每个任务提供了细粒度的子目标,任务的奖励会根据子目标的完成情况更新
    • 通过评估 Agent 在更少动作步骤内实现更高奖励的能力 ,我们可以确定其效率
    • 图3 展示了 ScienceWorld-Seen 测试集的得分轨迹,对比了 ETO、SFT Base Agent 和 Oracle Agent
    • 如图3 所示,ETO 能够在更少的动作步骤内达到更高的奖励
    • 有趣的是,在某些案例(如 15-90 和 19-23)中,论文的方法甚至超过了 Oracle Agent,更早地达到了 100 分
    • 这些结果表明,通过学习失败轨迹,论文的方法还获得了更强大的任务解决效率(更少动作步骤内实现更高奖励)

Ablation of Iterations

  • 本节论文研究了 ETO 中迭代次数的影响,结果如图4 所示
  • 如图所示,ETO 在 WebShop 和 ScienceWorld 数据集上的前两次迭代中能够提升 Agent 性能 ,但进一步增加迭代次数并不会带来持续改进,性能在第三次迭代后开始下降
  • 对于 ALFWorld 数据集,仅第一次迭代的 ETO 表现出改进 ,而第二次和第三次迭代的性能甚至落后于 SFT Base Agent
  • 对此的解释是:
    • ETO 的学习过程依赖于固定的专家轨迹集,而 Agent 的探索阶段是在相同的训练集上进行的,因此,失败-成功对比轨迹数据的多样性和数量受到限制
    • 最初,策略可以通过从过去的错误中学习得到改进,但模型在后续迭代中会过度拟合对比信息 ,导致性能下降
      • 问题:如何理解过度拟合对比信息?
    • 在 ALFWorld 中,粗粒度的二进制奖励进一步阻碍了 Agent 通过迭代训练获得改进
      • 问题:为何粗粒度的二进制奖励会阻碍 Agent 通过迭代训练获得奖励?
    • 作为潜在的解决方案,未来的工作可以探索利用 GPT-4 动态构建更多样化的对比轨迹数据

Strategy of Contrastive Data Construction

  • 本节论文深入探讨了方法中使用的对比轨迹对构建策略
    • 在原文 3.2 节中,论文直接从失败-成功轨迹对中学习(公式 (11)),称为轨迹级对比(trajectory-wise contrastive)
  • 受先前工作(2023b)启发,论文引入了 ETO 的一种细粒度变体,通过比较“good-bad”动作对来捕捉步骤级对比(step-wise contrastive)信息
    • 为此,论文使用专家轨迹在前 \(t-1\) 步进行教师强制(Teacher Forcing) ,然后让 Agent 预测第 \(t\) 步的动作
    • 第 \(t\) 步动作的质量由最终奖励决定(注意:是最终奖励而不是当前时间步 \(t\) 动作的奖励)
      • 问题:怎么由最终奖励决定呢?每一步都是教师给定的,而且只走了 \(t\) 步,教师需要完整序列才能评估奖励吧
      • 回答:详情见附录 C 的内容
  • 论文还实现了一种混合变体,结合了上述两种策略。关于 ETO 步骤级变体的更多细节,请参阅附录 C
  • 表 4 展示了不同方法的对比结果:结果表明,轨迹级对比取得了最佳性能
  • 另一方面,论文发现步骤级对比建模的稳定性较差 ,需要更低的学习率和更高的约束参数 \(\beta\) 以保持 Agent 的基本能力
    • 这种不稳定性可能归因于动作质量的不准确估计 ,因为论文仅使用最终奖励来构建步骤级对比对
    • 此外,混合策略的性能也不及轨迹级对比

Self-Play w/o Expert Trajectory

  • 本节论文探索了一个具有挑战性的场景,即专家轨迹不可用
  • 在这种情况下,Agent 被迫探索环境并依赖自博弈来提升能力
  • 为此,论文移除了 ETO 的行为克隆阶段 ,允许 LLM Agent 以解码温度 1.0 探索环境
  • 随后,论文根据最终奖励比较同一指令下的不同轨迹,构建轨迹偏好数据
  • 最后,Agent 仅基于自身生成的偏好数据进行训练
  • 在 WebShop 上,未调优的 Llama-2-7B-Chat 取得了相对较高的奖励,因此论文使用该数据集进行实验
  • 论文采用了拒绝采样微调(RFT)作为基线
  • 表5 的结果显示
    • 在没有行为克隆的情况下,仅使用 ETO 无法提升性能
    • RFT 在不依赖专家轨迹的情况下展现出了提升 Agent 能力的潜力
    • 然而,当将 RFT 与 ETO 结合时,论文观察到 Agent 性能的进一步提升
    • 这些结果表明,在专家轨迹不可用的场景中,可以先使用 RFT,然后让 Agent 从探索失败中学习
    • 这些结果进一步凸显了论文方法在专家轨迹不可用时的潜力

Related Work

Imitation Learning

  • 模仿学习是一种通过模仿专家示范来学习策略的范式(2017; 2019)
  • 行为克隆(Behavioral Cloning, BC)(Pomerleau, 1991)是模仿学习中一种流行的方法,它利用专家轨迹学习从状态到动作的直接映射
  • 为了缓解行为克隆的局限性,已有多种方法被提出(2011; Ross and Bagnell, 2014)
  • 论文的方法 ETO 与 DAgger(2011)有相似之处,后者通过从失败案例中学习来提升 Agent 性能
    • 然而,与 DAgger 不同,ETO 通过对比轨迹对(contrastive trajectory pairs)优化策略,而非收集额外的专家轨迹

LLM Agents

  • 随着 LLM 展现出多种涌现能力,研究人员开始探索 LLM-based Agent 系统(2023)
  • 近期项目如 AutoGPT(Richards, 2023)、BabyAGI(Nakajima, 2023)和 RestGPT(2023)将 LLM 作为核心控制器,构建了能够解决现实任务的强大 Agent 框架
  • 尽管 GPT 系列模型展现了强大的 Agent 智能,开源 LLM 的表现仍远落后于 GPT-4(2023; 2023a)
  • 为了缩小这一差距,FireAct(2023)、AgentTuning(2023)和 Lumos(2023)等研究从教师 Agent(如 GPT-4)中构建专家轨迹数据,并对开源 LLM 进行行为克隆
  • Aksitov 等 (2023) 进一步通过在前一策略生成的轨迹上进行迭代行为克隆来优化 Agent
  • 与论文的工作同时,Yang 等 (2023) 使用 DAgger 框架(2011)并采用 DPO 损失来开发多模态具身 Agent

LLM Policy Learning

  • 从偏好中学习对于提升 LLM 策略表现具有潜力,尤其是在 LLM 对齐研究中
  • RLHF 通过学习奖励模型并利用近端策略优化(PPO)更新策略模型(2017; 2022)。尽管 RLHF 具有吸引力,但其训练效率低且不稳定
  • 为解决这些问题,Rafailov 等 (2023) 重新形式化了 RLHF 的优化目标,提出 DPO 损失以直接建模偏好
  • 与论文的工作类似,ReST(2023)通过从当前策略生成新样本,并利用离线强化学习方法优化策略
  • 近期研究还探索了 LLM 策略学习在其他领域的应用(2023; 2023b)
    • 例如,Wang 等 (2023b) 训练了一个逐步奖励模型以提升 LLM 在数学推理中的表现
  • 表 6 对比了 ETO 与其他方法,凸显了论文的方法在大语言模型 Agent 策略学习中的优势

Limitations

  • 尽管 ETO 通过试错学习有效提升了 LLM Agent 的能力,但本研究仍存在一些局限性:
    • 1)ETO 假设 Agent 从一开始就执行错误动作,但实际中错误可能发生在中间步骤。若能识别错误动作(如第 3 步的 \(\hat{a}_3\)),则可针对剩余步骤 \(a_{t>3}\) 收集专家轨迹
      • 但当前环境缺乏此类信息,难以实现细粒度的奖励建模
      • 未来可探索利用 GPT-4 识别错误动作并构建更精细的对比轨迹数据
    • 2)本研究专注于针对特定任务开发专用 Agent ,对通用 Agent 的构建探索有限。未来将研究 ETO 训练策略的迁移性,并尝试在多任务场景中应用该方法

附录 A:Datasets

  • WebShop :
    • WebShop (2022a) 是一个在线购物网站环境,Agent需要根据用户指令在平台上导航并完成购买
    • 当 Agent 选择“购买”动作时,环境会提供一个最终奖励(reward),该奖励基于产品属性和价格的匹配程度计算
  • ScienceWorld :
    • ScienceWorld (2022) 是一个基于文本的虚拟环境,专注于完成基础科学实验,包括热力学和电路等10种不同的任务类型
    • Agent 需要通过具身交互环境(embodied interactive environments)与科学概念互动并理解它们
    • 每个任务包含若干可选子目标,最终奖励基于这些子目标的完成情况计算
  • 特别说明:ScienceWorld 的原始测试集包含关键未见任务变体(unseen task variations)
    • 例如,训练集中的任务可能是“烧开水”,而测试集中的任务则是“熔化铅”
    • 因此,论文使用原始测试集来评估模型在未见场景下的泛化性能
    • 论文将原始开发集作为“已见场景”(seen scenarios)的测试集
    • 由于任务9 和任务10 的解决轨迹过长,论文将其排除
    • 为了公平且高效地比较,论文遵循 Lin 等 (2023) 的方法,对于测试变体超过 10个 的任务类型,仅使用前 10个 实例
  • ALFWorld :
    • ALFWorld (2021) 包含与 ALFRED (2020) 数据集中的具身世界(embodied worlds)平行的交互式文本世界(TextWorld)环境
    • 在该环境中,Agent 需要探索并完成高级家务指令
    • 原始 ALFWorld 数据集包含“seen”和“unseen”评估集
    • “seen”集用于评估分布内泛化(in-distribution generalization),而“unseen”集包含新任务实例,用于评估 Agent 的分布外泛化(out-of-distribution generalization)能力
  • 思维链(CoT)标注 :
    • WebShop 和 ALFWorld 提供了少量人工标注的轨迹(trajectories)用于模仿学习(imitation learning)
    • 论文还使用 GPT-4 作为教师 Agent(teacher agent)在 WebShop 环境中探索,并选择奖励大于 0.7 的轨迹
    • ScienceWorld 环境提供了启发式搜索算法为每个子任务生成黄金轨迹(golden trajectories)
    • 由于原始轨迹不包含每个动作步骤的思维链信息,论文使用 GPT-4 生成相应的推理过程

附录 B:Success Rate

  • 论文在表7 中报告了实验的成功率(success rate)
  • 需要注意的是,三个任务的成功率定义不同:
    • 对于 WebShop,成功率定义为最终奖励为 1.0 的实例比例
    • 对于 ScienceWorld,原始论文未提供成功率的定义。但根据其官方环境,当环境达到预定义的潜在状态(latent state)时,即使奖励未精确达到 1.0,轨迹也会被视为成功
    • 对于 ALFWorld,由于仅提供二元最终奖励,成功率等于平均最终奖励

附录 C:Details for Step-Wise Contrastive(分步对比学习的细节)

  • 论文实现了一种 ETO 变体,该变体从“good-bad”动作对(good-bad action pairs)中学习
  • 具体来说,对于任务指令 \( u \) 和专家轨迹 \( e = (u, a_1, …, o_{n-1}, a_n) \),论文使用教师强制(teacher forcing)执行前 \( t-1 \) 步 \( (a_1, o_1, …, a_{t-1}, o_{t-1}) \),并让 Agent 从第 \( t \) 步开始预测动作,生成轨迹:
    $$
    \hat{e} = (u, a_1, o_1, …, o_{t-1}, \hat{a}_t, \hat{o}_t, …, \hat{o}_{m-1}, \hat{a}_m)
    $$
  • 环境会为轨迹 \( \hat{e} \) 返回奖励 \( \hat{r} \):如果将前 \( t-1 \) 步的黄金轨迹记为 \( e_{(t-1)} \),则“good-bad”动作对 \( a_w \succ a_l \mid u, e_{(t-1)} \) 基于最终奖励构建。其中,\( a_w \) 和 \( a_l \) 分别表示从 \( (a_t, \hat{a}_t) \) 中选择的奖励较高和较低的动作。随后,动作对的对比关系可用于 DPO 损失(DPO loss)中以改进策略:
    $$
    \mathcal{L}_{\text{DPO} }(\pi_\theta; \pi_{\text{ref} }) = -\mathbb{E}\left[\log \sigma\left(\beta \log \frac{\pi_\theta(a_w|u, e_{(t-1)})}{\pi_\theta(a_l|u, e_{(t-1)})} - \beta \log \frac{\pi_{\text{ref} }(a_w|u, e_{(t-1)})}{\pi_{\text{ref} }(a_l|u, e_{(t-1)})}\right)\right].
    $$

附录 D:Case Study

  • 论文通过案例分析比较 ETO Agent 与 SFT 行为克隆(behavioral cloning)Agent 的表现。图5 和 图6 分别展示了 WebShop 和 ScienceWorld 的示例
  • 在 WebShop 场景中,SFT Agent 未能选择“3pc”颜色选项,导致次优轨迹
    • 而 ETO 能够从过去的失败中学习,并熟练地选择正确的属性选项
  • 在 ScienceWorld 示例中,任务是“找到一个动物”
    • SFT Agent 持续执行错误动作,专注于非生物对象,且动作选择与思维链(CoT)不一致。相比之下,ETO 成功完成了任务,展示了试错学习的有效性

附录 E:Prompt for Evaluation

  • 论文在 图7、图8 和 图9 中分别展示了 WebShop、ScienceWorld 和 ALFWorld 的指令提示(instruction prompts)。、

NLP——LLM对齐微调-Dr.GRPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Dr.GRPO)Understanding R1-Zero-Like Training: A Critical Perspective, 202503, Sea AI Lab, NUS
    • 开源代码:github.com/sail-sg/understand-r1-zero

Paper Summary

  • 整体总结:
    • 论文以批判性视角审视了用于 R1-Zero-like 训练的 Base Models 和用于 RL 的算法
    • 作者揭示了预训练偏差如何影响 RL 结果,以及像 GRPO 这样的优化选择如何无意中塑造模型行为
    • 论文提出的 Dr.GRPO 提供了一个简单的修正,在保持推理性能的同时提高了 token 效率(目前在很多场景上已经被广泛应用,各大 RL 框架均有实现)
    • PS:scaling RL can be both effective and efficient,sometimes, less really is more
  • 背景:
    • DeepSeek-R1-Zero 已证明:大规模 RL(无需SFT)即可直接增强 LLM 的推理能力
  • 分析:
    • 论文从 Base Model 和 RL 对 R1-Zero-like 训练进行了批判性审视
    • 研究了包括 DeepSeek-V3-Base 在内的多种 Base Models ,以理解预训练特性如何影响 RL 性能
    • 分析表明:
      • 预训练偏差:DeepSeek-V3-Base 已展现出“顿悟时刻”(Aha moment);Qwen2.5 Base Models无需提示模板也表现出强大的推理能力
      • GRPO 存在优化偏差:GRPO 会在训练过程中人为增加响应长度(尤其是错误输出)
  • 主要工作:
    • 提出一种无偏优化方法 Dr.GRPO,在保持推理性能的同时提升 token 效率(token efficiency)
    • 继而论文提出了一种极简的 R1-Zero 方案,使用 7B Base Models 在 AIME 2024 上达到 43.3% 的准确率,创造了新的 SOTA
  • 注:给出的很多评估测试指标和数据集都有很明确的引用 ,很方便查找各种指标来源 ,论文不会清晰展示,详情可以看论文原文

Introduction and Discussion

  • DeepSeek-R1-Zero 通过引入R1-Zero式训练范式 ,彻底改变了 LLM 的后训练流程:
    • 即:无需依赖 SFT 作为前置步骤,直接将 RL 应用于基础 LLM
  • 这一新范式因其简洁性和展示的 RL scaling phenomenon 而备受关注:
    • 模型的推理能力随着响应长度的持续增加而提升
    • 这一现象还伴随着“Aha moment”的出现,即模型通过学习涌现出自我反思等高级技能
  • 论文旨在通过研究两个关键组件(Base Models和RL),来理解 R1-Zero-like 训练
    • 第一部分,论文探讨 Base Models 的各种属性,重点关注 Qwen2.5 模型家族,该家族被用于近期尝试复现 R1-Zero 的研究,以及 DeepSeek-V3-Base ,真正的 R1-Zero 模型正是基于后者通过 RL 调优得到的
    • 第二部分,论文揭示了 GRPO 优化中的偏差(Shao等,2024),该偏差可能导致错误响应逐渐变长。为此,论文提出了一种简单修改以消除偏差,即“正确实现的GRPO”(Dr.GRPO),从而获得 better token efficiency(如图1所示)
      • 理解:这里的 better token efficiency 是指用更短的 Token 序列获得更高的奖励
  • 通过对 Base Models 和 RL 的分析,论文提出了 R1-Zero-like 训练的极简方案(minimalist recipe) :
    • 使用(无偏的)Dr.GRPO 算法在 MATH level 3-5(详情见原论文引用) 问题上对 Qwen2.5-Math-7B 进行 RL 调优,并采用 Qwen-Math 模板,仅需 8 块 A100 GPU 运行 27 小时即达到 SOTA 性能(图2)。作者希望论文的发现、发布的模型和开源代码库能为该领域的未来研究提供帮助
  • 论文的核心结论概述(TLDR):
    • (第2.1节)模板可以让 Base Models 回答问题而非补全句子;所有 Base Models 在 RL 之前已具备数学解题能力
    • (第2.2节)Qwen-2.5 Base Models 不使用模板时性能立即提升约 60% ,论文推测其在模型构建过程中可能预训练了 concatanated Question-Answer 文本
    • (第2.3节)几乎所有 Base Models (包括 DeepSeek-V3-Base)均已展现出“Aha moment”
    • (第3.1-3.2节)Dr.GRPO 有效修正了 GRPO 的优化偏差,实现了 better token efficiency
    • (第3.3节)模型与模板的不匹配可能破坏推理能力,而 RL 会重建这种能力
    • (第3.4节)Llama-3.2-3B 的数学预训练提升了其 RL 性能上限

Analysis on Base Models

  • 本节论文深入研究了多种 Base Models ,包括 Qwen-2.5家族、Llama-3.1 和 DeepSeek系列
  • 论文从 MATH(Hendrycks等,2021)训练集中抽取 500 个问题,分析这些模型的响应

R1-Zero Trainability: Templates Construct Exploratory Base Policies(R1-Zero 可训练性分析)

  • 由于从 Base Models 开始训练是 R1-Zero 式范式的基本设定,论文首先研究广泛使用的开源 Base Models(通常训练用于句子补全,即 \(p_{\theta}(\mathbf{x})\))是否能够通过适当的模板有效激发其问答能力,从而作为问答基础策略 \(\pi_{\theta}(\cdot|\mathbf{q})\)
    • 问题:句子补全为什么是 \(p_{\theta}(\mathbf{x})\)?
    • 回答:这里应该是强调与 Question-Answer 数据不同,区别于 \(p_{\theta}(\mathbf{o}|\mathbf{q})\)
  • 除了Guo等(2025)中的R1模板(模板1),论文还考虑了Zeng等(2025)使用的 Qwen-Math 模板(模板2)以及无模板(模板3):
    • Template 1 (R1 template):

      A conversation between User and Assistant. The User asks a question, and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer. The reasoning process is enclosed within <think> </think> and answer is enclosed within <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.\nUser: {question}\nAssistant: <think>

    • Template 2 (Qwen-Math template)

      <|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n<|im_start|>user\n{question}<|im_end|>\n<|im_start|>assistant\n

    • Template 3 (No template)

      {question}

  • 实验设置 :
    • 论文测试了 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-7B、Llama-3.1-8B、DeepSeek-Math-7B 和 DeepSeek-V3-Base-685B
    • 对每个模型,
      • 首先应用无模板获取响应,然后让 GPT-4o-mini 判断响应是问答格式(无论质量)还是句子补全模式。记录倾向于回答问题的响应百分比作为指标
      • 然后应用R1模板和Qwen-Math模板获取响应,并根据指标确定每个模型的最适合模板。最后,评估每个模型在对应模板下的 pass@8 准确率,以判断基础策略是否能探索出有利于 RL 改进的轨迹
  • 结果 :图3(左)展示了 Base Models (使用或不使用模板)回答问题的能力,论文发现:
    • 不同 Base Models 使用模板后的提升不一致 :Llama 和 DeepSeek 模型通过使用适当模板(R1 模板)显著提升了问答能力,但Qwen2.5 模型在不使用模板时表现最佳(问答率100%)
      • 这一有趣特性促使论文进一步研究(见第2.2节)
    • DeepSeek-V3-Base 在无模板时问答率最低,表明它是一个近乎纯净的 Base Models
      • 这一观察促使论文探索纯净 Base Models (如DeepSeek-V3-Base)是否展现出 Aha moment(第2.3节)
    • 图3(中)展示了不同 Base Models(使用模板)在不同采样温度下的 pass@8 准确率
      • 该指标可作为基础策略探索能力的指标
      • 例如,若基础策略无法采样出任何导致正确答案的轨迹,RL 将无法改进策略,因为缺乏奖励信号
      • 结果表明,所有测试模型均具备探索能力(适合 RL),其中 Qwen2.5 模型表现最佳(甚至超越 DeepSeek-V3-Base)。这可能部分解释了为何多数 R1-Zero 项目(Zeng等,2025;Hu等,2025)基于 Qwen2.5 模型

Qwen-2.5 Models Unlock the Best Performance When Discarding Template

  • 论文进一步探究了图3(左)中的有趣现象:所有 Qwen2.5 Base Models 即使不使用任何模板,也能直接作为聊天模型
  • 论文在五个标准基准上评估 Qwen2.5-Math 模型的推理能力:AIME 2024、AMC、MATH500、Minerva Math 和 OlympiadBench
  • 采用贪婪解码,采样 token 限制为 3000
  • 如表1所示,不使用任何模板可显著提升 Qwen2.5-Math 模型平均性能,相比传统的 4-shot prompting 提升约 60%
    • 理解:没有模板效果反而最好,说明模板需要一定的格式遵循能力,这会让模型解决问题的能力有所降低!
    • 问题:传统的 4-shot prompting 也是无模板吧?为什么给了 4-shot 效果反而变差了?
      • 回答:猜测是因为增加了太多上下文反而让模型有点混乱了?就像要遵循模板一样,降低了模型解决问题的能力
  • 由于 Qwen2.5-Math(2024)在预训练阶段使用了聊天模型数据(Question-Answer 对),论文推测其可能直接预训练拼接文本以最大化 \(\log p_{\theta}(\mathbf{q};\mathbf{o})\)
    • 若假设成立,使用 Qwen2.5 模型复现 DeepSeek-R1-Zero 时需更加谨慎,因为这些 Base Models 即使无模板也已类似 SFT 模型

Aha moment 已出现在包括 DeepSeek-V3-Base 的 Base Models 中

  • DeepSeek-R1-Zero 最引人注目的成果之一是通过纯 RL 训练涌现出自我反思行为(即Aha moment)
  • 一些前期研究(Liu等,2025b;Yeo等,2025)指出,开源 R1 复现可能不存在 Aha moment,因为它们使用的 Base Models 已包含 self-reflection keywords
  • 然而,这些研究未测试真正的 R1-Zero 模型所基于的 DeepSeek-V3-Base。论文通过自行托管 DeepSeek-V3-Base-685B 并分析其对 500个 MATH 问题的响应(使用 R1 模板)填补了这一空白。从图3(右)可见,DeepSeek-V3-Base 也生成了相当数量的自我反思,进一步验证了Liu等(2025b)的观点。图4 展示了 DeepSeek-V3-Base 生成“Aha”、“wait”和“verify the problem”等关键词的案例
    • 问题:Liu等(2025b)的观点是什么?
  • 另一个重要问题是自我反思行为是否与 RL 训练后模型性能提升相关。论文使用 DeepSeek-R1-Zero 模型并分析其对相同 MATH 问题的响应。虽然 R1-Zero 中自我反思行为更频繁,但这些行为未必意味着更高的准确率。详细分析见附录D

Analysis on Reinforcement Learning

  • 语言模型的生成过程可以形式化为一个 token-level 的马尔可夫决策过程(MDP)\(\mathcal{M}=(\mathcal{S},\mathcal{A},r,p_Q)\)
  • 在每一步生成 \(t\) 时,状态 \(s_t \in \mathcal{S}\) 是输入问题和已生成输出的拼接:\(s_t = \mathbf{q};\mathbf{o}_{ < t} = [q_1,\ldots,q_M,o_1,\ldots,o_{t-1}]\)
  • 策略 \(\pi_\theta(\cdot|s_t)\) 会从词汇表 \(\mathcal{A}\) 中选择 next token \(o_t\),确定性地转移到下一个状态 \(s_{t+1} = s_t;[o_t]\)
  • 生成过程从初始状态 \(s_1 = \mathbf{q} \sim p_Q\) 开始,当自回归策略生成 [eos] token 或耗尽 Budget 时停止
  • 通常,论文最大化以下熵正则化目标(2017a):
    $$
    \mathcal{J}(\pi_\theta) = \mathbb{E}_{\mathbf{q}\sim p_Q} \left[\mathbb{E}_{\mathbf{o}\sim \pi_\theta(\cdot|\mathbf{q})}[R(\mathbf{q},\mathbf{o})] - \beta \mathbb{D}_{KL}[\pi_\theta(\cdot|\mathbf{q})||\pi_{\text{ref} }(\cdot|\mathbf{q})]\right], \tag{1}
    $$
    • \(\pi_{\text{ref} }\) 是参考策略
    • \(R(\mathbf{q},\mathbf{o}) = \sum_{t=1}^{|\mathbf{o}|} r(s_t,o_t)\) 是轨迹 \(\mathbf{q};\mathbf{o}\) 的回报(Sutton, 2018)
      • 其中 \(r\) 是从 \(\pi_{\text{ref} }\) 收集的数据中学习的奖励模型
    • KL 正则项通常用于 RLHF,以防止 \(\pi_\theta\) 偏离奖励模型准确的分布(类似 OOD 问题)
    • 在调整推理模型时,通常使用 Rule-based Verifiers 作为奖励模型 \(r\)(2024),消除了分布偏移的担忧
      • 这使得我们可以移除 KL 项 ,不仅节省了训练时 \(\pi_{\text{ref} }\) 的内存和计算需求,还可能为 R1-Zero-like 训练带来更好的性能(2025)
        • 论文全文中,我们将假设 \(\beta = 0\)
      • 问题:为什么说Rule-based Verifiers 作为奖励模型可以消除分布偏移的担忧?
      • 理解:作者的思路是这样的
        • 第一:奖励模型 \(r\) 是从 \(\pi_{\text{ref} }\) 收集的数据中学习的
        • 第二:KL 正则项是为了防止 \(\pi_\theta\) 偏离奖励模型准确的分布(偏离太多会导致奖励模型估不准)
        • 第三:Rule-based Verifiers 作为奖励模型后,无论策略分布怎么变化,其实都不会出现奖励模型无法评估的情况,也就不存在分布偏移问题
      • 补充说明:这里可能理解是有误的:
        • 首先,奖励模型不一定是从 \(\pi_{\text{ref} }\) 收集的数据中学习的(当然,从 \(\pi_{\text{ref} }\) 收集会更好,可保证策略和奖励模型都是基于 \(\pi_{\text{ref} }\) 分布的);
        • 其次,个人认为是 KL 散度还可以防止模型 Reward Hacking 跑飞了或遗忘了之前的知识。当然,实际是否有效需要实操,都有各自的道理

策略优化算法

  • 为了优化上述目标(式 (1) 中 \(\beta = 0\)),近端策略优化(PPO)(2017b)最大化以下替代目标:
    $$
    \begin{align}
    \mathcal{J}_{\text{PPO} }(\pi_\theta) &= \mathbb{E}_{\mathbf{q}\sim p_Q,\mathbf{o}\sim \pi_{\theta_{\text{old} } }(\cdot|\mathbf{q})} \\
    &\sum_{t=1}^{|\mathbf{o}|} \left\{\min\left[\frac{\pi_\theta(o_t|\mathbf{q},\mathbf{o}_{ < t})}{\pi_{\theta_{\text{old} } }(o_t|\mathbf{q},\mathbf{o}_{ < t})}\hat{A}_t, \text{clip}\left(\frac{\pi_\theta(o_t|\mathbf{q},\mathbf{o}_{ < t})}{\pi_{\theta_{\text{old} } }(o_t|\mathbf{q},\mathbf{o}_{ < t})},1-\epsilon,1+\epsilon\right)\hat{A}_t\right]\right\},
    \end{align} \tag{2}
    $$
    • \(\pi_{\theta_{\text{old} } }\) 是更新前的策略
    • \(\hat{A}_t\) 是第 \(t\) 个 token 的优势函数估计(注意:PPO 的优势函数估计使用的奖励函数中包含了 KL 散度, GRPO 的奖励函数不包含 KL 散度)
    • 标准方法是通过学习的价值模型 \(V_\phi\) 计算广义优势估计(GAE)(2015)。然而,在 LLM 调整的背景下,学习价值模型计算成本高,因此更倾向于无需 \(V_\phi\) 的方法
      • 例如:GRPO 首先对每个问题采样一组响应 \(\{\mathbf{o}_1,\ldots,\mathbf{o}_G\}\) 并计算其回报 \(\mathbf{R} = \{R_1,\ldots,R_G\}\),然后将 \(\mathbf{o}_i\) 的所有 token 优势设为
        $$\hat{A}_t = \frac{R_i - \text{mean}(\mathbf{R})}{\text{std}(\mathbf{R})}$$

GRPO 导致优化偏差

  • 在 Deepseek-R1-Zero(2025)中,一个显著趋势是训练过程中响应长度的持续增加。这常被解释为高级推理能力(如自我反思)的发展
  • 近期研究(2025; 2025; 2025)使用不同算法和实现复现了这一现象
  • 但作者认为观察到的响应长度增加可能是 GRPO(2024)目标函数中的固有偏差导致:
    $$
    \begin{align}
    \mathcal{J}_{\text{GRPO} }(\pi_\theta) &= \mathbb{E}_{\mathbf{q}\sim p_Q, \{\mathbf{o}_i\}_{i=1}^G \sim \pi_{\theta_{\text{old} } }(\cdot|\mathbf{q})} \\
    &\frac{1}{G} \sum_{i=1}^G \color{red}{\frac{1}{|\mathbf{o}_i|}} \sum_{t=1}^{|\mathbf{o}_i|} \left\{\min\left[\frac{\pi_\theta(o_{i,t}|\mathbf{q},\mathbf{o}_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t}|\mathbf{q},\mathbf{o}_{i,<t})}\hat{A}_{i,t}, \text{clip}\left(\frac{\pi_\theta(o_{i,t}|\mathbf{q},\mathbf{o}_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t}|\mathbf{q},\mathbf{o}_{i,<t})},1-\epsilon,1+\epsilon\right)\hat{A}_{i,t}\right]\right\}
    \end{align} \tag{3}
    $$
    • 其中
      $$
      \hat{A}_{i,t} = \frac{R(\mathbf{q},\mathbf{o}_i) - \text{mean}(\{R(\mathbf{q},\mathbf{o}_1),\ldots,R(\mathbf{q},\mathbf{o}_G)\})}{\color{red}{\text{std}(\{R(\mathbf{q},\mathbf{o}_1),\ldots,R(\mathbf{q},\mathbf{o}_G)\})}},
      $$
    • 且回报 \(R(\mathbf{q},\mathbf{o}_i)\) 通常仅包含 LLM 推理中的可验证结果奖励(outcome verifiable reward)
      注:该分析同样适用于过程奖励情况
  • 与式 (2) 相比,GRPO 引入了两种偏差(见图5):
    • Response-level length bias :由除以 \(|\mathbf{o}_i|\) 引起
      • 对于正优势(\(\hat{A}_{i,t} > 0\),表示正确响应),此偏差导致对较短响应的梯度更新更大,使策略倾向于简短的正确回答
      • 对于负优势(\(\hat{A}_{i,t} < 0\),表示错误响应),较长响应的惩罚较小(因为其 \(|\mathbf{o}_i|\) 较大),导致策略在错误响应中偏好更长的回答
      • 思考:常规的 RL 场景中,存在另一种(结束状态奖励一致,但时间步不一致导致)的问题,这时候 RL 更倾向于时间步短的轨迹。这与 GRPO 不同
        • GRPO 的奖励是有正有负的,且同一个轨迹上的每个 token 奖励都一致
        • GRPO 对同一轨迹的 token 求平均计算 loss 的做法会在奖励为负和为正时都缩小长轨迹上 token 的 Loss 权重
        • 所以模型会倾向于 简短的正确回答 和 较长的错误回答
      • 问题:在 \(\color{red}{\frac{1}{|\mathbf{o}_i|}}\) 前面还有 \(\sum_{t=1}^{|\mathbf{o}_i|}\),似乎并不会导致本论文中所说的问题,\(\color{red}{\frac{1}{|\mathbf{o}_i|}} \sum_{t=1}^{|\mathbf{o}_i|}\) 相当于是一个平均而已
        • 这里理解有误,\(\sum_{t=1}^{|\mathbf{o}_i|}\) 只是损失函数累计到一起的动作(可以看做是一个 Batch 的多个样本一起更新模型), \(\color{red}{\frac{1}{|\mathbf{o}_i|}}\) 则是相当于给所有样本都加了一个权重 \(\color{red}{\frac{1}{|\mathbf{o}_i|}}\)
        • 这个权重与 \(\color{red}{\mathbf{o}_i}\) 有关,对不同长度的 response 的 Token 是不公平的,此时,长序列的回复梯度会被缩小(不论正负都会被缩小)),导致模型会倾向于 简短的正确回答 和 较长的错误回答
    • Question-level difficulty bias :由将中心化结果奖励除以 \(\text{std}(\{R(\mathbf{q},\mathbf{o}_1),\ldots,R(\mathbf{q},\mathbf{o}_G)\})\) 引起
      • 标准差较低的问题(如过于简单或困难,结果奖励几乎全为 1 或 0)在策略更新时被赋予更高权重
      • 尽管优势归一化是 RL 中的常见技巧(2021),但通常在整批数据上计算
      • 相比之下,Question-level 归一化导致不同问题在目标中权重不同,从而在优化中引入难度偏差
  • 特别说明:开源 PPO 实现中同样存在长度偏差
    • 论文还检查了几种流行的开源 PPO 实现
    • 令人惊讶的是,所有这些实现都通过响应长度对损失进行归一化(见表2),这与式 (2) 中定义的 PPO 目标不一致
    • 这种公式与实现的错配甚至在 GRPO 发表之前就已存在
    • 论文推测这种错配可能源于预训练阶段(2019),其中所有 token 被打包到固定长度的上下文中,通过上下文长度归一化损失(即计算 loss.mean(-1))提高了数值稳定性
    • 然而,在 RL-tuning stage,典型实现(2020)通过响应长度归一化损失,而响应长度非常量,从而引入了意外的长度偏差

Dr.GRPO:修正 GRPO 的优化偏差(Dr.GRPO: GRPO Done Right)

  • 为避免上述 GRPO 的优化偏差,论文提出简单地移除 \(\frac{1}{|\mathbf{o}_i|}\) 和 \(\text{std}(\{R(\mathbf{q},\mathbf{o}_1),\ldots,R(\mathbf{q},\mathbf{o}_G)\})\) 归一化项
  • 同时,为了忠实实现无偏优化目标(unbiased optimization objective,这里的无偏是指上述两个偏差Response-level length bias 和 Question-level difficulty bias),我们可以将 listing 1 中 masked mean 函数的 mask.sum(axis=dim) 替换为常数值(如 Generation Budget ,论文使用最大输出 Token 数),如绿色行所示
  • 特别说明:实际上 verl 库中实现的 DAPO 其实已经没有按照不同回复的 response 长度作为分母了(分母位置如果直接 sum 所有,相当于按照整个 Batch 的总 Token 做归一化),详情见:verl/xxx/masked_mean
  • 这些简单修改恢复了式 (2) 中的 PPO 目标,优势通过蒙特卡洛回报和无偏基线估计(Sutton 2018)。详细推导见附录 A。论文将新优化算法称为 Dr.GRPO ,并通过实验验证其有效性
    • 问题:如何理解这里的代码?
  • 实验设置 :论文使用 Oat(2025a)实现算法,采用 Qwen2.5-1.5B Base Models 和 R1 模板(模板 1)进行 online RL-tuning。论文使用 Math-Verify 实现基于验证的奖励函数,规则如下:
    $$
    R(\mathbf{q},\mathbf{o}) = \begin{cases}
    1 & \text{if } \mathbf{o} \text{ 包含 } \mathbf{q} \text{ 的正确答案} \\
    0 & \text{else}
    \end{cases}
    $$
    • 论文从 MATH(2021)训练数据集中采样问题运行 RL,比较原始 GRPO 和提出的 Dr.GRPO
    • 论文在五个基准测试上评估在线模型:AIME2024、AMC、MATH500、Minerva Math 和 OlympiadBench
    • 更多实验细节和超参数见开源代码库
  • 结果 :图6 展示了 Dr.GRPO 能有效减轻优化偏差并提升 token 效率
    • 论文发现 GRPO 和 Dr.GRPO 均表现出与 DeepSeek-R1-Zero(2025)相似的趋势,即响应长度随训练奖励增加(图1 & 2)
    • GRPO 在奖励提升放缓时仍持续生成长响应(图2)
    • 尽管这种现象常被称为 RL 中长链式思维的“涌现”(2025 等),作者认为这也与优化中的响应级长度偏差(3.1 节)有关
    • 相比之下,通过计算无偏策略梯度,Dr.GRPO 防止了训练中响应长度的无限制增长(图2)
    • 此外,在评估基准上,Dr.GRPO 显著减少了错误响应的长度(图4),表明无偏优化器还能减轻过度思考(Chen 等, 2024)

A Duet of Template and Question Set Coverage in RL dynamics(模板与问题集覆盖在 RL Dynamics 中的双重作用)

  • 回想 Qwen2.5-Math Base Models 无需任何提示模板即可高准确率回答问题(2.2 节)
  • 基于这一有趣现象,论文研究不同模板如何影响 RL 训练
  • 鉴于普遍认为更大的问题集覆盖能带来更好性能(2025 等),论文还研究了不同模板与不同问题集覆盖水平的交互
  • 实验设置 :从 Qwen2.5-Math-1.5B Base Models 出发,分别应用 R1 模板、Qwen-Math 模板和无模板运行 Dr.GRPO 的 RL。所有实验针对表3 中不同问题集重复进行
  • 结果 :图7 展示了不同设定下的 RL 曲线(注:图中的数据集是训练集,不是测试集),论文得出以下观察:
    • 1)模板决定初始策略性能,但 RL 可将所有策略提升至约 40%(给定合适问题集);
    • 2)使用 R1 模板时,问题集对 RL 动态影响显著,覆盖过窄会导致较低的平台性能;使用 Qwen-Math 模板时,最佳最终性能通过在 GSM-8K 为训练集的 RL 实现,表明在更简单(且分布外)问题上训练可大幅提升(近翻倍)困难问题的测试准确率
  • 由此论文得出以下见解:
    • Qwen2.5-Math-1.5B Base Models 已具备强大数学求解能力(见图7 右图起点)。应用模板实际上会破坏此能力,RL 可以重建这个能力。这意味着我们在宣称纯 RL 带来的巨大增益时应更加谨慎
    • 当 Base Models 与模板严重不匹配(如 R1 模板与 Qwen2.5-Math-1.5B),策略改进主要来自 RL-tuning ,因此需要问题集具有良好的覆盖(图7 左图)。
    • 当 Base Models 与模板匹配时:即使是 Completely OOD 的小问题集也能通过强化正确推理行为(而非灌输新知识)同样有效地诱导推理能力

      When there is a large mismatch between base models and templates (e.g., R1 template mismatches Qwen2.5-Math-1.5B), the policy improvement mainly comes from RL- tuning, thus requiring question set to have good coverage (left plot of Fig. 7). Otherwise, even a small and completely o.o.d. question set could induce the reasoning ability equally well, by reinforcing correct reasoning behaviors instead of infusing new knowledge.

      • 理解:这里是在说,RL 主要是在激活模型的推理能力,如果模板匹配,则我们进需要很少的数据集就能激活这个能力;但如果不匹配,则需要较为全面的数据来重构这个能力
    • 质疑:这里训练步数太少了,看着大家的效果都还没有收敛呢

Domain-Specific Pretraining Improves RL Ceiling

  • 近期成功的 R1-Zero-like 数学推理复现大多采用 Qwen2.5 Base Models 作为初始策略(2025等),这些模型已是强大的数学求解器并表现出自我反思模式(2.2 和 2.3 节)
  • 本节我们探索另一面:
    • R1-Zero-like 训练能否在原本较弱(数学推理方面)的 Base Models 上成功?
    • 回答是肯定的 ,论文还观察到数学预训练会提高 RL 的上限
  • 实验设置 :论文以 Llama-3.2-3B Base Models 为起点,分别用不同数据集进行预训练得到不同的领域模型,然后使用无偏 Dr.GRPO 算法和 R1 模板进行 RL-tuning
    • Llama-3.2-3B :基础模型
    • Llama-3.2-3B-FineMath :在 FineMath 数据集(2025)上对 Llama-3.2-3B 持续预训练(continual pretrained model,CPT)得到的模型
      • 论文假设领域特定预训练有助于 RL,因此特意训练了 Llama-3.2-3B-FineMath
    • Llama-3.2-3B-NuminaQA :在基于 NuminaMath-1.5 的 concatanated Question-Answer 文本数据集上以学习率 1e-5 对 Llama-3.2-3B-FineMath 持续预训练 2 轮
      • 理解:论文假设了 Qwen2.5 模型可能预训练于 concatanated Question-Answer 文本,所以类似地利用 NuminaMath-1.5(2024)数据集生成 concatanated 数据集来训练一个基础模型用于测试 RL
  • 结果 :图8 左图展示了不同 Base Models 的 RL 曲线
    • 论文发现 RL 甚至能改进原始 Llama Base Models,但增益有限
      • 理解:增益有限的原因是因为 Llama Based 模型较差,难以生成正确回复
    • 通过持续预训练(及 concatanated 持续预训练)嵌入数学领域知识后,Llama 模型展现出更强的 RL 性能,验证了论文的假设(假设是基础模型决定了 RL 上限)
    • 论文还用 Llama Base Models(Llama-3.2-3B-NuminaQA)重新审视 GRPO 的优化偏差
      • 图8 右图比较了 GRPO 和 Dr.GRPO 在模型性能和响应长度上的表现
      • 可以清晰看到 GRPO 会产生“double-increase”现象(性能和输出长度),可能导致在 Llama 模型上数学预训练后长链式思维“涌现”的误解
      • 遗憾的是,长度增加可能源于优化偏差(3.1 节),而提出的 Dr.GRPO 能有效缓解此问题(3.2 节和图8 右图)

附录A:策略梯度推导

  • 在 LLM 后训练的 RL 中,论文通常最大化以下目标函数:
    $$
    \mathcal{J}(\pi_{\theta}) = \mathop{\mathbb{E} }_{\mathbf{q}\sim p_{Q} } \left[\mathop{\mathbb{E} }_{\mathbf{o}\sim \pi_{\theta}(\cdot|\mathbf{q})}[R(\mathbf{q}, \mathbf{o})]\right], \tag{4}
    $$
    • \( R(\mathbf{q}, \mathbf{o}) = \sum_{t=1}^{|\mathbf{o}|} r(\mathbf{q}, \mathbf{o}_{ < t}) \) 是轨迹 \(\mathbf{q};\mathbf{o}\) 的回报(Sutton 2018),而 \( r(\mathbf{q}, \mathbf{o}_{ < t}) \) 表示响应 \(\mathbf{o}\) 中第 \( t \) 个 token 的 token-level 奖励
  • 方程(4)的蒙特卡洛策略梯度(Sutton 2018)为:
    $$
    \begin{split}
    \nabla_{\theta}\mathcal{J}(\pi_{\theta}) &= \mathop{\mathbb{E} }_{\mathbf{q}\sim p_{Q} } \left[\mathop{\mathbb{E} }_{\mathbf{o}\sim \pi_{\theta}(\cdot|\mathbf{q})}[\nabla_{\theta} \log \pi_{\theta}(\mathbf{o}|\mathbf{q}) R(\mathbf{q}, \mathbf{o})]\right] \\
    &= \mathop{\mathbb{E} }_{\mathbf{q}\sim p_{Q} } \left[\mathop{\mathbb{E} }_{\mathbf{o}\sim \pi_{\theta}(\cdot|\mathbf{q})}[\nabla_{\theta} \sum_{t=1}^{|\mathbf{o}|} \log \pi_{\theta}(o_{t}|\mathbf{q}, \mathbf{o}_{ < t}) R(\mathbf{q}, \mathbf{o})]\right] \\
    &= \mathop{\mathbb{E} }_{\mathbf{q}\sim p_{Q} } \left[\mathop{\mathbb{E} }_{\mathbf{o}\sim \pi_{\theta}(\cdot|\mathbf{q})}[\sum_{t=1}^{|\mathbf{o}|} \nabla_{\theta} \log \pi_{\theta}(o_{t}|\mathbf{q}, \mathbf{o}_{ < t}) \sum_{t’=t}^{|\mathbf{o}|} r(\mathbf{q}, \mathbf{o}_{\leq t’})]\right] \\
    &= \mathop{\mathbb{E} }_{\mathbf{q}\sim p_{Q} } \left[\mathop{\mathbb{E} }_{\mathbf{o}\sim \pi_{\theta}(\cdot|\mathbf{q})} \left[\sum_{t=1}^{|\mathbf{o}|} \nabla_{\theta} \log \pi_{\theta}(o_{t}|\mathbf{q}, \mathbf{o}_{ < t}) \left( \sum_{t’=t}^{|\mathbf{o}|} r(\mathbf{q}, \mathbf{o}_{\leq t’}) - B(\mathbf{q}, \mathbf{o}_{ < t}) \right)\right]\right],
    \end{split} \tag{5}
    $$
    • 其中 \( B(\mathbf{q}, \mathbf{o}_{ < t}) \) 是一个减少方差的项,其相对于 \( o_{t} \) 不变,因此:
      $$
      \begin{split}
      \mathop{\mathbb{E} }_{o_{t}\sim \pi_{\theta}(\cdot|\mathbf{q}, \mathbf{o}_{ < t})}[\nabla_{\theta} \log \pi_{\theta}(o_{t}|\mathbf{q}, \mathbf{o}_{ < t}) B(\mathbf{q}, \mathbf{o}_{ < t})] &= \mathop{\mathbb{E} }_{o_{t}\sim \pi_{\theta}(\cdot|\mathbf{q}, \mathbf{o}_{ < t})}[\nabla_{\theta} \log \pi_{\theta}(o_{t}|\mathbf{q}, \mathbf{o}_{ < t})] B(\mathbf{q}, \mathbf{o}_{ < t}) \\
      &= [\sum_{o_{t} } \pi_{\theta}(o_{t}|\mathbf{q}, \mathbf{o}_{ < t}) \nabla_{\theta} \log \pi_{\theta}(o_{t}|\mathbf{q}, \mathbf{o}_{ < t})] B(\mathbf{q}, \mathbf{o}_{ < t}) \\
      &= [\sum_{o_{t} } \nabla_{\theta} \pi_{\theta}(o_{t}|\mathbf{q}, \mathbf{o}_{ < t})] B(\mathbf{q}, \mathbf{o}_{ < t}) \\
      &= [\nabla_{\theta} \sum_{o_{t} } \pi_{\theta}(o_{t}|\mathbf{q}, \mathbf{o}_{ < t})] B(\mathbf{q}, \mathbf{o}_{ < t}) \\
      &= [\nabla_{\theta} 1] B(\mathbf{q}, \mathbf{o}_{ < t}) = 0.
      \end{split}
      $$
      • 理解:这里证明主要是证明了策略梯度法中,对累计奖励减去任意与动作无关的值都可以保证原始策略梯度是无偏的
  • 通常,论文设 \( B(\mathbf{q}, \mathbf{o}_{ < t}) = \mathop{\mathbb{E} }_{\mathbf{o}_{\geq t’} \sim \pi_{\theta}(\cdot|\mathbf{q}, \mathbf{o}_{ < t})}[\Sigma_{t’=t}^{|\mathbf{o}|} r(\mathbf{q}, \mathbf{o}_{\leq t’})] \),即当前状态的期望累积奖励(也称为当前状态的价值),并定义 \( A(o_{t}|\mathbf{q}, \mathbf{o}_{ < t}) = \sum_{t’=t}^{|\mathbf{o}|} r(\mathbf{q}, \mathbf{o}_{\leq t’}) - B(\mathbf{q}, \mathbf{o}_{ < t}) \) 为优势。在结果奖励的情况下,\( \Sigma_{t’=t}^{|\mathbf{o}|} r(\mathbf{q}, \mathbf{o}_{\leq t’}) = \sum_{t=1}^{|\mathbf{o}|} r(\mathbf{q}, \mathbf{o}_{\leq t}) = R(\mathbf{q}, \mathbf{o}) \)
  • 通过设 \( B(\mathbf{q}, \mathbf{o}_{ < t}) = \text{mean}(\{R(\mathbf{q}, \mathbf{o}_{1}), \ldots, R(\mathbf{q}, \mathbf{o}_{G})\}) \),方程(5)的策略梯度变为:
    $$
    \nabla_{\theta}\mathcal{J}(\pi_{\theta}) = \mathop{\mathbb{E} }_{\mathbf{q}\sim p_{Q} } \left[\mathop{\mathbb{E} }_{\{\mathbf{o}_{i}\}_{i=1}^{G} \sim \pi_{\theta}(\cdot|\mathbf{q})}[\frac{1}{G} \sum_{i=1}^{G} \sum_{t=1}^{|\mathbf{o}|} \nabla_{\theta} \log \pi_{\theta}(o_{i,t}|\mathbf{q}, \mathbf{o}_{i,<t}) \tilde{A}_{i,t}]\right], \tag{6}
    $$
    • 其中:
      $$
      \tilde{A}_{i,t} = R(\mathbf{q}, \mathbf{o}_{i}) - \text{mean}(\{R(\mathbf{q}, \mathbf{o}_{1}), \ldots, R(\mathbf{q}, \mathbf{o}_{G})\})
      $$
      • 注:以上公式分母上是删除了原始 GRPO 中的的分母,作为对照,补充原始 GRPO 的优势函数估计为:
        $$
        \tilde{A}_{i,t} = \frac{R(\mathbf{q}, \mathbf{o}_{i}) - \text{mean}(\{R(\mathbf{q}, \mathbf{o}_{1}), \ldots, R(\mathbf{q}, \mathbf{o}_{G})\})}{\color{gray}{\color{red}{\text{std}(\{R(\mathbf{q}, \mathbf{o}_{1}), \ldots, R(\mathbf{q}, \mathbf{o}_{G})\})}}}.
        $$
  • 论文采用 PPO(2017b)目标计算方程(6):
    $$
    \begin{split}
    \mathcal{J}(\pi_{\theta}) &= \mathbb{E}_{\mathbf{q} \sim p_{Q}, \{\mathbf{o}_{i}\}_{i=1}^{G} \sim \pi_{\theta_{old} }(\cdot|\mathbf{q})} \\
    &\quad \left[\frac{1}{G} \sum_{i=1}^{G} \sum_{t=1}^{|\mathbf{o_i}|} \left\{\min \left[\frac{\pi_{\theta}(o_{i,t}|\mathbf{q}, \mathbf{o}_{i,<t})}{\pi_{\theta_{old} }(o_{i,t}|\mathbf{q}, \mathbf{o}_{i,<t})} \tilde{A}_{i,t}, \text{clip} \left(\frac{\pi_{\theta}(o_{i,t}|\mathbf{q}, \mathbf{o}_{i,<t})}{\pi_{\theta_{old} }(o_{i,t}|\mathbf{q}, \mathbf{o}_{i,<t})}, 1 - e, 1 + e \right) \tilde{A}_{i,t} \right]\right\}\right],
    \end{split}
    $$
    • 注意:上述公式中与原始 GRPO 的不同是移除了 \(\color{red}{\frac{1}{|\mathbf{o_i}|}}\)
  • 由此论文得出结论:RL 目标中不应出现 std 和 \(|\mathbf{o}|\)
  • \(\tilde{A}_{i,t}\)的无偏性 :论文注意到,上述计算的 \(\tilde{A}_{i,t}\) 与 REINFORCE Leave-One-Out(RLOO)(Ahmadian 等, 2024; Kool 等, 2019)的优势函数等价,仅差一个比例因子,该因子可以归入学习率而不影响RL动态。具体来说:
    $$
    \frac{G}{G-1} \cdot \tilde{A}_{i,t} = \frac{G}{G-1} R(\mathbf{q}, \mathbf{o}_{i}) - \frac{G}{G-1} \frac{1}{G} \sum_{j=1}^{G} R(\mathbf{q}, \mathbf{o}_{j}) = \tilde{A}^{\text{RLOO} }_{i,t}.
    $$

附录B:详细基准测试结果

  • 论文在表4中展示了三种规模(1.5B、3B和7B)的详细基准测试结果。论文还包含了同规模的指令模型和 R1-Distill 模型作为比较。由于论文使用了上下文长度为 4k 的 Qwen2.5-Math Base Models ,因此将所有基线的 Generation Budget 限制为 3k。对于训练了更长上下文的模型(如OpenReasoner-Zero和R1-Distill-Qwen),论文还 Report 了它们在 8k Generation Budget 下的性能

附录C:基于关键词和 LLM 的自我反思行为检测

  • 论文构建了一个精心选择的关键词和短语池,用于识别 LLM 响应中的自我反思行为。然而,LLM 生成的响应通常包含幻觉和无关内容,导致简单或模糊的关键词可能并不代表真正的自我反思。例如,“wait”和“try again”等术语经常导致误检。为了减少误报,论文保持了一个高度选择性且规模较小的关键词池,仅包含强烈指示自我反思的术语。在论文的实验中,关键词池包括:recheck、rethink、reassess、reevaluate、re-evaluate、reevaluation、re-examine、reexamine、reconsider、reanalyze、double-check、check again、think again、verify again 和 go over the steps
  • 我们在图9中展示了不同模型生成回答中各类关键词的出现情况。有趣的是,不同模型家族会侧重不同的关键词。例如:
    • “check again”(再次检查)、”double-check”(复核)、”re-evaluate”(重新评估)、”re-examine”(重新审视)、”recheck”(复查)、”reconsider”(重新考虑)以及”verify again”(再次验证)等短语在 Qwen2.5 家族中出现频率最高
    • DeepSeek 家族的回复中从未出现”re-evaluate”、”re-examine”和”verify again”等表达
    • Llama 模型则频繁使用”think again”(重新思考)这一短语
    • 我们推测这种现象源于预训练数据的差异,尤其是与逻辑推理和数学相关的内容部分
  • 尽管论文精心选择了关键词池,但仍可能不足以识别某些不包含特定关键词的隐式自我反思行为。此外,它仍可能导致误报,如图10中的案例(a)所示。为了更准确地评估 Base Models 的自我反思能力,论文利用更强的LLM(实验中为gpt-4o-mini)分析响应,判断其是否表现出显式或隐式的自我反思行为。这种方法有助于区分真正的自我反思行为与表面或偶然使用相关术语的情况
  • 尽管LLM检测能有效过滤关键词检测的误报并识别隐式自我反思行为,但它仍可能对冗长复杂的响应产生误分类。例如,图10中的案例(b)展示了LLM检测的误报,其中响应被归类为自我反思,但实际上并未表现出自我反思行为。通过关键词检测和 LLM 检测的交叉验证,论文增强了检测的鲁棒性。图11展示了结合两种方法的检测结果
    • 问题:Qwen2.5-Math-1.5B 为什么比 Qwen2.5-Math-7B 反思能力还强?
      • 理解:Qwen2.5 系列模型并不是针对反思训练的,反思多不代表模型性能更好?

附录D:DeepSeek-V3-Base 与 DeepSeek-R1-Zero 的比较

  • 论文分析了 DeepSeek-V3-Base 和 DeepSeek-R1-Zero,以理解 R1-Zero 训练期间模型行为的变化。图12展示了 500 个 MATH 问题在不同难度级别上的响应分类结果。结果表明,大多数错误响应在 RL 训练后被修正,证明了 R1-Zero 训练带来的显著性能提升。同时,论文发现未格式化响应的数量有所增加 ,这与Liu等人(2025b)的观察一致
    • 问题:未格式化响应的数量有所增加 是指 RL 训练反而导致 V3-Base 模型的格式遵循能力下降了吗?
      • 理解:格式遵循是基础模型就有的能力,并不需要 RL 来训练,RL 时将格式作为奖励的一部分,主要是防止格式下降?
  • 表5 Report 了各类别的平均响应长度。结果显示,所有类别的响应长度均显著增加,包括正确响应,这与Guo等人(2025)的图3结果一致。然而,错误响应的平均长度明显长于正确响应。论文猜测这是因为更具挑战性的问题通常需要更长的响应,而错误响应更可能来自较难的问题,从而导致更长的平均长度
  • 自我反思并不一定意味着更高的准确性 :为了研究自我反思行为是否与推理阶段的准确性相关,论文分析了 DeepSeek-R1-Zero 在八次试验中至少引发一次自我反思的问题。对于每个问题,论文采样 100 个响应,并将其分为有自我反思和无自我反思两组。图13展示了每组在每个问题上的准确性差异。结果表明,近一半的自我反思响应并未比无自我反思的响应实现更高的准确性,这表明自我反思并不一定意味着 DeepSeek-R1-Zero 在推理阶段的准确性更高

附录E:Prompts Used for GPT-As-A-Judge

  • 用于检测自我反思行为的 LLM 提示:

  • 上述 Prompt 的基本目标就是使用 GPT 来评估模型是否在自我反思(Self-Reflection),其中文简单总结如下

    1
    2
    3
    4
    5
    6
    7
    我将发送一个数学问题及其详细回答。您的任务是判断回答是否试图解决问题。如果回答偏离主题、包含幻觉、随机内容或其他无关信息,则标记为0。否则,评估回答是否表现出自我反思
    分类规则:
    1. 类别0:回答偏离主题、无意义、不连贯、过度重复或缺乏逻辑推理
    2. 类别1:回答试图解决问题,但未表现出自我反思
    3. 类别2:回答表现出任何形式的自我反思(显式或隐式)
    4. 类别3:回答仅包含用于计算的Python代码,无自我反思
    输出格式:简要说明后跟单个类别编号(0、1、2或3)
  • 用于检查模型问答能力的提示:

  • 上述 Prompt 其中文简单总结如下:

    1
    2
    3
    4
    我将发送一个问题和一个由LLM生成的长回答。您的任务是判断输出是否试图回答问题。输出可能包含无关内容、幻觉或随机回答
    输出格式:以单个整数(0或1)开头,后跟简要说明
    * 返回0:输出未尝试回答问题
    * 返回1:输出尝试回答问题(无论是否完整或正确)

NLP——LLM对齐微调-GDPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization, 20260108, NVIDIA

Paper Summary

  • 整体总结:
    • 本研究重新审视了一个基本但常被忽视的问题:GRPO 是否真的适用于多 Reward 优化
    • GDPO 不同于先前主要专注于为多 Reward 强化学习设计新 Reward 函数(这些方法常常将 GRPO 作为默认优化方法)
      • 论文的分析表明,将 GRPO 直接应用于求和后的 Reward,会导致不同的 Reward 组合坍缩为相同的 Advantage 值
      • 这种坍缩消除了跨 Reward 维度的重要区别,导致不准确的策略更新和较弱的优化性能,并且在许多情况下可能导致早期训练失败
    • Group-wise Decoupled Policy Optimization (GDPO) 是为多 Reward 强化学习量身定制的、对 GRPO 的一种简单而有效的修改
      • GDPO 对每个 Reward 分别进行归一化,以保留跨 Reward 的差异,并融入 Batch-wise Advantage 归一化,以在纳入更多 Reward 时保持稳定的数值范围
      • 这些改变带来了更好的收敛行为,以及能更忠实地反映预期偏好结构的模型
    • 论文进一步系统地研究了如何将人类偏好优先级融入训练过程,并解释了当目标之间难度差异较大时如何调整 Reward 函数
      • 通过在工具调用、数学推理和代码推理上的大量实验,论文表明 GDPO 始终优于 GRPO
      • 其优势适用于不同数量的 Reward、不同的模型和不同的 Reward 函数
    • 对于多 Reward 强化学习, GDPO 是比 GRPO 更稳定、更准确、与偏好更对齐的优化方法
  • 背景:
    • 为实现在不同场景中展现出与多样化人类偏好相一致的行为这一目标
    • RL 流程已开始纳入多个奖励,每个奖励对应一种特定偏好,共同引导模型趋向期望的行为
  • 问题提出:
    • 近期工作默认在多奖励设置下应用 GRPO ,却未检验其适用性
    • 论文证明直接将 GRPO 用于归一化不同的 rollout 奖励组合会导致它们坍缩为相同的优势值,从而降低训练信号的分辨率,导致次优收敛甚至训练早期失败
  • 论文提出 Group reward-Decoupled Normalization Policy Optimization (GDPO)
    • GDPO 是一种新的策略优化方法,通过解耦单个奖励的归一化来解决上述问题,从而更忠实地保留奖励间的相对差异,实现更准确的多奖励优化,并大幅提升训练稳定性
  • 论文在三个任务上比较 GDPO 与 GRPO :工具调用、数学推理和代码推理,评估了正确性指标(准确率、bug 率)和约束遵循指标(格式、长度)
    • 在所有设置下, GDPO 均稳定优于 GRPO ,证明了其对于多奖励强化学习优化的有效性和泛化能力

Introduction and Discussion

  • 语言模型能力的持续进步,对其行为的期望也相应提高
    • 要求模型不仅能提供准确的回答,还能在多样化场景中展现出与广泛人类偏好相一致的行为,这种需求在持续增长
  • 这些偏好涉及效率(2025, 2025, 2025)、安全性(2024)、回答连贯性与逻辑性(2025, 2025)、性别偏见(2025)等诸多目标
    • 在单一模型中满足这些异质性要求是一项具有挑战性的任务
  • RL 已成为将大型语言模型与这类多样化人类偏好对齐的事实(de facto)训练流程
    • 特别是,近期基于 RL 的方法已开始将多个奖励纳入训练,每个奖励被设计来捕捉不同的人类偏好,共同引导模型朝向人类偏好的行为
    • 尽管对多奖励 RL 的兴趣日益增长,但近期工作(2025, 2025, 2025)主要聚焦于奖励设计本身,并且常常直接依赖 GRPO 应用于多奖励 RL 优化,通常并未检验 GRPO 是否真正适用于优化异质性奖励的组合
  • 论文重新审视 GRPO 在多奖励设置下的适用性,并表明直接将 GRPO 应用于归一化不同的 rollout 奖励组合可能导致它们坍缩为相同的优势值
    • 如图2所示,这实际上限制了训练信号的精度
    • 这种坍缩消除了跨奖励维度的重要区分,导致不准确的策略更新、次优的奖励收敛,并且在许多情况下会导致训练早期失败
  • 为克服这些挑战,论文提出了Group reward-Decoupled Normalization Policy Optimization (GDPO),该方法解耦了对每个个体奖励的组内归一化,如图 1(a) 所示,以确保不同奖励组合之间的区分得以更好保留,并能更准确地反映模型响应间的相对差异
    • 这带来了更精确的多奖励优化和显著改善的训练收敛性
    • 在解耦组内归一化之后,论文应用批间优势归一化,以确保优势值的大小不会随着个体奖励数量的增加而增大
  • 论文在三个任务上比较了 GDPO 和 GRPO :工具调用、数学推理和代码推理
    • 这些任务涵盖了广泛的目标,包括工具调用的准确性和格式正确性、数学推理的准确性和对推理长度约束的遵循,以及代码通过率和 bug 率
    • 在所有任务中, GDPO 收敛得更好
      • 例如,在图 1(b)中,使用 GDPO 训练 Qwen2.5-1.5B-Instruct 在工具调用任务上获得了比 GRPO 更高的正确性和格式遵循度
    • 在具有挑战性的数学任务上, GDPO 也持续优于 GRPO
      • 例如,使用 GDPO 训练 DeepSeek-R1-1.5B 和 Qwen3-4B-Instruct 相比 GRPO 在 AIME 上分别获得了高达 \(6.3%\) 和 \(2.3%\) 的准确率提升,同时保持更多的简短响应
  • 文章认为:GDPO 是多奖励 RL 优化中优于 GRPO 的更好替代方案
  • 论文的贡献如下:
    • GRPO 奖励坍缩分析(Analysis of GRPO reward collapse)
      • 应用 native GRPO 进行多奖励 RL 优化可能导致不同的 Rollout 奖励组合坍缩为相同的优势值,从而削弱学习信号的分辨率
    • GRPO 奖励坍缩的修正(Remediation of GRPO reward collapse) :
      • GDPO 方法对每个奖励分别执行组间解耦归一化,以更好地保留跨奖励的区分,实现更准确的多奖励优化
    • 除了 GDPO 之外,论文还系统性概述了如何修改奖励函数和调整奖励权重,以更忠实地符合不同优先级的人类偏好
    • 论文在三个任务上进行了广泛的实验:工具调用、数学推理和代码推理

GRPO’s propensity for reward signal collapse in multi-reward RL(注:GRPO 在多奖励 RL 中有导致奖励信号坍缩的倾向)

  • GRPO (2024)及其变体,包括 DAPO(2025)和 REINFORCE++(或 REINFORCE++ Baseline)(2025),由于效率高且简单,已成为广泛采用的强化学习算法
    • 与 PPO(2017)相比, GRPO 通过利用组相对优势估计进行策略更新,消除了对价值模型的需求
  • 目前, GRPO 主要用于优化单目标奖励,通常聚焦于准确性
    • 然而,随着模型能力持续增长,近期的研究工作越来越多地寻求在准确性之外优化多个奖励,例如响应长度约束和格式质量(2025, 2024, 2025),以更好地与人类偏好对齐
    • 现有的多奖励RL方法通常采用一个直接的策略:将所有奖励分量求和,然后直接应用 GRPO
  • 形式上,对于给定的问答对 \((q_{i},o_{j})\),其中行为策略 \(\pi_{\theta_{\text{old} } }\) 采样一组 \(G\) 个响应 \(\{o_{j}\}_{j=1}^{G}\),并假设有 \(n\) 个目标,第 \(j\) 个响应的聚合奖励计算为每个目标奖励的总和:
    $$r_{\text{sum} }^{(i,j)}=r_{1}^{(i,j)}+\cdots+r_{n}^{(i,j)} \tag{1}$$
  • 然后,通过对组级聚合奖励进行归一化来获得第 \(j\) 个响应的组相对优势:
    $$A_{\text{sum} }^{(i,j)}=\frac{r_{\text{sum} }^{(i,j)}-\text{mean}\{r_{\text{sum} }^{(i,1)},\ldots,r_{\text{sum} }^{(i,G)}\} }{\text{std}\{r_{\text{sum} }^{(i,1)},\ldots,r_{\text{sum} }^{(i,G)}\} } \tag{2}$$
  • 相应的多奖励 GRPO 优化目标可以表达为:
    $$\mathcal{J}_{\text{ GRPO } }(\theta)=\mathbb{E}_{(q_{i},o_{j})\sim D, \{o_{j}\}_{j=1}^{G},\sim\pi_{\theta_{\text{old} } }(\cdot|q)}\left[\frac{1}{G}\sum_{j=1}^{G}\frac{1}{|o_{j}|}\sum_{t=1}^{|o_{j}|}\min\left(s_{i,t}(\theta),A_{\text{sum} }^{(i,j)},\text{clip}(s_{i,t}(\theta),1-\epsilon,1+\epsilon),A_{\text{sum} }^{(i,j)}\right)\right] \tag{3}$$
    • 其中 \(s_{t}(\theta)=\frac{\pi_{\theta}(o_{j}^{\dagger},|,q,o_{j}^{ < t})}{\pi_{\theta_{\text{old} } }(o_{j}^{\dagger},|,q,o_{j}^{>t})}\),\(\epsilon\) 表示裁剪阈值
    • 为清晰起见,在此公式中论文省略了 KL 散度损失项
  • 论文首先重新审视这种应用 GRPO 进行多奖励 RL 优化的常见做法,并发现一个先前被忽视的问题,即 GRPO 固有地压缩了奖励信号,导致优势估计中的信息丢失
    • 为说明这一点,论文从简单的训练设置开始,然后扩展到更一般的情况
  • 考虑一个场景,论文为每个问题生成两个 Rollout 用于计算组相对优势,任务涉及两个二元奖励 \(r_{1},r_{2}\in\{0,1\}\)
    • 因此,每个 Rollout 的总奖励可以取值为 \(\{0,1,2\}\)
  • 如图 2 所示,论文枚举了组内所有可能的 Rollout 奖励组合,表示为(Rollout 1 的总奖励, rollout 2 的总奖励)以及对应的归一化优势为(rollout 1 的归一化优势, rollout 2 的归一化优势)
  • 尽管忽略顺序时有六种不同的组合,但在应用组内奖励归一化后,只出现两个独特优势组
    • \((0,1)\)、\((0,2)\) 和 \((1,2)\) 产生相同的归一化优势 \(A_{\text{sum} }\),为 \((-0.7071,\ 0.7071)\),而 \((0,0)\)、\((1,1)\) 和 \((2,2)\) 都导致 \((0,0)\)
  • 这揭示了 GRPO 在多奖励优化中优势计算的根本局限性,即过度压缩了丰富的组内奖励信号
    • 直观上,\((0,2)\) 应该比 \((0,1)\) 产生更强的学习信号,因为总奖励为2表示同时满足两个奖励,而奖励为 1 仅对应达成一个奖励
    • 因此,当另一个rollout只获得零奖励时,\((0,2)\) 应该比 \((0,1)\) 产生更大的相对优势
    • 这种局限性还可能因不准确的优势估计而引入训练不稳定的风险
  • 如图 5 所示,使用 GRPO 训练时,正确性奖励分数在大约 400 个训练步后开始下降,表明发生了部分训练坍缩
  • 最近,Dr.GRPO (2025)和 DeepSeek-v3.2(2025)采用了一种 GRPO 变体,从公式(2)中去除了标准差归一化项,使得
    $$ A_{\text{sum} }^{(i,j)}=r_{\text{sum} }^{(i,j)}-\text{mean}\{r_{\text{sum} }^{(i,1)},\ldots,r_{\text{sum} }^{(i,G)}\}$$
  • 这些工作引入此修改以缓解问题级难度偏差,但乍看之下,这个改变似乎也能解决论文识别的问题
    • 去除标准差归一化确实缓解了该问题:\((0,1)\) 和 \((0,2)\) 现在分别产生不同的优势 \((-0.5,0.5)\) 和 \((-1.0,1.0)\)
    • 但当将此设置推广到更多rollout同时保持奖励数量固定时,如图 3 所示,论文观察到与 GRPO 相比,这种修复仅略微增加了独特优势组的数量
    • 在 Rollout 数量固定为四个,但奖励数量逐渐增加的情况下,也能观察到类似的趋势
      • 在这种情况下,论文也只观察到独特优势组数量有适度的改善
      • 论文在第4.1.1节中经验性地检验了去除标准差归一化项的有效性,发现此修改并未带来改进的收敛性或更好的下游评估性能

Method

Group reward-Decoupled normalization Policy Optimization

  • 为克服这些挑战,论文提出了Group reward-Decoupled Normalization Policy Optimization (GDPO)
    • 这是一种旨在更好地保持不同奖励组合之间的区分,并更准确地捕捉其在最终优势中的相对差异的方法
    • 与 GRPO 直接对聚合奖励总和应用组内归一化不同, GDPO 通过先对每个奖励分别执行组内归一化再进行聚合来解耦此过程
  • 具体而言, GDPO 不是先对所有 \(n\) 个奖励求和(如公式(1)),然后应用组内归一化获得 \(A_{\text{sum} }\)(公式(2)),而是计算第 \(i\) 个问题第 \(j\) 个rollout的每个奖励的归一化优势:
    $$A_{1}^{(i,j)}=\frac{r_{1}^{(i,j)}-\text{mean}\{r_{1}^{(i,1)},\ldots,r_{1}^{(i,G)}\} }{\text{std}\{r_{1}^{(i,1)},\ldots,r_{1}^{(i,G)}\} },\quad\ldots,\quad A_{n}^{(i,j)}=\frac{r_{n}^{(i,j)}-\text{mean}\{r_{n}^{(i,1)},\ldots,r_{n}^{(i,G)}\} }{\text{std}\{r_{n}^{(i,1)},\ldots,r_{n}^{(i,G)}\} } \tag{4}$$
  • 用于策略更新的整体优势随后通过首先对所有目标的归一化优势求和获得:
    $$A_{\text{sum} }^{(i,j)}=A_{1}^{(i,j)}+\cdots+A_{n}^{(i,j)} \tag{5}$$
    • 注意:这里优势和是直接相加的,实际中,可能还可以根据不同维度 Rule/RM 的重要性进行加权缩放?
  • 然后,对多奖励优势的和应用批间优势归一化,以确保最终优势 \(\hat{A}_{\text{sum} }^{(i,j)}\) 的数值范围保持稳定,且不会随着引入额外奖励而增长:
    $$\hat{A}_{\text{sum} }^{(i,j)}=\frac{A_{\text{sum} }^{(i,j)}-\text{mean}\left\{A_{\text{sum} }^{(i^{\prime},j^{\prime})}\mid i^{\prime}\in D_{\text{Batch} },j^{\prime}=1,\ldots,G \right\} }{\text{std} \left\{A_{\text{sum} }^{(i^{\prime},j^{\prime})}\mid i^{\prime}\in D_{\text{Batch} },j^{\prime}=1,\ldots,G \right\}+\epsilon} \tag{6}$$
  • 经验上,论文还发现这个归一化步骤提高了训练稳定性,如附录 A 所示,其中去除批间归一化偶尔会导致收敛失败
  • 通过分离每个奖励的归一化, GDPO 缓解了 GRPO 优势估计中存在的信息丢失问题,如图 2 所示
    • 请注意,由于 GDPO 中的批间归一化步骤不会改变不同优势组的数量,为清晰起见,论文在此省略
  • 从图中可以看出,当采用 GRPO 时,不同的奖励组合,例如 \((0,2)\) 和 \((0,1)\),会导致相同的归一化优势,掩盖了它们之间的细微差别
    • 相比之下, GDPO 通过为每个组合分配不同的优势值来保留这些细粒度差异,例如,\((0,1)\) 的奖励组合在 GDPO 归一化后变为 \((-0.7071,0.7071)\),而 \((0,2)\) 变为 \((-1.4142,1.4142)\),这更恰当地反映了 \((0,2)\) 应比 \((0,1)\) 产生更强的学习信号
    • 类似地,当将 rollout 数量扩展到三个时, GRPO 会将优势值 \((0,0,0)\) 分配给 \((1,1,1)\)
    • 然而,\((1,1,1)\) 可能由异质的奖励分配产生,例如 \(r_{1}=(1,1,0)\) 或 \(r_{2}=(0,0,1)\),而 GDPO 将产生非零优势,从而保留了跨奖励维度的有意义的差异
  • 论文通过比较 GDPO 、 GRPO 和去除标准差的 GRPO 在两种实验设置下的独特优势组数量,进一步量化了 GDPO 的有效性,如图 3 所示
    • 在奖励数量为两个且 rollout 数量变化的情况下, GDPO 始终产生显著更多的独特优势组数量,并且随着 rollout 数量增加,差距扩大
    • 另一方面,当固定 rollout 数量为四个并增加奖励数量时,也出现了类似的模式, GDPO 随着目标数量增长展现出逐渐增大的优势粒度
    • 这证明了解耦归一化方法有效地增加了所有 RL 设置中独特优势组的数量,并实现了更精确的优势估计
  • 除了这些理论改进之外,论文观察到使用 GDPO 始终能产生更稳定的训练曲线和改善的收敛性,例如:
    • 如图 4 所示, GDPO 在 工具调用任务 的格式奖励和正确性奖励上都实现了更好的收敛
    • 如图 5 所示, GDPO 也消除了在 数学推理任务 中观察到的 GRPO 训练坍缩问题,其中使用 GDPO 训练的模型在整个训练过程中持续改进正确性奖励分数
    • 第4节中的额外实证结果进一步证实了 GDPO 在广泛下游任务中实现与目标偏好更强对齐的能力

Effective incorporation of priority variation(考虑优先级差异)

  • 到目前为止,论文假设所有目标同等重要
    • 实际上,这个假设在现实应用中并不总是成立
  • 在本节中,论文系统性地概述了如何调整与不同目标相关的奖励权重或修改奖励函数,以强制优先处理更重要的目标
    • 论文还讨论了当基础奖励在难度上差异显著时,这两种设计选择的不同表现
  • 常见的做法是为每个奖励分配不同的权重,以编码目标间的不同优先级,使得 \(r_{\text{sum} }=w_{1}r_{1}+\cdots+w_{n}r_{n}\),从而控制每个奖励对用于策略更新的最终优势的贡献
  • 对于 GDPO ,此类权重应用于每个奖励的归一化优势,如下:
    $$A_{\text{sum} }^{(i,j)}=w_{1}A_{1}^{(i,j)}+\cdots+w_{n}A_{n}^{(i,j)} \tag{7}$$
  • 本文的发现:当基础目标的难度水平差异显著时,调整奖励权重并不总能产生预期的行为
    • 如果一个目标比其他目标容易得多,模型往往会专注于最大化该目标的奖励 ,而不管分配的权重如何
    • 因此,为了更有效地迫使模型分配更多注意力到更具挑战性的目标相关的奖励,必须使权重差异足够大以补偿难度差距
    • 然而,即使进行此类调整,模型可能仍然倾向于优化更容易的奖励,而不是用户意图优先的目标,这一现象论文将在第4.2.1节进行经验性展示
  • 一些近期工作(2025,2024)通过将较容易的奖励条件化于较难的奖励来解决此类 Reward Hacking 问题
    • 给定两个奖励 \(r_{k}\) 和 \(r_{l}\),将 \(r_{k}\) 条件化于 \(r_{l}\) 可以表述为:
      $$r_{k}=\begin{cases}r_{k},&\text{if }r_{l}\geq t\\ 0,&\text{otherwise}.\end{cases} \tag{8}$$
    • 通过这样的奖励函数设计,模型只有在奖励 \(r_{l}\) 满足预定义的分数阈值 \(t\) 时才能获得 \(r_{k}\) 的奖励,因此,模型被迫首先最大化人类优先的奖励,从而完全缓解上述问题
    • 这种策略的经验有效性展示在第 4.2.1 节,其中使用条件化奖励函数训练的模型,相比仅对优先奖励分配更大权重而未使用条件化的模型,在优先目标上实现了更高的性能
    • 论文还观察到,在解决了较易奖励占主导的问题之后,为细粒度优先级调整分配不同的奖励权重也能更忠实地反映在最终模型行为中

Experiments

  • 论文首先在工具调用任务上评估 GDPO 与 GRPO 的有效性(第 4.1 节),该任务涉及优化两个 Reward:
    • 工具调用正确性和格式符合性
  • Next, 论文进行了一项消融研究,检验了带或不带标准差归一化的 GRPO 的训练收敛性和下游性能
  • 然后论文在数学推理任务上比较了 GDPO 和 GRPO ,该任务优化了两个隐含竞争的 Reward:
    • 准确性和长度约束(第 4.2 节)
  • 论文进一步广泛分析了融入不同 Reward 权重和修改 Reward 函数以更好地反映人类偏好中不同优先级的影响,特别是在 Reward 难度差异显著时
  • Finally,论文将优化的 Reward 数量扩展到三个,并在代码推理任务上比较了 GRPO 和 GDPO (第 4.3 节),联合优化了代码生成准确性、对长度约束的遵守程度以及缺陷率,进一步证明了 GDPO 能有效推广到具有三个 Reward 目标的任务场景

Tool calling

  • 论文遵循 ToolRL (2025) 的设置,在工具调用任务上比较 GDPO 与 GRPO
  • 模型被训练学习如何将外部工具整合到推理轨迹中,以按照附录 B 所示的输出格式解决用户任务,其中推理步骤必须包裹在 <think></think> 中,工具调用必须出现在 <tool_call></tool_call> 内,而模型的最终答案必须放置在 <response></response> 内
  • 论文采用与 ToolRL 相同的训练集进行 RL 训练,该数据集包含来自 ToolACE (2024) 的 2k 个样本、来自 Hammar (2024) 的 1k 个样本和来自 xLAM (2025) 的 1k 个样本
    • 每个训练实例包含一个问题及其对应的真实工具调用
  • 训练涉及两个 Reward:
    • 格式 Reward (Format reward) : 格式 Reward \( \mathcal{R}_{\text{format} } \in \{0,1\} \) 检查模型输出是否满足所需的结构,并是否以正确的顺序包含所有必要的字段
    • 正确性 Reward (Correctness reward) : 正确性 Reward \( \mathcal{R}_{\text{correct} } \in [-3,, 3] \) 使用三个指标将模型生成的工具调用与真实调用进行比较:工具名称匹配、参数名称匹配和参数内容匹配
    • Reward 公式的完整描述见附录 C
  • 论文使用 verl (2024) 框架,按照 ToolRL 的 GRPO 配方中的原始超参数设置,使用 GRPO 和 GDPO 训练 Qwen-2.5-Instruct(1.5B 和 3B)(2025) 100 个 step
    • 每个训练问题使用 4 个 Rollout,Batch 大小为 512,最大 Response 长度为 1024
    • 完整的超参数配置列于附录 D
  • 论文在伯克利函数调用排行榜(BFCL-v3)上评估训练好的模型,这是一个涵盖广泛挑战的综合基准测试,包括单步推理、多步工具使用、实时执行、无关工具拒绝、同时多工具选择和多工具执行
    • 论文用 GRPO 和 GDPO 对模型进行了五次微调,并在表 1 中报告了在 BFCL-v3 上的平均准确率和平均格式正确率
    • 此外,论文在图 4 中绘制了两种方法在五次运行中的训练曲线中位数和四分位距
  • 从训练曲线中,论文观察到在所有运行中, GDPO 在格式和正确性 Reward 得分上都持续收敛到更高的值
    • 尽管 GDPO 在格式 Reward 上的收敛所需 step 数方面表现出更大的方差,但最终获得的格式符合性仍优于 GRPO
    • 对于正确性 Reward, GDPO 在早期阶段显示出更快的改进,并在后期阶段达到比 GRPO 基线更高的 Reward 分数,这证明了 GDPO 在提供更准确的 Advantage 估计从而实现更好优化方面的有效性
  • 在表 1 所示的 BFCL-v3 评估中,与 GRPO 训练的模型相比, GDPO 也持续提高了平均工具调用准确率和格式正确率
    • 在训练 Qwen2.5-Instruct-1.5B 时,与 GRPO 相比, GDPO 在实时/非实时任务上的准确率提升了近 5% 和 3%,整体平均准确率提升了约 2.7%,正确格式比率提升了 4% 以上
    • 在 3B 模型上也观察到了类似的改进, GDPO 在所有子任务上继续优于 GRPO ,实现了高达 2% 的准确率提升,并提供了更好的格式符合率
Does removing the standard deviation normalization term in GRPO provide any benefit?
  • 从图 3 回顾可知,移除 GRPO 中的标准差归一化项(记为 GRPO w/o std)会略微增加不同 Advantage 组的数量
  • 在本节中,论文从经验上检验了这种修改的有效性。遵循之前的实验,论文运行 GRPO w/o std 五次,并报告在 BFCL-v3 上的平均准确率和平均格式正确率
  • 在图 1(b) (注:需要结合图 4 看)所示的 Reward 训练曲线中,论文观察到,尽管 GRPO w/o std 收敛到的正确性 Reward 与 GDPO 相似且高于标准 GRPO ,但它完全未能改进格式 Reward
  • 这种失败导致了在 BFCL-v3 上 0% 的正确格式比率(见表 2),表明模型没有学会所需的输出结构
  • 这也表明,仅仅为了增加 Advantage 多样性而移除标准差归一化项,可能会给训练带来不稳定性,最终可能阻止多 Reward 强化学习的成功收敛

Mathematical reasoning

  • 论文考虑一个数学推理任务,它优化两个隐含竞争的 Reward:
    • 准确性和对长度约束的遵守(accuracy and adherence to a length constraint)
    • 目标是提高模型在具有挑战性的数学问题上的性能,同时将生成的输出保持在预定义的 Response 长度内 ,以鼓励高效的问题解决
  • 论文使用 GRPO 和 GDPO 在 DeepScaleR-Preview 数据集 (2025) 上训练 DeepSeek-R1-1.5B、DeepSeek-R1-7B (2025) 和 Qwen3-4B-Instruct (2025) 500 个 step,该数据集包含 40K 个竞赛级数学问题
  • 训练使用 verl (2024) 进行,论文遵循原始的 DeepSeek-R1 提示格式 (2025)
    • 遵循 DLER 设置 (2025),论文融入了动态采样、更高的 Clipping 阈值以及来自 DAPO (2025) 的 Token 平均损失,并使用 16 个 Rollout,Batch 大小为 512,最大 Response 长度为 8000 个 Token
    • 完整的超参数集在附录 E 中提供
  • 训练使用两个 Reward:
    • 长度 Reward (Length reward) : 长度 Reward \( \mathcal{R}_{\text{length} } \in \{0,1\} \) 检查模型的输出是否保持在目标长度 \( l \) 内,在所有后续实验中设置为 4000 个 Token:
      $$
      \mathcal{R}_{\text{length} }=\begin{cases}1, &\text{if response length}\leq l\\ 0, &\text{otherwise.}\end{cases}
      $$
    • 正确性 Reward (Correctness reward) : 正确性 Reward \( \mathcal{R}_{\text{correct} } \in \{0,1\} \) 表示从模型 Response 中提取的最终答案是否与真实答案匹配
  • 论文在 AIME-24 (2024)、AMC(AMC 2022 和 AMC 2023)(2024)、MATH (2021)、Minerva (2022) 和 Olympiad Bench (2024) 上比较了 GRPO 和 GDPO 训练的模型
    • 所有评估均使用 vLLM 作为推理后端,采样温度为 0.6,\( top_{p}=0.95 \),最大 Response 长度为 32k 个 Token
    • 对于每个评估问题,论文生成 16 个样本,并报告平均 pass@1 分数和平均超长比率(记为 Exceed),该比率衡量模型 Response 超过预定义长度限制(4000 个 Token)的百分比
  • 从图 5 所示的 GRPO 和 GDPO 在 DeepSeek-R1-1.5B 上的训练曲线中
    • 论文首先观察到,无论使用哪种优化方法,模型都倾向于最大化较容易的 Reward。在这种情况下,长度 Reward 更容易优化, GRPO 和 GDPO 在大约前 100 个训练 step 内都达到了满分长度分数
    • 论文还看到,长度 Reward 的快速上升与正确性 Reward 的早期下降同时发生,这表明两个 Reward 在竞争
      • 在训练的初始阶段,模型优先满足长度约束,通常以牺牲更具挑战性的正确性目标为代价
      • 然而,从正确性 Reward 的轨迹来看,论文观察到 GDPO 比 GRPO 更有效地恢复了正确性 Reward,在可比的训练 step 数上取得了更高的正确性分数
    • 论文还看到, GRPO 训练在 400 步后开始变得不稳定,正确性 Reward 分数逐渐下降,而 GDPO 则继续提高正确性分数
      • 此外,尽管 GDPO 和 GRPO 在整个训练过程中都保持了近乎完美的长度分数,论文还记录了每个训练 Batch 内的最大 Response 长度,以评估模型在更极端情况下对长度约束的遵守程度
      • 结果显示,尽管获得了几乎满分的长度 Reward,但 GRPO 的最大 Response 长度在大约 400 个训练 step 后开始急剧增加,而 GDPO 的最大 Response 长度继续下降
  • 在附录中的图 9 和图 10 中,在 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 的训练曲线上也观察到了类似的情况,我们可以看到 GDPO 始终能提供更好的长度约束对齐
    • 这种对比进一步说明了 GDPO 在多 Reward 优化方面相较于 GRPO 的有效性
  • 此外,表 3 中的基准测试结果表明, GDPO 训练的模型不仅在推理效率上相比原始模型有显著提高(在 AIME 上超长比率降低了高达 80%),而且在大多数任务上实现了更高的准确性
    • 而且, GDPO 在准确性和长度约束目标上通常都优于 GRPO
    • 对于 DeepSeek-R1-1.5B, GDPO 在所有基准测试中都优于 GRPO ,在 MATH、AIME 和 Olympiad 上的准确率分别提高了 2.6%/6.7%/2.3%,同时也在所有任务中降低了超长比率
      • 问题:数字似乎没有严格对上?
    • 类似的趋势也适用于 DeepSeek-R1-7B 和 Qwen3-4B-Instruct, GDPO 实现了更强的准确性-效率权衡
    • 在更具挑战性的 AIME 基准测试上,收益尤为显著:与 GRPO 下 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 分别为 2.1% 和 2.5% 的超长率相比, GDPO 将准确率提高了近 3%,同时将超长率降至 0.2% 和 0.1%
  • 总之,这些结果表明, GDPO 不仅在一系列数学任务上提高了推理准确性,而且更有效地遵守了长度约束,突显了其在多 Reward 优化方面的优势
Impact analysis of different reward priority variation configurations(Reward 优先级变化配置的影响)
  • 到目前为止,论文假设所有 Reward 都具有同等的优先级
    • 然而,如图 5 所示,即使两个目标被分配了相同的 Reward 权重,模型也常常以牺牲更具挑战性的目标为代价来最大化较容易的目标
  • 在本节中,论文研究当期望模型优先最大化正确性 Reward 而非长度 Reward 时,并且当两个目标的难度差异明显时,调整 Reward 权重是否能够引导模型实现这种偏好
  • 论文首先将 \( \mathcal{R}_{\text{correct} } \) 的 Reward 权重(记为 \( w_{\text{correct} } \) )固定为 1,并将 \( \mathcal{R}_{\text{length} } \) 的 Reward 权重(记为 \( w_{\text{length} } \) )在集合 \( \{0.25,0.5,0.75,1.0\} \) 中变化
    • 这个设置允许论文研究降低 \( w_{\text{length} } \) 是否会鼓励模型优先最大化更具挑战性的正确性 Reward
  • 论文在 DeepSeek-R1-7B 上进行了这个实验,并将 MATH 和 AIME 的平均准确率和平均超长比率绘制在图 6 中(其中 \(\tilde{\mathcal{R}}_{\text{length}}\) 表示 Conditional Length Reward; \(\mathcal{R}_{\text{length}}\) 表示 normal Length Reward;从图中可以看到,GDPO 准确率不及 GRPO 的地方,一般都是因为长度降低太多导致)
    • 其余任务的完整结果在附录 G 中提供(注:表 8 和表 9)
  • 从结果中,论文观察到将 \( w_{\text{length} } \) 降低到 0.75 或 0.5 对平均超长比率影响甚微,对于 GRPO 在 AIME 上仅分别变化了 0.4% 和 0.2%,对于 GDPO 分别变化了 1.3% 和 0.6%
    • 此外,降低 \( w_{\text{length} } \) 并不一定会放宽长度约束,因为将 \( w_{\text{length} } \) 从 0.75 降低到 0.5 并没有在 GRPO 或 GDPO 的 AIME 或 MATH 上持续增加超长比率
    • 这表明,当基础目标在难度上存在显著差异时,仅仅调整 Reward 权重并不能可靠地诱导出预期的优先级排序
    • 只有当 \( w_{\text{length} } \) 降低到 0.25,使其足够小以补偿目标之间的难度差距时,论文才观察到 GRPO 和 GDPO 在 AIME 上以及 GDPO 在 MATH 上的超长比率明显增加
  • 接下来,论文研究了将较容易的长度 Reward 条件化在更具挑战性的正确性 Reward 上,是否有助于缓解两个目标之间的难度差异,并有助于改进优先级对齐
    • 遵循第 3.2 节的公式,论文将原始长度 Reward \( \mathcal{R}_{\text{length} } \) 替换为一个条件化的长度 Reward,其定义如下:
      $$
      \tilde{\mathcal{R} }_{\text{length} }=\begin{cases}1, &\text{if response length}\leq l\text{ and }\mathcal{R}_{\text{correct} }=1\\0, &\text{otherwise.}\end{cases}
      $$
    • 在这个公式下,只有当生成的 Response 也是正确的时候,模型才会获得长度 Reward
  • 首先,论文观察到采用修改后的 Reward 函数 \( \tilde{\mathcal{R} }_{\text{length} } \) 可以防止模型在训练开始时过度最大化长度 Reward
    • 这种 Reward 设计也有助于避免当模型试图满足长度约束时正确性 Reward 分数的大幅下降
    • 从图 7 中可以看出,平均正确性 Reward 仅在训练初期略微下降,随后逐渐恢复
  • 从表 4 中,论文还观察到,与仅仅调整 \( \mathcal{R}_{\text{length} } \) 的权重 \( w_{\text{length} } \) 相比,使用 \( \tilde{\mathcal{R} }_{\text{length} } \) 会导致 GRPO 和 GDPO 的平均超长比率有更大的增加,这表明对长度约束的更有效放宽
    • 然而, GRPO 未能将这种放宽的约束转化为有意义的准确率提升
    • 相比之下, GDPO 更有效地优先考虑正确性 Reward,并在训练中实现了比不使用 \( \tilde{\mathcal{R} }_{\text{length} } \) 时更一致的准确率提升,同时引入的超长违规增加幅度要小得多
    • 例如,与使用相同 Reward 函数的 GRPO 相比,在 GDPO 中使用 \( \tilde{\mathcal{R} }_{\text{length} } \) 在 AIME 上带来了 4.4% 的准确率提升,同时超长比率降低了 16.9%;在 AMC 上获得了 3% 的准确率增益,同时超长违规减少了 4.8%
  • 接下来,论文研究了在通过条件化长度 Reward 缓解了难度差异之后,改变 \( \tilde{\mathcal{R} }_{\text{length} } \) 的 Reward 权重(记为 \( \hat{w}_{\text{length} } \))是否能更忠实地反映细粒度的偏好调整
    • 论文固定正确性 Reward 的权重,并变化 \( \hat{w}_{\text{length} } \in \{0.25,0.5,0.75,1.0\} \)
    • 如图 6 所示,使用条件化 Reward 训练的模型表现得更可预测
      • 例如,将 \( \hat{w}_{\text{length} } \) 从 1.0 降低到 0.25,稳步增加了 GRPO 和 GDPO 在 MATH 和 AIME 上的超长比率,这与调整原始 \( \mathcal{R}_{\text{length} } \) 权重时观察到的不稳定结果形成对比
  • 最后,在所有设置下,包括不同的 Reward 公式和不同的 Reward 权重, GDPO 始终比 GRPO 提供更好的准确性和效率权衡

Coding reasoning

  • 论文考察了在优化多于两个 Reward 的代码推理任务上, GDPO 是否继续优于 GRPO
    • 与数学推理设置类似,目标是提高模型的代码性能,同时将其输出限制在预定义的目标长度内
  • 论文引入了第三个目标,即鼓励模型生成无缺陷的代码
  • 论文通过在 Eurus-2-RL 数据集 (2025) 上训练 DeepSeek-R1-7B 来比较 GDPO 和 GRPO
    • 该数据集包含 24K 个编码问题,每个问题有多个测试用例
  • 训练使用 verl (2024) 框架进行 400 个 step,并采用与数学推理实验中相同的超参数配置
  • 训练优化三个 Reward:
    • 通过率 Reward (Passrate reward) : 通过率 Reward \( \mathcal{R}_{\text{pass} } \in [0,1] \) 衡量生成代码通过的测试用例比例:
      $$
      \mathcal{R}_{\text{pass} }=\frac{\text{number of passed test cases} }{\text{total test cases} }.
      $$
    • 条件化长度 Reward (Conditioned Length reward) : 长度 Reward \( \tilde{\mathcal{R} }_{\text{length} } \in \{0,1\} \) 检查模型的 Response 是否保持在目标长度 \( l \) 内,以及生成的代码是否满足正确性要求:
      $$
      \tilde{\mathcal{R} }_{\text{length} }=\begin{cases}1, &\text{if response length }\leq l\text{ and }\mathcal{R}_{\text{pass} }=1,\\0, &\text{otherwise}.\end{cases}
      $$
    • 缺陷 Reward (Bug reward) : 缺陷 Reward \( \mathcal{R}_{\text{bug} } \in \{0,1\} \) 表示生成的代码是否在运行时或编译时没有错误
  • 对于评估,论文在来自 PRIME (2025) 的验证集上评估训练好的模型,其中包括 Apps (2021)、CodeContests (2022)、Codeforces 和 Taco (2023)
    • 遵循与数学推理评估相同的设置,论文使用采样温度 0.6,\( top_{p} \) 值为 0.95,最大 Response 长度为 32k 个 Token。对于每个评估问题,论文生成 16 个 Rollout,并报告平均测试用例通过率、平均超长比率和平均缺陷率,其中缺陷率衡量导致运行时错误或编译错误的生成代码的比例
  • 论文在两种配置下比较 GDPO 和 GRPO :
    • (1) 使用 \( \mathcal{R}_{\text{pass} } \) 和 \( \tilde{\mathcal{R} }_{\text{length} } \) 的两 Reward 设置
    • (2) 使用 \( \mathcal{R}_{\text{pass} } \)、\( \tilde{\mathcal{R} }_{\text{length} } \) 和 \( \mathcal{R}_{\text{bug} } \) 的三 Reward 设置
  • 论文将 GRPO 的两 Reward 和三 Reward 版本分别记为 \( GRPO _{2\text{-obj} } \) 和 \( GRPO _{3\text{-obj} } \), GDPO 也使用相同的记法
    • 如表 5 所示,与 \( GRPO _{2\text{-obj} } \) 相比,\( GDPO _{2\text{-obj} } \) 在所有任务上都提高了通过率,同时保持了类似的超长比率
      • 注:从表 5 中看起来,优势似乎不是很明显
    • 例如,\( GDPO _{2\text{-obj} } \) 将 Codecontests 的通过率提高了 2.6%,而超长比率仅增加了 0.1%;与 \( GRPO _{2\text{-obj} } \) 相比,在 Taco 上实现了 3.3% 的通过率提升,同时超长违规减少了 1%
    • 在三种 Reward 设置中也可以观察到类似的模式,\( GDPO _{3\text{-obj} } \) 在所有目标上实现了明显更好的平衡,保持了与 \( GRPO _{3\text{-obj} } \) 相似的通过率,同时还显著降低了超长比率和缺陷率
  • 总的来说,这些结果表明,随着 Reward 信号数量的增加, GDPO 仍然有效
    • 在两种 Reward 和三 Reward 配置中,它始终比 GRPO 在所有目标上实现更有利的权衡

Related Work

GRPO 变体

  • 已经提出了几种 Group Relative Policy Optimization ( GRPO ) (2025) 的扩展,以增强该框架的稳定性、有效性和效率
  • 这些方法探索了 Group-wise 归一化或策略更新的替代公式,同时仍基于 GRPO 的核心原理,例如,
    • 为了提高稳定性,Group Sequence Policy Optimization (GSPO) (2025) 基于序列可能性而非 Token 级别定义重要性比率,执行序列级别的 Clipping、Rewarding 和优化
    • 为了提高 RL 性能,Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) (2025) 引入了四项关键技术:Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss 和 Overlong Reward Shaping
    • 为了促进高效推理,Group Filtered Policy Optimization (GFPO) (2025) 通过在训练期间为每个问题采样更大的组,并根据其长度和每 Token 奖励率筛选 Response,来解决长度爆炸问题
      • 沿着同一方向,Doing Length pEmalty Right (DLER) (2025) 提出了一种结合了 Batch-wise Reward 归一化、Higher Clipping、Dynamic Sampling 和简单截断长度惩罚的训练配方,实现了 SOTA 准确性-效率权衡

Multi-Reward Reinforcement Learning

  • 越来越多的工作研究了融入多种 Reward 信号的 RL 方法,一个主要用途是建模多样化的人类偏好,例如
    • Safe Reinforcement Learning from Human Feedback (2023) 将人类关于有用性和无害性的偏好解耦,在微调期间动态调整两个目标之间的平衡
    • 类似地,Reinforcement Learning from Personalized Human Feedback (RLPHF) (2023) 通过为每种偏好训练不同的策略模型并在推理时合并它们,来优化具有多种(有时是冲突的)偏好的 LLM
    • ALARM (Align Language Models via Hierarchical Rewards) (2024) 引入了分层 Reward 结构,共同捕捉 Response 质量、风格、公平性和连贯性等维度
  • LLM 的最新进展也整合了多 Reward 优化来处理复杂任务,例如
    • DeepSeek V3.2 (2025) 集成了基于规则的结果 Reward、长度惩罚和语言一致性 Reward,以增强推理和代理能力
  • 多 Reward RL 的另一个重要近期应用是在保持任务性能的同时提高推理模型的效率,主要是通过引入基于长度的 Reward 函数以及基于结果的 Reward,例如,
    • O1-Pruner (2025) 和 (2025) 应用归一化的长度惩罚来确保比例压缩
    • 类似地,(2025) 通过惩罚与采样组内最短正确 Response 的偏差来促进简洁性
    • L1 (2025) 引入了长度控制策略优化(Length Controlled Policy Optimization,LCPO),以优化准确性同时确保 Response 不超过目标长度
    • 最后,(2025) 提出了一种自适应 Reward 塑造方法,根据模型性能动态调整准确性和 Response 长度之间的权衡

附录 A:Training stability issue of GDPO without batch-wise advantage normalization

  • 图 8:使用和未使用批量优势归一化的 GDPO 训练稳定性对比,未进行归一化的运行偶尔会无法收敛

附录 B:ToolRL Training Prompt Format

  • System Prompt for ToolRL Training

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    You are a helpful dialogue assistant capable of leveraging tool calls to solve user tasks and provide structured chat responses.

    # Available Tools
    In your response, you can use the following tools:
    { { Tool List } }

    # Steps for Each Turn
    1. Think: Recall relevant context and analyze the current user goal.
    2. Decide on Tool Usage: If a tool is needed, specify the tool and its parameters.
    3. Respond Appropriately: If a response is needed, generate one while maintaining consistency across user queries.

    # Output Format
    <think> Your thoughts and reasoning </think>
    <tool_call> {“name”: “Tool name”, “parameters”: {“Parameter name”: “Parameter content”, “ ... ...”:
    “ ... ...”}}
    {“name”: “ ... ...”, “parameters”: {“ ... ...”: “ ... ...”, “ ... ...”: “ ... ...”}}
    ...
    </tool_call>
    <response>AI’s final response </response>

    # Important Notes
    1. You must always include the <think> field to outline your reasoning. Provide at least one of <tool_call> or <response>. Decide whether to use <tool_call> (possibly multiple times), <response>, or both.
    2. You can invoke multiple tool calls simultaneously in the <tool_call> fields. Each tool call should be a JSON object with a “name” field and a “parameters” field containing a dictionary of parameters. If no parameters are needed, leave the “parameters” field an empty dictionary.
    3. Refer to the previous dialogue records in the history, including the user’s queries, previous <tool_call>, <response>, and any tool feedback noted as <obs> (if exists).
    • 中文版(ToolRL 训练系统 Prompt):
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      你是一个有用的对话助手,能够利用工具调用来解决用户任务并提供结构化的聊天响应

      可用工具
      在你的回复中,你可以使用以下工具:{ { 工具列表 } }

      每个回合的步骤

      1. **思考 (Think)**:回忆相关上下文并分析当前的用户目标
      2. **决定工具使用 (Decide on Tool Usage)**:如果需要使用工具,请指定工具及其参数
      3. **恰当响应 (Respond Appropriately)**:如果需要生成响应,请在响应用户查询时保持一致

      输出格式
      <think>
      你的想法和推理过程
      </think>
      <tool_call>
      {"name": "工具名称", "parameters": {"参数名": "参数内容", "... ...": "... ..."} }
      {"name": "... ...", "parameters": {"... ...": "... ...", "... ...": "... ..."} }
      ...
      </tool_call>
      <response>
      AI 的最终响应
      </response>

      重要说明
      1. 你必须始终包含 `<think>` 字段来概述你的推理。至少提供 `<tool_call>` 或 `<response>` 中的一个。决定是使用 `<tool_call>`(可能多次使用)、`<response>` 还是两者都用
      2. 你可以在 `<tool_call>` 字段中同时调用多个工具调用。每个工具调用应是一个包含 "name" 字段和 "parameters" 字段的 JSON 对象,"parameters" 字段包含参数字典。如果不需要参数,请将 "parameters" 字段留空字典
      3. 参考历史对话记录,包括用户的查询、之前的 `<tool_call>`、`<response>`,以及任何标记为 `<obs>` 的工具反馈(如果存在)
  • User Prompt for ToolRL Training

    1
    2
    3
    4
    5
    6
    7
    8
    ## Dialogue History
    <user> { { Initial User Input } } </user>
    <think> Round 1 Model Thought </think>
    { { Round 1 model output <tool_call> or <response> } }
    <obs> Round 1 Observation </obs>
    ... ...
    <user> { { User Input } } </user>
    ... ...
    • 中文版(ToolRL 训练用户 Prompt)
      1
      2
      3
      4
      5
      6
      7
      8
      9
      ## 对话历史

      <user> { { 初始用户输入 } } </user>
      <think> 第 1 轮模型思考 </think>
      { { 第 1 轮模型输出 <tool_call> 或 <response> } }
      <obs> 第 1 轮观察 </obs>
      ... ...
      <user> { { 用户输入 } } </user>
      ... ...

附录 C:工具调用奖励函数

Format Reward

  • 格式奖励 \(\mathcal{R}_{\text{format} }\in\{0,1\}\) 检查模型输出是否满足所需结构并按正确顺序包含所有必要字段:
    $$
    \mathcal{R}_{\text{format} }=\begin{cases}1, & \text{if all required fields appear and are in the correct order},\\ 0, & \text{otherwise}.\end{cases}
    \tag{9}
    $$

Correctness Reward

  • 正确性奖励 \(\mathcal{R}_{\text{correct} }\in[-3,,3]\) 将预测的工具调用 \(P=\{P_{1},\ldots,P_{m}\}\) 与真实调用 \(G=\{G_{1},\ldots,G_{n}\}\) 进行比较,正确性奖励由三个部分组成:
    • 工具名称匹配 (Tool Name Matching):
      $$
      r_{\text{name} }=\frac{|N_{G}\cap N_{P}|}{|N_{G}\cup N_{P}|}\in[0,1],
      $$
      • 其中 \(N_{G}\) 和 \(N_{P}\) 分别是真实调用和预测调用的工具名称集合
    • 参数名称匹配 (Parameter Name Matching):
      $$
      r_{\text{param} }=\sum_{G_{j}\in G}\frac{|\text{keys}(G_{j})\cap\text{keys}(P_{j})|}{|\text{keys}(G_{j})\cup\text{keys}(P_{j})|}\in[0,|G|],
      $$
      • 其中 \(\text{keys}(G_{j})\) 和 \(\text{keys}(P_{j})\) 分别是真实调用和预测调用的参数名称
    • 参数内容匹配 (Parameter Content Matching):
      $$
      r_{\text{value} }=\sum_{G_{j}\in G}\sum_{k\in\text{keys}(G_{j})}\mathbf{1}[P_{G}[k]=P_{P}[k]]\in\left[0,\sum_{G_{j}\in G}|\text{keys}(G_{j})|\right],
      $$
      • 其中 \(P_{G}[k]\) 和 \(P_{P}[k]\) 分别是真实调用和预测调用的参数值
    • 总匹配分数 (Total Match Score):
      $$
      r_{\text{match} }=r_{\text{name} }+r_{\text{param} }+r_{\text{value} }\in[0,S_{\text{max} }],
      $$
      • 其中
        $$
        S_{\text{max} }=1+|G|+\sum_{G_{j}\in G}|\text{keys}(G_{j})|.
        $$
  • 最终的正确性奖励通过寻找 \(P\) 和 \(G\) 之间的最优匹配以最大化总匹配分数来计算:
    $$
    \mathcal{R}_{\text{correct} }=6\cdot\frac{R_{\text{max} } }{S_{\text{max} } }-3\in[-3,,3].
    $$
    • 其中 \(R_{\text{max} }\) 表示来自最优匹配的总匹配分数

附录 D:ToolRL Hyperparameters Setting

  • 表 6: GDPO verl 训练配置
    • 所有超参数设置均与 ToolRL (2025) 中使用的保持一致

附录 E:数学/代码推理超参数设置(Math/Coding Reasoning Hyperparameters Setting)

  • 表 7: GDPO verl 训练配置

附录 F:使用 \(\mathcal{R}_{\text{length} }\) 和 \(\mathcal{R}_{\text{correct} }\) 在数学推理数据上训练 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 时 GRPO 和 GDPO 的训练曲线(Training curves of GRPO and GDPO when training DeepSeek-R1-7B and Qwen3-4B-Instruct with \(\mathcal{R}_{\text{length} }\) and \(\mathcal{R}_{\text{correct} }\) on math reasoning data.)

  • 图 9:在数学推理数据上优化 DeepSeek-R1-7B 时, GRPO 和 GDPO 在正确性奖励、长度奖励和批次最大响应长度上的训练行为。我们可以看到 GDPO 在保持正确性提升的同时,对长度约束的遵循也优于 GRPO
  • 图 10:在数学推理数据上优化 Qwen3-4B-Instruct 时, GRPO 和 GDPO 在正确性奖励、长度奖励和批次最大响应长度上的训练行为。我们可以看到 GDPO 在保持正确性提升的同时,对长度约束的遵循也优于 GRPO

附录 G:在数学推理任务上,对比 GRPO / GDPO 微调的 DeepSeek-R1-7B 模型在不同长度奖励权重 \(\{1.0,0.75,0.5,0.25\}\) 下,使用和不使用条件化长度奖励 \(\tilde{\mathcal{R} }_{\text{length} }\) 的效果(Comparison of GRPO/GDPO finetuned DeepSeek-R1-7B models under varying length reward weights \(\{1.0,0.75,0.5,0.25\}\) with and without the conditioned length reward \(\tilde{\mathcal{R} }_{\text{length} }\) on math reasoning tasks)

  • 表 8:在数学推理任务上,对比 GRPO / GDPO 微调的 DeepSeek-R1-7B 模型在不同长度奖励权重 \(\{1.0,0.75,0.5,0.25\}\) 下,使用普通长度奖励 \(\mathcal{R}_{\text{length} }\) 的效果
  • 表 9:在数学推理任务上,对比 GRPO / GDPO 微调的 DeepSeek-R1-7B 模型在不同长度奖励权重 \(\{1.0,0.75,0.5,0.25\}\) 下,使用条件化长度奖励 \(\tilde{\mathcal{R} }_{\text{length} }\) 的效果

NLP——LLM对齐微调-GHPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning, 20250616, Huawei, CityU
    • 开源代码:github.com/hkgc-1/GHPO

Paper Summary

  • 整体内容
    • 论文提出了一种新颖的难度感知强化学习框架 GHPO(Guided Hybrid Policy Optimization),解决了 LLM 在 RLVR 中面临的训练不稳定和低效问题(这些问题主要源于能力与任务难度之间的不匹配,导致奖励信号稀疏)
    • GHPO 通过自适应 Prompt 优化动态校准任务难度,平衡模仿学习(用于当前模型难以解决的问题)和探索式强化学习(用于更易处理的任务),从而形成平滑且优化的学习课程
    • GHPO 显著提高了训练稳定性(能智能调整学习过程以适应模型能力的动态变化)
  • 背景:
    • RLVR 已成为促进 LLM 自我提升的强大范式(尤其在复杂推理任务中)
    • 当前主流的 On-policy 强化学习方法常面临严重的训练不稳定(training instability)和低效(inefficiency)问题
      • 这主要源于能力与难度的不匹配(capacity-difficulty mismatch) :即训练数据的复杂性往往超出模型当前能力,导致奖励信号极度稀疏和学习停滞
    • 这一挑战对于更轻量级的 LLM 尤为突出
  • 论文提出一种新颖的难度感知(difficulty-aware)强化学习框架 :GHPO
    • GHPO 通过自适应 Prompt 细化动态校准任务难度,提供针对性引导
    • GHPO 创新性地平衡了两种学习模式构建平滑优化的学习课程(smooth and optimized learning curriculum):
      • 对于超出模型当前能力的问题采用直接模仿学习
      • 对较易任务则采用探索式强化学习
  • 实验结果部分:GHPO 在多个高难度数学基准测试中平均性能提升约5%,持续优于强大的在策略强化学习和课程学习基线
  • 论文分析证实,GHPO 显著提高了训练稳定性和最终的推理性能 ,为开发强大且稳健的推理模型提供了一种可扩展且高效的解决方案
  • 开源情况:实现代码已开源

Introduction and Discussion

  • 新一代大推理模型在复杂推理任务中取得了最先进成果
    • 这些大模型包括 OpenAI-o3 (2025)、DeepSeek-R1 (2025) 和 Kimi-1.5 (2025) 等
    • 这些模型的关键特征是其生成链式思维(2022)和 进行反思式推理的能力

      A key characteristic of these models is their proficiency in producing extended Chains-of-Thought (CoT) and engaging in what appears to be reflective reasoning

  • 这种被称为”测试时扩展(test-time scaling)”的现象已被证明能有效解决数学和编程难题
    • 核心训练方法是 Zero-RL 范式,该范式采用 RLVR
  • 基于 RL 的后训练在增强推理能力方面展现出比 SFT 更优的泛化性
    • SFT 的本质是模仿学习,SFT 依赖于从人工标注数据或更强模型提炼的 CoT 中进行模仿学习 (2025)
  • 当前 RLVR 方法存在显著局限,以 GRPO 为例,作为 On-policy 方法,它们高度依赖当前策略模型的性能,导致两大挑战:
    • 1)能力-难度失配导致的奖励稀疏性(Reward Sparsity from Capacity-Difficulty Mismatch) :训练数据固有难度与模型演化能力间的严重不匹配会导致奖励稀疏,即均匀无信息的奖励阻碍学习过程 (2025)

      A significant mismatch between the inherent difficulty of the training data and the model’s evolving capabilities often results in reward sparsity, where uniform and uninformative rewards impede the learning process

    • 2)次优样本效率(Suboptimal Sample Efficiency) : On-policy 算法常受限于次优样本效率
      • 当训练数据集引入更难题以提升基准性能时,策略模型难以有效学习
      • 这一局限在容量受限的轻量化模型中更为突出
  • 现有解决方案包括
    • 课程学习(Curriculum Learning, CL)(2025) 通过逐步引入复杂样本来对齐任务难度与模型能力 ,但需人工启发式划分数据集,缺乏扩展性
    • DAPO (2025) 采用动态采样(dynamic sampling)过滤 完全正确 或 完全错误 的 Prompt,但会丢弃大量训练数据
    • 另一类研究探索 Off-policy 或混合 RL 方法以缓解 On-policy 学习的不稳定性 (2025),但这些方法需要辅助 LLM,增加了训练成本和复杂度
  • 受 SFT 等模仿学习技术启发,论文提出一种简单有效的解决方案:用部分真实解题步骤引导模型
    • 具体做法:通过条件化这些解题步骤,将模型的输出分布导向正确答案 ,缓解难题的奖励稀疏问题
    • 但直接应用该技术可能使训练数据过于简单,降低模型独立解题的学习效率
  • 论文提出 GHPO 框架:
    • GHPO 巧妙地将在线RL与模仿学习统一:
      • 先动态评估样本难度
      • 再通过自适应 Prompt 细化提供差异化引导
    • 对于模型可处理的问题,主要采用标准 On-policy RL鼓励探索;
    • 对于困难样本,则无缝切换至模仿学习模式,提供显式解题步骤
    • 这种混合方法自动平衡探索与直接引导,在提升训练稳定性的同时优化样本效率
  • 论文主要贡献总结如下:
    • 揭示 RLVR 中能力对齐与奖励稀疏问题的关键作用,提出 GHPO 框架以提升训练稳定性与效率
    • 提出 GHPO,通过自适应 Prompt 细化动态检测样本难度,并在 On-policy RL与引导模仿学习间切换
    • 在六个数学基准测试上开展广泛实验,证明 GHPO 优于最先进 RL 方法,且在不同模型家族中均表现稳健

Preliminaries

  • 核心问题:GRPO 训练中的奖励稀疏性挑战

Reinforcement Learning with Verifiable Rewards, RLVR

  • RLVR 范式中,LLM 可表示为 \(\pi_{\theta}\),输入 Prompt \(q\),LLM 生成 Token 序列(轨迹)\(\tau = (o_1, o_2, \ldots, o_T)\)
  • 上述轨迹生成过程被建模: finite-horizon、 Token-level MDP(注:核心是 Token-level):
    • 状态(State) \(s_t\):在生成步骤 \(t\),状态是初始 Prompt \(q\) 与已生成 Token 序列的拼接:\(s_t = (q, o_1, o_2, \ldots, o_{t})\),初始状态 \(s_0 = q\)
    • 动作(Action) \(a_t\):从模型词表 \(\mathcal{V}\) 中选择下一个 Token \(o_t\)
    • 策略(Policy) \(\pi_{\theta}\):即 LLM 本身,给定当前状态提供下一个动作( Token )的概率分布:\(a_t = o_t \sim \pi_{\theta}(\cdot|s_t)\)
    • 奖励(Reward) \(R\):RLVR 采用验证器分配的稀疏终端奖励(仅当完整轨迹结束时分配奖励 ,验证器根据最终答案正确性分配二元奖励):
      $$ R = \begin{cases}
      1 & \text{if the answer is correct} \\
      0 & \text{otherwise}
      \end{cases} $$
  • 训练目标是学习最优策略参数 \(\theta^*\) 以最大化 Prompt 分布 \(\mathcal{D}\) 上的期望终端奖励。目标函数 \(\mathcal{J}(\theta)\) 定义为:
    $$ \mathcal{J}(\theta) = \mathbb{E}_{q\sim\mathcal{D},\tau\sim\pi_{\theta}(\cdot|q)}[R(\tau)] $$
    • 该目标通常通过策略梯度算法优化(策略更新通过增加高优势轨迹对应 Token 的对数概率实现)

GRPO

  • GRPO 在提升 LLM 数学和编程推理能力方面表现卓越,其核心创新是基于组内比较而非绝对奖励值的优势估计方法
  • 对于给定 Prompt \(q\),GRPO 首先从策略模型 \(\pi_{\theta_{\text{old} } }\) 采样 \(G\) 个不同响应 \(\{o_i\}_{i=1}^G\),每个轨迹的优势 \(\hat{A}_{i,t}\) 通过其奖励 \(R_i\) 相对于整组统计量归一化计算:
    $$ \hat{A}_{i,t} = \frac{R_i - \mu_{\mathcal{R} } }{\sigma_{\mathcal{R} } + \epsilon} $$
    • \(\mu_{\mathcal{R} } = \frac{1}{G}\sum_{j=1}^G R_j\) 是组内奖励的均值
    • \(\sigma_{\mathcal{R} } = \sqrt{\frac{1}{G}\sum_{j=1}^G (R_j - \mu_{\mathcal{R} })^2}\) 是组内奖励的标准差
    • \(\epsilon\) 为数值稳定性常数
  • GRPO 方法的关键在于同一响应 \(o_i\) 内所有 Token 生成步骤共享此 Response-level 优势
  • GRPO 复用了 PPO 框架实现训练稳定性,同时策略梯度目标的简化为:
    $$ \mathcal{J}_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a)\sim D,\{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old} } }(\cdot|q)} \left[\frac{1}{G}\sum_{i=1}^G \frac{1}{|o_i|}\sum_{t=1}^{|o_i|} \left(\min\left(\frac{\pi_{\theta}(o_{i,t} \mid q,o_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} \mid q,o_{i,<t})}\hat{A}_{i,t},\text{clip}\left(\frac{\pi_{\theta}(o_{i,t} \mid q,o_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} \mid q,o_{i,<t})},1-\epsilon,1+\epsilon\right)\hat{A}_{i,t}\right) -\beta D_{\text{KL} }(\pi_{\theta}|\pi_{\text{ref} })\right)\right] $$
    • 实际应用中,完整目标可能包含剪切机制和 KL 散度惩罚项以正则化策略更新
    • 但近期许多实现发现省略 KL 项(即 \(\beta=0\))仍能成功 (2025; 2025),从而简化优化过程

The Challenge of Reward Sparsity in GRPO

  • GRPO 易受训练低效和不稳定性影响(这在实践复现中很常见)
  • 论文发现其脆弱性的主因是训练数据难度与策略模型能力间的根本性失配 ,表现为严重的奖励稀疏性 ,这对有效强化学习构成重大障碍
  • 当 Query \(q\) 对当前策略 \(\pi_{\theta}\) 来说过于困难时,模型生成的 \(G\) 个响应可能全部错误,导致奖励向量全零(即所有 \(i\in\{1,\ldots,G\}\) 有 \(R_i=0\))
    • 此时组内奖励均值与标准差均为零,公式(2)的优势计算对所有轨迹返回 \(\hat{A}_{i,t}=0\)
    • 这引发两个关键问题:
      • 1)训练低效 :零优势导致该 Query 的梯度消失(模型无法获得学习信号,生成和评估 \(G\) 个响应的计算资源完全浪费)
        • 当批次中包含大量此类难题时,多数数据无法贡献策略改进,极大降低整体训练效率
      • 2)训练不稳定(Training Instability) :能提供非零学习信号的 “effective” Query 数量在梯度更新间剧烈波动
        • 有效批次大小的方差会为梯度估计引入显著噪声,破坏训练稳定性并阻碍可靠收敛
        • 问题:这里是指批次大小的方差,而不是梯度本身的方差
  • 奖励稀疏性挑战在容量受限模型(如设备端部署模型,on-device Model)中尤为严峻
  • 为量化能力-难度失配,论文在包含约 900K 竞赛级数学题的 NuminaMath-1.5 (2024) 数据集上评估 Qwen2.5-7B-Instruct (2025) 模型性能。
    • 结论是无法解决 52 的问题
    • 这一重要发现说明该数据集大部分内容远超对应 Qwen2.5-7B-Base 模型 (2025) 的固有推理能力,更遑论能力更有限的小型 LLM
  • 这清晰表明设备端模型面临的奖励稀疏性问题严重性:
    • 强化学习中超半数数据集可能产生零奖励轨迹 ,无法提供有效梯度信号,严重阻碍模型学习

The Proposed Framework

From Static Guidance to a Dynamic Framework

  • 论文的核心策略是将引导(guidance)直接整合到强化学习循环中 ,通过将策略(policy)与部分真实解轨迹(partial ground-truth traces)结合,以解决第2.3节中详述的奖励稀疏性问题
  • 这一方法的动机基于如下的 Assumption 1 ,即对于困难问题,此类引导能够提高成功概率 ,从而在原本无法获得有效学习信号的情况下提供支持
    • 对于大多数数学数据,真实解轨迹形式的引导通常是可用的,但在 RLVR 训练过程中,这些宝贵的解轨迹信息通常被忽略,仅使用最终的真实答案
  • Assumption 1 :设 \(\mathcal{D}_{in}\) 和 \(\mathcal{D}_{OOD}\) 分别为域内(in-domain)和域外(out-of-distribution)问题分布,\(\pi_{\theta_{0} }\) 为基策略(base policy)
    • 策略 \(\pi\) 的域外性能通过其期望奖励 \(\mathcal{R}(\pi):=\mathbb{E}_{b\sim\mathcal{D}_{OOD},\tau\sim\pi(\cdot|b)}[R(\tau)]\) 衡量
  • 考虑一个基策略无法解决的问题 \(q \sim \mathcal{D}_{in}\),此时其期望奖励非正(\(\mathbb{E}_{\tau\sim\pi_{\theta_{0} }(\cdot|q)}[R(\tau)] \leq 0\))
    • 设 \(h\) 为 \(q\) 的部分真实解轨迹(partial ground-truth solution trace)
  • 从 \(\pi_{\theta_{0} }\) 微调两个策略,通过最大化目标 \(\mathcal{J}_{GRPO}\):
    • \(\pi_{\theta_{q},h}\),使用轨迹:\(\theta_{q,h}=\arg\max_{\theta}\mathcal{J}_{GRPO}(\theta;\{(q,h)\})\)
    • \(\pi_{\theta_{q} }\),不使用轨迹:\(\theta_{q}=\arg\max_{\theta}\mathcal{J}_{GRPO}(\theta;\{q\})\)
  • 论文假设 ,对于失败问题使用真实轨迹能提升域外泛化能力:
    $$
    \mathbb{E}_{b\sim\mathcal{D}_{OOD},\tau\sim\pi_{\theta_{q},h} (\cdot|b)}[R(\tau)] \geq \mathbb{E}_{b\sim\mathcal{D}_{OOD},\tau\sim\pi_{\theta_{q} } (\cdot|b)}[R(\tau)]
    $$
    • 注:这里是只有假设和实验验证吗,是否能给出理论证明?
  • 第4节的实验验证了这一假设的有效性。
  • 利用这个性质,我们可以获取合法的学习信号,即使在困难样本中(原本会返回 0 奖励并导致梯度消失的样本),但静态应用这一原则(例如预先标记一组固定问题为“困难”并始终对其应用引导)是次优的,存在两个关键限制:
    • 人工精选与可扩展性(Manual Curation and Scalability) :静态方法需要繁琐的离线流程来确定何时需要引导
      • 静态方法不仅难以扩展,而且具有主观性,可能与模型的实际知识缺口不完全匹配
    • 进化中的模型能力(Evolving Model Capability) :训练初期对策略无法解决的问题可能在多次更新后变得简单
      • 静态引导策略无法适应模型的动态能力,可能导致对已能通过探索解决的问题“过度引导”,抑制新颖推理路径的学习,降低样本效率

Guided Hybrid Policy Optimization, GHPO

  • 论文提出一种自动化框架引导混合策略优化(GHPO) ,旨在提升强化学习效率
  • 如图2 所示,GHPO 动态评估样本难度,并自适应地在标准策略强化学习与引导学习之间切换
    • 这种创新方法确保仅在真正需要时提供引导,保留对模型当前能力范围内问题的探索,同时对更具挑战性的场景提供自适应优化
  • GHPO 包含两个核心模块:
    • 自动化难度检测(Automated Difficulty Detection) :评估当前问题的固有难度,决定后续学习流程
    • 自适应 Prompt 优化(Adaptive Prompt Refinement) :根据检测到的难度,通过融入不同级别的真实引导来优化 Prompt
  • 对于给定 Query \(q\) 和真实答案 \(a\),GHPO 首先生成 \(G\) 个独立响应 \(\{o_{i}\}_{i=1}^{G}\),并通过奖励模型获取其二元奖励 \(\{r_{i}\}_{i=1}^{G}\)
    • 与 GRPO 不同,这些组级奖励不直接用于优势估计,而是由难度检测模块分析其稀疏性,并根据预设策略优化 Prompt
  • 数学上,GHPO通过以下目标优化策略:
    $$
    \mathcal{J}_{\text{GHPO} }(\theta) =\mathbb{E}_{(q,a)\sim D,\{o_{i}\}_{i=1}^{G}\sim\pi_{\theta_{old} } }(\cdot|q)
    \left[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_{i}|}\sum_{t=1}^{|o_{i}|}\Big{(}\min\big{(}r_{i,t}(\theta)\hat{A}_{i,t},\text{clip},(r_{i,t}(\theta),1-\epsilon,1+\epsilon),\hat{A}_{i,t}\big{)} -\beta D_{\text{KL} }(\pi_{\theta}|\pi_{\text{ref} })\Big{)}\right] \\
    \text{s.t.} \quad q^{*}=\begin{cases}
    q & \sum_{i=1}^{n}f(a,o_{i})>0 \\
    q+\omega*h_{f,q} & \text{otherwise}
    \end{cases}. \\
    r_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}\mid q^{*},o_{i,<t})}{\pi_{\theta_\text{old}}(o_{i,t}\mid q^{*},o_{i,<t})}, \tag{4-6}
    $$
    • 函数 \(f\) 判断预测是否等价于真实答案
    • \(h_{f,q}\) 是 Query \(q\) 的完整真实解序列
    • \(\omega\) 为分阶段调整的 Hint 比例 (Hint Ratio)
  • 通过无缝整合这两个模块,GHPO 能高效切换策略强化学习与引导模仿学习,显著提升训练效率
  • 图3 展示了 GHPO 的 Prompt 模板
  • 相较于原始 GRPO Prompt ,GHPO 引入增强结构,从真实解中提取 Hints 并附加引导句:“以下文本是答案的开头部分,可供参考以解决问题:”

    The following text is the beginning part of the answer, which you can refer to for solving the problem

Automated Difficulty Detection

  • 如Assumption 1 所述,通过融入离线真实 Hints,可以为最困难的问题获取有效学习信号
    • 然而,静态预定义哪些问题需要引导的方法因第3.2节所述限制而难以扩展
  • 论文提出难度检测模块(difficulty detection module) ,在不增加人工成本的情况下评估当前问题的固有难度
    • 与其他基于模型的高成本方法不同,论文的方法利用学习过程中固有的准确率奖励
  • 对于训练批次中的每个 Query \(q\),论文通过分析其 \(G\) 个响应的组级奖励 \(\{r_{i}\}_{i=1}^{G}\)(公式6定义)来评估其相对于当前策略模型 \(\pi_{\theta}\) 的难度
    • 若某 Query 的所有 \(G\) 个奖励均为零,表明即使从其输出分布中采样多次,当前策略模型也未能生成正确推理路径
    • 此时,这些稀疏奖励无法为策略改进提供有效梯度信息,因此该 Query \(q\) 被标记为对当前策略模型 \(\pi_{\theta}\) 困难(difficult) ,需自适应引导

Adaptive Prompt Refinement with Multi-Stage Guidance(多阶段指导的自适应 Hint 优化)

  • 难度检测模块能够识别出当前策略模型 \(\pi_{\theta}\) 难以处理的 Query 问题
    • 此时根据假设 1(Assumption 1),引入真实解答的 Hints (ground-truth solution hints)可以为这些难题提供有效的学习信号
  • 这种指导通过 Hint 比例参数 \(\omega\) 来控制(即引入真实解答的特定比例)
    • 但确定一个固定的最优 \(\omega\) 值具有挑战性,且对于不同难度分布的逻辑推理任务往往效果不佳,因为更复杂的问题天然需要更大比例的 Hint
  • 为了解决这一问题,并确保策略改进过程中的持续学习,论文提出了一种多阶段指导的自适应 Hint 优化策略(Adaptive Prompt Refinement strategy with Multi-stage Guidance)
    • 该策略能够动态调整 Hint 比例 \(\omega\)
    • 核心设计目标是避免因 Hint 冗余而导致任务过度简化 ,即防止因过度偏离原始 Query 而降低学习效果
    • 动态 Hint 注入的核心思想是通过学习阶段的线性调度来控制 Hint 比例
    • 论文首先注入一小部分真实解答作为初始 Hint ,若模型仍无法生成正确答案,则在后续阶段逐步增加 Hint 的长度
  • 在学习过程的第一阶段 ,论文设置 Hint 比例 \(\omega = 0.25\),旨在平衡数据难度与策略模型当前能力之间的关系
    • 如公式 (6) 所定义,对于训练批次中被识别为困难的 Query 问题,论文从真实解答轨迹 \(h_{f,q}\) 中提取 25% 的内容作为辅助 Hint ,并将其与原始 Query 拼接,形成优化后的 Query \(q^{*} = q + \omega \cdot h_{f,q}\),随后用于模型推理
  • 在学习过程的第二阶段 :
    • 若难度检测模块评估至少有一个生成的响应是正确的 ,则保留原始 Query 用于后续组优势计算;
    • 若所有响应均未通过评估(表明问题难度较高),则将 Hint 比例提升至 \(\omega = 0.5\) 以提供更多指导
    • 论文采用最多三阶段的线性调度策略,\(\omega\) 的取值序列为 \(\{0.25, 0.5, 0.75\}\)
    • 这一策略能够充分利用训练数据提升训练效率,无需直接剔除困难 Query
  • 除了自适应优化高难度 Query 外,该策略还可视为一种动态数据增强方法
    • 随着策略模型能力在学习过程中逐步提升,最初需要较高 \(\omega\) 的 Query 可能最终仅需较低比例的指导,甚至完全无需指导
    • 理解:这种方法也可以看做是一种课程学习的思路

Cold-Start Strategy

  • 在初始优化阶段,策略模型常难以遵循特定格式指令(如将答案括在指定框内),导致预测与真实答案不匹配,准确率奖励低下
    • 此时,自动化难度检测模块可能错误地将多数 Query 标记为困难,引入偏差并浪费计算资源
  • 论文提出可选的冷启动策略(Cold-Start Strategy)
    • 在前 \(N\) 步优化(实验中设为 20步)中,暂时禁用难度检测机制,仅使用原始 GRPO 训练流程
    • 该方法在初期节省计算资源,同时让模型掌握基础格式能力,避免在引入自适应引导前产生早期偏差

Hint Extraction Example

  • 图4展示了 GHPO 如何有效处理检测到的困难问题
  • 以原问题“若三角形两边长为5和7单位,第三边可能的整数长度有多少种?”为例,当前模型多次采样均无法生成正确推理响应,导致奖励稀疏问题
  • 为此,GHPO 智能干预,提取真实解的 50% 作为 Hint ,与原问题拼接并附加引导句
  • 如图4左侧所示,新构建的 GHPO Prompt 包含针对性 Hint ,从而引导模型更有效地推理

Experiment

Training Datasets

  • 使用可验证的数学任务评估 GHPO 算法的有效性
  • 论文从 MATH (2021) 和 NuminaMath-1.5 (2024) 数据集中构建了两个不同难度的训练数据集:
    • Math3to5 :该数据集包含 8,890 道竞赛数学题,难度范围为 3 至 5 级,每道题均附带逐步的真实解答
      • 该数据集代表中等难度水平
    • NuminaMath-S :这是一个更具挑战性的数据集,包含从 NuminaMath-1.5 中精选的 18,300 道问题,整合了 Math3to5 数据集以及来自 OlympiadBench 和 AMC 的额外问题
      • 该数据集中的每道问题也附带 step-by-step 的真实解答
      • 该数据集代表困难难度级别
  • 这两个数据集旨在模拟现实世界中 RLVR 训练场景中常见的中等和困难问题级别

Baseline Models

  • 为了全面评估 GHPO,论文选择了两个基础 LLM ,并实现了多种 RLVR 方法:
    • Qwen2.5-Base-7B (2025):Qwen2.5-7B 的基础模型
    • Qwen2.5-Math-7B (2024):基于 Qwen2.5-7B 的专用数学大语言模型
    • Qwen2.5-7B-GRPO :使用 GRPO 训练流程 (2025) 微调的 Qwen2.5-Base-7B
    • Qwen2.5-Math-7B-GRPO :使用 GRPO 训练流程微调的 Qwen2.5-Math-7B
    • Qwen2.5-7B-GRPO-CL :该模型采用两阶段训练流程
      • 第一阶段:Qwen2.5-Base-7B 在 math3to5 数据集上使用 GRPO 进行训练;
      • 第二阶段:使用来自 OlympiadBench 和 AMC 的更困难问题对模型进行微调 ,显著提升第一阶段的难度级别
    • Qwen2.5-7B-GRPO-CL-H :该变体在 Qwen2.5-7B-GRPO-CL 的第二训练阶段应用了恒定 Hint 注入策略(constant hint injection strategy) ,旨在通过提供一致的指导来平衡学习过程
      • 论文在第二训练阶段应用恒定提示注入,以平衡学习过程

Implementation Details

  • 论文使用 openr1 (2025) 代码库和 TRL (2020) 框架进行实验
  • GHPO 训练在 8 块高性能 GPU 上完成,每块 GPU 配备 80GB 内存和高带宽
  • 奖励设置(Reward Setting) :
    • 论文采用 Rule-based 奖励函数,正确答案奖励 +1,错误答案奖励 0
    • 论文还引入了Format-based 奖励 ,鼓励模型在给出最终答案前显式执行推理步骤
    • 格式奖励的权重与 Rule-based 奖励的比例设置为 2:1
  • 超参数与训练配置(Hyperparameters and Training Configuration) :
    • 使用 AdamW 优化器 (2017)
    • 初始学习率为 \(1 \times 10^{-6}\)
    • 采用余弦调度将学习率衰减至零
    • 10% 的全局步数预热阶段
    • 训练批次大小为 112
    • 每个 Query 采样 8 个响应
    • 梯度更新的累积步数为 8
    • 在训练阶段:
      • 采样配置包括温度为 1.0
      • 每个响应的最大生成长度为 2048 个 token
    • 没有使用 KL 正则化损失或 KL 惩罚

Evaluation Details

  • 论文使用 Lighteval 工具包 (2023) 构建评估脚本
  • 评估时,温度设置为 0.0 或 1.0(根据基准难度调整),最大生成长度为 4096 个 token
  • 为确保一致性,论文使用与训练阶段完全相同的 Prompt 模板,在此阶段不使用任何 Extracted Hint 或 Hint-guided Prompts
  • 论文评估了标准数学推理基准上的性能
    • 包括:MATH_500 (2021)、OlympiadBench (2024)、Minerva Math (2022)、GPQA-Diamond (2023)
  • 论文还评估了竞赛级基准上的性能
    • 如 AMC2023 和 AIME2024 上的性能
  • 报告指标:
    • 对于大多数基准,论文报告 pass@1 结果;
    • 对于 AIME2024,论文报告平均准确率(avg@32),即每个问题生成 32 个样本的平均值

Overall Performance

  • 论文的实验评估证明了所提出的 GHPO 方法相较于传统方法的显著有效性和优越性
  • 论文在不同难度数据集和不同基线模型上展示了实验结果
  • 中等难度任务的性能(Performance on Medium-Difficulty Tasks) :
    • 首先在 math3to5 训练数据集上进行了初步实验
    • 如表 1 所示,标准 GRPO 方法成功将 Qwen-7B 基础模型训练为强大的推理代理,甚至优于经过大量数学数据微调的 Qwen2.5-Math-7B
    • 但论文的 GHPO 进一步提升了性能,平均准确率比 GRPO 提高了 4.4%
    • 这一提升主要是因为 GHPO 缓解了奖励稀疏性问题
    • 在六个评估基准上,GHPO 训练的模型始终表现出更优的推理能力
    • 特别是在 AMC2023 和 GPQA-Diamond 上,GHPO 的准确率比 GRPO 提高了超过 8%
  • 困难任务的性能(Performance on Challenging Tasks) :
    • 为了进一步评估 GHPO 的鲁棒性,论文使用更具挑战性的 NuminaMath-S 数据集训练 Qwen2.5-7B 基础模型
    • 除了原始 GRPO,论文还引入了课程学习基线(Qwen2.5-7B-GRPO-CL) ,该基线手动按难度划分训练数据集
    • 如表 2 所示,Qwen2.5-7B-GHPO 模型在五个基准上均优于 Qwen2.5-7B-GRPO 和 Qwen2.5-7B-GRPO-CL
      • 这表明奖励稀疏性严重阻碍了有效学习,尤其是对于超出模型当前能力的问题
      • 例如,在 AIME2024 问题上,GHPO 的准确率从 0.122 提升至 0.163
  • 课程学习和固定 Hints 的影响(Impact curriculum learning and Fixed Hints) :
    • 虽然课程学习部分解决了模型能力与问题难度不匹配的问题,但其效果始终不及 GHPO
    • 在某些基准(如 AIME2024 和 GPQA-Diamond)上,课程学习的性能甚至可能比原始 GRPO 更差
    • 课程学习的一个关键限制是:课程学习依赖于数据集的严格细粒度难度划分(这在实践中往往难以可靠实现)
    • 论文还研究了固定 Hints 的场景,结果显示其效果低于 GHPO
      • Qwen2.5-7B-GHPO-CL-H0.5 融入了固定 50% 的真实轨迹比例(针对困难问题),实验展示了标准课程学习的提升,从0.415 提升至 0.422(详情见表2),但其效果不如 GHPO

Training Dynamics

  • 理解 GHPO 框架在训练期间的行为对于认识其优势至关重要
  • 图 5 展示了奖励稀疏性的持续挑战:
    • 图5 显示了小批次中需要添加 Hints 以缓解此问题的比例
    • 在初始训练阶段,大多数问题对当前大语言模型来说过于困难(且这一趋势并未迅速减弱;)
    • 即使在后续训练阶段,约 60% 的问题仍超出模型当前能力 ,凸显了奖励稀疏性在强化学习过程中的普遍性
  • 为了更深入理解 GRPO 和 GHPO 在训练期间的独特行为,论文仔细检查了四个代表性指标:
    • 格式奖励、准确率奖励、平均响应长度和梯度范数
  • 这些动态如图 6 所示:
    • 格式奖励(Format Reward) :GRPO 和 GHPO 两种算法在训练早期均达到了接近最大值的格式奖励,并始终保持高水平
    • 准确率奖励 :GHPO 在所有训练阶段均表现出明显的准确率奖励优势
    • 平均响应长度 :GRPO 和 GHPO 两种方法的平均响应长度均随时间稳步增加,但 GHPO 在后期生成的响应显著更长
    • 梯度范数 :GHPO 的梯度范数始终显著小于 GRPO,表明其优化过程更平滑稳定
  • 以上这些观察结果表明,GHPO 不仅任务性能更优 ,还能促进更详细的推理 ,并在训练过程中实现更稳定的优化轨迹

Generalization to Other Models

  • 为了进一步证明论文方法的普适性和鲁棒性,论文使用更强大的基础模型 Qwen2.5-Math-7B 评估了 GHPO 的有效性
  • 如表 2 所示,GHPO 始终能生成更强大的推理模型,其性能优于相同基础模型上应用的原始 GRPO 方法
  • 这表明 GHPO 的适应性指导机制有效补充了高级预训练,为复杂推理任务提供了更高效的微调

Case Study

  • 论文提供了一个详细案例研究,以说明 GRPO 和 GHPO 在解决一个特别困难的数学问题时的比较有效性
  • 表 3 展示了该问题及其真实解答
    • 在原始 GRPO 框架下,模型通常无法生成正确的推理路径,导致奖励稀疏性问题
    • GHPO 通过智能使用 Hint 引导的输入解决了这一挑战
  • 如表 4 所示,GHPO 通过将真实解答的前 50% 拼接至原始问题中,成功引导模型生成至少一条正确的推理路径
    • 标准 GRPO 训练生成的推理路径往往偏离真实解答,导致错误答案

Related Work

  • RL 在提升 LLM 的推理能力方面取得了显著成功
    • DeepSeek-R1 (2025) 提出了一种纯强化学习范式,称为 Zero RL training,该方法使用简单但高效的 Rule-based 奖励模型直接从 Base LLM 进行训练
    • SimpleRL-Zoo (2025) 通过在不同基础模型和规模上进行全面的实证研究,进一步探索了 Zero RL 训练的行为模式
    • 一些变体方法通过优化底层机制或引入新设计元素,进一步推动了 Zero RL 训练的进展
    • DAPO (2025) 从策略优化目标的角度分析了 Zero RL 训练的核心机制(DAPO 并不是特别为 Zero RL 做的吧),并提出了四项关键技术,以提高 RL 训练的效率、稳定性和生成长链思维(Chain-of-Thought, CoT)的能力
    • Dr. GRPO (2025) 提出了一种无偏优化方法,从原始 GRPO 公式中移除了长度和标准差惩罚项,从而在保持强大推理性能的同时提高了标记效率
    • LUFFY (2025) 通过将 Off-policy 推理演示与在策略 Zero RL 训练相结合,平衡模仿与探索,使 LLM 能够超越其固有能力的边界
    • VAPO (2025) 提出了首个 value-model-based RL 训练框架(之前的都是 value-model-free),整合了七项创新技术以提升训练稳定性和整体性能
  • 以上这些研究推动了 RL 在 LLM 训练中的应用,但奖励稀疏问题在复杂推理任务中仍然是一个持续存在的挑战
    • 课程学习(Curriculum Learning, CL)(2025) 通过逐步引入更复杂的样本来对齐任务难度与模型能力
    • DAPO (2025) 采用动态采样过滤掉模型认为过于简单或困难的问题
  • 这些方法可能会丢弃大量有价值的训练数据
  • 论文提出的 GHPO 方法通过自适应难度检测和 Prompt 优化机制,充分利用所有训练数据,提供了一种更高效且稳健的解决方案

附录 A:Supplementary Case

  • 详情见原文

NLP——LLM对齐微调-GFPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Sample More to Think Less: Groupx Filtered Policy Optimization for Concise Reasoning, 20250813, Microsoft

Paper Summary

  • 整体总结
    • 论文提出了组过滤策略优化(Group-Filtered Policy Optimization, GFPO)(是 GRPO 的一种扩展方法)
    • 通过 采样更多响应 并 选择性地学习 与目标属性(如简洁性或 Token 效率)最匹配的样本来优化模型
      • 这种选择性学习作为一种隐式的奖励塑造机制,引导策略生成更高质量的输出,同时抑制诸如响应长度膨胀等不良行为,而无需复杂的奖励工程
    • 问题:Token 效率部分有点像是 Kimi K1.5 的内容?
  • 背景 & 问题:
    • RLVR-based RL 训练的 LLM 往往会以长度换取准确性
    • 更长的回答可能适用于更难的问题,但许多 Token 仅仅是“填充内容”:重复、冗长的文本并未真正推动问题解决
  • GFPO 可解决上述问题:
    • 在训练时对每个问题采样更大的群组
    • 根据两个关键指标过滤回答来抑制这种长度爆炸:
      • (1) 回答长度;
      • (2) Token 效率(奖励与 Token 数量的比值)
    • 通过在训练时采样更多,论文教会模型在推理时思考更少
      • 在 Phi-4-reasoning 模型上,GFPO 在具有挑战性的 STEM 和编程基准测试(AIME 24/25、GPQA、Omni-MATH、LiveCodeBench)中将 GRPO 的长度膨胀削减了 46-71%,同时保持准确性
      • 优化奖励与 Token 比进一步将长度膨胀的减少幅度提升至 71-85%
  • 论文还提出了 自适应难度 GFPO(Adaptive Difficulty GFPO)
    • 根据实时难度估计动态分配更多训练资源给更难的问题,从而在计算效率和准确性之间实现更好的平衡,尤其是在困难问题上
  • GFPO 证明
    • 增加训练时的计算量可以直接转化为减少测试时的计算量(注:核心结论)
    • 这是一种简单而有效的权衡,旨在实现高效推理

Introduction and Discussion

  • RLVR 方法(如 GRPO (2024) 和 PPO (2017)),在实现测试时扩展方面发挥了关键作用
    • 使得像 O3 (2025) 和 DeepSeek-R1 (2025) 这样的模型能够“思考更久”,并在 AIME 和 IMO 等具有挑战性的推理任务中取得前所未有的性能
  • 虽然更长的推理链对于解决更难的问题是预期的,但先前的研究表明,长度膨胀可能与正确性无关,而更短的链实际上可能带来更好的准确性。例如:
    • Balachandran 等人 (2025) 报告称,在 AIME 25 上,DeepSeek-R1 生成的回答长度几乎是 Claude 3.7 Sonnet 的 5 倍,尽管两者的准确性相近
    • 类似地,Hassid 等人 (2025) 发现,在 AIME 和 HMMT 上,QwQ-32B 的最短回答在减少 31% Token 使用量的同时,比随机采样的回答准确率高 2%
    • 这表明更长的链并不等同于更好的推理
  • 更长的回答可能显得准确性更低,仅仅是因为它们通常来自更难的问题
  • 为了区分由问题难度驱动的真实长度增加和不必要的膨胀,论文分析了 Phi-4-reasoning-plus (2025) 中同一问题的多个回答长度与正确性之间的相关性
    • 在 AIME 25 上,论文发现,在生成了正确和错误回答的问题中,72% 的情况下,更长的回答比更短的更容易出错
  • 已有一些方法被提出来抑制 RLVR 训练模型中持续的长度膨胀现象,例如 Dr.GRPO (2025) 和 DAPO (2025) 的 Token-level 损失归一化
    • 但即使在 Phi-4-reasoning-plus 的训练中应用了 Token-level 归一化,论文仍然观察到在仅 100 步 GRPO 训练后,回答长度从 4k 迅速增长到 14k Token
    • 论文假设,虽然 Token-level 归一化更严厉地惩罚了长而错误的回答,但它也放大了对长而正确链的奖励
      • 无意中强化了经过大量逐步推理 SFT 的强大基础模型(如 Phi-4-reasoning (2025) 和 DeepSeek-R1-Distill-Qwen (2025))固有的冗长性
      • 这凸显了仅依赖损失归一化来对抗 GRPO 显著长度膨胀的困难
  • 基于这些观察,论文的目标是开发高效的推理模型,这些模型能够保留 GRPO 提供的推理准确性,同时生成显著更短的推理链
  • 为实现以上一目标,论文做出了以下贡献:
    • GFPO(群组过滤策略优化) :
      • 论文提出了 GFPO(图 1,第 3 节),这是 GRPO 的一种简单而有效的变体,旨在显式抑制回答长度膨胀
      • GFPO 将拒绝采样与标准 GRPO 相结合:
        • 对于每个问题,论文采样更大的候选推理链群组 \( G \),以增加对理想输出的接触,根据目标指标过滤它们,并仅从保留的前 \( k \) 条链的策略梯度中学习
        • 虽然可以设计多种拒绝指标,但论文主要关注回答长度(保留最短的链以鼓励模型在推理时“思考更少”)
        • 当优化长度时,GFPO 在 AIME 25 上将 GRPO 的长度膨胀减少了 46.1%,在 AIME 24 上减少 59.8%,在 GPQA 上减少 57.3%,在 Omni-MATH 上减少 71%,在 LiveCodeBench 上减少 57%,同时保持准确性(第 5.2、5.3 节)
    • Token 效率(Token Efficiency)(第 5.4 节):
      • 除了仅针对长度外,论文引入了 Token 效率指标(定义为奖励与回答长度的比值)
      • 该指标促进那些通过提供更高奖励来证明其长度的推理链,鼓励模型既简洁又有效
      • 通过 GFPO 优化 Token 效率,长度膨胀在 AIME 25 上减少了 70.9%,在 AIME 24 上减少 84.6%,在 GPQA 上减少 79.7%,在 Omni-MATH 上减少 82.6%,在 LiveCodeBench 上减少 79.7%(定性示例见附录 A)
    • 自适应难度 GFPO(Adaptive Difficulty GFPO)(第 5.5 节):
      • 论文进一步引入了 GFPO 的自适应变体 ,其中保留的回答数量 \( k \) 基于轻量级、无监督的问题难度估计动态调整
      • 这种自适应策略将更多探索 (更大的 \( k \))分配给更难的问题 ,同时对较简单的问题进行更激进的缩短
    • 分布外泛化(Out-of-Distribution Generalization)(第 5.6 节):
      • 论文展示了 GFPO 在分布外任务上保持准确性的同时抑制长度膨胀的能力
    • GFPO 对回答长度和问题难度的分析(Analysis of GFPO on Response Length and Question Difficulty)(第 6 节):
      • 论文详细分析了 GFPO 在简单与困难问题上的准确性和长度减少情况,并研究了其对长回答准确性的影响
  • GFPO 利用了训练时和推理时计算之间的基本权衡,将成本从推理(更短的链带来显著的效率提升)转移到训练,通过采样和评估更多的候选回答
  • 这种权衡特别有利,因为训练计算是一次性投入,而推理计算的节省在整个部署过程中持续实现
  • 通过这种方式,GFPO 提供了一种简单而有效的解决方案,解决了推理模型中固有的回答长度膨胀问题(在保留 GRPO 最先进性能的同时,生成显著更短的推理链)

Preliminaries

  • GRPO (2024) 是一种强化学习算法:通过消除对值模型估计基线优势的需求,简化了 PPO (2017)
  • 通过为每个问题采样多个回答并使用其平均奖励作为基线实现,同时仍然优化与 PPO 类似的裁剪代理目标
  • 设 \( \theta \) 表示模型参数,\( q \) 表示问题,\( o \) 表示从旧策略 \( \pi_{\theta_{\text{old} } } \) 采样的回答,则
    • GRPO 目标可以表示为:
      $$
      \mathcal{J}_{\text{GRPO} }(\theta) = \mathbb{E}_{[\hat{\eta}\sim P(O), \{o_i\}_{i=1}^C \sim \pi_{\theta_{\text{old} } }(O|q)]} \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min \left( r_{i,t} \widehat{A}_{i,t}, \text{clip}(r_{i,t},1-\varepsilon,1+\varepsilon) \widehat{A}_{i,t} \right) - \beta \mathcal{D}_{KL}(\pi_{\theta} | \pi_{\theta_{\text{old} } } ) + \gamma \text{Entropy}(\pi_{\theta})
      $$
    • 其中优势为:
      $$
      \widehat{A}_{i,t} = \frac{R(q,\rho_i) - \frac{1}{k} \sum_{j=1}^C R(q,\rho_j)}{\sqrt{\frac{1}{k} \sum_{l=1}^G \left( R(q,\rho_i) - \frac{1}{k} \sum_{j=1}^C R(q,\rho_j) \right)^2} }, \quad r_{i,t} = \frac{\pi_{\theta}(o_{i,t} | q,\rho_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q,\rho_{i,<t})}
      $$
    • 且 \( \beta \mathcal{D}_{KL}(\pi_{\theta} | \pi_{\theta_{\text{old} } } ) \) 表示 KL 惩罚
  • 需要注意的是,虽然论文展示了标准的 GRPO 损失归一化方程,但包括 verl (2024) 和 TRL (2020) 在内的多个开源强化学习库默认使用 DAPO 的 Token-level 损失归一化进行 GRPO 训练 ,这也是论文在实验中使用的方法
  • GRPO 的一个关键限制是其依赖单一标量奖励信号 ,这使得同时优化多个理想的回答属性(如简洁性和准确性)变得困难
    • 这通常导致以显著的回答长度膨胀为代价换取准确性的提升
  • 为了解决这一问题,论文引入了 GFPO,以实现对多个回答属性的联合优化

Group Filtered Policy Optimization, GFPO

  • 论文提出了 GFPO,一种简单而有效的方法,用于有针对性地优化响应属性
  • GFPO 为每个问题采样更大的候选响应组 ,扩大响应池以包含更多具有理想特征的候选 ,然后在计算策略梯度时明确根据这些特征进行过滤
    • 将理想属性(如简洁性或信息量)直接编码到标量奖励中看似自然,但对于多个属性的优化可能会非常具有挑战性
      • 尤其是已经需要捕捉正确性的情况下
    • 数据过滤作为一种隐式、灵活的奖励塑造形式,类似于通过选择性采样来放大特定模型行为的迭代自我改进方法 (2022)
  • 在完成这一显式过滤步骤以隔离优选响应后,标准的奖励仅用于在选定组内计算相对优势
  • GFPO 能够同时优化多个理想属性(如长度和准确性),而无需复杂的奖励工程
  • 由于论文的目标是减少强化学习中的响应长度膨胀 ,论文专注于使用 GFPO 优化更短的响应,同时匹配 GRPO 的准确性
    • 给定一个问题 \( q \),论文从当前策略中采样一组较大的响应 \( \mathcal{G} = \{o_1, \ldots, o_G\} \)
    • GFPO 根据用户指定的指标应用选择步骤,过滤出大小为 \( k \) 的最理想响应子集用于训练
    • 论文为每个响应计算指标得分并排序,选择前 \( k \) 个响应形成保留子集 \( \mathcal{S} \subseteq \mathcal{G} \)(算法 1)
    • 论文定义一个二元掩码 \( m \in \{0, 1\}^G \),其中 \( m_i = 1 \) 表示选中的响应,\( m_i = 0 \) 表示被拒绝的响应
  • 形式上,论文将 GFPO 的目标函数定义为:
    $$
    \mathcal{J}_{\text{GFPO} }(\theta) = \mathbb{E}_{q \sim P(\mathcal{Q}), \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old} } }(\mathcal{O}|q)} \frac{1}{\sum_{i=1}^G |o_i|} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \min(r_{i,t} \widehat{A}^{(m)}_{i,t}, \text{clip}(r_{i,t}, 1 - \varepsilon, 1 + \varepsilon) \widehat{A}^{(m)}_{i,t}) - \beta \mathcal{D}_{KL}(\pi_\theta \parallel \pi_{\theta_{\text{old} } }) + \gamma \text{Entropy}(\pi_\theta)
    $$
    • 其中:
      $$
      \mathcal{S}, m = \text{RejectionSample}(\mathcal{G}, k, \text{metric}, \text{order}), \quad m_i = \mathbb{I}_{ \{i \in \mathcal{S} \} } \\
      \mu_S = \frac{1}{k} \sum_{i \in \mathcal{S} } R(q, o_i), \quad \sigma_S = \sqrt{\frac{1}{k} \sum_{i \in \mathcal{S} } (R(q, o_i) - \mu_S)^2}, \quad \widehat{A}^{(m)}_{i,t} = \frac{R(q, o_i) - \mu_S}{\sigma_S} m_i \\
      r_{i,t} = \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old} } }(o_{i,t} | q, o_{i,< t})}
      $$
      • 注意:均值和方差的计算也仅仅使用选中的 \(k\) 个响应
  • 论文对选定子集 \( \mathcal{S} \) 中的响应优势进行归一化,使用 \( \mathcal{S} \) 中响应级奖励的均值 \( \mu_S \) 和标准差 \( \sigma_S \)
    • 这使得在已经表现出理想属性的响应之间进行有意义的比较成为可能,确保 GFPO 在过滤后的子集中优先考虑最高奖励的响应
  • 不在 \( \mathcal{S} \) 中的响应优势为零,从而有效地将它们排除在策略更新的影响之外
    • 问题:为什么不直接对不符合的样本进行惩罚,而是选择丢弃?
  • GFPO 的主要干预是在优势估计层面,使其与任何 GRPO 变体(如 DAPO (2025)、Dr.GRPO (2025) 或带有 Dual-Clip PPO 损失的 GRPO (2020))兼容
  • GFPO 通过采样更多响应增加了训练时的计算成本,但由于学习到的策略生成的响应比 GRPO 更短,这部分成本得到了部分抵消
  • GFPO 是通用的,可以适应各种评分指标,但论文的实验特别利用了旨在减少响应长度膨胀的指标:
    • 响应长度(Response Length) :训练短响应直接鼓励简洁性
    • Token 效率(Token Efficiency, reward/length) :训练高 Token 效率的响应鼓励简洁性,但如果响应长度被相应更高的奖励“证明合理”,则仍允许较长的响应
  • 其他指标(如事实性、多样性或外部质量评分)也可以集成到 GFPO 中,以优化不同的目标属性

Adaptive Difficulty GFPO

  • 论文还引入了 GFPO 的自适应难度变体(算法 2),旨在根据问题的实时难度估计动态分配更多的训练信号到更难的问题上
    • 在训练的每一步,论文通过计算每个问题的采样响应的平均奖励来估计问题难度(较低的平均奖励表示较高的难度)
  • 为了自适应地调整保留响应的数量 \( k \),论文使用轻量级的 t-digest 数据结构维护问题难度的流式摘要
    • t-digest 高效地近似所有已见问题的难度(奖励均值)的四分位数,使论文能够将新问题分类到相对难度桶中
    • 基于此分类,论文为每个问题分配目标保留响应数量 \( k \)(注:从 16 个采样中保留):
      • 简单问题为 4
      • 中等难度问题为 6
      • 困难和非常困难问题为 8
    • 这种动态课程设计使得在简单问题上进行更激进的过滤,而在困难问题上进行更多的探索
    • 难度桶的数量和每个桶的 \( k \) 是超参数
  • 自适应难度 GFPO 高效利用训练计算资源,将梯度更新集中在最需要的地方
    • GFPO 帮助模型在简单示例上减少冗余(在这些问题上正确性已经很高)
    • 同时通过保留更多的推理链在困难问题上保持准确性
  • 据论文所知,这是第一个基于问题难度动态调整有效组大小的算法

Setup

  • 模型(Model)
    • 论文通过 Phi-4-reasoning(2025)作为基础模型来验证 GFPO 的有效性
    • 该模型是通过对 14B 参数的 Phi-4(2024)在 STEM 领域的合成 O3-mini 推理轨迹上进行广泛的 SFT 得到的,未经过任何 RL 调整
    • 在结果和分析中,论文将 Phi-4-reasoning 称为 SFT 基线
  • Baseline
    • 论文将经过 GFPO 调优的模型与使用 GRPO 训练的基线模型 Phi-4-reasoning-plus(2025)进行比较
    • 需要注意的是,论文使用了带有 DAPO Token-level 损失聚合的 GRPO,并对裁剪替代目标进行了轻微修改以提高训练稳定性,具体细节见第 3 节
    • 论文复制了 Phi-4-reasoning-plus 的训练设置,如下所述。在结果和分析中,论文将 Phi-4-reasoning-plus 称为 GRPO 基线
  • 数据集(Dataset)
    • 论文的 RL 训练专注于提升数学推理能力
    • 训练数据集包含从更大的训练语料库(2025)中选出的 72k 道数学问题
    • 论文将 RL 训练限制为 100 步,批次大小为 64,因此模型在训练期间仅看到 6.4k 道问题(与用于训练 Phi-4-reasoning-plus 的数据集相同)
  • 奖励函数(Reward Function)
    • 论文使用了训练 Phi-4-reasoning-plus(2025)时采用的奖励函数
    • 该奖励是“长度感知”的 0/1 准确度奖励与 n-gram 重复惩罚的加权和
    • 二元准确度奖励 \( R_{\text{acc} } \) 通过从响应中提取最终答案并验证其与真实答案的等价性来计算,如果简单的答案提取失败,则依赖于 LLM 验证器
    • 随后,该奖励被缩放到 -1.0 到 1.0 之间的浮点数,基于响应长度对正确答案的长响应进行惩罚
    • 格式违规会通过最低奖励进行惩罚
    • 最终的奖励函数 \( R \) 是这种长度感知准确度奖励与基于 5-gram 重复频率的重复惩罚的加权组合:
      $$
      R = w_{\text{acc} } \text{LENGTHSCALE}(R_{\text{acc} }) + w_{\text{rep} } R_{\text{rep} },
      $$
      • 其中 \( R_{\text{acc} } \in \{0,1\} \) 且 \( R \in [-1,1] \)
    • 更多细节见 Abdin 等(2025)的第 4.1 节
    • 值得注意的是,奖励中的长度惩罚不足以抑制 GRPO 引起的响应长度膨胀,这促使论文提出了 GFPO
  • 训练配置(Training Configuration)
    • 论文使用 ver1(2024)框架进行 GFPO 训练,并采用上述奖励函数
    • 为了与 Phi-4-reasoning-plus 的训练设置保持一致,论文在 32 个 H100 GPU 上对 Phi-4-reasoning 进行 GFPO 调优,全局批次大小为 64,训练 100 步,使用学习率为 \( 1 \times 10^{-7} \) 的 Adam 优化器,前 10 步采用余弦预热,采样温度 \( T = 1.0 \)
    • 论文应用了 KL 正则化(\( \beta = 0.001 \))和熵系数(\( \gamma = 0.001 \))
    • 模型的训练上下文长度最大为 32k Token ,其中 1k Token 保留给 Prompt
  • 组大小(Group Size)
    • Phi-4-reasoning-plus 的训练组大小为 \( G = 8 \)
    • GFPO 通过增加 \( G \) 来增加对理想响应的曝光,以更多的训练时计算换取更短的推理时响应长度
    • 论文为 GFPO 尝试了 \( G \in \{8, 16, 24\} \),但为了与 GRPO 公平比较,所有实验中 GFPO 的保留组大小 \( k = |\mathcal{S}| \leq 8 \),确保模型接收策略梯度信号的响应数量一致
  • Evaluation
    • 论文在以下基准上评估检查点:
      • AIME 25(AIME,2025)和 AIME 24(AIME,2024)每个 Prompt 采样 32 次
      • GPQA(2024)采样 5 次
      • Omni-MATH(2025)采样 1 次
      • LiveCodeBench(2024)采样 3 次
    • 论文在温度 \( T = 0.8 \) 下采样响应,最大长度为 32k Token,其中 1k Token 保留给 Prompt
    • 对于 AIME 25、AIME 24、GPQA 和 Omni-MATH,论文首先使用基于正则表达式的答案提取 ,如果提取失败则使用 GPT-4o 进行 LLM-based 提取
    • 尽管论文的 RL 训练集中没有编码数据,但论文通过在 LiveCodeBench 上的评估来衡量 GFPO 优化短响应时对响应长度和准确性的分布外影响
  • 论文报告所有模型和数据集的平均 pass@1 准确率、原始响应长度(\( L \))以及超额长度减少(Excess Length Reduction, ELR)(表 1、2)
  • 论文将超额长度减少定义为 GFPO 相对于 GRPO 在 SFT 模型基础上减少的响应长度膨胀程度,公式如下:
    $$
    ELR = \frac{L_{\text{GRPO} } - L_{\text{GFPO} } }{L_{\text{GRPO} } - L_{\text{SFT} } }.
    $$
    • 问题:为什么分子不使用 GFPO - SFT ?
  • 为了评估 GFPO 的准确率是否与 GRPO 相当,论文使用 Wilcoxon 符号秩检验(1992)检验 GRPO 与 GFPO 变体之间 pass@1 准确率的差异是否显著
    • 这种非参数配对检验在不假设正态分布的情况下比较每个问题的 pass@1 准确率差异

Results

  • 论文评估了三种 GFPO 变体:
    • 最短 \(k/G\)(Shortest \(k/G\)) :从 \(\mathcal{G}\) 中保留最短的 \(k\) 条响应,通过调整 \(k\) 和组大小 \(G\) 研究其对长度缩减的影响
    • Token 效率(Token Efficiency) :从 \(\mathcal{G}\) 中保留 \(k\) 条 reward-per-token 最高的响应,使用 \(k=8\) 和 \(G=16\)(与最短 \(k/G\) 的基线设置一致)
    • 自适应难度(Adaptive Difficulty) :从 \(\mathcal{G}\) 中保留最短的 \(k\) 条响应,其中 \(k\) 根据实时难度估计动态选择(简单问题保留 4 条,中等 6 条,困难和非常困难问题保留 8 条),\(G=16\)
  • 论文测量了 pass@1 准确率和超额长度缩减(Excess Length Reduction, ELR)(公式 4)
  • Wilcoxon 符号秩检验显示,GFPO 变体与 GRPO 在各任务上的准确率差异无统计学意义,表明 GFPO 在缩减长度的同时保持了准确率

Think Less Without Sampling More?(不增加采样量而实现减少思考)

  • 一个自然的问题是:仅通过拒绝采样(不增加总采样量)能否显著缩减响应长度?
  • 论文实验了 Shortest 6/8 GFPO,从组大小 \(G=8\) 中保留最短的 \(k=6\) 条响应
  • 结果显示
    • Shortest 6/8 GFPO 在 AIME 25、AIME 24、GPQA 和 Omni-MATH 上的准确率与 GRPO 相当,但超额长度缩减效果有限:
      • 在 AIME 25、AIME 24 和 GPQA 上分别仅缩减了 1.8%、9.5% 和 11.5%
      • 在 Omni-MATH 上甚至出现轻微长度增加(+5.5%)(表 1、2)
    • 这表明,虽然从小规模组中采样可以带来轻微的长度缩减,但更显著的缩减可能需要增加 \(G\) 以暴露更多短链
      • 这促使论文进一步探索是否通过采样更多能让模型在推理时思考更少

GFPO Enables Efficient Reasoning

  • 基于“增加采样量可能显著缩减链长度”的观察,论文研究了 Shortest 8/16 GFPO 变体的效果
  • 该方法将组采样量增至 \(G=16\),仅保留最短的 8 条响应(即训练模型使用最短的 50% 采样链),被拒绝的样本优势值设为零
  • 应用 Shortest 8/16 GFPO 后,论文在多个基准上观察到长度通胀显著缩减:
    • AIME 25 缩减 23.8%,AIME 24 缩减 33%,GPQA 缩减 23.7%,Omni-MATH 缩减 31.5%,且准确率无统计学显著下降(表 1、2)
    • 总体而言,GFPO 在保持 GRPO 强大推理性能的同时,大幅缩减了响应长度
  • 发现(Finding)
    • “Thinking Less” Requires Sampling More: Reducing retained responses without increasing group size (Shortest 6/8 GFPO) does not reduce response length.

调整 \(k\) 和 \(G\) 对长度缩减的影响(Effect of Varying \(k\) and \(G\) on Length Reductions)

  • 论文进一步研究了保留组大小 \(k\) 和采样组大小 \(G\) 的变化如何影响长度缩减
  • 直觉上,减少保留比例(\(k \downarrow\))或增加采样量(\(G \uparrow\))均可进一步缩短推理链
  • 与 Shortest 8/16 GFPO 相比,略微减少保留集(Shortest 6/16 GFPO)带来中等额外缩减:
    • AIME 25 额外缩减 1.8%,AIME 24 额外缩减 2.6%,GPQA 额外缩减 15.1%,Omni-MATH 额外缩减 12.2%
    • 进一步降低 \(k\)(Shortest 4/16 GFPO)比 Shortest 8/16 实现更强改进,在上述基准上分别额外缩减 14.2%、13.8%、22% 和 15.8%(表 1、2)
  • 论文还研究了将采样组大小 \(G\) 从 16 增至 24 的效果(固定 \(k\))
    • 从 Shortest 8/16 到 8/24 带来显著额外超额长度缩减(AIME 25、AIME 24、GPQA 和 Omni-MATH 分别额外缩减 30.6%、19.7%、28.5% 和 20.4%)
    • 从 Shortest 6/8 到 6/16 实现大幅额外缩减(23.4%、26.2%、27.3% 和 49.2%),进一步增至 6/24 时改进较小(15.4%、9.3%、9.8% 和 14.5%)
    • 从 Shortest 4/16 到 4/24 在上述数据集上分别额外缩减 8.1%、13%、11.5% 和 23.7%(表 1、2)
  • 这些结果表明,控制响应长度的关键因素是保留比例 \(k/G\),通过降低 \(k\) 或增加 \(G\) 来减小 \(k/G\) 可实现响应长度缩减(图 4)
  • 论文通过比较两种配置(Shortest 4/16 和 Shortest 6/24)验证了这一点:两者保留比例均为 25%,但绝对 \(k\) 和 \(G\) 不同
    • Shortest 6/24 的平均长度缩减略优(2.9%)(表 2,图 4),反映更大的采样组 \(G\) 增加了遇到高质量短链的机会
      • 这是相对 Shortest 4/16 而言的
    • 若采样组足够大(\(G\) 从 8 增至 16),仅调整 \(k\) 即可高效实现显著长度缩减,无需进一步采样
      • 但保留比例过低时(如从 8/24 降至 4/24),改进边际递减(平均仅额外缩减 4.1%)(表 2)
      • 要突破这一限制,需采用更智能的采样策略
  • 发现(Finding)
    • 保留比例 \(k/G\) 控制长度压力 :
      • 降低 \(k\) 或提高 \(G\) 可进一步缩减长度;
      • 保留 25-33% 响应为最优比例,更小比例收益递减
      • Shortest 4/24 是长度优化最佳 GFPO 变体,实现最强的超额长度缩减

Reinforcing Token Efficiency(强化 Token 效率)

  • 先前实验表明,仅降低保留比例 \(k/G\) 最终会触及天花板:超过一定组规模后,难以生成更短的推理链
  • 为突破这一瓶颈,论文引入 Token Efficiency GFPO,一种“智能采样”方法,按奖励与 Token 比(reward/length)对响应排序
    • 其直觉很简单:策略应优先选择高效提供高奖励的链;仅当长链的奖励足够高时才保留
  • 具体实现中,Token Efficiency GFPO 保留 \(\mathcal{G}\) 中奖励与 Token 比 \(R_i/|o_i|\) 最高的前 \(k\) 条响应
  • 在此过滤集中计算优势值,使得短正确链获得最强的正梯度,长正确链获得适度奖励或轻微惩罚 ,长错误链则承受最严厉惩罚
    • 这种对长错误链的额外梯度压力可剪除“填充” Token ,而最短 \(k\) GFPO 无法直接针对这些 Token,因其仅提供不超过最长保留链长度的梯度信号
    • 最短 \(k\) 依赖 KL 惩罚隐式压低后期 Token 概率,而 Token Efficiency GFPO 通过显式负梯度主动抑制这些低价值 Token 位置
  • 论文以 \(k=8\) 和 \(G=16\) 训练该方法
  • Token Efficiency GFPO 在所有任务上实现最大的超额长度缩减
    • AIME 25 缩减 70.9%,AIME 24 缩减 84.6%,GPQA 缩减 79.7%,Omni-MATH 缩减 82.6%,优于最短 \(k\) 变体(表 1、2),且 \(G\) 更小或相当
    • 这些额外长度缩减伴随轻微代价:训练曲线显示策略性能方差更高(图 2),准确率出现微小(无统计学意义)下降(表 1、2)
  • 发现(Finding)
    • Token 效率(reward/length)优化实现最大缩减 :在 AIME 25、AIME 24、GPQA、Omni-MATH 和 LiveCodeBench 上分别缩减 70.9%、84.6%、79.7%、82.6% 和 79.7% ,同时保持准确率,这些缩减伴随训练方差略增
  • 这种方差可能源于长正确和错误链中 Token 段的噪声梯度,导致奖励和惩罚信号冲突
    • 尽管如此,Token Efficiency GFPO 在不牺牲准确率的情况下实现了最强的 Token 节省,证实奖励与 Token 比是简洁推理的有效代理指标

Adaptive Difficulty GFPO

  • 除改进拒绝指标的智能采样外,论文还引入 Adaptive Difficulty GFPO,根据问题难度动态调整保留组大小 \(k\),将更多训练资源分配给难题
  • 在 Adaptive Difficulty GFPO(第 3.1 节)中,论文通过每问题的响应平均奖励估计难度,使用轻量级 t-digest 数据结构实时计算难度四分位数,并将问题分为四个难度桶:非常困难(后 25%)、困难(25-50%)、中等(50-75%)和简单(前 25%)
  • 基于此分类,论文为每个问题分配目标保留响应数 \(k\):简单问题 4 条,中等 6 条,困难和非常困难问题 8 条(从 \(G=16\) 采样中保留)(算法 2)
  • 对于该配置,Adaptive Difficulty GFPO 的每问题平均 \(k\) 为 6.5,因此论文将其与保留响应数和组大小相近的 Shortest 6/16 GFPO 比较
    • Shortest 6/16 GFPO 在 Omni-MATH 上实现更强的超额长度缩减(43.7% vs. 35.1%)
    • Adaptive Difficulty GFPO 在 AIME 25(50.8% vs. 25.6%)、AIME 24(52.9% vs. 35.6%)和 GPQA(41.7% vs. 38.8%)上表现更优
      • 尽管 Shortest 6/16 GFPO 应用了稍激进的响应剪枝
    • 与过滤更激进的 Shortest 4/16 GFPO 相比,Adaptive Difficulty GFPO 在 AIME 25(50.8% vs. 38%)和 AIME 24(52.9% vs. 46.8%)上仍实现更优长度缩减(表 1、2)
  • 发现(Finding)
    • 自适应难度 GFPO 在等量计算下优于最短 \(k\) :根据问题难度动态调整 \(k\),在 4/5 基准上实现比最短 \(k\) 更强的长度缩减
  • Adaptive Difficulty GFPO 在 GPQA 上达到最高准确率(70.8%)(表 1),在 AIME 25 最难题上(27%)也优于 GRPO 和所有 GFPO 变体(图 6a)。这些结果凸显了基于问题难度分配采样预算的有效性
    • 注意,Adaptive Difficulty GFPO 可与 Token 效率指标结合,进一步优化结果

Out-of-Distribution Effects of GFPO

  • 论文的 RL 训练方案旨在提升数学推理性能
  • 为研究 GFPO 对短响应的偏置是否产生负面影响,论文在编码基准 LiveCodeBench 上评估分布外泛化能力
    • 注意,编码数据未包含在 RL 训练集中
  • 论文发现,GRPO 甚至在分布外任务上也导致显著响应长度膨胀,平均响应长度从 10.3k Token (SFT)增至 13.9k Token ,且未提升准确率(56.7% GRPO vs. 57.7% SFT)
    • 对于分布内更难题,更长思考可能合理,但这种长度膨胀在分布外任务中出乎意料且不理想,尤其当更长输出未伴随准确率提升时
  • 发现(Finding)
    • GFPO 缓解分布外长度膨胀 :GRPO 在分布外任务上增加响应长度但未提升准确率;GFPO 抑制此现象,同时小幅提升准确率
  • GFPO 有效缓解了这种非预期冗余
    • 在 LiveCodeBench 上,Token Efficiency GFPO 实现最显著的超额长度缩减(79.7%)
    • GFPO 变体甚至在 LiveCodeBench 编码任务上带来轻微准确率提升:Shortest 8/24 GFPO 准确率略优于 SFT 和 GRPO(59.2% vs. 57.7% 和 56.7%),同时缩减超额长度 57%
  • 这些结果凸显了 GFPO 在显式管理响应长度增长的同时,保持甚至略微增强分布外泛化的能力

Accuracy-Length Pareto Comparison

  • 图 3 全景展示了准确率与响应长度的前沿关系
  • 在五个基准中的四个上,至少一个 GFPO 变体严格帕累托优于 GRPO(落入绿色区域),证实 GFPO 可同时提供更短且更准确的答案,实现双轴改进
  • 在 AIME 25 上,GRPO 准确率略高,但多个 GFPO 变体仍位于帕累托前沿,以无统计学显著准确率下降换取显著长度缩减
    • 注:AIME 25 上看,效果相对 GRPO 确实一般
  • 聚合各任务(右下子图)显示,Shortest 4/24、Adaptive Difficulty 和 Shortest 8/16 是最一致简洁且准确的方法,Token Efficiency 准确率略低但紧随其后

Analysis

  • 论文基于 AIME 2025 数据集分析了 GFPO 的行为,通过将问题难度定义为 \(1 - \text{SFT accuracy}\) 来量化每个问题对基础 SFT 模型的挑战程度
  • 根据难度将问题分为四个等级(简单、中等、困难、极难),研究 GFPO 在不同难度下对响应长度和准确率的影响
  • 随后,论文考察了固定难度下长响应的准确率,并分析了 GFPO 如何重塑长度与准确率的联合分布
  • 最后,论文研究了 GFPO 修剪了响应的哪些部分,并在附录 A 中提供了 GFPO 与 GRPO 的定性对比示例

Length Reductions on Easy vs Hard Problems

  • 论文分析了 GFPO 在 AIME 2025 上对不同难度问题的长度缩减效果
  • 如图 5a 所示,响应长度随问题难度显著增加
    • 从简单问题的约 4k Token 到极难问题的超过 20k Token
  • GFPO 在所有难度级别上均有效减少了长度(图 5b)
  • Token Efficiency GFPO
    • 实现了最强的整体缩减效果,尤其在简单问题上(相比 GRPO 减少了 121.6% 的冗余长度,图 5b),甚至比 SFT 模型更简短的同时提升了准确率,证明了长度与准确率可以同步优化
    • 但其缩减效果在更困难的问题上减弱(中等难度减少 79.1%,困难减少 63.5%,极难减少 56.5%),因为 Token Efficiency 指标允许长响应存在,前提是其奖励足够高,而这类情况常见于需要复杂推理的难题
  • Adaptive Difficulty GFPO
    • 冗余长度缩减随难度递增(简单问题 37.7%,极难问题 60.3%),有效修剪了长尾响应(图 5b)
    • Adaptive Difficulty 和 Shortest 8/16 GFPO 对困难问题均保留 8 条最短响应,Adaptive Difficulty 实现了更强的长度缩减
    • 这种简洁性可能源于从简单问题中学习到的梯度,使得策略即使在挑战性任务中也能避免不必要的 Token
  • Shortest 8/24 GFPO 在所有难度级别上均比 Shortest 8/16 表现更好
    • Shortest 8/24 在极难问题上实现了最大的长度缩减,优于保留高奖励长响应的 Token Efficiency GFPO 和为困难问题保留更多响应的 Adaptive Difficulty GFPO(图 5b)
  • Finding
    • GFPO shortens responses across all difficulty levels.
    • Token Efficiency GFPO delivers the largest reductions on easy, medium, and hard questions—on easy questions producing responses even shorter than the SFT model while matching GRPO’s accuracy.
    • Shortest 8/24 GFPO achieves the greatest reductions on the hardest questions due to its stronger filtering.

Accuracy on Easy vs Hard Problems

  • 接下来,论文考察了 GFPO 在 AIME 2025 不同难度级别上的准确率(图 6a)
  • 所有方法在简单问题上均接近完美准确率(98-99%)
  • 随着难度增加,SFT 准确率急剧下降,而 RL 微调(GRPO 和 GFPO)始终优于 SFT
  • Token Efficiency GFPO
    • 实现了显著的长度缩减(图 5b),但与 GRPO 相比准确率略有下降(图 6a),差异无统计学意义
  • Adaptive Difficulty GFPO
    • 在简单、中等和极难问题上匹配或超过 GRPO 的准确率,尤其在中等问题上表现更优(90.2% vs. 88.4%),同时减少冗余长度 47%
    • 在极难问题上,其他 GFPO 变体准确率略有下降,而 Adaptive Difficulty 与 GRPO 持平(27% vs. 26.6%),通过动态分配计算资源在保持准确率的同时减少冗余长度 60%(图 5b)
  • 关键发现(Findings):
    • Adaptive Difficulty GFPO 在中等和极难问题上超越 GRPO 准确率 ,同时减少冗余长度 47%-60%
    • 更大的组规模(\(G\))提升困难问题的准确率 :Adaptive Difficulty(\(k=8\),\(G=16\))在困难问题上略有下降,但 Shortest 8/24 通过采样更多响应匹配了 GRPO 的准确率

Accuracy of Long Responses under GFPO

  • 长响应通常准确率较低,但这一趋势可能与问题难度混杂,难题自然需要更长输出,因此准确率下降可能源于问题本身而非冗余内容
  • 为消除混淆,论文固定难度并分析响应长度对模型表现的影响
  • 将每个模型对困难和极难问题的响应按长度分为四分位(图 7),结果显示:
    • 随着长度增加,准确率持续下降 ,证实了长响应往往准确率更低(即使问题难度相同)
      • 在困难问题上,多数模型在中等长度(12k-16k Token ,表 3)达到峰值,表明存在一个“甜区(sweet spot)”:足够长以支持推理,但避免过度思考
      • Finding:即使在难度固定的情况下,较长的回复准确度也较低:在处理难题时,推理的最佳长度大约在 12 k到 16k 个词元之间

        Finding:Longer responses are less accurate even at fixed difficulty: Across hard problems, the sweet spot for reasoning emerges around 12k–16k tokens.

    • 超出此范围后,准确率持续下降
      • GFPO 变体在最长分位上的表现优于 GRPO(困难问题 66.7% vs. 52.1%,极难问题 20.3% vs. 17.2%,表 4),因为其最长响应更简短(困难问题 20.8k vs. 23.8k,极难问题 26.9k vs. 27.5k,表 3)且更准确
      • Finding:GFPO outperforms GRPO accuracy in the lengthiest response quartiles
  • 论文进一步通过绝对长度分析补充了这一结论(图 6b),固定响应长度并评估每个长度区间内对应问题的准确率、响应占比和难度
    • GFPO 将长尾响应( \(\ge\)20k Token )的占比从 GRPO 的 32% 降至 22-23%,同时提升了短响应(< 15k)的比例
    • 这些更短的 GFPO 响应通常解决更困难的问题:在 \(\le\)5k 区间,问题难度是 GRPO 的 9 倍(16-18% vs. 2%),而准确率仅轻微下降(例如 100% -> 97%)
    • GFPO 最长区间准确率略低,反映了许多问题已在更短长度下解决,剩余长响应对应的是最难题目的罕见情况
    • 综上,相对和绝对长度分析表明,冗余内容(而非难度)是 GRPO 长链错误的主因,而 GFPO 以更简洁的方式解决难题且保持竞争力
    • Finding:GFPO cuts extreme verbosity: dropping the fraction of \(\ge\) 20k-token responses from 32% to 22%, while solving harder problems at shorter lengths (questions answered in \(\le\) 5k tokens are 9× harder in GFPO than GRPO).

Distribution-Level Effects of GFPO

  • 为可视化 GFPO 如何重塑准确率-长度分布,论文绘制了 AIME 25 上响应长度的核密度估计(图 8)和 32 次独立运行的 pass@1 准确率分布(图 9)
    • 长度分布 :所有 GFPO 变体压缩了长尾,将质量向短响应转移(图 8)
    • 准确率分布 :SFT 的准确率分布左偏,表明平均表现较低;GRPO 分布右移,反映更高典型准确率;GFPO 变体介于两者之间。Token Efficiency GFPO 分布最集中,表现最稳定;Shortest 8/24 接近 GRPO 的中心质量;Adaptive Difficulty 呈现轻微双峰,部分重复达到 GRPO 水平,部分略低
  • 论文量化了 AIME 25 上准确率与长度的权衡:
    • GRPO 生成长响应的比例最高(46.8% vs. SFT 的 28%),GFPO 变体将其降至 42.1%(Shortest 8/16)、35%(Shortest 8/24)、37.8%(Adaptive Difficulty)和 32.7%(Token Efficiency)
    • GRPO 70% 的问题准确率 \(\ge\)70%,GFPO 变体略低但差异无统计学意义
    • 总体而言,Shortest 8/24 和 Adaptive Difficulty 在缩短响应与保持高准确率之间实现了最佳平衡

What is GFPO trimming?(讨论分析:GFPO 到底修剪了什么?)

  • 为探究 GFPO 长度缩减的来源,论文使用 GPT-4o 标注了五个模型(SFT、GRPO、Shortest 8/24 GFPO、Token Efficiency GFPO、Adaptive Difficulty GFPO)在 AIME 25 和 GPQA 上的推理轨迹,将每段文本按功能角色分类:
    • 问题 :与问题表述和理解相关的文本;
    • 解决方案 :提出或发展候选解决方案的句子;
    • 验证 :重新检查或验证中间结果的步骤;
    • 最终 :输出答案的结论性陈述
  • GRPO vs GFPO 定性的比较如下所示,关于 AIME 25 和 GPQA 的更多示例见 附录A
  • 图 10 展示了各模型在 AIME 25 和 GPQA 上各部分的平均 Token 数。结果显示:
    • GRPO 显著扩展了中段推理(Solution 和 Verification)
      • 例如 AIME 25 的 Solution 部分从 SFT 的 6.5k Token 增至 8.3k,Verification 从 1.9k 增至 3.1k
    • GFPO 变体 有效压缩了这些阶段
      • Shortest 8/24 将 AIME 25 的 Solution 从 8.3k 减至 6.6k(冗余长度减少 94.4%),表明 GFPO 减少了提出错误或无关候选方案的冗余;Verification 从 3.1k 减至 2.3k(减少 66.7%),修剪了 GRPO 典型的重复性检查
    • Token Efficiency GFPO 在所有部分(除 AIME 25 的 Solution 外) Token 使用更少;
      • Adaptive Difficulty 也显著压缩了 Solution 和 Verification,但不如其他方法激进(GPQA 上趋势类似)
  • 关键发现(Finding):
    • GFPO 大幅削减了推理过程中 解决方案 和 验证 阶段的冗余——在 AIME 25 上分别减少 94.4% 和 66.7% 的冗余长度
    • GFPO 变体对 Problem 和 Final 部分基本保持不变(与 SFT 差异在 10% 以内),表明其专门针对核心推理步骤的冗余,同时保留了问题表述和最终答案的完整性

Related Work

GRPO Loss Modifications

  • 近期的工作(如 Dr.GRPO (2025) 和 DAPO (2025)) 通过改进 GRPO 的损失归一化方法,提升了模型的 Token 效率和训练稳定性
    • 标准的 GRPO 在每个响应内部对损失进行归一化后再求平均,这使得所有响应对梯度更新的权重相同,但会导致长输出中的 Token 权重被低估
      • 理解:GRPO 中模型会倾向于生成短的正样本和长的负样本
    • Dr.GRPO 改为按批次中的最大响应长度归一化,而 DAPO 则按总 Token 数归一化
      • 问题:这里的描述错了吧?应该是 Dr.GRPO 没有做归一化,DAPO 则按当前批次的 Token 数归一化
    • 这两种方法都增加了长链中 Token 的权重 ,从而更严厉地惩罚错误的长链
  • 在开源强化学习训练框架(如 ver1 (2024) 和 TRL (2020))中,GFPO 采用了 DAPO 的 Token-level 归一化
    • 但这种方法不仅会惩罚错误的长链,还会放大正确长链的奖励 ,从而导致经过 SFT 的推理模型(如 Phi-4-reasoning-plus 和 DeepSeek-R1-Distill-Qwen)倾向于生成更冗长的输出
      • 这凸显了仅依赖损失归一化来控制输出长度的局限性
      • 问题:不会放大正确长链的奖励吧,相当于是对齐了所有奖励权重了啊
    • GFPO 通过仅对保留链计算优势函数来改进优势估计,这一改进与损失归一化无关;
    • 尽管论文的实验将其与 DAPO 的损失聚合方法结合使用,但未来也可以与其他方法(如 Dr.GRPO)结合

Length-Aware Penalties

  • 除了归一化,还有一些工作通过在 GRPO 的奖励中添加显式的长度感知惩罚来抑制长推理链 :
    • Hou 等人 (2025) 在强化学习过程中设置了 Token 上限(超过上限则奖励为零),并逐步收紧限制;
    • Su 和 Cardie (2025) 使用了一种自适应的直接长度惩罚,其强度随训练动态调整以避免过度压缩或不足压缩;
    • Xiang 等人 (2025) 根据每个问题的解决率反比调整惩罚强度,使得简单问题对额外 Token 的惩罚更大;
    • Cheng 等人 (2025) 结合全局长度奖励和针对冗余思维的压缩奖励;
    • Aggarwal 和 Welleck (2025) 则在给定目标长度的条件下优化准确性,对偏离目标长度的输出进行惩罚
  • 在论文的初步实验中,简单地调整长度感知奖励中的惩罚强度并未显著减少输出长度,或者以牺牲准确性为代价
  • 相比之下,GFPO 的拒绝步骤通过决定哪些样本用于学习来隐式地塑造奖励,提供了一种更简单的方法来同时优化多个属性(如长度、安全性),而无需复杂的奖励工程
  • 当然,将 GFPO 与更精心设计的奖励结合可能会带来进一步的提升
  • 问题:GFPO 本质上对丢弃掉的样本的梯度是 0,既不鼓励,也不惩罚,像是浪费了生成的样本,且梯度为 0 本身也有一定的含义,当一个样本被打压时,梯度为 0 的样本相当于被鼓励了(反之亦然)
    • 注:丢弃掉的样本还不参与奖励均值和方差的计算
    • 建议:是否可以做一个补充实验,将丢弃掉的样本使用起来,且针对正负奖励给与一定的长度惩罚

Inference-time Interventions

  • 其他工作也探索了如何在推理时纯粹通过干预控制推理长度
  • 与论文的工作类似:
    • Hassid 等人 (2025) 表明较短的链通常更准确(即使在控制问题难度后) ,并提出对 \(k\) 个样本中最短的 \(m\) 个进行投票
    • Muennighoff 等人 (2025) 提出了 “预算强制”(budget forcing) ,通过特殊短语(如“Wait”或“Final Answer”)控制推理停止时机而无需重新训练
    • 其他方法通过监控中间生成信号,在模型表现出高置信度或答案在连续推理块中稳定时停止生成 (2025; 2025)
    • 这些方法与 GFPO 是互补的,可以结合使用以进一步降低推理成本或在训练后强制执行长度约束

Rejection Sampling Methods

  • 拒绝采样已被应用于多种 LLM 的训练和解码场景中
    • Kim 等人 (2024) 探索了在强化学习后通过采样每个问题的多个解并进行长度缩减的方法,包括
      • (i)对最短的正确响应进行微调,或
      • (ii)使用最短正确输出作为正例、较长输出作为负例应用 DPO(Direct Preference Optimization)
  • 相比之下,GFPO 将拒绝采样整合到强化学习更新中
    • 为每个问题采样更大的组,并根据长度或 reward-per-token 选择训练链
    • 避免了额外的蒸馏、长度对齐阶段或显式惩罚项
  • DAPO (2025) 采用“动态采样”丢弃所有响应均正确或错误的 Prompt 以稳定批次梯度
  • Xiong 等人 (2025) 表明,一个简单的 RAFT 基线 (2023) 仅训练正向奖励样本即可与 GRPO 表现相当
    • 他们的过滤基于正确性奖励,但 GFPO 根据长度或 Token 效率过滤,并能根据问题难度动态调整过滤强度
  • 其他应用包括 Khaki 等人 (2024) 将拒绝采样与 DPO 结合,通过为每个 Prompt 采样更多响应并使用奖励分数选择对比对;
  • Lipkin 等人 (2025) 使用自适应加权拒绝采样实现高效约束生成;
  • Sun 等人 (2024) 通过早期拒绝低分候选加速 Best-of-\(N\) 解码

附录 A:Qualitative Examples

  • AIME 25 I Problem 8: GRPO v/s Token Efficiency GFPO
  • 更多 Case 比较见原始论文

NLP——LLM对齐微调-IcePop

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(IcePop)Small Leak Can Sink a Great Ship—Boost RL Training on MoE with IcePop!, 20250919, AntGroup
      • 有趣的标题:小漏洞可沉巨轮
    • 本工作是 TIS(Truncated Importance Sampling)的续作,TIS 的参考链接为 Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
    • 本文似乎是 MIS(Masked Importance Sampling)的提出者,但命名来源于其他博客
      • 相关博客:When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch
      • 相关 PR:【PR to TRL】[GRPO] Sequence-level TIS + MIS(20251106)

TLDR

  • 整体内容总结:
    • 26年1月回顾补充:本文的方法已经被很多文章用到,比如 GLM 4.7,MiMo-V2 等技术博客
    • 论文对 MoE 模型上训练-推理概率不匹配的问题进行了初步分析
    • On-policy RL 训练的不稳定性可能源于训练引擎与推理引擎之间不断增大的概率差异
    • IcePop 通过在损失函数层面校正这种不匹配来解决该问题(本工作是 TIS 的续作)
    • 作者提出:未来的一个重要研究方向是正式刻画 崩溃边界(collapse boundary) 定义为 On-policy 训练变得不稳定时的临界概率差异,并研究该边界如何随模型规模、批次配置和引擎不匹配程度而变化
  • 近期工作 (2024) 强调了当前强化学习训练框架中模型训练与生成阶段之间存在不匹配的问题
    • 论文观察到,这个问题在 混合专家模型 中会 加剧
    • 特别是当模型倾向于生成长回复时,这种差异会 进一步放大
  • 尽管先前工作 (2024) 提出通过引入重要性采样校正来缓解此问题,但作者认为这种技术在训练进行时可能会在基准测试上遇到性能瓶颈
  • 论文提出了一种简单而有效的方法 IcePop ,即使在强大的经过监督微调的 MoE 模型上,也能通过 RL 实现稳定的训练和卓越的下游性能

The Mismatch Issue on MoE

  • 不匹配问题指的是当前 RL 训练框架中训练后端和推理引擎之间的概率差异,这不可避免地使 On-policy 训练变成了 Off-policy (2024)
  • 论文观察到,这种实现上的差距在 MoE 模型的 RL 训练期间变得更加显著
    • 与稠密模型不同,为了实现更高的参数效率,MoE 架构采用了一种路由机制,该机制在训练和推理期间仅为每个 Token 选择少数排名靠前的“专家”
    • 论文发现这种结构设计加剧了 On-policy RL 训练期间的不匹配问题,阻碍了 MoE 模型完全释放强化学习的潜力
  • 图 1. MoE 和稠密模型之间 \( |\log p_{\rm infer} - \log p_{\rm train}| \) 的比较
    • 论文选择了三个代表性模型:Ring-mini-2.0 (MoE)、Qwen3-4B (Dense)、Qwen3-30B-A3B (MoE),这表明 MoE 模型通常在训练和推理引擎之间表现出更大的差异
  • 根据下面的策略梯度方程,我们可以看到另一个不匹配问题出现了,即 \( \color{red}{\theta_{\rm infer} } \) 和 \( \color{blue}{\theta_{\rm train} } \)
  • 在 MoE 模型中,路由函数 \( \texttt{TopK}(\cdot) \) 为每个输入 Token 动态激活一个“专家”子集
  • 理想情况下,对于固定的输入,\( \texttt{TopK}(\cdot) \) 的输出应该与策略模型部署在哪个引擎上无关
  • 然而,当 \( \color{red}{\theta_{\rm infer} } \) 和 \( \color{blue}{\theta_{\rm train} } \) 之间存在显著差距时,将不可避免地导致 \( \color{red}{\pi_{\rm infer} } \) 和 \( \color{blue}{\pi_{\rm train} } \) 之间产生更大的分歧
    $$ \small{\begin{equation}\theta \leftarrow \theta + \mu \cdot \mathbb{E}_{a\sim \color{red}{\pi_{ {\rm{infer} } } }(\color{red}{\theta_{\rm infer} } ), \ \color{red}{\theta_{\rm infer} } \sim \mathtt{TopK}_{\rm infer}(a)}\left[ R(a) \cdot \nabla_{\theta}\log \color{blue}{\pi_{\rm{train} } }(a;\color{blue}{\theta_{\rm train} });\color{blue}{\theta_{\rm train} } \sim \texttt{TopK}_{\rm train}(a) \right]\end{equation} } $$
  • 对于 MoE 模型,论文确定了训练-推理差异问题的两个主要原因:
    • 训练和推理阶段选择的专家可能不同 (The selected experts may vary between training and inference stages.)
      • 论文之前的分析表明,即使在第一个 MoE 层,也已经有极少部分的 Token 在训练后端和推理引擎中激活了不同的专家
      • 例如,当选择 Top-k 和 Top-(k+1) 专家的概率非常接近时,即使微小的精度差异也可能导致在训练和推理期间选择不同的专家,从而导致计算出的概率出现巨大差异
    • 随着堆叠的路由网络增多,不匹配问题变得明显 (The mismatch becomes pronounced as more routing networks are stacked.)
    • 论文进一步注意到,随着 MoE 层数的加深,在训练后端和推理引擎中调用相同专家的 Token 比例迅速下降了约 10%
    • 在每一层,路由网络决定激活哪些专家。在一个深层的 MoE 模型中,它每层选择多个专家,因此每次调用 \(\texttt{TopK}(\cdot)\) 时即使是很小的差异也会累积起来,并随着深度的增加而被不断放大

What Effects Will It Bring to MoE RL?

概率差异会放大,尤其是对于长序列

  • The probability discrepancy becomes magnified, especially for long sequences.
  • 在训练刚开始时,论文发现某些 Token 位置已经存在明显的概率差异
  • 由于预测的自回归特性,出现在较后位置的 Token 更容易受到差异累积的影响,导致变化范围更广
  • 随着训练的进行,问题加剧:训练和推理引擎之间同一 Token 的概率差距在多个 Token 位置上持续增加,甚至影响到长序列中前面的 Token ,并使优化过程不稳定

不匹配问题会迅速导致 On-policy MoE RL 训练崩溃

  • The mismatch issue quickly causes crashes during on-policy MoE RL training.
  • 在 On-policy RL 训练中,与稠密模型相比,论文观察到负责生成长序列的 MoE 模型更容易受到此类不匹配问题的影响,常常导致训练崩溃
  • 例如,上图显示差异在 150 步后逐渐增加,一旦差异超过 0.05,训练基本上就失败了
  • 由于实现方式不同,概率差异可能会因复合效应而变得更大

附录:引理 (Compounding Probability Discrepancy,复合概率差异)

  • 令 \(\pi_{\text{infer} }(\cdot;\theta)\) 和 \(\pi_{\text{train} }(\cdot;\theta)\) 分别表示推理策略和训练策略
  • 定义第 \(t\) 步的概率差异为
    $$
    \delta_t = D_{\mathrm{KL} }\big(\pi_{\text{infer} }(\cdot;\theta_t)|\pi_{\text{train} }(\cdot;\theta_t)\big).
    $$
  • 该差异衡量了推理引擎的分布偏离训练引擎分布的程度
  • 在使用不匹配引擎进行 RL 训练期间,参数更新为
    $$
    \theta_{t+1} = \theta_t + \mu g_t,
    \qquad
    g_t = \mathbb{E}_{a\sim \pi_{\text{infer} }(\theta_t)} \big[R(a)\nabla_\theta \log \pi_{\text{train} }(a;\theta_t)\big].
    $$
  • On-policy 更新为 \(g_t^* = \mathbb{E}_{a\sim \pi_{\text{train} }(\theta_t)}[R(a)\nabla_\theta \log \pi_{\text{train} }(a;\theta_t)]\),偏差为 \(b_t = g_t - g_t^*\)
  • 假设以下局部条件对 \(\theta\) 成立
    • 1)平滑差异(Smooth discrepancy)
      • \(\delta(\theta)\) 是 \(L\)-平滑(\(L\)-smooth)的,满足 \(\big|\delta(\theta+\Delta)-\delta(\theta)\big| \le L|\Delta| + c_0 |\Delta|^2\),其中 \(c_0\) 是曲率常数
      • 这意味着小的参数更新仅导致差异发生小的变化
    • 2)偏差与差异成比例(Bias scales with discrepancy)
      • \(|b_t| \ge c_1\delta_t, ~~\big\langle \nabla_\theta \delta(\theta_t), b_t \big\rangle \ge c_2\delta_t\),其中 \(c_1\) 是偏差幅度系数,\(c_2\) 是偏差对齐系数
      • 不匹配越大,偏差推动其恶化的方向上的作用就越强
    • 3)有界的 On-policy 漂移(Bounded on-policy drift)
      • 存在 \(M\ge 0\),使得 \(\big|\langle \nabla_\theta \delta(\theta_t), g_t^* \rangle\big| \le M\)
      • 仅 On-policy 训练不会导致失控的发散;不稳定性主要源于偏差

Unleash MoE RL with IcePop: Discard All Noisy Gradient Updates(释放 MoE RL 的潜力:丢弃有噪声的梯度更新)

  • 为了解决上述问题,论文提出了一种简单而有效的技术,IcePop
  • 论文应用双向掩码来减轻概率差异的有害复合效应,仅保留健康的梯度更新
    • 双向裁剪(Double-sided clipping) :不仅裁剪那些 训练概率 远大于 推理概率 的 Token ,也裁剪那些 训练概率 远小于 推理概率 的 Token
    • 掩码(Masking) :差异过大 的 Token 将从梯度更新中移除
      $$ \small{\begin{align}\mathcal{J}_{ {\text{IcePop} } }(\theta) &= \mathbb{E}_{x \sim \mathcal{D}, \{y_i\}_{i=1}^G \sim \pi_{\color{red}{\text{infer} } }(\cdot \mid x; \theta_{\rm old})} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \Big[\mathcal{M}\Bigl(\frac{\pi_{\color{blue}{\text{train} } }(y_{i,t} \mid x, y_{i,<t};\theta_{\text{old} })}{\pi_{\color{red}{\text{infer} } }(y_{i,t} \mid x, y_{i,<t}; \theta_{\mathrm{old} })}; \alpha, \beta\Bigr) \cdot \min \left( r_{i,t}\widehat{A}_{i,t}, \text{clip} \left( r_{i,t}, 1 - \varepsilon, 1 + \varepsilon \right) \widehat{A}_{i,t} \right) \right]\Bigg] &\end{align} } $$
      • \(r_{i,t}\) 的定义如下:
        $$ r_{i,t} = \frac{\pi_{\color{blue}{\text{train} } }(y_{i,t} \mid x, y_{i,< t}; \ \theta)}{\pi_{\color{blue}{\text{train} } }(y_{i,t} \mid x, y_{i,< t}; \ \theta_{\text{old} })} $$
      • 掩码函数:
        $$ \begin{equation} \mathcal{M}(k) =\begin{cases} k & \text{if } k \in [\alpha, \beta] \\ 0 & \text{otherwise}\end{cases} \end{equation} $$
        • 注:这个掩码方式在后来被其他文章称为 MIS(Masked Importance Sampling) ,相关博客When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch or 【PR to TRL】[GRPO] Sequence-level TIS + MIS
      • 两个超参数 \( \alpha \), \( \beta \) 来控制下限和上限
  • IcePop 的梯度为:
    $$ \small{\nabla_\theta \mathcal{J}_{\text{IcePop} }(\theta) \sim \small{\begin{equation}\mathbb{E}_{a \sim \color{red}{\pi_{\text{infer} } }(\theta_{\text{old} })} \Bigg[\mathcal{M}\Bigg(\frac{\color{blue}{\pi_{\text{train} } }(a;\theta_{\text{old} })}{\color{red}{\pi_{\text{infer} } }(a;\theta_{\text{old} })}\Bigg ) \cdot \nabla_\theta \log \color{blue}{\pi_{\text{train} } }(a;\theta) \cdot \hat{A} \cdot r(a)\Bigg)\Bigg].\end{equation} } } $$
  • 论文的工作与作者之前的工作 TIS (2024) 的区别:
    • 注:TIS(Truncated Importance Sampling)的参考链接为 Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
    • 当 \( \dfrac{\color{blue}{\pi_{\text{train} } }(a;\theta_{\text{old} })}{\color{red}{\pi_{\text{infer} } }(a;\theta_{\text{old} })} < \alpha \) 时
      • \( \color{blue}{\pi_{\text{train} } } \) 倾向于给该动作分配一个较小的值,相反,\( \color{red}{\pi_{\text{infer} } } \) 输出一个较高的概率,当该比率足够小时,表明训练和推理引擎之间存在巨大差异
      • TIS 乘以一个小的系数来减轻有噪声的梯度更新,然而,随着训练的进行,论文发现这种微小的扰动会逐渐被放大,并最终导致基准测试性能陷入瓶颈
    • 当 \( \dfrac{\color{blue}{\pi_{\text{train} } }(a;\theta_{\text{old} })}{\color{red}{\pi_{\text{infer} } }(a;\theta_{\text{old} })} > \beta \) 时
      • \( \color{blue}{\pi_{\text{train} } } \) 倾向于给该动作分配一个较大的值,而 \( \color{red}{\pi_{\text{infer} } } \) 输出一个较低的概率
      • 在这种情况下,TIS 会直接裁剪掉该样本,因为它认为该样本对策略更新没有贡献
        • 但作者认为这可能过于激进,因为某些具有高优势估计的动作仍然可能提供有价值的信号
      • 论文的方法通过掩码机制,允许在差异可控的范围内保留这些更新
    • 个人理解:IcePop 其实和 TIS 是一样的,只是截断多了一个下界而已,原始 TIS 的损失函数为:
      $$
      \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler}}}(\theta)} \Bigl[\underbrace{\min\Bigl(\frac{\color{blue}{\pi_{\text{learner}}}(a, \theta)}{\color{red}{\pi_{\text{sampler}}}(a, \theta)}, C\Bigr)}_{\text{truncated importance ratio}} \cdot R(a) \cdot \nabla_\theta \log \color{blue}{\pi_{\text{learner}}}(a, \theta)\Bigr],
      $$
      • 或:
        $$
        \mathbb{E}_{a \sim \color{red}{\pi_{\text{sampler} }}(\theta_{old})} \left[ \underbrace{\min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}{\color{red}{\pi_{\text{sampler} }}(a, \theta_{old})}, C \right)}_{\text{truncated importance ratio}} \cdot \nabla_{\theta} \min \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})} \hat{A}, \text{ clip} \left( \frac{\color{blue}{\pi_{\text{learner} }}(a, \theta)}{\color{blue}{\pi_{\text{learner} }}(a, \theta_{old})}, 1 - \epsilon, 1 + \epsilon \right) \hat{A} \right) \right]
        $$

附录:想了解 IcePop 这个名字背后的故事吗?

  • 作者是在享用冰棒(ice pops)时想到这个名字的!
  • 就像冰棒能缓解过热一样,该算法通过 双向裁剪 极端概率比并 掩码 差异过大的 Token ,来 “冷却” 不稳定的 On-policy 训练
  • 这种选择性校正 “剔除” 了不稳定的贡献,同时保留了有效的更新,从而在不拖慢推理速度的情况下稳定了训练

Experiments

  • 论文在 Ring-mini-2.0 模型上比较了三种设置,该模型是由 InclusionAI 开发的混合专家模型
  • 它拥有 16.8B 总参数和 0.75B 激活参数:
    • (1) IcePop
    • (2) TIS,
    • (3) 基线(不带 KL 项的普通 GRPO,该设置在多次重复运行中均失败并崩溃)
  • 论文收集了具有挑战性的推理问题作为训练数据集
  • 使用IcePop,论文发现可以有效解决在策略训练的不稳定性,甚至实现了比 TIS 更好的性能
  • 在下游任务上,IcePop 的表现优于 TIS 和 基线

模型评估

  • 在具有挑战性的基准测试 AIME25 上,IcePop 在整个训练过程中始终以较大优势优于 TIS ,最终将基础分数提高了超过 14% ,并将与 TIS 的性能差距扩大了相对 6%

More Analysis

Probability Discrepancy(概率差异)

  • 若不解决不匹配问题,概率差异会迅速增长,如基线设置所示
  • 相比之下,TIS和IcePop都将训练-推断概率的KL散度保持在合理范围内
    • 尽管随着训练的进行,三种方法的最大概率差异都在上升,但 IcePop 的差异仍然相对较低,甚至在 400 步内有所下降
    • 论文还注意到,TIS 始终表现出比论文的方法更大的极端差异和更快的增长,这可能是由于在训练中包含了噪声策略更新所致

Training Stability, 训练稳定性

  • 作者相信,稳定的训练过程是展示强化学习能力的坚实基础和充足空间
  • 值得注意的是,IcePop 和 TIS 都在 600 个梯度步内缓解了 RL 训练的不稳定性,避免了基线设置中发生的快速训练崩溃

Exploration Space

  • 论文观察到,IcePop 的对数概率始终保持在比 TIS 相对较低的值,这隐式表明论文的方法避免了过度自信的预测,从而确保了更大的探索空间范围,使得低概率 Token 更有可能被选择,最终增加了响应的多样性

Ill-conditioned Tokens(病态 Token)

  • 在论文的实验中,论文发现来自论文掩码机制的裁剪比率保持在训练 Token 的约 1-2%
  • 随着训练的进行,裁剪比率急剧上升,这表明逐渐出现微妙但有害的梯度更新,因此需要更高的裁剪比率
  • 论文还对裁剪掉的 Token 进行了详细分析
  • 下面的图11 显示,与所有 Token 相比,被裁剪的 Token 表现出更高的熵,这表明被裁剪的 Token 在训练中扮演着重要角色
  • 理解:
    • 熵低的 Token 是确定性比较高的,此时不管用什么引擎估计应该都不会差异太大,所以不容易被裁剪?
    • 熵高的 Token 则恰恰相反,不同的引擎差异可能很大,容易被裁剪
1…101112…64
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

638 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4