NLP——LLM对齐微调-RL-PLUS(MIS)

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：(MIS)RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization, PKU & Tongyi Lab, 20250731 & 20250805 & 20251019
- 开源库：https://github.com/YihongDong/RL-PLUS

Paper Summary

整体说明：
- RL-PLUS 是一种针对大型语言模型在强化学习中的能力边界崩塌问题提出的混合策略优化方法
- RL-PLUS 核心思想是结合内部 Exploitation 与外部数据 Exploration ，通过两个关键技术来增强模型的推理能力并突破其固有能力边界
- TLDR：RL-PLUS 通过 MIS（Multiple Importance Sampling）处理外部数据分布不匹配 、EBAF 引导模型探索低概率高价值路径 ，实现了内部 Exploitation 与外部学习的有效协同，显著缓解了传统 RLVR 方法中普遍存在的能力边界崩塌问题 ，推动了 LLM 在复杂推理任务上的持续进化
背景 & 问题提出：
- RLVR 显著提升了 LLM 的复杂推理能力
- 由于其本质上的 On-policy 性质，结合 LLM 巨大的动作空间和稀疏的奖励，RLVR 难以突破基础 LLM 固有的能力边界
  - 理解：这句话可能不太对， RLVR 也是有机会突破边界的，但如果这个边界是无穷次采样的上界，那“猴子也能打出莎士比亚的话剧”
- 且 RLVR 可能导致能力边界塌缩，缩小 LLM 解决问题的范围
论文解法：
- 提出了一种新颖的针对 LLM 的混合策略优化方法 RL-PLUS，协同内部利用与外部数据，以实现更强的推理能力并超越基础模型的边界
RL-PLUS 集成了两个核心组件
- 多重重要性采样（Multiple Importance Sampling， MIS）：解决来自外部数据的分布不匹配问题
- 基于探索的优势函数（Exploration-Based Advantage Function）：引导模型走向高价值、未探索的推理路径
论文提供了理论分析和广泛的实验来证明论文方法的优越性和泛化能力
与现有的 RLVR 方法相比，RL-PLUS 实现了：
- 1）在六个数学推理基准测试上的最先进性能；
- 2）在六个分布外（Out-of-Distribution， OOD）推理任务上的卓越性能；
- 3）在不同模型家族上一致且显著的性能提升，平均相对改进高达 69.2%
- 对 Pass@k 曲线的分析表明，RL-PLUS 有效解决了能力边界塌缩问题

RL-PLUS 整体框架

RL-PLUS 的目标是优化以下复合目标函数：
$$
\mathcal{J}_{\text{RL-PLUS} }(\theta) = \underbrace{\mathbb{E}_{(o_i,A_i)\sim\mathcal{D}_o} \left[ r_{i,t}(\theta)A_i \right]}_{\text{Internal Exploitation (Thinking) }} + \underbrace{\mathbb{E}_{(e_i,A^c_{i,t})\sim\mathcal{D}_e} \left[ r^m_{i,t}(\theta)A^c_{i,t} \right]}_{\text{External data for Exploration (Learning)} }
$$
理解：
- 第一项为标准策略梯度目标 ，用于稳定和提升模型已有能力，属于常规的重要性采样下的 RL 目标
- 第二项为外部数据驱动探索 ，包含两个核心创新：
  - 多重重要性采样（MIS）
  - 基于探索的优势函数（EBAF）

Multiple Importance Sampling, MIS，多重重要性采样

MIS 要解决的问题

在使用外部数据集 $\mathcal{D}_e = \{e_i\}_{i=1}^N$ 进行策略优化时，存在策略分布不匹配问题：
- 目标策略 $\pi_\theta$ 与未知的行为策略 $\pi_\omega$ 之间差异显著，导致标准重要性采样估计器存在高方差或系统性偏差
传统的 IS 问题可以分为两种（根据 IS 的形式不同而定义）：
- 传统 On-policy IS 的偏差问题：
  - 若直接使用目标策略的历史版本 $\pi_{\theta_{old}}$ 作为代理策略计算重要性权重，则称为 On-policy IS
  - 当外部数据的行为策略 $\pi_{\omega}$ 与 $\pi_{\theta_{old}}$ 差异较大时，会引入不可控的系统性偏差
- 传统 Off-policy IS 的方差问题：
  - 若直接使用未知的行为策略 $\pi_{\omega}$ 计算权重，则称为 Off-policy IS
  - 由于 $\pi_{\omega}$ 未知且可能与目标策略 $\pi_{\theta}$ 支持域不重叠，会导致权重方差爆炸，破坏训练稳定性

MIS 的定义与动机

为缓解分布不匹配问题，RL-PLUS 提出使用 MIS 构造一个低偏差、低方差的估计器
MIS 的核心思想：将外部数据的生成过程视为多个策略（而非单一策略）的混合结果，通过融合多个策略的概率分布来计算重要性权重，从而平衡偏差和方差
MIS 引入 “行为策略池”，包含至少两个关键策略：
- 目标策略的历史版本 $\pi_{\theta_{old}}$：与当前目标策略 $\pi_{\theta}$ 分布接近，提供低方差的基础权重；
- 外部数据的行为策略 $\pi_{\omega}$（或其估计值）：提供外部知识的分布信息
- 通过对多个策略的概率进行加权融合，MIS 构建出鲁棒的权重估计器，既避免了单一策略带来的偏差/方差问题，又能充分利用外部数据中的有效信息
最终，MIS 权重定义为：
$$
r^m_{i,t}(\theta) = \frac{2\pi_\theta(e_{i,t} \mid q, e_{i,<t})}{\pi_\omega(e_{i,t} \mid q, e_{i,<t}) + \pi_{\theta_{\text{old} } }(e_{i,t} \mid q, e_{i,<t})}
$$
- $\pi_\theta$：当前要优化的目标策略
- $\pi_\omega$：生成外部数据的未知行为策略
- $\pi_{\theta_{\text{old} } }$：上一轮迭代的旧策略（通常与 $\pi_\theta$ 接近）
理解：
- 分母上既使用了 $\pi_\omega$，又使用了 $\pi_{\theta_{\text{old} } }$

MIS 相关的理论优势分析

偏差控制 ：相比于仅使用 $\pi_{\theta_{\text{old} } }$ 作为代理的策略（会导致系统性偏差），MIS 通过混合分布将偏差控制在有界范围内
方差稳定 ：即使外部策略与目标策略差异巨大，混合策略中的 $\pi_{\theta_{\text{old} } }$ 也能防止重要性权重爆炸 ，保持估计器方差稳定
支持度保障 ：MIS 依赖于联合支持假设（union support assumption），即目标策略的支持度被行为策略池中的至少一个策略覆盖，从而避免支持不匹配导致的偏差

行为策略估计

由于 $\pi_\omega$ 通常未知，RL-PLUS 采用贝叶斯最优估计器对其进行建模
假设模型空间包含两个候选：
- 代理策略 $\pi_{\theta_{\text{old} } }$
- 非信息均匀策略 $\mathcal{U}(\tau) = 1/V$
在无差别原则下，最优估计器为两者的贝叶斯平均：
$$
\hat{\pi}^*_\omega(\tau) = \frac{1}{2}\pi_{\theta_{\text{old} } }(\tau) + \frac{1}{2}\mathcal{U}(\tau)
$$
该估计器在模型不确定性下表现鲁棒，且能保证重要性权重分母为正，避免方差爆炸

Exploration-Based Advantage Function, EBAF（基于探索的优势函数）

EBAF 设计动机

模型倾向于选择高概率 token，而新知识往往隐藏在低概率但正确的推理路径中
EBAF 旨在引导模型关注这些“难探索但高价值”的推理步骤

EBAF 定义

定义优势函数为：
$$
A^c_{i,t} = \frac{R_i - \text{mean}(\{R_1,\dots,R_G\})}{\text{std}(\{R_1,\dots,R_G\})} \cdot C_{i,t}
$$
其中权重项 $C_{i,t}$ 定义为：
$$
C_{i,t} = (1 - \text{detach}(\pi_\theta(e_{i,t} \mid q, e_{i,<t})))^\gamma
$$

EBAF 的作用机制理解

当模型对某正确 token 的概率较低时（即 $\pi_\theta$ 小），权重 $C_{i,t}$ 变大，放大该时刻的优势信号；
当模型已对该 token 具有高置信度时（$\pi_\theta \to 1$），权重趋近于 0，抑制梯度更新 ，避免过度优化已掌握知识；
超参数 $\gamma$ 用于控制探索强度的敏感度

文章中的训练目标与优化细节

RL-PLUS 移除标准 GRPO 中的裁剪机制（如 $\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)$），以允许模型在遇到外部数据中的高价值信息时采取更大优化步幅，加速新知识吸收
RL-PLUS 在多个数学推理基准（如 AIME、AMC、MATH-500 等）上取得 SOTA 性能，平均相对提升高达 69.2%
- 在分布外任务上（如编程、科学问答）也表现出色，证明其具有强泛化能力
- Pass@k 曲线分析进一步验证 RL-PLUS 能有效突破基础模型的能力边界 ，而非仅在其内部优化
训练 Dynamics 对比：