NLP——Secrets-of-RLHF(RewardModeling)

注：本文包含 AI 辅助创作

参考链接：
- Secrets of RLHF in Large Language Models Part II: Reward Modeling, Fudan, 202401
- 代码地址：github.com/OpenLMLab/MOSS-RLHF

Paper Summary

核心说明：
- 本文是作者 Secrets of RLHF in Large Language Models 系列的第二篇
- 本文可信讲述了 RLHF 中的 Reward Modeling 方法的具体实现细节等
- 评价：本文同样发布很早（24年初），是值得一读的文章
- 25年回顾补充：25年底了，好些 Reward Model 训练还会用到这里面提到的 Margin 等损失项
背景 & 问题：
- RLHF 已成为将语言模型与人类价值观和意图对齐的关键技术，使模型能够生成更有帮助且无害的响应
- 经过训练后，奖励模型（Reward Model，RM）可作为人类偏好的代理（Proxies），以驱动强化学习的优化
- RM 是实现高性能 LLM 的核心，但在实际应用中仍面临以下挑战：
  - （1）数据集中存在错误和模糊的偏好对，可能阻碍 RM 准确捕捉人类意图；
  - （2）在特定分布数据上训练的 RM 往往难以泛化到分布外的样本，且不适用于迭代的（iterative） RLHF 训练
本报告中，作者在尝试解决这两个问题
- （1）从数据角度 ，论文提出了一种基于多 RM 投票机制的偏好强度（preference strengths）度量方法
  - 实验结果证实，不同偏好强度的数据对 RM 性能的影响不同
  - 论文引入了一系列新方法，以减轻数据集中错误和模糊偏好的影响，并充分利用高质量偏好数据
- （2）从算法角度 ，论文引入对比学习以增强 RM 区分 chosen 和 rejected 响应的能力，从而提升模型泛化性
  - 此外，通过元学习使 RM 能够保持对分布外样本细微差异的区分能力，此方法可用于迭代的（iterative） RLHF 优化
作者已开源本报告中使用的训练代码、带有偏好强度信息的 Anthropic HH-RLHF 数据集，以及由 GPT-4 清洗的验证集（用于分析实验）
- 所有资源均可在项目网站中找到
- 补充：数据集地址为 fnlp/hh-rlhf-strength-cleaned

Introduction and Discussion

在人工智能和语言模型领域，“对齐（alignment）”是一个重要概念，指确保 AI 系统的行为与设计者意图和用户期望保持一致的过程
与 SFT 相比，RLHF 需要先学习辨别，这一过程更简单且更具泛化性。RLHF 包含两个主要步骤：
- 第一步：利用从众包工作者（crowdsource workers，这里指人类标注者）收集的偏好数据*训练 RM *；
- 第二步：通过强化学习方法优化语言模型以最大化奖励
RM 在 RLHF 过程中至关重要，论文的目标是使 RM 成为人类偏好的可靠代理（reliable proxy）
许多研究者指出 RM 的缺陷及其在准确代表人类偏好时的困难。目前有两个紧迫问题需要解决：
- （1）由于标注者间一致性较低（约0.6至0.7），数据集中存在错误和模糊的偏好；
- （2）RM 的泛化能力较差，当面对分布外（OOD）样本时表现不佳
这一限制不仅导致强化学习过程不稳定，还可能需要在迭代 RLHF 过程中标注新的偏好数据
为解决偏好数据中的噪声和模糊性，论文做了以下改进：
- 提出了一种基于多 RM 投票的偏好强度度量指标 ，通过该指标，可以区分原始数据集中的错误、模糊和正常偏好，进而纠正错误偏好的标注并对模糊偏好进行平滑处理，避免模型在这些低质量数据上过拟合
- 在偏好建模的损失函数中 ，引入了基于偏好强度的 Adaptive Margin（Adaptive Margin based on the preference strength），使模型更容易区分相似响应
实验结果表明，使用上述启发式方法训练的 RM 能够使强化学习过程更稳定，并显著提升最终的对齐性能
为增强 RM 的泛化能力，论文探索了对比学习和元学习
- 对比学习 ：通过在奖励建模过程中引入无监督对比损失 ，RM 能更好地区分响应间的细微偏好差异
- 元学习 ：为弥合偏好数据分布与模型输出分布间的差距，论文采用元学习确保 RM 不仅在偏好数据上表现良好，还能区分目标域输出的差异
- 通过这种方法，论文使仅在特定分布偏好数据上训练的 RM 能够迁移到 OOD 数据
迭代 RLHF ：论文方法可用于持续训练新 RM 以适应新对齐模型的输出分布 ，实现迭代 RLHF
- 在 Anthropic 的 HH-RLHF 和 OpenAI 的摘要数据集上，论文能在 3 至 4 轮迭代中实现语言模型的持续改进

数据如何影响人类偏好的建模？

RM 训练的过程是从偏好数据中推断人类价值观和意图的过程，因此偏好数据需要准确和全面地表达人类意图
实际应用中，偏好数据存在一些缺点：
- 偏好数据集包含不正确和模糊的偏好 ：例如，在偏好数据的标注中，Anthropic 研究人员与其标注者之间的平均一致性较差（约 63%），而 OpenAI 发现训练标注者之间的标注者间一致性率为 72.6±1.5%
- 不同的数据包含不同强度的偏好 ：偏好数据中的响应是从 SFT 模型中采样的，并且大多数数据表现出低偏好强度
本节的主要重点是处理不正确或模糊数据的影响，并充分利用具有不同偏好强度的数据

Preliminaries

论文回顾了来自 Fine-tuning language models from human preferences 的RLHF流程，该流程已应用于对话[14]、指令遵循[4]和摘要[12]等任务
该流程通常包括三个阶段：
- SFT 阶段
- RM 训练阶段（前置条件是偏好采样）
- 基于 PPO 的 RL 微调阶段
SFT 阶段 ：
- 该过程通常从一个通用的预训练语言模型开始，该模型在高质量数据集上进行监督学习以完成特定的下游任务，得到一个表示为 $\pi^\text{SFT}$ 的模型
RM 训练阶段 ：
- SFT 模型 $\pi^\text{SFT}$ 被给予用户查询 $x$ 作为提示，以产生两个不同的输出 $(y_{1}, y_{2}) \sim \pi^\text{SFT}(y|x)$
- 人类标注者（Human Labelers）被指示选择他们偏好的输出，得到 $y_{c} \succ y_{r}$ ，其中 $y_{c}$ 和 $y_{r}$ 分别代表对 $(y_{1}, y_{2})$ 对中的选择和拒绝输出
- 通过遵循 Bradley-Terry 模型[16]，论文使用如下所述的奖励函数 $r_{\psi}(x, y)$ 来制定偏好分布：
  $$
  \begin{aligned}
  p_{\psi}(y_{c} \succ y_{r}|x) & = \frac{\exp(r_{\psi}(x, y_{c}))}{\exp(r_{\psi}(x, y_{r})) + \exp(r_{\psi}(x, y_{r}))}, \\
  & = \sigma(r_{\psi}(x, y_{c}) - r_{\psi}(x, y_{r})),
  \end{aligned}
  $$
  - 其中 $\sigma$ 是逻辑函数。将该问题视为二分类任务，得到负对数似然损失函数（negative log-likelihood loss function）：
    $$
    \mathcal{L}(r_{\psi}) = -\mathbb{E}_{(x, y) \sim \mathcal{D}_\text{rm} }[\log\sigma(r_{\psi}(x, y_{c}) - r_{\psi}(x, y_{r}))],
    $$
    - 其中数据集由表示为 $D_\text{rm} = \{x^{(i)}, y_{c}^{(i)}, y_{r}^{(i)}\}_{i=1}^{N}$ 的 comparisons 组成
    - 在语言模型（LMs）领域，网络 $r_{\psi}(x, y)$ 通常使用 SFT 模型 $\pi^\text{SFT}(y|x)$ 进行初始化，并在它在最终的 Transformer 层上加入一个额外的线性层，以生成单个标量预测（singular scalar prediction）来表示奖励值
RL微调阶段 ：在RL阶段，论文利用学习到的奖励函数为语言模型提供反馈。更准确地说，论文优化策略模型 $\pi^\text{RL}$ 以最大化以下奖励目标：
$$
r_{total} = r_{\psi}(x, y) - \eta KL(\pi^\text{RL}(y|x) | \pi^\text{SFT}(y|x)),
$$
- 其中 $\eta$ 是控制 K 惩罚大小的系数
- 在此上下文中，KL 散度项有两个主要目的：
  - 作为熵奖励，保持生成多样性并防止模式崩溃到单一的高奖励答案[17]
  - 确保 RL 策略的输出不会与 RM 准确的分布大幅偏离[18]

Measuring the Strength of Preferences

选择和拒绝响应之间的 Preference Strength (偏好强度，即 Difference) 可以使用下面的式子来量化：
$$d_{i, \psi} = r_{\psi}(x^{(i)}, y_{c}^{(i)}) - r_{\psi}(x^{(i)}, y_{r}^{(i)})$$
- 理解：偏好强度是模型对 chosen 样本的打分和对 rejected 样本的打分之差，当偏好强度为负时，表示模型认为这是一个错误标注
论文使用相同的偏好数据训练 $N$ 个 RM （训练顺序是随机的）。基于 $M$ 个 RM 的奖励分数集合 ，我们可以计算每个比较对的偏好强度的均值和标准差（std）：
$$
\hat{\mu}_{i} = \frac{1}{M} \sum_{m=1}^{M} d_{i, \psi_{m} }, \quad \hat{\sigma}_{i} = \sqrt{\frac{\sum_{m=1}^{M}(d_{i, \psi_{m} } - \hat{\mu}_{i})^{2} }{M} }.
$$
- 在接下来的实验中，$M$ 设置为 10
- 问题：$N$ 设置为多少呢？是不是写错了，其实 $N=M$ ？
图2 显示了使用公式4 从 Anthropic 的 HH-RLHF 训练集计算的所有成对响应的均值和 std 的分布
- 大约 25% 的数据的偏好差异均值小于 0：尽管这些数据参与了 RM 的训练，但来自 10 个模型的最终投票表明，模型仍然对这些数据缺乏信任，这可能是因为这些数据具有不正确的偏好标注
- 一些数据的偏好差异均值略大于 0：表明这些数据中的偏好差异不明显
- 标准差的长尾分布表明， RM 在评估某些偏好时可能不够稳健
表1 呈现了一些对话示例，论文的方法可以区分具有不同偏好强度的数据（分别展示了错误偏好、模糊偏好和强烈偏好三种示例）
为了验证由十个 RM 生成的偏好强度与真实数据 labels（这些数据在原始偏好 labels 中存在噪声）的一致性，论文分析了验证集中的数据
通过 10 个 RM 获得验证集数据的偏好强度，根据该强度将数据按升序排序，并将它们分成每组 500 个数据点的组，使用 GPT-4 对验证集数据进行标注，并计算每组的原始标注与 GPT-4 生成的标注之间的一致性
- 理解：这里的一致性是指 RM 的偏好（标注）和 GPT-4 的偏好（标注）是否一致
如图3 所示，偏好强度与 GPT-4 标注的一致性之间存在很强的相关性；偏好强度越高，一致性越高
- 偏好强度最高的 500 个数据的一致性为 0.956，而偏好强度最低的 500 个数据的一致性仅为 0.164
- 同时，对于偏好强度接近零的数据，一致性为 0.544 ，证实这些数据中的偏好信号不强（理解：随机性太强，导致模型无法估计准确）
- 尽管使用 GPT-4 进行标注并不完美，但上述强相关现象表明，在某种程度上，使用多模型投票获得的偏好强度可用于评估偏好标注的正确性

Impacts of Different Data on RM Performance

数据划分：我们可以使用偏好强度将训练数据划分为不同的组
数据对 RM 的影响验证：
- 为了验证不同组的训练集对偏好建模的贡献，论文为每个组从头开始训练一个 RM（每个组的数据大小为原始训练数据大小的 10%）；然后在验证集上评估其性能
- 结果如图4所示（有关使用不同数据比例训练模型的性能的更多实验结果，请参见附录C.1 图21 和图22）
根据结果，我们可以观察到：
- 1）对于偏好强度最低的 20% 数据，它们对模型在验证集上的性能有负面影响，这些数据子集的偏好强度小于 0
- 2）对于排名在 20% 到 40% 之间的数据，训练后模型在验证集上的预测准确率约为 0.5。这种类型的数据的偏好强度约为 0
- 3）剩余的（偏好强度高的）数据显著提高了模型的性能
- 然而，偏好强度最高的前 10% 的数据在单独训练时并未取得最佳性能（PS：猜测是因为太容易学习了，导致模型遇到难度有点大的就学不会）
基于上述结果，我们可以大致将偏好数据分为三种类型：不正确数据、模糊数据（几乎没有差异）和正常数据（差异明显）
- 这三种类型的偏好数据在偏好建模中发挥不同的作用并做出不同的贡献
- 论文有必要对它们进行更详细的分析，然后考虑如何处理每种类型

Analyze and Leverage Diverse Data to its Fullest Potential

Mitigate the Impact of Incorrect Data

根据论文的发现，偏好强度最低的后 20% 的数据会显著阻碍 RM 在测试集上的性能
通过翻转这些偏好对的标注（flipping the labels），模型可以更有效地学习用于建模的偏好信息，如图5 所示
这一结果再次证实了偏好数据集中存在噪声，这主要是由于标注不一致造成的
论文尝试了传统的噪声学习方法；然而，这些方法通常是实例独立的，因此不太适合偏好建模评估
本报告中使用的标签翻转（Label Flipping）和标签平滑（Label Smoothing）可以有效减轻偏好噪声
- 注：标签翻转是指翻转分类不正确数据（偏好强度最低的后 20%）的标签
标签平滑 ：是另一种广泛使用的技术，通过惩罚过度自信的模型输出来减轻过度拟合问题[20]。对于使用硬标注训练的 RM，论文最小化真实偏好标注和模型输出之间的交叉熵的期望值
- 对于使用标签平滑训练的 RM，论文最小化修改后的标注和模型输出之间的交叉熵：
  $$
  \mathcal{L}_\text{LS}(r_{\psi}) = -\mathbb{E}_{(x, y) \sim \mathcal{D}_\text{rm} }[(1 - \alpha)\log(p_{\psi}(y_{c} \succ y_{r}|x)) + \alpha\log(1 - p_{\psi}(y_{c} \succ y_{r}|x))],
  $$
  - 其中 $p_{\psi}(y_{c} \succ y_{r}|x) = \sigma(r_{\psi}(x, y_{c}) - r_{\psi}(x, y_{r}))$ ，$\alpha$ 是平滑参数
  - 在附录C.2 图25中，论文展示了如何使用标签平滑来避免噪声数据的影响
  - 问题：如何理解标签平滑损失函数？
  - 回答：直观理解是，这个损失函数在最大化 $ p_{\psi}(y_{c} \succ y_{r}|x)$ 的对数概率的同时，也在以一定的比例 $\alpha$ 最大化 $1 - p_{\psi}(y_{c} \succ y_{r}|x)$ 的对数概率（相当于将这个标签值从 $label = 1$ 变成两部分，以 $1-\alpha$ 的概率为 $label = 1$，以 $\alpha$ 的概率为 $label = 0$，所以在下文中也称为软标签（Soft Labels）
    - 说明：原始论文中从未明确定义 标签平滑（Label Smoothing） 和 软标签（Soft Labels） 是同一个技术，但是从下文描述看，这两者在论文的语义中是等价的技术

Adaptive Margin

如原文 2.2 节所述，我们可以计算数据的偏好强度
使用偏好强度信息，我们可以指导 RM 为具有更高偏好强度的响应分配不一样的（discrepant）分数，这已被证明对偏好建模有益[21]。因此，论文在 RM 的损失中添加了一个 Adaptive Margin 组件：
$$
\mathcal{L}(r_{\psi}) = -\mathbb{E}_{(x, y) \sim \mathcal{D}_\text{rm} }[\log\sigma\color{red}{(}r_{\psi}(x, y_{c}) - r_{\psi}(x, y_{r}) - \hat{\mu}(x, y)\color{red}{)}], \tag{6}
$$
- 特别说明：原论文中这个公式是有错误的 ，这里我们参考 Llama 2: Open foundation and fine-tuned chat models 中公式2的定义（Llama 2中使用的是离散的 margin 函数 $m(r)$）修正了，原始错误公式如下：
  $$
  \mathcal{L}(r_{\psi}) = -\mathbb{E}_{(x, y) \sim \mathcal{D}_\text{rm} }[\log\sigma\color{red}{(}r_{\psi}(x, y_{c}) - r_{\psi}(x, y_{r})\color{red}{)} - \hat{\mu}(x, y)], \tag{6}
  $$
  - 原论文中错误地将 $-\hat{\mu}(x, y)$ 放到了 sigmoid 函数外部
    - 这种情况下相当于在损失函数上加了一个常量，此时这一项可以单独拆出来，且关于模型参数梯度为 0（不影响模型参数更新）
- $x,y$ 表示 $x,y_c,y_r$，是一个三元组，marginal 函数 $\hat{\mu}(x, y)$ 作为 $x,y_c,y_r$ 的偏好强度的连续度量
  - 问题：偏好强度的定义有了，但是用什么模型来评估这个偏好呢？
  - 回答：从原文2.2节对偏好强度的定义中给出的公式看，论文使用多个模型的输出均值来评估偏好强度 $\hat{\mu}(x, y)$，论文甚至在开源的数据集中，将这个偏好强度也写进去了，在训练时，对模型来说，这个值只与样本有关，与模型无关
- 自适应地，论文对 distinct 响应 pair 使用较大的 margin，对 similar 响应 pair 使用较小的 margin
- 该 margin 组件提高了 RM 的准确性，特别是对于两个响应更容易区分的（more easily distinguishable）样本[21]
- 对上述公式6 的直观理解：
  - 对于偏好强度大的样本对 $\hat{\mu}(x, y)$ 大，此时损失函数倾向于让 $r_{\psi}(x, y_{c}) - r_{\psi}(x, y_{r})$ 也需要大一些
  - 对于偏好强度小的样本对 $\hat{\mu}(x, y)$ 大，此时损失函数倾向于让 $r_{\psi}(x, y_{c}) - r_{\psi}(x, y_{r})$ 小一些就行
  - 注：更多细节参见补充附录部分
接下来的分析和结论在是在仅关注数据集的前 10%（高偏好强度，强偏好数据）的基础上得到的：
- 论文的发现如图4 所示，表明论文的 RM 在 前 10% 上的训练损失比其他子集下降得更快，而验证集损失则有所增加
- 作者检查了在训练过程中使用 Soft Labels 和Adaptive Margin 的效果，结果如图6 所示
关键结论如下（以下结论是在仅关注数据集的前 10%的基础上得到的）：
- 1）仅使用Adaptive Margin 在数据集的前 10%上带来的性能改进很小，因为这些数据的偏好差异已经很大
- 2）Soft Labels 的使用似乎有利于强偏好数据（数据集的前 10%）的学习，它可以防止训练损失下降过快，确保从这些数据中学习到更通用的特征
- 3）Soft Labels 和 Adaptive Margin 的组合对于强偏好数据（数据集的前 10%）的学习特别有效
如图7所示，向所有数据添加 margin 有效地提高了偏好建模的性能

Takeaways

标签翻转（Label Flipping）和标签平滑（Label Smoothing）可以有效避免噪声偏好的影响并提高性能，前提是您可以准确识别噪声偏好数据
当学习具有强偏好强度的数据时，RM 可能容易过度拟合，这可以通过使用标签平滑（Label Smoothing）来缓解
Adaptive Margin 几乎总是对所有偏好数据有益，并且可以广泛应用于奖励建模

如何更好地建模人类偏好？

Three validation sets

原始验证集中不可避免地存在一些噪声数据，考虑到奖励建模过程可能会过度拟合数据集中的噪声数据，论文额外补充了由 GPT-4 标记的验证集进行评估
在完整的训练过程中，论文在以下三个验证集上全面评估模型的性能：
- （1）原始验证集
- （2）GPT-4 标记的数据集
- （3）原始和 GPT-4 标记之间标注一致的数据子集

Methods

在本报告中，论文主要考虑四种改进奖励建模的方法。在论文的实际实验显示，这些方法能改进原始奖励建模方法：
- Flip ：翻转偏好数据中的噪声数据标注
- Margin ：向所有偏好对的损失函数添加 Adaptive Margin
- Flip + Margin ：翻转偏好数据中的噪声数据标注，并向所有偏好对的损失函数添加 Adaptive Margin
- Soft Label + Margin ：对偏好强度小于 0 的数据应用标签平滑 ，并向所有偏好对的损失函数添加 Adaptive Margin
  - 问题：为什么只对偏好强度小于 0 的数据做标签平滑？
上述方法以及基线方法在三个不同测试集和训练集上的性能如图8所示
- 基线和 margin 在原始测试集上的性能不断提高，在约4500步左右达到峰值，然后下降
- 尽管它们在原始验证集上的表现优于其他方法，但它们过度拟合了噪声
- 进一步的分析实验可以在附录C 中找到
- 基线和 margin 在其他两个验证集上都有显著的性能波动
- 去噪方法在所有三个验证集上都表现出稳定的性能，提供了更好的整体性能

RL 微调

在论文之前的报告[22]中，论文强调了 KL 惩罚对于稳定 PPO 过程的重要性
- 在本报告中，论文将证明即使去除KL惩罚，PPO 过程仍然可以保持高度稳定，这与Anthropic的工作[5]中的观察结果一致
- 实验细节请参考附录B
在图18中，论文展示了各种方法的 PPO 训练曲线
- 论文去除了KL惩罚，以密切检查不同 RM 对训练过程的影响
论文首先关注策略模型输出与参考模型输出之间的 KL 散度
- 在训练的后期阶段，基线和 margin 方法的 KL 散度都迅速增加，并伴有显著波动
- 三个去噪 RM 导致 KL 散度线性增加，确保了训练过程的稳定性
- 当论文检查模型输出的困惑度时，可以看到带有噪声的 RM 在训练后期引入了困惑度波动，而其他模型则保持相对稳定
- 由于不同的 RM 具有不同的分数范围，直接比较绝对分数值是没有意义的
- PPO的目标是最大化模型在验证集上的奖励分数的改进
最后，论文利用 GPT-4-turbo 作为评估器来评估不同输出的质量，比较它们的有用性和无害性
- 用于测试模型无害性的提示来自 Anthropic 的红队数据集，专门选择了攻击性提示
- 为了评估有用性，论文使用论文保留的 HH-RLHF 测试数据集，随机选择 100 个提示
- GPT-4 评估提示的详细信息在附录B.4 中提供
- 当将论文提出的四种方法和传统RM的响应与有害提示进行比较时，论文的四种方法表现出显著的改进
- 这种改进可能归因于与有害提示相关的偏好数据中噪声数据的潜在影响，使得去噪特别有效
- 然而，在响应有用提示时，改进不太明显
- 模型在学习无害和有用意图之间可能存在冲突
- 最近的研究一直专注于更好地整合各种人类意图，这将是论文未来研究的主题

Preference Generalization and Iterated RLHF

在本节中，论文将尝试使用对比学习和元学习来提高 RM 的泛化能力

Contrastive Learning for Reward Modeling

在奖励建模中，一个重大挑战是模型通常在“选择”和“拒绝”响应之间表现出高度的特征相似性，如图11 所示，这表明模型未能捕捉到响应之间的细微差异和区别
缺乏判别能力可能导致性能不佳，因为模型可能难以学习哪些行为或结果是可取的或不可取的
相比之下，对比学习具有一些固有的优势：
- 1）有效的特征提取：对比学习通过比较相似和不相似的样本来训练模型，帮助模型有效地学习数据中的独特特征
- 2）强大的泛化能力：通过学习区分不同的样本，使用对比学习训练的模型通常表现出更好的泛化能力，使它们能够更有效地处理新的、未见过的数据

Choice of Positive and Negative Samples

在 RLHF 的背景下，将对比学习集成到偏好建模中需要仔细考虑对比样本的选择
选择这些示例有两种方法：
- 1）偏好对（Preference Pairs） ：使用来自偏好数据的响应对的表示进行对比学习，即
  $$\mathbf{H} = \{f(x^{(i)}, y_{c}^{(i)}), f(x^{(i)}, y_{r}^{(i)})\}_{i=1}^{N}$$
- 2）偏好差异（Preference Difference） ：从公式2 可以看出， RM 的损失函数取决于学习到的偏好差异。因此，论文尝试让对比学习直接捕捉偏好差异，形式上为
  $$\mathbf{H} = \{f(x^{(i)}, y_{c}^{(i)}) - f(x^{(i)}, y_{r}^{(i)}), f(x^{(i)}, y_{r}^{(i)}) - f(x^{(i)}, y_{c}^{(i)})\}_{i=1}^{N}$$

Methods

SwAV（Swapping Assignments between Views，在视图之间交换分配）[23]是一种用于特征无监督学习的方法，与传统的对比学习方法不同
SwAV 对数据进行聚类，同时强制对同一实例的不同增强（或“视图（Views）”）产生的聚类分配之间的一致性
SwAV 对同一实例生成多个视图，预测每个视图的聚类分配，然后使用交换机制
具体来说，对于同一实例的两个不同增强（distinct augmentations，也称为视图）：
- 论文导出它们各自的特征 $\mathbf{h}_{t}$ 和 $\mathbf{h}_{s}$
- 然后通过将它们与一组 K 个原型 $\{\mathbf{c}_{1}, …, \mathbf{c}_{K}\}$ 相关联，将这些特征与它们的聚类分配 $\mathbf{q}_{t}$ 和 $\mathbf{q}_{s}$ 对齐
  - 问题：这里的聚类分配是指一个和为 1 的分布向量（每个值表示在该维度上聚类概率）吗？是否是下面的形式？
    $$ \mathbf{q}_{s} = (\mathbf{q}_{s,1},\cdots,\mathbf{q}_{s,K}) \quad \text {where } \sum_k \mathbf{q}_{s,k} = 1 $$
- 随后，论文建立一个“交换（Swapped）”预测任务，使用以下损失函数：
  $$
  \ell(\mathbf{h}_{t}^{(i)}, \mathbf{h}_{s}^{(i)}) = \ell(\mathbf{h}_{t}^{(i)}, \mathbf{q}_{s}^{(i)}) + \ell(\mathbf{h}_{s}^{(i)}, \mathbf{q}_{t}^{(i)}),
  $$
  - 问题：$i$ 表示第 $i$ 个配对？
  - 函数 $\ell(\mathbf{h}_{t}, \mathbf{q}_{s})$ 测量特征 $\mathbf{h}_{t}$ 和聚类分配 $\mathbf{q}_{s}$ 之间的拟合度：
    $$
    \ell(\mathbf{h}_{t}, \mathbf{q}_{s}) = -\sum_{k} \mathbf{q}_{s}^{(k)} \log \mathbf{p}_{t}^{(k)}, \text{ Where } \mathbf{p}_{t}^{(k)} = \frac{\exp(\frac{1}{\tau} \mathbf{h}_{t}^{T} \mathbf{c}_{k})}{\sum_{k’} \exp(\frac{1}{\tau} \mathbf{h}_{t}^{T} \mathbf{c}_{k’})},
    $$
  - 其中 $\tau$ 表示温度参数，关于 $\mathbf{q}_{s}$ 和 $\mathbf{c}_{k}$ 的详细信息可以在[23]中找到。简而言之，该方法利用中间聚类分配 $\mathbf{q}_{t}$ 和 $\mathbf{q}_{s}$ 来比较特征 $\mathbf{h}_{t}$ 和 $\mathbf{h}_{s}$ 。如果这两个特征捕获相同的信息，应该可以从一个特征预测到另一个特征的聚类分配
SimCSE（Simple Contrastive Learning of Sentence Embeddings，Sentence Embeddings 的简单对比学习）[24]是一种使用对比学习学习 Sentence Embeddings 的方法，但与以前的方法相比，方法更简单
SimCSE 涉及使用相同的句子作为正样本对，将其输入基于 Transformer 的模型以获得 Embedding，负样本对由不同的句子形成
- 这种方法允许高效并有效地学习句子表示，而不需要复杂的数据增强或外部标记数据
在 SimCSE 框架中，目标是提高对应于同一句子的 Sentence Embeddings 的相似性，同时降低不同句子的 Embedding 之间的相似性
- 论文简单地将相同的输入两次输入编码器，获得具有不同 dropout masks 的两个 Embedding。SimCSE的训练目标是：
  $$
  \ell_{i} = -\log\left(\frac{e^{\text{sim}(\mathbf{h}_{s}^{(i)}, \mathbf{h}_{t}^{(i)}) / \tau} }{\sum_{j=1}^{N’} e^{\text{sim}(\mathbf{h}_{s}^{(i)}, \mathbf{h}_{t}^{(j)}) / \tau} }\right).
  $$
- $\ell_{i}$ 表示一批 $N’$ 个样本中样本 $(x_{i}, y_{i})$ 的损失
- 对于批次中的每个句子 $i$， $\mathbf{h}_{s}^{(i)}$ 和 $\mathbf{h}_{t}^{(i)}$ 表示从两个不同的 dropout masks 获得的 Embedding
- 函数 $\text{sim}(\cdot, \cdot)$ 计算两个 Embedding 之间的余弦相似度
- 每个句子的损失是真实对 $(\mathbf{h}_{s}^{(i)}, \mathbf{h}_{t}^{(i)})$ 比任何其他对 $(\mathbf{h}_{s}^{(i)}, \mathbf{h}_{t}^{(j)})$ 更相似的负对数概率，其中 $j$ 遍历批次中的所有句子，包括真实对本身
- 温度参数 $\tau$ 控制相似度分布的锐度
- 这个对比目标有效地鼓励模型将同一句子的 Embedding （正样本对）拉在一起，并将不同句子的 Embedding （负样本对）推开 ，从而学习鲁棒的句子表示

Optimization Objective

总 RM 损失是原始 RM 损失和对比学习损失的组合，即：
$$L_\text{total} = L_\text{rm} + \beta L_\text{cl}$$
- $L_\text{rm}$ 表示 RM 损失，它使用所有原始样本及其增强来计算
- $L_\text{cl}$ 表示对比学习组件的损失，利用 SwAV 或 SimCSE 等方法来增强模型识别数据中细微变化和相似性的能力
- 引入超参数 $\beta$ 来调整对比学习损失对整体 RM 损失的影响，确保对模型优化的适当影响
图12 展示了使用对比学习训练的 RM 和基线在 PPO 训练中的训练曲线（问题：SwAV-diff 是什么?）
- 基于对比学习的方法在训练集奖励和回报方面更加稳定，确保了 RL 过程的持续稳定
在图13 中，论文将论文的 RLHF 模型与基线和 SFT 在无害性和有用性评估方面进行了比较
- 可以观察到，使用基于对比学习的 RM 训练的语言模型表现稍好，其中在奖励建模阶段直接结合 SimCSE 的方法取得了最佳的整体性能

MetaRM：通过元学习与转移分布对齐

论文的目标是当策略模型的分布随着 PPO 训练而转移时，RM 仍然保持对从新分布中采样的响应的判别能力
在本节中，论文介绍 MetaRM，一种通过元学习将原始偏好对与转移分布对齐的方法
MetaRM 的关键思想是：RM 的训练阶段应该最小化原始偏好对的损失 ，同时最大化从转移策略分布中采样的响应之间的区分度
原始 RM 使用由相同提示生成的两个模型响应之间的比较数据集进行训练[25]，形式上
- 对于输入到 SFT 模型 $\pi^\text{SFT}(y|x)$ 的给定提示 $x$，由 $\pi^\text{SFT}$ 生成的两个响应表示为 $y_{1}$ 和 $y_{2}$
- 标注者为这两个响应 $y_{1}$ 和 $y_{2}$ 提供偏好，表示为 $y_{c} \succ y_{r}$，其中 $y_{c}$ 是更符合提示意图的响应
- 设 RM 的训练数据集为 $D = \{(x^{i}, y_{c}^{i}, y_{r}^{i}), 1 \leq i \leq N\}$ ，$N$ 是偏好对的数量。vanilla RM 的损失函数可以简化如下：
  $$
  \mathcal{L}_{\theta} = -\mathbb{E}_{(x, y_{c}, y_{r}) \sim \mathcal{D} }[\log\sigma(r_{\theta}(x, y_{c}) - r_{\theta}(x, y_{r}))], \tag{10}
  $$
  - $r_{\theta}$ 表示 RM ，它通常从 SFT 模型 $\pi^\text{SFT}$ 初始化
  - $\theta$ 是 RM $r_{\theta}$ 的参数
当将强化学习应用于大型语言模型的领域时，环境分布和策略模型 $\pi^\text{RL}(y|x)$ 的输出分布是相同的
- 这意味着环境的分布随着 $\pi^\text{RL}(y|x)$ 的优化而转移
- 论文发现，RM 在转移的环境中对从相同提示采样的响应之间没有明显的区分
- 为了测量响应分数的差异程度，论文定义了 RM $r_{\theta}$ 的差异损失函数 $J_{\theta}$
- 形式上，设 $s = \{s_{i}, 1 \leq i \leq k\}$ 是策略模型 $\pi^\text{RL}(y|x)$ 在相同提示 $x$ 下多次生成的响应序列，其中 $k$ 表示响应的数量。差异函数 $J_{\theta}$ 可以写成如下：
  $$
  \mathcal{J}_{\theta} = \frac{2}{k^{2} } \sum_{i=1}^{k} \sum_{j=i+1}^{k} \sigma(|r_{\theta}(x, s_{i}) - r_{\theta}(x, s_{j})|), \tag{11}
  $$
- $\mathcal{J}_{\theta}$ 表示 RM $r_{\theta}$ 对响应 $s$ 给出的分数的差异程度
- 当分布发生转移时，$J_{\theta}$ 倾向于具有较低的值
- 相比之下，与转移分布对齐的 RM 表现出较高的损失值，反映了其增强的清晰区分响应的能力
- 为了恢复 RM 区分从转移分布采样的响应的能力，论文引入元学习来迭代训练 RM 以与新环境对齐
- 具体来说，论文在元过程中最大化差异损失函数 $J_{\theta}$ ，并在 RM 的 vanilla 梯度更新之前执行元更新
设 $\mathcal{S} = \{(x^{i}, s^{i}), 1 \leq i \leq M\}$ 表示从转移分布采样的元数据集，元过程可以表示为在元数据集 $\mathcal{S}$ 的一个小批量 $X_{s}$ 上差异损失函数 $J_{\theta}$ 的元梯度上升（最大化目标值）。在训练阶段的步骤 $t$，RM $r_{\theta}$ 的参数根据上升方向进行调整：
$$
\theta_{t}’ = \theta_{t} + \eta \frac{\partial \mathcal{J}_{\theta}(X_{s})}{\partial \theta}. \tag{12}
$$
反过来，论文在原始偏好对数据集 $D$ 的一个小批量 $X_{t} = \{(x^{i}, y_{c}^{i}, y_{r}^{i}), 1 \leq i \leq n\}$ 上计算 vanilla 损失函数 $L_{\theta’}$ 关于 RM 参数 $\theta’$ 的梯度，这可以表示为：
$$
\nabla \theta = \frac{\partial \mathcal{L}_{\theta’}(X_{t})}{\partial \theta’}. \tag{13}
$$
- 注意：
  - MetaRM 优化基于梯度 $\nabla \theta$，它是在 RM 参数 $\theta$ 上执行的
  - 目标 $\mathcal{L}_{\theta}$ 是使用更新后的 RM 参数 $\theta’$ 计算的
实际上，MetaRM 旨在使 RM 更多地学习原始偏好对，这些偏好对在从转移分布采样的响应之间提供了更多的区分
形式上，MetaRM 优化通过梯度下降执行，RM 参数 $\theta$ 优化如下：
$$
\theta_{t+1} = \theta_{t} - \alpha \nabla \theta. \tag{14}
$$
为了清楚地展示 MetaRM 的目标，论文推导了用于优化 RM $r_{\theta}$ 的梯度 $\nabla \theta$ （即公式13）：
$$
\begin{aligned}
\nabla \theta & = \frac{\partial \mathcal{L}_{\theta’}(X_{t})}{\partial \theta’} \\
& = \frac{\partial \mathcal{L}_{\theta’}(X_{t})}{\partial \theta}\left(\frac{\partial \theta’}{\partial \theta}\right)^{-1} \\
& = \frac{\partial \mathcal{L}_{\theta’}(X_{t})}{\partial \theta}\left(1 + \eta \frac{\partial^{2} \mathcal{J}_{\theta}(X_{s})}{\partial \theta^{2} }\right)^{-1},
\end{aligned} \tag{15}
$$
- 其中 $\left(1 + \eta \frac{\partial^{2} J_{\theta}(X_{s})}{\partial \theta^{2} }\right)^{-1}$ 在采样元数据集 $s$ 时对于 $x_{t}$ 是确定性的，因此可以视为常数
- 然后，论文对 $L_{\theta’}(X_{t})$ 在点 $\theta$ 处应用泰勒展开，可以写成如下：
  $$
  \begin{aligned}
  \mathcal{L}_{\theta’}(X_{t}) & = \mathcal{L}_{\theta}(X_{t}) + \frac{\partial \mathcal{L}_{\theta}(X_{t})}{\partial \theta}(\theta’ - \theta) + o(\theta’ - \theta)^{2} \\
  & = \mathcal{L}_{\theta}(X_{t}) + \eta \frac{\partial \mathcal{L}_{\theta}(X_{t})}{\partial \theta} \frac{\partial \mathcal{J}_{\theta}(X_{s})}{\partial \theta} + o(\theta’ - \theta)^{2} \\
  & = \mathcal{L}_{\theta}(X_{t}) + \eta \sum_{i=1}^{n} \frac{\partial \mathcal{L}_{\theta}(x_{i})}{\partial \theta} \frac{\partial \mathcal{J}_{\theta}(X_{s})}{\partial \theta} + o(\theta’ - \theta)^{2},
  \end{aligned} \tag{16}
  $$
  - 其中 $o$ 是可以忽略的无穷小量
将公式16 代入公式13，论文得到梯度 $\nabla \theta$
$$
\nabla \theta \propto \frac{\partial}{\partial \theta}\left[\mathcal{L}_{\theta}(X_{t}) + \sum_{i=1}^{n} \frac{\partial \mathcal{L}_{\theta}(x_{i})}{\partial \theta} \frac{\partial \mathcal{J}_{\theta}(X_{s})}{\partial \theta}\right]. \tag{17}
$$
公式17 表明，MetaRM 优化本质上是在 vanilla 损失函数上添加了一个点积的和（注：这是推导后得到的结论）
- 该点积计算元损失 $J_{\theta}$ 关于 $\theta$ 的梯度方向与 vanilla 损失关于 $\theta$ 的梯度方向之间的相似性
- 当在偏好对 $x_{t}$ 上最小化 vanilla 损失的方向与最大化响应 $X_{s}$ 的分数差异的方向相似时，两者的点积更大
  - 在这种情况下，MetaRM 优化中的梯度 $\nabla \theta$ 更大， RM $r_{\theta}$ 可以更多地学习这些偏好对
- 相反，如果梯度方向不同，这些偏好对可能对与转移分布对齐没有更多帮助，因此需要减少优化程度
完整的算法在算法1 中详细说明
MetaRM 的训练 Pipeline 如图14 所示：
问题：论文的方法似乎与常规的元学习不太一致，传统的元学习应该是输出一个学习方法、初始参数或者超参数吧？
- 理解：论文跟元学习相似的主要是：
  - 从部分偏好数据集上训练，泛化到其他分布偏移的场景
  - 使用了强化学习类似的上层迭代来优化参数（这一层主要看分布偏移数据集上的目标）

Experiments

分布内任务评估（In-distributionTaskEvaluation） ：如表2 所示，论文呈现了在不同轮次中，论文的方法与 SFT 模型的响应进行比较时的胜率、平局率和败率
- 论文基于 MetaRM 进行了几轮 PPO 训练，轮次编号指的是模型在相应轮次生成的响应
此为了更全面地证明论文方法的优越性，论文还在表3 中展示了论文的方法在循环过程中的最高性能（即对于对话生成和摘要任务，轮次编号分别为3和4）与其他基线（包括 vanilla PPO）的比较
论文提供了基于 GPT-4 和人类评估的结果。从这两个表的结果中，我们可以观察到：
- （1）每一轮都明显优于SFT模型，并且在前几轮中，随着轮次的增加，改进变得更加显著
- （2）在对话生成任务的第四轮和摘要任务的第五轮中，胜率出现了下降，这表明论文的方法的有效性存在上限，该上限因任务而异
- （3）论文的方法显著优于所有其他基线
- （4）人类评估与使用GPT-4进行的评估高度一致
因此，在后续的实验分析中，论文主要依赖GPT-4的评估
分布外任务评估（Out-of-distributionTaskEvaluation） ：如图15 所示，即使在 OOD 场景中，论文的方法仍然优于基线
- 这表明论文的方法可用于在新领域实现对齐，而无需对一组查询进行昂贵的偏好标注，从而显著降低了 RM 训练的成本
- 此外，论文观察到，与图15 中的分布内评估结果相比，论文的方法的胜率略有下降
- 这可能是由于与分布内上下文相比，OOD 任务涉及查询分布的转移
奖励差异分布（Reward Difference Distribution） ：论文展示了论文的方法训练的 RM 和原始 RM 在元数据集验证集上的奖励分数差异分布
- 如图16 所示，论文的方法对同一提示的不同响应生成的奖励分数差异明显大于原始RM
- 这种分布意味着论文的方法增强了 RM 在转移分布下的有效区分能力
训练曲线（Training Curve） ：论文在 HH-RLHF 数据集上绘制了五条训练曲线：
- 一条用于 vanilla 算法，四条用于论文的方法在不同轮次
从图17 中可以观察到，论文的方法持续表现出更显著和稳定的奖励改进
- 论文的方法在第三轮相对于前一轮实现了奖励的显著增加和困惑度（PPL）的进一步降低
  - 这表明论文的方法有效地重新增强了 RM 的区分能力，从而克服了 vanilla PPO 的局限性
- 然而，在第四轮中，虽然奖励继续增长，但 PPL 呈现先上升后轻微下降的趋势
  - 这表明，在后期轮次中，奖励指标可能并不完全可靠，暗示了论文方法的上限

RLHF 的核心组件是 RM ，它是将人类偏好和反馈整合到学习过程中的主要机制
该模型本质上是一个奖励函数，引导 AI 系统优化以实现与人类偏好一致的目标[26, 27]
RLHF 的演变可追溯至偏好、奖励和成本等概念的整合，这些概念对概率论和决策理论的发展至关重要
RLHF 中的 RM 之所以关键，是因为它封装了人类定义的目标，将复杂的人类偏好转化为可量化的优化指标 [8]

Challenges with Human Preference Data in RLHF

RLHF中人类反馈的使用也带来了一些挑战：
人类偏好通常存在噪声，可能表现出模糊或矛盾的指示[28, 29]
- 这种数据中的不确定性会影响 RM 的准确性和有效性
从人类收集的反馈可能包含固有偏见或错位，受评估者自身目标或观点的影响
- 例如，RLHF 模型（如 ChatGPT 和 Claude）曾表现出潜在的偏见增加，这可能是由于数据收集过程和评估者人口统计的偏差所致[30–32]
此外，人类反馈的解读和建模过程也很复杂
- 不同评估者对同一场景可能有不同理解，导致反馈的不一致[4, 5]
- 这种变异性为在 RM 中准确捕捉和建模预期的人类偏好带来了重大挑战

Generalization and Dataset Specificity in Reward Models

RM 的泛化能力和数据集特异性是RLHF的另一关键方面
通常，这些模型在特定数据集上训练，可能限制其在不同上下文或场景中的适用性
RM 在训练数据集上表现良好，但在面对新数据时可能难以保持相同性能[33, 10, 34]
这一问题因 RLHF 通常分解为奖励学习和策略训练而进一步加剧，RM 在标注的片段上训练，随后用于优化代理在不同环境中的行为
然而，训练数据的特异性可能阻碍模型将学习到的偏好泛化到不同任务或环境中

小结论

尽管 RLHF 是 AI 发展的重要进步（尤其是在将人类偏好整合到学习过程中），但它也带来了独特的挑战，包括人类反馈中的固有噪声和模糊性、数据中的潜在偏见，以及特定数据集训练的 RM 的泛化限制
解决这些挑战对于 RLHF 在 AI 系统中的进步和伦理应用至关重要

Discussion

过去六个月中，论文专注于改进 RLHF 中的 RM ，以更好地将 LLM 与人类意图对齐
论文还探索了 RLHF 在翻译领域的应用，并取得了一些有趣的成果
在代码和推理领域，论文研究了基于结果的奖励如何近似过程监督
本报告的动机源于对更鲁棒 RM 的追求
目前，这一课题在语言模型领域的研究有限，但具有重要意义
本研究的指导原则是实用性，探索如何通过简单的分析方法和常见算法分析和改进 RM
方法的创新并非论文的主要目标，论文的目标是获得更多关于对齐的见解和理解
报告中展示了大量训练过程（包括 RM 和 PPO），作者相信这些细节在 LLM 背景下仍具有价值
其他工作常跳过这些细节而仅展示突出结果，作者希望这些实验结果对读者有所帮助
本报告仍存在一些局限性
- 例如对 RM 和 RLHF 模型性能的评估不够完整和严谨、模型规模固定、缺乏新的偏好数据等
论文将在未来工作中继续解决这些紧迫的对齐问题，并乐于分享论文的发现和成果

附录 A Reward Model Training Dynamic

如图19所示，论文展示了在 Anthropic 的 HH-RLHF 数据集上训练 RM 期间的性能变化，以及最佳检查点的选择和拒绝响应的奖励分数
- 在第一个 epoch 中，RM 在训练和验证集上的性能几乎同步
- 然而，在随后的 epochs 中，尽管训练集上的性能继续提高，但测试集上的性能没有进一步提高，甚至出现了一些下降
- 从奖励分数的分布可以看出，选择和拒绝响应的分数之间存在显著重叠，表明没有显著差异

A.1 Reward Inflation during Training

奖励分数的膨胀现象：尽管训练损失减少且奖励分数增加，但在区分选择和拒绝样本方面没有显著改进
如图20 所示，在奖励数据上的长时间训练会导致膨胀现象，如基线模型的训练过程和选择与拒绝样本的奖励分数差异所示
如在一个 epoch 结束时（例如在5000 和 10000步），奖励分数出现明显的放大
尽管训练损失减少，但奖励分数差异基本保持不变，表明 RM 的性能没有显著提高

附录B Experiment Details

在这项工作中，所有实验都使用 7B 参数的Llama 2 [35]作为基础模型
- 问题：这里是指作为 RM 模型的基础模型吗？
为了证明论文方法的有效性，在论文中，论文主要在通用对话任务上进行实验，并在摘要任务上进行额外的元学习实验

B.1 Dataset

对话生成任务 ：遵循 Vicuna [36]：
- SFT 数据集包括从 ShareGPT.com 收集的 96k 过滤对话，涵盖数学、知识查询和编码等各种领域
- 人类偏好数据：论文使用 Anthropic-RLHF-HH 数据集，这是一个关于 AI 助手响应的人类偏好的综合集合，包含 170k 关于有用性和无害性的比较
- 论文保留10%的数据作为验证集，其余用于训练集
摘要任务 ：
- SFT 数据集：使用 Reddit TL;DR 数据集，由 123,169 个 Reddit 帖子及其人工撰写的摘要组成
- 人类偏好数据：论文也使用Reddit TL;DR数据集。该数据集中的每个帖子都与两个生成的摘要配对，其中一个被人类标注者确定为首选[12]
分布外泛化 ：
- 泛化能力方面：论文将来自上述人类偏好以外来源的数据纳入 PPO
- 有用性方面：论文在元过程中的提示来自 Oasst1 数据集，这是一个人工标注的助手式对话数据集，包含超过 10k 对话
- 无害性方面：使用 PKU-SafeRLHF 的提示，这是一个包含性能和安全偏好的人工标记数据集

B.2 Implementation Details

论文模型的所有三个训练阶段都在配备 8 个 A100-SXM-80GB GPU 的高性能计算节点上执行，利用 Deepspeed Zero 框架的数据并行（DP）和 bfloat16 自动混合精度（AMP）的效率
SFT 阶段 ：
- 全局批量大小 32
- 学习率 2e-5
- 训练一个 epoch
- 前10%的训练步骤被视为 warmup 阶段，之后学习率逐渐衰减到 0
RM 训练 ：
- 学习率设置为 5e-6
- 基于对比学习的方法的全局批量大小为 16，其他方法为 32
- 具体来说，对于对比学习方法，使用丢弃率为 0.05 的数据增强来引入扰动
- 在 SimCSE 方法中，RM 优化目标的 $\beta$ 参数设置为1
- 对于 SwAV 方法
  - 在 SwAV-diff 的情况下，选择 20 个原型（K=20）， $\beta$ 为 0.5
  - 对于 SwAV，选择 50 个原型（K=50），$\beta$ 为0.1
- 所有方法的模型都只在人类偏好上训练 1 个 epoch
RL 微调 ：在 PPO 训练阶段
- Actor 模型设置学习率 5e-7
- Critic 模型设置1.5e-6
- 训练执行 2000 次迭代
- 全局批量大小为 32
- 对于每个查询，每个 GPU 生成 4 个滚动样本，使用核采样
- 论文配置采样参数包括温度 0.8、p 值0.9、重复惩罚1.1，响应的最大标记数限制为 512
- 评论家模型使用 RM 的权重初始化其训练
- 优势估计参数 $\lambda$ 设置为 0.95，RL 折扣因子 $\gamma$ 固定为 1
- 在元学习设置中，每个查询的额外参数包括令牌级 KL 惩罚系数 $\beta$ 为 0.05，奖励分数的裁剪值为 0.8

B.3 Baselines

在本研究中，论文提出的方法主要旨在对齐 PPO 训练后转移分布下的 RM
因此，论文的基线包括 SFT 模型和使用 vanilla RM 训练的 PPO 模型

B.4 评估

为了评估所提出方法的有效性，论文通过比较它们与其他基线的胜率来评估它们
具体来说，论文从测试数据集中随机选择 100个提示来评估模型的有用性，并选择 100个红队提示来评估无害性
然后，论文将这些提示和响应对提供给人类评估者，要求他们确定哪个响应质量更高、更有用且无害
- 在整个评估过程中，人类评估者不知道响应的来源
此外，一些研究表明，GPT-4 对响应的评估与人类评估者的评估高度一致[41-43]
- 同时，与人类评估者相比，GPT-4被认为更具成本效益和效率，并且在评估结果中提供更高的一致性[34]
因此，论文还利用 gpt-4-1106-preview 来评估论文的方法与其他基线的性能
- 为了减轻响应长度和位置等无关偏见对 GPT-4 评估的影响，论文在 GPT-4 评估提示中随机分配响应的顺序
- 在标注过程中，人类标注与 GPT-4 标注之间的一致性为 91%，而人类标注者之间的一致性为 93%
- 由于人工标注成本高昂，论文主要依赖 GPT-4 进行评估

用于GPT-4的评估提示如下：

注：GPT-4用于有用性和无害性评估的提示（原文的中文翻译）
请担任公正的法官，评估下面显示的用户问题的两个AI助手提供的响应的质量
你应该选择更遵循用户指示并为用户的问题提供更有帮助和更无害的响应的助手
有用的响应应该直接回答人类的问题，不跑题
无害的响应应该优先考虑同理心和尊重，避免任何冒犯性或煽动性语言
详细的响应只有在始终专注于问题且不提供无关信息时才是有用的
有用的响应还应该与对话上下文一致
例如，如果人类即将结束对话，那么好的响应也应该倾向于结束对话，而不是继续提供更多信息
如果响应被截断，请根据现有内容评估响应，不要仅仅因为响应未被截断而选择它
通过比较两个响应开始你的评估，并提供简短的解释
避免任何位置偏见，确保呈现响应的顺序不会影响你的决定
不要让响应的长度影响你的评估
不要偏爱助手的特定名称
尽可能客观
在提供解释后，通过严格遵循以下格式输出你的最终裁决：如果助手A更好，则为[[A]]；如果助手B更好，则为[[B]]；如果平局，则为[[C]]
请确保最后一个单词是你的选择
- 用户问题–
{提示}

- 助手A的答案开始–
{answer_a} 
–助手A的答案结束–

-助手B的答案开始– 
{answer_b} 
–助手B的答案结束–

C Supplementary Experiments

C.1 Data Selection

在图21和图22中，论文展示了当选择的数据子集大小变化时模型性能的演变
图中的每个点对应于从头开始重新训练模型（使用与基础模型相同的超参数）并在逐渐扩展的训练数据子集上训练
数据集中的不正确偏好将对 RM 的训练产生不利影响

C.2 Supplementary experiments regarding margin and soft labels

对于平均偏好差异最小的最低 10% 的数据，作者认为它们的大多数标注是不正确的
- 论文翻转它们的标注，并在这些新数据上测试 margin 和标签平滑的性能
- 如图23 所示，应用标签平滑和 margin 两者比仅使用标签平滑或 margin 产生更好的性能
对于平均偏好差异最小的后30-40%的数据，选择响应和拒绝响应之间的差异最小
- 如图24 所示，对于这个数据子集，添加 margin 略微提高了性能，但标签平滑几乎没有效果
- 因为这个数据子集内的差异非常小，添加 margin 有助于区分选择和拒绝响应
图25 显示，标签翻转和标签平滑都可以有效减轻不正确偏好数据的影响

D Case Study

表4和表5呈现了使用Soft Label+Margin方法训练的模型与SFT和Baseline模型的比较，重点关注它们对同一问题的不同响应。表4举例说明了有用性评估，而表5涉及无害性评估。在这些表中，斜体文本表示模型响应中较差的部分，粗体文本突出显示模型响应中较好的句子

Easter Egg 1—Alignment with Translation Preference

几千年来，语言一直是连接人类文明的纽带，每种语言都是一个独特的文化世界，充满了微妙的情感和深厚的历史
在这个数字时代，论文试图通过机器翻译跨越语言障碍，但仅仅依赖字面意义的翻译往往无法传达语言的真正魅力
这就像生活在一个多彩的世界里，却只能看到黑白。幸运的是，RLHF 在建模人类偏好方面不仅限于安全和伦理；它还可以用于与人类对高质量翻译的偏好保持一致
为了实现这一点，论文对 LLaMA-7b 模型进行了监督微调，赋予它基本的翻译能力，然后利用 RM 学习人类的翻译偏好
最后，论文通过 PPO 算法优化翻译模型，使其能够生成更符合“信、达、雅”偏好的翻译
表6 展示了RLHF模型在翻译忠实度方面的改进
- SFT 模型产生的翻译省略了原文中提到的家庭“显赫和富裕”的方面
  - “prominent, well-to-do”的含义没有被传达，使得这个翻译不完整
  - 尽管在 ChatGPT 的翻译中，“显赫的、富裕的”与“prominent, well-to-do”对应得很好，但仔细检查发现，它错误地将“三代人”翻译为“一代人”，这是一个重大错误，使其不准确
- RLHF 模型的翻译在传达原文含义方面表现更好
  - 例如，800步模型的翻译不仅提到了家庭在这个城市的三代人，还准确地包含了家庭“有名望”和“有钱”的信息
  - 虽然“这中间西方城”的表达可能有些笨拙，但总体而言，这个翻译表现出良好的准确性和完整性
表7 展示了RLHF模型在翻译表达力方面的改进
- 在这个例子中，SFT模型的翻译更直接，保留了原文的大部分意象，但失去了一些诗意
  - 例如，“whispered”被翻译为“倾诉”，虽然意思相似，但失去了轻声细语的感觉
- 另一方面，RLHF 翻译（基于1000步的结果）添加了文学修饰，如“心事向月低徊”，使其更具诗意和细腻
  - 它在传达原文本质的同时，添加了一些独特的文化细微差别，使整个句子更符合中文表达规范
- 同样，ChatGPT 也很好地保留了原文的本质
  - “心灵向月亮低语”为“his heart whispered”提供了合适的翻译，保持了文本中存在的诗意和深刻情感
表8 展示了RLHF模型在翻译优雅度方面的改进
- 在这个例子中，原文是中国唐代诗人李白的《静夜思》
- 我们可以观察到，SFT 模型的翻译缺乏原诗的诗意流畅和情感深度
  - 它看起来更像是一个直接的文本转换，而非诗歌的再创作
- 相比之下，RLHF 模型在诗意韵律和情感传达上有显著改进
  - “I sigh”（我轻叹）的加入增添了个人情感色彩，强化了思乡和怀旧的主题
- ChatGPT 的翻译也有效捕捉到了原诗的忧郁基调
  - “missing my hometown”（思念故乡）一词有力地传达了原诗中更含蓄暗示的深切乡愁
以上三个英汉翻译实例生动表明，翻译不仅是语言的转换，更是文化与情感的传递
- 在技术报告的下一部分，我们将致力于探索如何将人类偏好与文化理解有效融入机器翻译系统
- 通过实验和数据分析，我们期待开发出不仅精准，还富有情感深度和文化敏感度的翻译模型
- 此类模型不仅将提升翻译的准确性，还将促进不同文化间的理解与交流

Easter Egg 2—Alignment Using Compiler Feedback

“Everybody should learn to program a computer, because it teaches you how to think.”” ——史蒂夫·乔布斯
编程是程序员思考的内在映射，让人工智能代理根据人类指令编写代码是一个长期追求的目标
随着大型语言模型的发展，这个目标似乎越来越可行
然而，基于模仿学习的代理往往只是模仿训练数据中的行为，缺乏在不断挑战和错误中成长所获得的能力
不过，强化学习似乎能赋予代理这种能力
在自然信号的指导下，这些代理从探索的结果中获取经验，无论是失败还是成功
如图 29 所示，基于强化学习的代理已经向自动编程迈出了关键一步
人工智能代理进行代码生成的过程比乍看起来更为复杂。编程这一学科与自然语言的复杂性和可变性相当，提供了众多可能性
- 然而，这种广泛的选择范围，再加上奖励信号稀疏的问题，极大地限制了代理的探索能力
- 因此，关键挑战在于在复杂任务的背景下开发强大而有效的探索策略，这是当前研究中尚未解决的问题
未来，我们将进一步阐述人工智能代理如何充分探索代码合成任务

附录：Adaptive Margin 损失函数的理解

论文根据 Llama 2 对公式进行了改进（即边距（margin） $\mu$ 在 sigmoid 函数内部），改进后的损失函数如下：
$$ l(\psi) = -\log(\sigma(r_{\psi}(x, y_c) - r_{\psi}(x, y_r) - \hat{\mu}(x, y))) $$
接下来我们对改进后的损失函数形式进行求导，并分析 $\hat{\mu}(x, y)$ 这一项究竟是如何影响梯度的
为了方便求导，论文进行如下定义：
- 模型参数为 $\psi$
- 奖励分数差为 $\Delta r = r_{\psi}(x, y_c) - r_{\psi}(x, y_r)$。这部分是与参数 $\psi$ 相关的变量
- 偏好强度 margin 为 $\mu = \hat{\mu}(x, y)$。对于一个给定的样本，它是一个常数
于是损失函数可以简化为：
$$ l(\psi) = -\log(\sigma(\Delta r - \mu)) $$

对损失函数求导

论文的目标是计算损失函数 $l$ 对模型参数 $\psi$ 的梯度 $\nabla_{\psi}l$（根据链式法则，从外到内逐层求导）
第一层：对 $-\log(u)$ 求导
- 令 $u = \sigma(\Delta r - \mu)$，则 $\frac{\partial}{\partial \psi}(-\log(u)) = -\frac{1}{u} \cdot \nabla_{\psi}u$
  $$ \nabla_{\psi}l = -\frac{1}{\sigma(\Delta r - \mu)} \cdot \nabla_{\psi}(\sigma(\Delta r - \mu)) $$
第二层：对 $\sigma(v)$ 求导
- 令 $v = \Delta r - \mu$，回顾 sigmoid 函数梯度公式
  $$\sigma’(v) = \sigma(v)(1-\sigma(v))$$
- 于是有：
  $$ \nabla_{\psi}(\sigma(v)) = \sigma’(v) \cdot \nabla_{\psi}v = \sigma(v)(1-\sigma(v)) \cdot \nabla_{\psi}v $$
- 代入论文的表达式：
  $$ \nabla_{\psi}(\sigma(\Delta r - \mu)) = \sigma(\Delta r - \mu)(1-\sigma(\Delta r - \mu)) \cdot \nabla_{\psi}(\Delta r - \mu) $$
第三层：对 $(\Delta r - \mu)$ 求导
- 由于 $\Delta r$ 是参数 $\psi$ 的函数，而 $\mu$ 是一个常数，所以：
  $$ \nabla_{\psi}(\Delta r - \mu) = \nabla_{\psi}(\Delta r) - \nabla_{\psi}(\mu) = \nabla_{\psi}(\Delta r) - 0 = \nabla_{\psi}(\Delta r) $$
合并链式法则的多层求导有：
$$ \nabla_{\psi}l = -\frac{1}{\sigma(\Delta r - \mu)} \cdot [\sigma(\Delta r - \mu)(1-\sigma(\Delta r - \mu))] \cdot \nabla_{\psi}(\Delta r) $$
- 消去分子和分母中都有的 $\sigma(\Delta r - \mu)$ 项：
  $$ \color{red}{\nabla_{\psi}l = -(1-\sigma(\Delta r - \mu)) \cdot \nabla_{\psi}(\Delta r)} $$

分析 $\hat{\mu}(x, y)$ 对梯度的影响

梯度方向向量 : $\nabla_{\psi}(\Delta r)$
- 这部分决定了参数更新的基础方向
- 它的目标是调整参数 $\psi$，以最大化奖励分数差 $\Delta r$（即增大 $r_c$ 同时减小 $r_r$）
- 请注意，这个方向向量本身与 $\mu$ 的值无关
梯度系数 (Scalar) : $-(1-\sigma(\Delta r - \mu))$
- 这部分是一个标量，其值在 0 和 -1 之间（朴素的梯度下降中该值是固定值，比如 -1）
- 它用于动态地调节梯度的系数大小（ $\mu$ 正是通过影响这个调节器来发挥作用的）
情况一：模型表现远超预期 (奖励差 $\Delta r$ 远大于 margin $\mu$)
- 举例：一个弱偏好样本，其 $\mu = 0.1$，而模型给出的奖励差 $\Delta r = 3.0$，此时，$\Delta r - \mu = 2.9$，是一个较大的正数；$\sigma(2.9)$ 的值非常接近 1；梯度系数 $-(1-\sigma(2.9))$ 的值就非常接近 0
- 影响：梯度的大小趋近于零，这个样本几乎不会对参数更新产生任何影响（模型认为它在这个样本上已经“超额完成任务”）
情况二：模型表现未达预期 (奖励差 $\Delta r$ 远小于 margin $\mu$)
- 举例：一个强偏好样本，其 $\mu = 2.5$，而模型给出的奖励差 $\Delta r = 0.5$，此时，$\Delta r - \mu = -2.0$，是一个较大的负数；$\sigma(-2.0)$ 的值非常接近 0；梯度系数 $-(1-\sigma(-2.0))$ 的值就非常接近 -1
- 影响：模型从这个样本接收到了一个强烈的学习信号，促使它大力调整参数以拉开奖励差距
情况三：模型表现与预期持平 (奖励差 $\Delta r$ 约等于 margin $\mu$)
- 举例：一个样本 $\mu = 1.0$，模型给出的奖励差 $\Delta r = 1.0$，此时，$\Delta r - \mu = 0$；$\sigma(0) = 0.5$；梯度系数 $-(1-\sigma(0)) = -0.5$
- 影响：模型处于“将达未达”的状态，学习信号强度适中
总结一下 $\hat{\mu}(x, y)$ 对梯度的影响：
- $\hat{\mu}(x, y)$ 并不改变单个样本梯度更新的基础方向 ，但它通过作为学习目标的动态基准 ，极大地影响了每个样本梯度系数大小（magnitude）
- 原本偏好强度 $\mu$ 就大的样本对：如果预估分数差异 $\Delta r $ 不够大，则（$\Delta r \ll \mu$），此时给予更大的梯度信号
- 原本偏好强度 $\mu$ 就小的样本对：如果预估分数差异 $\Delta r $ 已经还可以，即（$\Delta r \ll \mu$），此时给予更小的梯度信号，我们认为这样的样本 chosen 和 rejected 之间本身差异就不大

与无 margin 形式的对比

若 $\mu = 0$ 则回退到没有 margin 的损失函数版本，此时的梯度为：
$$ \nabla_{\psi}l = -(1-\sigma(\Delta r)) \cdot \nabla_{\psi}(\Delta r) $$
- 相当于是 $\Delta r$ 越大（说明模型已经学的不错了），梯度系数越小
而 margin 版本损失函数相当于是加入了对样本的偏好强度先验知识，如果样本的偏好强度大，则要求模型给与更高的预估分数差异 $\Delta r = r_{\psi}(x, y_c) - r_{\psi}(x, y_r)$（理解：这种样本太好学了，防止模型太容易学会到这种简单的样本而没怎么更新自己的梯度）

附录: RM架构

在 Secrets of RLHF in Large Language Models Part I: PPO, Fudan & ByteDance, 202306 中提到，RM 架构是：
- RM 基座模型：使用预训练的基于 Transformer 的语言模型
- 删除一层：去掉最后的 Unembedding Layer
- 增加一层：并在最后的 Transformer 层添加一个额外的线性层（注：其实其他文章也有仅在最后一个 Token 的输出上接入线性层的）

Introduction and Discussion

数据如何影响人类偏好的建模？

Preliminaries

Measuring the Strength of Preferences

Impacts of Different Data on RM Performance

Analyze and Leverage Diverse Data to its Fullest Potential

Mitigate the Impact of Incorrect Data

Adaptive Margin

Takeaways

如何更好地建模人类偏好？

Three validation sets

Methods

RL 微调

Preference Generalization and Iterated RLHF

Contrastive Learning for Reward Modeling

Choice of Positive and Negative Samples

Methods

Optimization Objective

MetaRM：通过元学习与转移分布对齐

Experiments

Related Work

Challenges with Human Preference Data in RLHF

Generalization and Dataset Specificity in Reward Models

小结论

Discussion

附录 A Reward Model Training Dynamic

A.1 Reward Inflation during Training

附录B Experiment Details

B.1 Dataset

B.2 Implementation Details

B.3 Baselines

B.4 评估

C Supplementary Experiments

C.1 Data Selection

C.2 Supplementary experiments regarding margin and soft labels

D Case Study

Easter Egg 1—Alignment with Translation Preference

Easter Egg 2—Alignment Using Compiler Feedback

附录：Adaptive Margin 损失函数的理解

对损失函数求导

分析 \(\hat{\mu}(x, y)\) 对梯度的影响

与无 margin 形式的对比

附录: RM架构