NLP——LLM对齐微调-DMPO

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：(DMPO)Direct Multi-Turn Preference Optimization for Language Agents, arXiv 202502, USTC
- 开源代码：github.com/swt-user/DMPO

Paper Summary

整体总结：
- 论文作者分析了 DPO 应用于多轮任务时，由于无法消去配分函数（partition function） 而带来了的挑战
- 论文提出了一种简单且鲁棒的损失函数 DMPO（是 DPO 的一种改进），可以直接优化多轮智能体任务的强化学习目标
- 通过将策略约束替换为状态-动作占用度量（SAOM）约束，并在 BT 模型中引入长度归一化，论文消除了 BT 模型中的配分函数，并推导出了 DMPO 损失函数
背景：
- 直接偏好优化（Direct Preference Optimization, DPO）是一种缓解复合错误（compounding errors）的有前景的技术，能够直接优化 RL 目标
问题提出：
- 将 DPO 应用于多轮任务时，由于无法消去配分函数（partition function） ，带来了挑战，解决这个问题需要使配分函数独立于当前状态，并解决偏好轨迹与非偏好轨迹之间的长度差异问题
论文提出了一种名为 DMPO 的新型损失函数，用于多轮智能体任务，并提供了理论解释
- 在强化学习目标中用状态-动作占用度量（state-action occupancy measure, SAOM）约束替换策略约束
- 并在 Bradley-Terry（BT）模型中引入长度归一化（length normalization）
在三个多轮智能体任务数据集上的广泛实验验证了 DMPO 损失的有效性和优越性

Introduction and Discussion

开发能够解决复杂任务的通用智能体一直是人工智能领域的核心目标（2022;2024）
近年来，语言智能体（Language agents）（2022a）成为一个重要的研究方向
- Language agents 其利用 LLM 的巨大潜力来解决涉及指令跟随（2022）、动作规划（2022）和工具使用（2024）的复杂任务
- 然而，LLM 的预训练任务与智能体任务需求之间的巨大差距表明，语言智能体能力仍有很大的提升空间
行为克隆（Behavioral Cloning, BC）（1991）是一种常用的方法，通过专家智能体轨迹对 LLM 进行微调，以弥合领域差距
- 近期关于 BC 的研究（2023）涉及对最优状态-动作对进行SFT
尽管这些方法能够快速将 LLM 适配到智能体任务中，但 BC 对复合错误（compounding errors）尤为敏感——学习者的微小错误会在智能体与环境的交互过程中累积，导致在非确定性环境中性能下降（2011）
在缓解复合错误方面，直接偏好优化（Direct Preference Optimization, DPO）（2023b）因其简单实现和鲁棒性，在单轮偏好对齐任务中取得了显著成功
- DPO 通过最大化偏好响应相对于非偏好响应的似然来优化强化学习目标，避免了与传统强化学习算法相关的持续环境交互和训练不稳定性（2023;2024）
- 尽管已有初步尝试将 DPO 损失应用于智能体任务的 LLM（2024），但其性能欠佳，因为它是专为单轮（single-turn） Bandit设置设计的，不适合（ ill-suited）多轮（multi-turn）智能体任务
本研究旨在开发一种鲁棒的损失函数，能够直接优化多轮场景下的强化学习目标。这一目标的关键在于消除 Bradley-Terry（BT）模型（Bradley and Terry, 1952）中的配分函数。具体来说，需要确保配分函数独立于当前状态，并消除偏好与非偏好轨迹长度差异的影响
- 论文在强化学习目标中用状态-动作占用度量（ state-action occupancy measure，SAOM）（2000）约束替换策略约束
- 并在 BT 模型中引入长度归一化
- 这些调整最终形成了一种新的简单损失函数 DMPO，用于多轮智能体任务
如图1 所示，DMPO 通过最大化偏好（“win”）轨迹相对于非偏好（“loss”）轨迹的似然，直接优化强化学习目标
- 值得注意的是，与策略约束相比，SAOM 约束在缓解复合错误方面具有优势（2020）
- 此外，该推导为长度归一化技术在 DPO 损失中的有效性提供了理论依据（2024）
总结而言，论文的贡献如下：
- 提出了一种名为 DMPO 的新型损失函数，可直接优化多轮场景下的强化学习目标，从而缓解 BC 方法中的复合错误
- 为长度归一化技术的有效性提供了理论解释，说明其如何消除 BT 模型中的配分函数并提升性能
- 在三个多轮智能体任务数据集上的广泛实验验证了 DMPO 损失函数的有效性和优越性

本节首先介绍语言智能体的上下文学习方法（in-context learning）和微调方法（fine-tuning），然后回顾基于偏好的强化学习（preference-based RL）相关文献
上下文学习 ：受 LLM 强大的上下文学习能力启发（2023），研究人员设计了多种指令提示（instruction prompts），配备记忆模块（2024）、工具包（2024）和各种工作流（2023），以构建适用于不同现实领域任务的语言智能体
- ReAct（2022b）将 CoT 推理（2022）融入动作生成中
- Reflexion（2024）和 PROMST（2024）利用环境反馈优化提示
- 然而，这些上下文学习方法未能充分发挥 LLM 的潜力，因为大多数 LLM 并未专门针对智能体任务进行训练
- 本研究专注于通过微调将 LLM 适配到智能体任务
智能体微调 ：近期研究，如 FireAct（2023）、AgentTuning（2023）、Lumos（2023）、MIMIR（2024）、AUTOACT（2024）和 $\alpha$-UMi（2024），通过自指令或专家轨迹对 LLM 进行监督微调
- 但此类 BC 方法在与动态环境交互时会受到复合错误的影响
- 更进一步，Pangu（2023）和 CMAT（2024）利用强化学习技术进一步微调 LLM，但这可能导致训练过程复杂且不稳定
- 为了简化流程，ETO（2024）和 EMMA（2024）直接采用 DPO 损失（2023b）优化智能体任务的强化学习目标，然而，DPO 损失是为单轮 Bandit 设置设计的，不适合多轮场景
- 沿着这一方向，本研究将 DPO 损失扩展到多轮场景，并推导出 DMPO 损失
基于偏好的强化学习 ：在多轮场景中，基于偏好的强化学习通常首先从偏好数据中显式学习奖励函数，然后对其进行优化（2012）
- 然而，这种两阶段学习过程在训练效率和稳定性方面存在挑战，本研究提出了一种使用 DMPO 损失的单阶段策略学习方法，直接优化策略以满足偏好
- 尽管 IPL（2024）和 CPL（2023）与本研究在消除奖励学习阶段方面有相似思路，但其损失函数仅限于长度相等的轨迹对，极大地限制了其适用性

Preliminaries

在本节中，论文将介绍多轮智能体任务的数学形式，并简要介绍直接偏好优化（Direct Preference Optimization, DPO）损失函数

任务描述

智能体任务可以建模为一个马尔可夫决策过程（Markov Decision Process, MDP），一个 MDP 是一个五元组 $(\mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \gamma)$
- $\mathcal{S}$ 表示状态空间
- $\mathcal{A}$ 表示动作空间
- $\mathcal{T}$ 表示动态转移函数 $\mathcal{S} \times \mathcal{A} \rightarrow \mathcal{S}$
- $\mathcal{R}$ 表示奖励函数 $\mathcal{S} \times \mathcal{A} \rightarrow [0,1]$
- $\gamma \in [0,1)$ 是折扣因子
智能体的目标是在每个时间步选择动作，以最大化期望的未来折扣奖励
$$\mathbf{E} \left[\sum_{t=0}^{T-1} \gamma^{t} r(s_{t}, a_{t})\right]$$
- 其中 $T$ 是轨迹长度
在语言智能体（Language Agents）的设置中，状态空间和动作空间都是语言空间的子集
- 初始状态 $s_{0} \in \mathcal{S}$ 包含任务指令和提示
- 在每个时间步 $t$， LLM 根据策略 $\pi_{\theta}(a_{t}|s_{t})$ 生成动作 $a_{t}$，其中 $\theta$ 是参数
- 随后，环境会返回动态反馈 $o_{t}$ 并将状态转移到 $s_{t+1}$
- 需要注意的是，新状态 $s_{t+1}$ 仅仅是 $s_{t}$、$a_{t}$ 和 $o_{t}$ 的简单组合，而轨迹为
  $$ \tau = (s_{0}, a_{0}, s_{1}, a_{1}, \cdots, s_{T}, a_{T}) $$

DPO

DPO 损失的目标是通过在策略函数上施加 KL 散度约束，直接优化 RL 目标：
$$
\max_{\pi_{\theta} } \mathbb{E}_{\tau}\left[ \sum_{t=0}^{T-1} \gamma^{t} r(s_{t}, a_{t})\right] - \beta \mathbb{D}_{KL}\left[\pi_{\theta}(a_{t}|s_{t}) || \pi_{ref}(a_{t}|s_{t})\right],
$$
- $\mathbb{E}$ 是期望函数
- $\mathbb{D}_{KL}[\cdot || \cdot]$ 表示两个分布之间的 KL 散度
- $\pi_{ref}$ 表示参考策略
- $\beta$ 是控制与参考策略 $\pi_{ref}$ 偏离程度的参数
DPO 损失专为单轮偏好对齐任务设计，其中轨迹长度 $T$ 限制为 1
值得注意的是，奖励函数是通过布拉德利-特里（Bradley-Terry, BT）模型学习的：
$$
p(a_{0}^{w} \succ a_{0}^{l}|s_{0}) = \frac{\exp(r(s_{0}, a_{0}^{w}))}{\exp(r(s_{0}, a_{0}^{w})) + \exp(r(s_{0}, a_{0}^{l}))}, \tag{2}
$$
- 该模型给出了在给定状态 $s_{0}$ 下，“win”动作 $a_{0}^{w}$ 优于“loss”动作 $a_{0}^{l}$ 的概率
随后，DPO 利用单轮强化学习问题的闭式解：
$$
\pi^{*}(a|s) = \frac{1}{Z(s)} \pi_{ref}(a|s) e^{r(s,a)},
$$
- 其中 $\pi^{*}$ 表示最优策略，$Z(s)$ 是归一化的配分函数
我们可以轻松地重新整理上式并将其代入 BT 模型，得到关于策略的 BT 模型：
$$
p(a_{0}^{w} \succ a_{0}^{l}|s_{0}) = \sigma \left( \beta \log \frac{\pi_{\theta}(a_{0}^{w}|s_{0})}{\pi_{ref}(a_{0}^{w}|s_{0})} - \beta \log \frac{\pi_{\theta}(a_{0}^{l}|s_{0})}{\pi_{ref}(a_{0}^{l}|s_{0})} \right),
$$
- 其中配分函数 $Z(s)$ 从 BT 模型中消去，$\sigma$ 是 sigmoid 函数
DPO 损失通过最大化似然函数来获得最优策略 $\pi_{\theta}^{*}$：
$$
\mathcal{L}_{DPO} = -\mathbb{E}_{(s_{0}, a_{0}^{w}, a_{0}^{l}) \sim D} \log \left[ p(a_{0}^{w} \succ a_{0}^{l}|s_{0}) \right],
$$
- 其中 $D$ 表示偏好数据集
然而，这种简洁而优雅的推导仅适用于单轮偏好优化任务。如式 (3) 所示，配分函数 $Z(s)$ 依赖于当前状态 $s$，因此在多轮设置中无法通过策略约束消去

论文方法细节

在本节中，论文将首先介绍状态-动作占用度量（State-Action Occupancy Measure, SAOM）的定义及其优势
随后，论文将提出两项调整以推导 DMPO 损失函数。最后，论文将深入分析 DMPO 损失的特性

State-Action Occupancy Measure（状态-动作占用度量）

策略 $\pi$ 的折扣状态-动作占用度量 $d^{\pi}(s,a)$ 描述了智能体在策略 $\pi$ 下访问状态-动作对的分布：
$$
d^{\pi}(s,a) = \frac{1 - \gamma}{1 - \gamma^T} \sum_{t=0}^{T-1} \gamma^t \mathbb{P}(s_t = s, a_t = a | \pi),
$$
- 其中 $\mathbb{P}(\cdot)$ 表示概率，系数 $(1 - \gamma)/(1 - \gamma^T)$ 用于归一化概率分布
首先，论文将直观解释 SAOM 约束如何减少复合误差（compounding errors）。在模仿学习（imitation learning）中，传统的 SFT 学习目标是最小化专家策略与当前策略之间的 KL 散度：
$$
\min_{\pi_{\theta} } \mathbb{E}_{(s,a) \sim d^E} \left[ \mathbb{D}_{KL}(\pi_E(a|s) || \pi_{\theta}(a|s)) \right] = -\max_{\pi_{\theta} } \mathbb{E}_{(s,a) \sim d^E} \left[ \log(\pi_{\theta}(a|s)) \right],
$$
- 其中 $\pi_E$ 是专家策略，$d^E$ 是策略 $\pi_E$ 的 SAOM
如图2 所示，在策略约束下学习的轨迹容易受到显著的复合误差影响
- 这种脆弱性源于专家数据集无法全面覆盖所有可能的状态
- 因此，SFT 损失会导致模型在专家数据集中未出现的状态下选择随机动作，从而在初始错误后逐渐偏离专家轨迹，这就是所谓的复合误差现象
为了缓解复合误差，后续的模仿学习研究（2004；2020；2016）采用了 SAOM 约束：
$$
\min_{\pi_{\theta} } \mathbb{E}_{(s,a) \sim d^E} \left[ \mathbb{D}_{(\cdot)}(d^{\pi_{\theta} }(a|s) || d^{\pi_E}(a|s)) \right],
$$
- 其中不同的方法使用了不同的分布距离度量 $\mathbb{D}_{(\cdot)}$
- SAOM 约束的优势在于，它能够引导动作选择向模仿专家状态-动作对的方向靠近，尤其是在专家数据集中未探索的状态下
如图2 所示，在状态 $s_2$ 下，策略约束会导致模型均匀选择动作，而 SAOM 约束则旨在引导模型选择能将下一状态带回专家轨迹的动作，从而有效缓解复合误差并提升累积奖励

DMPO

受模仿学习的启发，论文将公式（1）中的策略约束替换为 SAOM 约束，得到以下强化学习目标：
$$
\max_{\pi_{\theta} } \mathbb{E}_{(s,a) \sim d^{\pi_{\theta} }(s,a)} \left[ r(s,a) \right] - \beta \mathbb{D}_{KL} \left[ d^{\pi_{\theta} }(s,a) || d^{\pi_{ref} }(s,a) \right], \tag{9}
$$
- 其中 $\pi_{ref}$ 表示参考策略。类似于 Rafailov 等（2023b），可以证明公式（9）的 RL 目标的最优解形式为：
  $$
  d^{\pi^{*} }(s,a) = \frac{1}{Z} d^{\pi_{ref} }(s,a) \exp \left( \frac{1}{\beta} r(s,a) \right), \tag{10}
  $$
  - 其中 $\pi^{*}$ 表示最优策略，$Z$ 是归一化概率的配分函数。值得注意的是，由于 $d^{\pi}(s,a)$ 是 $(s,a)$ 对的函数，归一化后配分函数 $Z$ 与当前状态 $s$ 无关。因此，$Z$ 对所有 $(s,a)$ 对保持恒定，这为论文提供了消除它的机会。我们可以轻松地将公式（10）整理为：
    $$
    r(s,a) = \beta \log \frac{d^{\pi^{*} }(s,a)}{d^{\pi_{ref} }(s,a)} + \beta \log Z. \tag{11}
    $$
类似于公式（2），论文通过 Bradley-Terry（BT）模型学习多轮场景的奖励函数：
$$
p(\tau^w \succ \tau^l | s_0) = \sigma \left( \sum_{t=0}^{T_w - 1} \gamma^t r(s_t^w, a_t^w) - \sum_{t=0}^{T_l - 1} \gamma^t r(s_t^l, a_t^l) \right), \tag{12}
$$
- 其中 $\tau^w$ 和 $\tau^l$ 分别表示“win”和“lose”轨迹，$T_w$ 和 $T_l$ 分别表示“win”和“lose”轨迹的长度。然而，由于 $T^w \neq T^l$，配分函数 $Z$ 无法直接在公式（12）中消除
为了克服这一障碍，论文在公式（12）中引入了长度归一化技术：
$$
p(\tau^w \succ \tau^l | s_0) = \sigma \left( \frac{1 - \gamma}{1 - \gamma^{T_w} } \sum_{t=0}^{T_w - 1} \gamma^t r(s_t^w, a_t^w) - \frac{1 - \gamma}{1 - \gamma^{T_l} } \sum_{t=0}^{T_l - 1} \gamma^t r(s_t^l, a_t^l) \right). \tag{13}
$$
通过这种方式，我们可以通过将公式（11）中的奖励函数 $r(s,a)$ 代入公式（13）来消除配分函数 $Z$。然后，论文最大化似然并得到：
$$
L_\text{DMPO} = -\mathbb{E}_{(s_0, \tau^w, \tau^l) \sim D} \log \sigma \left[ \frac{1 - \gamma}{1 - \gamma^{T_w} } \sum_{t=0}^{T_w - 1} \beta \gamma^t \log \frac{d^{\pi_{\theta} }(s_t^w, a_t^w)}{d^{\pi_{ref} }(s_t^w, a_t^w)} - \frac{1 - \gamma}{1 - \gamma^{T_l} } \sum_{t=0}^{T_l - 1} \beta \gamma^t \log \frac{d^{\pi_{\theta} }(s_t^l, a_t^l)}{d^{\pi_{ref} }(s_t^l, a_t^l)} \right], \tag{14}
$$
- 其中 $d^{\pi}(s_t, a_t)$ 可以进一步表示为：
  $$
  d^{\pi}(s = s_t^w, a = a_t^w) = \gamma^t \cdot P(s_0) \cdot \prod_{k=0}^{t-1} \pi(a_k^w | s_k^w) P(s_{k+1}^w | s_k^w, a_k^w), \tag{15}
  $$
  - 其中 $P(s_0)$ 表示初始状态 $s_0$ 的概率，$P(s_{k+1} | s_k, a_k)$ 表示转移函数。通常情况下，获取 SAOM $d^{\pi}(s_t, a_t)$ 具有挑战性，因为论文在动态环境中不知道转移函数 $P(s_{k+1} | s_k, a_k)$。然而，在公式（16）中，论文只需计算当前 SAOM $d^{\pi_{\theta} }(s_t, a_t)$ 与参考 SAOM $d^{\pi_{ref} }(s_t, a_t)$ 的比率。值得注意的是，两者的转移函数保持一致，因此可以相互抵消
通过将公式（15）代入公式（14），我们可以得到 DMPO 损失函数：
$$
L_\text{DMPO} = -\mathbb{E}_{(s_0, \tau^w, \tau^l) \sim D} \log \sigma \left[ \sum_{t=0}^{T_w - 1} \beta \phi(t, T_w) \log \frac{\pi_{\theta}(a_t^w | s_t^w)}{\pi_{ref}(a_t^w | s_t^w)} - \sum_{t=0}^{T_l - 1} \beta \phi(t, T_l) \log \frac{\pi_{\theta}(a_t^l | s_t^l)}{\pi_{ref}(a_t^l | s_t^l)} \right],
$$
- 其中折扣函数 $\phi(t, T) = \gamma^t \cdot (1 - \gamma^{T - t}) / (1 - \gamma^T)$。值得注意的是，DMPO 通过折扣函数 $\phi(t, T)$ 对不同步骤的状态-动作对进行重新加权

深入分析

在本小节中，论文将探讨 DMPO 损失的优势，并提出一些引理和观察结果
推论 4.0.1（Corollary 4.0.1） ：DMPO 损失为早期步骤的状态-动作对分配更高的权重，其中权重与折扣因子 $\gamma$ 相关
证明：为了证明该引理，论文分析损失函数 $L_\text{DMPO}$ 关于 $\theta$ 的梯度：
$$
\nabla_{\theta} L_\text{DMPO} = -\mathbb{E}_{(s_0, \tau^w, \tau^l) \sim D} \sigma \left[ \Phi(\tau^l) - \Phi(\tau^w) \right] \left[ \sum_{t=0}^{T_w - 1} \beta \phi(t, T_w) \nabla_{\theta} \log \pi_{\theta}(a_t^w | s_t^w) - \sum_{t=0}^{T_l - 1} \beta \phi(t, T_l) \nabla_{\theta} \log \pi_{\theta}(a_t^l | s_t^l) \right],
$$
- 其中函数 $\Phi(\tau) = \sum_{t=0}^{T-1} \beta \phi(t, T) \log \frac{\pi_{\theta}(a_t | s_t)}{\pi_{ref}(a_t | s_t)}$，且 $\phi(t, T) = \gamma^t \cdot (1 - \gamma^{T - t}) / (1 - \gamma^T)$。折扣函数 $\phi(t, T)$ 随着 $t$ 的增加而减小，并与折扣因子 $\gamma$ 相关。证明完成
推论 4.0.2（Corollary 4.0.2） ：当折扣因子 $\gamma$ 趋近于零时，DMPO 损失退化为单轮 DPO 损失
证明：当 $\gamma$ 等于 0 时，函数 $\phi(t, T)$ 在 $t = 0$ 时为 1，其余情况下为 0，这等价于单轮 DPO 损失
基于上述分析，论文得出以下观察结果：
- 观察 4.0.1（Observation 4.0.1） ：与 DPO 损失类似，DMPO 损失增加了偏好轨迹 $\tau_w$ 的似然，同时降低了非偏好轨迹 $\tau_l$ 的似然
- 观察 4.0.2（Observation 4.0.2） ：如果策略 $\pi_{\theta}$ 对非偏好轨迹的奖励 $\Phi(\tau_l)$ 估计过高，则权重 $\sigma \left[ \Phi(\tau^l) - \Phi(\tau^w) \right]$ 会更大
长度归一化解释 ：在 SimPO（Meng 等，2024）中，长度归一化技术的有效性已通过实验验证，但未提供理论解释。论文的推导表明，它有助于消除 BT 模型中的配分函数。如果在公式（13）中不使用长度归一化，BT 模型中会出现一个与长度相关的偏置项，随着偏好和非偏好样本之间轨迹长度差异的增加，模型性能会下降
进一步讨论 ：如 4.2 节所述，公式（9）的 RL 目标的最优解形式为公式（10）。然而，有人认为，在语言智能体设置中，对于任意奖励函数 $r(s,a)$，实现最优解可能并不总是可行。这种限制源于新状态 $s_{t+1}$ 定义为 $s_t$、$a_t$ 和 $o_t$ 的组合，这引入了状态之间转移函数的内在约束。总体而言，在多轮动态环境中，没有损失函数能够严格优化 RL 目标，而 DMPO 损失是一个良好的近似。在许多情况下，DMPO 损失可以精确优化公式（9）中的 RL 目标

Limitation

论文主要关注在智能体任务上微调 LLM 时的问题，并提出了一种简单且鲁棒的损失函数
论文的研究存在以下局限性：
- 1）论文仅关注了轮次级别的任务形式化，这导致 LLM 的奖励稀疏。未来可以探索如 Rafailov 等 (2024b) 所建议的 token-level 任务形式化
- 2）本研究的实验基于 7B 规模的模型和模拟数据集。未来可以在更大模型和数据集上进行实验，以进一步验证论文的结论

附录A 案例研究

在本节中，论文通过一个来自 WebShop 的示例比较 DPO 和 DMPO 的性能。在该示例中，DPO 在回答的第一步丢失了所需的价格信息。相比之下，DMPO 在初始步骤提供了全面的回答，从而取得了成功的结果

附录B MT-Bench 评估

在本节中，论文使用 MT-bench（2023）评估并比较了在不同数据集上使用 DMPO 和 DPO 训练的模型，结果如表4所示
表中胜率分析表明，DMPO 在 MT-bench 的所有训练数据集上均优于 DPO。值得注意的是，DMPO 在 MT-bench 的第二轮评估中胜率显著高于 DPO，这证明了 DMPO 的有效性

NLP——LLM对齐微调-DMPO

Introduction and Discussion

Preliminaries

任务描述

DPO

论文方法细节

State-Action Occupancy Measure（状态-动作占用度量）

DMPO

深入分析

相关实验

Experiment Setup

RQ1：噪声设置结果

RQ2：干净设置结果

RQ3：消融研究

Limitation

附录A 案例研究

附录B MT-Bench 评估

Introduction and Discussion

Related Work

Preliminaries

任务描述

DPO

论文方法细节

State-Action Occupancy Measure（状态-动作占用度量）

DMPO

深入分析

相关实验

Experiment Setup

RQ1：噪声设置结果

RQ2：干净设置结果

RQ3：消融研究

Limitation

附录A 案例研究

附录B MT-Bench 评估