Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

NLP——LLM-API调用示例


Qwen

  • Qwen API 申请:获取API Key
  • Qwen API 调用文档:Qwen-API Doc
  • 吐槽:Qwen 的文档和申请链接写的很差,阿里云东西太多,需要翻来翻去找
  • Qwen API 调用示例:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    def qwen_api():
    import requests

    url = "https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions"
    headers = {
    "Authorization": "Bearer $API_KEY",
    "Content-Type": "application/json"
    }

    data = {
    "model": "qwen-plus",
    "messages": [
    {"role": "user", "content": "你好,请介绍一下你自己"}
    ],
    "max_tokens": 50,
    "temperature": 0.0, # 贪心采样示例
    "top": 0.2, # 贪心采样示例
    "logprobs": True, # 可以打开 logprobs 看每个 token 的 logprobs,使用 e^logprob 即可得到最终概率
    "top_logprobs": 2,
    }

    response = requests.post(url, headers=headers, json=data)
    print(response.json())

    if __name__ == "__main__":
    qwen_api()

LongCat

  • LongCat 文档:LongCat API开放平台快速开始

  • 文档写的清晰明了,Qwen 应该学习一下

  • LongCat API 调用示例:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    def longcat_api():
    import requests

    url = "https://api.longcat.chat/openai/v1/chat/completions"
    headers = {
    "Authorization": "Bearer $API_KEY",
    "Content-Type": "application/json"
    }

    data = {
    "model": "LongCat-Flash-Chat",
    "messages": [
    {"role": "user", "content": "你好,请介绍一下自己"}
    ],
    "max_tokens": 1000,
    "temperature": 0.7,
    # "logprobs": True, # 打开这个参数会报错
    }

    response = requests.post(url, headers=headers, json=data)
    print(response.json())

    if __name__ == "__main__":
    longcat_api()
    • 特别强调:目前 LongCat 不支持返回 logprobs 信息

NLP——样本packing与权重讨论


整体总结

  • 样本 packing 训练可以大幅提升模型训练速度
  • 由此引发的训练样本的组织方式和 loss 权重有多种组合形式
  • 本文对 样本 packing 和 packing 后的样本权重(packing weight)相关的各种情况进行总结

packing 模式的一些结论

  • 下面两个数据处理方式在算法理论层面不等价(特别是在 tool 等 prompt 很长,response 很短的场景):
    • 数据处理方案一:将多轮拆成多个单轮样本训练
    • 数据处理方案二:保留多轮,即多轮本身是一个样本,但训练计算损失时每个轮次视作一个样本(即按照轮次处理 Loss 归一化)
  • 上述两种训练方式不等价的原因包括:
    • 样本训练时的分布不等价
    • 样本训练时的权重不等价
  • 多轮拆单轮/保留多轮 的数据处理方式暂无法简单从算法层面实现等价
    • 除非 GBS 无穷大,达到所有样本一次过完

非 packing 下的训练模式(与 packing 无关的朴素模式)

数据集内所有 token 权重相等训练模式

  • 具体实现方式为:
    $$
    \begin{align}
    \text{Loss}(\text{batch}) &= \sum_{\text{token}_i \in \text{batch}} \text{loss}_{\text{token}_i} \\
    \text{Loss}(\text{batch}) &= \frac{1}{\text{GBS}} \sum_{\text{token}_i \in \text{batch}} \text{loss}_{\text{token}_i}
    \end{align}
    $$
    • 每个 token 的 loss 直接累加,不做任何归一化 或 仅除以 Global Batch 内样本数 GBS(一般对同一次训练来说是固定值)
  • 这种方式可以确保训练的整个过程中,所有 token 的权重都是相同的
  • 可能会导致部分短序列得到的关注度不够高
  • 预训练中就应该使用这种方式,每个 Token 是等权的

Global Batch 内部每个 token 权重相等训练模式(Global Batch 间的 token 权重可能不相等)

  • 具体实现方式:
    $$
    \text{Loss}(\text{batch}) = \frac{1}{\text{GBS_Token_Num}} \sum_{\text{token}_i\in \text{batch}} \text{loss}_{\text{token}_i}
    $$
    • 每个 token 的 loss 累加,除以 Global Batch 内的 token 总数
  • 这种方式可以确保同一个 Global Batch 内部的 token 权重相等
  • 不同 Global Batch 内部的权重可能是不相同的,跟 Global Batch 内部的 token 总数有关
  • 学习率相同的情况下,不同 Global Batch 对模型训练的贡献相等
  • 当 Global Batch Size 非常大时,这个实现方式几乎等价于 数据集所有 token 权重相等训练模式

样本内部每个 token 权重相等训练模式(样本间的 token 权重可能不相等)

  • 具体实现方式:
    $$
    \begin{align}
    \text{Loss}(\text{batch}) &= \sum_{\text{sample} \in \text{batch}} \frac{1}{|\text{sample}|} \sum_{\text{token}_i \in \text{sample}}\text{loss}_{\text{token}_i} \\
    \text{Loss}(\text{batch}) &= \frac{1}{\text{GBS}} \sum_{\text{sample} \in \text{batch}} \frac{1}{|\text{sample}|} \sum_{\text{token}_i \in \text{sample}} \text{loss}_{\text{token}_i}
    \end{align}
    $$
    • 每个 token 的 loss 累加,除以 样本 内的 token 总数,同时样本间 不做任何归一化 或 除以 Global Batch 内样本数 GBS
  • 这种情况下可以防止长序列样本权重过高,让不同样本对训练的影响权重相同
  • 长序列样本中的 Token 可能因为平均后权重过低而学不好
  • 很多框架实现中的目标就是实现这样的方式,想要保证样本粒度的 Loss 贡献相同

样本 packing 下的训练模式

数据集内所有 token 权重相等训练模式

  • 具体实现方式:
    $$
    \begin{align}
    \text{Loss}(\text{batch}) &= \sum_{\text{token}_i \in \text{batch}} \text{loss}_{\text{token}_i} \\
    \text{Loss}(\text{batch}) &= \frac{1}{\text{GBS}} \sum_{\text{token}_i \in \text{batch}} \text{loss}_{\text{token}_i}
    \end{align}
    $$
    • 每个 token 的 loss 直接累加,不做任何归一化 或 除以 Global Batch 内样本数 GBS(一般对同一次训练来说是固定值)
  • 这种方式下,与非 packing 的训练方式相同
  • 注:如果想要与非 packing 情况下的 数据集内所有 token 权重相等训练模式 完全等价,自回归下 Attention 时需要对前面的样本做 mask 才可以
  • 预训练中就应该使用这种方式

Global Batch 内部每个 token 权重相等训练模式(Global Batch 间的 token 权重可能不相等)

  • 具体实现方式:
    $$\text{Loss}(\text{batch}) = \frac{1}{\text{GBS_Token_Num}} \sum_{\text{token}_i\in \text{batch}} \text{loss}_{\text{token}_i}$$
    • 每个 token 的 loss 累加,除以 Global Batch 内的 token 总数
  • 此时已经是 packing 以后的样本,但理论上仍然与 非 packing 下的训练方式相同
  • 注:如果想要完全等价于 非 packing 模式下的 Global Batch 内部每个 token 权重相等训练模式 ,自回归下 Attention 时需要对前面的样本做 mask 才可以

packing 样本内部每个 token 权重相等训练模式(样本间的 token 权重可能不相等)

  • 具体实现方式:
    $$
    \begin{align}
    \text{Loss}(\text{batch}) &= \sum_{\text{sample} \in \text{batch}} \frac{1}{|\text{sample}|} \sum_{\text{token}_i \in \text{sample}}\text{loss}_{\text{token}_i} \\
    \text{Loss}(\text{batch}) &= \frac{1}{\text{GBS}} \sum_{\text{sample} \in \text{batch}} \frac{1}{|\text{sample}|} \sum_{\text{token}_i \in \text{sample}} \text{loss}_{\text{token}_i}
    \end{align}
    $$
    • 每个 token 的 loss 累加,除以 样本 内的 token 总数,同时样本间 不做任何归一化 或 除以 Global Batch 内样本数 GBS
  • 这种情况下由于短序列样本被 packing 为固定长度的样本,所以与 非 packing 下的 样本内部平均完全不同 ,无法做到每个样本贡献度一致了(长样本占优)

真实样本内部每个 token 权重相等训练模式

  • 每个 token 的 loss 累加,除以 真实样本(需要特殊手段去识别) 内的 token 总数,同时有归一化有三种实现方式:
  • 方式一:样本间 不做任何归一化
    $$
    \text{Loss}(\text{batch}) = \sum_{\color{red}{\text{sample}_{true}} \in \text{batch}} \frac{1}{|\color{red}{\text{sample}_{true}}|} \sum_{\text{token}_i \in \color{red}{\text{sample}_{true}}}\text{loss}_{\text{token}_i}
    $$
  • 方式二:除以 Global Batch 内样本数 GBS
    $$
    \text{Loss}(\text{batch}) = \frac{1}{\text{GBS}} \sum_{\color{red}{\text{sample}_{true}} \in \text{batch}} \frac{1}{|\color{red}{\text{sample}_{true}}|} \sum_{\text{token}_i \in \color{red}{\text{sample}_{true}}} \text{loss}_{\text{token}_i}
    $$
  • 方式三:除以 Global Batch 内真实样本数 GBS_true
    $$
    \text{Loss}(\text{batch}) = \frac{1}{\color{red}{\text{GBS_true}}} \sum_{\color{red}{\text{sample}_{true}} \in \text{batch}} \frac{1}{|\color{red}{\text{sample}_{true}}|} \sum_{\text{token}_i \in \color{red}{\text{sample}_{true}}} \text{loss}_{\text{token}_i}
    $$
  • 特别注意,此时除以 GBS 和 除以 GBS_true 是不同的,为了保证真实样本间的权重一致,应该除以 GBS_true

多轮场景的训练思考

  • 有时候想要将多轮中的每一轮单独看做一个样本(即一次回复一个样本)
    • 这种思路的基础逻辑是认为一次回复就应该是一个样本
    • 实际上,评估指标中,可能涉及多轮回复只对应一个分数,即多轮回复对整体评估的贡献跟单轮回复权重一样,这时候要注意训练指标和评估指标的一致性问题
  • 多轮场景下,即使不做样本 packing,也相当于隐含的存在 样本 packing 了,如果想要做到轮次间权重一致,可以参考 真实样本内部每个 token 权重相等训练模式 的实现,这种实现方式可以分为两种:
  • 方式一:将多轮拆成多个样本,labels 仅保留最后一个回复,再使用用样本平均的方式实现
    • 注:这种拆开的方式会引入一些特别的变化,且是不可恢复的
      • 这种拆开会导致重复计算一些 prompt ,且会将同一个多轮样本分散到不同的 Batch 上学习,是不可恢复的
      • 这种拆开还会导致 拆单轮 情况 vs 不拆单轮 情况的单个 Batch 内数量和分布不一致,导致一些差异,也是不可恢复的
        • 这里的影响应该还好,主要强调的是不可恢复性
    • 总结:拆开的方式虽然方便,但与合并训练的方式相比,无论如何也无法恢复到真实水平
  • 方式二:不管是否 packing,都将单个轮次识别为当个真实样本做归一化和学习
    • 此时不管是否 packing,都可以做到 轮次即样本,两者基本等价

在 DP 不为 1 的情况思考

  • 在 DP 不为 1 的情况下,每个 DP 内部是独立计算梯度的,所以需要先做归一化

NLP——LoRA-Without-Regret

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始博客:LoRA Without Regret, 20250929, Thinking Machines

Blog Summary

  • 本文是 Thinking Machines 发布的一篇博客,核心是研究 LoRA 在 LLM 中的作用以及的各超参的详细影响
  • 本文包含非常详细的实验细节,讨论了各种 LoRA 相关超参数(学习率和 Rank 等)设置技巧,是一篇非常实在的技术博客,值得深读

Introduction

  • 如今主流的语言模型(Language Model)包含超过一万亿(1T)个参数,这些模型在数十万亿个 Token 上进行预训练
  • Base Model 的性能随着规模的扩大而不断提升,因为这万亿级别的参数对于学习和表征人类书面知识中的所有模式至关重要
  • In contrast, Post-Traning 使用的数据集规模更小,且通常聚焦于更狭窄的知识领域和行为范围
    • 用万亿比特(Terabit)级别的权重来表征来自十亿比特(Gigabit)或百万比特(Megabit)级训练数据的更新,似乎存在资源浪费
    • 这种直觉推动了参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术的发展,该技术通过更新一组规模小得多的参数来调整大型网络
  • 目前主流的参数高效微调方法是 LoRA(Low-Rank Adaptation)
    • LoRA 将原始模型中的每个权重矩阵 \( W \) 替换为经过修改的版本 \( W’ = W + \gamma BA \),其中矩阵 \( B \) 和 \( A \) 加起来的参数数量远少于 \( W \),而 \( \gamma \) 是一个常数缩放因子
    • 实际上,LoRA 为微调所带来的更新创建了一个低维表征
  • LoRA 在 Post-Traning 的成本和速度方面可能具有优势,此外,从操作角度来看,相比全参数微调(Full Fine-Tuning,以下简称 FullFT),选择 LoRA 还有几个理由:
    • 多租户服务(Multi-Tenant Serving) :
      • 由于 LoRA 仅训练一个 Adapter (即矩阵 \( A \) 和 \( B \)),同时保持原始权重不变,因此单个推理服务器可以在内存中存储多个 Adapter (不同的模型版本),并以批量方式同时从中采样
      • 现代推理引擎(如 vLLM 和 SGLang)已实现此功能(2023)
    • 训练 Layout 大小(Layout Size for Training) :
      • 对整个模型进行微调时,优化器状态需要与原始权重一起存储,且通常需要更高的精度
      • FullFT 通常比对同一模型进行采样所需的加速器数量多一个数量级,进而需要不同的 Layout (理解:这里的 Layout 应该是指显存?)
        • 注:在训练过程中,除了存储权重外,通常还需要存储所有权重的梯度和优化器动量;而且,这些变量的存储精度(float32)通常高于推理时权重的存储精度(bfloat16 或更低)
      • 由于 LoRA 训练的权重数量少得多,占用的内存也少得多,因此其训练所需的 Layout 仅比采样所需的 Layout 略大
      • 这使得训练更容易实现,且通常效率更高
    • 加载与迁移便捷性(Ease of Loading and Transfer) :
      • 由于需要存储的权重更少,LoRA Adapter 的设置速度更快、更便捷,也更容易在不同机器之间迁移
  • 上述原因足以解释自 2021 年 LoRA 原始论文发表以来,该技术日益普及的现象(2021)
    • 但现有文献中关于 LoRA 与 FullFT 性能对比的结论尚不明确
  • 研究界普遍认为,在类似预训练的场景下,LoRA 性能表现较差(2024)
    • 即当数据集规模极大,超出 LoRA 参数的存储限制时,LoRA 会处于劣势
  • 但对于 Post-Traning 中常见的数据集规模,LoRA 具备足够的容量来存储关键信息
    • 不过,这一事实并不能保证 LoRA 在样本效率和计算效率上的表现
  • 核心问题在于:LoRA 是否能达到全参数微调的性能水平?如果可以,需要满足哪些条件?
  • 论文实验发现,当正确把握几个关键细节时,LoRA 的样本效率确实与 FullFT 相同,并且能达到相同的最终性能

What Matters for LoRA(什么最关键?)

  • 论文介绍了论文开展的一系列 SFT 和 RL 实验,旨在确定 LoRA 与 FullFT 效率匹配的条件
  • 为此,论文的实验方法与以往关于 LoRA 的实验存在以下几点不同:
    • 1)论文研究了训练集大小与 LoRA 参数数量之间的一般关系 ,而非聚焦于特定的数据集和任务
    • 2)在监督学习中,论文测量的是对数损失(Log Loss) ,而非采用基于采样的评估方法(Sampling-Based Evals),这样做同样是为了保证结论的通用性
      • 对数损失测量能在不同训练步骤和训练参数范围内,提供清晰的结果和缩放定律(Scaling Laws)
  • 论文的研究发现如下:
    • 在中小型指令微调(Instruction-Tuning)和推理数据集(Reasoning Dataset)上进行 SFT 时,LoRA 的性能与全参数微调相同
    • 当数据集规模超出 LoRA 的容量时,LoRA 性能会低于 FullFT
      • 此时,LoRA 并非会达到一个无法突破的损失下限(Distinct Floor)
      • 而是其训练效率会下降 ,且下降程度取决于模型容量与数据集大小之间的关系
      • 理解:这里的意思是训练慢,但是多训练一段时间,也能达到不错的效果
    • 在某些场景下,LoRA 对大批量大小(Large Batch Size)的容忍度低于 FullFT(当批量大小超过某个阈值后,LoRA 的损失 penalty 会更大)
      * 增加 LoRA 的 Rank 无法缓解这种 penalty ,这是矩阵乘积参数化(Product-of-Matrices Parametrization)的固有属性,该参数化方式的 Training Dynamics 与优化原始权重矩阵的 Training Dynamics 不同
      • 注:Training Dynamics 指的是训练过程中模型的各种属性随时间或迭代轮数的变化情况,包括但不限于损失函数值、准确率、模型参数的更新、梯度的分布等属性
      • 问题:这里的意思是 Batch Size 太大,不适合 LoRA?
    • 即使在小数据场景下,将 LoRA 应用于所有权重矩阵(尤其是 MLP 和 MoE 层)时,其性能也会更优
      • 仅将 LoRA 应用于注意力层(Attention-Only LoRA)的性能较差,即便通过提高 Rank 来匹配可训练参数的数量,结果依然如此
    • 在强化学习中 ,即使使用较小的 Rank ,LoRA 的性能也能与 FullFT 相当
      • 论文发现强化学习所需的容量非常低 ,这一结果与论文基于信息论的推断一致
  • 论文还研究了 LoRA 超参数对其学习率(相对于 FullFT 学习率)的影响
    • 论文分析了初始缩放(Init Scales)、乘数(Multipliers)等超参数的一些不变性,并解释了为何 \( \frac{1}{r} \) 预因子能使最优学习率(LR)大致独立于 Rank
    • 论文还通过实验展示了 LoRA 的最优学习率与 FullFT 最优学习率之间的关系
  • 论文的实验结果明确了“低遗憾区间(Low-Regret Regime)”的特征
    • 在该区间内,LoRA 在数据集大小和参数数量方面的性能与 FullFT 相近
    • 论文发现该区间涵盖了大多数 Post-Traning 场景,这为在众多应用中使用高效微调技术开辟了道路

Methods and Results

  • 论文设计实验的目的是,在不同条件下详细测量 LoRA 相对于 FullFT 的性能。以下是实验设置的一些细节:
    • 论文将 LoRA 的 Rank 在三个数量级范围内变化( Rank 的取值为 1 到 512),并将这些不同 Rank 的 LoRA 与全参数微调进行对比
    • 为了排除因使用非最优学习率可能带来的干扰,论文针对每个实验条件都进行了学习率扫描(LR Sweep)
      • 论文采用恒定学习率调度(Constant Learning Rate Schedule),不进行预热(Warmup)或冷却(Cooldown)
    • 实验使用的模型为 Llama 3 系列模型(2024)和 Qwen3 模型(2025),其中包括一个 MoE 模型
    • 主要的监督学习实验使用了 Tulu3(2024)和 OpenThoughts3(2025)数据集,分别聚焦于Instruction Following和推理任务
      • 这两个数据集在范围、结构和应用场景上存在显著差异,这有助于验证论文结果的通用性
    • 强化学习实验使用数学推理任务,以答案的正确性作为奖励(Reward)

LoRA Rank

  • 论文在 Tulu3 数据集和 OpenThoughts3 数据集的一个子集上进行了单轮训练(Single Epoch)
  • 针对每个数据集和模型大小,论文都对 LoRA 的 Rank 和学习率进行了扫描
  • 在下图中,每条彩色线条代表一个特定的 Rank ,线条是通过在每个训练步骤中取所有学习率对应的最小点得到的:
  • 论文观察到,FullFT 和高 Rank LoRA 具有相似的训练曲线,损失随训练步骤对数的增加而线性下降
    • 当训练步骤达到某个与 Rank 相关的阈值时,中低 Rank LoRA 会偏离最小损失训练曲线
    • 从直觉上看,当 Adapter 达到容量上限时,学习速度会减慢,而容量上限由 Rank 决定
  • 接下来,论文绘制了损失随学习率变化的曲线,以验证论文的扫描是否覆盖了每个 Rank 对应的最优学习率
    • 理解:LoRA 比 FullFT 需要更大的最优学习率
  • 论文发现,FullFT 的最优学习率比高 Rank LoRA 的最优学习率低一个数量级(即 1/10)(2024)
    • 论文将在后面讨论 LoRA 超参数时再次提及这一点
  • 所有不同 Rank 的 LoRA 运行对应的最优学习率似乎相近(论文将在下文从理论角度解释这一发现)
    • 不过,最优学习率确实存在一定的 Rank 依赖性(Rank 为 1 时的最优学习率低于更高 Rank LoRA 的最优学习率)
    • 在 Rank 为 4 到 512 的范围内,最优学习率的变化因子小于 2

Batch Size Effects

  • 论文发现,在某些设置下,LoRA 对大批量大小的容忍度低于 FullFT
  • 随着批量大小的增加,两者的性能差距会扩大,且这种差距与 Rank 无关
  • 在接下来的实验中,论文使用了 OpenThoughts3 数据集中一个包含 10,000 个样本的小子集
  • 图 3 中的左图显示
    • 在大批量大小时,LoRA(虚线)与 FullFT(实线)的训练曲线之间存在持续的差距
    • 而在批量大小为 32(较小批量)时,这种差距更小,且会随着训练的进行而缩小
    • 问题:左图是不是少了些其他的曲线?
  • 右图展示了最终损失随批量大小变化的情况
    • 随着批量大小的增加,LoRA 与 FullFT 之间的损失差距越来越大
  • 大批量下的性能差距似乎与 Rank 无关,而是 LoRA 的固有属性
    • 其可能原因是,在该数据集上,矩阵乘积参数化(\( BA \))的优化 Dynamics 不如全矩阵(\( W \))的优化 Dynamics 有利
    • 不过,LoRA 和 FullFT 在较小批量大小时都能达到最佳损失,因此在实际应用中,这种差距可能不会产生太大影响
  • 问题:为什么 Batch Size 对最终结果的影响这么大,是因为 Batch Size 和 学习率没有对应调优吧!
    • 理解:理论上,Batch Size 对于训练不应该有那么大的差异才是

Layers Where LoRA Is Applied(LoRA 应用的层)

  • 论文研究了将 LoRA 应用于网络中不同层所产生的影响
  • Hu 等人的原始论文建议仅将 LoRA 应用于注意力矩阵(Attention Matrix),此后许多论文也遵循了这一做法
    • 但最近的趋势是将 LoRA 应用于所有层
  • 与论文的结果类似,QLoRA 论文也发现,仅将 LoRA 应用于注意力层的性能低于应用于 MLP 层或同时应用于 MLP 层与注意力层的性能
    • 不过该论文发现“MLP 层+注意力层 > MLP 层 > 注意力层”,而论文发现 MLP 层+注意力层 和 MLP 层 的性能大致相当
    • 事实上,当论文将 LoRA 应用于所有层(尤其是 MLP 层,包括 MoE 层)时,取得了好得多的结果
    • 实际上,将 LoRA 应用于注意力矩阵,相比仅将其应用于 MLP 层,并没有带来额外的收益(2024)
      • 理解:虽然加入注意力层没有带来额外收益,博客最终还是使用了所有层都微调,其实有些矛盾
  • 仅应用于注意力层的 LoRA 性能较差,并非因为参数数量少
    • 在特定案例中, Rank 为 256 的仅注意力层 LoRA,其参数数量与 Rank 为 128 的仅 MLP 层 LoRA 大致相同,但前者的性能却低于后者(可对比下表中的粗体数字)
      LoRA Configuration Params
      mlp, rank=256 0.49B
      attn, rank=256 0.25B
      all, rank=256 0.70B
      mlp, rank=128 0.24B
  • 在 MoE 实验中,论文为每个专家(Expert)训练了一个单独的 LoRA,每个 LoRA 的 Rank 等于总 Rank 除以活跃专家(Active Expert)的数量(Qwen3 MoE 模型的活跃专家数量为 8)
    • 这种缩放方式使得 MoE 层中 LoRA 参数与 FullFT 参数的比例,与其他层中两者的比例保持一致
    • 理解:这可以保证最终激活的 Rank 数是一致的
  • 论文还在另外两个场景中进行了类似实验,比较不同 LoRA 应用层的效果:
    • (1)在 OpenThoughts3 数据集的一个小子集上进行 Rank 为 256 的监督学习;
    • (2)在 MATH 数据集上进行强化学习
    • 论文将在下一节描述实验设置
  • 在这些场景中,仅注意力层的 LoRA 性能依然低于仅 MLP 层的 LoRA(后者与“MLP 层+注意力层”的 LoRA 性能相近)

RL

  • 论文的实验得出一个关键发现:在使用策略梯度算法(Policy Gradient Algorithm)进行强化学习时,即使 LoRA 的 Rank 低至 1,其学习性能也能完全匹配 FullFT
  • 在这些实验中,论文使用了一种带有重要性采样校正(Importance Sampling Correction)的基础策略梯度算法,其目标函数为(2024):
    $$ \text{objective} = \sum_t \frac{p_{\text{learner} } }{p_{\text{sampler} } } Adv_t $$
  • 论文采用了类似 GRPO 的中心化方案(2024),即针对每个问题采样多个补全结果(Completion),并减去每组的平均奖励
  • 下图(图 6)展示了在 MATH(2021)和 GSM(2021)数据集上的学习率扫描结果,每个数据集都使用了典型的超参数
    • 论文使用 Llama-3.1-8B 基础模型进行实验,因为正如 Qwen 技术报告(2024)所描述的,Qwen2.5 和 Qwen3 模型的预训练数据已提升了其数学性能,这会使得论文难以衡量仅在强化学习阶段学到的内容
    • LoRA 具有更广泛的有效学习率范围,并且能达到与 FullFT(黑线)相同的峰值性能,至少在强化学习的噪声所允许的精度范围内是如此
  • 这一结果与信息论的推断一致(注意:下面是重点,需要重点理解)
    • 监督学习每个样本(Episode)可提供约 \( O(\text{ Token 数量}) \) 比特的信息
    • 在策略梯度方法中,学习由优势函数(Advantage Function)驱动 ,每个样本仅能提供 \( O(1) \) 比特的信息
    • 当每个样本包含数千个 Token 时,强化学习在训练过程中每 Token 吸收的信息约为监督学习的 1/1000
  • 我们可以根据实验数据给出更精确的数值
    • 在 MATH 数据集的实验中,论文在约 10,000 个问题上进行训练,每个问题采样 32 次
    • 假设每个补全结果提供 1 比特信息,那么整个训练过程仅需吸收 320,000 比特信息
    • Llama-3.1-8B 模型的 Rank 为 1 的 LoRA 已有 300 万个参数(论文通过对模型中所有权重矩阵求和 \( \text{rank}\cdot d_{\text{in} } \)(矩阵 \( A \) 的参数数量)和 \( \text{rank} \cdot d_{\text{out} } \)(矩阵 \( B \) 的参数数量)计算得出),几乎是所需信息比特数的 10 倍
      • 问题:信息和信息比特数可以直接比较吗?
    • 即便 Rank 为 1,LoRA 也拥有足够的容量来吸收训练过程中提供的所有信息
  • 作为另一个对比案例,DeepSeek-R1-Zero 模型在 5.3M 个样本上进行了训练(训练共进行 10,400 步,每步包含 32 个独特问题,每个问题采样 16 次),这对应着 5.3M 比特的信息
    • 这一数量少于低 Rank LoRA 的参数数量,因此论文预测,使用 LoRA 也能复现该模型的训练结果
  • 为了进一步验证 LoRA 在推理强化学习中有效性的发现,论文使用 Qwen3-8b-base 模型在 DeepMath 数据集(2025)上进行了更大规模的实验
    • DeepMath 数据集比 MATH 数据集大得多,且通常包含更难的问题
    • 为了加快实验速度,论文将训练和评估的样本长度限制为 8192 个 Token
    • 这个长度足以支持回溯(Backtracking)和推理过程,但与更长的思维链(Chain-of-Thought)相比,会限制模型性能
  • 论文观察到,当为每种设置选择最优学习率后,不同大小的 LoRA 和 FullFT 的训练过程几乎完全一致
    • 此外,在预留的 AIME 2024 和 AIME 2025 测试集上评估模型时,论文也得到了类似的结果
    • 而且,论文发现 LoRA 和 FullFT 的训练过程表现出相似的定性行为:
      • 两者都发展出了先进的推理能力,如回溯、自我验证(Self-Verification)和上下文内探索(In-Context Exploration),这一点可以从模型思维链长度的增加中看出

Setting LoRA Hyperparameters

  • LoRA 应用的一个障碍是需要选择最优超参数,而这些超参数与为 FullFT 优化的超参数不同
  • 在本节中,论文将说明这个问题并不像最初看起来那么棘手,并讨论论文在超参数选择方面的发现

Optimal Learning Rate and Rank

  • 参照 Hu 等人的研究,论文采用以下参数化方式表示 LoRA:
    $$ W’ = W + \frac{\alpha}{r} BA $$
    • 其中,\( r \) 是 LoRA 的 Rank
    • \( \alpha \) 是 LoRA 的缩放因子(论文遵循其他实现的标准做法,设置 \( \alpha = 32 \))
    • \( A \) 和 \( B \) 是 LoRA 的权重矩阵( Rank 为 \( r \))
  • \( \frac{1}{r} \) 缩放因子使得最优学习率大致独立于 Rank
    • 事实上,存在一个更强的条件:训练初期的学习曲线完全相同,与 Rank 无关
    • 这一现象非常显著,在实验中,不同 Rank 的学习曲线如此接近,以至于论文曾担心是程序漏洞导致 Rank 参数未被正确使用
    • 由此可见,在短期训练中,最优学习率也与 Rank 无关
    • 然而,正如论文在之前的学习率-损失图(图 2)中所展示的,在长期训练中,最优学习率会表现出一定的 Rank 依赖性
  • 我们可以通过分析训练首次更新后 LoRA 矩阵的预期更新来部分解释这一结果(注:即解释 \( \frac{1}{r} \) 缩放因子使得最优学习率大致独立于 Rank 这个事实)
    • 我们可以将 LoRA 矩阵乘积 \( BA \) 表示为 \( r \) 个 Rank-1 外积的和:
      $$ BA = \sum_{i=1}^r b_i a_i^T = \sum_{i=1}^r \Delta_i $$
      • 其中论文定义 \( \Delta_i = b_i a_i^T \)
      • 这里,所有 \( i \) 对应的 \( \frac{\partial \text{Loss}}{\partial \Delta_i} \) 都是相同的;
      • 但梯度 \( \frac{\partial \text{Loss}}{\partial b_i} \) 和 \( \frac{\partial \text{Loss}}{\partial a_i} \) 会依赖于初始化(例如,\( \frac{\partial \text{Loss}}{\partial b_i} \) 依赖于 \( a_i \))
      • 由于 \( a_i \) 和 \( b_i \) 的初始化与 Rank 无关,因此所有 \( i \) 对应的 \( \mathbb{E}[\Delta_i] \) 都是相同的,且与 Rank 无关
      • 在训练的第一步,每个外积项的预期更新是相等的,且与 Rank 无关
      • 由此可知,\( (\frac{1}{r}) \sum_{i=1}^r \Delta_i \) 本质上是 \( r \) 个具有相同期望的项的样本均值,因此该均值的期望(即 Adapter \( (\frac{1}{r})BA \) 的变化量)与 Rank 无关

Parametrization Invariances(参数化不变性)

  • LoRA 可能涉及四个超参数:
    • 1)缩放因子 \( \alpha \)(出现在 \( \alpha/r \) 中)
    • 2)下投影矩阵 \( A \) 的学习率 \( LR_A \)
    • 3)上投影矩阵 \( B \) 的学习率 \( LR_B \)
    • 4)矩阵 \( A \) 的初始化缩放 \( \text{init}_A \)
      • 对于随机初始化,这是 \( A \) 初始元素的标准差
      • 矩阵 \( B \) 初始化为零,因此无需定义 \( \text{init}_B \)
  • 调整这四个参数似乎难度较大,但 Training Dynamics 的不变性意味着其中两个参数是冗余的,学习行为仅由两个参数决定
    • 问题:如何理解这里的 Training Dynamics 的不变性
  • 论文通过以下分析说明这种不变性:
  • 在使用 Adam 优化器且 \( \varepsilon = 0 \) 时(我们可以将此结果扩展到 \( \varepsilon > 0 \) 的情况;此时需要将 \( \varepsilon \) 按 \( 1/q \) 缩放,因为梯度会按该因子缩放),优化过程在以下两参数变换下保持不变
    • 对于 \( p, q > 0 \),满足:
      • \( \alpha \rightarrow \frac{1}{pq} \cdot \alpha \)
      • \( \text{init}_A \rightarrow p \cdot \text{init}_A \)
      • \( LR_A \rightarrow p \cdot LR_A \)
      • \( LR_B \rightarrow q \cdot LR_B \)
  • 由于四个参数中的两个自由度不影响学习过程,因此实际需要调整的参数空间为二维
  • 我们可以为这个二维空间选择不同的基,例如以下具有直观解释的基:
    • 1)\( \alpha \cdot \text{init}_A \cdot LR_B \):
      • 该参数决定初始更新的规模,或者说学习曲线的初始斜率
      • 由于 \( B \) 初始化为零,\( LR_A \) 和 \( A \) 的初始更新在此阶段无关紧要
    • 2)\( \text{init}_A / LR_A \):
      • 由于 Adam 优化器每步对 \( A \) 元素的更新量约为 \( LR_A \),因此这个时间尺度参数决定了 \( A \) 从初始状态发生显著变化所需的步数
  • 我们可以用这个基来重新解释以往关于 LoRA 的一些研究提案:
    • LoRA+(2024)提出对 \( A \) 和 \( B \) 使用不同的学习率,且 \( B \) 的学习率更高。用上述基表示,提高 \( LR_B \) 等价于提高 \( \text{init}_A / LR_A \),从而使 \( A \) 的变化时间尺度更长
    • Unsloth 的 LoRA 超参数指南建议对高 Rank LoRA 使用更大的 \( \alpha \) 值(例如,避免 \( \frac{1}{r} \) 缩放)
      • 这也等价于提高 \( \text{init}_A / LR_A \)
      • 当论文提高 \( \alpha \) 时,需要相应降低 \( LR_A \) 和 \( LR_B \) 以保持更新规模不变,这反过来会使 \( LR_A \) 相对于 \( \text{init}_A \) 更小
  • 在论文的实验中,论文采用了 Hugging Face PEFT 库(2022)中 Hu 等人提出的标准参数化方式:
    • \( A \) 采用均匀分布初始化(缩放因子为 \( 1/\sqrt{d_{\text{in} } } \))
    • \( B \) 初始化为零,\( A \) 和 \( B \) 使用相同的学习率,且 \( \alpha = 32 \)
    • 在实验中,论文未能找到比这些超参数更优的设置

Optimal Learning Rates for LoRA vs. FullFT(最优学习率对比)

  • 论文的实验表明,无论是在监督学习还是强化学习中,LoRA 的最优学习率始终是同一应用场景下 FullFT 最优学习率的 10 倍
    • 这一规律在所有以性能(损失或奖励)为纵轴、学习率为横轴的 U 型图中都能体现
    • 这一发现应能简化从 FullFT 到 LoRA 的学习率超参数迁移过程
  • 目前,论文尚未对这一现象做出充分的理论解释
    • 论文尝试从“LoRA 最优学习率与 Rank 无关”和“满 Rank LoRA 可直接与 FullFT 对比”这两个事实出发推导该结果,但分析得出的学习率比例为“模型隐藏层大小除以 \( 2 \cdot \alpha \)”,这与“最优比例固定为 10(与基础模型无关)”的实验结果不符
  • 在实证分析中,论文在 Tulu3 数据集上对 14 个不同的 Llama 和 Qwen 模型进行了 LoRA 和 FullFT 的学习率扫描
    • 基于这些扫描结果,论文拟合了一个函数,该函数可根据模型的隐藏层大小和模型类型(Llama 或 Qwen)预测最优学习率。所用函数形式如下:
      $$ LR = M_{\text{LoRA} } \cdot \left( \frac{2000}{\text{hidden size} } \right)^{\text{model pow} + \text{LoRA pow} } $$
      • 其中:
        • \( M_{\text{LoRA} } \) 是使用 LoRA 时的乘数(使用 FullFT 时为 1)
        • \( \text{model pow} \) 是针对不同模型来源(Llama 和 Qwen)分别计算的指数调整项
        • \( \text{LoRA pow} \) 是针对 LoRA 的额外指数调整项
        • \( \text{hidden size} \) 是模型残差流(Residual Stream)的维度
  • 论文通过线性插值基于扫描数据预测损失,以此对预测的学习率进行评分,并通过对 14 个模型的预测损失求和来评估参数
  • 优化结果显示:
    • LoRA 相对于 FullFT 的乘数为 9.8;
    • Qwen3 和 Llama 模型对隐藏层大小的依赖不同,但 LoRA 学习率对隐藏层大小的依赖与 FullFT 相同(即优化结果显示 \( \text{LoRA pow} = 0 \))

Learning Rates in Short and Long Runs

  • LoRA 的典型初始化会导致有效学习率产生一个隐含的变化过程,这使得短期训练和长期训练存在差异,且学习曲线的形状与 FullFT 也有所不同
  • 在训练初期,\( B \) 初始化为零
    • 当 \( B \) 非常小时,\( A \) 的变化对 Adapter \( BA \)(将被添加到原始网络权重中)的影响可忽略不计
    • 随着 \( B \) 逐渐增大,\( A \) 的更新对网络输出的影响开始变大
      • 当 \( B \) 的规模接近 \( A \) 时,有效学习率会在训练过程中逐渐提高
    • 论文发现,在 Tulu3 和 OpenThoughts 数据集上完成完整训练后,\( B \) 矩阵的谱范数(Spectral Norm)最终会大于 \( A \) 矩阵的谱范数
  • 这意味着,对于短期训练,应设置更高的最优学习率
    • 初步证据表明,短期训练(根据经验,约 100 步以内)的最优乘数约为 FullFT 的 15 倍 ,而对于长期训练,该乘数会收敛到前文提到的 10 倍

Discussion

  • 除了实证结果外,论文还希望探讨与 LoRA 性能和适用性相关的更广泛问题,这些问题对研究人员和工程实践者都具有参考价值
  • 首先,论文深入分析核心结论,LoRA 与 FullFT 性能相近的两个条件:
    • 1)LoRA 应用于网络的所有层,尤其是参数占比最高的 MLP/MoE 层
    • 2)LoRA 未受容量限制,即可训练参数数量超过待学习信息的总量(可根据数据集大小估算)
  • 当条件(1)满足时,训练初期 LoRA 的学习 Dynamics 与 FullFT 相似;
  • 然后,在条件(2)的保障下,LoRA 会继续保持与 FullFT 相近的性能,直到达到容量限制

Why LoRA Might Be Needed on All Layers(Why LoRA 需要应用在所有层上)

  • 正如论文之前所展示的,若仅将 LoRA 应用于注意力层,即使在小数据场景下,学习速度也会变慢
  • 一种可能的解释来自对经验神经正切核(Empirical Neural Tangent Kernel, eNTK)的分析(该核可用于近似少量微调时的模型行为(2022))
    • eNTK 基于梯度的点积,具体而言,梯度:
      $$ g_i = \partial/\partial \theta \log p(\text{token}_i \mid \text{prefix}_i) $$
    • 且 \( K(i,j) = g_i \cdot g_j \)
    • 因此,参数数量最多的层通常对核的影响最大
  • 该论文还指出,当对所有层进行训练时,LoRA 的 eNTK 与 FullFT 的 eNTK 大致相同,因此:
    $$\text{LoRA training} \approx \text{eNTK(LoRA)}\approx \text{eNTK(FullFT)} \approx \text{FullFT} $$
    • 而 “\(\text{eNTK(LoRA)}\approx \text{eNTK(FullFT)}\)” 这一近似关系仅在将 LoRA 应用于“构成梯度点积的主要参数所在层”时成立

How Much Capacity Is Needed by Supervised and Reinforcement Learning?

  • 监督学习与强化学习需要多少容量?
    • 注:这里指参数容量
  • 以往的研究(2024)表明,神经网络每个参数可存储 2 比特信息
    • 但该结果针对的是长期训练极限下模型可吸收的最大信息量,而非计算效率或学习速度
  • “每个参数 2 比特”的结论基于精心构建的合成数据集(这些数据集包含精确的信息量)
    • 对于现实学习任务,估算所需的信息量则更为复杂
  • 一个经典结论是:
    • 在最小化对数损失时,首轮训练的总对数损失可用于衡量数据集的描述长度,即记忆该数据集所需比特数的上限
    • LLM 数据集的损失通常约为每 Token 1 比特(0.69 纳特),具体数值因数据集和模型大小而异

      One classic observation is that when minimizing log-loss, the total log-loss measured during the first epoch of training provides a measurement of the dataset’s description length. That is, an upper bound for the number of bits required to memorize the dataset

  • 该估算值衡量的是“完美记忆数据集”所需的容量,而这一数值高估了“降低测试集对数损失”的泛化学习所需的实际容量
  • 目前,监督学习的容量需求及其与可训练参数数量的关系仍是有待未来研究的开放问题
  • 对于强化学习,作者认为,由于每个样本的末尾仅有一个奖励值,策略梯度算法每个样本大致仅学习 1 比特信息
    • 但这并非强化学习的固有属性,其他算法可能从每个样本中学习更多信息
    • 例如,基于模型的强化学习(Model-Based RL)算法会训练智能体预测观测结果并构建世界模型(World Model),从而可能从每个样本中提取更多信息
    • “每个样本 1 比特”的结论可能仅适用于策略梯度算法
    • 注:这里每个样本仅 1 比特的理论不敢苟同,因为强化学习的信号也可以不止是 0-1 信号,可以是 Reward 啊,此时就不再是 1 比特能够表达的了吧?
  • 我们可以从信息论角度更精确地阐述比特计数论证
    • 考虑一个样本(包含轨迹 \( \tau \) 和最终奖励)作为一条消息(即一个噪声信道),该消息包含关于未知奖励函数 \( R \) 的部分信息
    • 论文基于当前策略和训练历史,分析策略梯度估计量与 \( R \) 之间的互信息
    • REINFORCE 算法的更新公式为
      $$ G = S \cdot \text{Adv} $$
      • 其中 \( S = \nabla \log p_\theta(\tau) \)
    • 在给定历史的情况下,\( S \) 与 \( R \) 无关,因此唯一依赖 \( R \) 的部分是标量优势函数(Advantage)
  • 根据数据处理不等式:
    $$ I(G; R \mid \text{history}) \leq I((S, \text{Adv}); R \mid \text{history}) = I(\text{Adv}; R \mid S, \text{history}) \leq H(\text{Adv}) $$
  • 若将优势函数量化为 \( B \) 个区间,则 \( H(\text{Adv}) \lesssim \log(B) \)
    • 即每个样本可获取的有效信息比特数为 \( O(1) \),与模型大小无关
    • 这些比特信息告诉论文,当前面对的是离散奖励函数集合(或等效的最优策略类别集合)中的哪一个
    • 这种互信息分析与一些优化算法的理论分析方法一致(2009)
  • 需要注意的是,该估算值是训练可吸收信息量的上限,实际学习到的信息量会依赖于策略初始化和其他细节
    • 例如,若初始化的策略无法获得任何奖励,则优势函数的熵为 0(而非 \( \log(B) \)),模型无法学习到任何内容

Compute Efficiency Advantage of LoRA

  • 上述实验通过训练步数衡量学习进度,但论文也关注不同方法的计算效率
  • 论文计算得出,LoRA 每轮前向-反向传播所需的浮点运算数(FLOPs)略多于 FullFT 的 2/3
    • 因此,总体而言,LoRA 的计算效率通常会优于 FullFT
  • 论文通过分析给定权重矩阵上“前向-反向传播”操作的 FLOPs 来推导这一 2/3 比例,这些操作占据了神经网络模型中绝大部分的 FLOPs。论文使用以下符号:
    • \( W \in \mathbb{R}^{N \times N} \):权重矩阵
    • \( x \in \mathbb{R}^N \):输入向量
    • \( y = Wx \in \mathbb{R}^N \):输出向量
    • \( \bar{x}, \bar{y} \in \mathbb{R}^N \):损失分别对 \( x \) 和 \( y \) 的梯度(在反向传播中计算)
    • \( \bar{W} \in \mathbb{R}^{N \times N} \):损失对 \( W \) 的梯度
  • 全参数微调(FullFT)执行以下操作:
    • 1)前向传播(Forward)
      • \( y = Wx \)(需 \( N^2 \) 次乘加运算)
    • 2)反向传播(Backward)
      • \( \bar{x} = W^T \bar{y} \)(需 \( N^2 \) 次乘加运算)
      • \( \bar{W} += x \bar{y}^T \)(需 \( N^2 \) 次乘加运算)
    • 前向传播需 \( N^2 \) 次乘加运算,反向传播需额外 \( 2 \cdot N^2 \) 次乘加运算,总计 \( 3N^2 \) 次
      • 因此,包含前向和反向传播的训练过程,其 FLOPs 是仅前向推理的 3 倍
  • 在 LoRA 中,论文将 \( W \) 替换为 \( W + BA \),其中 \( B \in \mathbb{R}^{N \times R} \)、\( A \in \mathbb{R}^{R \times N} \),且 \( R \ll N \)
    • 由于论文仅更新 \( \bar{A} \) 和 \( \bar{B} \),因此无需执行 FullFT 中“更新 \( \bar{W} \)”的第三步,而是替换为代价低得多的操作
    • \( A \) 和 \( B \) 均为 \( N \cdot R \) 规模的矩阵,因此各自的“前向-反向传播”完整计算需 \( 3NR \) 次乘加运算,而非 FullFT 中 \( W \) 所需的 \( 3N^2 \) 次;两者合计需 \( 6NR \) 次乘加运算
    • 同时,论文仍需对 \( Wx \) 和 \( \bar{x} \) 执行前向-反向传播(等效于 FullFT 的前两步)
    • 因此,LoRA 总乘加运算次数为 \( 2N^2 + 6NR \)
    • 由于 \( R \ll N \),该数值略多于 FullFT 总运算量(\( 3N^2 \))的 2/3
  • 若论文以 FLOPs(而非训练步数)为横轴绘制 LoRA 性能曲线(本分析未包含注意力机制的 FLOPs,在长上下文场景中,注意力 FLOPs 可能占比显著),LoRA 相对于 FullFT 的优势将更为明显

Open Questions

  • 关于论文的研究结果,仍有几个问题有待未来探索:
    • 1)细化 LoRA 性能预测 :论文已大致描述了 LoRA 与 FullFT 性能相当的区间,并能通过 Token 或样本数量估算所需容量,但尚未能做出精确预测
      • 未来需进一步明确 LoRA 性能的预测方法及与 FullFT 匹配的具体条件
    • 2)LoRA 学习率与 Training Dynamics 的理论解释 :目前论文对 LoRA 学习率和 Training Dynamics 的理论理解仍有限
      • 若能建立完整理论解释 LoRA 与 FullFT 学习率的比例关系,将具有重要价值
    • 3)LoRA 变体的性能评估 :如 PiSSA(2024)等 LoRA 变体,若采用论文方法评估,其性能表现如何?
    • 4)MoE 层的 LoRA 应用方案 :将 LoRA 应用于 MoE 层有多种可选方案
      • 未来需研究不同方案的性能,以及每种方案与“张量并行”“专家并行”等大型 MoE 模型关键技术的兼容性

Closing Thoughts

  • 在 Thinking Machines,作者相信微调技术能提升人工智能在多个专业领域的实用性
  • 论文对 LoRA 的关注,源于让这种技术“广泛可及”并“易于定制以满足特定需求”的目标
  • 除实际应用价值外,LoRA 研究还促使论文深入探索模型容量、数据集复杂度和样本效率等基础问题
  • 通过分析“学习速度与性能如何依赖容量”,论文获得了研究机器学习基础问题的新视角
  • 论文期待未来能进一步推进这一领域的研究

NLP——DeepScaleR

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始博客链接:DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, 2025
    • 其他链接:网站 | GitHub | HF 模型 | HF 数据集 | Wandb 日志 | 评估日志

Blog Summary

  • 核心内容:
    • 作者的目标是在揭示强化学习对 LLM 的扩展效应,并使其为每个人所用(作者特别推崇开源)
    • DeepScaleR-1.5B-Preview 以 43.1% 的 Pass@1 准确率超越了 o1-preview
  • RL 的魔力正在显现!论文推出了 DeepScaleR-1.5B-Preview,这是一个基于 Deepseek-R1-Distilled-Qwen-1.5B,使用简单的 RL 进行微调的语言模型
  • DeepScaleR-1.5B-Preview 在 AIME2024 上取得了 43.1% 的 Pass@1 准确率(相比基础模型提升了14.3%),仅凭 1.5B 参数就超越了 OpenAI 的 o1-preview 的性能
  • 论文已将数据集、代码和训练日志开源,以便每个人都能在通过RL扩展智能的道路上取得进展
  • DeepScaleR-1.5B-Preview 整体评估效果如下:
    模型 AIME 2024 MATH 500 AMC 2023 Minerva Math Olympiad Bench 平均
    DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
    DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
    O1-Preview 40.0 81.4 - - - -
  • 图1: DeepScaleR在AIME2024上的Pass@1准确率随训练进展的变化。在第 1040 步和第 1520 步,上下文长度分别扩展到 16K 和 24K
  • 在这篇博客中,论文将逐步揭示利用 RL 将小型模型转变为强大推理模型的秘诀
  • DeepScaleR-1.5B-Preview 在 40K 高质量数学问题上进行了训练,耗时 3,800 个 A100 GPU 小时(约4500美元),在多个竞赛级数学基准测试上超越了 OpenAI 的 o1-preview

Introduction: 迈向 LLM 强化学习的民主化(Towards Democratizing RL for LLMs)

  • Deepseek-R1 的近期开源发布(一个可与 OpenAI 的 o1 相媲美的模型)标志着在推理模型民主化方面迈出了重要一步
  • 但其确切的训练配方、超参数和底层系统仍然不可用
  • 在这项工作中,论文朝着实现一个完全开放配方的、可扩展的推理模型强化学习迈出了重要一步
  • 扩展强化学习的最大挑战之一是高昂的计算成本
    • 例如,论文发现直接复制 DeepSeek-R1 的实验(上下文长度 \(\ge\)32K,约 8000 步)至少需要 70,000 个 A100 GPU 小时(即使对于一个 1.5B 的模型也是如此)
  • 为了解决这个问题,论文利用了一个蒸馏模型,并引入了一种新颖的 RL 迭代延长方案,将计算需求减少到仅 3,800 个 A100 GPU 小时(减少了 18.42 倍),同时实现了仅凭 1.5B 模型就超越 OpenAI 的 o1-preview 的性能
  • 论文的工作表明,通过强化学习开发定制化推理模型既可以扩展,又具有成本效益
  • 在接下来的博客中,论文将介绍论文的数据集整理和训练方法,展示评估结果,并分享从论文的发现中获得的关键见解

DeepScaleR’s Recipe

Dataset Curation

  • 对于论文的训练数据集,论文整理了 1984-2023 年的 AIME 问题和 2023 年之前的 AMC 问题,以及来自 Omni-MATH 和 Still 数据集的问题
    • 这些数据集包含了来自各种国家和国际数学竞赛的问题
  • 论文的数据处理流程包括三个关键步骤:
    • 1)提取答案 :对于 AMC 和 AIME 等数据集,论文使用 gemini-1.5-pro-002 从官方 AoPS 解决方案中提取答案
    • 2)删除冗余问题 :论文使用基于 sentence-transformers/all-MiniLM-L6-v2 嵌入的 RAG 来消除重复的问题
      • 为了防止数据污染,论文还检查了训练集和测试集之间的重叠
    • 3)过滤无法评分的问题 :一些数据集,如 Omni-MATH,包含无法使用 sympy 评估并需要 LLM judge 的问题
      • 由于使用 LLM judge 可能会减慢训练速度并引入嘈杂的奖励信号,论文应用了一个额外的过滤步骤来删除这些无法评分的问题
  • 经过去重和过滤后,论文的最终训练数据集包含大约 40,000 个唯一的问题-答案对
    • 论文将在未来的运行中扩展论文的数据集

Reward Function

  • 正如 Deepseek-R1 所倡导的,论文采用结果奖励模型(ORM)而不是过程奖励模型(PRM)来避免奖励作弊。简而言之,论文的奖励函数返回:
    • 1 :如果 LLM 的答案通过了基本的 LaTeX/Sympy 检查
    • 0 :如果 LLM 的答案错误或格式不正确(例如缺少<think>、</think>分隔符)

Iterative Context Lengthening: Think Shorter, then Longer

  • 图2: DeepScaleR的平均响应长度和训练奖励随训练进展的变化。曲线显示了100个窗口大小的移动平均值
  • 在推理任务中扩展强化学习的一个关键挑战是选择最佳的上下文窗口进行训练
    • 推理工作负载的计算量非常大,因为它们生成的输出比标准任务长得多,从而减慢了轨迹采样和策略梯度更新
    • 将上下文窗口大小加倍至少会使训练计算量增加 2 倍
  • 这引入了一个根本性的权衡:
    • 更长的上下文为模型提供了更多的思考空间,但会显著减慢训练速度;
    • 更短的上下文可以加速训练,但可能会限制模型解决需要长上下文的更难问题的能力
    • 因此,在效率和准确性之间取得适当的平衡至关重要
  • 简而言之,论文采用 Deepseek 的 GRPO 算法的训练配方遵循两个步骤:
    • 1)首先,论文使用8K最大上下文进行强化学习训练,以实现更有效的推理和高效的训练
    • 2)接着,论文将训练扩展到16K和24K上下文,使模型能够解决更具挑战性、之前未解决的问题

引导有效的 CoT(Bootstrapping effective CoT)with 8K context

  • 在启动论文的完整训练运行之前,论文在 AIME2024 上评估了 Deepseek-R1-Distilled-Qwen-1.5B 并分析了轨迹统计
  • 平均而言,错误的响应包含的 token 数量是正确响应的三倍(20,346 vs. 6,395)
    • 这表明更长的响应往往会导致错误的结果
    • 因此,立即使用长上下文窗口进行训练可能是低效的,因为大多数 token 实际上被浪费了
    • 此外,论文在评估日志中观察到,长响应表现出重复的模式,表明它们对有效的思维链(CoT)推理没有实质性贡献
  • 鉴于这一见解,论文以 8K 上下文启动训练,在 AIME2024 上取得了 22.9% 的初始准确率,仅比原始模型低 6%
    • 这种策略被证明是有效的:在训练过程中,平均训练奖励从 46% 增加到 58%,而平均响应长度从 5,500 减少到 3,500 个 token(见图2)
  • 更重要的是,将输出限制在 8K token 使模型能够更有效地利用上下文
  • 如表所示,论文的模型为正确和错误答案生成的响应都显著缩短,同时在AIME准确率上超过了基础模型 5%(仅使用了三分之一的 token)
    基础模型 DeepScaleR-1.5b-8k 变化
    AIME Pass@1 28.9% 33.9% +5%
    正确响应的平均 token 数 6396.0 3661.2 -2734.8
    错误响应的平均 token 数 20346.3 6976.8 -13369.5
    总体平均 token 数 16335.6 5850.9 −10484.7

Extending to 16K context at the turning point

  • 在大约 1,000 步之后,论文的 8K 运行出现了一个有趣的变化:响应长度开始再次增加
    • 但这导致了收益递减,准确率趋于平稳并最终下降
    • 与此同时,响应截断率从 4.2% 上升到 6.5%,表明有更多响应在上下文限制处被截断
  • 图3: 在 1000 步之后,8K 运行的响应长度再次上升,但训练奖励最终下降
  • 图4: 在 8K 上下文运行中,1000 步之后响应长度截断率上升
  • 这些结果表明,模型试图通过“思考更长时间”来提高训练奖励。但当它生成更长的响应时,越来越多地遇到 8K 上下文窗口的上限,从而限制了进一步的改进
  • 认识到这是一个自然的过渡点,论文决定“打开笼子,让鸟儿飞翔(set the cage free and let the bird fly.)”
    • 论文取了第 1,040 步的检查点(此时响应长度开始呈上升趋势),并以 16K 上下文窗口重新启动训练
    • 这种两阶段方法比从一开始就以 16K 进行训练要高效得多:8K 的引导将平均响应长度保持在 3,000 个token,而不是 9,000 个,使这一阶段的训练速度至少快2倍。在此切换之后,论文观察到训练奖励、响应长度和AIME准确率稳步提高。在额外的500步之后,平均响应长度从3500增加到5500个token,AIME2024的Pass@1准确率达到38%

Surpassing O1-preview with the 24K magic

  • 在 16K 上下文上再训练 500 步后,论文注意到性能开始趋于平稳(平均训练奖励收敛在 62.5%)
    • AIME 24 Pass@1准确率在 38% 左右徘徊,响应长度再次开始下降
    • 同时,最大响应截断率逐渐上升到 2%
  • 为了向 o1 级别的性能发起最后的冲刺,论文决定施展 “24k 魔法”(将上下文窗口增加到 24K)
    • 论文取 16K 运行在第 480 步的检查点,并以 24K 上下文窗口重新启动训练运行
    • 有了扩展的上下文窗口,模型终于得以突破
    • 大约 50 步后,论文的模型终于超过了 40% 的 AIME 准确率,并在第 200 步达到 43%
    • 24K的魔法完全生效了!
  • 总的来说,论文的训练运行大约包含 1,750 步
    • 初始的 8K 阶段在 8 个 A100 GPU 上训练
    • 16K 和 24K 阶段将训练扩展到 32 个 A100 GPU
    • 总共:训练耗时约 3,800 个 A100 GPU 小时,相当于在 32 个 A100 上运行约5天,计算成本约为 4500 美元

Evaluation

  • 论文在竞赛级数学基准上评估了论文的模型,包括 AIME 2024、AMC 2023、MATH-500、Minerva Math 和 OlympiadBench
  • 以下报告的是 Pass@1 准确率,每个问题平均 16 个样本。论文运行以验证分数的基线已加下划线
    模型 AIME 2024 MATH 500 AMC 2023 Minerva Math OlympiadBench 平均
    Qwen-2.5-Math-7B-Instruct 13.3 79.8 50.6 34.6 40.7 43.8
    rStar-Math-7B 26.7 78.4 47.5 - 47.1 -
    Eurus-2-7B-PRIME 26.7 79.2 57.8 38.6 42.1 48.9
    Qwen2.5-7B-SimpleRL 26.7 82.4 62.5 39.7 43.3 50.9
    DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
    Still-1.5B 32.5 84.4 66.7 29.0 45.4 51.6
    DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
    O1-Preview 40.0 81.4 - - - -
  • 图5: AIME 准确率与模型大小,DeepScaleR实现了性能和尺寸之间最帕累托最优的组合
  • 论文将 DeepScaleR 与论文使用的基础 DeepSeek 模型以及近期探索用于推理任务的强化学习的学术作品进行了比较
    • DeepScaleR 在所有基准测试上都显著优于基础模型,在 AIME2024 上取得了 14.4% 的绝对增益,整体提升了 8.1%
    • DeepScaleR 超越了近期如 rSTAR、Prime 和 SimpleRL 等学术作品,这些作品都是从 7B 模型微调而来
    • 如图5所示,DeepScaleR 仅凭 1.5B 参数就达到了 o1-preview 级别的性能(这是一个显著的效率提升)

Key Takeaways

  • 强化学习扩展也适用于小型模型(RL scaling can manifest in small models as well)
    • Deepseek-R1 表明,直接在小型模型上应用强化学习不如蒸馏有效
    • 他们的消融实验显示,对 Qwen-32B 进行强化学习在 AIME 上达到 47%,而仅蒸馏就能达到 72.6%
    • 一个常见的误解是强化学习扩展只对大模型有益,但通过从大模型蒸馏出的高质量 SFT 数据,小型模型也可以通过强化学习更有效地学习推理
    • 论文的结果证实了这一点:强化学习扩展将 AIME 准确率从 28.9% 提高到了 43.1%!这些发现表明,SFT 或 RL 单独都不够
      • 相反,通过结合高质量的 SFT 蒸馏和强化学习扩展 ,我们才能真正释放 LLM 的推理潜力
  • 迭代延长实现了更有效的长度扩展(Iterative lengthening enables more effective length scaling)
    • 先前的研究[1, 2]表明,直接在 16K 上下文上训练强化学习与 8K 相比没有显著改进,这可能是因为计算量不足以让模型充分利用扩展的上下文
      • Demystifying Long Chain-of-Thought Reasoning in LLMs, arXiv 20250205, THU & CMU
      • T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling, arXiv 20250113, THU & ZhipuAI
    • 最近的一项工作[3]表明,更长的响应长度包含冗余的自我反思,导致错误结果(论文的实验与这些发现一致)
      • https://github.com/sail-sg/oat-zero: (oat-zero)There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study
    • 通过首先在较短的上下文(8K)上优化推理,论文为后续的 16K 和 24K 运行实现了更快、更有效的训练
      • 这种迭代方法在扩展到更长上下文之前,使模型建立在有效的思维模式上,从而使基于强化学习的长度扩展更加高效

NLP——DeepCoder

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始博客链接:DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level
      • 作者:Agentica 团队与 Together AI 的联合合作
    • 其他链接:官网 | GitHub | Hugging Face 模型 | Hugging Face 数据集 | Wandb | 评估日志

Paper Summary

  • 核心内容:
    • 论文推出了 14B 模型 Deepcoder-14B-Preview(DeepCoder 是一款完全开源达到 o3-mini 水平的编程模型)
      • 基于 Deepseek-R1-Distilled-Qwen-14B 并通过分布式强化学习微调而成的代码推理模型
      • 在 LiveCodeBench 中实现了与 o3-mini 模型相当的性能,Pass@1(单次尝试通过率)准确率达60.6%
    • 重点:构建了高质量、可验证的代码数据集,并引入了算法与系统层面的优化,以实现高效的 RL 训练
    • Deepcoder-14B-Preview 是该方向上的第二个重要里程碑,其研发建立在作者之前的首款模型DeepScaleR-1.5B-Preview(聚焦数学推理任务)奠定的基础之上
    • 论文完整共享数据集、代码及训练方案
  • 该模型在 LiveCodeBench 上取得了令人印象深刻的 60.6% Pass@1 准确率(+8% 提升),以仅 14B 参数的规模,性能匹敌 o3-mini-2025-01-031 (Low) 和 o1-2024-12-17
  • 作者已将数据集、代码、训练日志和系统优化全部开源,旨在推动基于强化学习的智能扩展与加速

DeepCoder-14B-Preview 性能概览

  • 整体性能概览表:
    模型 LiveCodeBench (Pass@1)
    (2024年8月1日 - 2025年2月1日)
    Codeforces 评分 Codeforces 百分位
    DeepCoder-14B-Preview 60.6 1936 95.3
    DeepSeek-R1-Distill-Qwen-14B 53.0 1791 92.7
    O3-Mini-2025-1-31 (Low) 60.9 1918 94.9
    O1-2024-12-17 (Low) 59.5 1991 96.1
  • 图 1: DeepCoder 在训练过程中的 LiveCodeBench (LCB) 分数。在第 180 步时,上下文长度扩展至 32K。最佳的 32K 检查点用于推理时扩展至 64K,最终实现 60.6% 的 LCB 分数——性能与 o3-mini 相当
  • 近年来,我们见证了通过 RL 在数学领域(例如 DeepScaleR、AReaL、Light-R1、DAPO)显著提升了推理模型的扩展能力。然而,编程领域的进展相对滞后,主要原因是构建具有可靠、可验证奖励的高质量数据集存在挑战
  • 在这篇博客中,作者将公开训练一个小型模型成为强大竞争性编程选手的“配方”,使用强化学习技术使其达到与 o3-mini 相当的水平
    • 作者介绍了 DeepCoder-14B-Preview,该模型在 32 块 H100 GPU 上,利用 2.4 万个可验证的编程问题训练了 2.5 周,其表现达到甚至超越了 OpenAI 的 o3-mini 在多个编程基准测试上的成绩
    • 作者还开源了 verl-pipe,这是对 verl 后训练系统的扩展,包含多项系统优化,可将端到端训练速度提升 2 倍

数据集构建

  • 在数学领域,先前的研究表明,使用可验证奖励进行强化学习可以显著增强模型的推理能力。然而,与互联网上存在大量高质量、可验证数据的数学领域不同,编程领域面临此类数据相对稀缺的问题
  • 在早期实验中,作者评估了几个流行的编程数据集,包括 APPS、TACO、CodeContests、KodCode 和 LeetCode,作者发现:
    • 有些数据集对于论文的模型来说太简单(如 KodCode、LeetCode)
    • 另一些数据集则存在噪声或包含有缺陷或缺失测试用例的不可验证问题
    • 这些问题通常会产生无效或误导性的奖励信号,最终导致 RL 训练不稳定
  • 为克服这些限制,作者精心策划了一个高质量的训练集,包含:
    • TACO 验证过的问题
    • PrimeIntellect 的 SYNTHETIC-1 数据集中经过验证的问题
    • 2023 年 5 月 1 日至 2024 年 7 月 31 日期间提交的 LiveCodeBench 问题
  • 为了确保数据质量以实现有效的 RL 训练,作者实施了严格的过滤流程:
    • 1)程序化验证 :每个问题都使用外部官方解决方案自动验证
      • 论文只保留那些官方解决方案能通过所有单元测试的问题
      • 此过程在 tests/rewards/test_code_batch.py 中自动化完成
    • 2)测试用例过滤 :每个问题必须至少包含 5 个单元测试
      • 论文发现,测试用例较少的问题容易引发 “Reward Hacking” 行为 ,即模型学会通过识别常见测试用例来直接打印出记忆的答案
    • 3)去重 :论文移除了跨数据集的重复问题,以避免污染
      • 论文对三个训练数据集(Taco Verified、PrimeIntellect SYNTHETIC-1 和 LCB (05/01/23-07/31/24))进行了去重,并验证了测试数据集(LCB (08/01/24-02/01/25) 和 57 场 Codeforces 比赛)中没有污染
  • 经过过滤后,论文得到了 2.4 万个高质量的编程问题用于 RL 训练,其中包括:
    • 7500 个来自 TACO Verified 的问题
    • 1.6 万个来自 PrimeIntellect 的 SYNTHETIC-1 的问题
    • 600 个来自 LiveCodeBench 的问题

代码沙箱环境

  • 为了计算代码 RL 训练的奖励,我们必须在代码沙箱中运行模型生成代码的单元测试
  • 在每次 RL 迭代中,论文的训练批次需要在 1024 个问题上进行评估,每个问题都包含多个单元测试(大于等于 5 个)
  • 这种繁重的工作负载要求并行扩展 100 多个代码沙箱,以确保在合理时间内准确验证大语言模型生成的代码
  • 目前,论文使用两种沙箱,下面分别进行介绍

Together Code Interpreter

  • 这是一个快速、高效的环境,与论文的 RL 训练直接兼容,每个问题的成本仅为 3 美分
  • 论文一直在努力将 Together Code Interpreter 可靠地扩展到 100 多个并发沙箱和每分钟 1000 多次沙箱执行
  • 这些沙箱暴露了 stdout、stdin 和代码输出的最后一行,同时安全地限制执行并将代码与主机系统隔离
  • Together Code Interpreter 目前处于测试阶段;详细信息请参阅 Together Code Interpreter 文档,集成示例代码可在论文的代码仓库中找到

Local Code Sandbox

  • 启动一个独立的、有防护的 Python 子进程作为本地沙箱,通过 stdin 接收测试用例输入,并将答案打印到 stdout
  • 论文的本地沙箱遵循官方 LiveCodeBench 仓库的相同评估代码,确保论文的结果与现有排行榜一致

奖励函数

  • 论文的奖励函数采用稀疏的结果奖励模型(ORM)
  • 论文避免分配部分奖励,例如思维链惩罚,或如果 K/N 个测试通过则分配 K/N 的奖励,因为这可能导致 “Reward Hacking” 行为,即大语言模型学会直接打印出公共测试的答案,或错误地收敛于通过简单的边缘情况
  • 1 :生成的代码必须通过所有采样的单元测试
    • 由于一些问题包含数百个测试,使得完全验证不切实际,论文为每个问题采样 15 个最具挑战性的测试,这些测试由其输入字符串的长度确定
  • 0 :如果大语言模型的代码至少在一个测试用例上失败,或者答案格式不正确(即缺少 python [CODE]),则不给予奖励
    • 每个测试用例的超时时间为 6-12 秒

训练配方

GRPO+:GRPO 的稳定版本

  • 图 2: GRPO+ 和 GRPO 在 16K 运行中的平均训练奖励。GRPO 的奖励曲线最终崩溃。由于 Clip High,GRPO+ 的曲线保持稳定
  • 图 3: 由于长序列过滤,GRPO+ 的响应长度随时间稳步增长
  • 图 4: Clip High 和无熵损失确保了 GRPO+ 的 token 级熵不会崩溃,并鼓励足够的探索
  • 论文通过整合 DAPO 的见解,增强了原始的 GRPO 算法,以实现更稳定的训练:
    • 无熵损失 :论文观察到包含熵损失项常常导致不稳定,熵会呈指数级增长并最终导致训练崩溃。为缓解此问题,论文完全消除了熵损失
    • 无 KL 损失 (来自 DAPO) :消除 KL 损失可以防止大语言模型被约束在原始 SFT 模型的信任区域内。这一移除也免去了计算参考策略的对数概率的需要,从而加速了训练
    • 长序列过滤 (来自 DAPO) :为了保留长上下文推理能力,论文对截断的序列屏蔽损失。这项技术使 DeepCoder 能够推广到 64K 上下文的推理,尽管它是在 32K 上下文下训练的。如图 3 所示,这种方法允许响应长度自然增长而不受截断惩罚
    • Clip High (来自 DAPO) :通过增加 GRPO/PPO 代理损失的上限,论文鼓励更多探索并稳定熵。图 4 表明,这种调整带来了更稳定的训练和改进的模型性能

迭代式上下文延长:开箱即用的泛化能力

  • 在论文最初的 DeepScaleR 博客文章 中,论文介绍了迭代式上下文延长,这是一种训练技术,使语言模型能够先在较短的上下文长度下学习有效思考,然后推广到更长的上下文
  • 这种方法帮助论文的 1.5B 参数模型在将其上下文窗口从 8K -> 16K -> 24K 扩展时,下游性能稳步提升,在 AIME 上的准确率从 33% -> 38% -> 43%,最终达到 O1-preview 的性能
  • 然而,在将此技术应用于论文的 14B 参数模型时,论文遇到了新的挑战:
    • 14B 参数模型已经比 1.5B 参数模型拥有显著更强的推理能力,这意味着进一步的改进需要解决更难的问题
    • 这些更难的问题自然需要比小模型使用的 8K 起始点更长的上下文窗口
    • 从短上下文开始并惩罚模型超出该窗口的行为产生了负面影响——导致初始性能下降、响应变短以及模型在长上下文上推理能力的退化
  • 为了在实现高效训练的同时保留长上下文推理能力,论文采用了来自 DAPO 的长序列过滤技术
    • 该技术在训练期间屏蔽截断的序列,因此模型不会因生成超出当前上下文限制的深思熟虑但冗长的输出而受到惩罚
    • 结果是,模型在较短的上下文中训练时仍然可以“长思考”
  • 论文将迭代式上下文延长应用于论文的 DeepCoder-14B-Preview,将上下文窗口从 16K 扩展到 32K。在 LiveCodeBench 上,该模型实现了:
    • 16K 和 32K 上的准确率分别为 54% -> 58%,
    • 在 64K 上下文评估时达到 60.6%,展示了超越其训练上下文的强大泛化能力
  • 这种泛化能力与像 DeepSeek-R1-Distill-Qwen-14B 这样的基础蒸馏模型形成鲜明对比,后者在其训练上下文长度之外会达到性能瓶颈:
    模型 16K 32K 64K
    DeepCoder-14B-Preview 45.6 57.9 60.6
    DeepSeek-R1-Distill-Qwen-14B 50.2 53.0 53.0
  • 虽然由于其更长的平均响应长度导致截断和分数惩罚,DeepCoder 在 16K 的原始性能较低,但它最终在 64K 上凭借其在更长上下文中推理的能力超越了其他模型
  • 图 5: DeepCoder 在训练过程中的平均响应长度和训练奖励。平均响应长度从 8K 增加到 17.5K 上下文长度 > Baby, there ain't no mountain high enough. Ain't no context long enough. — Inspired by Marvin Gaye & Tammi Terrell
  • DeepCoder 的成功直接源于将迭代式上下文延长与长序列过滤相结合。如图 5 所示,在整个训练过程中,模型的平均响应长度从 8K 稳步增长到 17.5K,同时平均奖励从 0.6 提升到 0.7——这清晰地表明,模型正在逐步学习更具可扩展性和连贯性的思考模式

评估

  • 论文在多个编程基准上评估了Deepcoder-14B-Preview,包括 LiveCodeBench (LCB)、Codeforces 和 HumanEval+ 以及AIME2024
  • 拥有 14B 参数的模型在整个编程基准测试中展示了强大的性能,LiveCodeBench 达到了 60.6%,Codeforces 评分为 1936 分,与o3-mini(低配置版)和o1的表现相当
  • 此外,尽管该模型没有专门针对数学任务进行训练,但其从编程任务中获得的推理能力很好地推广到了数学领域
    • 这在其 AIME2024 得分 73.8% 上体现出来,比基础模型提高了 4.1%
    • 总体而言,论文的模型在编程和数学领域都表现出色
  • 评估结果如下:
    Model LCB (8/1/24-2/1/25) Codeforces Rating* Codeforces Percentile* HumanEval+Pass@1 AIME 2024
    DeepCoder-14B-Preview (ours) 60.6 1936 95.3 92.6 73.8
    DeepSeek-R1-Distill-Qwen-14B 53.0 1791 92.7 92.0 69.7
    O1-2024-12-17 (Low) 59.5 1991 96.1 90.8 74.4
    O3-Mini-2025-1-31 (Low) 60.9 1918 94.9 92.6 60.0
    O1-Preview 42.7 1658 88.5 89 40.0
    Deepseek-R1 62.8 1948 95.4 92.6 79.8
    Llama-4-Behemoth** 49.4 - - -
    • * 表示由于 DeepSeek 和 OpenAI 对 Codeforces 的评估为内部流程,有关 Codeforces 评估的更多细节,可参考附录A
    • ** 表示非推理型模型
  • 图6:LiveCodeBench Pass@1准确率与模型规模对比。DeepCoder仅需14B 参数,性能便已与前沿推理模型o1和o3-mini(低配置版)持平

训练后阶段的系统优化

  • 采用长上下文强化学习训练大型语言模型十分耗时,需要在长上下文环境中反复进行采样和训练
  • 若缺乏系统级优化,完整的训练流程可能需要数周甚至数月,论文针对 14B 参数模型的编程任务训练,每一步便需 1200-2500 秒,总训练时长更是长达2.5周
  • 为此,论文开发并开源了 verl-pipeline ,这是基于开源强化学习人类反馈(RLHF)库 verl 的优化扩展版本
    • 该扩展通过多项系统级改进,实现了端到端强化学习训练的加速,较基础版 verl 实现最高可提升2.5倍训练速度
    • 论文将这些全新的系统优化方案应用于 DeepCoder-1.5B-Preview 模型的训练,使其在 LCB 测试集上的通过率达到 25%,较Deepseek-R1-Distill-Qwen-1.5B模型提升了 8%
  • 作者诚邀整个社区(包括verl开发团队及其他新兴项目团队)采用这些优化方案,并在此基础上进一步开发创新

采样器是性能瓶颈

  • 图7:Verl的PPO/GRPO训练流程。每个强化学习迭代周期均包含采样、奖励函数计算和训练三个环节。其中,采样是性能瓶颈;训练速度受限于生成长序列的“滞后采样器”(straggler samplers)
  • 在训练后阶段的系统中,采样时间往往是主要瓶颈,使用 vLLM、SGLang 等推理引擎生成超长序列(最长可达32K tokens)会产生较高延迟
  • 如图7所示的 Verl PPO/GRPO 流程中,响应长度的不一致会导致部分采样器成为“滞后采样器”
    • 这些滞后采样器会拖延训练进度,而已完成任务的采样器则处于闲置状态,最终导致 GPU 利用率低下

基础解决方案:Minibatch Pipelining

  • 图8:小批量流水线流程。采样器与训练器分属不同的工作组。当采样器完成小批量(用于PPO/GRPO)生成并输出后,训练器工作组会异步处理这些数据。在一个迭代周期结束时,训练器会将权重广播至采样器
  • 为减少训练后阶段的设备闲置时间,作者将采样与训练流程进行流水线处理,允许训练器在采样器继续生成下一批数据的同时,提前对已生成的小批量数据进行更新。这种并行重叠操作有助于掩盖采样过程中的延迟
  • 然而,该方案存在三个关键局限性:
    • 1)首先,小批量数据的平均序列长度会随时间推移而增加,这会延长后续小批量数据的训练时间。最终,最后几批数据的训练往往会在采样完成后才结束,从而限制了流水线方案的收益
    • 2)其次,流水线方案需要在采样器和训练器之间分配GPU资源,这会减少可用于采样的设备数量。与Verl不同(Verl可在同一GPU资源池内动态切换采样器和训练器角色),这种静态资源分配方式会因采样器数量减少,导致端到端采样时间延长
    • 3)最后,奖励函数计算可能需要较长时间(尤其对于编程类任务而言,每个强化学习迭代周期可能需要运行数千次单元测试)。在默认的Verl流程中,奖励计算需在采样完成后,由主节点(head node)统一执行
  • 尽管存在上述限制,我们仍在代码库的 ray_trainer_pipeline.py 文件中实现了小批量流水线方案,并发现通过微批量(microbatching)技术可进一步改进流水线性能

论文的解决方案:One-Off Pipelining

  • 图9:一次性流水线流程。采样器提前一个迭代周期生成数据批次,而训练器则使用上一个迭代周期的数据更新梯度。其次,奖励函数计算与采样过程交叉进行。该方案不会为GRPO/PPO的在策略(on-policy)算法引入异步离策略(off-policy)样本
  • 为实现训练、奖励计算与采样的完整流水线化,我们提出了 一次性流水线(One-Off Pipelining) 方案。其核心思路十分简洁:
    • 牺牲第一个强化学习迭代周期,仅用于采样;
    • 在下一个迭代周期中,再使用上一周期采样得到的数据进行训练
    • 这种设计能让采样与训练并行进行,彻底消除采样完成后训练器的闲置时间
  • 其次,作者将奖励计算与采样过程交叉结合,一旦某个请求处理完成,便立即对其进行奖励计算
    • 这一改进减少了奖励评估的额外开销,尤其适用于编程类等计算密集型任务(如测试用例执行)
  • 作者在 verl 分支的 ray_trainer_async.py 文件中实现了一次性流水线方案

端到端性能

  • 在 图10 中,我们针对数学和编程两类任务负载,分别评估了 verl 基础版、微批量流水线方案和一次性流水线方案的性能
  • 为保证公平性,所有基准方案均通过 Python 线程池并行计算奖励;而 verl 官方版本对每个样本的奖励计算为串行执行,这对于编程任务而言耗时过长,不具备实际可行性
  • 作者在8台A100设备上对Deepcoder-1.5B-Preview模型进行评估,并调整采样器与训练器的比例,以更好地平衡两者的运行时间
  • 在数学任务中,一次性流水线方案将每个强化学习迭代周期的时间缩短了1.4倍。需说明的是,数学任务的奖励计算时间几乎为零,因为其仅涉及基础的sympy检查。具体而言,一次性流水线方案完全掩盖了训练器的运行时间,而微批量流水线方案中最后一批数据的训练仍会出现延迟
  • 在编程任务中,奖励计算需在每个强化学习迭代周期内运行数千次测试,是一个耗时过程。一次性流水线方案同时掩盖了训练器和奖励计算的时间,最终将端到端训练时间缩短了2倍
  • 图10:一次性流水线方案完全掩盖了训练器和奖励计算的时间,使数学任务的训练时间缩短1.4倍 ,编程任务的训练时间缩短2倍
  • 最重要的是,一次性流水线方案不仅有效,还能扩展应用于复杂的编程任务
    • 作者使用 ray_trainer_async.py 训练出 DeepCoder-1.5B-Preview 模型,其 LCB 得分较基础蒸馏模型提升了 8%
  • 具体数据为:
    Model LCB(8/1/24-2/1/25) Codeforces Rating Codeforces Percentile HumanEval+
    DeepCoder-1.5B-Preview 25.1 963 28.5 73.0
    Deepseek-R1-Distill-Qwen-1.5B 16.9 615 1.9 58.3

附录

附录 A. 训练基础设施与成本

  • DeepCoder-14B-Preview 的训练在 Together AI 提供的云平台上进行,使用了 32 块 NVIDIA H100 GPU
    • 整个训练过程持续了 2.5 周
  • 论文采用了高效的分布式训练框架和优化的通信策略,以最大化 GPU 利用率
    • 得益于 verl-pipe 系统中的多项优化(包括梯度检查点、混合精度训练和高效的批处理调度),端到端的强化学习训练速度相比基线提升了 2 倍
  • 单次完整训练的成本主要由 GPU 小时和沙箱验证费用构成:
    • GPU 计算成本 :约 $45,000
    • Together Code Interpreter 沙箱成本 :约 $720 (基于 3¢/problem 和总计 24,000 个问题计算)
    • 总估算成本 :约 $45,720

附录 B. 可复现性指南

  • 为确保研究结果的可复现性,作者在 GitHub 仓库中提供了详细的文档和脚本:
    • 1)数据准备 :scripts/download_and_filter_datasets.py 脚本自动化了从原始来源下载、验证和过滤数据集的全过程
    • 2)环境配置 :environment.yml 文件定义了精确的 Python 依赖环境
    • 3)训练启动 :launch_training.sh 脚本包含了启动 GRPO+ 训练的所有参数和配置
    • 4)评估流程 :eval/ 目录下的脚本可用于在 LiveCodeBench、Codeforces 和 AIME2024 等基准上复现我们的评估结果
  • 强烈建议使用者参考 README.md 中的“快速开始”部分来部署和运行模型

附录 C. 局限性与未来工作

  • 尽管 DeepCoder-14B-Preview 取得了显著成果,但仍存在一些局限性:
    • 领域专注 :模型在竞争性编程任务上表现出色,但在真实世界软件工程任务(如调试大型代码库、理解复杂 API)上的泛化能力有待验证
    • 语言覆盖 :当前版本主要针对 Python 代码生成进行了优化,对其他编程语言的支持较弱
    • 推理延迟 :由于其长上下文推理能力,在 64K 上下文下生成答案的延迟较高,可能不适用于对实时性要求极高的场景
  • 未来的工作将集中在解决这些局限性,并探索将此框架应用于更广泛的智能体任务,例如自主代理和复杂决策系统

NLP——AReaL

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(AReaL)AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning, arXiv 20250604, THU & Ant Research & HKUST:蚂蚁研究院和港科大也参与了
    • 开源地址:github.com/inclusionAI/AReaL/

Paper Summary

  • 核心内容总结:
    • 论文提出了是一个专为高效大规模 RL 训练设计的完全异步(fully asynchronous )系统 AReaL
    • 论文还提出了多项算法创新,包括陈旧感知训练和解耦 PPO 目标(Decoupled PPO Objective) ,使异步环境中的 PPO 训练既高效又稳定
    • 注:Decoupled PPO Objective 已经成为异步训练的标配 Feature
  • 背景:RL 已成为训练 LLM 的一种流行范式,尤其在推理任务中,有效的 LLM 强化学习需要大规模并行化,因此亟需高效的训练系统
  • 现有的大规模 RL 系统多为同步(synchronous)设计,即在批量设置中交替进行生成和训练,每个训练批次的样本由同一(或最新)模型生成 ,这种设计的优缺点如下:
    • 优点:稳定
    • 缺点:存在严重的系统效率问题,即生成阶段必须等待批次中最长的输出完成后才能更新模型,导致 GPU 利用率低下
  • 论文提出 AReaL ,一种完全异步的 RL 系统 ,彻底解耦生成与训练
    • AReaL 的 Rollout Worker无需等待即可持续生成新输出
    • 训练 Worker (training worker)在收集到足够数据后立即更新模型
  • AReaL 还引入了一系列系统级优化,显著提高了 GPU 利用率
    • 为稳定 RL 训练,AReaL 通过平衡生成与训练 Worker 的负载控制数据陈旧性(staleness),并采用一种改进的 PPO(Proximal Policy Optimization)变体以更好地处理过时样本
  • 实验结论:在数学和代码推理基准测试中,AReaL 相比同步系统实现了高达 2.77 倍的训练加速,同时保持甚至提升了最终性能

Introduction and Discussion

  • RL 作为一种新的扩展范式,通过赋予 LLM 思考能力(thinking abilities)来增强其性能 (2022)
    • 给定一个提示(prompt),RL 允许 LLM 在输出最终答案前生成思考 Token(thinking tokens),从而实现测试时扩展(test-time scaling)(2024; 2025)
    • 这类具备思考能力的 LLM 被称为大型推理模型(Large Reasoning Model, LRM) ,在 challenging reasoning problems 上表现出色
      • 即数学 (2021; 2021; 2023)、编程 (2021; 2023; 2023)、逻辑谜题(logic puzzles) (2025) 和智能体任务(agentic tasks) (2024) 等
  • 有效的 RL 训练通常需要大规模并行化,以获取足够探索的大批量生成样本(rollouts),这是实现最优模型性能的关键
    • 例如,PPO (2017) 和 GRPO (2024) 等流行 RL 算法通常需要数千个输出的有效训练批次 (2025; 2025; 2025)
    • 此外,LRM 可能为每个输入提示生成数万个思考 Token (2025),这进一步凸显了对高效训练系统的迫切需求
  • 开发高效的大规模 RL 系统具有挑战性,表现在:
    • RL 系统需要频繁切换 LLM 生成与训练,若缺乏精心优化,会引入显著的系统开销
    • 对于 LRM,训练模型的输出长度因提示不同而变化巨大,导致生成和训练的工作负载不断变化,常引发高性能硬件的空闲时间,造成计算浪费
    • 经典的大规模 RL 算法(如 PPO 或 GRPO)通常需要 on-policy 训练数据(即由最新模型生成的样本)以确保最佳性能,这带来了额外的系统挑战
      • 理解:on-policy 限制了最新模型生成的样本,导致效率进一步降低
  • 基于以上原因,现有的大多数大规模 RL 系统采用完全同步设计 (2024; 2024; 2025; 2025),严格交替执行 LLM 生成与训练,确保模型始终基于最新输出进行训练以获得最佳性能
    • 在这种同步设计中,生成阶段必须等待批次中最长的输出完成后才能开始训练
    • 由于 LRM 的输出长度变化较大,同步 RL 系统会遭受严重的训练效率损失
  • 最近,也有研究尝试并行生成与训练 (2025; 2024; 2025),这些工作使用先前模型版本生成的输出来更新当前模型
    • 为保障性能,生成所用的模型版本仅允许比当前模型早一到两步
    • 然而,这些系统仍 Following 批量生成设置,即一个训练批次内的所有样本来自同一模型版本,因此生成阶段的系统效率问题仍未解决
  • 为从根本上解决系统设计问题,论文开发了 AReaL,一种完全异步的 LRM RL 训练系统 ,彻底解耦生成与训练且不影响最终性能
    • AReaL 以流式方式(streaming manner)运行 LLM 生成,每个 Rollout Worker 无需等待即可持续生成新输出,从而实现高 GPU 利用率
    • AReaL 的训练 Worker 在从 Rollout Worker 收集到训练批次后立即并行更新模型
      • 模型更新后,系统会同步各 Rollout Worker 的模型权重
    • 在这种异步设计中,AReaL 的每个训练批次可能包含来自不同模型版本的样本
      • 因此,AReaL 结合了改进的 PPO 目标函数,能够利用更旧模型版本生成的样本且不会降低性能
    • AReaL 还通过数据过滤过程(data filtering process)确保每个训练样本的陈旧性(staleness)得到控制
    • AReaL 还引入了多项系统级优化,进一步提升了整体训练吞吐量,包括:
      • 可中断的 Rollout Worker(interruptible rollout workers)
      • 可变长度输出的动态批处理(dynamic batching for variable-length outputs)
      • 并行奖励服务(parallel reward service)
  • 论文在 32B 参数的模型上对 AReaL 进行了数学推理和代码生成任务的评估
    • 相比 SOTA 同步系统(synchronous systems),AReaL 实现了高达 2.57 倍的训练吞吐量提升,并在 512 个 GPU 上展现出线性扩展效率
    • 特别说明:不止加速 ,还带来了任务求解准确率的提升 ,表明 AReaL 在显著提高效率的同时并未牺牲模型性能(甚至增强了模型性能)

Background

Preliminaries about RL Training

RL Formulation and PPO
  • 论文将问题形式化为马尔可夫决策过程(Markov Decision Process, MDP)(1994)
    • 定义为元组 \( \langle \mathcal{S}, \mathcal{A}, r, P, \gamma, H \rangle \)
      • 其中,\( \mathcal{S} \) 表示状态空间,\( \mathcal{A} \) 表示动作空间,\( P \) 是转移模型,\( r: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R} \) 是奖励函数,\( \gamma \) 是折扣因子,\( H \) 是时间范围
    • LRM(Large Reasoning Model)实现了一个参数化策略 \( \pi_{\theta}: \mathcal{S} \rightarrow \mathcal{A} \),每个动作 \( a_t \in \mathcal{A} \) 对应词汇表中的一个文本标记
    • 状态 \( s_t \in \mathcal{S} \) 由问题 \( s_1 = q \) 和之前生成的响应标记 \( (a_1, \ldots, a_{t-1}) \) 组成
    • 转移是确定性的:\( s_{t+1} = \text{concat}(s_t, a_t) \)
    • 给定问题分布 \( \mathcal{D} \),论文优化以下目标:
      $$
      J(\theta) = \mathbb{E}_{q \sim \mathcal{D}, a_t \sim \pi_{\theta}(\cdot|q, a_{ < t})} \left[ \sum_{t=1}^{H} \gamma^{t-1} r(s_t, a_t) \right]. \tag{1}
      $$
  • Following 常见实践 (2025),论文使用基于规则的奖励函数 ,仅在最终动作提供非零反馈(表示答案正确性),并设 \( \gamma = 1 \)。论文使用近端策略优化(Proximal Policy Optimization, PPO)(2017) 来优化这一目标:
    $$
    J_{\text{PPO} }(\theta) = \mathbb{E}_{q \sim \mathcal{D}, a_t \sim \pi_{\text{old} }(\cdot|q, a_{ < t})} \left[ \sum_{t=1}^{H} \min \left( u_t(\theta) \hat{A}(s_t, a_t), \text{clip} \left( u_t(\theta), 1-\epsilon, 1+\epsilon \right) \hat{A}(s_t, a_t) \right) \right], \tag{2}
    $$
    • \( u_t(\theta) = \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\text{old} }(a_t|s_t)} \) 表示重要性比率(importance ratio)
    • \( \hat{A}(s_t, a_t) \) 是估计的优势函数 (2016)
  • Following RL 的标准实践 (2017, 2022),论文将全局批次划分为小批次以进行顺序参数更新(sequential parameter updates)
Distributed Systems for LRM Training
  • 论文的工作专注于在 SFT 后增强 LRM 的推理能力,不同于激励(incentivize)预训练基模型推理的方法 (2025)
  • 经过 SFT 的 LRM 生成长推理序列(例如 32K 标记),通常需要较大的全局批大小(例如每个问题 128 个响应)以实现稳定的 RL 训练 (2025, 2024)
  • 在同步 RL 系统中,两个阶段交替执行:生成( rollout)和训练
    • 生成阶段使用最新的模型参数为训练批次中的每个查询生成多个推理轨迹
    • 训练阶段则基于生成的轨迹更新模型参数
    • 这些阶段在同一 GPU 上迭代执行

Motivation for Asynchronous RL System

  • 论文总结了同步 RL 系统的两个主要局限性:
    • 1) 推理设备利用率低(Inference devices are underutilized) :
      • 如图 1(左)所示,生成必须等待批次中最长序列完成后才能开始训练
      • 这导致 GPU 解码长度不均匀,从而浪费计算资源
    • 2) 同步 RL 系统的可扩展性差(Scalability is poor in synchronous RL systems) :
      • 同步系统在所有设备上分配生成任务,降低了每 GPU 的解码批大小,使解码过程进入 memory-IO-bound 状态 (2024),此时增加设备无法提高吞吐量

System Architecture

  • 3.2节 中提到的局限性促使论文设计一个将生成和训练(training)完全解耦的系统 ,使其具备硬件高效性、可扩展性 ,并支持定制化的 RL 工作流
  • 论文在 AReaL 中实现了这些原则,这是一个专为高效大规模 LRM 训练设计的异步 RL 系统

System Overview

  • 图2 展示了 AReaL 的架构和数据流
  • 如图2 所示,AReaL系统包含4个核心组件:
  • 可中断的 Rollout Worker(Interruptible Rollout Worker) 处理两种请求:
    • 1) generate request :根据提示生成响应
    • 2) 权重更新请求(update_weights request) :中断所有正在进行的生成任务,并加载新版本的参数
      • 中断后, Rollout Worker 会丢弃由旧权重计算的 KV 缓存,并使用新权重重新计算
        • 理解:注意这里没有抛弃之前已经生成的片段(已经生成的 token 会保留,只是从中断点开始使用新的权重(包括 KV 缓存也抛弃))
      • 之后, Rollout Worker 继续解码未完成的序列,直到下一次中断或终止
      • 需要注意的是,这种中断和权重更新会导致轨迹由不同模型版本生成的片段组成 ,这将带来新的算法挑战(详见第5节)
  • Reward Service 评估模型生成响应的准确性
    • 例如,在编码任务中,该服务会提取代码并执行单元测试以验证其正确性
  • Trainer Workers
    • 持续从回放缓冲区(replay buffer)中采样数据 ,直到达到配置的训练批次大小
    • 执行 PPO 更新 ,并将结果参数存储在分布式存储中
    • 为确保数据新鲜度,回放缓冲区中的数据仅使用一次
  • Rollout Controller 承担以上三者( Rollout Worker、奖励服务和训练 Worker)之间的桥梁的角色,在训练过程如下:
    • Step1(生成响应 by Rollout Worker):控制器从数据集中读取数据并调用 Rollout Worker 的生成请求,获取生成
    • Step2(生成奖励 by 奖励服务器):控制器将生成的响应发送给奖励服务,奖励服务返回奖励给控制器
    • Step3(储存缓冲区 for 训练 Worker):轨迹和奖励一起存入回放缓冲区,等待训练 Worker 处理
    • Step4(训练 Worker 参数更新):当训练 Worker 更新参数后,控制器会调用 Rollout Worker 的权重更新请求
  • 图3 展示了生成和训练的管理流程。这种异步流水线设计确保了生成和训练资源的持续高效利用

Algorithmic Challenges

  • 异步系统设计虽然通过提高设备利用率显著加速了训练,但也引入了需要算法解决的技术挑战
  • 挑战1:数据陈旧性(Data Staleness)
    • 由于AReaL的异步特性,每个训练批次包含来自多个先前策略版本的数据
    • 已有研究表明,这种陈旧性会降低 RLHF 和游戏环境中的学习性能 (2024; 2019)
    • 在 LRM 的异步强化学习训练中,由于解码时间较长,这一问题可能更加严重
  • 挑战2:策略版本不一致(Inconsistent Policy Versions)
    • 如第4.1节所述,生成的轨迹可能包含由不同策略版本生成的片段
    • 这种不一致性从根本上违背了标准 PPO 的假设(公式2),即所有动作均由单一策略 \(\pi_{\text{old} }\) 生成
    • 理解:注意这里是同一个轨迹中的不同片段可能是不同策略采样得到的
  • 在下一节中,论文将详细介绍克服这些挑战的技术创新,同时保留异步系统的效率优势

Addressing the Algorithmic Challenges in AReaL

Staleness-Aware Training

  • 为避免因训练数据过于陈旧而导致性能下降,论文引入了一个超参数 \(\eta\),表示 每个训练批次中允许的最大陈旧性
    • 具体来说,当 \(\eta=0\) 时,系统退化为同步强化学习,所有训练样本均由当前策略生成
    • 论文在系统中通过动态控制生成请求的吞吐量来实现陈旧性控制
    • 给定当前策略版本 \(i\)、生成的轨迹总数 \(N_r\) 和每个训练步骤的训练批次大小 \(B\),论文在提交新生成请求时强制执行以下公式:
      $$
      \lfloor(N_r - 1)/B \rfloor \leq i + \eta. \tag{3}
      $$
    • 理解:这也不能完全解决问题吧,只能是缓解问题?而且需要考虑数据的采样策略,从而计算重要性权重
  • 论文还优先从数据缓冲区中选择较旧的轨迹组成训练批次
    • 在系统实现中,生成控制器跟踪参数服务器中的生成样本数 \(N_r\) 和策略版本 \(i\),并拒绝可能违反陈旧性约束的新生成请求
    • 问题:为什么是优先选择旧的,因为每个数据仅使用一次;
    • 思考:优先使用旧的会导致模型总是使用不到最新的策略生成的样本吧
  • 需要注意的是,这种速率限制协议在实践中是一种简单而有效的设计选择
    • 但是,当 \(\eta\) 过小时,生成吞吐量可能会因某些极长轨迹的生成而降低
    • 因此,论文建议在实践中采用较大的 \(\eta\) 值以获得最佳系统吞吐量
    • 这一系统级实践也促使论文采用一种增强算法,能够有效利用更陈旧的数据进行强化学习训练

Decoupled PPO Objective

  • 论文采用了一种解耦的 PPO 目标 (2022),将 行为策略(behavior policy) \(\pi_{\text{behav} }\) 和 近端策略(proximal policy) \(\pi_{\text{prox} }\) 分离
    • 行为策略 用于采样轨迹
    • 近端策略 作为最近的目标(用于正则化策略 \(\pi_\theta\) 的更新)
    • 通过对采样轨迹应用重要性采样,论文推导出适用于异步强化学习训练的解耦 PPO 目标:
      $$
      \begin{align}
      J(\theta) &= \mathbb{E}_{q \sim \mathcal{D}, a_t \sim \pi_{\text{behav} } } \left[ \sum_{t=1}^H \min \left( \underbrace{\color{red}{\frac{\pi_\theta}{\pi_{\text{behav} } }}}_{\text{Importance Ratio} } \hat{A}_t, \overbrace{\color{red}{\frac{\pi_{\text{prox} } }{\pi_{\text{behav} } }} \text{clip} \left( \underbrace{\color{red}{\frac{\pi_\theta}{\pi_{\text{prox} } }}}_{T_{\text{Trust Region Center} } } , 1-\epsilon, 1+\epsilon \right)}^{\text{Importance Ratio} } \hat{A}_t \right) \right] \tag{4} \\
      &= \mathbb{E}_{q \sim \mathcal{D}, a_t \sim \pi_\text{behav} } \left[ \sum_{t=1}^H \color{red}{\frac{\pi_{\text{prox} } }{\pi_{\text{behav} } }} \min \left( \color{red}{u^{\text{prox} }_t(\theta)} \hat{A}_t, \text{clip}(\color{red}{u^{\text{prox} }_t(\theta)}, 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right], \tag{5}
      \end{align}
      $$
      • 其中 \(\color{red}{u^{\text{prox} }_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\text{prox} }(a_t|s_t)}}\) 是相对于近端策略的重要性比率
      • 为简洁起见,论文省略了状态-动作项(state-action terms)
      • 理解:重要性采样还是针对了行为策略的,这本身没有问题,\(\min\) 操作的第二项中,本质是通过增加一个中间概率 \(\pi_\text{prox}\) 实现了重要性采样比值
        $$ \color{red}{\frac{\pi_\theta}{\pi_{\text{behav} } } = \frac{\pi_{\text{prox} } }{\pi_{\text{behav} } } \cdot \frac{\pi_\theta}{\pi_{\text{prox} } }}$$
  • 异步 PPO 目标(公式5)与标准 PPO 目标(公式2)的主要区别在于用于正则化模型更新的近端策略 \(\pi_{\text{prox} }\)
    • 在异步 PPO 训练中,使用行为策略作为近端策略会将最新策略 \(\pi_\theta\) 拉向旧版本和低质量策略,从而减缓模型改进
    • 通过采用最近的策略作为近端策略 ,模型更新发生在高质量近端策略 \(\pi_{\text{prox} }\) 的信任区域内,从而稳定训练
      • 理解:这里的 \(\pi_{\text{prox} }\) 是一个比 行为策略更新的策略,这意味着允许模型在新的策略(近端策略)的信任区域内更新而不是在旧的策略(行为策略)的信任区域内更新
      • 一个问题:
        • 在部分 实现中,将上一个 Global Step 更新后得到的策略作为近端策略,这是不对的,因为这样的话,每次更新前,当前策略 Actor 和 近端策略永远相等,他们的比值永远为 1
          • 若每次 Rollout 只迭代一步(一个 RBS 对应一个 GBS),则行为策略、近端策略、待更新策略在更新前都相同
          • 若每次 Rollout 迭代多步(一个 RBS 对应多个 GBS),则近端策略理论上是每一步更新后的 Actor
          • 当每一步的 近端策略都和当前 Actor相同,也就是说近端策略的信任区域失效了(PPO Clip 的信任区域限制失效了!这是不符合预期的)
        • 在异步训练的场景中,最好的近端策略应该是行为策略中的最新的那个策略(或者说 Old 策略),若一个 RBS 对应多个 GBS 更新,则在更新过程中,近端策略应该不变
  • 公式5 中的解耦 PPO 目标具有一个天然优势:它放宽了训练批次中所有数据必须由单一策略生成的要求
    • 这一特性在将可中断生成与策略更新结合时,对保持算法正确性至关重要
  • 论文提出以下命题:命题1(Proposition 1) :
    • 对于由策略序列 \((\pi_\theta, \ldots, \pi_{\theta+k})\) 生成的任何序列 \((q, a_1, \ldots, a_H)\),其中 \(\pi_{\theta+i}\) 生成 Token \((a_{t_i}, \ldots, a_{t_{i+1} })\),且 \(1 = t_0 < \cdots < t_{k+1} = H\),存在一个行为策略 \(\pi_{\text{behav} }\),使得中断生成等效于完全从 \(\pi_{\text{behav} }\) 采样
    • 这个命题在论文:Eligibility Traces for Off-Policy Policy Evaluation, 2000, Sutton Richard 中也有相关提及(未明确提及,但 Per-Decision 重要性采样隐式暗含了同一个轨迹可以经过不同策略采样,即来源于不同行为策略)
    • 问题:实际代码中,得到行为策略 \(\pi_{\text{behav} }\) 时需要存储每次采样时的策略或推理 logits/概率
  • 实践经验 :
    • 虽然 Hilton 等人 (2022) 采用参数的指数移动平均作为 \(\pi_{\text{prox} }\),但这种方法对 LRM 来说计算成本过高
    • 因此,论文简单地使用每次模型更新前的参数作为 \(\pi_{\text{prox} }\)
    • 公式5 通过在每次训练步骤中重新计算 Token 概率来实现

Implementation

  • 论文基于 Real_HF 框架 (2024),使用 Python 和 PyTorch (2019) 实现了 AReaL
  • 论文的系统设计到以下框架:
    • SGLang (2024) v0.4.6(用于生成服务)
    • Megatron-Core (2019) v0.11.0(作为训练后端)
    • 通过 SLURM (2003) 进行资源调度
  • 为了最大化生成和训练阶段的吞吐量,论文实现了多项关键的系统级优化,解决了流水线中的瓶颈问题
  • AReaL 将 GPU 计算与 CPU 操作(如基于规则的奖励计算和基于 TCP 的数据传输)解耦
  • 通过在单独线程中执行这些操作并将工作流流水线化,论文将奖励计算和数据传输与后续生成请求重叠
  • 论文使用 asyncio 协程在 Rollout Worker 中并发运行多个请求,以避免相互阻塞等待
  • 为了处理可变长度序列的训练,论文采用了一种无填充的序列打包策略,并结合动态分配算法(见算法1)
    • 该算法在固定内存约束下平衡微批次间的 Token 分布,最大化 GPU 内存利用率,同时最小化所需的前向-反向传播次数

Experiments

  • 论文的评估包含三个部分:
    • (1) 在不同模型规模下与 SOTA 开源框架进行全面对比;
    • (2) 在不同计算资源下的强扩展性分析;
    • (3) 通过消融实验验证论文的设计选择

Experiment Setup

  • 论文在具有挑战性的数学和代码任务上评估 AReaL
  • 论文使用来自 DeepSeek-R1 (2025) 的蒸馏 Qwen2 模型系列(即 R1-Distilled-Qwen)作为基础模型,参数规模从 1.5B 到 32B
  • 对于每个任务-模型组合,论文固定 PPO 更新次数进行训练,并评估最终检查点
  • 数学任务的评估 Following Qwen 评估协议 (2024; 2024),而代码模型则在 LiveCodeBench (2025) 上使用官方协议进行评估
  • 除非另有说明,否则代码任务的最大陈旧度 \(\eta\) 设为 4,数学任务设为 8,并采用 7.2 节中的训练配置,其他超参数详见附录 A
  • 实验在配备 64 个节点(每个节点 8 块 H800 GPU)的集群上进行
    • 集群通过 NVLink 实现节点内连接,通过 RoCE(带宽 3.2Tbps)实现节点间通信
    • 为确保快速收敛,论文为完整实验分配至少 16 个节点作为基准配置
    • 模型规模增大时,论文按比例扩展节点数量,最终使用 48 个节点训练最大的 32B 参数模型
    • 这种扩展策略使论文能够在保持高效资源利用的同时并行运行不同规模的实验
  • 对于 AReaL,论文保持推理设备与训练设备的固定比例,将四分之三的设备分配给推理
    • 这一配置是基于早期实验中 75-25 分配方案显示出更高训练吞吐量而选择的
    • 尽管论文采用这一启发式配置,但最佳分配比例可能因不同设置而异,甚至可能受益于训练期间的动态调整,如第 8 节所述

End-to-End Comparison

  • 论文使用同步 RL 系统建立了两个 SOTA 基线 :
    • 针对 1.5B 模型数学推理任务的 DeepScaleR (2025)
    • 针对 14B 模型代码生成任务的 DeepCoder (2024)
    • 两者均使用 verl (2025) 进行训练
  • 对于更大的 7B 和 32B 模型,由于缺乏可比基线,论文使用 AReaL 的同步变体从头开始训练
    • 训练完成后,数学模型在 AIME24 基准上评估,代码模型在 LiveCodeBench (2025) 基准上评估
    • 其他基准的评估结果见附录 B
  • 表 1 展示了主要结果
    • 由于之前 SOTA 模型的代码可能过时,论文使用最新 verl 代码测量吞吐量并估算训练时长以确保公平对比
    • AReaL 在性能不降的前提下,显著加速训练,端到端训练时间相比同步系统最多减少 \(2.77 \times\)

Scalability

  • 论文比较了 AReaL 与 SOTA 同步 RL 系统 verl (2025) 在不同模型规模和上下文长度下的扩展性
  • 对于 7B 模型和 32k 上下文长度,论文选择 verl 不出现 OOM 问题时的最小 GPU 数量,然后根据模型规模按比例调整 GPU 数量
  • 论文测量训练的有效吞吐量,定义为 PPO 更新期间消耗生成 token 的速率(经过适当预热步骤后)
  • 图 4 展示了 16k 和 32k 上下文长度的结果。此处上下文长度指提示长度与生成长度之和,最大提示长度限制为 1k
  • 在所有设置中,AReaL 展现出近似线性的扩展趋势,而同步系统通常无法有效扩展
  • AReaL 的吞吐量在大多数设置中超过基线,最高可实现 \(2.5 \times\) 加速
  • 对于较短的上下文长度,AReaL 的优势可能较小,因为生成吞吐量无法匹配训练吞吐量
  • 尽管生成了许多序列,但它们未被训练过程有效消耗
  • AReaL 对生成长度的鲁棒性更强,因为异步和可中断的生成可以将长响应的生成完全隐藏在关键路径中,因此延长生成长度不会显著影响 AReaL 的有效训练吞吐量

Algorithm Ablations

  • 论文通过消融实验验证第 5 节的算法创新,使用 1.5B LRM 在数学任务上进行训练
  • Following DeepScaleR 的基本实验设置,并逐步增加 \(\eta\) 值进行消融
  • 具体来说,论文改变最大允许陈旧度 \(\eta\),并比较是否使用解耦 PPO 目标的配置
  • 图 5a 和图 5b 展示了 250 训练步后的学习曲线
  • 表 2 展示了多个数学推理基准上的最终评估性能
  • 论文 Following PPO 的常见实践,在每个训练步内执行多次小批量更新
  • 需要强调的是,\(\eta\) 限制了训练步级别的训练批次陈旧度
  • 图 5a 显示,朴素 PPO 无法匹配同步 RL 的性能(即 \(\eta=0\) 时的性能)
    • 即使轻微的陈旧度也会因不恰当的裁剪中心和可中断生成期间策略变化而显著降低最终性能
    • 此外,增加数据陈旧度会持续降低学习性能,这与之前在其他领域的研究观察一致 (2022; 2024)
    • 如图 5b 与图 5a 的对比所示,解耦 PPO 目标在处理陈旧数据时显著提高了训练稳定性,这与游戏领域的研究发现一致 (2022)
    • 即使使用解耦目标,无界陈旧度(最大陈旧度 \(\rightarrow \infty\))的性能仍低于零陈旧度的基准
    • 在适当约束下,中等陈旧度(如 \(\eta \leq 8\))对最终性能影响极小,同时通过异步流水线显著加速训练(如图 5c 和表 2 所示)
    • 这些结果验证了论文将受控陈旧度与解耦 PPO 目标结合用于高效异步 RL 训练的方法

System Ablations

  • 可中断生成(Interruptible Generation)
    • 论文消融可中断生成功能,生成吞吐量结果如图 6 所示
    • 若不可中断生成,控制器必须等待最长响应完成
    • 具体而言,在 4 节点上,可中断生成使 1.5B 和 7B 模型的吞吐量分别提升 12% 和 17%,验证了论文的架构设计选择
  • 动态微批次分配(Dynamic Microbatch Allocation)
  • 论文通过对比动态批处理与标准微批处理策略的 PPO 训练吞吐量,验证动态批处理的有效性
  • 标准微批处理策略可能导致多个长序列分配到同一微批次,通常需要足够多的微批次以防止内存不足
  • 实验中,论文为标准设置配置 32 个微批次,为动态批处理方法设置每微批次 32,768 token 的预算
  • 如图 7 所示,动态批处理在不同模型规模下平均提升 30% 吞吐量

补充:Related Work

RL for LLMs

  • RL 已成为增强 LLM 推理能力的主要范式 (2022)
  • 现有的 RL 方法通常聚焦于具有明确定义奖励函数(well-defined reward functions)的任务,包括数学推理 (2021)、代码生成 (2021)、科学问题求解 (2023) 以及工具使用 (2024)
  • 在训练过程中,模型通过逐步扩展 CoT 轨迹来学习推理 (2022)
  • 最近的开源项目通过小型蒸馏模型展示了显著的成功 (2024, 2025)
  • 论文的工作基于这一研究方向,与 preference-based RLHF (2022) 和零样本(zero-shot)推理方法 (2025) 不同
    • zero-shot 推理方法试图从预训练模型中直接获取推理能力,而无需任务特定的微调

Asynchronous RL

  • 解耦的异步 RL (decoupled asynchronous RL)架构 (2018, 2020) 结合相应的算法创新 (2018, 2019),在游戏应用中取得了显著成功 (2019, 2021)
  • 尽管类似的异步方法已用于 LLM 训练,但它们通常关注短上下文场景(如 RLHF)(2024) 或仅支持一到两步的生成-训练重叠 (2024, 2025)
  • 论文的研究扩展了这些工作,并在第 5 节展示了更灵活的陈旧性与训练速度之间的权衡
    • 与并发工作 (2025) 追求系统级效率最大化(maximizes system-level efficiency)不同,论文采用算法-系统协同设计方法,同时提供了表达性强的系统和实用的算法实现
  • 论文的可中断生成技术(interruptible generation technique)与同步 RL 系统中的部分轨迹生成 (2025) 概念相似
    • 不同于固定长度预算,AReaL 动态中断生成,同时通过缓冲保持训练批大小的稳定性,从而确保 PPO 的稳定性
    • 与先前方法 (2024, 2025) 相比,论文在异步设置中的算法创新能够容忍更高的数据陈旧性,并与可中断生成兼容

LLM Training and Inference

  • 论文的研究聚焦于 Dense Transformer 模型 (2017)
  • RL 训练主要包括生成(推理)和训练两个阶段
    • 生成阶段涉及自回归解码,需要高效的 KV 缓存管理 (2023) 和优化的解码内核 (2024)
    • 训练阶段则需要精心设计数据、张量和流水线并行策略 (2020, 2023)
  • 传统的同步系统在同一硬件资源上顺序执行生成和训练,但二者需要不同的最优并行化策略
  • 最近的研究提出了上下文切换 (context switching,2024) 或权重重分配技术 (weight resharding techniques,2024, 2025) 来解决这种不匹配问题
  • AReaL 通过解耦生成和训练 ,完全消除了关键训练路径(critical training path)中的重分配开销(resharding overhead) ,从而超越了同步 RL 系统

附录 A 实现细节

A.1 PPO Details

  • 论文禁用了 PPO 中的 Critic Model 和 Reference Model
  • GAE 中的优势估计参数 \(\lambda\) 和强化学习的折扣因子 \(\gamma\) 固定为 1
    • 问题:没有 Critic Model 如何评估 GAE?使用 GRPO 的评估方式吗?
  • 如果答案正确,则在最后一个 token 处奖励为 5,否则为 -5
  • 论文在全局批次中采用优势归一化(Advantage Normalization)以稳定训练
  • 其他与学习相关的超参数和配置见表 3

A.2 Dataset Details

  • 对于数学任务,论文使用了 DeepScaleR (2025) 的开源数据
  • 对于代码训练,论文使用了 DeepCoder (2025) 发布的数据集
  • 所有对比方法均使用相同的数据集

A.3 Dynamic Batching

  • 动态批处理算法如算法 A.1 所示:

A.4 Baselines

  • 在论文的实验中,论文使用 verl (2025) 的最新版本(20250507日的主分支)来评估图 4 中的训练吞吐量和表 1 中的训练时长
  • 对于大多数结果,论文使用 SGLang (2024) v0.4.6 作为生成后端,并使用 PyTorch FSDP (2023) 作为训练后端
  • 在少数情况下(例如 32B 模型或 64 节点的实验),如果 SGLang 报错,论文使用 vLLM (2023) v0.8.4 作为替代

附录 B Additional Results

  • 文在更多数学基准上评估了使用 AReaL 训练的模型,结果列于表 4

附录 C Proof of Proposition 1

  • 命题 1 :对于任何由策略序列 \((\pi_\theta, \ldots, \pi_{\theta+k})\) 生成的序列 \((q, a_1, \ldots, a_H)\),其中 \(\pi_{\theta+i}\) 生成 tokens \((a_{t_i}, \ldots, a_{t_{i+1} })\),且 \(1 = t_0 < \cdots < t_{k+1} = H\),存在一个行为策略 \(\pi_{\text{behav} }\),使得中断生成等价于完全从 \(\pi_{\text{behav} }\) 采样
  • 证明 :对于问题 \(q\),设 \(\mathcal{S}_i(q)\) 表示策略序列在步骤 \(t\) 遇到的状态。由于对于 \(i \neq j\) 有 \(\mathcal{S}_{t_i}(q) \cap \mathcal{S}_{t_j}(q) = \emptyset\)(理解:因为在 LLM 中,响应序列长度和时间步 \(t\) 唯一确定),我们可以构造:
    $$
    \pi_{\text{behav} }(\cdot|s) =
    \begin{cases}
    \pi_{\theta+j}(\cdot|s) & \text{if } \quad t_j \leq t \leq t_{j+1} \text{ and } s \in \mathcal{S}_t(q) \\
    \text{arbitrary} & \text{otherwise}
    \end{cases}
    $$

附录 D Limitations and Future Work

  • 论文的工作存在一些局限性,为未来研究提供了方向
  • 首先,推理设备与训练设备的比例可以针对特定训练设置进一步优化
  • 此外,这一比例可能受益于训练期间的动态调整,尤其是在微调预训练基础模型时,上下文长度通常会增加
  • 虽然论文的评估集中在单步数学和编码任务上 ,但 AReaL 架构并不局限于这些领域
    • 理解:这也算缺点?
  • 论文将多轮交互和智能体场景的探索留给未来工作

NLP——LLM-Reasoning-Coconut

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Coconut)Training Large Language Models to Reason in a Continuous Latent Space, Meta, 20251104

Paper Summary

  • 核心内容:
    • 论文介绍了一种在连续潜在空间中进行推理的新范式 Coconut,创新性很强,可能是未来的一个趋势,有可能开一个先河
    • Coconut 在潜在空间中进行推理产生了新行为,即 Continuous Thought 可以表示多个备选的后续步骤
    • Coconut 使得模型能够对可能的推理路径执行 BFS,而不是像语言空间 CoT 推理那样过早地承诺一条单一的确定性轨迹
  • LLM 被限制在“语言空间(Language Space)”中进行推理,通常通过 CoT 来表达推理过程以解决复杂的推理问题
  • 作者认为语言空间对于推理而言可能并非总是最优的
    • 如大多数 Token 主要是为了确保文本连贯性,对推理并非必需
    • 一些关键 Token 则需要复杂的规划,并对 LLM 构成了巨大挑战
  • 为了探索 LLM 在不受限制的潜在空间(Latent Space)中进行推理的潜力(而不是使用自然语言),论文引入了一个新范式 Coconut(连续思维链,Chain of Continuous Thought)
    • 利用 LLM 的最后一个隐藏状态作为推理状态的表示(称为“ Continuous Thought”)
  • 论文不是将其解码为一个 Token ,而是直接在连续空间中将其作为后续的输入嵌入反馈给 LLM
    • 这种 Latent Reasoning 范式导致了一种高级推理模式的出现:** Continuous Thought 可以对多个备选的后续推理步骤进行编码** ,使得模型能够执行广度优先搜索(Breadth-First Search, BFS)来解决问题,而不是像思维链那样过早地承诺单一的确定性路径
    • Coconut 在某些需要大量搜索规划的逻辑推理任务上优于思维链,并在准确性和效率之间展现了更好的权衡

Introduction and Discussion

  • LLM 已经展现出卓越的推理能力,这源于对人类语言的大规模预训练 (2024; 2023)
  • 虽然 Next Token Prediction 是一个有效的训练目标,但它对 LLM 作为一个推理机器施加了一个基本限制:
    • LLM 的显式推理过程必须用 Token 生成
    • 例如 CoT 推理 (2022),涉及提示或训练 LLM 使用自然语言逐步生成解决方案,但这与某些人类认知研究结果形成鲜明对比
      • 神经影像学研究一致表明,在各种推理任务中,负责语言理解和产生的脑区集合(语言网络)大部分保持不活跃状态 (2019; 2012, 2007, 2009; 2011)
    • 进一步的证据表明,人类语言是为沟通而非推理而优化的 (2024)
  • 当 LLM 使用语言进行推理时,一个显著的问题出现了:
    • 每个特定 Token 所需的推理量差异很大,然而当前的 LLM 架构为预测每个 Token 分配了几乎相同的计算预算
      • 理解:有些 Token 需要思考,有些 Token 是不需要的
    • 推理链中的大多数 Token 仅仅是为了流畅性而生成的,对实际的推理过程贡献甚微
      • 另一些关键 Token 则需要复杂的规划,并对 LLM 构成了巨大挑战
    • 先前的工作试图通过 Prompting LLM 生成简洁的推理链 (2022),或者在生成一些关键 Token 之前执行额外的推理 (2024) 来修复这些问题
      • 但这些解决方案仍然局限于语言空间内,并未解决根本问题
    • 理想的情况是: LLM 能够不受任何语言约束地自由推理,然后仅在必要时将其发现转化为语言
  • 论文引入一个新范式 Coconut(连续思维链,Chain of Continuous Thought)来探索 LLM 在潜在空间中的推理
    • Coconut 对传统思维链过程做了简单修改:
      • Coconut 不使用语言模型头和嵌入层在隐藏状态和语言 Token 之间进行映射,而是直接将最后一个隐藏状态(一个 Continuous Thought)作为下一个 Token 的输入 Embedding(图 1)
    • 这种修改将推理从语言空间中解放出来,并且系统可以通过梯度下降进行端到端优化,因为 Continuous Thought 是完全可微分的
    • 为了增强 Latent Reasoning 的训练,论文采用了受 (2024) 启发的多阶段训练策略,该策略有效地利用语言推理链来指导训练过程
  • 论文提出的范式给出了一种高效的推理模式
    • 对比基于语言的推理,Coconut 的 Continuous Thought 可以同时编码多个潜在的后续步骤,允许进行类似于 BFS 的推理过程
      • 理解:离散化本身是一个采样过程,会丢失一些信息,相当于在选择一条确定的路,而 Continuous Thought 则保留了未采样的分布信息
    • 虽然模型最初可能不会做出正确的决策,但它可以在 Continuous Thought 中保持许多可能的选择,并在某些隐式价值函数的指导下,通过推理逐步消除不正确的路径
    • 这种高级推理机制超越了传统的思维链,尽管模型并未像先前工作 (2023; 2023) 中那样被明确训练或指示以这种方式操作
      • 问题:如何理解上面这句话?
  • 实验表名:Coconut 成功增强了 LLM 的推理能力
    • 对于数学推理(GSM8k, 2021)任务, Continuous Thought 对推理准确性有益
      • 这表明通过链接更多 Continuous Thought 来扩展和解决更具挑战性问题的潜力
    • 在逻辑推理方面,包括 ProntoQA (2022) 和论文新提出的需要更强规划能力的 ProsQA(第 4 节)
      • Coconut 及其一些变体甚至超越了基于语言的思维链方法,同时在推理过程中生成的 Token 数量显著减少
      • 作者相信这些发现强调了 Latent Reasoning 的潜力,并可能为未来的研究提供宝贵的见解

Coconut: Continuous Thought 链 (Coconut: Chain of Continuous Thought)

  • 本节介绍新范式 Coconut(Chain of Continuous Thought),在不受约束的潜在空间中进行推理

Background

  • 对于输入序列 \(x=(x_{1},…,x_{T})\),标准的 LLM \(\mathcal{M}\) 可以描述为:
    $$
    \begin{align}
    H_{t} =\text{Transformer}(E_{t}) \\
    \mathcal{M}(x_{t+1}\mid x_{\leq t}) =\text{softmax}(Wh_{t})
    \end{align}
    $$
    • \(E_{t}=[e(x_{1}),e(x_{2}),…,e(x_{t})]\) 是直到位置 \(t\) 的 Token 嵌入序列;
    • \(H_{t}\in\mathbb{R}^{t\times d}\) 是直到位置 \(t\) 的所有 Token 的最后一个隐藏状态矩阵;
    • \(h_{t}\) 是位置 \(t\) 的最后一个隐藏状态,即 \(h_{t}=H_{t}[t,:]\);\(e(\cdot)\) 是 Token 嵌入函数;\(W\) 是语言模型头的参数

Method Overview

  • 在语言模式下,模型作为标准语言模型运行,自回归地生成下一个 Token
  • 在 Coconut 中, LLM 在“语言模式”和“潜在模式”之间切换(图 1)
    • 直接使用最后一个隐藏状态作为下一个输入嵌入
    • 这个最后一个隐藏状态代表了当前的推理状态,被称为“ Continuous Thought ”
  • 使用特殊 Token <bot> 和 <eot> 分别 Token Latent Thought 模式的开始和结束
  • 举例:假设 Latent Reasoning 发生在位置 \(i\) 和 \(j\) 之间,即 \(x_{i}=\) 且 \(x_{j}=\)
    • 当模型处于潜在模式时(\(i < t < j\)),论文使用前一个 Token 的最后一个隐藏状态来替换输入嵌入,即
      $$ E_{t}=[e(x_{1}),e(x_{2}),…,e(x_{t}),h_{i},h_{i+1},…,h_{t-1}]$$
    • 在潜在模式结束后(\(t\geq j\)),输入恢复为使用 Token 嵌入,即
      $$ E_{t}=[e(x_{1}),e(x_{2}),…,e(x_{t}),h_{i},h_{i+1},…,h_{j-1},e(x_{j}),…,e( x_{t})] $$
    • It is worth noting that 最后一个隐藏状态已经经过最终归一化层处理,因此它们的幅度不会太大
      • 当 \(i < t < j\) 时,\(\mathcal{M}(x_{t+1}\mid x_{\leq t})\) 未定义,因为 Continuous Thought 不打算映射回语言空间
      • 但出于探测目的,仍然可以计算 softmax(\(Wh_{t}\))(见第 5 节)

Training Procedure

  • 论文专注于一个问题解决场景,其中模型接收一个问题作为输入,并期望通过推理过程生成一个答案
  • 论文利用语言思维链数据,通过实施受 (2024) 启发的多阶段训练课程来监督 Continuous Thought
  • 如图 2 所示
    • 在初始阶段,模型在常规的思维链实例上进行训练
    • 在后续阶段中,在第 \(k\) 个阶段,思维链中的前 \(k\) 个推理步骤被替换为 \(k\times c\) 个 Continuous Thought(如果语言推理链短于 \(k\) 步,那么所有的语言思维都将被移除)
      • 其中 \(c\) 是一个超参数,控制替换单个语言推理步骤的 Latent Thought 数量
      • 问题:这里的推理步骤是如何定义和划分的?
    • 遵循 (2024),论文在训练阶段切换时也重置优化器状态
    • 论文插入 <bot> 和 <eot> Token (不计入 \(c\))来封装 Continuous Thought
  • 在训练过程中,优化标准的负对数似然损失,但屏蔽问题和 Latent Thought 上的损失
  • It is important to note that 目标并不鼓励 Continuous Thought 去压缩被移除的语言思维 ,而是去促进对未来推理的预测
    • 因此, LLM 有可能学习到比人类语言更有效的推理步骤表示

Training Details

  • Continuous Thought 是完全可微分的,并允许反向传播
  • 在当前训练阶段安排了 \(n\) 个 Latent Thought 时,论文执行 \(n+1\) 次前向传播,每次传播计算一个新的 Latent Thought ,最后进行一次额外的前向传播以获得剩余文本序列上的损失
  • 虽然可以通过使用 KV 缓存来节省任何重复计算,但多次前向传播的顺序性质对并行性提出了挑战
  • 进一步优化Coconut 的训练效率仍然是未来研究的一个重要方向

Inference Process

  • Coconut 的推理过程类似于标准的语言模型解码,除了在潜在模式下,直接将最后一个隐藏状态作为下一个输入嵌入
  • 一个挑战在于确定何时在潜在模式和语言模式之间切换
  • 论文专注于问题解决场景
    • 在问题 Token 之后立即插入一个 <bot> Token
    • 对于 <eot>,论文考虑两种潜在策略(或 关系):
      • a)在 Latent Thought 上训练一个二元分类器,使模型能够自主决定何时终止 Latent Reasoning
      • b)总是将 Latent Thought 填充到恒定长度
    • 作者发现两种方法效果相当
    • 在实验中,除非另有说明,论文出于简单性使用第二个选项

Continuous Space Enables Latent Tree Search(连续空间使得我们可以使用Latent 树搜索)

  • 本节提供了一个概念验证,证明了在连续潜在空间中进行推理的优势
  • 在 ProsQA 这个需要强大规划能力的新数据集上,Coconut 的表现优于语言空间的 CoT 推理
  • Interestingly,论文的分析表明,推理的连续表示可以编码多个备选的后续推理步骤
    • 这使得模型能够执行广度优先搜索来解决问题,而不是像语言 CoT 那样过早地承诺一条单一的确定性路径
  • 4.1 节:介绍实验设置
  • 4.2 节:通过利用 Coconut 在语言和潜在空间推理之间切换的能力,论文能够控制模型在完全 Latent Reasoning 和完全语言推理之间进行插值,并测试它们的性能
  • 4.3 节:作者将 Latent Reasoning 过程解释为树搜索(tree search)
  • 4.4 节:基于树搜索的视角,作者解释了为什么 Latent Reasoning 能帮助 LLM 做出更好的决策

Experimental Setup

Dataset
  • 论文引入了 ProsQA(Proof with Search Question-Answering),一个新的逻辑推理数据集
    • 一个可视化的例子如图 4 所示
  • ProsQA 中的每个实例都由一个概念间逻辑关系的有向无环图组成,以自然语言语句的形式呈现
  • 该任务要求模型通过在此图中找到有效路径来确定逻辑关系,这需要复杂的规划和搜索策略
  • 与之前的逻辑推理数据集(如 ProntoQA (Saparov and He, 2022))不同,ProsQA 的 DAG 结构引入了复杂的探索路径,使得模型识别正确的推理链特别具有挑战性
  • 关于数据集构建和特征的更全面细节可以在附录 A 中找到
Setup
  • 论文使用预训练的 GPT-2 模型作为所有实验的基础模型
  • 学习率设置为 \(1\times 10^{-4}\),有效批次大小为 128
  • 作者按照第 3 节的训练过程训练一个 Coconut 模型
  • 由于 ProsQA 中的最大推理步数为 6,论文在训练过程中将训练阶段数设置为 \(N=6\)
  • 在每个阶段,论文训练模型 5 个 Epoch ,并在最后一个阶段保持训练直到总共 50 个 Epoch
  • 使用最后一个阶段中准确率最高的检查点进行评估
  • 作为参考,论文报告了以下基线的性能:
    • (1) CoT:模型使用 CoT 数据进行训练,在推理过程中,模型会生成完整的推理链来解决问题
    • (2) no-CoT:模型仅使用问题和答案对进行训练,没有任何推理步骤
  • 为了理解 Latent Reasoning 空间和语言推理空间的特性,论文通过手动设置 <eot> Token 在推理过程中的位置,来操纵模型在完全 Latent Reasoning 和完全语言推理之间切换
  • 当强制 Coconut 使用 \(k\) 个 Continuous Thought 时,模型需要从第 \(k+1\) 步开始,以语言形式输出剩余的推理链
  • 在论文的实验中,论文在 ProsQA 上测试了 Coconut 的变体,其中 \(k\in \{0,1,2,3,4,5,6\}\)
    • 请注意,所有这些变体仅在推理时有所不同,而共享相同的模型权重
Metrics
  • 论文应用了两套评估指标
    • 一套基于 最终答案 的正确性,而不考虑推理过程。这也是后面章节(第 5.3 节)使用的主要指标
    • 为了对 ProsQA 进行细粒度分析,论文定义了另一个关于 推理过程 的指标
  • 论文将推理链分类为:
    • (1) 正确路径 (Correct Path) :输出是到达正确答案的最短路径之一
    • (2) 更长路径 (Longer Path) :正确回答问题但比最短路径长的有效路径
    • (3) 幻觉 (Hallucination) :路径包含不存在的边或是不连通的
    • (4) 错误目标 (Wrong Target) :图中的有效路径,但目标节点不是被问及的节点
  • 这四类自然地适用于 Coconut (\(k=0\)) 和 \(CoT\) 的输出,它们生成完整路径
  • 对于仅输出部分语言路径(初始步骤为连续推理)的 Coconut (\(k>0\)),如果存在一个有效的解释可以补全该路径,论文将其推理归类为正确路径
    • 类似地,作者也为部分路径定义了更长路径和错误目标
  • 如果没有有效的解释可以补全该路径,则归类为幻觉
  • 在 no-CoT 和具有较大 \(k\) 的 Coconut 中,模型可能只输出最终答案而没有任何部分路径,这属于
    • (5) 正确标签 (Correct Label) 或
    • (6) 错误标签 (Incorrect Label)
  • 以上这六个类别涵盖了所有情况且没有重叠

Overall Results

  • 图 3 展示了在 ProsQA 上评估的各种推理方法的比较分析
    • 使用 \(CoT\) 训练的模型经常幻觉出不存在的边或输出导致错误目标的路径,导致答案准确率较低
    • 利用连续空间推理的 Coconut 随着使用 Continuous Thought 数量的增加,表现出更高的准确率
    • 正确推理过程(由“正确标签”和“正确路径”表示)的比例显著增加
    • “幻觉”和“错误目标”的情况显著减少,这些问题通常在模型在推理过程早期犯错时出现
  • 图 4 所示的案例研究直观地展示了在语言空间进行推理的局限性
    • 如图所示,在语言空间操作的模型常常无法提前规划或回溯
      • 一旦它们承诺了一条错误的路径,它们要么幻觉出不支持的边,要么以不相关的结论终止
    • Latent Reasoning 通过使模型能够在多个推理步骤中迭代地优化其决策,避免了这种过早的承诺
      • 这种灵活性允许模型逐步淘汰不正确的选项并收敛到正确答案,最终实现更高的准确率

Interpreting the Latent Reasoning as Tree Search(将 Latent Reasoning 解释为树搜索)

  • 为了更好地理解 Coconut,论文通过在中间 Continuous Thought 之后强制模型显式生成语言推理步骤来探测 Latent Reasoning 过程(图 5)
    • 使用图 4 中展示的例子,在初始推理步骤,模型必须选择接下来考虑“Alex”的哪个直接子节点,具体是从集合 {“lempus”, “sterpus”, “zhorpus”, “grimpus”} 中选择
    • 这些候选下一步的分布如图 5 左侧所示
    • 在随后的推理步骤中,这些节点进一步扩展为一组扩展的潜在路径,包括“Alex”的所有孙节点(图 5 右侧)
  • 论文将 Continuous Thought 之后某个概念的预测概率定义为一个价值函数(图 5),用于估计每个节点到达正确目标的潜力
  • Interestingly,Coconut 采用的推理策略并非贪婪搜索:
    • 虽然在第一个推理步骤中“lempus”最初具有最高的价值 (\(0.33\))(图 5 左侧),但模型随后将最高价值 (\(0.87\)) 分配给了“grimpus”的子节点“corpus”,而不是跟随“lempus”(图 5 右侧)
    • 这个特性类似于广度优先搜索方法,与传统的 CoT 方法典型的贪婪解码形成鲜明对比
    • 连续表示能够编码多个候选路径的固有能力使模型能够避免立即做出确定性决策
    • Importantly,这种树搜索模式并不仅限于所展示的例子,而是构成了在 Coconut 中使用较大 \(k\) 值时观察到的一致改进的基本机制
  • 图 6 展示了模型在第一和第二个思维中 Latent Reasoning 并行性的分析
    • 对于第一个思维(左图),计算了前 1、前 2 和前 3 候选节点的累积价值,并针对它们在测试集中的相应百分位数进行绘制
    • 三条线之间的明显差距表明,模型在此阶段在其推理路径中保持了显著的多样性,表明了对替代可能性的广泛探索
    • In contrast,第二个思维(右图)显示这些差距在缩小
      • 这种趋势表明,模型在第二个 Latent Reasoning 步骤中从并行探索转向更集中的推理,很可能是因为它对最有希望的路径获得了更多的确定性

Why is Latent Space Better for Planning?

  • 基于树搜索的视角,作者进一步研究了为什么 Latent Reasoning 有益于规划任务
    • 具体来说,为什么保持多个候选路径并推迟确定性决策能提高推理性能
  • 作者的假设是,在早期推理阶段探索的节点本质上更难以准确评估,因为它们距离最终的目标节点更远
    • In contrast,位置更接近潜在目标的节点,由于后续探索的可能性较少,可以以更高的置信度进行准确评估
  • 为了系统地测试这一点,论文定义了一个节点的高度为其到任何叶节点的最短距离,并分析了节点高度与模型估计价值之间的关系
  • 理想情况下,一个正确的节点(即能够通向目标节点的节点)应该获得较高的估计价值,而一个不正确的节点(即不能通向目标节点的节点)应该获得较低的价值
  • 在整个测试集上的实证结果(图 7)支持了作者的假设:
    • 高度较低的节点持续获得更准确和明确的概率评估
    • Conversely,高度较大的节点表现出更模糊的评估,反映了不确定性的增加
  • 这些发现强调了潜在空间推理的优势
    • 通过延迟确定性决策并允许探索向终端状态进行, Latent Reasoning 显著增强了模型区分正确路径和错误路径的能力,从而在复杂的、规划密集的任务上相比传统的贪婪方法提高了性能

Coconut Empirical Results with Coconut

  • 在分析了 Coconut 有前景的并行搜索模式之后,论文通过更全面的实验验证了在连续潜在空间中进行 LLM 推理的可行性,突出了其相对于语言空间更好的推理效率,以及通过测试时缩放增强模型表达能力的潜力

Experimental Setup

Math Reasoning
  • 论文使用 GSM8k (2021) 作为数学推理的数据集
    • 它包含小学水平的数学问题
  • 为了训练模型,论文使用 (2023) 生成的合成数据集
  • 论文对每个推理步骤使用两个 Continuous Thought (即 \(c=2\))
  • 模型除了初始阶段外,还经历了 3 个阶段
  • 然后论文增加一个额外的阶段,该阶段仍像前一个阶段一样使用 \(3\times c\) 个 Continuous Thought ,但移除所有剩余的语言推理链
  • 这处理了推理链长度超过 3 步的长尾分布
  • 论文在初始阶段训练模型 6 个 Epoch ,在其余每个阶段训练 3 个 Epoch
Logical Reasoning
  • 逻辑推理涉及正确应用已知条件,使用逻辑规则来证明或反驳一个结论
  • 论文使用 ProntoQA (Saparov and He, 2022) 数据集和论文新提出的 ProsQA 数据集,后者由于有更多干扰分支而更具挑战性
  • 论文对每个推理步骤使用一个 Continuous Thought (即 \(c=1\))
  • 模型除了初始阶段外,还经历了 6 个训练阶段,因为这两个数据集中的最大推理步数为 6
  • 然后模型在最后一个阶段完全使用 Continuous Thought 来解决问题
  • 论文在每个阶段训练模型 5 个 Epoch
  • 对于所有数据集,在标准调度之后,模型停留在最终训练阶段,直到达到 50 个 Epoch
  • 论文根据验证集上的准确率选择检查点
  • 对于推理,论文手动设置 Continuous Thought 的数量,以与其最终训练阶段保持一致
  • 所有实验均使用贪婪解码

Coconut Baselines and Variants of Coconut

  • 论文考虑了以下基线:
    • (1) CoT
    • (2) No-CoT
    • (3) iCoT (2024):模型使用语言推理链进行训练,并遵循一个精心设计的、用于“内化” CoT 的调度
      • 随着训练的进行,推理链开头的 Token 被逐渐移除,直到只剩下答案
      • 在推理过程中,模型直接预测答案
    • (4) Pause token (2023):模型仅使用问题和答案(没有推理链)进行训练
      • 与 No-CoT 不同,在问题和答案之间插入了特殊的 <pause> Token ,这为模型提供了额外的计算能力来推导答案
      • <pause> Token 的数量设置为与 Coconut 中的 Continuous Thought 数量相同
  • 论文还评估了 Coconut 的一些变体:
    • (1) w/o curriculum: 直接在最后一个阶段训练模型
      • 模型使用 Continuous Thought 来解决整个问题
    • (2) w/o thought: 论文保留多阶段训练,但不添加任何连续 Latent Thought
      • 虽然这与 iCoT 的高层思想相似,但为了进行严格比较,其确切的训练调度设置为与 Coconut 一致,而不是 iCoT
    • (3) pause as thought:论文使用特殊的 <pause> Token 替换 Continuous Thought ,并应用与 Coconut 相同的多阶段训练课程

Results and Discussion

  • 在表 1 中展示了总体结果
    • 使用 Continuous Thought 有效地增强了 LLM 推理能力,超过了 No-CoT 基线
    • 例如,通过使用 6 个 Continuous Thought ,Coconut 在 GSM8k 上达到了 34.1% 的准确率,显著优于 No-CoT (16.5%)
“链接” Continuous Thought 增强了推理能力
  • 语言 CoT 被证明可以增加 LLM 的有效深度并增强其表达能力 (2023)
  • 因此,生成更多 Token 是推理时缩放的一种方式 (2025; 2024)
  • 这个理想的特性自然也适用于 Coconut
  • 在 GSM8k 上,Coconut 的表现优于使用类似策略训练的其他架构,包括 Coconut (pause as thought) 和 Coconut ( w/o thought )
    • 特别是,它超过了最新的基线 iCoT (2024),后者需要更精心设计的训练调度
  • 此外,论文尝试调整超参数 \(c\),它控制对应于一个语言推理步骤的 Latent Thought 数量(图 8, II)
    • 随着论文将 \(c\) 从 0 增加到 1 再到 2,模型的性能稳步提高
    • 这进一步验证了 Continuous Thought 能够扩展到更困难问题的潜力
  • 在另外两个合成任务中,论文发现 Coconut 的变体( w/o thoughts 或 pause as thought)以及 iCoT 基线也取得了令人印象深刻的准确率
    • 这表明在这些任务中,模型的计算能力可能不是瓶颈
    • 相比之下,GSM8k 涉及更复杂的上下文理解和建模,对计算能力提出了更高的要求
Continuous Thought 是高效的推理表示
  • 与传统的 CoT 相比,Coconut 在 ProntoQA 和 ProsQA 上生成的 Token 更少,同时实现了更高的准确率(表 1)
  • 尽管 Coconut 在 GSM8k 上没有超过 CoT ,但它在推理效率和准确率之间提供了更优的权衡(图 8, I)
  • 为了说明这一点,论文训练了一系列 CoT 模型,这些模型逐步“内化”(2024) 了初始的 \(m=\{0,1,2,3,\textrm{ALL}\}\) 个推理步骤,并绘制了它们的准确率与生成 Token 数量的关系图(在图中 Token 为“语言”)
  • 这些模型在跳过更多推理步骤时迅速失去准确率
  • 相比之下,通过应用 Coconut 训练策略——用两个 Continuous Thought 替换每个语言推理步骤——准确率的下降得到了显著缓解,即使在生成更少 Token 时也能保持更高的性能
  • 另一个有趣的观察是,当论文解码第一个 Continuous Thought 时,它通常对应于计算中可能的中间变量(图 9)
  • 这也表明 Continuous Thought 是更高效的推理表示
LLM 仍然需要指导来学习 Latent Reasoning
  • 在理想情况下,模型应该通过关于问题和答案的梯度下降自动学习最有效的 Continuous Thought (即 Coconut\(w/o\)\(curriculum\))
  • 然而,从实验结果中,论文发现以这种方式训练的模型表现并不比 no-CoT 更好
  • 相反,通过多阶段课程学习,Coconut 能够在各种任务中达到顶尖性能
  • 多阶段训练也能与 pause tokens 很好地结合(Coconut-pause as thought)
  • 尽管使用相同的架构和相似的多阶段训练目标,论文观察到:
    • \(iCoT\) 和 Coconut (\(w/o\)\(thoughts\)) 的性能之间存在微小差距
    • \(iCoT\) 中更细粒度的移除调度(逐个 Token )和其他一些技巧可能使训练过程更容易
  • 论文将结合 \(iCoT\) 和 Coconut 作为未来的工作
  • 虽然用于 Coconut 的多阶段训练已被证明是有效的,但肯定需要进一步的研究来开发更好、更通用的策略,以在潜在空间中学习推理,特别是在没有语言推理链监督的情况下

补充:Related Work

CoT 推理

  • 论文广义地使用思维链这个术语来指代在输出最终答案之前,用语言生成中间推理过程的方法
    • 这包括 Prompting LLM (2022; 2022; 2022),或者通过监督微调 (2023; 2023) 或强化学习 (2024; 2024; 2024; 2024b) 来训练 LLM 生成推理链
    • Madaan and Yazdanbakhsh (2022) 将思维链中的 Token 分类为符号、模式和文本,并基于对其角色的分析提出引导 LLM 生成简洁的思维链
    • 最近的理论分析从模型表达能力的角度证明了思维链的有用性 (2023; 2023; 2024)
    • 思维链使得 Transformer 的有效深度增加了,生成的输出被循环回输入 (2023)
  • 这些分析,结合思维链已确立的有效性,让我们能设计了将 Continuous Thought 反馈给 LLM 作为输入嵌入的方案
    • 虽然思维链已被证明对某些任务有效,但其自回归生成的性质使得在更复杂的问题上模仿人类推理具有挑战性 (2022; 2023),这些问题通常需要规划和搜索
    • 有一些工作为 LLM 配备了显式的树搜索算法 (2023; 2023; 2024),或者在搜索动态和轨迹上训练 LLM (2024; 2024; 2024)
    • 作者分析发现,在移除语言空间的约束后,即使模型没有经过明确的训练,也会出现一种类似于广度优先搜索的新推理模式

LLM 中的 Latent Reasoning

  • 先前的工作大多将 LLM 中的 Latent Reasoning 定义为 Transformer 中的隐藏计算 (2024; 2024)
    • Yang 等 (2024) 构建了一个双跳推理问题的数据集,并发现从隐藏表示中恢复中间变量是可能的
    • Biran 等 (2024) 进一步提出通过“反向修补”隐藏表示来干预 Latent Reasoning
    • Shalev 等 (2024) 在 LLM 中发现了并行的 Latent Reasoning 路径
  • 另一项工作发现,即使模型生成思维链进行推理,模型实际上可能利用的是不同的 Latent Reasoning 过程
    • 这种现象被称为思维链推理的不忠实性 (2022; 2024)
  • 为了增强 LLM 的 Latent Reasoning ,先前的研究提出用额外的 Token 来增强它
    • Goyal 等 (2023) 通过在训练语料库中随机插入一个可学习的 <pause> Token 来预训练模型
      • 这提高了 LLM 在各种任务上的性能,特别是在随后使用 <pause> Token 进行监督微调时
    • Pfau 等 (2024) 进一步探索了填充 Token (例如“…”)的使用,并得出结论它们对于高度可并行化的问题效果很好
      • 但Pfau 等 (2024) 提到这些方法不像思维链那样扩展 LLM 的表达能力;因此,它们可能无法扩展到更一般和复杂的推理问题
    • Wang 等 (2023) 提出在生成下一个推理步骤之前预测一个规划 Token 作为离散潜在变量
  • 最近还发现可以通过知识蒸馏 (2023) 或逐渐缩短思维链的特殊训练课程 (2024) 将思维链推理“内化”到 Transformer 的 Latent Reasoning 中
    • Yu 等 (2024b) 也提出从使用复杂推理算法生成的数据中蒸馏出一个能够进行 Latent Reasoning 的模型
  • 这些训练方法可以结合到论文的框架中:
    • 具体来说,作者发现,受 iCoT (2024) 启发,将 Continuous Thought 的学习分解为多个阶段对训练非常有益
    • 其他工作探索了用于 Latent Reasoning 的替代架构,包括循环 Transformer (2023; 2024),句子嵌入空间中的扩散模型 (2024)
  • 与这些工作不同,论文专注于一般的多步推理任务 ,并旨在研究 Latent Reasoning 与语言空间相比的独特属性
  • 除了推理任务,Pham 等 (2023) 也探索了使用连续空间进行多智能体通信
    • 基于 Coconut,Zhu 等 (2025b) 开发了一个理论框架,证明通过将多个推理路径编码在叠加状态中, Continuous Thought 链在某些任务上可以比离散思维链更高效
    • Zhu 等 (2025a) 分析了训练动态,以解释这种叠加是如何在 Coconut 训练目标下出现的

附录 A:数据集 Datasets

附录 A.1: 示例 Examples

  • 示例:

附录 A.2: Construction of ProsQA

附录 A.3: 统计数据 Statistics


附录 B:Clock-Time Reasoning Efficiency Metric

  • 论文提供了一个时钟时间比较来评估推理效率
  • 报告的值代表了在 Nvidia A100 GPU 上测量的、批次大小为 1 时每个测试案例的平均推理时间(以秒为单位)
  • 对于 no-CoT 和 CoT 基线,论文使用了 transformers 库中的标准生成方法。论文的结果表明,时钟时间通常与新生成的 Token 数量成正比,详见表 1

附录 C: 更多讨论 More Discussion

C.1 使用更多 Continuous Thought Using More Continuous Thoughts

  • 在图 8 (II) 中,论文展示了 Coconut 在 GSM8k 上使用 \(c\in\{0,1,2\}\) 的性能
  • 当试验 \(c=3\) 时,论文观察到性能略有下降,同时方差增大
  • 对训练日志的分析表明,一次性添加三个 Continuous Thought(尤其是在最后阶段转换期间)会导致训练损失急剧上升,从而引发不稳定性
  • 未来的工作将探索更细粒度的调度方案,例如像 iCoT (2024) 那样,逐步一次添加一个 Continuous Thought ,同时移除更少的语言 Token
  • 此外,将语言推理和 Latent Reasoning 相结合(例如,用语言生成推理骨架,并在潜在空间中完成推理过程)可能为提高性能和稳定性提供一个有前景的方向

C.2 使用更大模型的 Coconut Coconut with Larger Models

  • 论文在 GSM8k 上使用 Llama 3.2-3B 和 Llama 3-8B (2024) 以及 \(c=1\) 对 Coconut 进行了实验。论文在阶段 0 训练 3 个 Epoch ,随后每个后续阶段训练 1 个 Epoch
  • 结果如表 5 所示
  • 论文观察到,与 no-CoT 基线相比,在 Llama 3.2-3B 和 Llama 3-8B 模型上都取得了一致的性能提升,尽管这些改进不如之前使用 GPT-2 所展示的那么显著
    • 一个可能的原因是更大的模型已经经历了广泛的语言焦点预训练,使得向 Latent Reasoning 的转变更具挑战性
  • We emphasize that 论文的主要目标是突出潜在空间推理的有前景特性,并在这个新方向上启动探索
  • 要普遍超越基于语言的 CoT,很可能需要致力于潜在空间预训练的大量研究工作
  • 论文受到该领域近期进展 (2025; 2024; 2025) 的鼓舞
  • 虽然这些最近的模型为潜在表示学习提供了可扩展的方法,但潜在空间尚未被明确优化用于推理
  • 将这些最新进展与 Coconut 相结合,为未来的研究提供了一个令人兴奋且有前景的途径

NLP——LLM对齐微调-ARPO

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(ARPO)Agentic Reinforced Policy Optimization, RUC, Kuaishou, 20250726

Paper Summary

  • 核心总结:
    • 论文提出了一种专为训练多轮 LLM-based Agent 设计的创新强化学习算法:ARPO
    • 基于作者的前置实验表明,LLM 在工具使用后表现出高 Token 熵
    • ARPO 提出基于熵的自适应 Rollout 机制(entropy-based adaptive rollout mechanism),平衡全局和逐步采样,鼓励在高熵工具使用阶段的多样化探索
    • ARPO 集成优势归因估计(Advantage Attribution Estimation),使 LLM 能够内化逐步工具使用交互中的优势差异
    • 实验表明,在计算推理、知识推理和深度搜索领域的 13 个挑战性基准测试中,ARPO consistently 优于传统 Trajectory-level 强化学习算法
    • 特别注意:ARPO 仅需现有方法一半的工具使用训练预算即可实现卓越性能
  • 背景:
    • 目前已经有大量的工作证明了大规模RLVR 在释放 LLM 处理单轮推理任务潜力方面 的有效性
  • 问题提出:
    • 在现实推理场景中,LLM 通常可以利用外部工具辅助任务解决过程,但当前的强化学习算法未能充分平衡模型内在的长程推理(long-horizon reasoning)能力与多轮工具交互的熟练度(proficiency)
  • 为弥补以上差距,论文提出了一种专为训练 LLM-based 多轮 Agent 设计的新型 Agentic RL 算法:智能体强化策略优化(Agentic Reinforced Policy Optimization, ARPO)
    • ARPO 使用基于熵的自适应 Rollout 机制 :
      • 通过初步实验,论文观察到 LLM 在与外部工具交互后 ,往往会表现出高度不确定的行为 ,其特征是生成 Token 的熵分布增加
      • 受此启发,ARPO 引入了一种基于熵的自适应 Rollout 机制 ,动态平衡全局轨迹采样和 Step-level 采样,从而在工具使用(tool-use)后的高不确定性步骤中促进探索
    • ARPO 使用优势归因估计 ,使 LLM 能够内化逐步工具交互中的优势差异
  • 实验结论:
    • 论文在计算推理、知识推理和深度搜索领域的 13 个挑战性基准测试中验证了 ARPO 的优越性
    • 而且,ARPO 仅需现有方法一半的工具使用预算即可实现性能提升,为 LLM-based Agent 与实时动态环境对齐提供了可扩展的解决方案

Introduction and Discussion

  • RLVR 展现了释放前沿 LLM 潜力的强大能力,在各类单轮推理任务中表现出色(2024; 2025;)
  • 但在开放式推理场景中(2024; 2020;),LLM 不仅需要培养长程规划和自适应决策技能,还需参与与外部工具环境的动态多轮交互
  • 为应对这些挑战,智能体强化学习(Agentic Reinforcement Learning, Agentic RL)(2025; 2025)作为一种有前景的训练范式应运而生,将 LLM 训练从静态任务解决转向动态智能体-环境推理的领域(2017; 2025; 2024; 2025; 2025; 2025)
  • 当前的 Agentic RL 方法通常采用 Trajectory-level 算法,如 GRPO 或 DAPO(2024; 2025;)
    • 这些方法通过预定义的特殊 Token 独立采样完整的工具使用轨迹(tool-use trajectories),并基于最终输出提供奖励信号
    • 为解决工具过度使用和稀疏奖励问题(2025),一些研究尝试设计更优雅的奖励函数以更好地对齐工具使用行为(2025;)
      • 尽管取得了一定进展,但这些优化往往忽略了训练 LLM-based Agent 的一个关键方面:LLM 与工具环境之间的多轮交互循环(2025;)
    • 与单轮推理范式不同,多轮工具交互循环为 LLM 提供了实时多样且信息丰富的反馈
      • 这一特性凸显了发现有效逐步工具使用行为的必要性
  • 为深入理解 LLM 的 Step-level 工具使用行为,论文受到一系列基于熵的强化学习研究启发(2025; 2025; 2025),并量化了深度搜索任务中 LLM-based 搜索 Agent 在生成 Token 的熵分布变化
    • 如图 1(左)所示,LLM 在接收每轮工具调用反馈后生成的初始 Token 始终表现出高熵
    • 这表明外部工具调用显著引入了 LLM 推理过程的不确定性,揭示了 LLM-based Agent 中尚未充分探索的潜在行为(2023; 2024; 2025;)
  • 遗憾的是,当前的 Trajectory-level 强化学习方法往往过度强调完整 Rollout 采样的比较,而忽视了每个工具使用步骤中细粒度行为的探索(2024; 2024; 2025)
    • 这种忽视限制了对齐(更好的)工具使用行为所需的多样性和范围
  • 因此,有必要开发一种与智能体-环境交互特性相符的 Agentic RL 算法 ,以充分发挥 LLM-based Agent 潜力
  • 论文提出了 ARPO ,专为训练 LLM-based 多轮 Agent 设计的强化学习算法
  • ARPO 的核心原则是鼓励策略模型在高熵工具调用轮次中自适应分支采样,从而高效对齐 Step-level 工具使用行为:
    • 论文提出了一种基于熵的自适应 Rollout 机制,整合了全局和局部采样视角
    • 在 Rollout 阶段,LLM 首先执行多次全局采样,记录每个样本的初始熵分布
    • 每次工具调用后,论文进一步监测实时 Token 熵变化,并将其作为分支标准
      • 若熵变化超过预定义阈值,模型将执行额外的局部采样以探索更多样化的工具集成推理行为
    • 这一设计使 ARPO 能够有效扩展原始采样空间,同时平衡全局和 Step-level 工具使用行为的学习
  • 为充分利用自适应采样的优势,论文引入了优势归因估计 :
    • 论文探索了 ARPO 的硬优势和软优势设置,为同一推理路径上的 Token 分配共享优势值,而分支路径上的 Token 则分配不同的优势值
    • 这一机制鼓励模型内化 stepwise 工具使用行为中的优势差异
  • 论文的实验全面评估了计算推理(computational reasoning)、知识推理(knowledge reasoning)和Deep Search三大领域的 13 个数据集
    • 图 1(右)展示了深度搜索任务的总体结果
    • ARPO 在智能体训练中 consistently surpasses traditional sample-level RL algorithms in agentic training
    • ARPO 仅需轨迹级强化学习方法(trajectory-level RL methods)一半的工具调用预算即可达成这一目标,在准确性和效率之间实现了 optimal balance(进一步的扩展分析验证了 ARPO 以可扩展方式增强 LLM 智能体推理的能力)
  • 论文的关键贡献如下:
    • Token Entropy Quantification(量化分析) :论文量化了 LLM 在智能体推理过程中的 Token 熵变化,揭示了轨迹级强化学习算法(trajectory-level RL algorithms)在对齐 LLM-based 智能体时的固有局限性
    • ARPO 算法设计(ARPO Algorithm Design) :
      • ARPO 算法使用了基于熵的自适应 Rollout 机制(entropy-based adaptive rollout mechanism),在保持全局采样(global sampling)的同时,鼓励在高熵工具使用步骤进行分支采样(branch sampling);
      • ARPO 采用优势归因估计(Advantage Attribution Estimation),帮助 LLM 更好地内化逐步工具使用行为中的优势差异
    • Theoretical Foundation :作者从理论上证明了 ARPO 算法在 LLM-based 智能体训练中的适用性:
    • Empirical Validation :在 13 个具有挑战性的基准测试中,ARPO 优于主流强化学习算法,同时仅需一半的工具使用训练预算,这为探索智能体强化学习算法提供了 practical insights

Preliminary

Agentic RL

  • 论文将 Agentic RL 的训练目标表述为:
    $$
    \max_{\pi_{\theta} }\mathbb{E}_{x\sim\mathcal{D},y\sim\pi_{\theta}(\cdot|x;T)} \left[r_{\phi}(x,y)\right]-\beta\mathbb{D}_{\text{RL} }\left[\pi_{\theta}(y \mid x;T),|,\pi_{\text{ref} }(y \mid x;T)\right],
    $$
    • \(T\) 表示可用工具集合
    • \(\pi_{\theta}\) 表示策略 LLM
    • \(\pi_{\text{ref} }\) 是参考 LLM
    • \(r_{\phi}\) 表示奖励函数
    • \(\mathbb{D}_{\text{RL} }\) 表示 KL 散度
    • \(x\) 是输入,从数据集 \(\mathcal{D}\) 中采样
    • \(y\) 是对应的输出,可能穿插工具调用反馈
  • 与传统强化学习方法仅依赖 LLM Rollout 不同, Agentic RL 在推理过程中整合了工具调用反馈(2023; 2024; 2025;)。 Rollout 采样可分解为:
    $$
    P_{\theta}(\mathcal{R},y \mid x;T) = \underbrace{\prod_{t=1}^{t_{\mathcal{R} } }P_{\theta}(\mathcal{R}_{t}\mid\mathcal{R}_{ < t},x;T)}_{\text{Agentic Reasoning} } \cdot \underbrace{\prod_{t=1}^{t_{y} }P_{\theta}(y_{t}\mid y_{ < t},\mathcal{R},x;T)}_{\text{Answer Generation} }, \tag{2}
    $$
    • \(\mathcal{R}\) 是长度为 \(t_{\mathcal{R} }\) 的推理轨迹,穿插工具调用反馈
    • \(y\) 是长度为 \(t_{y}\) 的最终答案
  • 论文的 ARPO 基于规则化强化学习算法(如 GRPO(2024)、Reinforce++(2025))设计,旨在优化 LLM-based Agent

Analyzing Token Entropy in Agentic Reasoning

  • Token 熵计算(Calculation) :根据近期基于熵的强化学习研究(2025; ),论文在步骤 \(t\) 计算 Token-level 生成熵:
    $$
    H_{t}=-\sum_{j=1}^{V}p_{t,j}\log p_{t,j}, \quad \text{ where } {\boldsymbol{p} }_{t}=\pi_{\theta}\left(\cdot \mid \mathcal{R}_{ < t},x;T\right)=\text{Softmax}\left(\frac{ {\boldsymbol{z} }_{t} }{\tau}\right). \tag{3}
    $$
    • \(V\) 是词表大小
    • \({\boldsymbol{z} }_{t}\in\mathbb{R}^{V}\) 是 softmax 前的 logits
    • \(\tau\) 是解码温度
    • 特别注意:此熵反映的是 Token 生成分布的不确定性 ,而非特定 Token 的不确定性
  • Token 熵的初步实验(Pilot Experiment on Token Entropy) :为深入理解 LLM-based 工具使用智能体的推理过程,论文进行了初步研究,涉及两类智能体:
    • 一类使用搜索引擎处理知识密集型任务;另一类使用 Python 解释器处理计算任务
    • 论文测量了推理过程中 Token 熵的变化以评估不确定性
    • 如图 2 所示,论文的关键观察如下:
      • 1)每次工具调用后的前 10-50 个 Token 中,熵急剧上升;
        • Ob.1 归因:外部反馈与模型内部推理之间的分布偏移
      • 2)在早期推理阶段,熵趋于增加,但仍低于接收工具调用反馈后的水平;
        • Ob.2 归因:偏移引入的不确定性通常超过原始输入的不确定性
      • 3)搜索反馈比 Python 反馈引入更多不确定性
        • Ob.3 归因:搜索引擎通常返回信息丰富的文本内容 ,而 Python 输出由确定性数字组成 ,导致前者熵波动更大(Ob.3)
  • 这些发现凸显了 Trajectory-level 强化学习方法的局限性,其关注初始推理而忽视了工具调用反馈引入的不确定性
  • 论文提出的 ARPO 算法通过结合基于熵的探索来解决这一问题,该探索专为 LLM 智能体训练定制

Agentic Tool Design

  • 在本工作中,论文主要关注优化 LLM-based 工具使用智能体的训练算法
  • 通过对 Agentic RL 研究(2025;)进行全面回顾后,论文确定了三个代表性工具来实证评估 ARPO 的有效性:
    • Search Engine :通过执行网络查询来检索相关信息
    • Web Browser Agent :访问并解析搜索引擎返回的相关网页链接,提取并总结关键内容
    • 代码解释器(Code Interpreter) :自动执行语言模型生成的代码,返回执行结果(执行成功)或编译器错误信息(执行失败)

ARPO(Agentic Reinforced Policy Optimization)

  • ARPO 算法 旨在通过基于熵的引导,指导 LLM 探索逐步的工具使用行为,如图 3 和图 4 所示:
    • Entropy-based Adaptive Rollout :受初步实验(章节2.2)中观察到的熵变化启发,ARPO 扩展了传统的 Rollout 过程,不仅进行 Trajectory-level 采样,还在高熵的工具使用步骤进行分支采样
      • 通过平衡全局和局部采样,ARPO 鼓励更广泛的工具使用行为探索
    • 优势归因估计(Advantage Attribution Estimation) :为了更好地适应自适应 Rollout 机制,论文提出了优势归因估计,使模型能够更有效地内化逐步工具使用行为的优势差异
    • Theoretical Analysis :为了建立 ARPO 的理论基础,论文提供了一个形式化分析,证明 ARPO 在多轮训练场景中对 LLM-based Agent 具有良好的适应性
  • 以下论文将详细介绍论文的方法

Entropy-based Adaptive Rollout

  • 受初步实验(章节2.2)的启发,论文在 Rollout 阶段同时引入 Trajectory-level 采样和基于熵的局部采样,以覆盖更全面的采样范围
  • 该机制的设计包含以下四个核心步骤:
    • (1) Rollout Initialization :给定全局 Rollout 大小为 \( M \),LLM 首先基于输入问题 \( q \) 通过 Trajectory-level 采样生成 \( N \) 条轨迹,剩余的 \( M-N \) 条轨迹预算保留用于局部采样
      • 随后,论文使用公式 3 计算每条轨迹中前 \( k \) 个 Token 的熵,形成初始熵矩阵 \( H_{\text{initial} } \in \mathbb{R}^{1 \times k} \)
    • (2) 熵变化监测(Entropy Variation Monitoring) :记录初始熵后,模型按照公式 2 的定义与工具进行 Agent 推理
      • 为了持续监测每次工具调用后的熵动态变化,论文允许模型在拼接工具调用响应后生成额外的 \( k \) 个 Token
      • 对于工具调用步骤 \( t \),论文计算 Step-level 熵矩阵 \( H_t \in \mathbb{R}^{1 \times k} \),并通过以下公式量化相对于初始状态的归一化熵变化:
        $$
        \Delta H_t = \text{Normalize}(H_t - H_{\text{initial} })
        $$
      • 其中归一化表示将所有 \( \Delta H \) 的值除以词表大小 \( V \) 求和,正值表示工具调用步骤 \( k \) 后不确定性增加,负值则表示不确定性降低
        • 问题:为什么归一化要除以 词表大小 \( V \)?
    • (3) Entropy-based Adaptive Beaming(束搜索) :为了鼓励在具有有益熵变化的工具使用路径上进行自适应探索,论文定义工具调用步骤 \( t \) 的局部采样概率如下:
      $$
      P_t = \alpha + \beta \cdot \Delta H_t, \quad \text{Action}(P_t) =
      \begin{cases}
      \text{Branch}(Z), & \text{if } P_t > \tau \\
      \text{Continue}, & \text{otherwise}
      \end{cases}
      $$
      • \( \alpha \) 是基础采样概率
      • \( \beta \) 是稳定性熵值(stability entropy value)
      • 如图 4(a) 所示,模型使用 \( P_t \) 决定其分支行为:
        • 当 \( P_t \) 超过预定义阈值 \( \tau \) 时,从当前节点启动 \( \text{Branch}(Z) \),分出来(branching) \( Z \) 条局部推理路径;
        • 否则继续沿当前轨迹推进
      • 这一机制使模型能够自适应地将探索资源分配到推理空间中信息丰富的区域(推理空间中熵上升的步骤);
        • 注:推理空间中熵上升,则表明其潜在信息丰富,这里就是指将探索资源分配到熵上升的 步骤 上
    • (4) 终止条件(Termination) :该过程迭代直到满足以下条件之一:
      • (1) 如果分叉路径总数 \( \hat{Z} \) 达到局部采样预算 \( M-N \),则停止分支并继续采样直到生成最终答案;
      • (2) 如果所有路径在达到 \( M-N \) 前终止,则补充 \( M-N-\hat{Z} \) 条额外的 Trajectory-level 样本以满足条件 (1)
  • 通过利用这种高效的 Rollout 机制,ARPO 促进了不确定性感知的探索,使 LLM 能够更有效地识别逐步工具调用行为
    • 假设全局扩展大小和每条轨迹的 Token 数为 \( n \),ARPO 将每次 Rollout 的计算复杂度从 Trajectory-level RL 的 \( O(n^2) \) 降低到介于 \( O(n \log n) \) 和 \( O(n^2) \) 之间

Advantage Attribution Estimation(优势归因估计)

  • 论文的基于熵的自适应 Rollout 机制自然地生成了包含共享推理 Token 段(segments)和不同束路径的轨迹(图 4),这促使论文探索一种更有原则的 Agent RL 策略更新策略
  • 为此,论文考虑以下两种优势分配设置:
  • 硬优势估计(Hard Advantage Estimation) :如图 4(b) 所示,一种直接的方法是在优势级别明确区分每条轨迹的共享部分和独立部分,从而鼓励模型捕获逐步工具使用行为
    • 独立 Token 的优势 :给定 \( d \) 条共享某些 Token 但在其他部分分叉的轨迹,论文使用归一化奖励 \( R_i \) 计算独立 Token 的优势:
      $$
      \hat{A}_{i,t} = \frac{r_t - \text{mean}(\{R_i\}_{i=1}^G)}{\text{std}(\{R_i\}_{i=1}^G)}
      $$
      • 注意:\(r_t \) 是步骤 \(t\) 对应的奖励
    • 共享 Token 的优势 :对于共享 Token ,论文分配包含共享段的 \( d \) 条轨迹的平均优势:
      $$
      \hat{A}_{i,t}^{\text{shared} } = \frac{1}{d} \sum_{i=1}^d \hat{A}_{i,t}
      $$
  • 软优势估计(Soft Advantage Estimation) :硬优势分配的一种优雅替代方案是在策略优化过程中隐式整合共享和独立 Token 段的区别
    • 对于每个输入问题 \( x \),GRPO 使参考策略 \( \pi_{\text{ref} } \) 生成一组响应 \( \{y_1, y_2, \ldots, y_G\} \),并通过最大化以下目标优化策略:
      $$
      J_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a)\sim D,\{y_i\}_{i=1}^G \sim \pi_{\theta_{\text{old} } }(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \text{clip} \left( r_{i,t}(\theta), 1-\epsilon, 1+\epsilon \right) \hat{A}_{i,t} \right) - \beta D_{\text{KL} }(\pi_{\theta} \parallel \pi_{\text{ref} }) \right]
      $$
    • GRPO 目标通过重要性采样比 \( r_{i,t}(\theta) \) 整合了共享和独立 Token 的区别:
      $$
      r_{i,t}(\theta) = \frac{\pi_{\theta}(y_{i,t} \mid x, y_{i,< t})}{\pi_{\text{ref} }(y_{i,t} \mid x, y_{i,< t})}, \quad
      \begin{cases}
      r_{i,t}(\theta) = r_{j,t}(\theta), & \text{if } y_{i,< t} = y_{j,< t} \text{ (i.e., shared tokens)} \\
      r_{i,t}(\theta) \neq r_{j,t}(\theta), & \text{if } y_{i,< t} \neq y_{j,< t} \text{ (i.e., individual tokens)}
      \end{cases}
      $$
    • 如上述公式所示,当轨迹 \( y_i \) 和 \( y_j \) 在 Token \( t \) 处进行部分 Rollout 时,它们共享相同的响应前缀 Token ,即 \( y_{i,< t} = y_{j,< t} \)
      • 两条轨迹中的共享前缀 Token 被分配相同的重要性权重 \( r_{i,t}(\theta) \)
      • 在 GRPO 公式中,数学解释是策略更新由每组内 Token 的平均优势指导,作为损失信号
      • 论文在附录 D.1 中为上述论点提供了详细证明
    • 问题:软优势估计是直接复用 GRPO 的损失函数吗?是否不需要考虑优势估计了?
  • 在实践中,论文进一步比较了 RL 训练中硬优势估计和软优势估计的奖励变化
    • 如图 5 所示,软优势估计在 ARPO 训练期间实现了更稳定的更高奖励(因此,论文的 ARPO 默认使用软优势估计)
  • Hierarchical Reward Design :奖励函数作为优化目标,指导策略模型在训练期间的行为
    • 论文遵循 Tool-Star (2025),同时考虑正确性和格式奖励,以及多工具协作奖励机制
    • 当模型生成正确答案、遵循正确的工具调用格式、并在推理过程中使用多个工具(即 [search] 和 [python])时,会给予额外奖励 \( r_M \)
    • 总体奖励 \( R \) 正式定义为:
      $$
      \begin{align}
      R =
      &\begin{cases}
      \max(\text{Acc.} + r_{\text{M} }, \text{Acc.}), & \text{ If Format is Good & } \text{Acc.} > 0 \\
      0, & \text{ If Format is Good & } \text{Acc.} = 0 \\
      -1, & \text{ Otherwise }
      \end{cases}, \\
      r_{\text{M} } =
      &\begin{cases}
      0.1, & \text{If } \exists(\text{search} > \text{python}) \\
      0, & \text{ Otherwise}
      \end{cases}
      \end{align}
      $$
  • ARPO 算法的详细流程图见算法 1

Theoretical Foundation

  • 论文的方法利用了自适应部分 Rollout 机制,该机制涉及在高熵工具使用步骤进行分支
  • 本节的目标是阐明这一机制背后的原理
    • 如图 4 所示,自适应部分 Rollout 机制(adaptive partial rollout mechanism)将 Transformer-based 策略的输出 Token \( <OT_1, OT_2, \ldots, OT_{|output|}> \) 动态分割为 \( K \) 段
      • 每段定义为一个宏动作 \( MA_i \triangleq <OT_m, OT_{m+1}, \ldots, OT_{m+n}> \)
    • 对应的宏状态定义为 \( MS_1 \triangleq <IT_1, IT_2, \ldots, IT_{|input|}> \) 和 \( MS_i \triangleq <MS_{i-1}, MA_{i-1}> \)
    • 这种分割使论文能够推导出适用于所有 Transformer-based 策略的广义策略梯度(Generalized Policy Gradient, GPG)定理:
      $$
      \nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta} } \left\{ \sum_{T=1}^K \left[ \nabla_{\theta} \log \pi_{\theta}(MA_T | MS_T) A_T(\tau) \right] \right\}
      $$
      • \( T \) 表示宏步骤
      • \( A_T(\tau) \) 表示轨迹 \( \tau \) 的优势
  • GPG 定理断言,对于任何可微的 Transformer-based 策略 \( \pi_{\theta} \) 和任何目标函数 \( J(\theta) \),可以使用宏动作(即部分 Rollout 段)有效地进行优化
    • 这一概括涵盖了传统的策略梯度定理 (1999),即:
      $$ \nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta} } \left\{ \sum_{t=1}^H \left[ \nabla_{\theta} \log \pi_{\theta}(a_t | s_t) A_t(\tau) \right] \right\} $$
      • 其中 \( a_t \) 是 Transformer 的单个输出 Token
      • 以上是更广泛的 GPG 框架的一个特定实例
  • 作为 GPG 定理的高级实现,ARPO 提供了一个坚实的理论基础
    • GPG 定理的形式化证明见附录 D.2

Experiment

Datasets

  • 为了全面评估 ARPO 算法在训练 LLM-based 工具使用智能体方面的有效性,论文在以下三类长程推理任务上进行了实验:
    • 1)Mathematical Reasoning :包括 AIME2024、AIME2025、MATH500 (2024)、MATH (2021) 和 GSM8K
    • 2)知识密集型推理(Knowledge-Intensive Reasoning) :包括 WebWalker (2025b)、HotpotQA (2018)、2WikiMultihopQA (2020)、Musique (2022) 和 Bamboogle (2023)
    • 3)Deep Search :包括 GAIA (2024)、WebWalker (2025b)、Humanity’s Last Exam (HLE, 2025) 和 xbench (2025a)
  • 为确保一致性,论文遵循 Tool-Star (2025) 的测试集划分方式处理数学和知识推理基准,而对于深度搜索基准,则采用 Webbinker 和 HIRA (2025b; 2025a) 的 Deepsearch 测试集划分

Baselines

  • 为有效评估 ARPO 的效果,论文选择了以下三类基线方法:
    • 1)直接推理(Direct Reasoning) :对于数学和知识推理任务,论文评估了 Qwen2.5 (2024) 和 Llama3.1 (2024) 系列的指导版本模型。由于 Qwen3 系列 (2025) 在数学任务上表现优异,论文使用其作为深度搜索任务的测试主干模型。同时,论文还参考了 QwQ (2024c)、DeepSeek-R1 (2025)、GPT-4o (2024) 和 o1-preview (2024) 等强推理模型
    • 2)Trajectory-level RL Algorithms :论文将 ARPO 与常见的 Trajectory-level 强化学习算法进行比较,包括 GRPO (2024)、DAPO (2025) 和 REINFORCE++ (2025)
    • 3)LLM-based 搜索智能体(LLM-based Search Agent) :对于深度搜索任务,论文纳入了 GRPO 和一系列开源的工作流搜索智能体作为参考,例如 Vanilla RAG (2020)、Search o1 (2025d)、Webthinker (2025e) 和 ReAct (2022)

Training Guideline

  • 本研究的目标是 在算法层面验证 ARPO 相较于传统强化学习在训练 LLM 智能体上的有效性,而非单纯追求性能提升
  • 为确保可复现性,所有训练框架和数据集均来自公开资源
  • 具体实验遵循冷启动 SFT 与强化学习结合的范式 (2025; 2025),以避免初始强化学习阶段的奖励崩溃问题
  • 1)冷启动微调阶段(Cold-Start Finetuning Phase) :使用 LLaMAFactory (2024) 框架,基于 Tool-Star 开源的 54K 训练样本数据集。为丰富数学推理数据质量,论文额外引入了 STILL 数据集 (0.8K),灵感来自 CORT (2025a)
  • 2)强化学习阶段(RL Phase) :为评估 ARPO 在不同场景下的表现,论文探索了以下领域:
    • 深度推理任务(Deep Reasoning Tasks) :包括计算推理(如 AIME24、MATH500)和多跳知识推理(如 HotpotQA、Bamboogle)
      • 论文使用 Tool-Star 开源的 10K 强化学习训练样本进行算法比较
    • 深度搜索任务(Deep Search Tasks) :这类任务需要广泛的网络探索和信息整合,涉及长上下文和频繁的工具交互
      • 论文仅使用 SimpleDeepSearcher (2025b) 和 WebSailor (2025c) 的 1K 混合硬搜索样本进行训练
  • 为加速强化学习阶段,论文整合了 Bing 搜索引擎的前 10 条摘要作为搜索结果,在沙箱环境中使用 Python 编译器,并以 token-level F1 分数作为正确性信号
    • 问题:如何理解这里的 token-level F1 分数作为正确性信号?

Evaluation Metric

  • 在评估阶段,论文使用具备浏览器功能的搜索引擎以对齐标准推理性能
  • 对于准确性,知识密集型推理中的四个问答任务采用 F1 分数作为指标,其他任务则使用 Qwen2.5-72B-instruct 在 LLM-as-Judge 设置下评估
  • 论文采用非零温度的 pass@1 评估,将温度和 top-p 分别设为 0.6 和 0.95
    • 对于所有任务,论文遵循先前工作 (2025c) 的设定,从模型输出中提取 \box{} 内的答案
    • 问题:这里的 非零温度 是什么意思?
    • 回答:这里的反面不是指温度真的为 0,而是无穷小;温度为 0 时,对应的是贪心策略;这里相当于是说使用的不是贪心策略(而是有一定随机性的策略)

Main Results

Results on Mathematical & Knowledge-Intensive Reasoning
  • 表 1 展示了主要结果
    • 在公平设置下,ARPO 始终优于所有 Trajectory-level 强化学习算法,确立了其优越性
  • 此外,作者还强调他们的以下发现:
    • 提示方法的无效性(Ineffectiveness of Prompting Methods) :工具集成提示(Tool-integrated prompting,TIR)方法 (2025c) 未能有效探索更优的工具使用行为
      • 对于 Qwen 和 Llama 系列模型,TIR 提示的性能提升有限,甚至低于直接推理
      • 这表明仅依赖提示工程不足以引导 LLM 实现最佳工具行为 ,甚至可能破坏其固有推理能力
    • Trajectory-level 强化学习的局限性(Limitations of Trajectory-Level RL) :与 ARPO 相比,三种经典 Trajectory-level 强化学习算法未能有效利用工具集成推理的潜力
      • DAPO 在单轮推理任务中表现优异 ,但在多轮工具调用交互中表现不佳(尤其是在知识密集型场景中)
      • 这与论文的初步观察一致,即 Trajectory-level 强化学习算法难以激发 LLM 学习细粒度的工具使用行为
    • ARPO 的稳健性能(Robust Performance of ARPO) :在相同实验设置下,ARPO 在 10 个数据集上始终优于其他强化学习算法,平均准确率提升 4%,同时在各个领域保持竞争力
      • ARPO 在 Qwen 和 Llama 系列等不同主干模型上均表现出显著提升
      • 这些结果凸显了 ARPO 的高效性、强适应性以及在不同模型主干和任务上的广泛适用性
Results on Deep Search Tasks
  • 为验证 ARPO 在挑战性深度搜索场景中的有效性,论文比较了 Qwen3 系列模型(仅用 1K 强化学习样本训练)与一系列强基线方法的表现
  • 论文的观察如下:
    • ARPO 在深度搜索领域的泛化能力(Generalization of ARPO in Deep Search Domain) :在深度搜索场景中,即使是 SOTA LLM(如 GPT-4o 和 DeepSeek-R1-671B)表现也有限,在 HLE 基准上分别仅得 2% 和 8.6%
      • 相比之下,ARPO 仅使用 Qwen3-8B 和 14B 模型就取得了显著性能,在 HLE 和 GAIA 基准上分别达到 pass@1 分数 10.0% 和 43.2%
      • 特别地,在强化学习阶段,ARPO 仅使用开源网络搜索数据集的 1K 样本进行训练,展示了其在工具集成推理能力上的高效性
    • 探索分步工具使用行为的重要性(Importance of Step-Level Tool Use Behavior Exploration) :ARPO 在平均性能和单个基准上均优于 GRPO,尤其在 GAIA 和 WebwalkerQA 基准上提升了 6%
      • 这凸显了 ARPO 算法设计的核心价值:通过平衡全局和分步采样,促进 LLM 在高熵工具使用步骤中探索多样化行为 ,这对涉及频繁工具调用的深度搜索场景至关重要

Quantitative Analysis(定量分析)

  • 规模化采样分析(Analyzing Sampling at Scale)
    • 由于深度搜索评估的动态性和多轮交互特性,pass@1 不足以捕捉模型的工具使用潜力
    • 因此,论文进一步对 pass@3 和 pass@5 进行了采样分析(如图 6 所示)
    • 8B 和 14B 模型在 ARPO 对齐阶段后均表现出稳定的提升和扩展趋势
    • 论文的 Qwen-14B 结合 ARPO 在 pass@5 上取得了显著性能,GAIA 达到 61.2%,HLE 达到 24.0%,xbench-DR 达到 59%
    • 这种在 pass@K 上的稳定提升主要归功于 ARPO 能够更高效地探索细粒度工具使用行为,从而扩展采样空间,实现推理效率和采样多样性的平衡
      • 原文注释:由于 xbench-DR 完全由中文问题组成,论文使用中文提示分析 pass@k 结果,导致性能相较于表 2 有所提升
  • Tool-Call Efficiency Analysis
    • 在 Agentic RL 训练中,增加工具调用次数通常会导致高昂成本
    • 因此,有效的 Agentic RL 算法必须确保工具使用效率
    • 为评估 ARPO 在训练中的工具使用效率,论文将其与 GRPO 在 Qwen2.5-7B 上进行比较
    • 如图 7 所示,ARPO 在仅使用 GRPO 一半工具调用次数的情况下实现了更优的整体准确率
    • 这种效率归功于 ARPO 独特的基于熵的自适应采样机制,仅在工具调用步骤的高熵阶段选择性探索分支,显著扩展了工具行为的探索空间,同时大幅减少了工具调用次数
  • Ablations of Browser Agents
    • 为进一步研究浏览器智能体在深度搜索任务中的重要性,论文设计了三种浏览器设置,按能力从弱到强排序:
      • 1)无浏览器,仅使用摘要;
      • 2)与推理模型规模相似的浏览器智能体;
      • 3)更大参数的浏览器智能体
    • 如表 3 所示:
      • 无浏览器的场景表现最差 ,表明仅依赖规则生成的网页摘要无法为深度搜索任务提供必要的信息支持
      • 随着浏览器智能体能力的提升,模型性能显著提高,证明更强大的搜索智能体能更有效地整合信息并提取与问题相关的关键细节
      • 结论:外部浏览器智能体的能力与深度搜索任务的准确性高度相关,且随着其规模扩大呈现明显上升趋势

Scaling Analysis of ARPO

  • 为验证 ARPO 的可扩展性并深入理解其特性,论文以 Qwen2.5-7B 模型为 Backbone,对三个核心参数进行了规模化分析:熵值(\(\Delta H_t\))、全局采样大小(\(M\))和初始采样大小(\(N\))
  • 论文的观察如下:
    • 1)熵值(\(\Delta H_t\)) :如图 8(左)所示,模型性能随熵值增加而提升,在 0.4 处达到峰值
      • 这表明将适量熵值作为部分采样的线索能显著增强模型探索罕见工具使用行为的能力,从而改善训练效果
      • 但当熵值达到 1.0 时,性能下降,表明熵值在采样中的权重需要权衡,过度依赖熵值可能降低采样多样性,验证了 ARPO 中平衡基础采样概率 \(\alpha\) 与熵值的必要性
    • 2)初始采样大小(\(N\)) :图 8(中)显示,随着初始采样大小增加,模型性能提升,在 8 处达到峰值
      • 全局采样大小为 16 时,将初始采样大小从 0 增加到 8 会将全局与部分采样的比例从 1:15 调整为 1:1,这凸显了平衡采样比例对提升性能的重要性
      • 如预期所示,将初始采样大小增至 16 会导致性能大幅下降,因为这会导致完全全局采样,破坏动态采样平衡
    • 3)全局采样大小(\(M\)) :如图 8(右)所示,增加全局采样大小能提升模型性能
      • 表明 ARPO 算法具有可扩展性,且能通过更大规模的采样提升泛化性能

Related Work

RLVR(Reinforcement Learning with Verifiable Reward)

  • 近年来,RLVR 已成为 RLHF 领域的重要方法,尤其在提升数学和编程推理能力方面表现突出(2024; 2025;)
  • OpenAI 的 o1 模型(2024)首次展示了强化学习在大规模推理任务中的有效性
  • 随后,DeepSeek R1(2025)、QwQ(2025)和 Kimi k1.5(2025)等模型致力于复现并超越其性能
  • 为了提升强化学习算法的性能和稳定性,研究人员开发了 DAPO(2025)和 SimpleRIZoo(2025)等模型,探索了强化学习模块的多样化设计(2019; 2024; 2025)
    • Lin 等人发现关键 Token 对模型行为的影响,并表明替换这些 Token 可以改变模型行为
    • 研究(2025; 2025)指出 RLVR 主要学习格式而非内容,而另一些工作(2025; 2025; 2025; 2025)则通过高熵 Token 探索强化学习的本质
  • 但专门针对 LLM 智能体的 RLVR 算法仍未被充分探索
  • 论文利用熵作为标准,研究适用于 LLM 智能体行为的强化学习算法

Agentic RL

  • 强化学习对于使 LLM 智能体适应动态开放环境至关重要(2025; 2020; 2024)
  • 奠基性工作如 DQN(2015)和 AlphaZero(2017)表明,基于自我对弈的强化学习可以为智能体赋予从自然语言理解到策略游戏的能力(2015)
  • 在此基础上,基于价值的强化学习方法被用于增强硬件控制和复杂游戏任务中的智能体能力(2024; 2017; 2019)
  • 近期研究以 RAGEN(2025; 2024)为例,将推理状态和环境交互整合到回合级响应中,使用 Trajectory-level 强化学习
  • 为了提升工具集成推理能力,研究(2025; 等)采用基于规则的强化学习,教导 LLM 如何自主调用外部工具(如搜索引擎、Python 编译器)以提高推理准确性
  • 进一步研究包括 ToolRL(2025)、Tool-Star(2025)和 OTC(2025),探索多工具集成和工具使用效率
  • Kimi Deepresearcher 和 Websailor(2025)等系列工作优化强化学习算法,以更好地适应深度搜索的长上下文场景
  • 大多数研究通过奖励设计和滚动机制改进工具调用,但简单地应用 Trajectory-level 强化学习无法有效捕捉 LLM-based Agent 在多回合、长视野行为中的特征
    • 这促使论文提出 ARPO,尝试学习逐步工具使用行为模式

附录 A:Datasets

A.1 Mathematical Reasoning Benchmarks

  • AIME24 是一个用于评估模型数学推理能力的数据集,包含 30 道具有挑战性的数学问题
    • 这些问题均来自美国数学邀请赛(American Invitational Mathematics Examination)
    • AIME24 数据集中的问题涵盖了代数方程、几何谜题等多种数学领域
    • 由于其题目难度和类型的丰富性,该数据集已成为评估模型推理性能的热门基准,并被广泛应用于多项相关研究实验中
  • AIME25 包含 30 道具有挑战性的数学问题,直接选自 2025 年 2 月新发布的美国数学邀请赛(AIME I & II)真题
    • AIME25 的知识领域极为广泛,深度覆盖了代数、几何、数论和组合数学等核心数学分支
    • 这一特点使得 AIME25 数据集能够有效区分不同模型的数学推理能力
  • MATH500 (2024) 由 OpenAI 从 MATH 评估数据集中精选而出,包含 500 道高难度数学问题
    • 这些问题涵盖代数、几何、微积分和数论等多个数学领域,难度接近或超过大学水平
    • 在学术研究中,MATH500 数据集常被用于评估各种推理模型的性能
  • MATH (2021) 是一个重要的学术数据集,旨在测试和提升模型的数学推理能力
    • 它涵盖了抽象代数、微积分和离散数学等广泛的数学领域
    • 该数据集将训练数据分为三个级别,有助于有效评估模型在不同阶段的表现
  • GSM8K (2021) 是 OpenAI 发布的小学数学问题数据集
    • 这些问题需要通过 2 到 8 步的基本计算得出最终答案
    • 该数据集主要用于测试模型的逻辑和数学能力,并已在多项基准测试中得到应用

A.2 Knowledge-Intensive Reasoning Benchmarks

  • HotPotQA (2018) 是一个多跳问答数据集
    • 所有文档均来自维基百科,为数据集提供了丰富的知识库和相对结构化的信息
    • 是评估 LLM 理解复杂搜索任务能力的重要基准
  • 2WikiMultihopQA (2020) 是一个专为多跳问答任务设计的数据集
    • 旨在测试和评估自然语言处理模型回答需要多步推理和整合不同文档信息的问题的能力
  • Musique (2022) 是一个专为多跳问答任务设计的问答数据集
    • Musique 旨在成为一个具有挑战性的基准
    • 用于评估模型的多跳问答能力,推动模型从简单信息检索向更深层次的语义理解和逻辑推理发展

A.3 Deep Search Benchmarks

  • GAIA (2024) 旨在评估大语言模型在现实世界任务中的综合能力
    • 该数据集包含 466 道精心设计的问题,用于测试人工智能系统在推理、网页浏览和工具使用等基本能力方面的表现
    • GAIA 的提出为通用人工智能助手的评估提供了新框架
  • HLE (2025) 是一个新兴且极具挑战性的基准数据集,旨在深度评估大语言模型在面对需要深度理解和复杂推理的复杂问题时的表现
    • 该数据集涵盖了大量边缘性、跨学科问题,需要高度抽象的思维来解决
    • 与传统基准不同,HLE 旨在模拟对人工智能智能水平的终极测试
  • WebWalker (2025b) 是一个用于评估大语言模型在网页遍历任务中表现的数据集
    • 该数据集包含 680 组问答对,旨在解决大语言模型在处理复杂信息时的局限性,并提升模型在多跳推理和动态网页结构方面的能力
  • xbench-DeepSearch (2025a) 是一个用于评估 AI 智能体深度搜索能力的测试集
    • 该数据集充分考虑了搜索空间的广度和推理的深度
    • 与现有的知识搜索基准不同,xbench-DeepSearch 更能检验智能体的高阶能力

附录 B: Baselines

B.1 Direct Reasoning

  • Qwen2.5 系列 (2024) 是阿里巴巴团队开发的一系列大语言模型,包括通用语言模型 Qwen2.5、编程专用模型 Qwen2.5-Coder 和数学专用模型 Qwen2.5-Math
    • Qwen2.5 系列模型已在大规模数据集上进行了预训练
    • 与过去的 Qwen 系列模型相比,Qwen2.5 系列拥有更丰富的知识储备,同时在编程、数学和指令遵循等各种任务中表现出色
  • Llama3.1 系列 (2024) 是 Meta 推出的一系列自然语言生成模型,包括 8B、70B 和 405B 三种规格
    • 这些模型能够处理更长的文本输入,并生成更连贯的长文本输出
    • 该系列模型在多语言任务中也表现优异
    • Llama 3.1 系列模型已在 150 多个基准数据集上进行了性能测试,其大规模模型在一系列任务中与领先的基础模型具有竞争力,而较小的 8B 和 70B 模型在与参数量相近的闭源和开源模型的比较中也表现突出
  • Qwen 3 系列 (2025) 是阿里巴巴开发的一系列开源模型
    • Qwen3 系列模型包括 2 个 MoE 模型和 6 个 Dense 模型,参数量从 0.6B 到 235B 不等
    • Qwen3 原生支持思考模式和非思考模式:
      • 在思考模式下,模型逐步推理,适合处理复杂问题;
      • 非思考模式可提供快速、近乎即时的响应,适合简单问题
    • Qwen3 基于约 36T token 构建了训练语料库,确保了模型的强大能力和灵活性
  • QwQ (Team, 2024c) 是阿里巴巴团队推出的开源推理模型,专注于提升 AI 在数学、编程和复杂逻辑推理方面的能力
    • QwQ-32B 是一个拥有 320 亿参数的 Dense 模型,在数学推理和代码生成能力等核心任务上超越了大多数现有模型
    • QwQ-32B 通过创新的多阶段强化学习实现了突破,其核心训练方法在于逐步扩展通用能力的同时巩固专业优势
  • DeepSeek-R1 (DeepSeek-2025) 是 DeepSeek-AI 开发的推理模型
    • DeepSeek-R1 使用强化学习进行训练,推理过程涉及大量反思和验证,思维链长度可达数万 token
    • 它在数学、代码和各种复杂逻辑推理任务中表现卓越
  • GPT-4o (2024) 是 OpenAI 发布的多模态大语言模型
    • GPT-4o 可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出
    • GPT-4o 在文本、推理和编码等方面的表现与 GPT-4 Turbo 相当,同时在多语言、音频和视觉功能的性能评分上创下了新高
  • o1-preview (2024) 是 OpenAI 推出的 o1 系列大语言模型的预览版本,代表了推理领域的重要突破
    • o1-preview 基于 GPT-4 架构,通过强化学习训练,旨在增强复杂任务的推理能力和实际问题的解决能力
    • 在需要深度推理的任务中,它可以展现出强大的能力

B.2 Trajectory-level RL Algorithms

  • GRPO (2024) 是一种基于策略优化的强化学习算法,旨在解决传统策略优化方法在稳定性、样本效率和理论保证之间的平衡问题
    • 通过引入相对优势的概念,它在保持策略改进理论保证的同时简化了计算
    • GRPO 算法适用于连续和离散动作空间中的强化学习任务
  • DAPO (2025) 是字节跳动实验室开发的大语言模型强化学习算法,旨在解决大规模强化学习训练的关键挑战
    • DAPO 在数学推理和代码生成等复杂任务中表现突出
    • DAPO 提出的 Clip-Higher 策略有效提高了熵值,有助于生成更多样化的样本
    • DAPO 还引入了动态采样、Token-Level 策略梯度损失计算和过长奖励塑形等机制以稳定训练过程
  • REINFORCE++ (Hu, 2025) 是经典 REINFORCE 算法的改进版本新算法
    • REINFORCE++ 的核心目标是解决原始 REINFORCE 的局限性,并通过整合多种优化策略来提升性能
    • REINFORCE++ 通常通过引入基线函数来减少方差,同时支持增量更新
    • REINFORCE++ 还通过熵正则化避免策略过早僵化

B.3 LLM-based Search Agent

  • RAG (2020)(检索增强生成)是一种将信息检索与生成模型相结合的技术方法,旨在提高生成模型输出的准确性、可靠性和时效性
    • RAG 核心思想是:在生成答案之前,先从外部知识库中检索与问题相关的信息,然后让模型根据检索到的内容生成响应
    • RAG 在一定程度上可以解决模型内部知识不足或幻觉的问题
  • Search-o1 (2025d) 是一个基于智能体的搜索增强推理模型框架 ,主要用于解决推理过程中存在的知识不足问题
    • 通过整合智能体 RAG 机制和文档内推理模块,它提高了模型推理的准确性、连贯性和可靠性
    • 实验表明,Search-o1 在复杂推理任务中优于原生推理和传统 RAG 方法
  • WebThinker (2025e) 是中国人民大学推出的开源深度研究框架,赋予 LRM 自主搜索、深度探索网页和撰写研究报告的能力
    • WebThinker 开发了一种基于直接偏好优化的训练策略,通过迭代合成工具使用偏好数据来增强 LRM 的工具利用能力
  • ReAct (2022) 是一种结合推理和行动的 AI 方法 ,旨在通过类似人类“边做边想”的模式让模型更有效地解决复杂任务
    • ReAct 核心思想是打破传统模型的限制,允许模型在决策过程中主动生成推理步骤并调用外部工具(如搜索引擎、数据库等),最终通过迭代优化获得答案

附录 C: Implementation Details

C.1 SFT

  • 如第 4.3 节所述,在监督微调阶段,论文使用 Llama Factory 框架以 \(7 \times 10^{-6}\) 的学习率训练 Qwen2.5-3B-Instruct 模型
  • 论文采用 DeepSpeed ZeRO-3 (2020) 和 FlashAttention2 (Dao, 2023) 进行优化
  • 批量大小设置为 128,权重衰减为 0.1,模型训练 3 个周期
  • 论文使用 BF16 混合精度,最大输入长度为 4096 token

C.2 Reinforcement learning

  • 在 ARPO 阶段,论文基于 VERL 框架 (2024) 实现了 ARPO 算法
  • 值得注意的是,所有工具调用结果均被排除在损失计算之外 ,以避免对工具输出的偏向
  • 损失计算仅考虑参与文本推理和工具请求的 token
  • 论文对深度推理任务和深度搜索任务进行了差异化设置:
  • 1. 深度推理任务(Deep Reasoning Tasks):
    • 对于 7B 参数的模型,无论是使用 ARPO 还是其他 Trajectory-level 强化学习方法,论文的标准设置包括:
      • 总训练批量大小为 128
      • PPO 小批量大小为 16
      • 全局 rollout 大小为 16
      • 初始采样大小为 8
      • 每次交互的响应长度上限为 4096 token
    • 对于 ARPO rollout:
      • 熵权重设置为 0.2
      • 参数 \(a\) 设置为 0.5
      • 阈值为 0.5
    • 为了稳定训练,GRPO 中的 KL 散度系数设置为 0(问题:为什么设置为 0 反而稳定?)
    • 强化学习阶段持续 2 个 epoch ,在 8 张 NVIDIA H800 GPU 上进行
  • 2. 深度搜索任务(Deep Search Tasks):
    • 对于 8B 参数的模型,论文保持与深度推理任务相同的设置,只是每次交互的响应长度延长至 8192 token
    • 对于 14B 模型,使用相同的参数,但在 16 张 NVIDIA H800 GPU 上进行实验
    • 由于数据集仅含 1K 样本,强化学习阶段持续 5 个 epoch

C.3 Details of Search

  • 在训练和测试阶段,论文使用 Bing Web Search API 作为检索器,配置为美国英语(US-EN)区域
  • 遵循一系列与 RAG 相关的工作 (2024; 2024b; 2024b, 2024e),论文为每个查询检索 10 个网页作为支持文档
  • 对于数学和知识推理任务 ,论文仅使用 Top-10 Snippets 进行评估
  • 对于深度搜索任务,论文从 URL 中获取每个页面最多 6000 tokens ,并使用与推理模型相同规模的模型作为浏览器 Agent 来提炼信息

C.4 Scaling Experiment Setup

  • 在论文的扩展实验中,论文与上述设置保持一致:
    • 总训练批量大小为 128
    • PPO 小批量大小为 16
    • 全局 rollout 大小为 16
    • 初始采样大小为 8
  • 对于 ARPO rollout
    • 熵权重为 0.2
    • \(a\) 为 0.5
    • 阈值为 0.5
  • 论文针对特定实验调整某些参数,同时保持其他参数不变

附录 D:Theoretical Analysis and Proofs

D.1 Theoretical Analysis of Soft Advantage Estimation

  • 本节对软优势估计(Soft Advantage Estimation)进行详细的理论分析
  • 首先,论文给出经典的 GRPO 优化目标:
    $$
    J_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a)\sim D,\{y_i\}_{i=1}^G \sim \pi_{\theta_{\text{old} } }(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \text{clip} \left( r_{i,t}(\theta), 1-\epsilon, 1+\epsilon \right) \hat{A}_{i,t} \right) - \beta D_{\text{KL} }(\pi_\theta \parallel \pi_{\text{ref} }) \right]
    $$
  • 对于每个单独的问题,论文定义优化目标为:
    $$
    J^q_{\text{GRPO} }(\theta) = \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \min \left( r_{i,t}(\theta), \text{clip} \left( r_{i,t}(\theta), 1 \pm \epsilon \right) \right) \hat{A}_{i,t} - \beta D_{\text{KL} }(\pi_\theta \parallel \pi_{\text{ref} })
    $$
    • 问题:\(\hat{A}_{i,t}\) 的正负影响了 \(\min\) 操作的取值,不能提出来吧?
  • 因此,经典的 GRPO 优化目标可以表示为:
    $$
    J_{\text{GRPO} }(\theta) = \mathbb{E}_{(q,a)\sim D,\{y_i\}_{i=1}^G \sim \pi_{\theta_{\text{old} } }(\cdot|q)} [J^q_{\text{GRPO} }(\theta)]
    $$
  • 随后,论文重点分析 \( J^q_{\text{GRPO} }(\theta) \)。假设对于问题 \( q \) 的推理,部分 Rollout (partial rollout)操作从第 \( l \) 个 Token 开始。论文定义两个重要性采样比率(importance sampling ratio):
    $$
    r_{i,t}(\theta)^{<l} = \frac{\pi_\theta(y_{i,t} \mid x, y_{i,< t})}{\pi_{\text{ref} }(y_{i,t} \mid x, y_{i,< t})}, \\
    r_{i,t}(\theta)^{>l} = \frac{\pi_\theta(p \mid x, q)}{\pi_{\text{ref} }(p \mid x, q)} \frac{\pi_\theta(y_{i,t} \mid x, q, p, y_{i,< t})}{\pi_{\text{ref} }(y_{i,t} \mid x, q, p, y_{i,< t})},
    $$
    • \( r_{i,t}(\theta)^{< l} \) 表示第 \( l \) 个 Token 之前的重要性采样比率
    • \( r_{i,t}(\theta)^{>l} \) 表示第 \( l \) 个 Token 之后的重要性采样比率
    • \( q \) 表示输入问题
    • \( p \) 表示共享 Token
    • 而公式 (14) 中的 \( y_{i,< t} \) 表示从共享 Token 到第 \( t \) 个 Token 之前的序列
    • 此外,论文定义 \( o^i_l \) 为第 \( i \) 个序列的第 \( l \) 个 Token
  • 此时 \( J^q_{\text{GRPO} }(\theta) \) 可以表示为:
    $$
    J_{\text{GRPO} }(\theta) = \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \left[ \sum_{t=1}^{|o^i_l|} \min \left( r_{i,t}(\theta)^{<l}, \text{clip} \left( r_{i,t}^{<l}(\theta), 1 \pm \epsilon \right) \right) \hat{A}_{i,t} + \sum_{t=|o^i_l|}^{|y_i|} \min \left( r_{i,t}^{>l}(\theta), \text{clip} \left( r_{i,t}^{>l}(\theta), 1 \pm \epsilon \right) \right) \hat{A}_{i,t} \right] - \beta D_{\text{KL} }(\pi_\theta \parallel \pi_{\text{ref} })
    $$
    • 原文有对本式继续化简,详情见论文
  • 论文进一步定义:
    $$
    J_i^{\leq l} = \frac{1}{|o_l|} \sum_{t=1}^{|o^i_l|} \min \left( r_{i,t}(\theta)^{<l}, \text{clip} \left( r_{i,t}^{<l}(\theta), 1 \pm \epsilon \right) \right) \hat{A}_{i,t}, \\
    J_i^{>l} = \frac{1}{|o_{l:i}|} \sum_{t=|o^i_l|}^{|y_i|} \min \left( r_{i,t}^{>l}(\theta), \text{clip} \left( r_{i,t}^{>l}(\theta), 1 \pm \epsilon \right) \right) \hat{A}_{i,t}, \\
    J_{\text{GRPO} }^{>l} = \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_{l:i}|} \left[ \sum_{t=|o^i_l|}^{|y_i|} \min \left( r_{i,t}^{>l}(\theta), \text{clip} \left( r_{i,t}^{>l}(\theta), 1 \pm \epsilon \right) \right) \hat{A}_{i,t} \right],
    $$
    • \( J_i^{< l} \) 表示第 \( i \) 条链共享 Token 部分的优化目标
    • \( J_i^{>l} \) 表示第 \( i \) 条链部分 Rollout 后的优化目标
    • \( J_{\text{GRPO} }^{>l} \) 表示从第 \( l \) 个位置开始直接执行经典 GRPO 采样操作的优化目标
  • 此时,原始优化目标 \( J_{\text{GRPO} }(\theta) \) 可以表示为:
    $$
    J_{\text{GRPO} }(\theta) = \frac{1}{G} \sum_{i=1}^G \frac{|o_l|}{|y_i|} [J_i^{<l} - J_i^{>l}] + J_{\text{GRPO} }^{>l} - \beta D_{\text{KL} }(\pi_\theta \parallel \pi_{\text{ref} })
    $$
    • 在这种情况下,软优势估计下的 GRPO 优化目标可以表示为一个标准 GRPO 目标(从部分 Rollout 位置开始)与前后两点目标加权差值的总和
    • 每个差值的权重与其对应推理链的长度密切相关

D.2 Theoretical Proof of GPG Theorem

D.2.1 Transformer-based Policy
  • Transformer-based 策略 \( \pi_\theta(a_t|s_t) \),通过应用链式法则,论文有以下关系:
    $$
    \begin{aligned}
    &\pi_\theta(OT_1 | IT_1, IT_2, …, IT_{|\text{input}|}) \times \\
    &\pi_\theta(OT_2 | IT_1, IT_2, …, IT_{|\text{input}|}, OT_1) \times \\
    &\pi_\theta(OT_3 | IT_1, IT_2, …, IT_{|\text{input}|}, OT_1, OT_2) \times \\
    & … \\
    &\pi_\theta(OT_{|\text{output}|} | IT_1, …, IT_{|\text{input}|}, OT_1, …, OT_{|\text{output}|-1}) \\
    = &\pi_\theta(OT_1, OT_2, …, OT_{|\text{output}|} & | IT_1, IT_2, …, IT_{|\text{input}|}) \\
    = &\pi_\theta(MA | MS_1)
    \end{aligned}
    $$
    • \( IT_i \) 和 \( OT_i \) 分别是输入 Token 和输出 Token ;
    • \( MS_1 \triangleq <IT_1, IT_2, …, IT_{|\text{input}|}> \) 表示宏状态(macro state)
    • \( MA \triangleq <OT_1, OT_2, …, OT_{|\text{output}|}> \) 表示宏动作(macro action)
  • 在更一般的形式中,我们可以将完整的输出 \( OT_1, OT_2, …, OT_{|\text{output}|} \) 分割为 \( K \) 个片段,并得到广义的宏状态和宏动作,即 \( MS_i \triangleq <MS_{i-1}, MA_{i-1}> \) 和 \( MA_i \triangleq <OT_m, OT_{m+1}, …, OT_{m+n}> \)
  • 此时,论文有以下关系:
    $$
    \begin{aligned}
    &\pi_\theta(MA | MS_1) \\
    = &\pi_\theta(MA_1 | MS_1) \times \\
    &\pi_\theta(MA_2 | MS_1, MA_1) \times \\
    & … \\
    &\pi_\theta(MA_K | MS_1, MA_1, MA_2, …, MA_{K-1}) \\
    = &\pi_\theta(MA_1 | MS_1) \times \\
    &\pi_\theta(MA_2 | MS_2) \times \\
    & … \\
    &\pi_\theta(MA_K | MS_K) \\
    = &\prod_{T=1}^K \pi_\theta(MA_T | MS_T)
    \end{aligned}
    $$
    • 其中 \( T \) 表示宏时间步(macro timestep)
D.2.2 Derivation of the GPG Theorem
  • 基于上述定义的宏状态和宏动作,我们可以得到广义策略梯度定理(Generalized Policy Gradient Theorem, GPG)(适用于 Transformer-based 策略):
    $$
    \nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left\{ \sum_{T=1}^K [\nabla_\theta \log \pi_\theta (MA_T | MS_T) \Phi_T] \right\}
    $$
  • GPG 定理的一个关键优势是它允许对任意长度的宏动作进行分割。这种灵活性使得该定理具有高度的实用性:
    • 例如,能够基于特殊 Token 对轨迹进行分割
  • 证明如下:
    $$
    \begin{aligned}
    \nabla_\theta J(\theta) &= \nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta} [R(\tau)] \\
    &= \nabla_\theta \sum_\tau P(\tau; \theta) R(\tau) \\
    &= \sum_\tau \nabla_\theta P(\tau; \theta) R(\tau) \\
    &= \sum_\tau P(\tau; \theta) \frac{\nabla_\theta P(\tau; \theta)}{P(\tau; \theta)} R(\tau) \\
    &= \sum_\tau P(\tau; \theta) \nabla_\theta \log P(\tau; \theta) R(\tau) \\
    &= \sum_\tau P(\tau; \theta) \nabla_\theta \left[ \log \mu(s_1) \prod_{t=1}^H \pi_\theta (a_t | s_t) P(s_{t+1} | s_t, a_t) \right] R(\tau) \\
    &= \sum_\tau P(\tau; \theta) \nabla_\theta \left[ \log \prod_{t=1}^H \pi_\theta (a_t | s_t) P(s_{t+1} | s_t, a_t) \right] R(\tau) \\
    &= \sum_\tau P(\tau; \theta) \nabla_\theta \left[ \log \prod_{t=1}^H \pi_\theta (a_t | s_t) \right] R(\tau) \\
    &= \sum_\tau P(\tau; \theta) \nabla_\theta \left[ \log \prod_{T=1}^K \pi_\theta (MA_T | MS_T) \right] R(\tau) \\
    &= \sum_\tau P(\tau; \theta) \left[ \sum_{T=1}^K \nabla_\theta \log \pi_\theta (MA_T | MS_T) \right] R(\tau) \\
    &= \sum_\tau P(\tau; \theta) \left[ \sum_{T=1}^K \nabla_\theta \log \pi_\theta (MA_T | MS_T) R(\tau) \right] \\
    &= \mathbb{E}_{\tau \sim \pi_\theta} \left\{ \sum_{T=1}^K [\nabla_\theta \log \pi_\theta (MA_T | MS_T) R(\tau)] \right\} \\
    &= \mathbb{E}_{\tau \sim \pi_\theta} \left\{ \sum_{T=1}^K [\nabla_\theta \log \pi_\theta (MA_T | MS_T) \Phi_T] \right\}
    \end{aligned}
    $$
  • 证明中的关键步骤如下:
    • 1)从公式 (30) 到公式 (31),这是因为对于 Transformer-based 策略,\( s_{t+1} = [s_t, a_t] \),因此 \( P(s_{t+1} | s_t, a_t) = 1 \)
    • 2)从公式 (31) 到公式 (32),这是因为对于 Transformer-based 策略,\( s_{t+1} = [s_t, a_t] \),因此我们可以进行以下推导:
      $$
      \begin{aligned}
      \prod_{t=1}^H \pi_\theta (a_t | s_t) \\
      &= \pi_\theta (a_1 | s_1) \times \pi_\theta (a_2 | s_2) \times … \times \pi_\theta (a_H | s_H) \\
      &= \pi_\theta (a_1 | s_1) \times \pi_\theta (a_2 | s_1, a_1) \times … \times \pi_\theta (a_H | s_0, a_0, a_1, …, a_{H-1}) \\
      &= \pi_\theta (a_1, a_2, …, a_H | s_1) \\
      &= \pi_\theta (MA | MS_1) \\
      &= \pi_\theta (MA_1 | MS_1) \times \\
      & \pi_\theta (MA_2 | MS_1, MA_1) \times \\
      & … \\
      & \pi_\theta (MA_K | MS_1, MA_1, MA_2, …, MA_{K-1}) \\
      &= \prod_{T=1}^K \pi_\theta (MA_T | MS_T)
      \end{aligned}
      $$
    • 3)从公式 (35) 到公式 (36),这与从策略梯度定理(Policy Gradient Theorem)到策略梯度定理的一般形式(即从传统优势函数到 GAE)的转换类似

附录 E:The Algorithm Workflow of ARPO

  • ARPO 的训练流程见算法 1

附录 F:Case Study

  • 详情见原始论文(以下仅展示表 4,原文中还有多个 Case 可供参考)

NLP——LLM对齐微调-AlignXplore

注:本文包含 AI 辅助创作

  • 参考链接:

    • 原始论文:(AlignXplore)Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals, RUC, Ant Group, 20250707
  • 一些吐槽:

    • 论文的写作不是很简洁,不容易理解,部分符号使用比较乱,部分符号直接凭空出现,需要结合上下文推测含义

Paper Summary

  • 核心内容总结:
    • 首次通过个性化偏好推断(personalized preference inference)的视角,系统性地研究了 LLM 中的扩展归纳推理(extended inductive reasoning)
    • 提出 AlignXplore 并证明:扩展推理能够有效弥合隐式行为信号(implicit behavioral signals)与显式偏好(explicit preferences)之间的鸿沟
    • 论文中,两阶段训练策略的成功为开发 LLM 的归纳推理能力提供了宝贵认知:
      • 表明结合合成数据演示与Reinforcement learning可以有效引导模型学习可泛化的推理模式,而非表面的相关性
    • 未来应用前景(来源于原文):
      • 可能的应用场景1:将偏好推断的成功方法扩展到其他归纳推理任务中
      • 可能的应用场景2:科学假设生成和非结构化数据中的模式发现
  • 背景:LLM 在数学和编程等以演绎推理为主(deductive reasoning predominates)的复杂推理任务中取得了显著成功
  • 问题提出:
    • 归纳推理(inductive reasoning)则仍然是一个未被充分探索的领域
    • 归纳推理的定义:从不完整证据中推导出通用规则的能力(inductive reasoning—the ability to derive general rules from incomplete evidence)
  • 论文从个性化偏好推断(personalized preference inference)视角出发,研究了 LLM 的扩展归纳推理(extended inductive reasoning)能力
  • 当前的方法在捕捉 多样化用户偏好(diverse user preferences) 方面存在困难(这一任务需要强大的归纳推理能力)
    • 因为用户偏好通常 隐含地嵌入(embedded implicitly)在各种交互形式中 ,要求模型从分散的信号中综合出一致的偏好模式
  • 论文提出了 AlignXplore
    • AlignXplore 是一种利用扩展推理链从用户交互历史中的行为信号中系统推断偏好的模型
    • 这种显式的偏好表达支持高效的流式推断:当新的行为信号出现时,模型可以直接基于先前推断的偏好描述进行更新,而无需从头重新处理历史信号,同时支持对推断偏好的迭代优化
    • 论文通过结合 1)基于合成数据的冷启动训练 和 2)在线强化学习 来开发 AlignXplore
  • 实验表明 AlignXplore 在领域内和领域外基准测试中平均比 Backbone Model 提升了 15.49%,同时在不同输入格式和下游模型中保持了强大的泛化能力
  • 论文还进一步的分析,通过比较奖励建模策略,确立了偏好推断学习的最佳实践,并揭示了训练过程中类人归纳推理模式的出现

Introduction and Discussion

  • LLM 的最新进展通过扩展推理链在复杂推理任务中展现了卓越的成功(2023; 2025),尤其是在代码生成(2021)和数学问题求解(2023; 2023)等以演绎推理为主的领域(2021; 2018)
  • 但归纳推理(即从具体观察中推导规则并对新案例进行预测的能力(2010)),在从不完整证据中进行概率性泛化时提出了独特的挑战
    • 作为一种核心认知能力(2000),归纳推理长期以来一直是人类智力测试(1986)和科学研究(2006)的关键组成部分
    • 将 LLM 的推理能力扩展到复杂归纳任务中的研究仍然非常有限
  • 在论文中,论文通过 个性化偏好推断(personalized preference inference)(2025; 2025)的视角研究扩展归纳推理
    • 这一具有挑战性的任务需要强大的归纳能力,从隐含信号中综合出显式的偏好模式,以实现 LLM 与个体偏好的对齐
  • 这项研究的重要性体现在两个方面:
    • 1)偏好推断解决了 LLM 对齐中的一个关键挑战
      • 当前的方法主要关注通用价值观(如帮助性、诚实性和无害性),在捕捉个体用户偏好的多样性方面存在困难
      • 这一局限导致用户满意度下降和潜在的系统性偏见(2024; 2018),尤其是在服务多样化用户群体时(2023)
    • 2)偏好推断体现了归纳推理的复杂性
      • 现实中,用户很少在与 LLM 的交互中明确表达其偏好(2025),这些偏好隐含地嵌入在用户生成内容(如用户 Post(2025))、行为信号(如比较判断(2022))和人口统计属性(如年龄、性别(2018))等多种形式中
      • 偏好推断要求模型从这些多样化的交互中识别一致的偏好模式,并将其泛化到新情境中,如图 1 所示
  • 大多数现有的个性化方法绕过了偏好推断这一关键步骤,(采用直接映射的方式)将隐含信号作为 Prompt (2024; 2025)、可训练参数(2023; 2023)或编码的隐藏表示(2024; 2024)纳入模型
    • 问题一:缺乏显式的偏好推断使得偏好建模过程不透明且不可控
    • 问题二:没有显式的偏好表示,这些方法无法在新行为信号出现时增量优化用户偏好,迫使模型从头处理不断增长的交互历史,限制了效率
  • 为了解决这些问题,论文提出了 AlignXplore(利用扩展推理链从行为信号中实现系统归纳推理的模型)
    • 通过显式的偏好表达,论文的模型自然地支持流式推断机制,能够增量地结合先前推断的偏好以实现更高效的个性化
    • 作者开发了一个两阶段框架,结合合成数据训练和强化学习优化
      • 第一阶段:通过利用 LLM 生成高质量的训练数据来解决冷启动问题,这些数据通过扩展推理展示了偏好推断的过程
      • 第二阶段:通过强化学习增强模型的推理能力,其中奖励信号被设计为鼓励准确的偏好推断
  • 通过在领域内和领域外基准测试上的广泛实验:证明了 AlignXplore 在个性化对齐方面取得了显著提升
    • 性能比 Backbone Model 高出 15.49%
    • 在与包括 GPT-4(2023)和 DeepSeek-R1-671B(2025)等显著更大的模型的对比中表现出竞争力
  • AlignXplore 的流式推断机制通过避免重复计算实现了对增长行为信号的高效处理,同时允许逐步优化推断的偏好,从而获得更好的性能
  • AlignXplore 还展示了在不同输入格式和下游模型中的强大泛化能力,并在偏好反转时保持了稳健的性能
    • 因为扩展推理过程帮助模型开发了更系统化和可迁移的归纳推理模式,而非学习表面的相关性
  • 进一步的分析揭示了两项关键发现:
    • 1)比较不同奖励建模方法表明,直接优化偏好判断比优化响应生成能带来更稳定的训练 ,这为训练偏好推断模型确立了最佳实践
    • 2)论文的两阶段训练方法展示了归纳推理能力的逐步增强,其中冷启动训练帮助建立基本的偏好表征能力 ,而强化学习则通过迭代测试和优化将这些能力进一步提炼为可操作的假设 ,反映了人类归纳推理的方法(2000)
  • 论文的主要贡献如下:
    • 1)论文首次通过个性化偏好推断的视角,系统研究了 LLM 中的扩展归纳推理 ,展示了结构化推理过程如何使 LLM 能够从隐含行为信号中推导出可泛化的偏好模式
    • 2)论文开发了 AlignXplore ,一种支持通过流式推断高效处理增长行为信号的偏好推断模型
      • 论文的模型通过结合合成数据训练和强化学习的新颖两阶段框架进行训练,并开源了实现以促进个性化对齐的未来研究
    • 3)论文在多样化基准测试上进行了全面评估,证明了相对于现有方法的显著提升,同时保持了高效性、泛化能力和鲁棒性
      • 论文的分析为奖励建模策略和归纳推理能力的逐步发展提供了宝贵见解

Methodology

  • 图 1 展示了论文方法的整体训练流程,即两阶段训练策略:
    • 第一阶段:初始冷启动阶段(3.2 节)用于培养基本推理能力
    • 第二阶段:强化学习阶段(3.3 节)直接优化奖励

Task formulation

  • 论文首先将偏好推断任务形式化如下:给定用户 \( U \) 的多个交互示例的行为信号集合 \(\mathcal{E} = \{e_1, e_2, …, e_T\}\),模型 \(\mathcal{M}\) 生成一个 显式的偏好描述 \( d \) 以及一个 扩展的推理链 \( r\) :
    $$
    r, d = \mathcal{M}(\mathcal{E}),
    $$
    • 其中 \( d \) 通常表现为用户 \( U \) 对特定维度(如文化敏感性、正式程度等)的积极或消极态度
    • 推断的偏好描述 \( d \) 应是与模型无关的(model-agnostic),使其能够指导任何通用的 LLM \(\mathcal{R}\) 实现个性化 (2023; 2025)
      • 理解:这里与模型无关的含义是这个 \( d \) 是一个类似通用 Prompt 的东西,是不挑模型的,什么模型都能用
Streaming inference mechanism
  • 在现实场景中,用户行为信号会随时间不断更新,通常会积累大量数据
  • 为了解决计算效率挑战,论文提出了一种新颖的流式推断机制,逐步利用先前推断的偏好
  • 关键思路:当用户交互中出现新的行为信号 \(\mathcal{E}\) 时(问题: \(\mathcal{E}\) 在上一节中不是交互序列吗?这里仅表示新的行为信号),可以用先前推断的偏好描述 \( \hat{d} \) 为条件进行高效推断,而不是重新编码对应的过时行为信号:
    $$
    r, d = \mathcal{M}(\mathcal{E}, \hat{d}),
    $$
    • \(\hat{d}\) 是历史偏好 ,可以 视为 \(\mathcal{E}\) 之前所有行为信号的浓缩表示 , \(\mathcal{E}\) 表示新的行为信号
    • 这种流式机制是显式偏好建模独有的优势(注:先前的方法依赖 Prompt (2022; 2025) 或参数更新 (2023; 2024) ,需要在每次下游任务需要个性化时处理整个历史交互)
Evaluation framework
  • 为了评估模型 \(\mathcal{M}\) 生成的偏好 \( d \) 的质量,可以通过 \(d\) 指导大语言模型 \(\mathcal{R}\) 与用户偏好对齐的程度来评估
  • 理想情况下,可以通过在线奖励来衡量:
    $$
    R_{\text{online} } = \mathbb{E}_{o \in \mathcal{R}(\cdot|x,d)} \text{Align}(o, U), \tag{3}
    $$
    • \( o \) 表示在已知 \(d\) 和用户 \( U \) 的新 Post \( x \) 的情况下,模型 \(\mathcal{R}\) 的输出
    • \(\text{Align}(\cdot)\) 衡量 \(o\) 与用户的对齐程度
  • 但上述方法需要昂贵的在线采样和用户反馈,为了实现高效且可扩展的评估(同时避免这种开销),论文利用 offline user-specific comparative judgment data:
    • 给定用户 \( U \) 的 Post \( x \) 以及两个响应 \( y_w \) 和 \( y_l \),其中 \( y_w \) 比 \( y_l \) 更受 \( U \) 偏好,论文定义:
      $$
      \begin{align}
      R_{\text{offline} } = \mathbf{1}\big(f_{\mathcal{R} }(y_w|x,\cdot) > f_{\mathcal{R} }(y_l|x,\cdot)\big) R_{\text{format} }, \\
      R_{\text{format} } = \mathbf{1}\big(r, d \text{ satisfy the generation format }\big),
      \end{align} \tag{4,5}
      $$
    • \( f_{\mathcal{R} }(y_{w/l}|x,\cdot)\) 衡量模型对两个响应的偏好分数
    • \( R_{\text{format} }\) 确保 \( r \) 和 \( d \) 的结构有效性(格式规范见附录 B)
    • 问题:\(R_{\text{offline} }\) 与 \( d \) 的关系是什么?为什么可以评估 \( d \) ?
    • 回答:\(f_{\mathcal{R} }(y_w|x,\cdot)\) 中的 \(\cdot\) 就是指的 \( d \) 吧?整个 \(R_{\text{offline} } = 1\) 则表示:生成的 \(r, d\) 满足格式要求,同时还能使得 \(f_{\mathcal{R} }(y_w|x,\cdot) > f_{\mathcal{R} }(y_l|x,\cdot)\) 成立
Reward instantiation
  • 在实际实现上述离线评估框架时,可以选择不同方式建模偏好分数模型 \( f_{\mathcal{R} }(y_{w/l}|x,\cdot)\)
  • 例如,当下游模型 \(\mathcal{R}\) 作为响应生成模型(记为 \(\mathcal{R}_{\text{gen} }\))时 (2024),它通过响应 \( y_{w/l} \) 在条件 \( d \) 下与无条件情况下对数概率的变化来测量偏好
    • 离线奖励(记为 \( R_{\text{gen} }\))则比较 \( y_w \) 和 \( y_l \) 之间的对数概率变化,其中较大的正边际表示更好的偏好对齐:
      $$
      R_{\text{gen} } = \mathbf{1}\big(\log \frac{\mathcal{R}_{\text{gen} }(y_w|x,d)}{\mathcal{R}_{\text{gen} }(y_w|x)} > \log \frac{\mathcal{R}_{\text{gen} }(y_l|x,d)}{\mathcal{R}_{\text{gen} }(y_l|x)}\big) R_{\text{format} }. \tag{6}
      $$
  • 当 \(\mathcal{R}\) 作为偏好判断模型(记为 \(\mathcal{R}_{\text{jud} }\))时 (2025),它直接使用响应 \( y_{w/l} \) 在推断的偏好描述 \( d \) 下被偏好的概率来建模偏好分数
    • 对应的离线奖励(记为 \( R_{\text{jud} }\))基于 \( y_w \) 和 \( y_l \) 之间的概率差异计算:
      $$
      R_{\text{jud} } = \mathbf{1}\big(\mathcal{R}_{\text{jud} }(y_w|x,d,y_w,y_l) > \mathcal{R}_{\text{jud} }(y_l|x,d,y_w,y_l)\big) R_{\text{format} }. \tag{7}
      $$
  • 论文的评估框架还可以使用其他类型的 \(\mathcal{R}\)
    • 例如直接使用原始响应对数概率作为偏好分数 (2024)
    • 论文将这些替代奖励公式的探索留作未来工作
  • 论文主要实验使用 \( R_{\text{jud} }\) 进行训练和评估
    • 在后续消融研究中,论文还会分析 \( R_{\text{gen} }\)

Cold-start training

  • 训练偏好推断模型的主要挑战在于,小模型在没有适当初始化的情况下仅凭指令难以执行复杂的偏好推断
  • 为了解决这个问题,论文开发了一个合成数据生成流程,利用先进的 LLM 创建包含详细推理过程的高质量训练示例
  • 论文采用两阶段数据合成过程,对于原始隐式偏好信号 \( e_i \in \mathcal{E} \) 中的每个示例:
    • 第一阶段:识别以自然语言表达的关键偏好维度 \(\phi\),这些维度可能揭示用户偏好,并为后续偏好推断提供分析指导
    • 第二阶段:将这些识别的维度 \(\phi\) 和原始隐式信号为条件,输入先进的教师模型 \(\mathcal{T}\),生成 \( G \) 个推理链和偏好描述( Prompt 模板见附录 B):
      $$
      \{r_i, d_i\}_{i=1}^G \sim \mathcal{T}(r, d|\mathcal{E}, \phi).
      $$
  • 为了支持流式推断,论文构建了模拟增量偏好学习过程的训练示例:
    • 对于每个用户,论文首先随机选择一个先前生成的偏好描述 \(\hat{d}\) 作为历史偏好,然后从同一用户中采样一组新的行为信号
      • 问题:为什么是随机选择 \(\hat{d}\) 并 采样新的行为信号 \(\mathcal{E}\) ?对每个新的交互行为 \(\mathcal{E}\), \(\hat{d}\) 不是只有一个吗?应该是配对采样才对吧?
      • 回答:应该是也由于在这篇文章中,作者认为交互行为是没有时间顺序的?
    • 这些历史偏好和新信号的对用于条件化教师模型 \(\mathcal{T}\),生成新的推理链和更新的偏好描述
    • 将这些流式示例与原始示例混合后,论文通过基于结果的验证过滤所有生成内容,仅选择达到最优奖励分数的样本
    • 过滤后的数据集 \(\mathcal{D}_{\text{cold} }\) 构造如下:
      $$
      \mathcal{D}_{\text{cold} } = \{(\mathcal{E}, \hat{d}, r_i, d_i) | R(r_i, d_i) = 1, i \in [1, G]\},
      $$
    • \( R(\cdot)\) 表示方程 6 或 7 中定义的 \( R_{\text{gen} }\) 或 \( R_{\text{jud} }\)
    • \(\hat{d}_i\) 对于没有历史偏好的示例可能为空
      • 问题:\(\hat{d}_i\) 是什么?
  • 偏好推断模型 \(\mathcal{M}\) 的训练目标是最大化生成正确推理链和准确偏好描述的似然 :
    $$
    \mathcal{L}_{\text{cold} } = \mathbb{E}_{(\mathcal{E}, \hat{d}, r, d) \sim \mathcal{D}_{\text{cold} } } -\frac{1}{|r| + |d|} \sum_{t=1}^T \log p(r, d|\mathcal{E}, \hat{d}),
    $$
    • \( p(\cdot|\mathcal{E}, \hat{d})\) 表示由 \(\mathcal{M}\) 建模的条件概率分布

Reinforcement learning

  • 冷启动训练建立了基本的推理能力,强化学习通过扩展推理进一步增强模型生成高质量偏好描述的能力
  • 论文采用 GRPO 算法 (2025)(该算法在优化长时程推理过程中表现出色):对于每个训练实例,论文采样多个推理路径,并使用方程 4 中定义的奖励信号对它们进行集体优化
    • 参照 (Open-reasoner-zero,2025) 的做法,论文从原始 GRPO 公式中移除了 KL 惩罚项以实现更有效的优化:
      $$
      \begin{align}
      \mathcal{L}_{\text{RL} } &= \mathbb{E}_{\substack{(\mathcal{E}, \hat{d}) \sim \mathcal{D}_{\text{rl} }},\ {\{(r_i, d_i)\}_{i=1}^G \sim p_{\text{old} }(\cdot|\mathcal{E}, \hat{d})}} \Big( -\frac{1}{G} \sum_{i=1}^G \frac{1}{|r_i| + |d_i|} \rho_i \Big), \\
      \rho_i &= \sum_t \min \Big( \frac{p(\{r_i, d_i\}_t|\mathcal{E}, \hat{d})}{p_{\text{old} }(\{r_i, d_i\}_t|\mathcal{E}, \hat{d})} A_i, \operatorname{clip}\big( \frac{p(\{r_i, d_i\}_t|\mathcal{E}, \hat{d})}{p_{\text{old} }(\{r_i, d_i\}_t|\mathcal{E}, \hat{d})}, 1-\epsilon, 1+\epsilon \big) A_i \Big), \\
      A_i &= \frac{R_i - \operatorname{mean}(\{R_j\}_{j=1}^G)}{\operatorname{std}(\{R_j\}_{j=1}^G)},
      \end{align} \tag{10-12}
      $$
    • \( p_{\text{old} }\) 是旧策略模型
    • \( G \) 是采样输出的数量
    • \(\{r_i, d_i\}_t\) 是生成序列中的第 \( t \) 个 Token
    • \( R_i\) 是第 \( i \) 个输出的奖励(使用方程 6 或 7 计算)
    • \( A_i\) 是优势项,对不同路径的奖励进行归一化以减少训练方差
    • \(\hat{d}\) 是历史偏好,要么为空,要么由 \( p_{\text{old} }\) 使用与 \(\mathcal{E}\) 相同的用户的其他行为信号动态生成

Experiments

Experimental setup

Implementation details
  • 论文采用流式设置进行训练,在冷启动(cold-start)数据生成和 RL 训练阶段
    • 第一步:为每个训练实例使用 4 个行为示例(即 \(\mathcal{E}\) 中 \(T=4\))生成初始偏好描述,此时历史偏好 \(\hat{d}\) 为空
    • 第二步:从同一用户中随机采样另外 4 个示例作为新的行为信号 \(\mathcal{E}\),并将先前推断的偏好作为 \(\hat{d}\) 生成第二轮偏好描述
    • 训练数据结合了两轮的实例,尽管实验展示了这种两轮设置,但流式机制可通过迭代使用推断的偏好作为历史偏好,自然扩展到更多轮次
  • 论文采用 DeepSeek-R1-Distill-Qwen-7B (2025) 作为 Backbone Model,在 ALIGNX (2025) 数据集上进行训练
    • 该数据集涵盖 90 个偏好维度,包含平衡的正负示例
    • 论文从 ALIGNX 中创建两个独立的训练集:7000 个实例用于冷启动训练,另外 7000 个实例用于强化学习
    • 使用 \(R_{\text{jud} }\)(公式 7)作为奖励函数,并以 QwQ-32B (2025) 作为教师模型
    • 在 RL 训练中:设置每个 Prompt 的批次大小为 128,每个 Prompt 生成 4 个推理路径
    • 推理阶段结合了核采样(\(p=0.95\))(2020)、top-\(k\) 采样(\(k=10\))(2018),并将温度设置为 0.9 (2014)
  • 为深入分析不同配置的影响,论文还训练了两个基础设置模型,其中 \(\hat{d}\) 始终为空,\(\mathcal{E}\) 分别包含 4 个或 8 个示例。更多实现细节见附录 A.1
Benchmarks
  • 论文在两个基准测试上进行评估(表 1 总结了统计数据):
    • (1) ALIGNXtest (2025),即 ALIGNX 的官方测试集;
    • (2) P-Soups (2023),专注于三个偏好维度:“专业性(expertise)”、“信息量(informativeness)”和“风格(style)”
  • 遵循训练设置,论文考虑两种评估场景:
    • Base setting :模型使用 4 个或 8 个偏好对(\(\hat{d}\) 为空)进行推理
    • 流式设置 (Streaming setting) :模型首先使用初始 4 个对推断历史偏好描述 \(\hat{d}\),然后结合 \(\hat{d}\) 和 4 个新对生成最终偏好描述
    • 所有偏好对均从同一用户的行为信号中随机采样
    • 论文确保每个模型在其对应的训练设置下进行评估
Evaluation metrics
  • 由于直接评估偏好推断质量存在固有困难,论文采用间接的离线和在线指标:
  • 1)离线评估 (Offline evaluation) :
    • 根据公式 6 和 7 测量 \(\text{Acc}_\text{gen}\) 和 \(\text{Acc}_\text{jud}\) ,分别评估偏好引导的响应生成和偏好判断准确性
    • 论文主要关注 \(\text{Acc}_\text{jud}\) ,因其与训练目标一致
  • 2)在线评估 (Online evaluation) :
    • 引入 GPT-4 胜率 (GPT-4 Win Rate) ,其中 GPT-4 在基准测试提供的真实偏好条件下,比较不同模型生成的偏好描述所引导的响应 (2024, 2023)
Baselines
  • 论文与三组基线进行比较:
  • 1)Direct preference descriptions :
    • _Null_(no description)、\(\mathcal{E}\)(raw behavioral signals)、_Golden Preference_(ground-truth descriptions from benchmark)
  • 2)Specialized methods :
    • LMInductReason (2024)(inductive reasoning, 归纳推理)、VPL (2024)(Preference Modeling,偏好建模)、PBA (2025)(structured preference prediction,结构化偏好预测)
  • 3)State-of-the-art LLM :
    • 小模型(Qwen2.5-7B-Instruct (2024)、DS-R1-Distill-Qwen-7B (2025))和大模型(QwQ-32B (2025)、Qwen3-32B (2025)、GPT-4 (2023)、DeepSeek-R1-671B (2025))
  • 论文还评估了模型的消融版本(w/o RL 和 w/o Cold-start)以验证各训练阶段的有效性
  • 基线实现细节见附录 A.2

Main results

Offline evaluation
  • 表 2 展示了离线偏好推断的评估结果
  • 从表 2 中,论文得出以下六个关键发现:
    • 1)偏好推断的必要性(Necessity of preference inference) :直接使用行为信号 \(\mathcal{E}\) 的表现与“Null”设置相似,且显著低于黄金偏好(Golden Preference),验证了偏好推断的必要性
    • 2)Limitations of previous methods :LMInductReason 和 VPL 表现较差,表明基于 Prompt 和隐变量的方法存在不足。尽管 PBA 通过预定义的偏好建模表现更好,但其在 P-Soups 上的显著性能下降揭示了泛化能力的局限性
    • 3)扩展推理的优越性(Superiority of extended reasoning) :具备扩展推理能力的模型始终优于简洁推理的模型,例如 Qwen3-32B\(_{\text{thinking} }\) 对比 Qwen3-32B\(_{\text{non-thinking} }\)(65.03% vs. 57.60%)以及 DeepSeek-R1-671B 对比 GPT-4(70.47% vs. 66.10%)
    • 4)Strong performance of AlignXplore in base setting :在基础设置中,论文的模型在领域内和领域外任务上均优于同规模基线,同时与 Qwen3-32B 和 GPT-4 等更大模型表现相当,甚至在 AlignXtest 上超越了黄金偏好
    • 5)Dominant impact of RL(显著影响) :尽管两个训练阶段均对性能有贡献,但移除 RL 导致的性能下降比移除冷启动训练更显著,表明 RL 在优化偏好对齐中的关键作用
    • 6)高效处理增长信号的能力(Efficient and effective handling of growing signals) :当提供额外历史信息时,DS-R1-Distill-Qwen-7B 的表现无论使用更多行为信号还是利用先前推断的偏好均相似
      • 相比之下,论文的模型显著受益于流式推理机制,甚至优于其 8 对行为信号的变体
      • 这表明论文的流式推理能通过增量偏好细化更有效地利用历史信息,同时比直接处理更大规模行为信号更高效
        • 问题:“其 8 对行为信号的变体” 是什么?如何理解这里的能力?
Online evaluation
  • 使用 GPT-4 作为评判者,通过成对比较基于生成偏好描述的个性化响应生成,表 3 显示 AlignXplore-7B 在领域内和领域外场景中均取得具有竞争力的胜率,进一步验证了其在偏好推断中的有效性

Generalization ability assessment(评估)

  • 论文从输入和输出两个角度评估模型的泛化能力,如表 4 所示:
    • 1)输入格式泛化(Input-form generalization) :论文将偏好对替换为用户生成内容(user-generated content,UGC)作为输入信号,反映真实场景中偏好需从评论或社交媒体 Post 等多样化来源推断的需求
      • AlignXplore-7B 对不同输入格式表现出强泛化能力,准确率达 61.97%,显著优于基线模型
    • 2)跨模型泛化(Cross-model generalization) :论文研究了生成偏好描述在个性化不同偏好评判模型时的可迁移性
      • AlignXplore-7B 展现出稳健的跨模型泛化能力,始终优于同规模基线模型
      • 论文将这种优越的迁移性归因于扩展推理机制,其鼓励学习基础的、模型无关的偏好模式,而非表层关联,从而生成更具泛化性的描述

Robustness assessment

  • 偏好推断系统的一个关键挑战是在用户偏好与训练模式显著不同时保持一致性性能
  • 分析一,论文通过偏好反转(preference reversal)评估鲁棒性,即反转行为信号和测试对中的所有偏好方向(例如将 \(y_w \succ y_l\) 改为 \(y_w \prec y_l\))
    • 如表 4 所示,AlignXplore-7B 表现出强鲁棒性,性能变化较小,显著优于同规模基线和黄金偏好
  • 分析二:论文研究了一种更现实且更具挑战性的场景:用户偏好随时间演变
    • 使用每位用户的 8 对偏好信号,论文逐步反转早期信号的偏好方向,同时保持后期信号(及测试对)与最终偏好一致
    • 如图 2 所示,x 轴表示反转偏好的早期信号数量,论文的流式推理机制在不同偏好变化水平下始终优于基础设置
    • 这表明通过流式机制显式建模偏好演化,能更好地适应时间性偏好变化,而同时处理所有行为信号的方法可能难以调和此类不一致性

Efficiency assessment

  • 为评估行为信号随时间累积时的计算效率,论文比较了 AlignXplore-7B 在基础设置和流式设置下处理增长行为信号时的表现
  • 如图 3 所示,每轮增量添加 4 个新行为信号,并测量 AlignXtest 上每例的平均推理时间
    • 在基础设置中,由于需同时处理所有历史信号,推理时间随信号数量显著增加
    • 当处理 16 个信号(第 4 轮)时,模型性能(\(\text{ACC}_{\text{jud} }\))因处理长输入上下文的挑战而急剧下降
    • 论文的流式设置通过仅处理最新的 4 个信号及先前推断的偏好描述 ,保持了稳定的推理时间和性能 ,展现出对增长行为历史的高效计算能力

Further analysis

  • 论文的进一步分析聚焦于两方面:
    • 1)不同奖励函数的比较(Finding 1):如表 5 所示,\(R_{\text{jud} }\) 在多数指标上表现更优,甚至包括响应生成(\(\text{ACC}_{\text{gen} }\)),表明准确的偏好推断自然促进了更好的个性化生成
    • 2)两阶段训练逐步提升偏好描述质量(Finding 2):如图 5 所示,冷启动训练帮助识别偏好维度,而 RL 学习确定偏好方向并将信号聚合为可操作的指导,模仿了人类归纳推理的过程
  • Finding 1:优化偏好判断准确率优于响应生成奖励 :
    • 论文通过比较 \(R_{\text{jud} }\) 和 \(R_{\text{gen} }\) 研究不同奖励来源对模型性能的影响
    • 结果显示,\(R_{\text{jud} }\) 在多数指标上表现更优,甚至包括响应生成(\(\text{ACC}_{\text{gen} }\)),表明直接优化偏好判断能提供更稳定的训练信号
  • Finding 2:冷启动和 RL 训练逐步提升偏好描述质量
    • 图 5 展示了生成偏好描述的词汇云演变
    • 冷启动训练帮助模型识别偏好维度,而 RL 训练进一步学习将信号聚合为具体指导
    • 这一演进过程模仿了人类归纳推理的迭代细化,从一般观察到具体可操作的偏好假设

补充:Related works

Inductive reasoning

  • 演绎推理是确定性推导
  • 归纳推理是从不完整证据中进行概率泛化(2010; 2000)
    • 这是从分类到科学发现(1986)等各种认知活动的关键能力
    • 归纳推理能力在通过抽象推理语料库(Abstract Reasoning Corpus, ARC)(2019; 2023)评估 LLM(如 OpenAI o3(2024))时也受到过关注
  • 现有研究(2024)主要关注少样本泛化(2020; 2018),而偏好推理提出了三个独特挑战:
    • 1)在非结构化语言而非形式语言上进行推理(2024; 2023)
    • 2)处理可能与测试时用户任务显著不同的异构偏好信号形式
    • 3)需要对揭示非期望偏好的负例进行推理(2023)
  • 论文的框架为这些挑战提供了原则性解决方案,同时保持了可解释性

Extended reasoning in LLMs

  • 传统的思维链方法(Chain-of-Thought)(2022)受限于浅层、线性的推理步骤
  • 最新的扩展推理研究(2023; 2025)通过三种关键机制显著提升了 LLM 的性能:
    • (1)深度的逻辑链(In-depth logical chains),通过自然语言(2023)、形式语言(formal language)(2025)和潜在空间推理(2024)等多种格式维持扩展推理;
    • (2)系统探索解空间(Systematic exploration of solution spaces),通过强化学习训练的内部机制(2022)或蒙特卡洛树搜索(2024)和束搜索(2024; 2023)等外部框架实现;
    • (3)迭代自反思(Iterative self-reflection),使模型能够通过监督微调(2023; 2024)或可验证奖励的强化学习(2022; 2025)验证和修正推理路径
  • 这些机制的整合在数学(2023)、编程(2021)、科学问答(2024)、奖励建模(2025)和多模态推理(2025)等复杂推理任务中带来了显著改进
  • 论文将这一范式扩展到偏好推理领域,该领域因对强归纳推理能力的要求而具有独特挑战

Personalized alignment(个性化对齐)

  • 近期研究凸显了一刀切(one-size-fits-all)对齐方法(2021; 2023; 2024)的局限性,推动了个性化对齐的发展,即根据个体偏好调整 LLM 行为(1975; 2024)。关键挑战包括:
    • (1)从隐式信号中推断偏好(2023; 2022; 2018),这需要复杂的推理来综合分散的信号(2018)
      • 当前工作主要关注检索偏好相关上下文(2025; 2023; 2024),而忽略了显式的偏好推理,导致对齐准确性有限(2025)
    • (2)通过 Prompt (2024; 2023)、模型参数(2023)或潜在表示(2024; 2023)进行偏好建模
      • 论文关注基于 Prompt 的方法,因其可解释性和模型无关性
    • (3)反馈驱动的对齐,在训练期间更新 LLM(2024; 2023)或在推理时指导生成(2024; 2023; 2024)
  • 与现有方法不同,论文首次将扩展推理用于准确的偏好推断,并提出了处理动态用户交互的高效机制(2024)

附录 A:Experiments

A.1 Implementation details

  • 论文的训练和测试集源自 AlignX:
    • 该数据集提出了一个包含 90 维偏好空间(涵盖普世价值观、基本人类需求和流行兴趣标签)的框架
    • 数据集利用论坛互动和人机交互构建了 130 万条示例,是目前规模最大、最全面的个性化对齐数据集
    • 但原始用户交互中的偏好信号相对稀疏,这曾阻碍了有效的偏好推断
  • 为解决这一问题,论文引入了一种改进的数据构建方法
    • 确保每个目标对至少关联五个偏好维度,其中所有交互历史均展示一致且非中立的偏好方向,同时避免其他维度的冲突偏好
    • 论文构建了 10,000 条仅包含“成对比较反馈”作为交互历史的数据条目,其中 7,000 条用于训练,3,000 条用于测试
    • 当 7,000 条实例用于冷启动训练时,论文根据 \(R(r,d)=1\) 选择了 3,980 条第一轮实例和 5,278 条第二轮实例
    • 论文还构建了 3,000 条仅包含“用户生成内容”作为交互历史的条目,用于泛化验证
  • 训练在 8 块 NVIDIA A100 GPU 上完成,使用 Adam 优化器(2014),并通过 DeepSpeed ZeRO-3(2020)和 Flash-attention-2(2023)进行优化
  • 论文采用以下超参数配置:
    • 学习率为 1e-6
    • 50 步预热
    • 4 个训练周期
    • 最大 Prompt/生成长度为 8,192/2,048 Token
    • 在强化学习阶段,论文将每步的小批量大小设置为 128

A.2 Baseline details

  • 论文比较了多种基线方法和模型
  • Directly given preference descriptions :
    • (1)_Null_:不提供偏好描述;
    • (2)\(\mathcal{E}\):直接使用行为信号作为偏好描述,不进行推断;
    • (3)_Golden Preference_:基准提供的真实偏好描述。注意,真实偏好描述虽然在语义上准确,但由于模型兼容性差距,可能无法实现最优的下游个性化性能
  • 先前针对归纳推理和个性化的专用方法(Previous specialized methods for inductive reasoning and personalization) :
    • (1)_LMInductReason_(2024)通过迭代假设细化增强 LLM 的归纳推理能力;
    • (2)_VPL_(2024)引入潜变量建模个体偏好;
    • (3)_PBA_(2025)将行为示例映射到预定义维度的结构化偏好分数,再转换为自然语言描述
  • Preference descriptions generated by state-of-the-art LLMs :
    • 模型范围从小型模型(如_Qwen2.5-7B-Instruct_(2024)和_DS-R1-Distill-Qwen-7B_(2025))到大型模型(如_QwQ-32B_(2025)、_Qwen3-32B_(2025)、_GPT-4_(2023)和_DeepSeek-R1-671B_(2025))
    • 这些模型涵盖简洁推理和扩展推理模式
  • 此外,为验证方法的有效性,论文还比较了 AlignXplore-7B 的消融版本(w/o RL 和 w/o Cold-start),分别在基础设置下仅使用冷启动训练或强化学习进行偏好推断
  • 对于 VPL(2024),论文在 Qwen2.5-7B-Instruct 上使用 \(\mathcal{D}_{4}\) 训练一个周期
    • 该方法使用其专用下游模型进行偏好引导判断(其他基线通过相应模型生成角色或偏好,并输入 Qwen2.5-7B-Instruct 进行评估)
    • LMInductReason(2024)遵循原论文实现,其中内容生成替换为 Qwen2.5-7B-Instruct
    • 在迭代生成规则后,最终规则提供给 Qwen2.5-7B-Instruct 以生成偏好选择
    • PBA(2025)使用原论文方法从每个基准的交互历史中提取一致偏好

A.3 Length evolution(演变)

  • 图 6 展示了 AlignXplore-7B(\(R_{\text{jud} }\))和 AlignXplore-7B(\(R_{\text{gen} }\))在强化学习过程中生成长度的变化
    • 随着训练进行,模型的平均生成长度持续下降
  • 论文的分析表明:
    • 冷启动训练引导模型分析适当的偏好维度,但其倾向于重复行为信号的内容,分析信心较低,且存在大量冗余和波动的维度解释
    • 强化学习后,模型的分析方向变得更清晰
    • 对于行为信号的偏好解释,模型现在仅提及反映偏好的关键术语,能够快速分析和总结用户偏好(这与第 4.6 节的分析一致)

A.4 Robustness assessment

  • 表 6 展示了 AlignXplore-7B 在基础设置和流式设置下,当为每位用户提供 8 个偏好对且第一个偏好对反转时的性能
  • 流式推理机制允许模型在流式推断用户偏好时细化偏好描述,因此在面对不一致或随时间变化的用户行为偏好时表现出鲁棒性和泛化能力
  • 因此,无论是在域内还是域外数据集上,流式设置均优于基础设置

A.5 Case study

  • 待补充

附录 B:Data format and prompt

  • 包含多个提示模板,详情参考原始论文

附录 C Limitations

  • 由于缺乏真实的 LLM 与用户交互的测试平台,论文无法在真实环境中验证模型的推理性能(作者提到一旦此类测试平台可用,论文将进一步评估模型的表现)
  • 论文主要关注偏好推断的场景,并确保测试集中的历史偏好与测试对一致
    • 问题:如何评估一致性?
  • 未来的工作可以扩展到用户偏好随时间动态变化的场景,要求模型在推断时根据用户最近的行为调整偏好

附录 D Impact statement

  • 本研究提升了模型的偏好推断能力,使其能够通过理解和响应用户的个性化偏好更好地服务人类用户
    • 这可能涉及用户隐私和偏见相关的潜在风险
    • 通过推断个性化偏好,模型可能无意中放大数据中的现有偏见或误解用户意图
  • 为了缓解这些风险,论文还做了如下努力:
    • 论文确保方法中包含强大的公平性和透明度措施
    • 论文优先考虑用户同意 ,并实施机制以确保用户数据匿名化并安全处理
    • 论文鼓励持续监控模型在真实场景中的表现 ,以识别和解决任何意外后果,从而确保模型的部署符合道德并与用户利益保持一致

NLP——LLM对齐微调-Auto-Rubric

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(AutoRubric)Auto-Rubric: Learning to Extract Generalizable Criteria for Reward Modeling, 20251020, Alibaba & Ant Group
    • GitHub 源码:github.com/modelscope/RM-Gallery
      • 注:从作者的代码实现中可以看到,同时有中文和英文两个版本
    • HuggingFace 数据集: huggingface.co/datasets/agentscope-ai/Auto-Rubric
    • 亲测本文开源的 General Rubrics 在各种 Reward Model Benchmarks 中均有不错的表现
      • 特别是和 BT RM 融合以后,在各种 Reward Model Benchmark 上能拿到超出 BT RM 的结果

Paper Summary

  • 整体总结:
    • 论文介绍了一个新颖的、Training-free 框架(Auto-Rubric)
      • Auto-Rubric 成功地解决了奖励建模中性能、数据效率和可解释性之间的关键权衡
    • 认知迭代:论文的工作表明,人类偏好背后的核心标准可以自动提炼成一个紧凑的(compact)、可泛化的、非冗余的 “Theme-Tips” Rubrics 集
    • 这种方法的有效性值得注意的发现:
      • 仅使用 70 个偏好对(源数据的 1.5%),提取的 Rubrics 使 Qwen3-8B 模型能够超越专门的、完全训练的奖励模型
      • 在 RewardBench2 上为免训练方法设定了新的最先进水平
    • 核心观点:通过将焦点从不透明的 Reward model learning 转移到透明的 Rubric learning ,可以为 LLM 对齐开辟一条更具可扩展性、更高效、更可信的路径
    • 评价:
      • 论文通过一种非常严谨的理论化方法自动生成 Rubric,直观上看起来很 Make sense
      • 论文的在各种评估基准上的分数特别高,是因为论文是 pairwise 的(同时输入两个 Response 判断分数),不是 pointwise 的
      • 特别说明:亲测本文开源的 General Rubrics 在各种 Reward Model Benchmarks 中均有不错的表现,特别是和 BT RM 融合以后,在各种 Reward Model Benchmark 上能拿到超出 BT RM 的结果
  • 问题提出:
    • 奖励模型对于将 LLM 与人类价值观对齐至关重要,但其发展受限于昂贵的偏好数据集和较差的解释性
    • 虽然近期的 Rubric-based 方法提供了透明度,但它们通常缺乏系统性的质量控制和优化 ,导致可扩展性与可靠性之间存在权衡
  • 论文通过一个新颖、无需训练 (training-free) 的框架来解决这些局限性
    • 该框架建立在一个关键假设之上:支撑人类偏好的评估 Rubric 在不同 Query 间展现出显著的泛化能力(evaluation rubrics underlying human preferences exhibit significant generalization ability across di- verse queries)
      • 这一特性实现了卓越的数据效率
    • 论文的方法是两阶段的:
      • 首先通过一个验证引导的 Propose-Evaluate-Revise 流程推断出高质量的、针对特定 Query 的 Rubric
      • 然后通过最大化信息论编码率(information-theoretic coding rate) ,将这些细粒度的 Rubric 泛化成一个紧凑、非冗余的核心集合
    • 最终的输出是一个可解释的、层次化的 “主题-要点(Theme-Tips)” Rubric 集合
  • 大量实验证明了该框架卓越的数据效率和性能
  • 关键的是(Critically),仅使用 70 个偏好对(源数据的 1.5%),论文的方法还能使像 Qwen3-8B 这样的小模型胜过专门的、经过充分训练的同类模型
  • 这项工作开创了一条可扩展、可解释且数据高效的奖励建模路径

Introduction and Discussion

  • RLHF 是使 LLM 与人类价值观对齐的强大范式 (2022)
  • 如图 1 所示,RLHF 的核心是一个奖励模型,它在大量的人类偏好数据集上进行训练,作为人类判断的代理 (2023; 2025)
  • However,这种方法从根本上受到数据获取成本高昂以及奖励模型的“黑盒”性质的限制 (2025)
    • 这种解释性的缺乏不仅阻碍了我们诊断故障的能力,也增加了“Reward Hacking”的风险 (2025),即模型以非预期的方式利用代理奖励
  • 为了解决这些缺点,使用明确标准的 Rubric-based 评估作为一种更透明的替代方案得到了关注
    • Rubric 是一套明确的、人类可读的标准,例如事实准确性和内容组织良好,可以有效地将其作为“LLM-as-a-Judge”范式的 Prompt 的一部分
    • 早期方法依赖于专家定义的(expert-defined) Rubric (2024) 或大规模众包标注(large-scale crowd annotations)(2022)
    • 早期方法有限的可扩展性促使研究转向自动化的 Rubric 生成 (2025; 2025)
      • 这些方法产生的 Rubric 常常存在噪声、冗余(redundancy)以及与人类偏好不一致(misalignment with human preferences)的问题,原因是缺乏验证机制
      • Consequently,在可扩展性与保真度之间产生了根本性的矛盾 ,这构成了 Rubric-based 评估更广泛采用的主要瓶颈
  • 为了化解这一矛盾(tension),论文提出了一个新的框架,用于使用少量偏好数据自动生成和精炼高质量的评估 Rubric
    • 论文的工作建立在一个关键假设之上:支撑人类偏好的评估 Rubric 在不同 Query 间展现出显著的泛化能力
    • For Example,人类通常更喜欢对不同 Query 给出更具逻辑性、组织良好且基于事实的回答
    • 论文的目标不是学习一个不透明的奖励函数,而是明确地推断出支配人类选择的基本原理,即 Rubric
      • 这代表了从典型的奖励模型学习到Rubric 学习的根本性转变,这一对比在图 1 中进行了直观总结
  • 为了实现这一新范式,论文的方法通过两个阶段运作:
    • 针对特定 Query 的 Rubric 生成(Query-Specific Rubric Generation)
      • 针对特定 Query 的 Rubric 生成采用迭代的 Propose-Evaluate-Revise 循环,将 Rubric 生成视为一个约束优化问题,确保每个 Rubric 都经过其判别能力的验证
    • 与 Query 无关的 Rubric 聚合(Query-Agnostic Rubric Aggregation)
      • 与 Query 无关的 Rubric 聚合使用一种 信息论选择(information-theoretic selection) 算法
        • 将从大量经过验证的细粒度 Rubric 池中提炼出一个紧凑的、层次化结构的 Rubric,论文称之为 “Theme-Tips” Rubric
        • 这个 Rubric 包含高层主题和相应的可操作要点
  • 论文的主要贡献如下:
    • 一种数据高效、无需训练的自动化 Rubric 提取框架(A data-efficient, training-free framework for automated rubric extraction)
      • 论文的两阶段 Propose-Evaluate-Revise 和信息论选择机制仅使用典型偏好数据的一小部分就实现了 SOTA 性能
    • 开源的 Rubric 数据集(Open-source rubric datasets)
      • 论文发布了从偏好数据推断出的、与 Query 无关的 Rubric 公共数据集,以促进可解释对齐的研究
    • 一种新颖的 Rubric 分析框架(A novel rubric analysis framework)
      • 论文引入了一种通过覆盖率、精确度和贡献度指标来剖析 Rubric 效用的定量方法,为评估过程提供了更深入的见解
    • 在奖励建模基准测试上的最先进性能(State-of-the-art performance on reward modeling benchmarks)
      • 论文的方法在四个基准测试上持续改进了基础 LLM
      • Notably,论文在 RewardBench2 上的性能为无需训练的方法设定了新的最先进水平,论文 Rubric 增强的 Qwen3-235B 和 Qwen3-8B 在多个基准上优于许多专门的、经过充分训练的奖励模型

Methodology

  • Overview 论文的框架系统地从少量人类偏好样本中推断出一套通用的、可解释的评估 Rubric
  • 论文的方法论被结构化为几个阶段,从细粒度开始以最大化数据效率
    • Step1:将 Rubric 学习公式化为传统奖励建模的替代方案
    • Step2:在初始生成阶段,处理一小批种子数据,通过一个以验证为中心的循环为每个偏好对推断出高保真的(high-fidelity)、针对特定 Query 的 Rubric,如图 2 所示
    • Step3:使用信息论方法,将这些细粒度 Rubric 聚合成一个紧凑的、与 Query 无关的集合
    • Step4:论文引入一个定量框架来分析最终集合中每个 Rubric 的效用和贡献

Formulation

  • 从人类偏好(human preferences)中学习的传统方法是训练一个参数化的奖励模型
  • 给定一个偏好数据集 \(\mathcal{D}=\{(x_{i},y^{+}_{i},y^{-}_{i})\}^{N}_{i=1}\)
    • 目标是学习一个标量奖励函数 \(r_{\theta}(x,y)\),该函数为偏好的回答分配更高的分数
    • 这通常使用 Bradley-Terry 模型 (1952) 进行优化,其中偏好的概率被建模为:
      $$P(y^{+}_{i}\succ y^{-}_{i}|x_{i})=\sigma(r_{\theta}(x_{i},y^{+}_{i})-r_{\theta}(x_{i},y^{-}_{i})) \tag{1}$$
      • 目标是通过最大化数据集的似然对数来找到最优参数 \(\theta\)
    • 虽然有效,但这个过程产生了一个不透明的奖励函数 \(r_{\theta}\)
      • 一个“黑盒”,对为何一个回答优于另一个提供的洞察有限
      • 这种解释性的缺乏阻碍了故障诊断和信任
  • 为了克服这些挑战,论文的工作尝试从 奖励模型学习(Reward Model Learning) 到 Rubric 学习(Rubric Learning) 的范式转变
    • 论文的目标不是优化一个难以理解的函数的参数 \(\theta\),而是直接推断出最能解释 \(\mathcal{D}\) 中偏好的、明确的、人类可读的 Rubric 集合 \(R\)
    • 论文的优化问题仍然是:
      $$R^{*}_{\text{task} }=\arg\max_{R}\sum_{i=1}^{N}\mathbb{I}[\text{eval}_{R}(x_{i},y ^{+}_{i},y^{-}_{i})=\text{correct}] \tag{2}$$
  • However,评估函数 \(\text{eval}_{R}(\cdot)\) 不再是一个参数化模型,而是一个由 \(R\) 中的自然语言 Rubric 引导的透明推理过程
    • 在实践中(In practice),这个评估函数是通过向一个大语言模型 Prompt Query 、候选回答和 Rubric 集合 \(R\),并要求其做出偏好判断来实现的
  • 直接求解方程 2 中的 \(R_{\text{task} }\) 是难以处理的,因为它需要在极其庞大且非结构化的自然语言规则空间中进行搜索
    • 为了使这个问题可处理,论文引入了一个实用的两阶段框架,该框架从少量样本中自动化生成和聚合 Rubric,具体如下所述

Query-Specific Rubric Generation

  • 论文的框架不是需要一个大规模数据集,而是从细粒度开始,通过处理一小批种子数据来为每个单独的偏好对 \((x_{i},y^{+}_{i},y^{-}_{i})\) 推断出高质量的 Rubric
    • 这个过程的核心是一个迭代的 Propose-Evaluate-Revise 循环,它强调验证以确保 Rubric 质量
  • 形式上,对于单个偏好对的过程始于一个提案模型(proposal model) \(\mathcal{M}_{\text{propose} }\) 提出一个初始的 Rubric 集合:
    $$R^{(0)}_{i}\leftarrow\mathcal{M}_{\text{propose} }(x_{i},y^{+}_{i},y^{-}_{i}) \tag{3}$$
    • 在每次迭代 \(t\),一个评估模型 \(\mathcal{M}_{\text{evaluate} }\) 通过做出判断来验证当前的 Rubric 集合 \(R^{(t)}_{i}\):
      $$y^{(t)}_{\text{pred} }\leftarrow\mathcal{M}_{\text{evaluate} }(x_{i},y^{+}_{i},y^ {-}_{i},R^{(t)}_{i})\tag{4}$$
      • 这个验证步骤是必要的,充当质量关口
        • 理解:这里可以验证之前生成的 Rubric 集合是否能够准确评判原始 Response 的好坏
      • 如果预测与真实偏好不匹配 (\(y^{(t)}_{\text{pred} }\neq y^{+}_{i}\)),失败的 Rubric 集合 \(R^{(t)}_{i}\) 被用作负反馈
        • 然后,一个修订模型 \(\mathcal{M}_{\text{revise} }\) 产生一个改进的(Rubrics)集合:
          $$R^{(t+1)}_{i}\leftarrow\mathcal{M}_{\text{revise} }(x_{i},y^{+}_{i},y^{-}_{i},R^ {(t)}_{i})\tag{5}$$
    • 这种迭代精炼会持续进行,直到验证成功或达到最大迭代次数 \(E_{\text{max} }\)
      • 理解:这里被迭代优化的对象是 Rubrics 集合,随着迭代的进行,Rubrics 集合会越来越好
  • Finally,对于每个样本 \((x_{i},y^{+}_{i},y^{-}_{i})\)(这里 \(i\) 表示样本索引)
    • 论文生成一个针对特定 Query 的 Rubric 集合 \(R^{*}_{i}\),它捕捉了该特定实例最相关的评估标准
    • 这个过程填充了一个庞大的候选 Rubric 池 :
      $$ \mathcal{R}_{\text{pool} }=\bigcup_{i=1}^{N}R^{*}_{i} $$

Query-Agnostic Rubric Aggregation(Query 无关的聚合)

  • 虽然初始生成阶段产生了一个丰富的、高质量的、针对特定 Query 的 Rubric 池 \(\mathcal{R}_{\text{pool} }\),但这个集合本身是不够的
  • 它本质上是冗余的(例如,同样的潜在 Rubric 以许多略微不同的措辞表达)并且是碎片化的(许多 Rubric 对其源 Query 过于特定,难以广泛使用)
    • Therefore,一个与 Query 无关的聚合阶段至关重要
  • 主要目标是提炼一个最小但全面的 Rubric 核心集合,以增强对未见 Query 的泛化性和可转移性
    • 这通过从原始的、针对特定 Query 的池中识别并合并最基本和重复出现的评估 Rubric 来实现
  • 为了实现这一点,论文选择一个能最大化信息增益的子集,确保高的语义覆盖率同时最小化冗余
    • 从几何角度看,这等同于选择一组能够张成最大可能体积的嵌入向量,这个过程自然会惩罚冗余的向量(Geometrically, this is equivalent to selecting a set of embedding vectors that span the largest possible volume, a process that naturally penalizes redundant (i.e., near-collinear) vectors)
  • 论文的选择标准是 最大化编码率(coding rate) (2020),并直接实现了这一原则
    • 编码率是一个定义在 Rubric 嵌入 \(\mathbf{E}_{R}\in\mathbb{R}^{d\times|R|}\) 上的信息论度量:
      $$\mathcal{C}(\mathbf{E}_{R},\varepsilon)=\frac{1}{2}\log\det\left(\mathbf{I}+ \frac{1}{\varepsilon^{2}|R|}\mathbf{E}_{R}^{\top}\mathbf{E}_{R}\right) \tag{6}$$
      • 其中 \(\mathcal{C}\in\mathbb{R}\),\(\varepsilon>0\) 控制压缩与保真度之间的权衡
      • 最大化此函数等同于最大化 Rubric 嵌入向量所张成的体积,从而促进多样性
    • 优化问题是找到核心集合 \(R_{\text{core} }\):
      $$R_{\text{core} }^{*}=\arg\max_{R\subseteq R_{\text{pool} },|R|\leq m}\mathcal{C}(\mathbf{E}_{R},\varepsilon) \tag{7}$$
      • 其中 \(m\) 是 Rubric 集合的期望大小
    • 由于这个问题是 NP 难的,论文采用一种贪心算法,迭代选择能提供最高边际信息增益的 Rubric
      • 从一个空集 \(R_{0}=\emptyset\) 开始,在每一步 \(k\),论文添加 Rubric \(r_{k+1}\),使得:
        $$r_{k+1}=\arg\max_{r\in\mathcal{R}_{\text{pool} }\setminus R_{k} }\left[\mathcal{C }(\mathbf{E}_{R_{k}\cup\{r\} },\varepsilon)-\mathcal{C}(\mathbf{E}_{R_{k} },\varepsilon)\right] \tag{8}$$
        • 理解:每次都添加使得增益最大的 Rubric
  • 这个过程持续进行直到收敛,收敛由一个提前停止标准确定:
    • 编码率的边际增益必须连续若干次低于最小阈值 (\(\tau_{\min}\)) 以确保核心集合的信息内容已经饱和
  • Finally,选出的核心集由一个 structuring LLM 组织成论文可解释的 “Theme-Tips” 层次结构
    • 注:这一步也通过 Prompt 大模型来实现,详细 Prompt 见附录 H
    • 这一步的目标:通过 Prompt 让 LLM 帮忙生成结构化的 Rubric,这一步已经与 Query 无关了
      • 输入:一批 Rubric
      • 输出:符合指定要求的,“Theme-Tips” 层次结构的 几条总结性 Rubric
    • 问题:附录中 Prompt 中没有给模型展示输入 Rubrics
      • 回答:看了一下源码,作者源码中的内容跟这个 Prompt 不完全一致(是包含了所有 Rubric 的),详情见 OpenJudge/openjudge/generator/iterative_rubric/categorizer.py
  • 这个两阶段框架可以被视为一个在线学习过程(online learning process)
    • 其中新的偏好数据批次被用来生成更多针对特定 Query 的 Rubric,这些 Rubric 反过来迭代地精炼和扩展与 Query 无关的核心集合,从而实现高样本效率
  • 论文流程每个阶段使用的具体 Prompt 详见附录 H

A Framework for Rubric Analysis

  • 为确保最终的 Rubric 集合不仅性能优越,而且健壮且结构良好,论文引入了一个定量分析框架
    • 这个框架是论文方法论的核心部分,使论文能够剖析最终集合 \(R_{\text{task} }\) 中每个单独 Rubric 的效用
    • 通过评估每个 Rubric 在三个关键维度上的表现,我们可以验证聚合过程的有效性,并对评估机制获得更深入的见解
  • 对于每个 Rubric \(r_{j}\in R_{\text{task} }\),论文定义以下指标:
    • 覆盖率 (Coverage): 该 Rubric 能提供判别信号测试样本的比例(此指标衡量 Rubric 的通用性和适用性)
      $$\text{Coverage}(r_{j})=\frac{1}{|D_{\text{test} }|}\sum_{i\in D_{\text{test} } }\mathbb{I}[\text{eval}_{\{r_{j}\} }(x_{i},y_{i}^{+},y_{i}^{-})\neq\text{tie}]\tag{9}$$
    • 精确度 (Precision): 给定 Rubric 提供了判别信号,其判断与真实偏好一致的条件概率(衡量了 Rubric 的可靠性)
      $$\text{Precision}(r_{j})=P(\text{eval}_{\{r_{j}\} }\text{ is correct}|\text{eval }_{\{r_{j}\} }\neq\text{tie})\tag{10}$$
    • 贡献度 (Contribution): Rubric 对全集性能的边际影响,通过移除它时整体准确率的下降来度量(量化了 Rubric 的独特价值和非冗余性)
      $$\text{Contribution}(r_{j})=\text{Acc}(R_{\text{task} })-\text{Acc}(R_{\text{task} }\setminus\{r_{j}\})\tag{11}$$
  • 这个分析框架对于验证论文的方法产生了一组互补的 Rubric 至关重要,这些 Rubric 平衡了通用、高覆盖率的 Rubric 与专门、高精确度的 Rubric

Experiment

  • 在本节中,论文进行了一系列实验来验证论文框架的核心贡献
  • 论文的目标是证明其:
    • (1) 在标准奖励建模基准测试上的最先进性能;
    • (2) 通过快速收敛所体现的高数据效率;
    • (3) 以及通过论文新颖的分析方法所验证的、能够生成高价值、可解释的 Rubrics 的能力

Experimental Setting

Datasets
  • 论文从两个偏好数据集中提取 Rubrics:
    • (1) HelpSteer3-Preference (2025) 提供了一个涵盖四个领域(通用、STEM、代码、多语言)的开放的人工标注偏好数据集
      • 论文专注于通用领域进行 Rubrics 提取
    • (2) UltraFeedback-Binarized (2024) 包含由 GPT-4 在诸如 helpfulness 和 honesty 等 Rubrics 上评分的 Prompt 和模型完成结果
Baselines
  • 论文将论文的方法与三类基线进行比较:
    • (1) 基础模型 (Base Models) :使用各种 LLM 进行零样本评估,不使用任何 Rubrics
    • (2) 上下文学习 (In-Context Learning, ICL) (2022):使用相同的 \(k=5\) 个示例提示基础模型以进行偏好评估
    • (3) 基于训练的奖励模型 (Training-based Reward Models) :一套全面的最先进模型,包括 ArmoRM(2024)、J1(2025)、R3(2025)、RM-R1(2025) 和 Skywork-Reward-V2(2025a)
Evaluation Benchmarks
  • 论文在涵盖多个领域的四个标准基准上进行了评估:
    • RewardBench (2024)、RewardBench2 (2025)、RM-Bench (2025b)、JudgeBench (2025)
Models
  • 论文的 Training-free 框架在整个 Rubrics 构建阶段(包括 Propose、Evaluate、Revise 和 Structuring)都使用 Qwen3-32B(2025)
  • 论文进一步分析了所得 Rubrics 在一系列 LLM 之间的泛化能力,发现由 Qwen3-32B 生成的 Rubrics 表现出最强的跨模型适用性(见附录 C)
  • 详细的实验设置和实施细节见附录 B

Main Results

State-of-the-Art Performance Across Benchmarks
  • 论文的框架展示了 SOTA 性能,在四个评估基准上均获得了最高分(详见表 1)
  • Specifically,论文的 Qwen3-235B 模型:
    • 在 RewardBench 上达到了最高分 94.87%
    • 在 RewardBench2 上达到 86.46%
    • 在 RM-Bench 上达到 89.58%
    • 在 JudgeBench 上达到 86.29%
    • 这一广泛成功突显了所提取 Rubrics 的鲁棒性和普遍适用性
Consistent Improvement Across Model Scales(跨模型规模时,体现了一的改进)
  • 如表 1 所示,经过 Rubric 增强的模型持续优于其基础版本,在 Qwen3-14B (+2.59%)、Qwen3-32B (+3.79%) 上观察到了显著的准确率平均增益
  • Notably,论文的方法使较小的模型能够实现卓越的性能
    • 例如,论文基于 Rubrics 指导的 Qwen3-8B 不仅在 RewardBench2 上超越了专门的、完全训练的 Skywork-Reward-V2-Qwen3-8B (80.91% vs. 78.20%),而且在 RM-Bench 上也显示出明显的优势 (88.28% vs. 82.60%)
    • 证明了其增强效果并不局限于单一基准
Robustness Across Rubric Source Datasets(跨 Rubric 源数据集表现了鲁棒性)
  • 该框架的泛化能力很强,从人工标注的 HelpSteer3 和 AI 标注的 UltraFeedback 中推导出的 Rubrics 都产生了具有竞争力的、 SOTA 结果
  • 尽管 Qwen3-235B 上的平均得分几乎相同 (89.07% vs. 89.10%),但每组 Rubrics 在不同的基准上表现出色
    • HelpSteer3 在 RewardBench/RewardBench2 上表现更好
    • UltraFeedback 在 RM-Bench/JudgeBench 上表现更好
    • 这证明了该框架从人类和 AI 标注中都捕捉到了基本的偏好模式

Data Efficiency and Convergence Analysis

  • 论文工作的一个核心主张是,在显著的数据效率下实现高性能
  • 论文通过分析信息论选择过程的收敛性来证明这一点
    • 该过程从包含 4,626 个样本的 HelpSteer3 训练数据集中迭代地抽取批次大小为 \(B=10\) 的偏好对
    • 论文的框架采用了一种早停机制,当编码率的边际增益连续 \(p_{\text{patience} }=2\) 次低于 \(\tau_{\min}=0.002\) 时,信息论选择过程终止
    • 每个偏好对最多经历 \(E_{\text{max} }=10\) 轮的 Propose-Evaluate-Revise 循环以确保 Rubrics 质量
    • 图 3 提供了这种效率的直接证据,论文将其归因于论文的选择过程从少量样本中快速识别出了一个全面且非冗余的 Rubrics 集
  • 图 3a 中的 t-SNE 可视化追踪了 Rubrics 的选择顺序,表明论文的算法积极地促进了语义多样性
    • 早期选择的 Rubrics(颜色较深)广泛分布在不同的聚类中,这表明框架优先覆盖整个语义空间,而不是选择相似、冗余的 Rubrics
    • 这确保了每个新 Rubric 都提供新颖的信息,从而最大化从每个样本中提取的价值
    • 关于迭代精炼动态的额外分析见附录 D,显示了在不同数据集上的快速收敛
  • 这种效率在图 3b 的信息增益图中得到了量化
    • 编码率的增量在前几个批次中最高,然后迅速减少
    • 论文的早停机制在 7 次迭代后停止了该过程,确认可以从数据集中非常小的部分捕捉到偏好的核心 Rubrics
    • 总共只处理了 70 个样本 (源数据的 1.5%),就提炼出了最终的、紧凑的 \(k = 5\) 步的 “Theme-Tips” Rubrics
      • 注意:这里的 \(k\) 在前文 3.3 节中有定义,\(k\) 是迭代步骤,也是 Rubric 的数量

Ablation Studies

  • 论文进行了消融研究,以分离论文框架中每个核心组件的贡献,详见表 2:
    • (1) Query 特定 Rubrics 的迭代精炼
    • (2) Rubrics 子集的信息论选择
    • (3) Rubrics 的最终层次化结构
    • (4) 跨模型泛化能力

Iterative Refinement

  • 论文通过将论文完整的反馈驱动方法与两个基线进行比较,来测试迭代精炼过程的必要性:
    • 基线一:无精炼的单次生成 (Single-pass Generation without refinement)
    • 基线二:在没有失败 Rubrics 的情况下迭代的盲目修订 (Blind Revision)
  • 完整的迭代 Propose-Evaluate-Revise 过程在 Rubrics 评估和修订的帮助下,在 RewardBench2 上比单次生成高出 +2.43%,在 RM-Bench 上高出 +2.04%
    • 这证实了验证驱动的反馈循环对于可靠地提高 Rubric 质量至关重要

Rubric Selection Strategy

  • 此项消融研究验证了论文的信息论选择策略与随机选择基线相比的优越性
  • 论文方法的优越性非常显著:
    • 论文的编码率最大化策略在 RewardBench2 上比随机选择高出 +3.16%,在 RM-Bench 上高出 +1.31%
      • 理解:那岂不是没有这个选择策略的话,效果还不如原始的基础模型?
    • 这种显著的性能差距证实,基于效率和多样性的选择对于从大量候选池中构建强大且非冗余的 Rubrics 集至关重要

Hierarchical Structure

  • 论文通过将论文的层次化 “Theme-Tips” 结构与更扁平的变体(包括非结构化列表)进行比较,分析了 Rubrics 组织对评估器性能的影响
  • 与扁平列表相比, “Theme-Tips” 格式在 RewardBench2 上的准确率提高了 +1.13%,这表明通用 Rubrics(主题)和具体指导(要点)之间的平衡是有效应用 Rubrics 的关键

Exceptional Cross-Model Generalization(优秀的跨模型泛化)

  • 为了进一步验证论文提取的 Rubrics 的普适性,论文进行了严格的跨模型评估(完整细节见附录 C,图 4)
  • 结果表明,论文的框架生成的 Rubrics 不仅在其原生模型族内有效,而且表现出很强的可移植性
  • 最值得注意的是(Most notably),当将 Qwen3-32B 生成的 Rubrics 应用于 GPT-4o 时,其在 RewardBench2 上的性能从基线的 71.96% 跃升至 79.02%
    • 这一发现提供了强有力的证据,表明论文的方法捕捉到了基本且可迁移的评估 Rubrics,而不是模型特定的捷径或风格偏见

Analysis of Core Rubrics

  • 为了验证论文的框架生成了高价值、可解释的数据,论文将第 3.4 节方法中定义的分析框架应用于最终提取的 Rubrics 集
  • 这使论文能够量化每个 Rubric 的效用,并证明最终集合由互补的、非冗余的 Rubrics 组成
  • 如表 3 所示
    • 像 “优先考虑清晰度 (Prioritize clarity)” 这样的基础 Rubric 表现出极高的覆盖率 (97.92%) 和贡献度(如果移除会导致 7.09% 的准确率下降),作为评估的基础
    • In Contrast,像 “确保叙事保真度 (Ensure narrative fidelity)” 这样的专业 Rubric 覆盖率较低 (71.91%)
      • 但具有最高的精确度 (68.24%),能有效处理更广泛的 Rubrics 可能忽略的特定场景
    • 每个 Rubric 显著的贡献度分数验证了论文的信息论选择成功地产生了一个非冗余的集合,其中每个元素都发挥着关键作用
    • 此分析证实论文不仅仅是在生成 Rubrics,而是在生成高质量、结构化的评估知识
    • 从不同数据集提取的完整 Rubrics 集合见附录 G

补充:Related Work

LLM-as-a-Judge Evaluation

  • 使用 LLM 作为自动评估器的范式前景广阔,但受到严重可靠性挑战的破坏
  • 早期工作识别了表面层面的偏差,如位置效应和冗长效应 (2023),而最近的研究揭示了更深层次的不对齐:
    • LLM 评判者会系统性地优先考虑风格质量而非事实准确性和安全性 (2025)
  • 后续工作试图通过校准技术或开发专门的评判模型来缓解这些问题 (2025; 2023; 2023)
  • However,这些方法通常解决的是偏差的表征而非其根本原因:不透明且隐式的判断过程(an opaque and implicit judgment process)
  • 论文的框架通过用明确的、可验证的 Rubric 结构替代这种隐式判断,提供了一个更根本的解决方案
    • 这使得潜在的 Rubric 透明化,从而能够直接缓解此类偏差

Rubric-Based Reward Modeling

  • 基于 Rubric 方法的发展揭示了 Rubric 生成与有效 Rubric 优化之间始终存在的差距
  • 早期方法 (2024) 依赖于静态的、专家编写的 Rubric
    • 这些 Rubric 虽然可解释,但基本上不可扩展
  • 为了克服这一限制,近期工作使用思维链推理和模板化提示等方法来自动化 Rubric 提取 (2025; 2025)
    • However,这些自动化方法通常会产生一个未经提炼、常常相互冲突的混乱规则语料库,并且许多方法仍然与昂贵的参数化训练绑定 (2025; 2024)
    • 论文的工作在无需训练的范式下解决了这一完整生命周期,引入了一个系统化框架,以从最少的数据中提出、精炼、选择 Rubric 并将其结构化为连贯的、可泛化的层次结构(propose, refine, select, and structure rubrics into coherent, generalizable hierarchies from minimal data.)

附录 A:The Use of Large Language Models

  • 后续写我们可以参考本节的写法
  • 在准备本手稿期间,论文利用了多个 LLM 来协助语言编辑和文本润色 (吐槽:为什么要用这么多?)
    • 包括 Google 的 Gemini、阿里巴巴的 Qwen 和 Anthropic 的 Claude
  • 这些模型的作用严格限于增强手稿的清晰度、语法正确性、流畅性和风格一致性
  • 具体任务包括:优化句子结构、为提高可读性提出替代措辞建议、以及统一各部分的术语和语气
  • 这些模型生成或建议的所有输出都经过了仔细评估、严格修改,并最终由作者批准
  • 作者对最终手稿的科学内容、准确性和完整性承担全部责任

附录 B:Experiment Setting Details

  • Implementation details.
    • 论文的 Rubric 提取流程以批次大小 \( B=10 \) 处理数据
    • 每个样本的 Propose-Evaluate-Revise 循环最多运行 \( E_{\text{max} }=10 \) 个 Epoch
    • 当编码率 (coding rate) 的边际增益连续 \( p_{\text{patience} }=2 \) 次迭代低于阈值 \( \tau_{\text{min} }=0.002 \) 时,信息论选择 (information-theoretic selection) 过程终止
    • 最终的核心集 (core set) 被结构化为 \( k=5 \) 步 “Theme-Tips” Rubrics
    • 为了评估,论文使用准确率作为主要指标,并根据每个基准测试的稳定性采用定制化的投票策略(例如,RewardBench2 使用 voting@10,RewardBench 和 JudgeBench 使用 voting@5,RM-Bench 使用 voting@1),以平衡结果的可靠性与计算效率
  • 附录 E 中提供了关于投票次数与性能之间权衡的全面测试时缩放 (test-time scaling) 分析

附录 C:Analysis on the Generalizability of Model-Generated Rubrics

  • 为了为论文的框架选择最优的 LLM,论文分析了三个领先模型生成的评估 Rubrics 的泛化性:
    • Qwen3-32B、GPT-4o 和 Claude-4-Sonnet
  • 论文分别对每个模型作为评估器的性能进行了基准测试,包括基线条件(无 Rubric)以及在使用这三个生成器中每一个生成的 Rubrics 指导下的情况
  • 图 4 中的结果揭示了 Rubric 质量和跨模型效用方面的清晰模式
  • 这些发现证实了两个要点
    • 第一,在所有场景中,应用模型生成的 Rubric 都比基线提供了显著的性能提升
    • 第二,and more critically,Qwen3-32B 生成的 Rubrics 表现出最强的泛化性
      • 这在跨模型测试中最为明显;
      • 例如,Qwen3-32B 的 Rubric 将 GPT-4o 在 RewardBench2 上的性能提升至 0.7902 ,并且显著高于使用其自身 Rubric 达到的分数 (0.7453)
      • 虽然 Claude-4-Sonnet 始终保持最高的绝对分数,证明其本身是一个强大的独立评估器,但 Qwen3-32B 的 Rubrics 为 其他 模型提供的卓越且一致的性能提升 ,使其成为为论文主要实验生成一套稳健、普遍适用的 Rubrics 的明确选择
    • 问题:结论是使用 Qwen3-32B 得到的效果最好(这其实有点奇怪)

附录 D:Query-Specific Accuracy Improvement Analysis

  • 为了进一步理解论文 Rubric 提取框架的学习动态,论文分析了实验中使用的两个数据集在不同训练 Epoch 上的 Query-specific 准确率改进情况
  • 图 5 展示了随着论文的迭代优化过程生成和优化 Rubrics,准确率的渐进提升
  • 结果揭示了关于论文框架学习动态的几个关键见解:
    • 快速初始收敛 (Rapid Initial Convergence).
      • 两个数据集都在最初的 2-3 个 Epoch 表现出陡峭的准确率提升,HelpSteer3-Preference 从 86.1% 跃升至 92.7%( Epoch 0 到 2),UltraFeedback-Binarized 从 93.9% 提升至 97.4%
      • 这种快速的初始改进证明了论文的迭代优化过程在快速识别支配人类偏好的基本评估 Rubrics 方面的有效性
    • 数据集特定特性 (Dataset-Specific Characteristics).
      • UltraFeedback-Binarized 始终达到更高的准确率水平和更快的收敛速度,在 Epoch 9 时达到 99.20%,而 HelpSteer3-Preference 则为 95.80%
      • 这种差异可能反映了不同的标注方法:
        • HelpSteer3 是基于人工标注的,自然包含更多主观差异
        • UltraFeedback 是基于 GPT-4 打分的,可能表现出更一致的模式
    • 收敛稳定性 (Convergence Stability).
      • 两条曲线在 Epoch 6 后都表现出饱和行为,后续迭代的改进微乎其微
      • 这验证了论文的自适应停止机制,并表明支配人类偏好的核心评估 Rubrics 可以在有限数量的优化循环中被有效捕获
    • 跨数据集验证 (Cross-Dataset Validation).
      • 尽管存在不同的领域、标注方法和偏好分布,但两个数据集一致的改进模式支持了论文关于 Rubric 收敛的核心假设
        • 即:潜在的评估 Rubrics 表现出相似的优化动态,证实了论文方法的泛化性

附录 E:Test-time Scaling Analysis

  • 为了评估论文 Rubric-based 评估框架的鲁棒性和稳定性,论文研究了在 RewardBench2 上进行测试时推理时,性能如何随着投票数的增加而扩展
    • 这项分析为计算成本与评估可靠性之间的权衡提供了关键见解
  • 一致的性能优势 (Consistent Performance Advantage).
    • 图 6 表明,论文的 Rubric 增强方法在所有投票策略中都保持着相对于基础模型 6-7 个百分点的优势
    • 这种系统性的改进表明,论文提取的 Rubrics 提供了基本的评估能力,这些能力与集成投票 (ensemble voting) 的益处是正交的 ,从而产生了附加的性能增益
  • 低投票数下的快速收敛 (Rapid Convergence with Low Voting Numbers).
    • 两种方法在从 voting@1 扩展到 voting@5 时都显示出最显著的改进,此后收益递减
    • 这种模式表明,集成投票的主要好处可以用相对适度的计算开销来捕获
    • 对于实际部署,voting@5 到 voting@10 似乎提供了性能与效率之间的最佳平衡
  • 在困难案例上的卓越性能 (Superior Performance on Challenging Cases).
    • 图 6 为论文框架的有效性提供了特别令人信服的证据
    • 在 Ties subset 上(代表最具挑战性的评估场景,基础模型难以做出决定性判断)论文的 Rubric 增强方法显示出约 20 个百分点(improvements of approximately 20 percentage points)的显著提升
      • 这种巨大的差距突显了明确 Rubrics 在恰恰最需要的地方提供区分能力的关键作用
      • 问题:其实 RewardBench2 的 Ties 这个数据集上波动较大,只有 50 多个分组样本
  • 平台行为和计算效率 (Plateau Behavior and Computational Efficiency).
    • 两张图都展示了超过 voting@10 后的平台行为,表明额外的计算投入带来的回报是边际的
    • 这一发现具有重要的实际意义:论文的框架以适度的集成大小实现了接近最优的性能,使其在保持高评估质量的同时,对于实际部署具有计算效率
  • 跨难度级别的鲁棒性 (Robustness Across Difficulty Levels).
    • 整体准确率和 Ties subset 准确率的一致性性能模式表明,论文的 Rubrics 提供了强大的评估能力,能够在不同难度级别上有效扩展
    • 这种鲁棒性对于实际应用至关重要,因为评估系统必须可靠地处理多样化的 Query 类型和模糊案例

附录 F:Detailed Experimental Analysis

  • 为了全面了解论文框架的有效性,论文在多个基准测试和评估维度上进行了详细分析
  • 本节考察论文的 Rubric 指导方法在哪些方面提供了最显著的价值,重点关注具有挑战性的评估场景和特定领域的性能模式

Cross-Benchmark Performance Analysis

  • 论文的详细分析涵盖了两个互补的基准测试,它们共同提供了 Rubric 有效性的全面视图:
    • RM-Bench(允许论文检查不同难度级别样本的性能)和 RewardBench2(提供包括挑战性边缘案例在内的多样化评估维度)
RM-Bench: Difficulty-Stratified Analysis(难度分层分析)
  • 论文在 RM-Bench 上进行了分层分析,以了解论文的 Rubrics 在不同难度级别上的表现(表 4)
  • 结果揭示了一个清晰且一致的模式:论文的 Rubrics 擅长解决最具挑战性的案例,在这些案例中基础模型难以做出准确的偏好判断
  • 难度分层分析显示,困难样本从 Rubric 指导中获益更多 (+4.68%),相比于整体改进 (+2.45%)
    • 这种在困难案例上 2 倍的放大效应表明,论文的 Rubrics 恰恰在最需要的地方(即隐含评估 Rubrics 不足的场景),提供了关键的区分能力
  • 领域特定模式进一步阐明了论文框架有针对性的优势
    • 聊天 (Chat) 领域表现出最显著的改进(困难样本上 +13.95%),突显了论文的 Rubrics 在著名的具有主观性的对话评估领域的有效性,其中细微的判断 Rubrics 至关重要
    • 在 数学 (Math) (+4.54%) 和 安全-拒绝 (Safety-Refuse) (+3.64%) 领域也观察到了显著的提升,展示了在多样化推理和安全场景中的广泛适用性
RewardBench2: 评估维度分析 (Evaluation Dimension Analysis)
  • 为了补充论文以难度为中心的 RM-Bench 分析,论文在 RewardBench2 上检查了跨不同评估维度的性能(表 5)
  • RewardBench2 提供了一个更具挑战性和全面性的评估设置,使论文能够理解 Rubric 指导的评估在不同类型的评估 Rubrics 中在哪些方面提供了最显著的优势
  • 结果显示,在所有评估维度上都有一致且显著的改进,论文的 Rubrics 实现了令人瞩目的整体改进 +6.72%(从 75.55% 到 82.27%)
    • 在具有挑战性的基准测试上取得的这一显著提升,证明了论文框架在多样化评估场景中的强大有效性
  • 最重要的发现是 平局 (Ties) 子集的显著改进 (+25.49%),从 56.86% 跃升至 82.35%
    • 这一显著提升代表了最具挑战性的评估场景(即基础模型难以做出决定性判断的情况)并突显了明确 Rubrics 在模糊案例中提供的关键区分能力
    • 安全 (Safety) 领域也显示出显著的增强 (+10.34%),证明了论文的 Rubrics 在需要仔细平衡多个竞争因素的微妙安全考量方面的有效性
  • 重要的是,即使在基础模型已经取得良好表现的领域也显示出了有意义的改进:
    • 事实性 (Factuality) 提升了 +8.84%,精确指令遵循 (Precise IF) 提升了 +5.62%
  • 这种模式表明,论文的 Rubrics 在整个评估难度范围内(从具有挑战性的边缘案例到已确立的领域)都提供了价值,证实了论文方法的广泛适用性和鲁棒性

附录 G:Extracted Rubric Collections

  • 本节展示了论文的框架从不同数据集和实验配置中提取的完整的 Query 无关 (query-agnostic) Rubrics 集合
  • 这些 Rubrics 展示了从论文的信息论选择 (information-theoretic selection) 和主题归纳 (thematic induction) 过程中产生的结构化 “Theme-Tips” 层次结构

HelpSteer3-Preference Dataset Rubrics

  • 以下 Rubrics 是从 HelpSteer3-Preference 数据集提取的:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    **主题 1: 事实准确性与规范一致性 (Theme 1: Factual Accuracy and Canonical Consistency)**
    **主题 (Theme):** 确保回答中的事实准确性、规范一致性,并避免编造或幻觉 (hallucination)
    * **Tip 1:** 对于关于_Undertale_ 的 Query ,确保所有角色动机和游戏机制与已确立的背景设定 (lore) 一致,避免推测性或矛盾的断言
    * **Tip 2:** 讨论历史里程碑(如早期有声同步卡通)时,正确地将 "Steamboat Willie"(而非 "My Old Kentucky Home")归为里程碑,以保持可靠性
    * **Tip 3:** 在涉及_Hogwarts_ 学生的回答中,仅包含背景设定中描绘的、具有学术准确成就的学生,排除教授或非学生人物
    * **Tip 4:** 避免编造苏美尔文本或虚构的调查链接;相反,在必要时承认缺失的上下文并请求澄清,特别是对于小众文化引用

    **主题 2: 严格遵守提示要求 (Theme 2: Strict Adherence to Prompt Requirements)**
    **主题 (Theme):** 严格遵守提示的结构、格式和明确的用户要求
    * **Tip 1:** 当要求提供一个单词时,提供恰好一个单词,避免冗余或额外建议,如需要最小输出的回答
    * **Tip 2:** 对于要求 100 个项目的提示,即使主题宽泛,也要提供完整的列表,并主动选择一个相关的主题来满足数量要求
    * **Tip 3:** 在口号 (tagline) 创作中,直接融入核心技术优势,如 "距离对冲击的影响 (distance at impact)",避免模糊或冗余的措辞,以免削弱产品相关性
    * **Tip 4:** 当提示要求单词 "scenery" 后跟冒号和一个单词术语时,遵循这种确切的句法结构,不得有任何偏差

    **主题 3: 清晰度与结构化组织 (Theme 3: Clarity and Structured Organization)**
    **主题 (Theme):** 优先考虑清晰度、简洁性和结构化组织,以增强可读性和直接性
    * **Tip 1:** 对于 "谢谢 (Thank you)" 的提示,用简洁的致谢和进一步的提问邀请来回应,避免假设用户是学生或律师
    * **Tip 2:** 总结建立 dropshipping agent 业务的步骤时,使用项目符号或编号列表来逻辑地呈现关键点,并避免幻觉信息
    * **Tip 3:** 在有关存款保险委员会 (deposit insurance boards) 的审计结果中,用精确、可操作的条目构建回答,并以强调影响的简明摘要结尾
    * **Tip 4:** 解释语法正确性时,避免使用粗体文本或不必要的标点等过度格式,保持直接专业的语气

    **主题 4: 全面且详细的分析 (Theme 4: Comprehensive and Detailed Analysis)**
    **主题 (Theme):** 提供全面、详细且主题连贯的叙述或分析,完全解决所有提示要素
    * **Tip 1:** 解释 CFA Institute Investment Foundations® 证书时,包含课程、资格、考试形式、备考资源、益处和持续教育,并提供具体示例
    * **Tip 2:** 在奇幻故事回答中,融入丰富的叙事细节、鲜明的角色发展以及身临其境的世界构建,如生动的场景和动态的互动
    * **Tip 3:** 在讨论与税收成比例的立法机构时,全面概述其机制、影响、数据收集、代表配额、公平问题和宪法考量
    * **Tip 4:** 对于恐怖动漫场景,使用 INT/EXT.(内景/外景)指示,强调氛围张力,并描述生物细节,如菱形尾巴和变色龙状头部,以符合动漫风格

    **主题 5: 叙事与上下文保真度 (Theme 5: Narrative and Contextual Fidelity)**
    **主题 (Theme):** 确保叙事和上下文保真度,保持角色动态、语气和世界构建的一致性
    * **Tip 1:** 在涉及 Jade 角色的回答中,保持她权威但专业的语气,避免与已确立行为相矛盾的敌对转变
    * **Tip 2:** 对于以 KikoRiki 中的 Emily 为主角的故事,保持她作为恶作剧者的角色,并在描述她变形成 Rosa 失败以及橙色后端出错时融入异想天开的语气
    * **Tip 3:** 在延续关于使用尿布而非如厕训练的叙事时,保持一种有趣、适合儿童的语气,避免与原主题相矛盾
    * **Tip 4:** 在治疗性角色扮演场景中,优先通过对话和确认深入参与患者的想象世界,而不是使用临床检查清单

UltraFeedback-Binarized Dataset Rubrics

  • 以下 Rubrics 是从 UltraFeedback-Binarized 数据集提取的:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    **主题 1: 事实准确性与领域特定知识 (Theme 1: Factual Accuracy and Domain-Specific Knowledge)**
    **主题 (Theme):** 答案必须事实准确,并基于正确的领域特定知识,避免误解、逻辑错误或推测性假设
    * **Tip 1:** 正确且精确地应用科学、技术或数学原理(例如,重力、正则表达式语法、Pig Latin 规则)
    * **Tip 2:** 避免延续错误的前提(例如,鸟类产生种子),并澄清生物学或概念上的不准确性
    * **Tip 3:** 使用经过验证的数据、正确的引用和准确的术语(例如,Azure 工作流、MLA 格式、产品设计细节)
    * **Tip 4:** 面对模糊性时,寻求澄清而不是做出无根据的假设
    * **Tip 5:** 在翻译中保留原始信息,不添加、省略或扭曲含义

    **主题 2: 明确要求满足 (Theme 2: Explicit Requirement Fulfillment)**
    **主题 (Theme):** 答案必须直接满足用户在结构、内容和格式方面的明确要求,严格遵守所有陈述的约束
    * **Tip 1:** 遵循规定的结构元素(例如,开场白、问题框架、章节顺序)
    * **Tip 2:** 遵守格式规则(例如,LaTeX、APA、SQL 模式限制、电话号码模式)
    * **Tip 3:** 处理多部分 Query 的每个组成部分(例如,示例、解释、代码、引用)
    * **Tip 4:** 仅使用正确技术上下文内的有效函数、库或命令(例如,Streamlit、PL/pgSQL)
    * **Tip 5:** 仅使用允许的来源提取或生成响应(例如,确切的文本片段、背景段落)

    **主题 3: 清晰度与逻辑组织 (Theme 3: Clarity and Logical Organization)**
    **主题 (Theme):** 答案必须通过结构良好、简洁、逻辑清晰的组织推理,提供清晰度、连贯性和完整性
    * **Tip 1:** 提供分步解释,使推理过程透明且可验证
    * **Tip 2:** 保持语法正确性,并保留原始语言或格式惯例
    * **Tip 3:** 避免不必要的阐述、冗余或分散核心任务的无关细节
    * **Tip 4:** 确保回答是自包含的,无需外部上下文即可理解
    * **Tip 5:** 使用精确的连接词和描述性语言来保持翻译或解释的保真度

    **主题 4: 深度与上下文相关性 (Theme 4: Depth and Contextual Relevance)**
    **主题 (Theme):** 答案必须通过整合具体示例、可操作的策略和上下文相关性来展示深度和丰富性
    * **Tip 1:** 包含具体、场景特定的例证(例如,AR 游戏机制、文化项目指标)
    * **Tip 2:** 提供具有技术细节的实用实施指南(例如,iOS 框架、OpenGL 代码)
    * **Tip 3:** 将抽象概念与现实世界应用联系起来(例如,文学中的象征意义、市场进入中的 ESG 因素)
    * **Tip 4:** 展示进展或转变(例如,习惯养成计划、历史上的科学影响)
    * **Tip 5:** 通过覆盖多个维度并提供细致入微的分析,平衡广度和深度

    **主题 5: 伦理责任与用户一致性 (Theme 5: Ethical Responsibility and User Alignment)**
    **主题 (Theme):** 答案必须在其方法和语气上优先考虑伦理责任、用户一致性和功能性效用
    * **Tip 1:** 主动重构可能具有冒犯性或有害的术语,以保持尊重的沟通
    * **Tip 2:** 专注于可操作的解决方案,而不是简单否定或过于理论化的回答
    * **Tip 3:** 根据用户的角色、目标或身份定制建议(例如,英国律师、开发者、教育者)
    * **Tip 4:** 在旨在互动时,通过清晰的邀请或后续提示鼓励参与
    * **Tip 5:** 通过置信度指标或对结论的明确理由来增强透明度

附录 H:Prompt Templates

  • Rubric Generation Prompt(Figure 7: Prompt for generating query-specific rubrics.)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    ## Overview
    You are an expert rubric writer for open-ended question.
    Your job is to generate a self-contained set of evaluation criteria ("rubrics") for choosing a better answer from candidate answers to a given query.
    Rubrics can cover aspects such as factual correctness, depth of reasoning, clarity, completeness, style, helpfulness, and common pitfalls.
    Each rubric item must be fully selfcontained so that non-expert readers need not consult any external information.

    I will give you:
    1. the query(maybe contains history messages)
    2. candidate answers
    3. which answer is better than others
    4. critics by the human experts, and you need to carefully read the critics provided by human experts and summarize the rubrics.

    NOTE: The number of rubrics should be LESS THAN OR EQUAL TO {number}

    ## Query
    {query}

    ## Candidate Answers
    <answer_1>{answer_1}</answer_1>
    <answer_2>{answer_2}</answer_2>

    ## Better Answer
    Answer {preference} is better than others.

    ## Critics
    <critic>{critic}</critic>

    ## Output Format Requirements
    <rubrics>your rubrics without index</rubrics>
  • Rubric Evaluation Prompt(Figure 8: Prompt for rubric-based pairwise evaluation.)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    ## Task Description
    I will provide you with a set of rubrics, along with the current query and two responses.
    These rubrics are the primary basis for selecting the best answer.
    You must follow the steps specified in the Evaluation Process when conducting your evaluation process.

    ## Rubrics
    {rubrics}

    ## Process
    1. Confirm the task scenario of the current query and select the corresponding evaluation rubrics.
    2. Identify the best response that meets the most selected rubrics.

    ## Query
    {query}

    ## Response A
    {response_a}

    ## Response B
    {response_b}

    ## Output Requirement
    Please choose the better response. Response "A", "B", or "tie" within the tags.
    <preference>A/B/tie</preference>
    • 理解:让模型判断当前的回复 A 和 B 哪个更符合 Rubric
  • Rubric Revision Prompt(Figure 9: Prompt for revising query-specific rubrics based on evaluation feedback.)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    ## Overview
    You are an expert rubric writer for open-ended question.
    A selfcontained set of evaluation criteria ("rubrics") is needed for choosing a better answer from candidate answers to a given query.
    Since the rubrics generated in the previous round failed to correctly select a better answer, you need to revise the rubrics.
    rubrics can cover aspects such as factual correctness, depth of reasoning, clarity, completeness, style, helpfulness, and common pitfalls.
    Each rubric item must be fully self-contained so that non-expert readers need not consult any external information.

    I will give you:
    1. the query(maybe contains history messages)
    2. candidate answers
    3. which answer is better than others
    4. critics by the human experts, and you need to carefully read the critics provided by human experts and summarize the rubrics.
    5. previous round rubrics that should to be improved

    NOTE: The number of rubrics should be LESS THAN OR EQUAL TO {number}

    ## Query
    {query}

    ## Candidate Answers
    <answer_1>
    {answer_1}
    </answer_1>

    <answer_2>
    {answer_2}
    </answer_2>

    ## Better Answer
    Answer {preference} is better than others.

    ## Previous Round rubrics
    <rubric_1>
    {previous_rubric_1}
    </rubric_1>

    ## Output Format Requirements
    Note: Ensure all outputs are placed within the tags like <tag>...</tag> as required!!!
    <rubrics>
    your improved rubrics without index
    </rubrics>
    • 问题:人类专家的 Critics 是怎么来的?生成过程需要人类专家参与吗?
  • Rubric Structuring Prompt(Figure 10: Prompt for structuring the core rubric set into a ”Theme-Tips” hierarchy.)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    ## Task Description
    Your task is to generate a set of evaluation rubrics to identify the best answer, based on the suggestions for determining from the examples.
    I will give you some examples, and every example contains the query and suggestion which has been verified to help select the best answer.

    ## Requirements
    - Rubrics must be fully self-contained so that non-expert readers need not consult any external information.
    - Each rubric should assess an independent dimension and be noncontradictory with others.
    - Rubrics ensure that the overall judgment remains aligned and consistent for all examples.
    - The number of rubrics should be LESS THAN OR EQUAL TO 5. The number of tips for each rubric should be LESS THAN OR EQUAL TO 5.
    - Must strictly adhere to the Rubrics Format.

    ## Rubric Format
    Each rubric consists of two parts:
    - Theme: A concise and clear statement that captures the core focus of the rubric, and must be **necessary** for all queries with no assumption.
    - Tips: Multiple bullet points that expand on or supplement the rubric and only focuses on some specific queries.

    Here is an example of a rubric:
    Theme: [Concise theme statement]
    -Tip 1:
    -Tip 2:
    -Tip 3:
    -(Optional: More tips as needed)

    ## Process
    1. Based on the query and suggestions of each example, summarize the rubric of each example.
    2. summarize the rubrics of each example, taking care to strictly adhere to the Requirements.

    NOTE: The number of rubrics should be LESS THAN OR EQUAL TO 5. The number of tips for each rubric should be LESS THAN OR EQUAL TO 5.

    ## Output Format Requirements
    <rubrics>
    Theme: [Concise theme statement]
    -Tip 1: [Specific tip for certain queries]
    -Tip 2: [Another specific tip]
    -Tip 3: [Additional tip if needed]

    Theme: [Another theme statement]
    -Tip 1: [Related tip]
    -Tip 2: [Another tip]
    </rubrics>
    • 目标:通过 Prompt 让 LLM 帮忙生成结构化的 Rubric,这一步已经与 Query 无关了
      • 输入:一批 Rubric
      • 输出:符合指定要求的,结构化的 几条总结性 Rubric
    • 问题:Prompt 中没有给模型展示需要 Structuring 的 Rubric 吗?
      • 回答:看了一下源码,作者源码中的内容跟这个 Prompt 不完全一致(是包含了所有 Rubric 的),详情见 OpenJudge/openjudge/generator/iterative_rubric/categorizer.py
1…111213…66
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

659 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4