Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

NLP——Interplay-of-Pre-Mid-Post-Training-on-LRM

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, 20251208,
      • 预训练、 中期训练与强化学习在推理模型中的相互作用

Paper Summary

  • 整体介绍:
    • 论文提出了关于 Pre-training,Mid-training 和 Post-training 如何共同决定语言模型推理能力的受控研究
    • 论文仔细分离每个阶段的贡献,尝试阐明 RL 增强或未能增强推理泛化的因果机制
      • 论文的方法采用具有明确原子操作(atomic operations)、可解析的逐步推理轨迹以及对训练分布进行系统性操控的合成推理任务
    • 利用完全可控的合成推理任务和过程级评估,论文证明了:
      • 通过 Post-training 实现的真正的推理改进,只有在 Pre-training 阶段建立起关键的推理原始技能时才会出现
    • 评价:很实在的文章,对理解 LLM 的 各个训练阶段有较强的参考意义
  • 背景 & 问题提出:
    • RL 显著提升了语言模型的推理能力,但尚不清楚 Post-training 是否真正扩展了模型在 Pre-training 之外获得的推理能力
    • 一个核心挑战在于现代训练流程缺乏控制:
      • 大规模 Pre-training 语料库不透明, Mid-training 往往被忽视,而 RL 目标与未知的先验知识以复杂的方式相互作用
  • 本文的工作:
    • 为了澄清这一问题,论文建立了一个完全受控的实验框架,以分离 Pre-training 、 Mid-training 和 RL-based 的 Post Training 的因果贡献
  • 论文沿两个轴评估模型:
    • 向更复杂组合的外推泛化 (extrapolative generalization)
    • 跨越不同表面上下文的上下文泛化 (contextual generalization)
  • 利用此框架,论文调和了关于 RL 有效性的对立观点,研究表明:
    • 1)RL 仅在 Pre-training 留有足够提升空间且 RL 数据针对模型的能力边缘 (edge of competence)
      • 那些困难但尚未超出解决范围的任务边界时,才能产生真正的(genuine)能力提升 (pass@128)
    • 2)上下文泛化需要最小但充分的 Pre-training Exposure ,之后 RL 可以可靠地实现迁移
    • 3)在固定计算量下, Mid-training 显著提升了性能,证明了其在训练流程中核心但未被充分探索的作用
    • 4)过程级奖励减少了 Reward Hacking 并提高了推理的保真度
  • 图 1:大语言模型推理中 Pre-training 、 Mid-training 与 Post-training 阶段的相互作用
    • 左图:RL 仅在任务难度略超出 Pre-training 数据范围时,才能带来真正的外推性能提升;当任务已被 Pre-training 数据覆盖,或完全超出 Pre-training 数据分布(分布外程度过高)时,性能提升会消失(在参数校准良好的情况下,pass@128 最高可提升 42%)
      • 理解:从图中可以看出,在适当 OOD(OOD-mid)的任务上才出现了很好的性能提升,完全分布内(within Pre-training range)或者过于 OOD(OOD-hard)的任务上均不会带来提升
    • 中图:实现上下文泛化,需要模型在 Pre-training 阶段对长尾上下文具备最低限度但足够的接触量
      • 若 Pre-training 对长尾上下文的接触量接近零, RL 无法发挥作用;
      • 但只要存在稀疏接触(接触量 \(\ge 1%\)), RL 就能实现稳健的泛化,pass@128 最高可提升 60%
      • 理解:从图中可以看出,接触 10% 和接触 1% 的效果差距远远不如想象的大
    • 右图:在 Pre-training 与 RL 之间加入一个 “Mid-training” 阶段,能在计算资源固定的情况下显著提升 OOD 推理性能
      • 在困难分布外任务上,“Mid-training + RL” 的组合比单独使用 RL 的性能高出 10.8%

Introduction and Discussion

  • 最近的 RL 进展显著提升了语言模型的推理能力 (2025, 2025)
  • 但一个基本概念问题仍未解决:Post-training 是否真正扩展了模型在 Pre-training 之外获得的推理能力?
    • 文献中存在相互矛盾的观点:
      • 一些工作将 RL 描述为 capability refiner (2025, 2025, 2025, 2025)
      • 另一些则提供了超越 Pre-training 的实质性推理增益的证据 (2025, 2025, 2025)
  • 这种差异的主要来源在于先前的分析依赖于不受控的 (uncontrolled) 训练环境
    • 现代语言模型在大规模、不透明的互联网语料库上进行 Pre-training ,其构成本质上是未知的
    • As a result,论文无法确定 Base Model 已经内化了哪些推理原语 (reasoning primitives)
    • 这种控制的缺乏使得分离 Post Training 的因果效应以及理解 Pre-training 和 Post Training 如何共同塑造推理行为变得具有挑战性
  • Meanwhile,一个额外的阶段 Mid-training 最近已成为现代语言模型训练流程的关键组成部分 (2025, 2025)
    • 在一些文献中,Mid-training 阶段也被称为继续 Pre-training (Continued Pre-Training, CPT)
    • Mid-training 在广泛的 Pre-training 语料库和专门的 Post Training 目标之间充当了中间分布桥梁,扩展了模型的原子操作覆盖范围,并将其内部表征 (internal representations) 与 RL 阶段强调的任务对齐
    • As a result, Mid-training 在辩论中变得越来越核心:它可能解释了为什么 RL 有时能产生显著的泛化改进,而在其他设置中却失败 (2025)
    • 这激发了论文工作的核心问题:Pre-training 、 Mid-training 和 RL 在塑造语言模型的推理能力方面是如何相互作用的?
  • 本工作的目标是以受控的方式令人信服地回答这个问题,遵循该领域的先前工作 (2025, 2025, 2025)
    • Specifically,论文通过受控实验来厘清 Pre-training 、 Mid-training 和 RL-based 的 Post Training 如何单独及共同影响推理泛化
  • 为此,论文建立了一个完全受控的框架,以分离每个训练阶段的贡献。论文的设计基于三个原则:
    • (i) 完全可控的合成推理任务 (fully controllable synthetic reasoning tasks) ,具有明确的原子操作和由有向无环图定义的(DAG-defined)依赖结构;
    • (ii) 可观测、可解析的推理过程 (observable, parseable reasoning processes) ,支持过程级评估并减少奖励或评估欺骗 (reward/evaluation hacking);
    • (iii) 对 Pre-training / Mid-training / Post Training 分布的系统性操控 (systematic manipulation) ,以将因果效应归因于每个阶段
  • 论文沿两个关键维度评估推理:
    • 1)外推 (深度) 泛化 (Extrapolative (Depth) generalization) 评估模型是否能通过以更深的结构组合已学习的原语,解决比 Pre-training 中遇到的更复杂的问题
    • 2)上下文 (广度) 泛化 (Contextual (Breadth) generalization) 评估模型是否能在具有相同底层逻辑但 surface forms 不同的新颖上下文中迁移 (transfer) 其推理技能
    • 这两个轴共同捕捉了与现实世界语言模型相关的广泛的组合和迁移推理能力
  • 利用论文的受控框架,论文揭示了关于三个训练阶段如何相互作用的若干 insights:
    • Firstly ,关于 RL 是否真正改善 Base Model 推理能力的两种对立观点并不真正冲突
      • RL 仅在两个条件成立时才能产生真正的能力增益:
        • (i) 该任务在 Pre-training 期间未被大量覆盖,为 RL 探索留下了足够的提升空间
        • (ii) RL 数据被校准到模型的能力边缘 (edge of competence) ,既不太简单(in-domain)也不太困难(out-of-domain, OOD)
      • 当任一条件被违反时,RL 倾向于锐化(sharpen)现有能力而非真正改进
    • Secondly ,RL 激励上下文泛化仅当相关的原子操作或基础技能已存在于 Base Model 中
      • 如果对新的上下文没有最少的 Pre-training Exposure ,RL 无法产生迁移(induce transfer)
      • 但即使非常稀疏的覆盖率(例如,\(\ge 1%\))也能提供一个足够的“种子”,RL 随后可以稳固地强化它,产生强大的跨上下文泛化
    • Thirdly ,引入一个连接 Pre-training 和 Post Training 分布的 Mid-training 阶段,能在固定计算预算下显著增强分布内和分布外的性能,凸显了 Mid-training 作为训练设计中一个未被充分探索但强大的杠杆作用
    • Fourthly ,过程奖励 (process rewards) 减轻了 Reward Hacking 并提高了推理保真度
      • 将过程验证 (process verification) 纳入奖励函数,使强化信号与有效的推理行为对齐,从而在复杂的组合设置下带来准确性和泛化性的可衡量改进

Preliminaries

  • 本节介绍以下三个部分:
    • (a) 基于依赖图 (dependency graphs) 和上下文渲染 (contextual rendering) 的合成数据生成框架 (data generation framework) ,该框架指定了推理过程
    • (b) 用于外推和上下文泛化的任务设置 (task setup)
    • (c) 过程验证评估 (process-verified evaluation) 框架,该框架评估推理过程和最终答案的准确性
    • 这些组件共同使论文能够分离 Pre-training 、 Mid-training 和 Post Training 对推理泛化的不同影响

Controllable Synthetic Reasoning Dataset

  • 论文基于 GSM-Infinite (2025) 数据生成框架创建了一个测试平台,能够精确控制推理结构、复杂性和上下文
    • 图2:数据生成框架、任务设置和过程验证评估概览
      • 图2 描述了依赖图 \(\mathcal{G}\) 和上下文模板 \(\tau\),用于外推和上下文泛化的任务设置,以及检查推理步骤正确性的过程验证评估框架
  • Specifically,数据生成流水线(图2(a))涉及三个关键组件:
    • 依赖图 (Dependency Graphs).
      • 每个推理问题由一个有向无环图 (DAG) \(\mathcal{G}=(\mathcal{V},\mathcal{E})\) 表示,其中节点 \(v\in\mathcal{V}\) 对应变量,有向边 \(e\in\mathcal{E}\) 表示它们之间的依赖关系
        • 理解:每条边对应一次算数运算
      • 该图最终汇聚到一个指定的答案节点 \(v^{*}\),该节点产生最终答案 \(a^{*}\)
    • 推理复杂性控制 (Reasoning Complexity Control).
      • 论文通过算术运算的数量来量化图的复杂度:
        $$
        \text{op}(\mathcal{G})=|\mathcal{E}|,
        $$
      • 这控制了从基础算术到复杂多步推理的任务难度
    • 上下文渲染 (Contextual Rendering).
      • 给定一个预定义的上下文模板 \(\tau\)(例如,animals-zoo、teachers-school)及自然语言描述,论文将依赖图 \(\mathcal{G}\) 渲染成一个完整的数学问题
      • Finally,论文通过抽样不同的图 \(\mathcal{G}\) 和模板 \(\tau\),并将它们渲染为文本来生成多样化的数学问题
  • 论文采用此框架的动机在于三个主要优点:
    • 1)对训练阶段无污染的控制 (Contamination-free control over training phases)
      • 论文为 Pre-training 、 Mid-training 和 Post Training 指定了独立的数据分布以避免重叠
    • 2)对结构和上下文进行因子化控制 (Factorized control over structure and context)
      • 每个问题都从一个 DAG 生成,该图编码了推理结构和依赖关系,并在其上实例化了数值和上下文
    • 3)过程级验证 (Process-level verification)
      • 真实的 DAG 可作为验证中间步骤和防止错误推理的参考
      • 作者在附录 A.1 中提供了详细的公式和解释

Task Setup

  • 在现实世界部署中,语言模型通常需要沿两个互补的轴(complementary axes)进行推理泛化:
    • 外推 (深度) 泛化 (extrapolative (depth-wise) generalization)
    • 上下文 (广度) 泛化 (contextual (breadth-wise) generalization) (2025, 2025, 2025)
    • 论文的受控实验揭示了这两个维度(图2(b)),从而能够精确检验 Pre-training 、 Mid-training 和Post Training 如何影响每种类型的泛化
  • 外推 (深度) 泛化 (Extrapolative (Depth) Generalization).
    • 该维度评估模型在推理深度 \(\text{op}(\mathcal{G})\) 增加时保持正确性的能力 (2025)
    • 如果模型能够解决其操作链长度超出 Mid-training 遇到的问题,则表现出强大的外推泛化能力
  • 上下文 (广度) 泛化 (Contextual (Breadth) Generalization).
    • 该维度衡量模型是否能够将其推理原语(Reasoning primitives)迁移到 surface forms不同但具有相似底层推理结构(similar underlying reasoning structure)的新领域
    • 当模型的性能在模板或 surface forms 发生变化,底层计算图保持不变时 ,保持稳定,则认为该模型在上下文上实现了泛化
      • 理解:底层计算图不变则认为其底层推理结构没有变化,此时能够泛化则说明训练跳脱了具体的模版或 surface forms
  • 形式化符号、数据集构建以及泛化轴的完整定义见附录 A.2

Evaluation Protocol

  • 论文按照过程验证评估 (process-verified evaluation) 方案(图2(c))报告所有结果
  • 对于每个具有真实依赖图 \((\mathcal{G},a^{*})\) 的实例,模型生成一个自由形式的解决方案,作者将其解析为预测的依赖图 \(\hat{\mathcal{G} }\) 和最终答案 \(\hat{a}\)
  • 在每个真实节点 \(v\in\mathcal{V}\) 的 Step-level 进行过程评估
    • 通过比较预测节点与真实节点、它们的依赖关系以及数值 check 准确性
  • 过程准确率 (process accuracy) 定义为所有真实节点的平均 Step-level 准确率
    • 只有当推理步骤和最终答案都匹配时,预测才被视为完全正确
    • 所有 \(pass@k\) 指标(例如,\(pass@1\),\(pass@128\))均相对于此严格标准报告
    • 详细的实现和解析方法见附录 A.4

Training Setup

  • 论文使用 GSM-Infinite 框架生成的大规模合成推理数据集,训练了具有 100M 参数的 Decoder-only Qwen2.5-style (2025) 模型
  • 整个语料库包含 30B 个 token,涵盖了多个操作范围和上下文模板,并被划分为互不相交的 Pre-training 、 Mid-training 和 Post Training 子集,以避免分布污染
Pre-training
  • Pre-training 让模型接触多样化语料库以获取通用知识
  • 在论文的受控推理任务中,它侧重于使模型掌握论文合成数据集中算术运算的基础推理技能和规则
    • 重点是掌握基本推理原语,而非广泛的知识
  • Following Chinchilla Scaling (2022) and trends in data-rich regimes (2025),论文在 10B 个 token(参数的 100 倍)上 Pre-training 论文的 100M 参数模型
  • 数据集由跨模板的 op=2-10 操作组成,使模型能够掌握推理,同时为复杂任务保留提升空间
  • 模型在分布内任务上达到了接近饱和的 pass@128 准确率,确保在更深任务上的改进反映了真正的泛化
    • 理解:这里为什么要确保在 In-domain 任务上达到接近饱和才能在更深的任务上反应真正的泛化?
Mid-training
  • Mid-training 是 Pre-training 和 Post Training 之间的中间阶段,因其在改进下游微调和 RL 性能方面的作用而受到关注 (2025, 2025, 2025)
  • Mid-training 通常涉及使用更高质量或指令格式的数据,采用 Next-token prediction 或 SFT 目标
  • Mid-training 通过提供结构化的推理监督来稳定优化并促进 RL 扩展 ,弥合了广泛 Pre-training 语料库和面向奖励的 RL 数据之间的差距
  • 论文实现了精简版的 Mid-training ,保持与 Pre-training 相同的目标,但收窄数据分布使其与 RL 类似,此时模型展现出新兴(emerging)但不完整的能力(incomplete competence)
  • 通过将监督集中在此边界,目标加强 RL 可以放大的更高级别推理先验
    • 注:Mid-training 仅在 Section 5 中应用
Post Training
  • Post Training 在 Pre-training 之后,使用特定任务的数据或目标来精炼模型在特定任务上的性能
  • 通常涉及两种策略:
    • 1)SFT :在带标签的数据集或特定任务指令上进行训练;
    • 2)RL :模型通过接收其动作的奖励来进行优化
  • 由于论文的 Pre-training 数据已经是结构化且特定于任务的,所以主要关注 RL 进行 Post Training
  • 精心策划的 subset 上使用 GRPO (2025) 进行训练,这些 subset 旨在探究在更深操作范围和新颖模板中的泛化能力

When Does Post-Training Incentivize Reasoning Beyond the Base Model?(何时 Post Training 能激励超越 Base Model 的推理?)

  • 为了厘清 Pre-training 和 Post Training 对推理能力的贡献,论文分离了 RL 的具体影响
  • 提问:RL 是否以及何时能扩展 Base Model 在 Pre-training 之外获得的推理能力?
    • 通过固定 Pre-training 阶段并改变 Post Training 数据的难度和覆盖范围,论文确定了 RL 驱动真正的组合泛化而非仅仅放大现有技能的具体机制

Task Setting

  • 论文专注于外推泛化(在附录 A.6 中检查 Post Training 对上下文迁移的影响),根据操作计数定义三类问题(论文在附录 A.3.4 中说明了这种性能阶梯):
    • 分布内 (In-Distribution, ID) 问题(Pre-training 范围内,op=2-10);
    • 分布外-边缘 (OOD-edge) 问题(刚刚超出此范围,op=11-14), Base Model 在此保留非零的 pass@128 准确率;
    • 分布外-困难 (OOD-hard) 问题(显著超出 Pre-training 分布,op=15-20), Base Model 在此表现出接近零的准确率
      • 解决 OOD-hard 问题需要以新颖的方式组合从 ID 数据中学到的原子操作,以适应增加的推理深度
  • 实验设置如下:
    • Pre-training:
      • Base Model 在由 ID 问题组成的 10B 个 token 上进行 Pre-training
    • Post Training:
      • 论文应用 GRPO,使用来自四个不同难度范围的共 200K 个样本:op=7-10(ID)、op=9-12(混合)、op=11-14(边缘)和 op=17-20(困难)
  • 关于 Training Dynamics 和 Data Recipe 的更多信息,请参见 A.5 和 A.9

Summary 1

Observation 1
  • 如图 3 所示, Post Training 的效果对 Pre-training 和 Post Training 数据机制高度敏感:
    • (i) 对于 ID 任务(op=2-10),无论 RL 数据机制如何,在 pass@1 上有明显的性能提升,但在 pass@128 上没有改进,这表明 RL 只是锐化了现有能力而没有扩展它们
    • (ii) 然而,对于 OOD 任务(op=11-14 和 op=15-20),当应用于能力边缘 (edge of competence) 数据(op=11-14)时,RL 总是能提高 pass@128 性能,证明了超越 Pre-training 的真正的能力增益
  • 理解:图 3 展示了,如果使用太 OOD 的数据(op=17-20)来进行 RL 时,模型其实无法提升其在 OOD-hard(op=15-20)任务上的表现
Takeaway 1
  • RL 仅在两个条件成立时,才能在 Base Model 之外产生真正的能力增益 (pass@128):
    • (i) 该任务在 Pre-training 期间未被大量覆盖,为探索留有足够的提升空间;
    • (ii) RL 数据被校准到模型的能力边缘 (edge of competence) ,既不太简单(分布内)也不太困难(分布外)
Discussion 1
  • 与近期工作的关联 最近的研究关于 RL 是否能增强 Base Model 的推理能力报告了看似矛盾的结论
    • On the one hand,Zhao 等人 (2025),Yue 等人 (2025) 认为,当在数学和编码等 Pre-training 已充分覆盖的标准任务上评估时,RL* 并未* 改善 pass@128 准确率
    • On the other hand,在 Pre-training 覆盖率极低的合成任务上的研究 (2025, 2025, 2025) 报告了实质性的 Post Training 增益
  • 论文的受控设置通过表明这些结论源于Post Training 难度谱的不同区域而调和了这些发现
    • 对于 Base Model 已经解决的分布内任务,随着 pass@k 的增加性能趋于饱和,RL 没有优势
    • In contrast,当 RL 针对 Base Model 失败的真正分布外任务时,论文观察到清晰的外推改进(前提是 RL 数据位于模型的“能力边缘”附近)
Practical Guidance 1
  • 围绕模型的能力边缘 (edge of competence)设计 RL 数据
    • 作者建议过滤 RL 数据集以针对那些模型在 pass@1 上失败但在 pass@k 上成功的任务
    • 此策略避免了在高 pass@1 任务上的冗余,同时防止了在 pass@k 为 0 任务上的奖励稀疏
  • 这个过程也可以是迭代的:我们可以定期重新评估“能力边缘”任务池;
    • 随着模型变得更强,先前分布外的任务将漂移到可解区间,从而创建一个自然的、自定进度的课程

How Does Pre-training Exposure Shape Post-Training Generalization?(问题:Pre-training Exposure 如何塑造 Post Training 泛化?)

  • 在确定了 Post Training 激励泛化的条件之后,论文转向一个基础性问题:Pre-training Exposure 如何塑造 Post Training 泛化?
  • 作者假设,Pre-training Exposure 基础推理原语对于有效的 Post Training 泛化至关重要
  • 为了探讨这个问题,在固定的 RL Data Recipe 和设置下,论文改变 Pre-training 数据的分布,并检查其对 Post Training 泛化的影响

Task Setting

  • 论文专注于上下文泛化,即向长尾 (long-tailed) 的 Context B 泛化
    • 在 Pre-training 期间,作者操控模型接触包含原子推理原语(op=2 的示例)的长尾 Context B 的比例(关于简单上下文泛化和外推的实验分别在附录 A.6.1 和 A.7 中提供)
  • 论文的实验设置结构如下:
    • Pre-training : Base Model 在 10B 个 token 上进行 Pre-training
      • 这些 token 由 op=2-20 的 Context A 和 op=2 的长尾Context B 示例组成
        • 理解:这里的 Context A 和 Context B 分别表示不同领域的任务
      • 其中论文变化原子 op=2 示例相对于长尾 Context B 接触的比例
    • Post Training: 应用 RL 于 200K 个样本,这些样本由 50% Context A 和 50% Context B 组成,覆盖 op=2-20 的范围
  • 关于 Training Dynamics 和 Data Recipe 的更多细节,请参见附录 A.8 和 A.9

Summary 2

Observation 2
  • 如图 4 所示, Pre-training Exposure 长尾上下文对 Post Training 泛化的影响是巨大的:
    • (i) 当 Pre-training 排除 Context B 或提供零(0%)或极少接触(0.1%)时,RL 无法迁移到 Context B
    • (ii) 在 Pre-training 中引入即使是 1% 的 Context B 数据,也能显著增强 Post Training 泛化,甚至对于 op=20 的最困难任务也是如此
    • 这一观察强调,虽然 RL 在泛化中扮演着关键角色,但其有效性高度依赖于 Pre-training 数据的覆盖范围,特别是长尾上下文的包含
Takeaway 2
  • 仅当 Base Model 已包含必要的原子操作时,RL 激励上下文泛化(RL incentivizes contextual generalization only when the base model already contains the necessary primitives)
    • 如果没有对新上下文的最少 Pre-training Exposure ,RL 无法产生迁移
    • However,即使是稀疏的接触(例如,\(\ge 1%\))也提供了一个足够的“种子”,RL 可以在 Post Training 期间强化它,从而产生鲁棒的跨上下文泛化
Discussion 2
  • 复制还是创造(Replication or Creation)?
    • 论文在图 5 中检查了生成的正确 Context B 图与来自 Context A 的真实拓扑之间的拓扑相似性分布
    • 高相似性表明模型主要复制了现有的 Context A 推理模式,而低相似性则表明出现了与 Context A 不同的新颖推理结构
  • 论文观察到任务难度与 Pre-training Exposure 之间的效应:
    • 1)对于较简单的组合(op=2-10),模型倾向于复制来自 Context A 的现有模式
    • 2)随着任务复杂度增加(op=11-20),模型生成更多新颖结构,特别是在 Pre-training 期间充分接触 Context B 时
Practical Guidance 2
  • 在 Pre-training 中植入长尾原子操作以释放 RL 潜力(Seed long-tail primitives in pre-training to unlock RL potential)
    • RL 无法从虚无中合成能力;它需要潜在的“种子”来放大
    • However,这些种子不需要很复杂
  • 论文的结果表明,只要原子推理原语 (atomic reasoning primitives) 存在于 Pre-training 中,RL 就能成功外推到困难任务
  • 实践者应优先考虑广泛覆盖基本领域知识、规则和技能(大约 1% 的密度) ,而不是追求复杂的数据样本
  • 一旦这些基本原语建立起来,RL 就有效地充当了组合器,将它们组合起来解决复杂的分布外问题

How Does Mid-Training Interact with Post-Training?(Mid-training 与 Post-training 交互?)

  • 尽管 RL 能有效提升外推泛化能力,但其成功往往依赖于 Pre-training 阶段建立的表征先验
  • 近期工作 (2025a; 2025) 提出了 Mid-training 作为 Pre-training 和 Post-training 之间的中间阶段,旨在弥合数据分布并在下游适应前加强推理先验
  • 这引出了一个关键问题:在固定的计算预算下, Mid-training 和 RL 如何交互,以及两者之间怎样的平衡能带来最大的泛化收益?
    • 本节研究 Mid-training 与 Post-training 之间的协同作用,试图界定它们的交互如何驱动推理泛化
  • 计算预算公式化(Compute Budget Formulation)
    • 为公平比较,论文根据浮点运算将两个阶段的训练归一化为等效的训练 Token 数
    • 对于 Mid-training ,消耗量 \(T_{\text{mid} }\) 是处理的有监督 Token 数量
    • 对于 RL ,其 Token 等效成本近似为:
      $$
      T_{\text{RL} } \approx \frac{5}{3} N \cdot r \cdot L_{\text{total} },
      $$
      • \(N\) 是 RL 样本数
      • \(r=6\) 是轨迹生成次数
      • \(L_{\text{total} } = 2048\) 是总 Token 长度
      • 更多细节:Detailed budget derivation are provided in Appendix A.10.1
  • 论文系统地改变 RL 分配比例 \(\beta \in [0,1]\),以在总预算 \(T\) 的两个阶段之间进行分配:
    $$
    T_{\text{mid} } = (1 - \beta) \cdot T, \quad T_{\text{RL} } = \beta \cdot T.
    $$

Task Setting

  • 在本节中,论文使用在 10B 个 op=2-10 数据上 Pre-training 的相同 Base Model ,探索五种训练配置的性能:
    • 在 op=11-14 范围内的1B有监督 Token 上进行 完全 Mid-training
    • 在同一 op=11-14 范围内以批大小1024进行100步的完全 RL
    • 三种混合策略
      • Light RL(\(\beta=0.2\))
      • Medium-RL(\(\beta=0.5\))
      • 重度 RL(\(\beta=0.8\))
    • 这些策略在等效计算预算下平衡 Mid-training 和 RL
  • 第5节中的计算预算公式允许直接比较数据混合策略

Summary 3

Observation 3
  • 如图6所示,计算分配在整个泛化谱上引起了质的不同行为
    • (1) 在OOD-edge任务上,配置为完全 Mid-training 和 Light RL 的性能优于重度或完全 RL ,其中 Light RL 获得了最佳的 pass@1 性能
    • (2) 对于OOD-hard任务,将更多预算重新分配给重度 RL,可以显著提高在最难实例上的 pass@1 和 pass@128 性能
    • 图6:在外推任务上,不同中期和 Post-training 混合比例下的 pass@1 和 pass@128 性能
      • 用于中期和 Post-training 的数据应用于 OOD-edge 范围
      • 不同的线表示计算分配策略
      • 重度 RL 总是改进未见过的OOD-hard任务,而 Light RL 在OOD-edge任务上获得最佳的 pass@1 性能
  • 这些趋势表明,驱动探索的 RL 对于泛化到更难的任务是不可或缺的,但大量的 Mid-training 分配对于灌输 RL 可以有效利用的先验仍然至关重要
  • 论文进一步分析了不同计算预算的影响(附录A.10)
Takeaway 3
  • 引入一个连接 Pre-training 和 Post-training 分布的 Mid-training 阶段,在固定计算预算下能显著增强泛化能力
  • 这突显了 Mid-training 作为训练设计中未被充分探索但强大的杠杆
  • 计算分配应以任务感知的方式进行:
    • (i) 当优先考虑分布内性能时,将更多预算分配给 Mid-training ,仅辅以 Light RL
    • (ii) 为了获得分布外泛化能力,预留适中的计算部分用于 Mid-training 以建立必要先验,并将剩余预算投入到更重的 RL 探索中
Discussion 3
  • The Role of Mid-Training
  • 近期工作 (2025; 2025) 指出,像 Qwen (2025) 这样的模型对 RL 的响应远比对 LLaMA (2023) 等架构更有效
  • 一个趋同的解释是存在一个 Mid-training 阶段,该阶段的监督与 Post-training 分布更紧密地对齐
  • 面向推理的 Mid-training 已被证明能大幅提高模型的 RL 准备度
  • Wang等人 (2025) 发现,在结构化推理数据上进行 Mid-training 的 LLaMA 模型,其 RL 性能可与更强的 Qwen Base Model 相媲美,这表明 Mid-training 在很大程度上决定了下游 RL 的响应能力
  • Complementarily,Liu等人 (2025a) 表明, Mid-training 充当了分布桥梁,通过缩小 Pre-training 任务和 RL 任务之间的差距来减少遗忘并缓解适应
    • 这一视角进一步与Akter等人 (2025) 的预加载原则一致:更早地注入结构化推理监督提供了支架,后续训练阶段(包括 RL)可以有效地放大这个支架
  • Together,这些工作指向一个统一的结论:
    • Mid-training 是一个 strategically important component,它能使模型为稳定且样本高效的 RL 做好准备,从而实现超越仅仅是锐化现有能力的改进

      mid-training is a strategically important component that conditions models for stable and sample-efficient RL, enabling improvements that go beyond merely sharpening existing abilities.

Practical Guidance 3
  • 围绕互补优势平衡 Mid-training 和 Post-training (Balance mid-training and post-training around complementary strengths)
  • 通过将 Mid-training 视为安装先验(installing priors)的阶段、将 RL 视为扩展探索(scaling exploration)的阶段来设计训练流程
  • 对于 Mid-training ,策划位于模型“能力边缘(edge of competence)”的数据集,这能稳定 RL 所需的原始技能
  • 从业者应根据部署目标调整计算预算:
    • (1) 为了在类似任务(OOD-edge)上获得可靠性(reliability) ,将大部分计算分配给 Mid-training ,并使用 Light RL
    • (2) 为了在复杂任务(OOD-hard)上进行探索(exploration) ,为 Mid-training 分配适中的预算(仅足以建立先验),并将大量计算投入到 RL 探索中

Mitigating Reward Hacking via Process Supervision in Outcome Rewards(结果奖励中的过程监督减轻 Reward Hacking)

  • 使用基于结果的奖励进行 Post-training 已被证明能有效提高推理性能,但它仍然容易受到 Reward Hacking(a failure mode where 模型通过利用虚假捷径或通过无效推理链产生正确答案来实现高最终准确率)
  • Earlier,作者引入了过程验证(process verification)作为评估标准,只有当中间步骤和最终结果都正确时才奖励模型
  • 论文将这一原则扩展到奖励设计本身,并回答:过程感知的监督能否在保持泛化性能的同时减轻 Reward Hacking ?

Task Setting**

  • 为了鼓励模型不仅生成正确的最终答案,还要生成有效的中间推理步骤,论文使用过程级验证来增强结果奖励
  • 论文定义一个复合奖励函数:
    $$
    R = \alpha R_{\text{out} } + (1 - \alpha) R_{\text{pv} }.
    $$
    • \(R_{\text{out} }\) 表示传统的结果奖励(最终答案正确为1,否则为0),\(R_{\text{out} }\) 可能是稀疏的且容易受到结果 Reward Hacking
    • \(R_{\text{pv} }\) 表示由A.2节中定义的过程级准确率标准确定的过程验证奖励,\(R_{\text{pv} }\) 是一个反映每个推理步骤正确性的密集奖励
    • \(\alpha \in [0,1]\) 控制结果准确性和过程保真度之间的平衡
  • 论文还考虑一个更严格的公式:
    $$
    R =
    \begin{cases}
    R_{\text{out} }, & \text{If } R_{\text{pv} } = 1, \\
    0, & \text{Otherwise}.
    \end{cases}
    $$
    • 该公式仅在完整推理过程被验证为正确时才给予结果奖励
    • 此设置提供了过程级监督以减少 Reward Hacking
    • 在此奖励设置下,论文使用不同的奖励组合在 op=11-14 上进行 Post-training ,以评估不同程度的过程监督如何影响推理泛化

Summary 4

Observation 4
  • 如图7所示,整合过程验证显著提高了跨外推(op=15-20)设置的 pass@1 性能,提升了4-5%
    • 适度的奖励混合(\(0.2 R_{\text{out} } + 0.8 R_{\text{pv} }\))在结果准确性和推理一致性之间实现了最佳平衡
    • 严格的奖励(仅当 \(R_{\text{pv} }=1\) 时给予 \(R_{\text{out} }\))则进一步带来了显著的改进
  • 这些结果证实,过程级监督能有效减轻 Reward Hacking ,并鼓励忠实的推理行为
  • 图7:不同奖励组合下的 pass@k 性能
    • 每个条形对应一种不同的奖励混合策略
    • 将过程级信息整合到结果奖励中,在各个评估 Setting 中都带来了可衡量的性能提升

Related Work

推理大语言模型的 RL 泛化(RL Generalization of Reasoning LMs

  • RL 在 Deriving 大语言模型泛化中的作用一直是广泛讨论的主题
  • 近期工作对于 RL 是否能将推理能力扩展到 Base Model 能力之外提出了不同的看法,文献中出现了相互对立的观点
  • On the one hand,多项研究警告不要高估 RL 推动 Base Model 边界的能力
    • Yue 等人 (2025) 认为,虽然经过 RL 训练的模型在较小的 pass@k 值(例如 k=1)上可能优于 Base Model ,但随着 k 增加(例如 k=128),性能优势会减弱
      • 他们的覆盖率和困惑度分析表明,经过 RL 训练的模型的推理能力最终仍受限于 Base Model 的表征能力
    • Additionally,Wu等人 (2025) 提供了一个理论框架,断言 RL 无法超越 Base Model 固有的局限性,从而挑战了 RL 能够实现新的、可泛化的推理技能的观点
  • On the other hand,也有强有力的论据支持 RL 能够实现泛化,尤其是在 Base Model 表现不佳的任务上
    • Liu 等人 (2025b) 强调了 ProRL 在提高合成推理任务性能方面的成功,在这些任务中 Base Model 表现出显著的局限性
    • Sun 等人 (2025a, 2025b) 进一步支持了这一观点,提供了明确的证据表明 RL 有潜力为复杂的任务族引入新的策略
    • Yuan 等人 (2025) 提出了一个合成函数组合任务,证明经过 RL 训练的模型可以泛化到 Base Model 无法处理的未见过的函数组合
  • 论文通过提供实证证据表明这两种观点并不相互排斥,从而为这场持续的辩论做出了贡献
    • Instead,论文表明, RL 能够驱动泛化的条件是微妙且复杂的,它取决于 Base Model 的推理原始技能以及 RL 微调中使用的 Post-training 数据的性质

Understanding LMs via Controlled Experiments

  • 几项先前工作 (2025; 2025b; 2025a) 强调了受控实验在理解大语言模型能力方面的重要性
  • However,这类工作主要侧重于为后期 RL 设计的合成任务,这可能无法完全捕捉从 Pre-training 到 Post-training 的全谱推理任务的复杂性
  • 特别是在推理任务的背景下,受控设置允许研究人员分离特定因素,例如数据污染、随机猜测答案,以及控制不同训练阶段的推理原始技能
  • 论文基于Ye等人 (2024) 的工作设计受控实验,以合成 GSM-style 推理任务 (2021; 2024; 2025; 2025b),从而在这一工作基础上进行了扩展

附录 A.1 Data Generation Framework

  • 本节提供了整篇论文所使用的可控数据生成框架的正式细节:
    • (i) 每个推理实例背后的图级形式化定义
    • (ii) 将结构与数值和语言实例分离的抽象机制
    • (iii) 将图映射到自然语言问题的上下文渲染函数
    • (iv) 具体的生成流程和去重过程

附录 A.1.1 图级形式化定义(Graph-Level Formalism)

  • 每个推理实例都基于一个有向无环图(directed acyclic graph, DAG)建立:
    $$
    \mathcal{G}=(\mathcal{V},\mathcal{E}),
    $$
    • 其中每个节点 \(v_{i} \in \mathcal{V}\) 代表一个潜在量(例如,“成年狮子的数量”),每条有向边 \((v_{j} \to v_{i}) \in \mathcal{E}\) 编码一个函数依赖关系
    • 论文将依赖关系限制为基本算术运算:
      $$
      v_{i}=f_{i}\big((v_{j})_{j\in\text{pa}(i)}\big), \qquad f_{i} \in \{+,-,\times,\div\},
      $$
      • 其中 \(\text{pa}(i)\) 是节点 \(i\) 的父节点集合
  • 给定所有叶节点的数值赋值,论文递归地定义一个评估映射:
    $$
    \text{val}:\mathcal{V}\rightarrow\mathbb{R}
    $$
    • 其定义为:
      $$
      \text{val}(v_{i})=f_{i}\big(\{\text{val}(v_{j})\}_{j\in\text{pa}(i)}\big),
      $$
  • 基本情况由叶节点值给出,对于一个指定的查询节点 \(v^{*}\),真实答案为:
    $$
    a^{*}:=\text{val}(v^{*}).
    $$
  • 在论文所基于的 GSM-Infinite 实现 (2025a) 中,查询节点 \(v^{*}\) 对应:
    • 前向(forward) 生成器中拓扑顺序的最后一个数值节点,或
    • 方程风格逆向(equation-style reverse) 生成器中特定的未知参数
  • 贯穿全文(Throughout),DAG \(\mathcal{G}\) 被视为符号推理图,其结构在不同的数值实例化和语言实现之间共享
  • 推理复杂度(Reasoning Complexity). :论文通过算术运算的数量来量化实例的结构复杂度:
    $$
    \text{op}(\mathcal{G})=|\mathcal{E}|.
    $$
    • 这个量规定了计算 \(a^{*}\) 所需的最小组合推理链长度下限,也是论文研究外推(深度方向)泛化时变化的主要调控参数

附录 A.1.2 抽象参数与实例参数(Abstract and Instance Parameters)

  • 遵循 GSM-Infinite 的抽象机制,论文明确地将结构、数值实例化和语言上下文分离开
  • 抽象参数(Abstract Parameters).
    • 每个图 \(\mathcal{G}\) 关联着一组 抽象参数 ,这些参数:
      • 指定存在哪些变量以及它们如何分解(例如,“动物总数”分解为“狮子”和“大象”),以及
      • 确定边集 \(\mathcal{E}\) 和附加在每个节点上的操作 \(f_{i}\)
    • 这些参数定义了一个纯符号图,独立于具体的数字或实体
  • 实例参数(Instance Parameters).
    • 给定一个抽象图,实例参数用具体的值和实体对其进行实例化:
      • 对叶节点的数值赋值(例如,“有 12 头成年狮子和 7 头小象”),以及
      • 将变量绑定到特定上下文的表层形式(例如,“城市动物园里的成年狮子”)
    • 在同一抽象图上实例化不同的数值,会产生一系列结构相同、仅在具体数字上有所区别的问题
  • 隐式推理(Implicit Reasoning).
    • 并非所有的抽象依赖关系都需要在自然语言问题中明确表述
    • 对于给定的语言渲染,边集可以划分为:
      $$
      \mathcal{E}=\mathcal{E}_{\text{explicit} } \cup \mathcal{E}_{\text{implicit} }, \qquad \mathcal{E}_{\text{explicit} } \cap \mathcal{E}_{\text{implicit} } = \emptyset,
      $$
    • 其中 \((v_{j} \to v_{i}) \in \mathcal{E}_{\text{explicit} }\) 表示文本中直接陈述的关系(例如,“大象比狮子多 5 头”),而 \((v_{j} \to v_{i}) \in \mathcal{E}_{\text{implicit} }\) 表示属于真实推理图但从未直接表述的关系(例如,“动物总数等于狮子数加大象数”)。这种分离允许显式和隐式推理步骤共存于同一个底层图中,并使论文能够探究模型恢复未明言依赖关系的能力

附录 A.1.3 上下文渲染(Contextual Rendering)

  • 为了将符号图映射到自然语言问题,论文引入了上下文渲染函数:
    $$
    \Phi:(\mathcal{G},\tau)\mapsto x,
    $$
    • 其中 \(\tau \in \mathcal{T}\) 是一个上下文模板 ,而 \(x\) 是生成的文本实例
  • Templates
    • 一个模板 \(\tau\)(例如,animals-zoo、teachers-school、movie-festival)规定了:
      • 抽象变量如何词汇化为领域特定的表层形式(例如,“成年狮子”、“A班的学生”、“第1天售出的票”),以及
      • 哪些边的子集在措辞中被显式实现,从而决定了 \(\mathcal{E}_{\text{explicit} }\) 和 \(\mathcal{E}_{\text{implicit} }\) 之间的划分
    • 对于任何两个仅在表面上下文上不同的模板 \(\tau_{a},\tau_{b} \in \mathcal{T}\),它们引发的问题在结构上保持相同:
      $$
      \text{Struct}(\Phi(\mathcal{G},\tau_{a}))=\text{Struct}(\Phi(\mathcal{G},\tau_{b})), \quad \forall,\tau_{a},\tau_{b} \in \mathcal{T},
      $$
      • 尽管它们的表层实现、实体以及显式/隐式划分可能不同
      • Thus,一个单一的抽象图可以被渲染成语义不同但结构等价的问题,论文利用这一点来研究上下文(广度方向)泛化
  • Solution Format
    • 渲染函数生成一个三元组:
      $$
      x=(\text{[question]},\text{[solution]},\text{[answer]}),
      $$
      • [question] 是由符号图 \(\mathcal{G}\) 提出的问题的自然语言表示,通常包括对图中某个方面的查询(例如,“第1天卖出了多少张票?”)
        • 它抽象了底层结构,并为解答提供了上下文
      • [solution] 是一个遵循符号图 \(\mathcal{G}\) 拓扑顺序的逐步推导过程
        • 它包括中间推理步骤和图中元素之间的逻辑联系,最终导向最终答案。该解答明确展示了问题的每个部分是如何推导或计算的
      • [answer] 是对 [question] 中提出的查询的最终回应,通过 [solution] 过程推导得出
        • 它通常是一个数值或特定实体,用于回答问题
  • 这种结构确保了渲染输出既是人类可读的,又在逻辑上与底层符号图保持一致,在保持原始问题完整性的同时使其可以用自然语言表达

附录 A.1.4 生成流程与结构调控参数(Generation Pipeline and Structural Knobs)

  • 论文的数据生成器遵循一个阶段式过程,类似于 GSM-Infinite 的前向和反向生成器:
  • 1)结构采样(Structural sampling).
    • 论文首先采样定义依赖图的结构调控参数:
      • 针对 \(\mathrm{op}(\mathcal{G})\) 的目标运算计数范围;
      • 控制扇入和深度的图形形状参数(例如,允许的入度、分层模式);以及
      • 附加到节点上的操作类型 \(f_{i} \in \{+,-,\times,\div\}\)
    • 这些选择决定了一个具有唯一查询节点 \(v^{*}\) 的分层 DAG \(\mathcal{G}\)
  • 2)抽象与实例参数化(Abstract and instance parameterization).
    • 给定 \(\mathcal{G}\),论文采样抽象参数(变量角色和分解)和实例参数(叶节点的数值),并使用上面定义的评估映射 val 按拓扑顺序评估所有节点值
  • 3)上下文渲染(Contextual rendering).
    • 论文选择一个模板 \(\tau \in \mathcal{T}\) 并应用渲染函数 \(\Phi(\mathcal{G},\tau)\) 以获得一个自然语言三元组(问题、问题描述、解答),决定哪些依赖关系被语言化(显式)以及哪些保持隐式
  • 4)前向模式与反向模式(Forward vs. reverse modes).
    • 遵循 (2025a),论文支持两种生成模式:
      • 在 forward 模式中,论文生成一个标准的算术文字问题,其中查询的是拓扑顺序中的最后一个节点
      • 在 reverse 模式中,论文将一个节点视为未知数,并构建一个方程风格的问题,模型必须求解该量,而图中的其余部分则完全指定
  • 通过联合改变下面的两个维度,论文获得了一个用于研究深度扩展和上下文迁移的清晰二维测试平台:
    • (i) 运算计数 \(\mathrm{op}(\mathcal{G})\)
    • (ii) 模板 \(\tau\)
    • 相同的框架用于定义 Pre-training 、 Mid-training 和 Post Training 的不同数据分布,通过从 \((\mathrm{op}(\mathcal{G}),\tau)\)-Space 的不同区域采样来实现

附录 A.1.5 去重与规范化(Deduplication and Canonicalization)

  • 为了保证数据集的纯净性并避免训练和评估拆分之间的污染,作者在渲染三元组级别执行基于哈希的精确去重
  • 每个实例通过以下方式规范化:
    • 将三元组(问题描述、问题、解答)序列化为规范化的字符串表示(例如,去除多余空白、规范化数字格式),以及
    • 对此规范形式进行哈希以获取全局标识符
  • 论文丢弃任何拆分内和跨拆分的重复哈希值,确保相同的“问题-解答”三元组不会同时出现在训练和评估中

附录 A.2 Task Setup

  • 在实际部署中,语言模型(Language Models,LM)通常需要沿着两个互补的维度进行推理泛化 (2025; 2025b; 2025)
  • 论文的可控数据集使这些维度变得明确,并允许论文探究 Pre-training 、 Mid-training 和 Post Training 如何塑造每种类型的泛化
  • 符号表示(Notation).
    • 令 \(f_{\theta}^{\text{pre} }\)、\(f_{\theta}^{\text{mid} }\) 和 \(f_{\theta}^{\text{post} }\) 分别表示经过 Pre-training 、经过额外 Mid-training 和经过 Post Training(RL)的语言模型
    • 论文使用下面评估协议中定义的严格度量,将模型在由图 \(\mathcal{G}\) 在模板 \(\tau\) 下生成的实例上的正确性记为 \(\text{Correct}(f,\mathcal{G},\tau)\)
  • 外推(深度)泛化(Extrapolative (Depth) Generalization).
    • 论文用每个训练阶段 \(\phi \in \{\text{pre},\text{mid},\text{post}\}\) 所见的运算计数范围对其进行参数化
    • 令 \(\mathcal{O}_{\phi}\) 为阶段 \(\phi\) 训练分布中存在的 \(\text{op}(\mathcal{G})\) 值集合,并令:
      $$
      \mathcal{O}_{\text{train} }=\mathcal{O}_{\text{pre} }\cup\mathcal{O}_{\text{mid} }\cup\mathcal{O}_{\text{post} }.
      $$
    • 一个分布内评估条件使用满足 \(\text{op}(\mathcal{G}) \in \mathcal{O}_{\text{train} }\) 的图,而一个外推(分布外,OOD)条件评估满足以下条件的图:
      $$
      \text{op}(\mathcal{G})>\max\mathcal{O}_{\text{train} }.
      $$
    • 如果一个模型在这些更长、未见过的运算上保持高过程验证准确率,同时在分布内任务上保持稳定,则表明其具有外推泛化能力
    • 通过填充 \(\mathcal{O}_{\text{pre} }\)、\(\mathcal{O}_{\text{mid} }\) 和 \(\mathcal{O}_{\text{post} }\) 的不同难度范围,我们可以分离每个阶段对深度方向泛化的贡献
  • 上下文(广度)泛化(Contextual (Breadth) Generalization).
    • 一个固定的推理图 \(\mathcal{G}\) 可以在不同模板下被渲染成结构等价的实例:
      $$
      \text{Struct}(\Phi(\mathcal{G},\tau_{a}))=\text{Struct}(\Phi(\mathcal{G},\tau_{b})) \quad \text{in principle},
      $$
    • 论文的数据集在训练过程中是_随机采样_的,并未刻意在不同模板间对齐图
      • As a result, 大多数图在训练期间仅在一部分上下文中被观察到
    • 令 \(\mathcal{T}_{\phi}^{\text{train} }\) 表示训练阶段 \(\phi\) 中暴露的模板,\(\mathcal{T}^{\text{eval} }\) 表示更广泛的评估池,包括长尾模板
      • 如果一个模型在阶段 \(\phi\) 能够在叙事表层形式发生变化时保持推理性能,即使新的上下文在 Mid-training 从未遇到过,则该模型展现了上下文泛化:
        $$
        \text{Acc}(f_{\theta}^{\phi},\mathcal{G},\tau_{a})\approx\text{Acc}(f_{\theta}^{\phi},\mathcal{G},\tau_{b}),\qquad\tau_{b}\notin\mathcal{T}_{\phi}^{\text{train} }.
        $$
    • 在这种设置下,上下文泛化衡量的是模型是否学到了可迁移的 推理原语 ,而不是记住了任务风格,使其能够在已知、未见和长尾的叙事环境中应用相同的结构性推理

附录 A.3 Training Setup

附录 A.3.1 Model Architecture

  • 论文使用具有 100M 参数、 Decoder-only Qwen2.5 架构 (2025) 模型进行实验
  • 详细的架构配置如表 1 所示

附录 A.3.2 Tokenizer and Input Representation

  • 论文遵循《语言模型的物理学》(Physics of Language Models)系列 (Allen-Zhu, 2024; 2024),直接在合成推理语料库上训练一个字节对编码(BPE)分词器
  • 得到的分词表有 2,200 个 Token(包括 Special Token)
    • 所有问题、提问和解答都以最大序列长度 2,048 个 Token 进行分词
  • 问题:模型过小了,只有 100M,而且给出的 Token 长度限制也才 2K,不太够数学推理

附录 A.3.3 Hyperparameters

  • Pre-training.
    • 所有实验都从一个在论文可控推理语料库上从头开始训练的 100M 参数 Qwen2.5 模型开始,使用 \(100\times\) 的 token-to-parameter ratio, Pre-training 10B Token
    • 论文使用上下文长度 2048 Token ,批次大小 512K Token ,学习率 \(2\times 10^{-4}\),权重衰减 \(0.1\),余弦衰减,最小学习率 \(3\times 10^{-5}\),预热比例 \(5%\),并在语料库上训练一个 epoch
    • 所有模型都以 bf16 精度训练
  • Mid-training.
    • 从 Pre-training 检查点开始,论文在第 5 节执行了一个额外的可选课程学习
    • 论文使用最大序列长度 2,048 进行训练
    • 论文使用全局批次大小 512K Token ,学习率 \(1\times 10^{-4}\),权重衰减 \(0.1\),余弦衰减,最小学习率 \(3\times 10^{-5}\),以及更高的预热比例 \(15%\)
  • Post Training (Post-training).
    • 最后,论文使用 GRPO (2025) 进行 RL 微调
    • 论文使用全局批次大小 1,024 个样本,最大提示和响应长度 1024 Token ,训练两个 epoch
    • Actor 使用学习率 \(1\times 10^{-6}\),PPO 小批次大小 256,每个 GPU 的微批次大小 16,KL 正则化系数 \(10^{-3}\)(低方差 KL 惩罚),无熵奖励
    • 在 RL 回合采样期间,论文使用温度 \(T_{\text{RL} }=1.0\),top-\(p=1.0\),且无 top-\(k\) 截断(全核采样)进行采样
    • 对于离线评估和报告,论文使用温度 \(T_{\text{eval} }=0.7\),top-\(p=1.0\),top-\(k=-1\)(无截断)生成,每个问题最多生成 1,024 个新 Token

附录 A.3.4 性能阶梯(Performance Ladder)

  • 性能阶梯根据任务难度定义了三个关键级别:
    • 1)分布内任务(In-distribution tasks) (op=2-10): 目标是接近 100% 的 pass@128 准确率;
    • 2)OOD边缘任务(OOD-edge tasks) (op=11-14): 确保非零的 pass@128 性能;
    • 3)OOD困难任务(OOD-hard tasks) (op=15-20): 目标是零 pass@128 准确率,标志着模型的能力极限
  • Post Training 在能力边缘进行,确保模型能泛化到更难的任务
  • 图 9 显示了跨这些性能级别的 Training Dynamics 细分

附录 A.4 Process-Verified Evaluation

  • 给定一个具有真实图 \((\mathcal{G},a^{*})\) 的输入实例,模型生成一个自由形式的解答 \(s\)
  • 论文确定性地将 \(s\) 解析为预测的依赖图:
    $$
    \hat{\mathcal{G} }=(\hat{\mathcal{V} },\hat{\mathcal{E} },\widehat{\operatorname{val} }), \qquad \hat{a},
    $$
    • 其中 \(\hat{\mathcal{V} }\) 中的节点对应解答中命名的中间量,\(\hat{\mathcal{E} }\) 编码每个步骤依赖于哪些先前定义的量,\(\widehat{\operatorname{val} }\) 存储每个节点的推断数值,而 \(\hat{a}\) 是提取的最终答案
    • 解析器将解答分割为“定义 … 为 …”的步骤,从每个步骤使用的变量推断其依赖关系,并评估步骤中最后一个可计算的算术表达式(如果需要则回退到最后一个数字字面量)以获得数值。这产生了与 gold dependency graph 对齐的模型推理轨迹的图级表示
  • 令 gold graph 为下面的形式,具有节点集 \(\mathcal{V}\)、边集 \(\mathcal{E}\) 和值映射 \(\operatorname{val}\):
    $$
    \mathcal{G}=(\mathcal{V},\mathcal{E},\operatorname{val}), \qquad a^{*},
    $$
  • 论文在 Step-level 评估推理过程,对于每个黄金节点 \(v \in \mathcal{V}\),定义一个每步骤正确性指示器:
    $$
    s(v;\hat{\mathcal{G} },\mathcal{G})=\begin{cases}
    1, &\text{If } v \in \hat{\mathcal{V} },\ \operatorname{pa}_{\hat{\mathcal{G} } }(v)=\operatorname{pa}_{\mathcal{G} }(v),\ \text{and} \\
    &\operatorname{val}(v),\widehat{\operatorname{val} }(v) \ \text{are both defined and } \widehat{\operatorname{val} }(v)= \operatorname{val}(v),\
    0, &\text{otherwise},
    \end{cases}
    $$
    • 其中 \(\operatorname{pa}_{\mathcal{G} }(v)\) 和 \(\operatorname{pa}_{\hat{\mathcal{G} } }(v)\) 分别表示黄金图和预测图中 \(v\) 的父节点集(依赖关系)
    • 缺失节点、不正确的依赖集或不匹配的数值都会导致 \(s(v;\hat{\mathcal{G} },\mathcal{G})=0\)
  • 论文将预测推理轨迹的 过程准确率(process accuracy) 定义为所有黄金节点的平均 Step-level 准确率:
    $$
    \text{ProcessAcc}(\hat{\mathcal{G} };\mathcal{G})=\frac{1}{|\mathcal{V}|}\sum_{v\in\mathcal{V} }s(v;\hat{\mathcal{G} },\mathcal{G}).
    $$
    • 允许额外的预测节点 \(v \in \hat{\mathcal{V} } \setminus \mathcal{V}\),它们不影响过程准确率;它们对应于冗余但兼容的中间步骤
  • 只有当推理图和最终答案都匹配时,预测才被视为完全正确,论文通过验证正确性(verified correctness)来形式化这一点:
    $$
    \text{VerifiedCorrect}(\hat{a},\hat{\mathcal{G} };,a^{*},\mathcal{G})=\begin{cases}
    1, &\text{IF ProcessAcc}(\hat{\mathcal{G} };\mathcal{G})=1\text{ and }\hat{a}=a^{*},\
    0, &\text{otherwise}.
    \end{cases}
    $$
  • Accordingly,本工作中报告的所有 pass@k 指标(例如,pass@1、pass@128)仅当模型满足下面两个条件,才将样本视为正确
    • (i) 正确预测了每个黄金步骤( Step-level 过程准确率 = 1)
    • (ii) 产生了正确的最终答案时
    • 这个严格的标准确保报告的收益反映了真实、可靠的推理,而非偶然的正确性

附录 A.5 第 3 节的 Training Dynamics (Training Dynamics for § 3)

  • 本节详细分析了不同 Post Training 方法在外推泛化中的 Training Dynamics
  • 跨评估范围的负对数似然减少(NLL Reduction Across Evaluation Ranges).
    • 论文分析了第 3 节中使用的不同 Post Training 方法及其对各种评估运算范围的负对数似然减少的影响
  • 从图 10 我们可以观察到:
    • Post Training 持续减少了所有评估范围的负对数似然,其中在 op=11-14 范围内获得了最显著的增益
    • 这表明模型有效地学会了组合原子技能以处理更复杂的问题
  • Post-training Dynamics
    • 论文进一步研究了不同 Post Training 方法期间奖励动态的变化
    • 从图 11 论文观察到
      • 在与模型能力边缘对齐的任务(op=9-12 和 op=11-14)上进行 Post Training 会带来显著的奖励提升,表明学习有效
      • 相反,当任务太简单(op=7-10)或太难(op=17-20)时,奖励会趋于平稳,表明在这些机制下学习进展有限

附录 A.6:Detailed Analysis of Post-Training Effects on Contextual Generalization

  • 在本节中,论文将详细分析不同的 Post Training 数据方案在给定 Pre-training 阶段原子推理原语的情况下,如何影响对长尾上下文(long-tailed contexts)的上下文泛化

附录 A.6.1 当推理原语在 Pre-training 中共享时 (When Reasoning Primitives are Shared During Pre-Training)

  • 除了掌握基本的推理技能,模型泛化的一个重要维度在于上下文泛化 (contextual generalization) ,即跨不同问题上下文(例如变化的表面叙事或领域)迁移所学推理行为的能力
  • 在本节中,论文研究 Post Training 是否能激励模型将推理能力泛化到长尾 (long-tailed) 或在 Pre-training 中极少观察到的上下文
Task Setting
  • 论文研究两个不同的问题上下文:一个频繁的、规范的 Context A 和一个长尾的 Context B ,两者共享相同的基础推理先验(在论文的例子中是逻辑-算术推理,详细的上下文设置见附录 A.9)
  • Pre-training 语料由 99.9% 的 Context A(op=2-20)和仅 0.1% 的 Context B(op=2-20)组成
  • 在 Post Training 期间,论文在 200K 个样本中改变对 Context B 的暴露比例:0%、2%、10%、50% 和 100%
Summary 5
Observation 5
  • 当 Pre-training 中共享推理原语时, Post Training 期间对 Context B 的暴露程度与模型在 Context B 上的性能呈正相关
  • Notably,即使在 Post Training 期间完全没有暴露于 Context B(0%),模型仍能实现显著的迁移,这突显了共享原语在实现上下文泛化中的作用
Takeaway 5
  • 当原子原语被共享时, Post Training 可以激励模型向长尾上下文泛化
  • Remarkably,即使 Post Training 对 Context B 的暴露为 0%,模型也能实现实质性的迁移,这凸显了 Pre-training 阶段共享推理结构的关键作用
  • 图 12:
    • 经过 Post Training (对 Context B 的暴露比例不同)后,在上下文泛化任务上的 pass@k 性能
    • 当 Pre-training 中共享推理原语时,即使在后续 Mid-training 对 Context B 的暴露有限或为零,模型也表现出向 Context B 的强迁移能力

附录 A.6.2 当 Pre-training 中仅暴露原子原语时 (When Only Atomic Primitives are Exposed During Pre-Training)

  • 本节研究当 Base Model 在 Pre-training 中仅暴露于长尾上下文的基本原子原语(basic atomic primitives)时的上下文泛化
Task Setting
  • 使用与上述相同的上下文数据分布,论文在 Pre-training 期间将 Context B 的数据限制为仅包含原子操作,而 Context A 则覆盖全范围操作
  • Pre-training 语料由 99% 的 Context A(op=2-20)和仅 1% 的 Context B 组成,且 Context B 仅限于原子操作(op=2)
    • Thus,模型主要通过 Context A 学习推理结构,而对 Context B 的 surface forms 仅有极少的暴露
    • 在 Post Training 期间,论文使用 200K 个样本进行 RL 微调,其中 Context B 数据的比例在五个方案中变化:0%、1%、10%、50% 和 100%
    • 详细的数据方案见附录 A.9
  • 如图 13 所示:
    • 仅在 Context A 上进行 Post Training 或对 Context B 的暴露极其稀疏(0-1%)时,模型在 Context A 内保持强劲性能,但对长尾 Context B 的迁移极小
      • 理解:这里的 1% 和前面提到的 1% 覆盖是不同的,不然就矛盾了
    • However,一旦引入少量 Context B 数据(约占总体样本的 10%)Context B 的性能急剧提升,pass@128 准确率增加超过 +76 点
    • 进一步增加 Context B 数据的比例(50%、100%)带来的增益递减,表明一旦提供了最小的监督,RL 就能快速建立起稳健的跨上下文推理
    • Notably,即使 Post Training 使用100% Context B 数据(与主要的 Pre-training 上下文完全不同)模型在 Context A 上的性能仍然保持稳定
      • 这表明 RL 使模型能够学习可迁移的推理策略,这些策略可以跨 surface forms 进行扩展,同时保留在先前已掌握上下文中的能力
      • 理解:这里再次说明了 RL 的训练过程是很少发生灾难性遗忘的
  • 图 13:
    • Base Model 在 Context B 仅限于基础原子操作时的 pass@k 性能
    • 仅在 Context A 上进行 Post Training 能保持稳定性能,而在 RL 中引入 10% 的 Context B 数据则能实现上下文迁移

A.6.3 Training Dynamics for § A.6.2

  • 本节绘制了 § A.6.2 中使用的不同数据方案下的 Post Training 奖励动态,以进一步理解 RL 期间对长尾上下文的暴露程度变化如何影响学习进展
  • 从图 14 中我们可以观察到
    • 当 Post Training 期间对 Context B 的暴露极其有限(0-1%)时,奖励趋于平稳,表明学习进展甚微
    • 然而,在适度暴露(10-100%)下,奖励显著提升,反映了有效的学习和对长尾上下文的迁移
  • 图 14:
    • 不同 Post Training 数据方案下的奖励动态
    • 当 RL 对 Context B 的暴露极其有限(0-1%)时,奖励停滞不前
    • 然而,在适度暴露(10-100%)下,奖励显著提升,反映了有效的学习和迁移

附录 A.7 Detailed Analysis of Pre-Training Effects on Extrapolative Generalization**

  • Pre-training 定义了 Post Training 后期可以组合和扩展的原子推理原语
    • 如果 Base Model 在 Pre-training 期间已经遇到中等复杂的问题, Post Training 可能会将这些原语推向更深层的组合推理
    • Otherwise,Post Training 可能缺乏超越其继承能力范围的探索支架
    • 因此,作者研究不同的 Pre-training 难度如何影响后续的外推泛化

Task Setting

  • 论文将 Post Training 方案固定为来自 op=11-14 范围的 200K 个样本,先前已确定此范围为能力边缘(见图 3)
  • 然后改变 Pre-training 期间包含的“困难”数据(op=7-10)的比例,以评估对复杂原语的暴露如何影响 Base Model 在 RL 后的泛化能力
    • (详见附录 A.9 的数据方案)

Summary 7

Observation 7
  • 如图 15 所示
    • 在 Pre-training 中更多地暴露于困难问题,持续地提升了基础和经过 Post Training 的性能
    • However,来自 RL 的边际增益随着 Pre-training 变得更全面而减小
    • 当 Pre-training 已经覆盖了相当一部分中等深度任务时,RL 仅带来适度的改进
    • By contrast,当 Pre-training 包含有限但非平凡的困难原语暴露(例如,20% 的 op=7-10 数据)时,RL 产生了最大的相对提升(将 op=15-20 上的 pass@128 准确率提高了超过 +22 点)
      • 这表明,当模型的先验能力是部分的时候,足够强以支持探索,但又足够不完整以留有发现空间,RL 是最有效的
  • 图 15:在 Pre-training 期间不同困难数据暴露水平下, Post Training (op=11-14)后在外推任务上的 pass@128 性能
Takeaway 7
  • Pre-training 奠定基础,RL 对其进行扩展
    • 在 Pre-training 期间丰富地暴露于组合原语,使 RL 能够将推理深度推到超出 Pre-training 范围
    • 但一旦这些原语被完全掌握,RL 的益处就会逐渐减少,这突显了两个阶段的互补作用

附录 A.7.1:第 A.7 节的 Training Dynamics (Training Dynamics for § A.7)

  • 论文分析了在不同 Pre-training 数据方案下 Post Training 期间的 Training Dynamics
  • 图 16:不同 Pre-training 数据方案下的奖励动态
    • 在 Pre-training 期间有适度困难数据暴露(20-50%)的模型在 Post Training 期间表现出显著的奖励提升,表明有效的学习和外推
    • In contrast,困难数据暴露过少(0%)或过多(100%)的模型显示出有限的奖励增益,表明学习进展受限

附录 A.8:Training Dynamics for § 4

  • 本节分析了 § 4 中上下文泛化的不同 Pre-training 数据方案的 Training Dynamics
  • 从图 17 中观察到
    • 在 Pre-training 期间对长尾上下文(即使是基础原子)的适度暴露比例,对于模型在 Post Training 期间实现显著的奖励提升是必要的
  • 图 17:不同 Pre-training 数据方案下的奖励动态
    • 对长尾上下文暴露最少的模型在 Post Training 期间没有奖励提升
    • 而对长尾上下文有中等至完全暴露的模型则显示出显著的奖励提升,表明有效的学习和上下文泛化

附录 A.9:Post-Training and Pre-Training Data Recipe

  • 本节详述了在 § 3、§ 4、§ A.6.1、§ A.6.2 和 § A.7 中使用的数据方案。表 2 总结了在不同实验部分中使用的具体操作计数范围、上下文模板和训练预算
  • 表 2:§ 3、§ 4、§ A.6.1、§ A.6.2 和 § A.7 中 Pre-training / Post Training 实验的数据方案
    • op(\(\mathcal{G}\)) 范围表示每个训练阶段的操作计数
    • Context A、B、C 对应于不同的模板:A = animals–zoo, B = teachers–school, C = movie-festival
    • 不同操作范围和上下文的数据方案均在指定比例内均匀采样
    • 阴影单元格表示消融设置

附录 A.10:不同计算预算下的 Mid-training / Post Training 混合 (Mid-/Post-Training Mixing with Different Computation Budget)

  • 本节首先详述 Mid-training 和 RL 等价的计算预算公式,然后提供在不同总计算预算下组合 Mid-training 和 Post Training 的确切数据方案

附录 A.10.1 Mid-training 与 RL 等价的计算预算 (Compute Budget of Mid-Training and RL Equivalence)

  • 训练计算量 (Training Computation)
    • 根据 Chinchilla 缩放定律 (2022),一个具有 P 个非嵌入参数的 Decoder-only Transformer,在 T 个 Token 上训练消耗的计算量大约为:
      $$
      C_{\text{train} } \approx 6P T \quad \text{flops}
      $$
    • Thus,预算为 \(T_{\text{mid} }\) 的 Mid-training 阶段消耗
      $$ C_{\text{mid} } = 6P T_{\text{mid} } \quad \text{flops}$$
  • 细粒度 RL 计算量 (Fine-Grained RL Computation)
    • 对于 On-policy GRPO,计算可以分解为:
      • Rollout: Actor 模型前向传播(2P),
      • Reference(可选): 参考模型前向传播(2P),
      • Policy Update 前向传播(2P)和后向传播(4P)
    • 求和这些项得到:
      $$
      C_{\text{RL} } = (8 + 2\gamma)P N r L_{\text{total} },
      $$
      • 其中 \(\gamma \in \{0,1\}\) 切换参考模型的前向传播,\(N\) 是 RL 样本数,\(r\) 是 Rollout 大小,\(L_{\text{total} }\) 是总序列长度(包括提示和补全)
  • Mid-training Token 等价 (Mid-training Token Equivalence)
    • 通过方程 4 归一化得到等价的 Mid-training Token 成本:
      $$
      T_{\text{RL} } = \frac{C_{\text{RL} } }{6P} = \left(\frac{4}{3} + \frac{\gamma}{3}\right) N r L_{\text{total} }
      $$
    • 当 \(\gamma = 1\) 时,论文得到正文中使用的等价关系:
      $$
      \boxed{T_{\text{RL} } = \frac{5}{3} N r L_{\text{total} } }
      $$
  • 预算分配与步数计算 (Budget Allocation and Step Calculation)
    • 给定总预算 T 和 RL 比率 \(\beta\),
      $$
      T_{\text{mid} } = (1-\beta) \cdot T, \qquad T_{\text{RL,eq} } = \beta \cdot T
      $$
    • 相应的 RL 样本数 \(N(\beta)\) 和更新步数为:
      $$
      N(\beta) = \frac{3}{5} \cdot \frac{\beta T}{r L_{\text{total} } }, \qquad \text{steps}_{\text{RL} }(\beta) = \frac{N(\beta)}{B},
      $$
      • 其中 \(r = 6\) 是 Rollout 大小,\(L_{\text{total} } = 2048\) 是总序列长度,\(B = 1024\) 是 RL 批次大小,T 是总 Token 预算
    • Mid-training 的步数为:
      $$
      \text{steps}_{\text{mid} }(\beta) = \frac{T_{\text{mid} } }{B_{\text{mid} } \cdot L_{\text{mid} } },
      $$
    • 其中 \(B_{\text{mid} } = 512 \times 1024\) 是 Mid-training 的批次大小,\(L_{\text{mid} } = 2048\) 是 Mid-training 的序列长度
Task Setting
  • 论文使用 10B Token 进行 Pre-training ,其中 20% op=2-4,30% op=5-7,50% op=8-10
  • 为避免 Mid-training 期间的灾难性遗忘,论文在 Mid-training 期间使用 20% 的预算用于 op=2-10,80% 用于 op=11-14。为公平比较,RL 使用与 Mid-training 相同的数据分布进行。表 3 详述了在不同总 Token 预算 T 和 Mid-training 比率 p 下, Mid-training 和 RL 的确切步数。论文在不同的总计算预算下,使用完全 Mid-training (Full mid-training)、完全 RL (Full RL)、 Light RL (\(\beta=0.2\))、Medium-RL (\(\beta=0.5\)) 和Heavy-RL (\(\beta=0.8\)) 进行中/ Post Training
Summary 8
Observation 8
  • 如图 18 所示
    • 在所有计算预算下
      • Light RL 取得了最佳的 OOD-edge pass@1 性能
      • Heavy-RL 始终获得最高的 OOD-hard pass@1 性能
    • 对于 pass@128,当计算预算有限(4.2B Token)时,Heavy-RL 在 OOD-hard 设置中取得最佳性能
    • 当预算增加(8.4B Token 及以上)时,完全 RL 达到最高的 OOD-hard pass@128 性能
  • 图 18:不同总计算预算下, Mid-training 和 RL 混合比率对应的 pass@k 性能
Takeaway 8
  • Mid-training 和 Post Training 在不同的计算预算下互为补充
    • 对于 pass@1 任务, Mid-training 和 RL, Post Training 的组合始终优于任一单独的方法
    • 对于 pass@128,最优的 Post Training 分配取决于可用的计算预算:
      • 在资源有限的情况下,将大约 80% 分配给 RL 能在稳定性和探索性之间取得平衡;
      • 在计算量更充足时,完全 RL 能最大化外推增益
  • 表 3:不同计算预算规模下的实验配置
    • 将 Mid-training 的批次大小固定为 512K Token
    • 表 3 将总 Token 预算 T 映射到纯 Mid-training (p=1.0)、纯 RL(p=0.0)和混合拆分所需的特定步数

NLP——LLM对齐微调-AutoRule

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:AutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learning, 20250618, CMU Chenyan Xiong
    • 开源地址:github.com/cxcscmu/AutoRule

Paper Summary

  • 论文总结:
    • 论文介绍了一种基于推理链的自动 Rule 提取机制(AutoRule),用于在语言模型对齐中利用 Rule-based 奖励
    • 作者表明从 AutoRule 提取的 Rule 与偏好数据集有良好的一致性,并且在指令遵循基准的模型评估中提供了性能提升,且证明了 Rule-based 奖励方法在一定程度上缓解了奖励模型的过优化
    • 论文的 Rule 信号只是作为辅助信号和标准 RL 一起训练的,并不是单独训练
    • AutoRule 的核心是 “偏好数据 -> 推理链 -> 规则提取 -> 规则奖励 -> RL 优化” 的端到端流程
    • 注:论文附录中提供了 UltraFeedback、MT-Bench 数据集提取的完整规则(如 UltraFeedback 规则含“翻译需保留原语气”“代码需无错误”等)
    • 通过三步自动化流程从偏好数据中生成统一规则集,核心依赖具备推理能力的 LLM(如 Deepseek-R1):
      • 推理生成 :给定偏好数据集中的“候选响应对+偏好标签”(如“响应A被拒绝,响应B被选中”),Prompt 推理型 LLM 生成分步推理链 ,解释为何选中的响应更优(考虑清晰度、连贯性、实用性等维度)
      • 规则抽取 :从每条推理链中提取明确的“规则类陈述”(需可客观判断),例如“响应应避免冗余,聚焦核心查询”
      • 规则合并 :聚合所有候选规则,通过LLM去除重复、合并语义相似规则,最终得到精简的统一规则集(通常压缩至原规模的 1-2%,提升计算效率)
    • 注:本人亲自尝试过,在实际使用时,论文的 Rule 对于 RewardBench 等 Reward Model Benchmarks 的指标提升没有帮助(当然论文中作者也没有直接汇报 Reward Model Benchmarks 相关的指标,只是将 Rule 作为一个额外的信号加入到之前的 BT RM 中的)
  • 论文之前的 Rule-based 方法通常依赖手动 Rule 工程
  • AutoRule 是一种从偏好反馈中提取 Rule 并将其制定为 Rule-based 奖励的全自动化方法
  • AutoRule 提取过程分为三个阶段:
    • 利用推理模型来解释用户偏好
    • 从这些解释的推理链中识别候选 Rule
    • 将它们合成为一个统一的 Rule 集
  • 利用最终确定的 Rule 集,采用语言模型 Verifier 来计算每个输出满足的 Rule 比例,在策略优化期间,将此度量作为辅助奖励与学习到的奖励模型一起使用
    • 使用 AutoRule 训练 Llama-3-8B 模型,在 AlpacaEval2.0 上实现了长度控制胜率的 28.6% 相对提升,与使用相同学习奖励模型但未使用 Rule-based 辅助奖励训练的 GRPO 基线相比,在保留的 MT-Bench 子集上实现了第二轮性能 6.1% 的相对增益
  • 实验证实:
    • 提取的 Rule 与数据集偏好具有良好的一致性
    • 在运行两个 episode 时,与学习到的奖励模型相比,AutoRule 表现出减少的 Reward Hacking
  • Finally,论文的案例研究表明,提取的 Rule 捕获了不同数据集中看重的独特品质
    • 提取的 Rule 在附录中提供

Introduction and Discussion

  • RLHF 已成为使 LLM 与人类价值观对齐并增强其遵循人类指令能力的关键技术 (2022)
    • RLHF 和相关的基于偏好的优化方法已被用于顶级行业模型,如 GPT-4 (2024)、Gemini (2025)、Claude (2024) 和 Llama 3 (2024)
  • 基于 RL 的训练后方法也被用于增强 LLM 的推理能力
    • Notably,DeepSeek-R1 发布的一个关键进步是采用了 Rule-based 奖励来确保准确性和格式,以替代神经奖励,作为缓解 Reward Hacking 的策略 (2025)
    • 用于推理任务的 Rule-based 奖励特别有效,因为它们提供了控制策略行为的客观、可验证的标准
    • 当语言模型的输出满足这些 Rule 时,它可以被可靠地认为是准确的 Response
  • 虽然 Rule-based 奖励在推理任务上效果很好,但将它们用于语言模型的偏好对齐仍然具有挑战性
    • 与代码或数学等领域不同,在那些领域可以构建明确的 Rule-based Verifier ,偏好对齐之所以困难,是因为人类偏好常常模糊且主观
    • 现有的行业方法通常依赖于专家设计的 Rule (2022, 2024) 或大规模众包标注 (2022),这可能成本高昂且难以扩展
  • 为了克服这些限制,论文引入了一个自动 Rule 提取框(AutoRule)
    • AutoRule 利用先进 LLM 的推理能力直接从偏好数据中推导对齐 Rule
    • 论文的方法从模型生成的推理链中提取明确 Rule ,超越了对人工设计或众包 Rule 的依赖
    • 在 RL 训练期间,一个 LLM-as-a-judge (2023) Verifier 评估每个候选 Response 是否符合提取的 Rule ,生成的 Rule 分数被聚合以形成 Rule-based 复合奖励
      • 然后,此奖励与标准模型奖励结合以指导策略优化
  • 为了提取 Rule ,AutoRule 遵循以下流程
    • 给定一对模型输出和一个相关的偏好标签:
      • 首先 Prompt 一个具备推理能力的 LLM 为首选的输出生成一个逐步的理由
      • 然后要求该 LLM 从其推理过程中提取明确的、类似 Rule 的陈述
      • 这些候选 Rule 在训练集中进行聚合,之后 LLM 会合成一个统一的 Rule 集
    • 论文 hypothesize,利用推理链的逻辑结构能够提取更精确和可操作的 Rule ,从而更好地捕捉潜在的偏好标准
  • 论文通过全面的实验经验性地验证了论文的方法
    • First,论文展示了使用 Llama 3 8B Instruct (2024) 作为 Verifier 计算的 Rule-based 分数(无论是单独还是累积计算)在 UltraFeedback (2024) 和 MT-Bench Human Judgment (2023) 数据集上都与偏好有良好的一致性
    • Next,论文使用标准的 RLHF 流程在 UltraFeedback 数据上对基础 Llama-3-8B 模型进行训练后,但用 GRPO (2024) 替换了传统的 PPO,并集成了 AutoRule 作为奖励机制
    • 论文在多个基线上对论文的方法进行了基准测试,包括使用仅模型奖励的普通 PPO 和 GRPO,并在 UltraFeedback 胜率、AlpacaEval 2.0 和 MT-Bench 上进行评估
      • 在所有三项评估中,AutoRule 始终优于基线
  • Additionally, Reward Hacking 实验证明了 AutoRule Rule-based 奖励能够减轻奖励模型的过度优化
    • 比较从推理链与仅从理由中提取 Rule 的消融研究支持了 AutoRule 中利用推理链的有效性
    • Furthermore,定性分析表明,从 UltraFeedback 导出的 Rule 主要强调对话质量,而从 MT-Bench 提取的 Rule 则优先考虑指令遵循和在更复杂任务上的鲁棒性
  • 总而言之,论文的主要贡献有三方面:
    • 论文引入了 AutoRule,一个通过 LLM 生成的推理链从偏好数据中自动提取对齐 Rule 的框架
    • 论文展示了通过 AutoRule 导出的 Rule-based 奖励,与标准的偏好优化基线相比,能带来改进的偏好对齐和指令遵循
    • 论文证明了 AutoRule 能减少 Reward Hacking 并产生可解释的、适应数据集的 Rule

Methods

  • 在本节中,论文概述 AutoRule 的自动 Rule 提取过程,演示如何利用这些 Rule 形成奖励分数,以及如何在 GRPO 公式中使用该奖励
  • 图 1 提供了 Rule 提取和奖励计算流程的概述

AutoRule Extractor

  • 论文将语言模型表示为 \(\pi_{\theta}\),其中 Prompt \(x\) 作为状态
    • 下一个 token \(t\) 作为动作,即 \(t \sim \pi_{\theta}(\cdot | x)\)
    • 在 \(N\) 个 token 上展开此过程,生成输出序列 \(y = (y_{1},\ldots ,y_{N})\) 的概率由 \(\pi_{\theta}(y\mid x) = \prod_{i = 1}^{N}\pi_{\theta}(y_{i}\mid y_{< i},x)\) 给出
    • 为简洁起见,论文将采样输出写为 \(y\sim \pi_{\theta}(\cdot \mid x)\)
  • AutoRule 中的自动 Rule 提取过程包括三个主要阶段,每个阶段都利用一个推理语言模型 \(\pi_{\phi}\),该模型将 Response \(y\) 分解为输出 \(o\) 和相关的推理轨迹 \(r\),即 \((o,r)\sim \pi_{\phi}(\cdot \mid x)\)
Reasoning Generation
  • 为了引导推理模型产生适用于 Rule 提取的连贯、逐步推理链,论文 Prompt 其说明为何 Chosen Response 更优
  • 给定一个偏好数据集
    $$\mathcal{D}_{\mathrm{pref} } = \left\{(x^{(1)},y_{c}^{(1)},y_{r}^{(1)}),\ldots ,(x^{(N)},y_{c}^{(N)},y_{r}^{(N)})\right\}$$
  • 论文向推理模型呈现 \(x_{1} = \mathrm{prompt}(x,y_{c},y_{r},1)\) 或 \(x_{2} = \mathrm{prompt}(x,y_{r},y_{c},2)\),随机选择以变化候选顺序
    • 每个 Prompt 都要求提供模型输出的理由
  • 对于每个样本 \(i\),论文从模型生成 \((o^{(i)},r^{(i)})\sim \pi_{\phi}(\cdot \mid x)\) 中提取推理轨迹 \(r^{(i)}\),从而得到推理链的集合 \(RC = \{r^{(1)},\ldots ,r^{(N)}\}\)
    • 此步骤以及后续步骤使用的 Prompt 显示在附录 F 中
Rule Extraction
  • 接下来,论文从每个单独的推理链中提取明确 Rule
  • 对于每个推理链 \(r^{(i)}\in RC\),论文使用 \(x = \mathrm{prompt}(r^{(i)})\) Prompt 推理模型,以引出证明偏好合理性的潜在 Rule
  • 模型为每个 \(r^{(i)}\) 输出一组 Rule \(R^{(i)}\),即 \(R^{(i)},r\sim \pi_{\phi}(\cdot \mid x)\)
  • 论文将这些 Rule 在所有样本上聚合以获得整体 Rule 集:
    $$RS = \bigcup_{i = 1}^{N}R^{(i)}$$
  • 通过这种方式利用推理模型,论文的目标是系统地将复杂的推理轨迹分解为精确、可操作的 Rule
  • 从每个推理链单独提取 Rule 也简化了模型的任务,这应能促进更高质量和更可解释的 Rule 集
Rule Merging
  • 鉴于从训练集中提取了大量 Rule ,合并 Rule 对于确保训练期间的计算效率至关重要
  • 为了解决冗余和重叠问题,论文 Prompt 推理模型合并 Rule
  • 为此,论文在 Prompt 中指出提供的 Rule 可能存在重复或语义相似的 Rule
  • 然后,论文指示模型识别并合并 \(RS\) 中的 Rule ,以便没有重复或相似的 Rule 保留
  • 这产生了一组精炼且紧凑的合并 Rule :
    $$MR,r\sim \pi_{\phi}(\cdot |\mathrm{prompt}(RS))$$
    • 其中 \(MR\) 表示最终的合并 Rule 集
    • 经验上,此合并过程大大减少了冗余,通常将 Rule 集压缩到其原始大小的 \(1-2\%\)
    • 这显著提高了 Rule-based 奖励计算过程的效率

AutoRule Reward

  • 为了构建用于 RL 目标的 Rule-based 奖励,论文采用 LLM-as-a-judge Verifier ,记作 \(V_{\theta}\)
  • 给定一个 Prompt \(x\)、一个 Response \(y\) 和每个提取的 Rule \(c\in MR\), Verifier 提供一个 Rule 分数
    $$ s_{i}\sim V_{\theta}(\cdot |\mathrm{prompt}(x,y,\mathrm{rule}_{i})) $$
    • 论文将 Rule 分数约束为二进制值,\(s_{i}\in \{0,1\}\)
  • AutoRule 奖励 \(r_{RA}\) 定义为在所有 \(K = |MR|\) 条 Rule 上的平均 Rule 满足度:
    $$r_{RA}(x,y) = \frac{1}{K}\sum_{i = 1}^{K}s_{i}$$
    • 其中每个 \(s_{i}\) 如上所述获得
    • 理解:这里是直接将分数累加,在指令遵循种可能会导致模型可以避开一些特别难遵循的结果
  • 用于训练的最终奖励将 Rule-based 奖励 \(r_{RA}\) 与标准奖励模型分数 \(r_{\theta}\) 和 KL 惩罚相结合(精确的 KL 惩罚公式见附录 B.3):
    $$r_{\mathrm{total} }(x,y) = r_{RA}(x,y) + r_{\theta}(x,y) - \beta_{KL}KL_{\mathrm{approx} }$$
    • GRPO 中都不是加在奖励上,这里为什么要加在奖励上?
  • 与分配连续分数以反映细微偏好差异的传统奖励模型不同,论文的 Verifier \(V_{\theta}\) 的任务仅是确定每条 Rule 是否被满足,产生二元结果
    • 这种简化降低了奖励建模过程的复杂性,使 Verifier 不易受到错误判断的影响,减轻了 Reward Hacking 的风险

AutoRule RL Stage

  • AutoRule 使用 GRPO 算法 (2024) 进行偏好对齐的强化学习阶段,使用 \(r_{\mathrm{total} }\) 作为奖励信号(Rule-based 奖励 \(r_{RA}\) 与标准奖励模型分数 \(r_{\theta}\) 和 KL 惩罚相结合)
  • GRPO 是一种策略优化算法,它使用一组输出的相对奖励来确定优势估计,消除了传统 PPO (2017) 中使用的单独价值模型的需求,提高了内存和计算效率
    • 形式上,GRPO 利用一组输出并计算它们的奖励,将其合并为一个奖励向量 \(\mathbf{r} = \{r_{1},\ldots ,r_{n}\}\)
    • GRPO 为特定输出 \(i\) 计算优势估计:
      $$\hat{A}_i = \frac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})}$$
    • 此优势估计用于以下裁剪代理目标 (2017):
      $$L(w) = \mathbb{E}_{(x,y)\sim \mathcal{D}_{val} }\left[\min \left(\frac{\pi_w(y\mid x)}{\pi_{val}(y\mid x)}\hat{A},\mathrm{clip}\left(\frac{\pi_w(y\mid x)}{\pi_{val}(y\mid x)},1 - \epsilon ,1 + \epsilon\right)\hat{A}\right)\right]$$
      • 其中 \(\epsilon\) 是一个裁剪超参数,\(\frac{\pi_w(y\mid x)}{\pi_{val}(y\mid x)}\) 是似然比
  • In Summary
    • AutoRule 引入了一个自动化的、基于推理链的 Rule 提取框架,可以生成精确且可操作的对齐 Rule ,从而消除了手动 Rule 工程的需要
    • 通过利用提供二进制 Rule 满足判断的 LLM-as-a-judge Verifier ,论文的方法与传统的连续奖励模型相比简化了奖励建模,有助于减轻 Reward Hacking 并增强偏好对齐的可靠性

Experimental Methodology

Dataset

  • 论文使用 UltraFeedback-Binarized 数据集(简称 UltraFeedback),它是 UltraFeedback (2024) 的二值化版本,包含来自不同模型类型和指令的近 64K 条成对偏好标注
    • For Training,论文筛选了 33K 个示例的子集(详情见附录 B.6)
  • 论文还使用了 MT-Bench 人工判断数据集(简称 MT-Bench)(2023),该数据集提供了多轮问题的专家偏好标注

Evaluation Metrics

  • 论文在 UltraFeedback-Binarized 测试集上报告胜率,使用 GPT-4o 作为自动评判器,并随机化候选和参考 Response 的顺序
  • 论文还在 MT-Bench(使用 GPT-4 作为评判器)和 AlpacaEval 2.0 (2024) 上进行了评估
  • 对于 AutoRule,AlpacaEval 2.0 和 UltraFeedback 胜率是在使用 UltraFeedback Rule 训练的模型上测量的
  • 对于 MT-Bench,论文将 80 个问题分为 40 个用于训练 AutoRule,40 个用于测试(每个 Split 每个类别 5 个)

Rule Extraction

  • 论文使用 Deepseek-R1 (2025) 来生成用于自动 Rule 提取的推理链
  • 对于 LLM-as-a-judge Verifier
    • 论文使用 Llama-3-8B-Instruct (2024) 以在计算效率上优于更大的 Deepseek-R1 模型
    • 理解:这里,若 Rule 不够简单的话,Llama-3-8B-Instruct 的性能应该是远远不够的
  • 为了提取 Rule
    • 论文从 UltraFeedback 训练 Split 中随机抽取 256 个示例;
    • 对于 MT-Bench,论文使用 40 个问题的训练 Split ,并为训练每个问题采样最多 8 个示例,如果可用数量更少则使用全部

Baselines

  • 论文与多个基线进行比较:
    • (1) 使用 PPO 的 RLHF(“RLHF”)
    • (2) 使用基础奖励且无超参数调优的 GRPO(“GRPO”)
    • (3) 带长度惩罚的 GRPO(“GRPO + Length Penalty”,简写为 LP)
    • (4) 带 length-driven 超参数调优的 GRPO(“GRPO + Length Control”,简写为 LC)
      • 问题:这里的 GRPO+LC 是指特意针对长度惩罚调整过超参数的
  • 所有基线均使用相同的学习奖励模型

AutoRule Model

  • 对于 AutoRule,论文使用一个经过缩放的 Rule-based 奖励 \(r_{RA}\):
    $$r_{RA^{\prime} } = \alpha r_{RA} + \beta$$
    • 其中 \(\alpha = 10\) 且 \(\beta = - 7.5\),以使 Rule-based 奖励幅度与学习奖励模型对齐,实现稳定训练
  • Verifier Prompt 被修改为只有当 Response 简洁且完全满足提取的 Rule 时,\(s_i = 1\)

Implementation Details

  • 所有模型都从相同的 SFT 和奖励模型检查点初始化以确保可比性
    • 这里的 SFT 检查点是通过在筛选后的 UltraFeedback-Binarized 数据集的偏好 Response 上微调 Llama-3-8B 获得的
    • 奖励模型从这个 SFT 检查点初始化,并在筛选后的 UltraFeedback-Binarized 训练 Split 的偏好标注上进一步微调
    • Actor、Critic 和值网络(如适用)均从 SFT 检查点初始化
  • 训练使用 OpenRLHF (2024),这是一个开源的 RLHF 框架
  • 超参数和更多细节在附录 B 中,资源链接可在附录 H 中找到

Evaluation Results

  • 在本节中,论文将在 Rule 质量、模型性能和 Reward Hacking 缓解方面评估 AutoRule
  • 然后论文将分析 AutoRule 的几个消融研究以及提取 Rule 的案例研究

Rule quality

  • 所有提取的 Rule 均在附录 C 中展示
  • 论文在 1,024 个 UltraFeedback 测试示例和完整的 MT-Bench 人工判断 Split 上评估 Rule 一致性
    • 对于单个 Rule ,一致性以 Rule 偏好与真实标注相匹配的 Response 对比例来衡量,仅考虑 Rule 能区分 Response 的对
  • 论文还报告了聚合 Rule 奖励增量(Chosen 奖励与 Rejected 奖励之差)的分布
    • 图 2a 和 2b 展示了单个 Rule 一致性的分布
      • 论文观察到,来自两个 Rule 集的单个 Rule 都与数据集中真实的偏好有良好的一致性
      • 此外,与 MT-Bench Rule 的平均一致性超过了与 UltraFeedback Rule 的平均一致性,这表明在人工标注数据上自动 Rule 提取似乎比在 LLM 生成的偏好数据上更有效
    • 图 2c 和 2d 展示了 Rule 分数增量的分布
      • Rule 分数增量的分布在正侧呈现更重的尾部,表明更多的 Chosen Response 获得了更高的分数
      • 随着增量幅度的增加,正尾变得更重,这意味着更大的增量幅度与更可靠的偏好对齐相关
  • 除了 Rule 一致性,论文还进行了一个小实验来评估 Rule 的确定性
    • 方法是在 UltraFeedback Rule 集上对 20 个 UltraFeedback 测试集 Response 运行 100 次温度为 1.0 的 Verifier 推理,并在 MT-Bench Rule 集上对 16 个 MT-Bench 测试集 Response 进行同样的操作
    • 使用确定性分数计算公式 \((\max (\# \mathrm{Yes}, \# \mathrm{No}) / (\# \mathrm{Yes} + \# \mathrm{No}))\)(其中 Yes/No 表示 Rule 满足情况的答案),论文为 UltraFeedback 和 MT-Bench 提取的 Rule 分别获得了平均 \(83.6%\) 和 \(82.5%\) 的确定性分数
    • 这些结果表明 Rule 具有很高的一致性,并且 Verifier 提供了可靠的判断,支持它们适用于奖励制定

Model Performance

  • 表 1 展示了基线和 AutoRule 模型在多个评估指标上的综合比较,包括 UltraFeedback 胜率、AlpacaEval 2.0 长度控制胜率 (LC WR)/常规胜率 (WR) 以及 MT-Bench 性能
    • 问题:这里都是百分比涨幅,那么实际上的分数绝对值涨幅应该会低很多吧?效果似乎不是很显著?
  • 论文的结果表明, Rule-based 奖励模型在各自训练领域中都是有效的
    • 具体来说,当使用从 UltraFeedback 提取的 Rule 进行训练时,AutoRule 在 UltraFeedback 胜率上相比基线获得了 \(1.7%\) 的相对提升,表明提取的 Rule 成功捕捉了该数据集中人类偏好的重要方面
  • 对于 MT-Bench,论文使用从 40 个精心挑选的多轮 Prompt 子集推导出的 Rule 来评估 AutoRule
    • 值得注意的是,与基线相比,该模型在第二轮性能上表现出 \(6.1%\) 的相对增益,证明了 Rule-based 监督对于复杂的多轮交互是有效的
  • 除了领域内性能,论文的发现表明,相对于传统基线, Rule-based 方法在泛化到分布外任务方面表现更优
    • 在 AlpacaEval 2.0 上,AutoRule 在长度控制胜率上相比 SFT 基线实现了 \(5.9%\) 的相对提升,相比 GPT-4 Turbo 实现了 \(28.6%\) 的提升,这凸显了 Rule-based 奖励在缓解长度偏见和提升实质性 Response 质量方面的鲁棒性
    • 问题:相比 GPT-4 Turbo 实现了 \(28.6%\) 的提升 体现在哪里?是否写错了,应该是 5.4% 吧?
  • 这些结果共同表明,AutoRule 不仅在训练分布内表现出色,还能有效迁移到多样化的评估环境中,优于标准的和减少长度偏见的基线

Reward Hacking Mitigation

  • 为了系统评估 Reward Hacking ,论文在整个训练过程中监控模型性能,以检测任何表明对奖励信号过拟合的性能退化
  • 论文进行了四次实验运行:三个基线和一次使用 UltraFeedback 推导出的 Rule 训练的 AutoRule 实例
    • 每个运行两个训练周期(即,对数据集进行两次完整遍历)
    • 模型每两步保存一次检查点
  • 作为初步验证,论文在图 3a 和 3b 中报告了作为全局步数函数的平均单个 Rule 分数
    • 观察到的所有 Rule 分数呈上升轨迹表明,模型正在有效地针对 Rule-based 奖励信号进行优化
    • 这些结果验证了在 AutoRule 框架下将这些训练运行用于后续奖励动态分析的可行性
    • 理解:每个 Rule 的分数在训练中都在逐步提升;3a 和 3b 中分别是不同的 Rule
  • 对于每个检查点,论文评估相对于 SFT 检查点的 UltraFeedback 胜率,以及相对于 GPT-4 的 AlpacaEval 2.0 长度控制胜率(两者都仅使用 128 个示例的子集)
    • 图 3c 描绘了 UltraFeedback 胜率随全局步数的变化
      • 最初,基线和 AutoRule 模型取得了相似的胜率;
      • 然而,在第 52 步之后,GRPO 和 GRPO + LP 基线的性能开始下降,而 GRPO + LC 和 AutoRule 则保持了持续的高胜率
  • 对于分布外泛化,图 3d 展示了 AlpacaEval 2.0 胜率随全局步数的变化
    • 在这里,AutoRule 持续优于所有 GRPO 基线,包括 GRPO + LC,在两个训练周期后取得了大约 5 个百分点的提升
    • 虽然 GRPO + LC 缓解了在分布内数据上的 Reward Hacking ,但 Rule-based 奖励对于分布内和分布外设置都提供了对抗 Reward Hacking 的鲁棒性

Ablation Study

  • 为了更好地理解论文框架中各个组件的贡献,论文进行了一项消融研究,重点关注两个关键方面:奖励缩放和简洁性约束
  • 具体来说,论文考虑了以下变体:
    • (1) 一个在没有 Rule-based 奖励缩放的情况下训练的模型,缩放参数设置为 \(\alpha = 1\),\(\beta = 0\)(标记为“w/o Scaling”)
    • (2) 一个修改了 Verifier Prompt 以省略对简洁性引用的模型,从而移除了对简洁 Response 的显式指导,同时也没有缩放(标记为“w/o Scaling, Concise”)
  • 表 2 中总结的结果表明,移除奖励缩放或简洁性指导中的任一项都会导致 UltraFeedback 胜率和 AlpacaEval 2.0 长度控制胜率持续下降
    • 缺乏奖励缩放削弱了模型有效利用 Rule-based 监督的能力,而省略简洁性约束则导致 Response 与人类对简洁和清晰偏好的对齐度降低
    • 这些发现强调了在 AutoRule 框架内同时进行 Rule 奖励缩放和明确鼓励简洁 Response 的重要性

Rule Analysis

Reasoning VS. Justification Rules
  • 论文研究了提取媒介对 Rule 质量和下游性能的影响
    • 具体来说,论文比较了直接从模型论证(Justifications,即思维链推理之后 Deepseek-R1 的直接输出)提取的 Rule 与从推理链提取的 Rule
  • 表 3 报告了比较这两种提取媒介的模型性能结果
  • 图 4 展示了模型论证的单个 Rule 一致性分布
    • 虽然 Rule 一致性分布与推理链相似,但论文发现从推理链提取 Rule 仍然显著提高了 UltraFeedback 胜率和 AlpacaEval 2.0 长度控制胜率
    • 这表明推理链包含了允许提取更好 Rule 的信息
    • 论文推测这是因为推理链为 Rule 制定提供了更具体和可操作的指导,而论证往往不够详细且更泛化,导致下游性能下降,并通过附录 E 中的案例研究来论证这一点
Rule Agreements
  • 为了进一步研究 Rule 提取的有效性,论文对从 UltraFeedback 和 MT-Bench 推导的 Rule 集进行了比较分析
    • 具体来说,论文通过在 1,024 个 UltraFeedback 示例和完整的 MT-Bench 人工判断测试 Split 上评估所有 Rule 对,构建了一个 Rule 一致性矩阵
    • 基于此矩阵,论文根据一致性分数识别相似和独特的 Rule
  • 表 4 分别展示了按与对立 Rule 集在 UltraFeedback 和 MT-Bench 示例上的最大 Rule 一致性排序的前六个独特 Rule 和前六个相似 Rule
    • 来自 UltraFeedback 的独特 Rule 似乎主要强调简洁性和清晰度,而来自 MT-Bench 的独特 Rule 则侧重于处理复杂任务,例如自我评估、执行计算或提供代码示例
    • 这种区别可能反映了 UltraFeedback 更广泛的主题多样性和 MT-Bench Prompt 的专业性和挑战性
    • 相比之下,两个集合之间共享的相似 Rule 始终涉及高质量助手 Response 的核心方面,包括逻辑连贯性、专业语气、上下文一致性以及答案一致性
    • 完整的 Rule 一致性矩阵在附录 D 中提供以供进一步参考

补充:Related Work

  • RLHF 是将 LLM 与人类偏好对齐的标准框架 (2022),RLHF 通常包括:
    • (1) 在人工标注的 Response 上进行监督微调;
      8 (2) 训练一个奖励模型来预测人类偏好;
    • (3) 强化学习,通常通过近端策略优化 (2017),使用奖励模型作为优化信号
  • 最近的工作探索了 RL 阶段更高效的方法,例如直接偏好优化 (2023),它消除了奖励模型,以及组相对策略优化 (2024),它使用来自输出组的相对奖励
  • 在使用学习到的奖励模型的 RLHF 中,一个有据可查的(Well-documented)挑战是 Reward Hacking (2022, 2023, 2023)
    • 即模型利用奖励模型的特性获得高奖励,而并未真正改善 Response 质量
    • For Example,Miao 等人 (2024) 发现奖励模型可能过拟合于浅层特征,如 Response 长度,这些特征并不能推广到人类偏好的真实分布
    • 支持这一点的是,Singhal 等人 (2024) 表明,在 PPO 期间仅针对 Response 长度进行优化可以获得与使用学习到的奖励模型相当的性能,这表明奖励模型常常捕捉简单的启发式方法,而非 Response 质量中更细微的方面
  • 已经提出了几种策略来减轻 Reward Hacking ,包括修改奖励模型架构和调整奖励缩放
    • ODIN (2024) 增加了一个辅助长度预测头以”解耦”长度与其他特征
      • 注:这个方法不错,其实值的参考,应该会有一定的收益
    • 奖励塑造方法,如 PAR (2025) 和 LSC (2024),应用以参考模型输出或百分位数为中心的 sigmoid 或 log-sigmoid 变换
    • 其他方法利用多个奖励模型:WARM (2024) 平均多个奖励模型的输出以减少过度优化,而 ArmoRM (2024) 使用门控机制组合可解释的奖励目标
  • 一种日益增长的减轻 Reward Hacking 的策略是采用 Rule-based 奖励目标,尤其是在大规模工业 LLM 部署中
    • 例如,DeepSeek 在 DeepSeek-R1 (2025) 的训练后阶段使用了 Rule-based 奖励 ,明确优先考虑 Rule-based 标准而非学习到的奖励模型以减少 Reward Hacking
    • 他们的方法包含两种奖励:
      • 准确度奖励,评估 Response 是否正确并遵循指定格式;
      • 格式奖励,鼓励模型在指定的”think”标签内呈现其推理链
    • 理解:这里说的其实就是 DeepSeek-R1 中数学等场景所说的 RLVR,不是在开放领域的 Rubrics
  • 在偏好优化领域,已有一些工作探索了 Rule-based 目标,但由于人类偏好的不透明性,识别合适的 Rule 具有挑战性
    • Anthropic 的 Constitutional AI (2022) 使用了一套精心策划的宪法(Constitutional)原则来指导 Response 修订和偏好判断,但这些并未直接用作标量奖励
    • DeepMind 的 Sparrow (2022) 采用研究人员设计的行为 Rule ,从人类评估者那里收集 Rule 违反标注来训练一个专门的 Rule 奖励模型
    • 通过同时使用 Rule-based 和基于偏好的奖励优化策略,Sparrow 实现了 Rule 违反的减少
    • OpenAI 也研究了用于安全对齐的 Rule-based 奖励,将策略 Rule 分解为简单命题,并使用它们作为拟合线性模型中的特征,在 RL 期间构建奖励信号 (2024)
  • 尽管有用,但构建有效的 Rule 集成本高昂,需要重要的领域专业知识,并且通常需要针对具体场景进行定制
    • 因此,偏好学习中的 Rule-based 方法在工业界仍然主要是专有的,学术研究中公开可用的 Rule 集很少

附录 A: Discussion

A.1 Limitations

  • 虽然论文的方法在从 UltraFeedback 到 AlpacaEval 2.0 的泛化方面表现出良好的前景,但未来还需要进一步工作来评估 AutoRule 在更广泛任务和领域间的迁移能力
  • 此外,建立一个形式化的理论框架,以更好地理解和改进像 AutoRule 这样的 Rule-based 方法缓解 reward hacking 的机制,仍然是未来研究的重要方向

Broader Impacts

  • 这项工作有潜力通过缓解基于奖励模型的方法中常见的过优化和特质问题,推动开发更有帮助且更不易产生有害行为的对话智能体
  • Rule-based 框架所提供的可解释性增强了透明度,使研究人员和从业者能够更好地理解和审视支配 LLM 的对齐机制

附录 B: Additional experiment details

B.1 Training settings

  • 用于 SFT、奖励模型和 RL 训练的设置分别见表 5、表 6 和表 7

B.2 Inference parameters

  • 推理参数见表 8

B.3 KL approximation

  • 论文使用了 OpenRLHF (2024) 中实现的两种 KL 近似版本
  • 第一种用于 PPO,第二种用于 GRPO

$$ {\log \left(\frac{\pi_{\phi}(y\mid x)}{\pi^{SFT}(y\mid x)}\right)} \tag{1}$$

$$ {e^{-\log \left(\frac{\pi_{\phi}(y\mid x)}{\pi^{SFT}(x\mid x)}\right)} - 1 + \log \left(\frac{\pi_{\phi}(y\mid x)}{\pi^{SFT}(y\mid x)}\right)} \tag{2}$$

B.4 Length penalty

  • 为了实现长度惩罚,论文从奖励中减去以下项:
    $$
    \frac{1}{2}\left(\frac{\mathrm{response\_length} }{L}\right) - \frac{1}{2}
    $$
  • 其中 \(L = 300\) 是目标长度

B.5 GRPO Advantage estimation

  • 为了提高数值稳定性,如 OpenRLHF 中的实现,论文使用了第 3.3 节中展示的优势估计公式的修改版本,如下所示:
    $$
    \hat{A}_i = \frac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r}) + 10^{-9} }
    $$
B.6 Dataset Filtering
  • 遵循过滤过程并使用 (2025) 的代码,为了选择训练数据,论文进行过滤并仅包含满足以下条件的示例:
    • Chosen 和 Rejected 的 Response 都少于 512 个 token, Chosen 分数高于 Rejected 分数,且任一 Response 中都不包含单词“confidence”
  • 问题:512 个 Token 是不是太少了?
  • 问题:Confidence 是什么?

附录 C: Rules

  • 见表 9、表 10 和表 11

表 9(UltraFeedback 通过 AUTORULE 提取的规则)

  • 英文版

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    [
    "The assistant’s responses should present explanations in a coherent, step-by-step structure with logical flow, numbered points, and clear sections.",
    "When addressing user misconceptions, the assistant must clarify misunderstandings before offering solutions.",
    "Translations must use accurate terminology, preserve original tone and structure, and avoid introducing unrelated content.",
    "Responses must prioritize technical accuracy, correct formulas, error-free code examples, and validated context alignment.",
    "Incorporate vivid sensory details, figurative language, and relatable examples when explicitly requested.",
    "Provide actionable advice, practical steps, and concrete implementation strategies tailored to the user’s context.",
    "Indicate confidence levels while acknowledging uncertainty and limitations when appropriate.",
    "Maintain a conversational, empathetic, and professional tone while avoiding overly formal or dismissive language.",
    "Integrate cultural sensitivity, domain-specific terminology, and contextual relevance into explanations.",
    "Include properly formatted citations, references, and academic conventions when required.",
    "Address all components of the user’s query comprehensively without omission or tangential content.",
    "Avoid assumptions when ambiguity exists; seek clarification for insufficient context.",
    "Use illustrative examples of both correct/incorrect approaches to demonstrate concepts.",
    "Strictly adhere to user-specified formats, structures, and output requirements.",
    "Address ethical considerations, legal compliance, and recommend professional consultation when relevant.",
    "Prioritize security measures, error handling, and technical robustness in solutions.",
    "Ensure conciseness by eliminating redundancy and focusing on core query relevance.",
    "Explain underlying mechanisms, reasoning processes, and cause-effect relationships explicitly.",
    "Validate answers against provided context and avoid unsupported extrapolation.",
    "Maintain narrative coherence with source material when discussing plots or characters.",
    "Structure comparisons, analyses, and recommendations using clear categorization.",
    "Anticipate user needs by providing comprehensive details without requiring follow-ups.",
    "Preserve specific terms, measurements, and formatting conventions during localization.",
    "Use collaborative language and hierarchical organization for complex information.",
    "Balance thoroughness with brevity to prevent information overload while ensuring clarity."
    ]
  • 中文版:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    [
    "助手的回复应采用连贯的分步结构呈现解释,具备逻辑连贯性,使用编号要点和清晰的分段。",
    "当纠正用户误解时,助手必须先澄清误区,再提供解决方案。",
    "翻译需使用准确术语,保留原文语气和结构,避免添加无关内容。",
    "回复需优先保证技术准确性、公式正确性、代码示例无错误,以及与上下文的有效契合。",
    "当用户明确要求时,需融入生动的感官细节、比喻性语言和易理解的示例。",
    "提供符合用户场景的可操作建议、实用步骤和具体实施策略。",
    "在适当情况下,需说明置信度,同时承认不确定性和局限性。",
    "保持对话式、富有同理心且专业的语气,避免过于正式或轻蔑的表达。",
    "在解释中融入文化敏感性、领域特定术语和上下文相关性。",
    "当需要时,包含格式规范的引文、参考文献和学术惯例内容。",
    "全面回应用户查询的所有部分,不遗漏关键信息,不涉及无关内容。",
    "当存在歧义时避免主观假设;若上下文不足,应请求用户补充说明。",
    "通过正确和错误方法的示例说明,阐释相关概念。",
    "严格遵守用户指定的格式、结构和输出要求。",
    "涉及相关内容时,需考虑伦理因素、法律合规性,并建议专业咨询。",
    "在解决方案中优先考虑安全措施、错误处理和技术稳健性。",
    "去除冗余信息,聚焦查询核心要点,确保回复简洁。",
    "明确解释潜在机制、推理过程和因果关系。",
    "依据提供的上下文验证答案,避免无依据的推断。",
    "讨论情节或人物时,保持与原始素材的叙事连贯性。",
    "通过清晰的分类组织比较、分析和建议内容。",
    "预判用户需求,提供全面信息,避免用户后续追问。",
    "本地化过程中,保留特定术语、度量单位和格式规范。",
    "针对复杂信息,使用协作性语言和层级化结构呈现。",
    "在全面性和简洁性之间取得平衡,避免信息过载,同时保证表达清晰。"
    ]

表 10(MT-Bench 通过 AUTORULE 提取的规则)

  • 英文版:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    [
    "The assistant’s responses must provide detailed step-by-step explanations and calculations to ensure correctness and clarity.",
    "The assistant’s code should avoid unnecessary complexity, handle edge cases, include error handling, and use appropriate data structures.",
    "The assistant’s responses must maintain a professional and approachable tone, adapting to the nature of the user’s query.",
    "The assistant’s responses must strictly adhere to user-specified formats (e.g., JSON/YAML) with correct syntax and structure.",
    "The assistant’s explanations should prioritize logical coherence, clarity, and avoidance of redundant or ambiguous content.",
    "The assistant must adhere to ethical guidelines by avoiding medical diagnoses and prioritizing user safety in critical situations.",
    "Creative outputs must maintain structural integrity (e.g., rhyme schemes, metaphors) while retaining key informational elements.",
    "The assistant should proactively address user misunderstandings, anticipate follow-up questions, and provide actionable feedback.",
    "The assistant must apply appropriate theoretical principles (e.g., Bayes’ theorem) and clarify their relevance to the problem.",
    "The assistant’s responses should validate assumptions, acknowledge limitations, and use verified data in calculations.",
    "The assistant must tailor recommendations to user constraints (e.g., allergies, pregnancy) and cultural context.",
    "The assistant’s structured outputs should prioritize readability through proper formatting and organizational patterns.",
    "The assistant must avoid contradictions between answers and follow-up explanations while maintaining roleplay consistency.",
    "The assistant should provide culturally adapted translations of idioms/phrases rather than literal interpretations.",
    "The assistant must verify numerical accuracy through step-by-step validation and real-world feasibility checks.",
    "The assistant’s code examples must be complete, functional, and demonstrate separation of concerns (HTML/CSS/JS).",
    "The assistant should address all query components methodically, even if intermediate steps contain errors.",
    "The assistant must maintain logical flow between concepts and preserve essential content in creative adaptations.",
    "The assistant should prioritize factual accuracy over hypothetical interpretations unless explicitly requested.",
    "The assistant’s self-evaluations must critically assess response quality and identify specific improvement areas."
    ]
  • 中文版:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    [
    "助手的回复必须提供详细的分步解释和计算过程,确保正确性和清晰度。",
    "助手提供的代码应避免不必要的复杂性,处理边界情况,包含错误处理机制,并使用合适的数据结构。",
    "助手的回复必须保持专业且亲切的语气,适应用户查询的具体场景。",
    "助手的回复必须严格遵守用户指定的格式(如JSON/YAML),确保语法和结构正确。",
    "助手的解释应优先保证逻辑连贯性、清晰度,避免冗余或模糊内容。",
    "助手必须遵守伦理准则,不提供医疗诊断服务,并在关键场景下优先保障用户安全。",
    "创意类输出需保持结构完整性(如押韵格式、隐喻手法),同时保留核心信息要素。",
    "助手应主动纠正用户误解,预判后续问题,并提供可操作的反馈。",
    "助手必须运用合适的理论原理(如贝叶斯定理),并阐明其与问题的相关性。",
    "助手的回复应验证假设条件,承认局限性,并在计算中使用经核实的数据。",
    "助手必须根据用户的限制条件(如过敏史、孕期状态)和文化背景调整建议。",
    "助手的结构化输出应通过规范格式和组织逻辑,优先保证可读性。",
    "助手必须避免答案与后续解释之间的矛盾,同时保持角色扮演的一致性。",
    "助手应对习语/短语进行符合文化语境的翻译,而非字面直译。",
    "助手必须通过分步验证和现实可行性检验,确保数值准确性。",
    "助手的代码示例必须完整可运行,并体现关注点分离原则(如HTML/CSS/JS的合理拆分)。",
    "助手应系统地回应查询的所有部分,即使中间步骤存在错误。",
    "助手在创意改编中必须保持概念间的逻辑连贯性,并保留核心内容。",
    "除非用户明确要求,否则助手应优先保证事实准确性,而非假设性解读。",
    "助手的自我评估必须批判性地分析回复质量,并明确指出具体改进方向。"
    ]

表 11(基于 UltraFeedback 的论证而非推理链提取的规则)

  • 英文版:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    [
    "The assistant’s responses should include concrete examples, actionable insights, and specific applications to explain mechanisms and variables.",
    "The assistant’s code must handle edge cases, ensure functionality, avoid unsafe practices, and include error handling.",
    "Structure explanations logically with step-by-step formats, clear sections, and thematic grouping while maintaining flow.",
    "Correct user misconceptions with accurate information using empathetic and polite language.",
    "Be concise, avoid redundancy, and prioritize clarity by eliminating unnecessary details.",
    "Provide complete, functional code examples with necessary parameters and modular structures.",
    "Maintain a neutral, professional tone appropriate to context without unsolicited commentary.",
    "Strictly adhere to user instructions without deviation or unwarranted assumptions.",
    "Use structured formatting like bullet points and headings for readability and scannability.",
    "Address all query components comprehensively with direct answers and relevant context.",
    "Validate code functionality, address pitfalls, and ensure integration with existing setups.",
    "Anticipate implicit needs while avoiding speculative language beyond provided evidence.",
    "Include practical details, alternatives, and implementation steps for real-world application.",
    "Ensure technical accuracy, correct terminology, and compliance with domain standards.",
    "Avoid tangential topics and focus strictly on core requests without scope creep.",
    "Transparently admit limitations and provide actionable alternatives when uncertain.",
    "Prioritize ethical responsibility, legal compliance, and cultural sensitivity.",
    "Use precise language, avoid jargon, and explain technical terms contextually.",
    "Incorporate error handling, reliability checks, and security best practices.",
    "Balance brevity with necessary detail, adapting to user’s proficiency level.",
    "Provide self-contained, compilable code with headers and standard libraries.",
    "Maintain logical coherence, avoid contradictions, and ensure factual consistency.",
    "Structure narratives chronologically/thematically with clear cause-effect relationships.",
    "Use empathetic tone, constructive feedback, and collaborative language.",
    "Include quantitative data, contextual reasoning, and measurable outcomes.",
    "Offer platform-agnostic solutions unless specific tools are requested.",
    "Highlight key takeaways with memorable framing and searchable keywords.",
    "Ensure translations preserve meaning, context, and grammatical correctness.",
    "Link concepts to real-world impacts, case studies, and stakeholder outcomes.",
    "Adopt solution-oriented tone with proactive guidance and troubleshooting tips."
    ]
  • 中文版:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    [
    "助手的回复应包含具体示例、可操作见解和特定应用场景,以解释机制和变量。",
    "助手的代码必须处理边界情况,确保功能可用,避免不安全操作,并包含错误处理机制。",
    "以分步格式、清晰分段和主题分组的方式逻辑组织解释,同时保持连贯性。",
    "用准确的信息纠正用户误解,语气需富有同理心且礼貌。",
    "保持简洁,避免冗余,去除不必要的细节,优先保证清晰度。",
    "提供完整可运行的代码示例,包含必要参数和模块化结构。",
    "保持与语境相符的中立、专业语气,不添加未经请求的评论。",
    "严格遵守用户指令,不偏离要求,不做无依据的假设。",
    "使用项目符号、标题等结构化格式,提升可读性和易浏览性。",
    "以直接的答案和相关上下文,全面回应查询的所有部分。",
    "验证代码功能,指出潜在问题,并确保可与现有系统集成。",
    "预判用户的潜在需求,同时避免使用超出已有证据的推测性语言。",
    "包含实际应用所需的具体细节、替代方案和实施步骤。",
    "保证技术准确性、术语正确性,并符合领域标准。",
    "避免无关话题,严格聚焦核心需求,不擅自扩大范围。",
    "透明地承认自身局限性,并在不确定时提供可操作的替代方案。",
    "优先考虑伦理责任、法律合规性和文化敏感性。",
    "使用精准的语言,避免专业术语堆砌,并结合上下文解释技术词汇。",
    "融入错误处理、可靠性检验和安全最佳实践。",
    "在简洁性和必要细节之间取得平衡,适应用户的专业水平。",
    "提供独立可编译的代码,包含头文件和标准库引用。",
    "保持逻辑连贯性,避免矛盾,确保事实一致性。",
    "按时间顺序或主题组织叙事,明确因果关系。",
    "使用富有同理心的语气、建设性反馈和协作性语言。",
    "包含量化数据、上下文推理和可衡量的结果。",
    "提供跨平台兼容的解决方案,除非用户指定特定工具。",
    "通过易记的表述和可检索的关键词,突出核心要点。",
    "确保翻译保留原意、上下文和语法正确性。",
    "将概念与现实影响、案例研究和相关方成果关联起来。",
    "采用解决方案导向的语气,提供主动指导和问题排查建议。"
    ]

附录 D: Rule agreement matrices(Rule 一致性矩阵)

  • 图 5: UltraFeedback 数据上的 Rule 一致性矩阵
  • 图 6: MT-Bench Human Judgments 数据上的 Rule 一致性矩阵

附录 E: 案例研究:推理链与论证示例(Case study: Reasoning chain vs justification examples)

  • 为了进一步分析使用推理链进行 Rule 提取的重要性,论文在图 7 中展示了一个关于询问动物园在动物保护中作用的 Prompt 的案例研究
  • 在两个模型 Response 中,Response A 明显较差,因为它包含了一个不合时宜的反问句
  • 虽然论证和推理链都提供了有效的观点,但推理链在提供这些观点时更加详细和逐步推进,包含了更多的例子和对文本的具体引用,而论证只提供了一个最终的总结
  • 通过使用推理链,作者相信 AutoRule 能够提取出更好、更深入和更符合逻辑的 Rule ,因为推理链提供了逻辑论证,而非模糊的描述
  • Figure 7: Case study: reasoning chain vs justification.
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    ## User Prompt
    What role do zoos and aquariums play in educating the general public about conservation efforts?

    ## Assistant A (Rejected)
    Did you know that zoos and aquariums provide critical opportunities for conservation education?
    When people visit these institutions, they learn about the dangers of habitat destruction, loss of
    biodiversity, and environmental disruptions. Many zoos and aquariums also participate in conservation
    efforts directly by breeding endangered species, supporting research, and protecting wild populations.
    It’s essential that we prioritize education and conservation efforts to help protect our planet and its
    amazing wildlife.

    ## Assistant B (Chosen)
    Zoos and aquariums play a crucial role in educating the general public about conservation efforts.
    They not only offer a visual representation of the animals and their natural habitats but also provide
    valuable information about the animals, their behaviors, and the challenges they face in the wild.
    Many zoos and aquariums also support research, conservation projects, and breeding programs for
    endangered species. Additionally, they offer interactive exhibits and educational programs that engage
    visitors in these conservation efforts.

    ## Reasoning Chain
    The user wants to know why Assistant B’s conversation was preferred over Assistant A’s. I need to
    compare both responses based on clarity, coherence, helpfulness, tone, and overall quality.
    Starting with Assistant A: The response mentions that zoos and aquariums provide critical opportunities for conservation education. They talk about habitat destruction, biodiversity loss, and
    environmental disruptions. They also mention breeding programs, research, and protecting wild
    populations. The tone seems positive, ending with a statement about prioritizing education and
    conservation. But maybe the structure isn’t as organized. They start with a question ("Did you
    know...?") which might be engaging, but then list points without much flow. The information is there,
    but maybe not as detailed or structured.
    Now Assistant B: They start by stating the role is crucial, then break it down into parts. First,
    visual representation and information about animals and their challenges. Then mention research,
    conservation projects, breeding programs. Also include interactive exhibits and educational programs.
    The structure here is more logical—each sentence builds on the previous, covering different aspects
    like education methods, direct conservation work, and visitor engagement. The tone is informative
    and straightforward without rhetorical questions. It feels more comprehensive.
    Comparing clarity: Both are clear, but Assistant B is more structured, making it easier to follow.
    Coherence: Assistant B connects the points better, moving from education to conservation efforts
    to engagement. Helpfulness: Assistant B provides specific examples like "interactive exhibits,"
    which gives concrete details. Assistant A mentions similar points but less specifically. Tone: Both
    are positive, but Assistant A’s use of "Did you know" might come off as less formal, whereas B is
    consistently professional. Overall quality: B’s answer is more thorough and organized, which likely
    makes it more effective for the user seeking a detailed explanation.

    ## Final Justification
    Assistant B’s response was preferred due to superior clarity, coherence, and depth of information.
    Here’s why:
    Clarity: Assistant B used structured points and avoided rhetorical distractions.
    Coherence: Assistant B presented a logical narrative from educational content to conservation actions
    and visitor engagement.
    Helpfulness: It included concrete examples like "interactive exhibits" and "challenges they face in
    the wild."
    Tone: B maintained a focused, declarative tone. A’s "Did you know..." approach detracted from
    professionalism.
    Overall Quality: B was more comprehensive and detailed, effectively answering both the "how" and
    "why" aspects of the user’s question.

附录 F: Prompts

  • 论文分别在图表 8、9 和 10 中列出了用于提取过程的 Prompt

  • Figure 8: Justification (AUTORULE Extractor stage 1) prompt

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    ## Justification Prompt
    [Instruction]
    You are tasked with analyzing two conversations between an AI assistant and a user. Based on the content,
    please provide a detailed explanation of why the user might have preferred the winning conversation.
    Please consider aspects such as clarity, coherence, helpfulness, tone, and overall quality.
    [Conversation with Assistant A]
    {conversation_a}
    [Conversation with Assistant B]
    {conversation_b}
    [Winning Conversation]: {winner}
    [Your Explanation]
  • Figure 9: Rule extraction (AUTORULE Extractor stage 2) prompt

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    ## Rule Extraction Prompt
    [Instruction]
    Based on the following reasoning about why conversation with assistant winner is better,
    extract any rule-like statements implied by the reasoning that indicate this preference. Rulelike statements should be able to be judged objectively and deterministically. Below are a
    few examples of rule-like statements:
    Example 1:
    - The assistant’s responses should validate any assumptions made with sufficient context and
    examples.
    Example 2:
    - The assistant’s responses should not simply restate information provided by the user as its
    answer.
    Example 3:
    - The assistant’s responses should have a structure that satisfies the user’s request.
    Return the list as a JSON array of strings. Do not use “‘json“‘, just output the JSON array
    directly. If there are no rule-like statements, return an empty JSON array.
    [Reasoning]
    {reasoning_chain}
  • Figure 10: Rule merging (AUTORULE Extractor stage 3) prompt

    1
    2
    3
    4
    5
    6
    7
    8
    9
    ## Rule Merging Prompt
    [Instruction]
    Below is a large list of rule-like statements regarding the behavior of an AI assistant. Some
    of these rules might be duplicates or very similar in meaning.
    Please merge them so that there are no duplicates or rules with very similar meanings.
    Return the merged list as a JSON array of strings. Do not use “‘json“‘, just output the JSON
    array directly.
    [Rules]
    {rules_text}
  • 在图表 11 和 12 中包含了用于 Rule 验证的 Prompt ,以及用于确定 UltraFeedback 胜率判断的 Prompt (见图表 13)

  • Figure 11: Rule verifier prompt

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    ## Rule Verifier Prompt
    You are an impartial judge. Determine whether the AI assistant’s response in the following
    conversation both complies with the rule below and does so in a concise manner:

    Rule:
    {rule}

    [Start of Conversation]
    {conversation}
    [End of Conversation]

    [Analysis]
    Base your judgment solely on whether (1) the response satisfies the rule and (2) the response does so in a concise manner.

    Only respond with "[[Yes]]" if **both** conditions are fully satisfied. If either condition is not met, respond with "[[No]]". If the rule is not applicable to the task, treat it as satisfied.

    Respond with one of the following options, and nothing else: "[[Yes]]" or "[[No]]".
  • Figure 12: Rule verifier prompt (no conciseness)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    ## Rule Verifier Prompt (no conciseness)
    [Instruction]
    Please act as an impartial judge and evaluate whether the responses provided by an AI assistant in the following conversation satisfy the following rule:
    {rule}
    Be as objective as possible when evaluating the rule and do not evaluate other characteristics of the response.
    If the rule is not applicable for this task, treat it as if the rule is satisfied.
    You must provide your answer by strictly outputting either one of the following two options:
    "[[Yes]]" or "[[No]]" and nothing else.
    [Start of Conversation]
    {conversation}
    [End of Conversation]
  • Figure 13: UltraFeedback win-rate judgement prompt

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    I want you to create a leaderboard of different large-language models. To do so, I will give
    you the instructions (prompts) given to the models, and the responses of two models. Please
    rank the models based on which responses would be preferred by humans. All inputs and
    outputs should be python dictionaries.
    Here is the prompt:
    {{
    "instruction": """{instruction}"""
    }}
    Here are the outputs of the models:
    [
    {{
    "model": "model_1",
    "answer": """{output_1}"""
    }},
    {{
    "model": "model_2",
    "answer": """{output_2}"""
    }}
    ]
    Now please rank the models by the quality of their answers, so that the model with rank 1 has
    the best output. Then return a list of the model names and ranks, i.e., produce the following
    output:
    [
    {{’model’: <model-name>, ’rank’: <model-rank>}},
    {{’model’: <model-name>, ’rank’: <model-rank>}}
    ]
    Your response must be a valid Python dictionary and should contain nothing else because
    we will directly execute it in Python. Please provide the ranking that the majority of humans
    would give.

附录 G: Compute Resources

  • 所有训练均在通过 SLURM 作业管理的高性能计算集群上进行
  • 所有运行均使用 8 个 Nvidia L40S GPU 和 64 个 CPU
  • SFT 和 RM 训练运行有 256 GB 的 CPU 内存可用,而 RL 阶段有 512 GB 的 CPU 内存可用
  • 论文在表 12 中详细说明了每个训练运行的执行时间

附录 H: Licenses

  • 资产 URL(Asset URLS)和许可证见表 13

NLP——LLM-as-a-judge

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge, arXiv 20250206, UC Berkeley
    • 论文主页:llm-as-a-judge.github.io/
    • 作者给出的论文集合(作者会持续更新):github.com/llm-as-a-judge/Awesome-LLM-as-a-judge

Paper Summary

  • 核心内容:
    • 本综述很长,核心内容探讨了 LLM 作为评判的复杂性
    • 作者根据输入格式( Pointwise 、 Pairwise 和 Listwise )和输出格式(评分、排名和选择)对现有 LLM-based 评判方法进行分类
    • 然后,论文为 LLM 作为评判提出了一个全面的分类法,涵盖评判属性、方法论和应用
    • 在此之后,论文介绍了 LLM 作为评判的基准的详细集合,并伴随着对当前挑战和未来方向的深思熟虑的分析,旨在为这一新兴领域的未来工作提供更多资源和见解
  • 问题提出:
    • 评估(Assessment)与评价(Evaluation) 长期以来一直是 AI 和 NLP 领域的关键挑战
    • 传统方法(基于匹配 or 基于 Embedding),往往在评判(Judging)细微属性和提供令人满意的结果方面存在不足
  • LLM 的最新进展启发了“LLM-as-a-judge”范式,即利用 LLM 在各种任务和应用中执行评分、排序或选择
  • 论文对 LLM-based 评判和评估进行了全面综述
    • 首先从输入和输出的角度给出详细定义
    • 然后引入一个全面的分类法(taxonomy),从 what to judge, how to judge and where to judge(评判什么,如何评判,在哪里评判) 三个维度探讨 LLM-as-a-judge 的问题

Introduction and Discussion

  • 评估与评价长期以来一直是机器学习和自然语言处理(NLP)中必不可少但颇具挑战性的任务,尤其是对给定候选列表的各种属性(如质量、相关性和有用性)进行评分和比较(2022;2024)
  • 传统评估方法依赖于静态指标,如 BLEU(双语评估辅助工具)(2002)和 ROUGE(摘要评价指标)(2004)
    • 这些指标通过计算输出与参考文本之间的词重叠来衡量质量
    • 这些自动指标计算效率高,并在许多生成应用中得到使用(2022, 2023a, 2024c)
    • 但是,它们对 n-gram 匹配(n-gram matching)和基于参考设计(reference-based designs)的依赖严重限制了它们在动态和开放式场景中的适用性(2016;Reiter, 2018)
  • 随着深度学习模型(2019;2019)的兴起,许多基于 Embedding 的评估方法(如 BERTScore(2020)和 BARTScore(2021))也应运而生
    • 尽管这些基于小模型的指标从词级表示转向了 Embedding 级表示,并提供了更大的灵活性,但它们仍然难以捕捉相关性之外的细微属性(2024),如有用性和无害性
  • 最近先进的 LLM,如 GPT-4(2023)和 o1,在指令遵循、查询理解和响应生成方面表现出了惊人的性能
    • 这一进展促使研究人员提出了“LLM-as-a-judge ”的概念(2023),即利用强大的 LLM 对一组候选进行评分、排序和选择(图 1)
    • LLM 的强大性能(2020)与精心设计的评估 Pipeline (2023a;2024b;2023a)相结合,能够对各种评估应用进行细粒度和详细的评判,显著解决了传统评估方法的局限性,为 NLP 评估设定了新的标准
  • 除了评估之外,LLM-as-a-judge 还被广泛应用于整个 LLM 生命周期,包括对齐(2022;2023)、检索(2023;2024c)和推理(2023;2024b)等任务
    • 它赋予 LLM 一系列高级能力,如自我进化(2024a)、主动检索(2024c)和决策(2023),推动它们从传统模型向智能代理(2024)转变
  • 然而,随着 LLM-as-a-judge 的快速发展,评判偏差(judging bias)和脆弱性(vulnerability)等挑战(2023a;2024a;2024)也逐渐显现
    • 因此,对当前技术和未来挑战进行系统回顾对于推进 LLM-based 评判方法具有重要价值
  • 在本综述中,论文深入探讨了 LLM-as-a-judge 的细节,旨在全面概述 LLM-based 评判
    • 论文首先通过讨论其各种输入和输出格式(第 2 节)对 LLM-as-a-judge 进行正式定义
    • 接下来,论文提出了一个深入而全面的分类法,以解决三个关键问题(第 3-5 节):
      • 属性(Attribute) :评判什么? 论文深入研究 Judge LLM 评估的具体属性,包括帮助性、无害性、可靠性、相关性、可行性和整体质量
      • Methodology :如何评判? 论文探索了 LLM-as-a-judge 系统的各种调优和提示技术,包括手动标记数据、合成反馈、监督微调、偏好学习、交换操作、规则增强、多智能体协作、演示、多轮交互和比较加速
      • 应用(Application) :在哪里评判? 论文调查了 LLM-as-a-judge 已被应用的领域,包括评估、对齐、检索和推理
  • 此外,论文在第 6 节中收集了从不同角度评估 LLM-as-a-judge 的现有基准
  • 最后,论文在第 7 节中提出了当前的挑战和未来研究的有前途方向,包括偏差与脆弱性、动态与复杂评判、自我评判和人机共判

Differences from Other LLM-related Surveys

  • 近年来,LLM 已成为热门研究领域,涌现出诸多相关综述文献(2023b;2024;2024a)
  • 尽管已有若干综述专注于 LLM-based 自然语言生成(NLG)评估(2024a;2024n),但本研究旨在系统梳理”LLM-as-a-judge”这一方法论
  • 如前所述,”LLM-as-a-judge”的应用范畴已远超评估领域,因此有必要建立全局视角进行归纳与分类
  • 此外,现有综述多聚焦 LLM 赋能的具体应用场景
    • 如 LLM-based 数据标注(2024b)、数据增强(2024e)以及自我修正(2024)
    • 但目前仍缺乏针对”LLM-as-a-judge”范式的系统性与全面性综述研究

Preliminary

  • 在本节中,论文旨在提供 LLM-as-a-judge 的详细定义,分别在 2.1 节和 2.2 节讨论各种输入和输出格式

Input

  • 给定一个 Judge LLM \(J\),评估过程可以表示为:
    $$R = J\left(C_{1}, \ldots, C_{n}\right). \tag{1}$$
    • 这里 \(C_{i}\) 是第 \(i\) 个待评判的候选,\(R\) 是评判结果
  • 在本节中,论文根据候选数量 \(n\) 将输入格式分为两种类型:
    • ** Pointwise (Point-Wise)** :当 \(n = 1\) 时,成为逐点评判,此时 Judge LLM 将只关注一个候选样本(2023b)
    • 成对/ Listwise (Pair/List-Wise) :当 \(n \geq 2\) 时,成为成对(\(n = 2\))或 Listwise (\(n > 2\))评判,此时提供多个候选样本供 Judge LLM 比较并进行综合评估(2023;2024)

Output

  • 在本节中,论文根据 \(R\) 的不同格式讨论评判的三种输出类型:
    • 分数(Score) :当每个候选样本被分配一个连续或离散的分数时,\(R = \{C_{1}: S_{1}, \ldots, C_{n}: S_{n}\}\),这成为基于分数的评判
      • 这是最常见和广泛使用的协议,利用 LLM 进行评分以进行定量比较(2024a)或属性检测(2024a)
    • 排名(Ranking) :在基于排名的评判中,输出是每个候选样本的排名,表示为 \(R = \{C_{i} > \ldots > C_{j}\}\)
      • 这种比较方法在需要建立候选之间排名顺序的场景中很有用(2023a)
    • 选择(Selection) :在基于选择的评判中,输出涉及选择一个或多个最优候选,表示为 \(R = \{C_{i}, \ldots, C_{j}\} > \{C_{1}, \ldots, C_{n}\}\)
      • 这种方法在决策(2023a)或内容过滤(2024c)场景中特别有用

Attribute

  • 在本节中,论文从属性角度对当前 LLM-as-a-judge 的研究进行分类。图 3 概述了 Judge LLM 可以评估的方面

Helpfulness

  • 现代 SOTA LLM 经过指令调整和对齐过程,能够遵循用户指令并有效响应
  • 这一对齐步骤依赖于大量有用和无害的数据,通常作为人类偏好数据收集,然后用于对齐训练的强化学习
  • 鉴于获取此类对齐数据的成本很高,最近的工作探索了使用 LLM 来标记帮助性,以及生成或评估对齐数据(2022)
  • (2024)的作者以在线方式使用 LLM 来获取偏好 ,以直接对齐另一个 LLM
    • 最近的一些工作表明,来自 AI 的帮助性反馈,即 LLM 的反馈与人类反馈相当(2023)
    • 也有一些成功的 LLM(2024a)通过 AI 反馈数据进行了微调,从而证明了这种方法的可行性和有用性
  • 除了这些对齐方面的工作,利用 LLM 作为评估器的通用框架在评估候选响应的帮助性方面也至关重要(2023;2023;2024e)

Harmlessness

  • 评估文本数据的无害性对于内容审核和创建或管理合成数据集都很重要
  • 鉴于人类标注工作既昂贵又耗时,并且受先前研究中 Embedding 在 LLM 中的道德信念的启发(2023),许多最近的工作研究了使用 LLM 来评估无害性
  • SOTA LLM 能够有效地用于内容审核,要么在遵循一些政策指导方针的情况下现成使用,要么在安全/不安全数据上进行微调(2023;2024g)
  • Ye 等人 (2024b) 探索了使用 LLM 以细粒度方式评估无害性等属性的可行性,并发现专有模型的表现比开源模型好得多
  • Wang 等人 (2024l) 使用 OpenAI 的 GPT-4 来评估无害性,并进一步将其性能与针对该特定任务微调的较小预训练语言模型进行比较。此外,Bai 等人 (2022) 使用原则来指导 LLM 进行无害性评估以用于对齐目的,他们将这种范式称为“宪法 AI”(Constitutional AI)
  • (2023)使用相同的 LLM 来评估其响应是否有害,并为 GPT-3.5 和 Llama-2 提供了见解和最佳实践
  • Xie 等人 (2024a) 在 LLM 安全拒绝基准上对几个 LLM 进行了全面比较,发现小型 LLM 在微调设置下是有效的安全评判
  • 在推理时,(2023b) 提出了可回退自回归推理(RAIN),允许 LLM 进行自我评估和回退以确保 AI 安全

Reliability

  • 可靠性是指,LLM 能够生成事实性和忠实的内容 ,同时也能表达不确定性或承认对某些主题的知识空白(2024)
    • 关于事实性,Wang 等人 (2024a) 引入了 HALU-J,这是一个基于批判的幻觉评判(critique-based hallucination judge),通过选择相关证据并提供详细批判来增强事实性评估
  • Cheng 等人 (2023) 设计了一种使用 GPT-4 的自动评估方法,用于评判模型的输出是否是幻觉
  • 此外,一些工作采用 Judge LLM 进行长文本事实性评估
  • 在对话上下文中,Luo 等人 (2024) 收集了一个大规模的基准,用于自动对话级幻觉评估
    • 基于此数据集,他们引入了 HalluJudge,一个专门用于评估对话级幻觉的评判语言模型
  • Min 等人 (2023) 开发了 FactScore,一种细粒度的方法,用于评估长文本生成的事实性,首先将内容拆分为原子级句子,然后从维基百科检索相关语料库以评估其事实性
    • 在此基础上,Wei 等人 (2024b) 提出为 Judge LLM 配备 Google 搜索 API,以实现更灵活和高效的事实性评估
  • Jing 等人 (2024) 将这种细粒度的可靠性评估扩展到多模态领域,并引入了 FaithScore
    • Zhang 等人 (2024h) 在 LLM 对齐中采用了类似的策略,创建了一个合成对齐数据集,其中涉及使用声明提取和自我评判技术对每个生成的样本进行评估和过滤
  • Xie 等人 (2024b) 训练了一个外部基于批判的 LLM-as-a-judge,在生成阶段提供声明级的事实性反馈,以提高响应的事实性
    • 对于不确定性评判,Xu 等人 (2024c) 提出了 SaySelf,这是一个新的训练框架,通过自我一致性提示和基于组的校准训练,教 LLM 表达更细粒度的置信度估计(1-46, 1-50)

Relevance

  • 相关性衡量生成或检索的内容与原始查询的一致程度
  • 传统的相关性评估方法通常依赖于关键字匹配(2009)或语义相似度(2021),这些方法难以捕捉上下文中的细微差异或细微差别
  • 使用 Judge LLM 进行相关性评估已被探索并验证为在各种应用中更细粒度和有效的方式(2023;2024;2024b)
  • 在对话评估中,Lin 和 Chen (2023a) 首先提出用 LLM 评判来取代昂贵且耗时的人类注释,用于相关性评估,为 Judge LLM 提供对话上下文和生成的响应进行评估
  • 类似地,Abbasiantaeb 等人 (2024) 将 LLM-as-a-judge 应用于对话搜索,与人类注释者合作解决与不完整相关性评判相关的问题。在检索增强生成(RAG)场景中,Li 和 Qiu (2023) 利用 LLM 来确定哪些历史记忆最适合解决当前问题
  • 遵循这一概念,Li 等人 (2024c) 还提议采用 LLM 作为重新排序器,以评判和过滤子知识图中的噪声和不相关知识
    • 最近,LLM-as-a-judge 也被用于多模态应用中的相关性评判(2025;2024i;2024b;2024;2024b;2024;2024m;2024)
  • Yang 和 Lin (2024) 以及 Chen 等人 (2024a) 都采用多模态 LLM 来构建自动评估基准
    • 相比之下,Chen 等人 (2024f) 使用多模态奖励模型来评估文本到图像生成中的相关性
    • 在 SQL 生成评估中,(2023a) 提出利用 LLM 来确定 SQL 等价性
  • 此外,LLM-as-a-judge 还在许多传统检索应用中探索了相关性评估,如搜索(2024)、检索(2024a)和推荐(2024)

Feasibility

  • 复杂且设计良好的推理 Pipeline 可以进一步释放 LLM 的潜力
  • 在这些代理式 LLM 中,评估候选动作或步骤的可行性对于规划、推理和决策的成功至关重要
  • 虽然一些工作利用指标或外部工具进行这种可行性评估(2023a;Yuan 等人),但许多其他工作利用 LLM 本身来选择最适当和合理的动作来执行
  • Hao 等人 (2023) 首先提出提示 LLM 进行自我评估,并生成可行性评判作为奖励信号来执行蒙特卡洛树搜索(MCTS)
    • 类似地,Yao 等人 (2023a) 建议在其提出的“思维树”(ToT)框架中采用 LLM 作为状态评估器,用于潜在步骤搜索
  • Besta 等人 (2024) 将先前研究中使用的树结构替换为图结构,并使用 LLM 根据每个思维的可行性或正确性为其分配分数
  • 在多智能体协作系统中,Liang 等人 (2023)、Li 等人 (2024b) 和 Wang 等人 (2024d) 提议利用 Judge LLM 在多个候选响应中选择最可行和合理的解决方案
  • 此外,还有一些工作采用 Judge LLM 在 API 选择(2024b)、工具使用(2023)和 LLM 路由(2024)中进行可行性评估

Overall Quality

  • 如前所述,LLM-as-a-judge 可用于在各种任务和应用中执行多方面和细粒度的评估
    • 然而,在许多情况下,仍然需要一个综合评估来表示候选的整体质量,以进行比较或排名
    • 获得此整体分数的一种直接方法是计算特定方面分数的平均值或加权平均值(2023;2023b;Saad-2024)
  • 此外,其他一些研究呈现每个属性的评估结果,并提示 LLM 评判生成整体质量评判(2024d;2024;2024a)
    • 除了从多个属性总结整体质量外,其他研究专注于直接产生整体评判
  • 例如,在摘要(2023b;2023a;2024a;2024d,h)和机器翻译(2024;2023;2024)等传统 NLP 任务中,与更开放式的长文本生成任务相比,评估维度较少
    • 因此,在这些情况下,LLM-as-a-judge 通常用于直接提示 LLM 生成整体评判

Methodology

  • 在本节中,论文介绍 LLM-as-a-judge 常用的方法和技巧,将其分为调优方法(4.1 节)和提示策略(4.2 节)

Tuning

  • 为了增强通用 LLM 的评判能力,不同研究采用了各种调优技术
  • 在本节中,论文从两个角度讨论 LLM-as-a-judge 的调优方法:
    • 数据来源(4.1.1 节)
    • 训练方法(4.1.2 节)
  • 表 1 收集了所有专注于调优 Judge LLM 的研究论文
Data Source
  • 手动标注数据(Manually-labeled Data) :为了训练具有类似人类标准的 Judge LLM,一种直观的方法是收集手动标注的样本和相应的评判
    • 许多先前的工作已经利用并整合现有资源来构建全面的数据集,用于调优 Judge LLM
    • Vu 等人(2024)构建了一个大型且多样化的集合,包含超过 100 个质量评估任务,涵盖超过 500 万个人类评判,这些评判通过整理和标准化先前研究中公开的人类评估得到
    • 类似地,Wang 等人(2024k)提出了 PandaLM,并收集了多样化的人类标注测试数据,其中所有上下文均为人类生成,标签与人类偏好一致
    • 为了增强策略在对齐数据合成中的评判能力,Lee 等人(2024)通过成对评判任务扩充了 SFT数据集 ,该任务的指令是从一组选项中选择所选响应
  • 还有一些工作收集数据集用于细粒度的评判反馈(2024)
    • Xu 等人(2023)引入了 InstructScore,一种可解释的文本生成评估指标,并策划了 MetricInstruct 数据集,该数据集涵盖六个文本生成任务和 23 个数据集
    • Liu 等人(2024a)收集了 ASPECTINSTRUCT,这是第一个专为多方面 NLG 评估设计的指令调优数据集,跨越 65 个任务的 27 个不同评估方面
    • Yue 等人(2023)首先提出了属性评估,并使用来自相关任务(如问答、事实核查、自然语言推理和摘要)的数据对 Judge LLM 进行微调
    • Ke 等人(2024)采用了一种独特的方法,首先提示 GPT-4 生成反馈,并手动检查其为每个用户查询生成的文本,必要时进行修订以提高质量
  • 合成反馈(Synthetic Feedback) :尽管手动标注的反馈质量高且能准确反映人类评判偏好,但其在数量和覆盖范围上存在局限性
    • 一些研究人员将合成反馈作为调优 Judge LLM 的数据源。这一方向的一种方法依赖于 Judge LLM 自身生成合成反馈
      • Wu 等人(2024a)通过提示策略 LLM 评估自己的评判来构建成对反馈,以增强评判能力
      • Wang 等人(2024i)提示 LLM 生成原始指令的“noisy”版本 ,并将对该损坏指令的相应响应作为较差响应
      • Wang 等人(2024a)提示 GPT-4-Turbo 为每个实例基于原始证据生成多条证据,将其分类为完全不相关证据、部分不相关证据和高度相关证据,以训练幻觉评判 LLM
  • Park 等人(2024a)构建了 OFFSETBIAS,这是一个成对偏好数据集 ,利用 GPT-4 生成不良、离题和错误的响应 ,并进行难度过滤
  • 对于安全评判,Xie 等人(2024a)采用 GPT-4 作为分类器,将每个数据点映射到预定义的安全类别,以训练自动化评估器
  • 与先前工作不同,Li 等人(2024e)采用 GPT-4 合成成对和逐点数据,以训练生成式 Judge LLM
  • 对于逐点数据,他们采用“分而治之”的策略,从 GPT-4 收集单个响应的两条批评意见,将其合并为更全面的批评,并提供最终评分
  • 紧随其后,Kim 等人(2024b)使用 GPT-4 用详细的人类评估标准和口头反馈扩充偏好学习数据集
  • 在多模态领域,Xiong 等人(2024b)提出了 LLaVA-Critic,并采用 GPT-4o 生成给定分数或偏好评判背后的原因,用于训练数据构建
  • 此外,通过利用人类显式指令和 GPT-4 的隐式知识,Xu 等人(2023)基于 LLaMA 微调了一个 Judge LLM,为生成的文本同时生成分数和人类可读的诊断报告
  • Zhu 等人(2023)引入了 JudgeLM,并提出了一个全面、大规模、高质量的数据集,包含任务种子、LLM 生成的答案和 GPT-4 生成的评判,用于微调高性能评判
Tuning Techniques
  • SFT : SFT 是最常用的方法,用于帮助 Judge LLM 从成对(2024k;2024e;2023b;2023)或逐点(2024a;2023b;2023)评判数据中学习
    • 在采用 SFT 的众多工作中,Vu 等人(2024)提出了一种监督多任务训练方法,用于在各种任务的多个混合数据集上微调其基础大型自动评分模型(FLAMe)
    • 为了使 Judge LLM 同时具备成对和逐点评判能力,Kim 等人(2024b)在调优阶段新颖地提出了联合训练和权重合并方法,并发现后者在大多数情况下并未提高评估性能
    • 为了获得不仅能生成响应还能比较成对偏好的评判模型,Lee 等人(2024)设计了 Judge 增强监督微调( Judge-augmented Supervised Fine-tuning,JSFT),使用扩充的偏好学习数据集
    • 在训练阶段,Ke 等人(2024)通过添加简化提示来区分输入的不同部分,并通过交换两个生成文本的顺序和交换批评中的相应内容来扩充成对训练数据,从而增强他们的模型
    • Xu 等人(2023)进一步在自我生成的输出上微调其 INSTRUCTSCORE 模型,以优化反馈分数,生成与人类评判更好对齐的诊断报告
    • Liu 等人(2024a)还提出了两阶段监督微调方法,首先应用普通指令调优,使模型具备遵循指令进行各种评估的能力,然后使用辅助方面进行进一步调优,以丰富训练过程,纳入额外的指令调优阶段,利用与目标评估方面的潜在连接
  • 偏好学习(Preference Learning) :偏好学习与评判和评估任务密切相关,尤其是比较和排名评判
    • 除了直接采用或扩充偏好学习数据集用于监督微调 Judge LLM 的工作外,一些研究还应用偏好学习技术来增强 LLM 的评判能力
    • 为了提高 HALU-J 提供的评判质量,Wang 等人(2024a)在多证据设置下的 SFT 阶段后,使用定向偏好优化(DPO)(2023)进一步对其进行调优
    • 类似地,Park 等人(2024a)将 DPO 与包含关键错误但具有评判模型偏好的风格质量的合成“bad”响应一起应用,帮助减轻 Judge LLM 中的偏差
    • Wu 等人(2024a)新颖地提出了元奖励,利用策略 LLM 来评判自己评判的质量,并生成成对信号以增强 LLM 的评判能力
    • 这一概念也被 Wang 等人(2024i)采用,他们提出了自教评估器,使用损坏的指令生成次优响应作为偏好学习的劣质示例
    • 最近,Hu 等人(2024)提出了 Themis,一种专注于 NLG 评估的 LLM,其训练采用了设计的多视角一致性验证和面向评分的偏好对齐方法
    • Li 等人(2024o)提出了 PORTIA,一种基于对齐的方法,旨在以有效方式模拟人类比较行为,以校准位置偏差

Prompting

  • 在推理阶段设计适当的提示策略和 Pipeline 可以提高评判准确性并减轻偏差
  • 在本节中,论文总结和分类 LLM-as-a-judge 的现有提示策略(图 4)
Swapping Operation
  • 先前的研究表明, LLM-based 评判对候选的位置敏感,候选响应的质量排名很容易通过仅改变其在上下文中的顺序来操纵(2023c;2024;2023)
    • 为了减轻这种位置偏差并建立更公平的 LLM 评判系统,交换操作(2023)已被引入并广泛采用
    • 该技术涉及调用 Judge LLM 两次,在每个实例中交换两个候选的顺序
    • 在评估中,如果交换后的结果不一致,则标记为“平局(tie)” ,表明 LLM 无法自信地区分候选的质量(2023)
  • 几项研究还在自我对齐(2023;2024a;2024)中纳入了交换操作,以从 Judge LLM 获得更准确的成对反馈
  • Zhu 等人(2024a)提出了一种类似思维链(CoT-like)的提示技术,通过要求模型首先提供所有成对排名,然后用排名列表进行总结来减轻位置偏差
Rule Augmentation
  • 规则增强提示(Rule-augmented prompting)是指将一系列原则、参考依据和评估准则直接嵌入到 judge LLM 的提示指令中的方法
  • 这种方法通常用于 LLM-based 评估,其中引导 Judge LLM 评估特定方面(2024e;2023a;2024d;2024),并为其提供详细的标准(2023b;2024g;2024;2024l,h;2024c)以确保公平比较
  • Liu 等人(2024d)采用了一种独特的方法,提示 Judge LLM 通过对一组少样本示例的上下文学习来生成自己的评分标准。为了与 LLM-as-a-judge 保持一致,Bai 等人(2022)首先提出引入一系列原则(如帮助性、无害性、诚实性),使 Judge LLM 能够更精确和有方向地比较两个候选
  • 紧随其后,后续工作(2023, 2024;2024;2024a;2024a)通过为原则或标准的每个方面纳入更详细的解释来增强这种基于原则的提示
  • 此外,Li 和 Qiu(2023)以及 Li 等人(2024c)都提出提示 LLM 根据候选在解决特定问题中的帮助性来检索适当的演示/知识三元组
  • 为了从 LLMs 获得多样化的响应,Lahoti 等人(2023)提示多个 LLM 评判每个候选的多样性,并选择最多样化的一个进行进一步优化
  • Zhang 等人(2024g)提出了 RevisEval,其利用 LLM 的自我纠正能力自适应地修改响应,然后将修改后的文本作为后续评估的原则
  • 最近,一些工作研究了 LLM 作为个性化评判的可靠性(2024;2024;2024),将 persona 作为原则的一部分提供给 LLMs,以进行个性化评判
Multi-agent Collaboration
  • 由于 LLM 固有的各种偏差(2023c;2024;2023;2023a;2023c),访问单个 LLM 评判的结果可能不可靠
  • 为了解决这一限制,Li 等人(2023a)引入了 Peer Rank(PR)算法,该算法考虑每个对等 LLM 对所有答案对的成对偏好,并生成模型的最终排名
  • 在此基础上,出现了几种多智能体 LLM 的架构和技术,包括智能体混合(2023b)、角色扮演(2023)、辩论(2023;2024f;2024b)和投票(2024c;2024)。Jung 等人(2024)提出了级联选择性评估,其中成本较低的模型作为初始评判,仅在必要时升级到更强的模型(2024a)
  • 此外,一些工作将多智能体协作应用于对齐数据合成,利用多个 LLM 评判来完善响应(2024)或提供更准确的成对反馈(2024i)
  • 最近,(2024m)提出了 MATEval,其中所有智能体均由 GPT-4 等 LLM 扮演
    • MATEval 框架模仿人类协作讨论方法,整合多个智能体的交互以评估开放式文本
Demonstration
  • 上下文中的样本或演示(2020;2023;Agarwal 等人)为 LLM 提供了可遵循的具体示例,并已被证明是 LLM 上下文学习成功的关键因素
  • 几项研究引入了人类评估结果作为 LLM-as-a-judge 的演示,旨在引导 LLM 从几个具体的上下文中学习评估标准
  • Jain 等人(2023b)是第一个探索大型语言模型作为多维评估器在上下文学习中的功效的研究,无需大量训练数据集
  • Kotonya 等人(2023)对各种提示技术进行了系统实验,包括标准提示、基于注释器指令的提示和思维链提示,将这些方法与零样本和一样本学习相结合,以最大化评估效果
  • 为了提高 LLM 评估的鲁棒性,Hasanbeig 等人(2023)提出了 ALLURE,一种通过迭代纳入显著偏差的演示来增强评估器鲁棒性的方法
  • 此外,Song 等人(2024)引入并研究了两种多样本上下文学习(ICL)提示,使用两种版本的多样本 ICL 模板来帮助减轻 LLM 中的潜在偏差
Multi-turn Interaction
  • 在评估中,单个响应可能无法为 LLM 评判提供足够的信息来全面和公平地评估每个候选的表现
  • 为了解决这一限制,多轮交互通常被采用以提供更全面的评估
  • 通常,该过程从初始查询或主题开始,随后在 Judge LLM 和候选模型之间进行动态交互
  • Bai 等人(2023b)提出了一种多轮设置,其中评估器扮演面试官的角色,根据模型的先前答案提出越来越复杂的后续问题
  • 类似地,Yu 等人(2024d)引入了 KIEval,一种基于知识的交互式评估框架,其新颖地纳入了一个 LLM 驱动的交互器,以实现动态、抗污染的评估
  • 此外,一些方法促进候选之间的多轮辩论
    • 例如,Zhao 等人(2024c)设计了一个框架,其中两个 LLM 围绕查询进行多轮 peer battle ,使它们的真实性能差异得以显现
    • Moniri 等人(2024)提出了一个自动化基准系统,其中 LLM 进行辩论,最终评估由另一个 LLM 评判执行
Comparison Acceleration
  • 在 LLM-as-a-judge 的各种比较格式中(如 Pointwise 和 Listwise ),成对比较是直接比较两个模型或生成成对反馈的最常用方法
  • 然而,当需要对多个候选进行排名时(注:需要凉凉进行排列),这种方法可能非常耗时(2024)
  • 为了减轻计算开销,Zhai 等人(2024)提出了一种排名配对方法,所有候选首先与空白基线响应进行比较 ,然后根据每个候选与基线的比较表现确定其排名
  • Zhu 等人(2024a)提出了一种类似 CoT 的提示技术,通过强制模型首先提供所有成对排名,然后用列表总结这些成对排名来减轻位置偏差
  • 此外,Lee 等人(2024)在推理期间利用基于 tournament 的方法(2023a;2023c)进行拒绝采样,以加速成对比较
  • 他们构建了一个 tournament 树,其中叶节点表示采样的响应,非叶节点根据子节点之间的评判结果进行选择

Application

  • 尽管“LLM-as-a-judge ”最初是为评估应用而提出的,但其使用范围已大幅扩展到许多其他场景,如对齐、检索和推理
  • 因此,如图 5 所示,论文将全面介绍 LLM-as-a-judge 如何应用于各种领域

Evaluation

  • 自然语言处理中的传统评估依赖于预定义标准,通常通过指标来评估机器生成文本的质量
  • 一些著名的指标,如 BLEU、ROUGH 和 BERTScore 已在该领域广泛使用
  • 然而,基于指标的评估过度强调词汇重叠和相似性,当需要考虑许多有效响应和更细微的语义属性时,可能会显得不足(Post, 2018;2022)
  • 为解决这些局限性,LLM-as-a-judge 已被用于充当自动化评判,以增强许多任务的评估(2023b;2024)
  • LLM-as-a-judge 能够进行类似人类的定性评估,而不仅仅是对机器生成输出与 ground truth 的匹配程度进行简单的定量比较
  • 本节将讨论 LLM-as-a-judge 如何被用于评估开放式生成、推理和更多新兴 NLP 任务
Open-ended Generation Tasks
  • 开放式生成指的是生成内容应安全、准确且上下文相关的任务,尽管没有单一的“正确”答案
  • 此类任务包括对话响应生成、摘要、故事生成和创意写作(2024;2023a;2024;2024;Bermejo, 2024)。与传统的基于指标的评估方法不同,LLM-as-a-judge 提供了更细致、适应性更强的定制化评估
  • 正如 Zheng 等人 (2023) 所指出的,像 GPT-4 这样的 LLM 在评判开放式文本生成方面表现得可与人类媲美
  • 在实践中,LLM-as-a-judge 已被应用于评估单个模型的输出,以及在竞争环境中比较多个模型的输出
  • 例如,Gao 等人 (2023b) 使用 ChatGPT 进行类似人类的摘要评估
  • 同样,Wu 等人 (2023) 提出了一个基于比较的框架,让 LLMs 充当具有多种角色扮演的评判,以特定维度评估摘要质量并生成评估结果
  • 现代 LLM 擅长生成详细的长文本响应。然而,随着输出长度的增加,产生幻觉的可能性也随之增加
    • 为了更好地理解这一现象,Cheng 等人 (2023) 和 Zhang 等人 (2024d) 引入了一种评估方法,使用 GPT-4 来评判生成的输出是否包含逻辑结构合理但无意义的陈述
    • Wang 等人 (2024a) 提出了一个基于批判的评判系统,通过选择相关证据并提供深入批判来评估幻觉
  • 除了幻觉之外,LLM 生成有害(如鼓励自杀)和不安全(如指导非法活动)响应的问题也备受关注
    • 针对这一问题,Li 等人 (2024g) 引入了 MD-Judge 和 MCQ-Judge,用于评估与安全相关的问答对,尤其关注旨在引发不安全响应的查询。这种方法支持无缝且可靠的评估
  • 然而,对不安全查询过于谨慎的态度可能导致过度拒绝响应,从而阻碍正常功能并对用户体验产生负面影响
    • 为了探讨这一问题,Xie 等人 (2024a) 对各种 LLM-as-a-judge 的框架进行了元评估,评估了当前 LLMs 对潜在不安全查询的拒绝倾向
    • 此外,(2024a) 引入了一个 LLM-based 答案提取器,以准确确定开放式生成中答案的关键部分
  • 另外,An 等人 (2023) 提出了 L-Eval,这是一个 LLM-as-a-judge 的框架,旨在为长上下文语言模型建立更标准化的评估
    • 这一概念得到了 Bai 等人 (2024) 的跟进,他们提议利用 LLM-as-a-judge 来过滤长上下文 LLMs 的评估数据
  • 最近的研究还利用 LLM-as-a-judge 来评估生成模型的通用能力
    • 这种方法通常采用基于辩论的框架,其中多个 LLMs 生成响应,随后由单独的 Judge LLM 进行评估
    • 例如,Chan 等人 (2023) 引入了一个多智能体辩论框架,旨在促进自主讨论并评估开放式文本生成任务中不同 LLMs 生成响应的质量
    • 类似地,Moniri 等人 (2024) 提出了一个自动化辩论框架,该框架不仅根据领域知识评估 LLMs,还评估它们在问题定义和不一致识别方面的能力
Reasoning Tasks
  • LLMs 的推理能力可以通过它们在特定推理任务上的中间思维过程和最终答案来评估(2024;2024;2024c)
    • 最近,LLM-as-a-judge 已被用于评估模型中间推理路径的逻辑进展、深度和连贯性
  • 对于数学推理任务,Xia 等人 (2024) 引入了一个自动评估框架,使用专门设计的 Judge LLM 来评估问题解决过程中推理步骤的质量
  • LLM-as-a-judge 还可以应用于更复杂的推理任务,如时间推理,其中模型需要理解不同事件在时间上的关系
  • Fatemi 等人 (2024) 构建了合成数据集,专门用于评估 LLMs 在各种场景下的时间推理能力,测试它们在时间有序事件的序列、因果关系和依赖关系方面的推理熟练程度
  • 大量的训练数据带来了一个挑战,即如何确定模型是通过深度逻辑理解进行推理,还是仅仅利用记忆模式(2024)
    • Wang 等人 (2023a) 设计了一个辩论式框架来评估 LLMs 的推理能力。给定一个特定问题,LLM 和用户采取对立立场并讨论该主题,以达成正确的决策
  • Nan 等人 (2024) 开发了一个多智能体评估框架,模拟学术同行评审过程
  • 该框架让 LLM-as-a-judge 参与协作评审,为数据驱动任务中 LLMs 的推理能力提供了更细致的理解
Emerging Tasks
  • 随着 LLMs 能力的快速发展,机器越来越多地被用于以前被认为是人类专属的任务,尤其是在特定上下文领域
  • 一个突出的任务是社交智能,其中模型面临复杂的社交场景,需要理解文化价值观、伦理原则和潜在的社会影响
  • 例如,Xu 等人 (2024a) 评估了 LLMs 的社交智能,强调尽管这些模型在学术问题解决能力方面取得了进步,但在社交智能方面仍明显落后
  • 同样,Zhou 等人 (2023) 引入了 SOTOPIA 和 SOTOPIA-EVAL,以模拟 LLM 智能体之间的复杂社交互动并评估它们的社交智能
  • 在他们的工作中,GPT-4 被用作人类评判的代理,以评估模拟互动中的目标完成度、财务管理和关系维护
  • 另一项研究致力于评估大型多模态模型(LMMs)和大型视觉语言模型(LVLMs)
    • 例如,Xiong 等人 (2024b) 探索了 LMM 作为评判来评估多模态模型的性能,提供最终分数和评估的基本原理,以提高透明度和一致性
  • Chen 等人 (2024d) 提出了第一个用于 LVLMs 自动评估的基准,专门针对自动驾驶的边缘情况
    • 他们发现,由 LLMs 作为评判进行的评估比由 LVLMs 作为评判进行的评估更符合人类偏好
  • 最近,论文看到 LLM-as-a-judge 的更定制化应用,用于评估新兴任务,如
    • 代码理解(2024a;2025;2024c;2024a;2024a;2024)
    • 法律知识(2023)
    • 游戏开发(Isaza-2024)
    • 海洋科学(2023)
    • 医疗对话(2024n)
    • 辩论评判(2024a)
    • 检索增强生成(2024)
    • 跨能力(cross ability,2024)
    • 人机交互(HCI)(2024j;2025;2024)
    • 角色扮演(2024c)
    • RAG(2024)
    • 语音合成(2024b)
    • 反语音生成(counterspeech generation,2025b,a)等
    • 这一趋势反映了 LLM-as-a-judge 在评估多样化和专业领域方面的适应性日益增强

Alignment

  • 对齐调优(2022a;2022)是使 LLMs 与人类偏好和价值观保持一致的重要技术
  • 这一过程的一个关键组成部分是收集高质量的成对反馈,这对于奖励建模(2017)或直接偏好学习(2023)至关重要
  • 最近,越来越多的研究兴趣集中在通过在对齐调优中采用 LLM-as-a-judge 来自动化这种成对反馈机制
Larger Models as Judges
  • 在对齐调优中采用 LLM-as-a-judge 的一个直观想法是利用更大、更强的 LLMs 的反馈来指导较小、能力较弱的模型
  • (2022) 首先提出利用 AI 的反馈来构建无害的 AI 助手
    • 他们使用基于预训练语言模型偏好的合成偏好数据来训练奖励模型
  • 在此基础上,Lee 等人 (2023) 发现,即使 LLM 评判不够强大,RLAIF 方法也能通过 RLHF 取得可比的性能
    • 他们还引入了 DIRECT-RLAIF,直接使用现成的 LLM-as-a-judge 模型,以减轻奖励模型中的奖励陈旧问题
  • 为了避免对齐中的奖励欺骗,Sun 等人 (2024a) 设计了一个可指示的奖励模型,该模型在合成偏好数据上训练
    • 它使人类能够在 RL 时间进行干预,以更好地使目标策略与人类价值观保持一致
    • 除了上述研究之外,Guo 等人 (2024) 引入了在线 AI 反馈(OAIF),直接利用注释模型的偏好信号来训练目标模型
  • 还有一些工作利用多智能体合作来在对齐调优中获得更好的评判
    • Arif 等人 (2024) 和 (2024) 使用多智能体工作流构建合成偏好优化数据集,并采用具有各种提示策略和 Pipeline 的 LLMs 作为评判
    • 类似地,(2024i) 利用多个 LLMs 相互辩论,迭代提高响应质量,同时创建一个 Judge LLM 来选择偏好的响应,以增强指令调优
  • 为了使生成的代码与人类偏好保持一致,Weyssow 等人 (2024) 引入了 CodeUltraFeedback,这是一个使用 LLM-as-a-judge 方法构建的偏好编码数据集
    • 这个合成数据集后来被用于使用 SFT 和 DPO 对小型代码 LLMs 进行微调和对齐
  • 最近,Wang 等人 (2024f) 提出了 BPO,使用 GPT-4 作为评判,并在对齐过程中构建合成成对反馈,以实现知识深度和广度的平衡
Self-Judging
  • 另一类工作旨在利用同一 LLM 的偏好信号来自我改进
  • Yuan 等人 (2024e) 首先提出了自我奖励 LLM 的概念,其中通过让 LLM 自身充当评判来构建成对数据
  • 紧随其后,Wu 等人 (2024a) 引入了元奖励,对 LLMs 的评判进行评判,并使用反馈来改进它们的评判技能
    • 他们的 LLM 作为元评判的方法显著增强了模型评估和遵循指令的能力
  • 为了提高合成数据质量:
    • Pace 等人 (2024) 结合了 Best-of-N 和 Worst-of-N 采样策略,并引入了 West-of-N 方法
    • Lee 等人 (2024) 设计了 Judge 增强监督微调(Judge augmented Supervised Fine-Tuning,JSFT),以训练单个模型同时充当策略和评判
      • 为了充分利用这个评判模型,他们还提出了通过 tournament 进行自我拒绝的方法,以在推理时选择最佳响应
  • 与上述使用 LLM-as-a-judge 来构建成对数据的方法不同,Tong 等人 (2024) 将 LLM-as-a-judge 应用于自我过滤方法,以确保对齐任务中合成数据对的质量,用于推理
  • 为了减少成对评判中的计算开销,Zhai 等人 (2024) 提出了一种用于自我偏好语言模型的排名配对方法,通过测量每个响应相对于基线的强度来加速比较过程
  • Liu 等人 (2024e) 引入了元排名(meta-ranking),使较弱的 LLMs(2024b)能够充当可靠的评判并提供可信赖的反馈。他们还将元排名方法应用于 SFT 后训练,将其与 Kahneman-Tversky 优化(KTO)结合使用,以改进对齐
  • 为了提高合成指令调优数据的质量,Liang 等人 (2024c) 引入了迭代自我增强范式(I-SHEEP)。在训练期间,他们采用 LLM-as-a-judge 来为合成响应评分,并设置阈值来收集高质量的查询-响应对,用于后续训练迭代
  • 最近,Yasunaga 等人 (2024) 提出将 LLM-as-a-judge 与数据合成相结合,并成功构建了只需少量注释即可与人类对齐的 LLMs
  • 几项工作还在特定领域或针对特定属性采用了 LLM-as-a-judge
    • Zhang 等人 (2024h) 提出了一种自我评估机制,通过生成问答对来评判响应的事实性。然后,他们利用这些自我注释的响应通过 DPO 算法对模型进行微调,以提高事实性
    • 在机器人技术中,Zeng 等人 (2024) 利用 LLMs 的自我排名响应来迭代更新奖励函数,从而在没有人类监督的情况下提高学习效率
    • 在多模态领域,Ahn 等人 (2024) 提出了迭代自我回顾评判(iterative self-retrospective judgment, i-SRT),该方法采用自我反思来改进响应生成和偏好建模

Retrieval

  • LLM-as-a-judge 在检索中的作用包括传统文档排名和更动态的、上下文自适应的检索增强生成(Retrieval-Augmented Generation,RAG)方法
  • 在传统检索中,LLMs 通过先进的提示技术提高排名准确性,使它们能够在几乎没有标记数据的情况下按相关性对文档进行排序
  • 作为补充,RAG 框架利用 LLMs 生成内容的能力,这些内容由检索到的信息引导,支持需要复杂或不断发展的知识整合的应用
    • 这些技术共同强调了 LLMs 作为检索任务评判的适应性,从基础排名到特定领域的知识增强应用
Traditional Retrieval
  • 最近的研究探索了 LLMs 作为评判在信息检索中对文档进行排名的作用,旨在提高排名精度并减少对大量训练数据的依赖
    • Sun 等人 (2023) 探索了像 GPT-4 这样的生成式 LLMs 在信息检索中进行相关性排名的潜力
      • 他们提出了一种基于排列的方法来按相关性对段落进行排名,指示 LLMs 输出段落的有序排列,从而提高排名精度
    • 作为补充,Zhuang 等人 (2024a) 引入了一种方法,将细粒度的相关性标签 Embedding 到 LLM 提示中,使模型能够区分细微的相关性变化并产生更精细的文档排序
    • Listwise 排名的进一步创新由 Ma 等人 (2023) 展示,他们提出了使用大型语言模型的 Listwise 重新排序器(LRL),这是一种直接对文档标识符进行重新排序的工具,无需依赖特定任务的训练数据。此外,Zhuang 等人 (2024b) 提出了一种适用于零样本排名的集合式提示策略,通过减少 LLM 推理频率和标记使用来简化排名操作,在不牺牲性能的情况下提高了效率
  • 为了解决位置偏差(这是 Listwise 排名任务中的常见挑战),Tang 等人 (2024b) 引入了排列自我一致性技术,该技术对多个列表顺序进行平均,以产生与顺序无关的排名。这种方法有效减少了位置偏差,这在 LLM 驱动的 Listwise 排名中是一个特别成问题的问题
  • 最后,Qin 等人 (2024) 批评了现有方法中点式和 Listwise 排名提示的局限性,指出典型的 LLMs 往往缺乏理解复杂排名任务的深度
    • 为了缓解这一问题,他们提出了使用中等规模开源 LLMs 的成对排名提示(PRP),作为更昂贵的大型专有模型的有效且经济的替代方案
  • 除了一般检索任务之外,LLMs 还证明了它们作为专门应用评判的实用性。例如,Ma 等人 (2024a) 概述了一个少样本工作流程,该流程使用通用 LLM 进行法律信息检索中的相关性评判。该模型通过将任务分解为多个阶段,实现了与专家注释的高度一致性,促进了专家推理的整合,以提高法律环境中相关性评估的准确性
  • 在推荐系统中,Hou 等人 (2024) 研究了 LLMs 将项目排名视为条件排名任务的潜力。该框架考虑了用户交互历史以及候选项目,解决了 LLMs 已知的偏差,例如倾向于偏爱流行或排名靠前的项目。采用了专门的提示和引导技术来纠正这些偏差并提高解释准确性
  • 最后,在搜索系统领域,Thomas 等人 (2023) 发现 LLMs 在预测搜索者偏好方面的表现可与人类标注者相媲美,使它们成为识别高性能系统和标记具有挑战性查询的有价值工具。这项研究强调了 LLMs 作为复杂检索任务评判的有效性,能够在各种应用中实现更细致和准确的相关性评估
Retrieval-Augmented Generation, RAG
  • 检索增强生成(RAG)的最新发展探索了 LLMs 自我评估和自我改进的能力,无需注释数据集或参数调整(2024e)
    • Li 和 Qiu (2023) 引入了思维记忆(MoT)框架,这是一个两阶段自我反思模型,自主增强 LLM 的推理能力
  • 在第一阶段,模型在未标记数据集上生成高置信度推理,将其存储为记忆
    • 在测试阶段,模型通过评判每个记忆与当前问题的相关性来回忆这些记忆,并选择最相关的记忆作为演示
  • 类似地,Tang 等人 (2024a) 提出了自我检索,这是一种创新架构,通过自然语言索引将信息检索(IR)能力整合到单个 LLM 中,以将语料库内化。这种方法将检索转变为文档生成和自我评估过程,在单个模型中实现了完全端到端的 IR 工作流程
  • 此外,Asai 等人 (2024) 提出了 SELF-RAG(Self-Reflective Retrieval-Augmented Generation,自我反思检索增强生成),该模型通过检索和自我反思循环提高 LLM 响应的质量和事实性。通过使用“反思标记”来指导适应性响应,SELF-RAG 使模型能够根据特定任务要求动态评判和调整其响应
  • 在问答领域,LLMs 越来越多地被用作评估代理,以实时评估答案的相关性、质量和实用性
    • Rackauckas 等人 (2024) 引入了一个 LLM-based 评估框架,该框架从实际用户交互和特定领域文档生成合成查询
      • 在这个框架中,LLMs 充当评判,评估检索到的文档并通过 RAGElo(一种基于 Elo 的自动竞争)对 RAG 智能体变体进行排名
      • 这种结构为 QA 系统中的质量控制提供了可扩展的解决方案
  • 此外,Zhang 等人 (2024b) 对 LLMs 评估开放域 QA 中相关性与实用性的能力进行了广泛研究。他们的发现表明,LLMs 可以有效区分两者,并且在呈现反事实段落时具有高度适应性
    • 这种实用性评估能力使 LLMs 能够在评估过程中提供更细致和上下文相关的响应
  • 针对特定领域的 RAG 系统揭示了 LLMs 通过整合专业知识结构来导航复杂查询的潜力
    • 在特定领域检索中,Wang 等人 (2024b) 提出了 BIORAG,这是一种先进的 RAG 框架,通过分层知识结构增强向量检索
    • BIORAG 采用自我意识评估检索器来持续评判其收集信息的充分性和相关性,从而提高检索文档的准确性
  • 对于生物医学研究,Li 等人 (2024c) 引入了 DALK(LLMs 和知识图谱的动态协同增强),这是一种新颖的系统,将 LLM 与从科学文献中派生的不断发展的阿尔茨海默病(AD)知识图谱相结合
    • 使用新颖的自我意识知识检索方法,DALK 利用 LLMs 的评判能力进行噪声过滤,增强 LLM 在 AD 相关查询中的推理性能
  • 类似地,Jeong 等人 (2024) 提出了 SelfBioRAG,这是一种将 RAG 原理应用于生物医学应用的框架
    • Self-BioRAG 采用 LLM 来选择最佳证据并基于所选证据和编码知识生成答案
    • 最近,(Déjean, 2024) 提炼了一个 LLM-as-a-judge ,从 LLMs 的参数记忆中提取检索结果

Reasoning

  • 释放 LLMs 的推理能力提供了一种缓解缩放定律局限性的方法,仅靠缩放定律可能无法充分揭示模型的潜力
  • 推理是 LLMs 的一个关键方面,因为它直接影响它们解决复杂问题、做出决策和提供准确的上下文感知响应的能力
  • 最近,许多关于 LLMs 推理能力的研究都集中在如何利用 LLM-as-a-judge 来选择推理路径(5.4.1 节)和利用外部工具(5.4.2 节)
Reasoning Path Selection
  • Wei 等人 (2022b) 引入了思维链(CoT)提示的概念,以鼓励模型生成逐步推理过程。虽然已经提出了其他更复杂的认知结构(2023a;2023)来增强 LLMs 的推理能力,但一个关键挑战是如何为 LLMs 选择合理且可靠的推理路径或轨迹以遵循
    • 为了解决这个问题,许多工作采用了 LLM-as-a-judge
  • 一些工作专注于推理过程中的样本级选择
    • (2023a) 引入了策略评估器,以在验证集上进一步评估候选策略
    • (2024) 引入了 REPS(Rationale Enhancement through Pairwise Selection, 通过成对选择增强理由),通过使用 LLMs 进行成对自我评估来评判和选择有效理由,并基于这些数据训练验证器(verifier)
  • LLMs 的另一个推理路径选择问题是多样性,Lahoti 等人 (2023) 发现 LLMs 掌握了多样性的概念,并且可以识别响应缺乏多样性的方面。通过选择和聚合多个批评意见,LLMs 可以取得类似的收益,与多次批评和修订迭代相比
  • 在多智能体协作框架中,Liang 等人 (2023) 提出了多智能体辩论(multi-agent debating,MAD),这是一种促进多个智能体之间辩论和讨论的新范式。他们利用 Judge LLM 在辩论过程结束时选择最合理的响应作为最终输出
  • 类似地,Li 等人 (2024b) 在基于层的多智能体协作中提出了新角色,采用 Judge LLM 来选择高质量和合理的响应,从而显著提高整个系统的标记利用效率
  • 此外,还有许多工作专注于步骤级推理路径选择,利用 Judge LLM 作为过程奖励模型(process reward model,PRM)来评估状态分数。Creswell 等人 (2023) 将推理过程分解为选择和推理。在选择步骤中,他们利用 LLM 本身来评判和评估每个潜在的推理轨迹,选择合适的轨迹用于后续推理步骤
  • Xie 等人 (2024b) 提出了 Kwai-STaR 框架,该框架将 LLMs 转变为状态转换推理器,以在数学推理中为自己评判和选择最佳推理状态。Lightman 等人 (2023) 训练 LLM 作为 PRM 来进行推理时监督,并在推理阶段执行 Best-of-N 采样策略
  • 紧随其后,Setlur 等人 (2024) 进一步提出了过程优势验证器(process advantage verifiers,PAVs),基于未来产生正确响应的可能性变化生成奖励。其他工作模拟高级认知结构作为推理过程
  • Hao 等人 (2023) 采用 LLMs 作为世界模型来模拟环境状态,并执行蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)以提高需要谨慎路径选择的任务的性能
  • Besta 等人 (2024) 将 LLMs 生成的输出视为任意图(arbitrary graph)
    • LLM 思维被建模为顶点,而边是思维之间的依赖关系
    • 该框架能够对每个推理状态的连贯性和逻辑推理进行系统评判
  • Yao 等人 (2023a) 提出了思维树(ToT),其中每个思维都作为解决问题的中间步骤
    • 它将推理分解为多个步骤,在每个状态进行自我评估和评判进展,并使用带有 LMs 的搜索算法通过前瞻和回溯来评判思维路径
  • 此外,还有一些研究训练基于批评的 LLM 评判(2024;2024b;2024e;2024b;2024;2024),这些评判提供细粒度的口头反馈以促进推理过程
Reasoning with External Tools
  • Yao 等人 (2023b) 首先提出以交错方式使用 LLMs 来生成推理轨迹和特定任务的动作
    • 推理轨迹帮助模型评判和更新动作计划,而动作使其能够与外部源交互
  • 随后,Auto-GPT 由 (2023) 引入,通过将 LLM-as-a-judge 用于工具使用,提供更准确的信息
    • 通过配备一系列外部复杂工具,LLMs 变得更加通用和有能力,通过评判和推理使用哪些工具来提高规划性能
  • Sha 等人 (2023) 探索了 LLMs 在推理和评判方面的潜力,将它们用作需要人类常识理解的复杂自动驾驶场景的决策组件
    • Zhou 等人 (2024d) 利用自我发现过程,其中 LLMs 根据给定的查询进行评判,并选择最可行的推理结构用于后续推理阶段
  • 尽管 LLMs 在各种工具的评判能力方面表现出色,但选择使用哪个模型或 API 通常涉及性能和成本之间的权衡
    • 更强大的模型虽然有效,但成本也更高,而能力较弱的模型则更具成本效益
    • 为了解决这个难题,(2024) 的作者提出了一个路由模型,该模型可以在评判过程中动态选择较强或较弱的 LLM ,旨在平衡成本和响应质量
  • 出于效率考虑,类似地,Zhao 等人 (2024b) 引入了 DiffAgent,作为一种旨在根据用户特定提示评判和选择不同文本到图像 API 的智能体
    • DiffAgent 的评判与人类偏好更一致,优于传统的 API 选择方法

Benchmark: Judging LLM-as-a-judge

  • 对 LLM 作为评判的评估需要强大且目标明确的基准,以捕捉这一任务的多方面性质
  • 论文将现有基准按以下维度分类:通用性能、偏差量化、领域特定性能、多模态评估、多语言能力、评估指令遵循、脆弱性评估和挑战性任务性能
    • 这一分类法展示了LLM作为评判评估框架的多样化目标,为分析其设计、范围和影响提供了结构化视角
    • 表 2 展示了LLM作为评判的各种基准和数据集的集合

General Performance

  • 专注于通用性能的基准旨在评估LLM在各种任务中的整体能力。这些基准通常测量与人类评判的一致性、准确性和相关性
  • 值得注意的例子包括:
    • MT-Bench和Chatbot Arena(2023),使用一致性、偏差和错误等指标评估对话场景
      • 这些基准进一步探索特定偏差,包括位置偏差、冗长偏差和自我增强倾向
    • JUDGE-BENCH(2024a)、DHP(2024j)、RewardBench(2024)、SOS-BENCH(2024)和JuStRank(2024),它们在更大规模上运行,使用Cohen’s kappa、辨别分数和标准化准确性等指标来基准化通用LLM性能
    • LLM-judge-eval(2024a),评估摘要和对齐等任务,并使用额外指标如翻转噪声和长度偏差

Bias Quantification

  • 减轻LLM评判中的偏差对于确保公平性和可靠性至关重要(Schroeder和Wood-Doughty, 2024)。典型基准包括EvalBiasBench 和CALM(2024a),它们明确专注于量化偏差,包括从对齐中出现的偏差和对抗条件下的鲁棒性偏差。此外,Shi等人 (2024a) 在问答任务中评估位置偏差和一致性百分比等指标

Challenging Task Performance

  • 为困难任务设计的基准推动了LLM评估的边界。例如
    • Arena-Hard Auto(2024k)、JudgeBench(2024a)和Yuan等人 (2024b) 分别针对对话式QA和各种推理任务,根据LLM的表现选择更难的问题
    • CALM(2024a)探索对齐和挑战性场景,使用可分离性、一致性和破解准确性等指标,评估在手动识别的硬数据集上的性能

Domain-Specific Performance

  • 领域特定基准提供了针对特定上下文的任务评估,以评估LLM的有效性
  • 具体而言,Raju等人 (2024) 测量跨任务的可分离性和一致性,利用 Brier 分数等指标,深入了解编码、医疗、金融、法律和数学等特定领域
  • CodeJudge-Eval(2024a)专门评估 LLM 对代码生成的评判,使用以执行为中心的指标如准确性和 F1 分数
  • 这一想法也被后续代码摘要和生成评估的多项工作所采用(2024b;2024;2024;2024;2024;2024e;2024)(1-172, 1-173)

Other Evaluation Dimensions

  • 除了通用性能和偏差量化,一些基准还解决了使用 LLM 作为评判的其他关键评估维度:
    • 多模态(Multimodal) :MLLM-as-a-judge(2024a)将评估框架扩展到涉及多种数据模态的任务,专注于与人类评判的一致性、分析评分和幻觉检测
    • 多语言(Multilingual) :MM-EVAL(2024b)和KUDGE(2024a)等基准评估多语言和非英语性能,测量准确性和相关性等指标,尤其在挑战性场景中
    • Instruction Following :Murugadoss等人 (2024) 检查LLM遵循特定评估指令的程度,使用相关性指标量化性能

Challenges & Future Works

  • 在本节中,论文概述了LLM作为评判的当前挑战和值得探索的未来方向,包括偏差与脆弱性、动态与复杂评判、自我评判以及人机协同评判

Bias & Vulnerability

  • LLM 作为评判本质上将评估构建为生成任务,引入了与偏差和脆弱性相关的重大挑战
    • 这些偏差通常源于模型的训练数据,其中常常嵌入(embeds)了与种族、性别、宗教、文化和意识形态等人口身份相关的社会刻板印象(2021)
    • 当LLM被部署于多样化的评判任务时,此类偏差会显著损害公平性和可靠性
  • 除了这些一般性偏差,当LLM充当评判时还会出现特定的评估偏差
    • 位置偏差(Order Bias) 是一个突出问题,候选的顺序会影响偏好(2023;2023c;2023a;2024b)
      • 这种偏差会扭曲评估结果,尤其是在成对比较中,当竞争响应之间的质量差距较小时更为明显(2024b;2023c)
    • 自我中心偏差(Egocentric Bias) 出现时,LLM会偏爱同一模型生成的输出,损害客观性(2023c;2023a;2024;2024)
      • 当评估指标使用同一模型设计时,这一问题尤为突出,会导致对源自该模型的输出评分虚高(2023c)
    • 长度偏差(Length Bias) 是另一个普遍挑战,评估会不成比例地偏爱更长或更短的响应,而不论质量如何(2023;2023a)
    • 其他偏差进一步复杂化了 LLM 评估,如:
      • 错误信息忽视偏差(Misinformation Oversight Bias) :比如,错误信息忽视偏差反映了忽略事实性错误的倾向
      • 权威偏差(Authority Bias) :比如,权威偏差偏爱来自所谓权威来源的陈述
      • 美观偏差(Beauty Bias) :比如,美观偏差优先考虑视觉吸引力内容而非实质质量(2024b,e;2024)
      • 冗长偏差(Verbosity Bias) 表现为偏爱更长的解释,通常将冗长等同于质量,这可能误导评判过程(2024c)
      • 情感偏差(Sentiment Bias) 会使评估因情感基调而倾斜,偏爱带有积极表述的响应(2024a)
  • LLM评判还极易受到对抗性操纵
    • 诸如 JudgeDeceiver 等技术凸显了基于优化的提示注入攻击的风险,精心设计的对抗序列可操纵 LLM 评判以偏爱特定响应(2024a;2024;2024a;2024b)
    • 同样,通用对抗短语可在绝对评分范式中大幅抬高分数,揭示了零样本评估设置的脆弱性(2023;2024;2024)
    • 这些操纵引发了对 LLM 评判在排行榜、学术或法律评估等高风险场景中的可靠性的担忧(2024a;2024;2024e;2024)
  • 为解决这些偏差和脆弱性,诸如 CALM(2024a)和 BWRS(2024b)等框架提供了系统的偏差量化和缓解方法
    • 多重证据校准(Multiple Evidence Calibration, MEC)、平衡位置校准(Balanced Position Calibration, BPC)和人机协同校准(Human-in-the-Loop Calibration, HITLC)等技术已被证明在使模型评判与人类评估一致的同时减少位置偏差和其他偏差方面有效(2023c)
    • 此外,认知偏差基准如 COBBLER 已识别出需要在 LLM 评估中系统缓解的六种关键偏差,包括显著性偏差和从众效应(2023b)
  • 未来方向(Future Direction) :
    • 未来研究的一个有希望的方向是将检索增强生成(RAG)框架集成到 LLM 评估过程中(2024e)
      • 通过结合生成和检索能力,这些框架可通过将评估基于外部可验证的数据源来减少自我偏好和事实性问题等偏差
    • 另一个有前景的途径是使用偏差感知数据集 ,如 OFFSETBIAS,以系统地解决 LLM 作为评判系统中的固有偏差(2024a)
      • 将此类数据集纳入训练 Pipeline 可使 LLM 更好地区分表面特质与实质正确性,从而增强公平性和可靠性
    • 探索微调 LLM 作为可扩展评判,如 JudgeLM 框架所示,代表了另一个有趣的方向(2023)
      • 该框架中 Embedding 的交换增强和参考支持等技术可系统地减轻偏差,提高评估一致性,并将基于LLM的评判的适用性扩展到开放式任务
    • 此外,推进零样本(zero-shot)比较评估框架具有重要前景(2023)
      • 这些框架可完善成对比较技术并实施去偏策略,提高跨不同评估领域的公平性和可靠性,而无需广泛的提示工程或微调
    • 最后,需要进一步探索抗 JudgeDeceiver 校准和对抗短语检测策略,以保护 LLM 作为评判框架免受攻击(2024a;2024;2024b;2024d;2024c)

Dynamic & Complex Judgment

  • 早期关于 LLM 作为评判的工作通常采用静态和直接的方法,直接提示评判 LLM 执行评估(2023)
    • 最近,已提出更多动态和复杂的评判 Pipeline 来解决各种限制,提高LLM作为评判的鲁棒性和有效性
    • 一个方向上的方法遵循“LLM-as-a-examiner”的概念,系统根据候选 LLM 的表现动态交互地生成问题和评判(2024d;2023a;2024a)
    • 其他工作专注于基于两个或更多候选 LLM 的对抗和辩论结果进行评判(2024;2024c)
      • 这些动态评判方法极大地提高了评判 LLM 对每个候选的理解,并可能防止 LLM 评估中的数据污染问题(2024)
      • 此外,构建复杂和精密的评判 Pipeline 或智能体是另一个流行的研究领域(2023a;2023;2024;2024)
      • 这些方法通常涉及多智能体协作,以及精心设计的规划和记忆系统,使评判 LLM 能够处理更复杂和多样化的评判场景
  • 未来方向(Future Direction) :
    • 未来研究的一个有希望的方向是赋予 LLM 类似人类的评判能力(2024c;2024b;2024)
    • 这些设计可借鉴人类评判时的行为,如锚定与比较、后见之明与反思,以及元评判(meta-judgment)
    • 另一个有趣的途径是开发使用 LLM 的自适应难度评估系统(adaptive difficulty assessment system, 2024)
      • 该系统将根据候选的当前表现调整问题难度
      • 这种自适应和动态系统可解决 LLM 评估中的一个重大限制,因为静态基准通常无法准确评估具有不同能力的LLM

Self-Judging

  • LLM-based 评估器,如 GPT-4,广泛用于评估输出,但面临重大挑战:
    • 尤其是自我中心偏差(Egocentric Bias) ,即模型偏爱自己的响应而非外部系统的响应(2023b;2023a;2023;2025)
      • 这种自我偏好破坏了公正性,造成了“先有鸡还是先有蛋”的困境:强大的评估器对开发强大的 LLM 至关重要,而推进 LLM 又依赖于无偏的评估器
    • 其他问题包括自我增强偏差(Self-Enhancement Bias) ,模型会高估自己的输出(2023a),以及奖励欺骗(Reward Hacking),对特定信号的过度优化导致评估的泛化能力降低(2024a)
      • 此外,对静态奖励模型的依赖(Static Reward Models)限制了适应性,而位置(Positional)和冗长(Verbosity)等偏差通过偏爱响应顺序或长度而非质量来扭曲评判(2024e;2024i)
      • 人类注释的高成本和有限可扩展性进一步复杂化了动态和可靠评估系统的创建(2022;2022)
  • 未来方向(Future Direction) :
    • 未来研究的一个有希望的方向是开发如 Peer Rank and Discussion(PRD)(2023a)这样的协作评估框架
      • 这些框架利用多个 LLM 集体评估输出,使用加权成对评判和多轮对话来减少自我增强偏差,并使评估更接近人类标准
    • 另一个有趣的途径是采用自教评估器框架,生成合成偏好对和推理轨迹,以迭代改进模型评估能力(2024i)
      • 这种方法消除了对昂贵人类注释的依赖,同时确保评估标准适应不断发展的任务和模型
    • 集成自我奖励语言模型(Self-Rewarding Language Models, SRLM)提供了另一条有前景的路径(2024e)
      • 通过采用如直接偏好优化(DPO)等迭代机制,这些模型持续改进其指令遵循和奖励建模能力,缓解奖励欺骗和过拟合问题
    • 在 SRLM 的基础上,使用元奖励机制引入元评判角色,以评估和改进评判质量(2024a)
      • 这一迭代过程解决了冗长和位置等偏差,增强了对齐和评估复杂任务的能力
      • 最后,利用合成数据创建生成对比响应为训练评估器提供了可扩展的解决方案(2024i)
      • 通过在合成偏好对上迭代改进评估,模型可逐步提高其鲁棒性和适应性
      • 将这些方法与多样化基准(2022;2022)、多方面评估标准(2020)和人类反馈(2023;2022)相结合,可确保评估在各个领域公平、可靠且与人类期望一致

Human-LLMs Co-judgement

  • 如前所述,LLM 作为评判中的偏差和脆弱性可通过人类参与评判过程进行进一步干预和校对来解决。然而,仅有少数研究关注这一方法
    • Wang 等人 (2023c) 引入了人机协同校准,采用平衡位置多样性熵来衡量每个示例的难度,并在必要时寻求人类协助
    • 在相关性评判背景下,Faggioli等人 (2023) 提出了人机协作光谱,根据人类依赖机器的程度对不同相关性评判策略进行分类
  • 未来方向(Future Direction)*
    • 随着数据选择(2023;2024)成为提高 LLM 训练和推理效率的日益流行的研究领域,它也有望提升 LLM 评估
    • LLM 作为评判可从数据选择中汲取灵感,使评判 LLM 能够作为关键样本选择器,根据特定标准(如代表性或难度)选择一小部分样本供人类注释者评估
    • 此外,人机协同评判的发展可受益于其他领域成熟的人机交互解决方案,如数据标注(2024b)和主动学习(2023)

NLP——LLM对齐微调-Pass@k-Training

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models, 20250814, RUC & ByteDance Seed
    • 相关博客:几行代码改个reward,让RL效果起飞

Paper Summary

  • 整体理解:
    • 论文在 RLVR 框架内提出了 Pass@k Training 方法:实现大语言模型探索和利用能力的相互提升,从而突破其整体性能的极限
    • 论文证明了使用 Pass@k 作为奖励可以有效增强模型探索多样化输出的能力,进而提高其利用能力
    • 为了提高训练效率和有效性,论文引入了 bootstrap 采样机制和优势函数的解析推导,以优化 Pass@k Training 过程
    • 为了更好地理解 Pass@k Training 的内在机制,论文从不同方面提出了五个研究问题,以解答 Pass@k Training 为何有效以及能带来哪些益处
    • 检查优势值曲线,论文初步确定了促成 Pass@k Training 成功的两个关键因素 ,即:
      • 绝对优势之和 \(\eta\) 的 argmax
      • 绝对优势之和 \(\eta\) 的趋势(trend)
  • 背景和问题:RLVR 通常采用 Pass@1 作为奖励,在平衡探索(exploration)和利用(exploitation)方面面临挑战,导致策略倾向于保守行为,收敛到局部最优
    • Pass@k 在之前的工作中已被用于评估,但它与 RLVR 中 LLM 探索能力的关联在很大程度上被忽视了
    • 论文使用 Pass@k 作为奖励来训练策略模型(即 Pass@k Training ),并观察到其探索能力的提升
    • 论文还推导了 Pass@k Training 优势的解析解,形成了一个高效且有效的流程
  • 作者通过分析得到以下发现:
    • 探索和利用并非本质上相互冲突的目标,反而可以相互促进
    • 带有解析推导的 Pass@k Training 本质上涉及直接设计优势函数
  • 受此启发,论文初步探索了 RLVR 的优势设计,展示了良好的结果,并指出了一个潜在的未来方向
  • 思考:论文的重点是公式 14 和 公式 15,这种给与负样本一定的奖励的方式究竟和普通的 RLVR 有何区别,还需要深思

Introduction and Discussion

  • RLVR 用于解决复杂推理任务,并显著提升大型语言模型 LLM 的推理能力(2024)
  • 在 RLVR 训练过程中,LLM 基于给定的提示生成各种响应,并根据响应获得奖励(2024)
  • LLM 从结果级(outcome-level)监督中学习,能够生成更全面的推理过程(2025),从而在下游任务上取得更好的性能
  • 大型推理模型(large reasoning models, LRMs,如 OpenAI o1(2024)和 DeepSeek R1(2025))的成功,表明 RLVR 训练突破了 LLM 的能力极限
  • 当前 RLVR 训练通常优化 Pass@1 目标,也称为 ** Pass@1 Training**
    • LLM 从自身探索中学习,并为给定提示生成最自信的响应(2025),这带来了探索与利用平衡的重大挑战(2025)
  • 通常,探索指的是执行新颖且多样的行为(2024),而利用则要求 LLM 调用验证器在已知行为中偏好的可靠行为(2024)
  • 在 Pass@1 Training 过程中,LLM 倾向于模仿在先前尝试中能提高奖励分数的行为 ,并避免获得低奖励的行为(2024, 2025)
    • 但在结果监督(这是流行的 Pass@1 Training 设置(2025))中,答案正确但推理错误的解会获得正奖励 ,而推理正确但答案错误的解会被赋予负奖励(2024, 2025)
    • 在这种情况下,包含正确思路的不成功探索往往不会获得奖励,代价很高,导致利用与探索失衡(2025),可能使策略放弃探索并收敛到局部最优(2021)
    • 受强化学习方法(如 PPO 和 GRPO)下奖励的次优性质限制(2013, 2024, 2025),LLM 面临进一步学习的挑战,限制了 RLVR 流程的有效性和提升潜力
  • 为了缓解 Pass@1 Training 中 LLM 探索能力受损的问题,论文提出一种以优化为中心的方法,对错误响应有更高的容忍度 ,因为这些响应可能包含有用的思路或推理行为 ,防止模型陷入局部最优 ,从而扩展其能力上限 ,使其逐渐接近全局最优
  • Pass@k 已被用于评估策略是否能在 k 次尝试内生成正确响应,这是评估 LLM 能力边界的常用指标(2024)
    • 与 Pass@1 指标相比,Pass@k 指标允许策略生成多个错误响应
    • 论文考虑是否可以在 RLVR 过程中利用 Pass@k 指标来突破 LLM 的能力边界
  • 在 Pass@k 评估中,为了最大化 k 个样本中至少有一个成功的概率,“聪明的(smart)” 的策略会生成 k 个彼此不同且覆盖解空间不同区域的候选解 ,而不是 k 个高度相似的样本
    • 更强的探索能力使模型能够获得更全面的知识和更强的鲁棒性
    • 理解:为了提升 Pass@k 指标的分数,聪明的策略应该是生成差异较大的多个解,而不是很相似的,这样才能最大化分数(广撒网,总能捞到鱼)
  • 论文利用 Pass@k 指标作为奖励,持续训练一个已经过 Pass@1 Training 的模型(称为 Pass@k Training )
    • 论文发现,通过这种方法训练的模型在测试集上能获得更高的 Pass@k 分数,同时保持其 Pass@1 分数
  • Pass@k Training 的朴素实现存在几个关键问题,论文进一步采用 bootstrap 采样(2004, 2006)和解析推导来优化训练过程,实现了高效且有效的 Pass@k Training(第 2 节)
  • 为了进一步理解 Pass@k Training 的特征和内在机制,论文提出了五个研究问题,以探究 Pass@k Training 在 RLVR 训练过程中如何平衡 LLM 的探索和利用能力
  • 论文还观察到 Pass@k 阻止了策略分布熵的自然下降,熵也是指示策略探索能力的关键指标(2025)(第 3 节)
  • 从隐式奖励设计的角度,论文分析了 Pass@k Training 有效性的关键因素,并探索了其优化的几种可能途径(第 4 节)
  • 总体而言,论文工作的主要收获可以总结如下:
    • 与 Pass@1 Training 相比,Pass@k Training 显著增强了 LLM 的探索能力,在提高 Pass@k 性能的同时不损害 Pass@1 分数
      • 在其三个渐进式变体中,bootstrap 采样比全采样具有更高的训练效率,而解析推导作为其理论渐近形式,减轻了采样引入的方差(第 2 节)
    • 与 Pass@1 Training 及其变体相比,Pass@k Training 对 k 的不同取值具有鲁棒性,并且在不同领域和任务中具有可推广性
      • LLM 探索能力的增强有助于通过持续训练提高其利用能力,使 7B 规模的 LLM 超越强大的 LLM(如 GPT-4o 和 Claude-3.7),凸显了 Pass@k Training 的实用价值(第 3 节)
    • 带有解析推导的 Pass@k Training 直接设计优势函数,可被视为一种隐式奖励设计形式
      • 实证实验表明,隐式奖励设计允许更精细的优化控制,例如专注于更难的问题或提高训练效率,而无需复杂的理论推导,这使其成为未来 RLVR 发展的一个有前景的方向(第 4 节)

Pass@k as Reward in RLVR Training

  • 本节的内容如下,
  • 首先阐述推理任务的公式化表达,回顾传统的 Pass@1 Training (第 2.1 节)
  • 介绍如何在 RLVR 训练过程中使用 Pass@k 作为奖励(第 2.2 节),然后提出两种渐进式增强方法来提高训练效率和有效性(第 2 节和第 2.4 节)
  • 论文在图 2 中展示了概述,并在附录 C 中提供了伪代码,展示 Pass@k Training 的实现细节

Formulation of Reasoning Tasks and Pass@1 Training

  • 复杂推理任务可以评估 LLM 的推理和逻辑能力
  • 一般来说:
    • 来自数据集 \(D\) 的一个问题包含描述 \(x\) 和真实答案 \(y\)
    • 策略 \(\pi_{\theta}\)(即具有参数 \(\theta\) 的 LLM)需要基于 \(x\) 生成响应
      $$\hat{y}=\{t_{1}, t_{2}, …, t_{l}\}$$
      • 其中 \(t_{i}\) 和 \(l\) 分别指第 \(i\) 个 Token 和响应 \(\hat{y}\) 的长度
    • 在获得生成的响应 \(\hat{y}\) 后,验证器用于验证 LLM 响应的正确性,并提供奖励
      $$ R(y, \hat{y}) \in \{R_\text{neg}, R_\text{pos}\}$$
      • \(R_\text{neg} < R_\text{pos}\)
      • \(R_\text{neg}\) 用于负响应
      • \(R_\text{pos}\) 用于正响应
    • 为了简化符号,论文用 \(R\) 表示 \(R(y, \hat{y})\)
    • 在论文的实验中,论文采用 \(R_\text{neg}=0\) 且 \(R_\text{pos}=1\)
  • 基于上述推理任务的公式化表达,在 Pass@1 Training 过程中(例如,GRPO(2024)),优势通过同一组内响应奖励的平均值和标准差来估计,如下所示:
    $$\overline{R}=\frac{1}{N_\text{rollout } } \sum_{i=1}^{N_\text{rollout } } R_{i}, \\
    \sigma=\frac{1}{N_\text{rollout } } \sqrt{\sum_{i=1}^{N_\text{rollout } }\left(R_{i}-\overline{R}\right)^{2} }, \\
    \hat{A}_{i, 1}=\hat{A}_{i, 2}=\cdots=\hat{A}_{i,\left|\hat{y}_{i}\right|}=\frac{R_{i}-\overline{R} }{\sigma},$$
    • \(N_\text{rollout}\) 表示对应问题的 rollout 响应数量
    • \(R_{i}\) 和 \(\hat{y}_{i}\) 分别指第 \(i\) 个响应的奖励和生成的响应
  • 获得优势值后,GRPO 利用以下方程计算目标函数 \(T(\theta)\),该函数用于执行梯度下降并优化模型参数:
    $$\mathcal{J}(\theta)=\mathbb{E}_{(q, a) \sim D,\left\{o_{i}\right\}_{i=1}^{G} \sim \pi_{\theta}(\cdot | q)}\left[\frac{1}{G} \sum_{i=1}^{G} \frac{1}{\left|\hat{y}_{i}\right|} \sum_{t=1}^{\left|\hat{y}_{i}\right|}\left(min \left(r_{i, t} \hat{A}_{i, t}, clip\left(r_{i, t}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_{i, t}\right)-\beta D_{kL}\right)\right] .$$
  • 由于在 GRPO 中每个 Token 共享相同的优势值,论文在后续讨论中将不再区分 Token 级别,而是用 \(\hat{A}_{i}\) 表示第 \(i\) 个响应的优势值
  • 为了提高 RLVR 训练过程的有效性和效率,论文在后续实验中采用了 GRPO 的一个变体(即 DAPO(2025)),仅保留 clip-higher 和 Token 级策略梯度损失

Pass@k Training

  • 论文考虑是否可以采用 Pass@k 指标作为奖励来突破 LLM 的能力边界(因为 Pass@k 可以反映 LLM 的探索能力)
  • 下面先介绍 Pass@k 指标的定义,在将 Pass@k 指标纳入 RLVR 的奖励函数中
  • Pass@k 指标的定义(Definition of Pass@k Metric) :
    • 给定问题 \(x\),策略模型通过特定的解码策略或搜索算法(例如,基于采样的解码策略或蒙特卡洛树搜索)rollout \(k\) 个响应
    • 第 \(i\) 个采样响应 \(\hat{y}_{i}\) 将获得由验证器提供的奖励 \(R_{i}\)
    • Pass@k 指标的值定义为从 \(k\) 个采样响应中获得的预期最大奖励。形式上,Pass@k 指标可以通过以下方程计算:
      $$Pass @ k=\mathbb{E}_{(x, y) \sim D,\left\{\hat{y}_{i}\right\}_{i=1}^{k} \sim \pi_{\theta}(\cdot | x)}\left[max \left(R_{1}, …, R_{k}\right)\right] .$$
  • Pass@k 实现:全采样(Pass@k Implementation: Full Sampling) :
    • 为了将 Pass@k 指标集成到 RLVR 过程中,论文通过全采样机制提出一种基本实现
    • 首先利用策略 \(\pi_{\theta}\) 为给定问题 rollout \(N_\text{rollout}\) 个响应
      $$ \hat{\mathcal{Y}}=\{\hat{y}_{1}, …, \hat{y}_{N_\text{rollout} }\} $$
      • 在这种情况下,这些响应被分成 \(N^\text{group}=\left\lfloor\frac{N_\text{rollout} }{k}\right\rfloor\) 个组,多余的响应被丢弃
        • 问题:这里有毒吧,生成时刻意生成整数倍的 rollout 就好了,为什么要生成了然后又丢掉?
      • 其中第 \(j\) 个组包含 \(k\) 个响应
        $$ \hat{\mathcal{Y}}^{j}=\{\hat{y}_{k \times(j-1)+1}, …, \hat{y}_{k \times(j-1)+k}\} $$
    • 然后论文根据每个组的 Pass@k 值为其分配奖励分数:
      • 验证器将为每个响应提供奖励,组奖励通过该组内响应的奖励的最大值计算
      • 遵循 DAPO 算法中的优势估计方法,可以计算第 \(j\) 个组的优势值 \(\hat{A}^{j}\)
      • 论文将组优势分配给该组包含的响应 ,即
        $$ \hat{A}_{k \times(j-1)+1}=\cdots=\hat{A}_{k \times(j-1)+k}=\hat{A}^{j}$$
        • 问题:这种分组是随机的,得到的结果真的置信吗?是否仅仅是增加熵损失或者随机对 rollout 结果进行 SFT 也能拿到收益?
          • 回答:也不是完全随机,绝对正确的样本始终能拿到正向的奖励
      • 最后,我们可以利用采样的响应及其优势值来优化模型参数
  • 实证见解:提高探索能力(Empirical Insight: Improving Exploration) :
    • 为了评估采用 Pass@k 作为奖励的有效性,论文比较了全采样的 Pass@k Training 与常规 Pass@1 Training 的性能,如图 3 所示
    • 论文观察到,在 Pass@1 Training 过程中,下游任务的 Pass@k 性能保持稳定且仅有轻微提升
      • 虽然 Pass@1 指标在训练初期有所提高,但在后期阶段停滞不前,表明模型已陷入局部最优
    • 相比之下,在 RLVR 过程中采用 Pass@k 作为奖励时,LLM 在下游任务上的 Pass@k 性能持续提升 ,更多的训练步骤或更多的 rollout 次数不断带来 LLMs 性能的进一步提升
      • 这表明 Pass@k Training 具有可扩展性
    • 特别说明:Pass@k Training 不会损害模型的 Pass@1 性能,甚至会带来 Pass@1 性能的提升
      • 这表明 Pass@k Training 和 Pass@1 Training 具有相似的优化目标和方向,并且它们可以一起得到改善
  • 图 3 基线设置下 Pass@1 Training 和全采样的 Pass@k Training 的训练进度
  • Takeaway from Section 2.2
    • 与使用 Pass@1 作为奖励函数的传统 RLVR 训练方法相比,使用 Pass@k 作为 RLVR 训练的奖励函数可以有效提高模型在下游任务上的 Pass@k 性能,同时不损害其 Pass@1 性能

Efficient Pass@k Training via Bootstrap Sampling(通过 Bootstrap 采样可实现高效的 Pass@k Training )

  • Pass@k Training 可以突破 LLM 的能力极限,但随着 \(N^\text{group}\) 的增加,rollout 次数显著增加,会消耗更多的计算资源
  • 论文考虑利用 bootstrap 采样机制来减少 rollout 次数,同时保持组的数量不变
  • 在 rollout 过程中,首先使用策略模型 \(\pi_{\theta}\) 为给定问题 \(x\) 生成 \(N_\text{rollout}\) 个响应
    $$ \hat{\mathcal{Y}}=\{\hat{y}_{1}, …, \hat{y}_{N_\text{rollout} }\} $$
  • 构建用于后续优化过程的 \(N^\text{group}\) 个组的过程
    • 从先前生成的响应集 \(\hat{\mathcal{Y}}\) 中随机采样 \(k\) 个响应,这些采样的响应共同构成一个组
      • 问题:上面这句话有点多余?
    • 为了构建第 \(j\) 个组,论文从 1 到 \(N_\text{rollout}\) 的范围内选择 \(k\) 个不同的值,得到集合
      $$ \mathcal{P}=\{p_{j, 1}, …, p_{j, k}\}$$
      • 然后,索引在集合 \(\mathcal{P}\) 中的响应构成当前组
        $$ \hat{\mathcal{Y}}^{j}=\{\hat{y}_{p_{j, 1} }, …, \hat{y}_{p_{j, k} }\}$$
    • 这个过程将重复 \(N^\text{group}\) 次,收集 \(N^\text{group}\) 组响应
  • 获得这些组后,我们可以估计每个组的优势值并将其分配给响应
  • 由于论文使用 bootstrap 采样策略来构建组,一些响应可能出现在多个组中
  • 对于每个响应,论文通过对其所属的所有组的优势求和来计算其最终优势,即:
    $$\hat{A}_{i}=\sum_{j=1}^{N^\text{group } } \hat{A}^{j} \cdot \mathbb{I}\left[\hat{y}_{i} \in \hat{\mathcal{Y} }^{j}\right],$$
    • 其中 \(\mathbb{I}[\hat{y}_{i} \in \hat{\mathcal{Y}}^{j}]\) 是一个指示函数,当且仅当第 \(i\) 个响应 \(\hat{y}_{i}\) 属于第 \(j\) 个组 \(\hat{\mathcal{Y}}^{j}\) 时返回 1,否则返回 0
    • 在实践中,论文为了高效的 RLVR 过程设置 \(N^\text{group}=N_\text{rollout}\)
  • 实证见解:减少训练预算(Empirical Insight: Reduction in Training Budget) :
    • 为了评估 bootstrap 采样对 Pass@k Training 的有效性,论文进行了 Pass@1 Training 和具有不同 rollout 次数的全采样 Pass@k Training (如第 2.2 节所述)作为基线方法,并在图 4 中展示了评估结果
    • 在相同的 rollout 次数 \(N_\text{rollout}\) 下
      • 即“\(N_\text{rollout}=32\) 采用全采样”与“\(N_\text{rollout}=32\) 采用 bootstrap 采样”,bootstrap 采样优于全采样
      • 这种改进源于 bootstrap 采样生成了更多的组 ,这反过来减少了采样奖励分布相对于真实分布的方差 ,从而得到更稳定和有效的训练
      • 理解:这种 bootstrap 采样的方式更合适,看似能够较为精确的区分相应的优劣(错误的回复是以概率被赋值奖励为 0 的),但本质是一样的,还是所有正确的回复都是正奖励,错误的回复以一定概率获得0奖励 or 正奖励
    • 在相同的组数量 \(N^\text{group}\) 下
      • 与全采样相比(即“\(N_\text{rollout}=128\) 采用全采样”),bootstrap 采样在 Pass@k 指标上不会导致显著的性能下降,并且它只需要理论计算成本的四分之一,从而实现更高的训练效率
      • 此外,它在 Pass@1 指标上达到了与全采样相当的性能
    • 总之,带有 bootstrap 采样的 Pass@k Training 优于 Pass@1 Training ,并提高了全采样训练过程的效率
  • 图 4 不同 \(N_\text{rollout}\) 下 Pass@1 Training 和带有 Bootstrap 采样的 Pass@k Training 的训练进度
  • Takeaway from Section 2.3
    • 与基于全采样的 Pass@k Training 方法相比,基于 bootstrap 采样的训练方法在相同的 rollout 次数下可以获得更好的训练结果
    • 在相同的组数量下,它可以减少计算开销,同时达到相当的性能

Analytical Derivation(解析推导)of Efficient and Effective Pass@k Training

  • 基于第 2.3 节中描述的 bootstrap 采样机制的想法,论文推导了响应优势(即 \(\hat{A}_\text{pos}\) 和 \(\hat{A}_\text{neg}\))的解析解,以消除构建组时的采样操作带来的方差
    • 推导的细节在附录 B 中呈现
  • 为了推导出优势的解析公式,论文首先分析组的优势奖励和标准差,即 \(\bar{R}^\text{group}\) 和 \(\sigma^\text{group}\)
  • 包含至少一个正响应的组(称为正组)将被分配正奖励 \(R_\text{pos}\),而其他组(称为负组)将被赋予负奖励 \(R_\text{neg}\)
  • 遵循 DAPO 的优势估计方法,计算组奖励分数的平均值和标准差至关重要
  • 首先,组的平均奖励可以表述为以下方程:
    $$\overline{R}^\text{group}=\frac{1}{N_\text{total }^\text{group} } × \left( N_\text{pos}^\text{group } × R_\text{pos }+N_\text{neg }^\text{group } × R_\text{neg }\right) ,\tag{7}$$
    • \(N_\text{total}^\text{group}\) 指组的总数
    • \(N_\text{pos}^\text{group}\) 和 \(N_\text{neg}^\text{group}\) 分别表示正组和负组的数量
  • 为了计算正组和负组的数量,论文首先定义正响应的数量为 \(N_\text{pos}\),负响应的数量为 \(N_\text{neg}\),通常有:
    $$ N_\text{pos}+N_\text{neg}=N_\text{rollout}$$
  • 基于上述定义,由于每个组由选择的 \(k\) 个响应构成,我们可以得到组的总数 \(N_\text{total}^\text{group}\) 如下:
    $$N_\text{total }^\text{group }=\left(\begin{array}{c}N_\text{rollout } \\ k \end{array}\right) =N_\text{pos}^\text{group }+N_\text{neg }^\text{group } .\tag{8}$$
  • 由于负组不包含正响应,当且仅当从所有响应中随机采样 \(k\) 个负响应时,这些采样的响应才能构成负组。因此,负组的数量可以计算如下:
    $$N_\text{neg }^\text{group }=\left(\begin{array}{c} N_\text{neg } \\ k \end{array}\right) .\tag{9}$$
  • 根据方程 8 和方程 9,我们可以得到正组的数量:
    $$N_\text{pos }^\text{group}=N_\text{total}^\text{group}-N_\text{neg}^\text{group}=\left( \begin{array}{c}{N_\text{rollout} } \\ {k}\end{array} \right)-\left( \begin{array}{c}{N_\text{neg} } \\ {k}\end{array} \right) .\tag{10}$$
  • 将方程 8、方程 9 和方程 10 代入方程 7,我们可以得到组的平均奖励 \(\bar{R}^\text{group}\):
    $$\overline{R}^\text{group }=1-\frac{\left(\begin{array}{c} N_\text{neg } \\ k \end{array}\right)}{\left(\begin{array}{c} N_\text{rollout } \\ k \end{array}\right)} .\tag{11}$$
  • 基于组的平均奖励 \(\bar{R}^\text{group}\),标准差可以计算如下:
    $$\sigma ^\text{group}=\sqrt {\overline {R}^\text{group}× \left( 1-\overline {R}^\text{group}\right) } .\tag{12}$$
  • 基于奖励分数的平均值(方程 11)和标准差(方程 12),论文最终可以推导出正组 \(\hat{A}_\text{pos}^\text{group}\) 和负组 \(\hat{A}_\text{neg}^\text{group}\) 的优势如下:
    $$\hat{A}_\text{pos}^\text{group}=\frac{R_\text{pos}-\overline{R}^\text{group} }{\sigma^\text{group} }=\frac{1-\overline{R}^\text{group} }{\sigma^\text{group} }, \hat{A}_\text{neg}^\text{group}=\frac{R_\text{neg}-\overline{R}^\text{group} }{\sigma^\text{group} }=-\frac{\overline {R}^\text{group} }{\sigma ^\text{group} } .\tag{13}$$
  • 为了将前一节中获得的组相关优势 \(\hat{A}_\text{pos}^\text{group}\) 和 \(\hat{A}_\text{neg}^\text{group}\) 转换为响应相关优势 \(\hat{A}_\text{pos}\) 和 \(\hat{A}_\text{neg}\),论文需要考虑每个响应所属组的正确性,并按比例计算优势值
    • 通常,一个响应将属于 \(\left(\begin{array}{c}N_\text{rollout }-1 \\ k-1\end{array}\right)\) 个组,因为当且仅当从剩余的 \(N_\text{rollout}-1\) 个响应中选择 \(k-1\) 个响应时,才能与当前响应形成一个组
    • 此外,对于正响应,它所属的组总能通过 Pass@k 验证(即正组)
    • 因此,正响应的优势 \(\hat{A}_\text{pos}\) 可以计算如下:
      $$ \color{red}{\hat{A}_\text{pos }=\frac{1-\overline{R}^\text{group } }{\sigma^\text{group } } } .\tag{14}$$
  • 然后,考虑负响应,它所属的组是负组当且仅当其他 \(k-1\) 个响应都是负响应。在这种情况下,所需的组数量是 \(\left(\begin{array}{c}N_\text{neg }-1 \\ k-1\end{array}\right)\),即当前响应可以与从剩余的 \(N_\text{neg}-1\) 个负响应中选择的任何 \(k-1\) 个响应形成负组
    • 基于负组的数量,我们可以通过从组的总数中减去负组的数量来计算正组的数量,即 \(\left(\begin{array}{c}N_\text{rollout }-1 \\ k-1\end{array}\right)-\left(\begin{array}{c}N_\text{neg }-1 \\ k-1\end{array}\right)\)
    • 因此,负响应的优势 \(\hat{A}_\text{neg}\) 可以计算如下:
      $$ \color{red}{ \hat{A}_\text{neg}=\left(1-\overline{R}^\text{group }-\frac{\left(\begin{array}{c} N_\text{neg }-1 \\ k-1 \end{array}\right)}{\left(\begin{array}{c} N_\text{rollout }-1 \\ k-1 \end{array}\right)}\right) \times\left(\sigma^\text{group }\right)^{-1} }.\tag{15}$$
    • 问题:使用这种相对固定的(因为分母上存在方差,所以不算是严格的固定),比正样本小一些的奖励,是否等价于不给任何奖励啊?
  • 在获得响应相关优势 \(\hat{A}_\text{pos}\) 和 \(\hat{A}_\text{neg}\) 的解析解后,论文直接将它们用于优势估计过程,然后优化模型参数
    • 通过检查优势值的解析解,论文观察到它仅取决于采样响应的总数 \(N_\text{rollout}\)、正响应的数量 \(N_\text{pos}\)、负响应的数量 \(N_\text{neg}\) 以及 \(k\) 的值
    • 因此,在 rollout 过程之后,我们可以直接计算每个响应的优势值用于 RLVR 训练,而无需经过前面描述的繁琐奖励计算过程
    • 问题:这是否再次说明了,实际上随机挑选一部分负样本给与一定权重(权重可以是超参数)奖励就可以,不需要那么复杂做什么 Pass@k Training?
  • 实证见解:Pass@k 的进一步改进(Empirical Insight: Further Improvement on Pass@k) :
    • 为了进行评估和比较,论文将 rollout 次数 \(N_\text{rollout}\) 统一设置为 32,并比较了 Pass@1 Training 以及带有 bootstrap 采样和解析推导的 Pass@k Training 的训练效果
    • 实验结果如图 5 所示
    • 为了进行全面评估,论文还进行了不同 LLM 在各种任务上的外部实验,并在附录 E 中展示了结果
    • 在实验中,我们可以观察到两种 Pass@k Training 都比 Pass@1 Training 取得了更好的结果,这进一步证实了 Pass@k Training 的有效性
    • 当训练步骤增加时,基于 bootstrap 采样的 Pass@k Training 在 400 步时经历了相对剧烈的性能波动,Pass@k 性能下降,这表明该方法存在一定的不稳定性
      • 理解:不稳定的原因是因为采样,而使用带有解析推导的 Pass@k Training 则没有采样,会更稳定
    • 相比之下,对于基于 bootstrap 采样的方法,带有解析推导的 Pass@k Training 消除了构建组所需的采样过程
    • 它通过解析解的计算直接减少了采样过程引起的方差,从而提供了更稳定的训练过程
    • 因此,带有解析推导的 Pass@k Training 方法可以减少训练过程中的波动,并随着训练步骤的增加带来持续的性能提升
  • Takeaway from Section 2.4
    • 带有解析推导的 Pass@k Training 不仅避免了全采样中大量 rollout 带来的计算开销,还消除了 bootstrap 采样中采样引入的方差。这使得 RLVR 训练过程更高效和有效,并且可以引导模型的探索能力随着训练步骤的增加而不断提高

Balancing Exploration and Exploitation with Pass@k Training

  • 在本节中,论文进一步研究 Pass@k Training 的特征和有效性
  • 第 3.1 节:论文将 Pass@k Training 与常用的增强模型探索能力的方法(2025, 2025)进行比较,以进一步验证其有效性
  • 第 3.2 节:为了更深入理解 Pass@k Training 如何影响模型的探索能力,论文考察了模型响应的多样性和策略分布的熵
  • 第 3.3 节:论文想知道 Pass@k Training 带来的改进是否可以迁移到其他领域或任务中,进而评估其泛化性能
  • 第 3.4 节:由于 RLVR 的稳定性和鲁棒性受到广泛关注(2023, 2025, 2025),论文分析了 k 值对 Pass@k Training 过程的影响
  • 第 3.5 节:由于 Pass@1 在实际应用中是一个更重要的指标,论文探索了如何将 Pass@k Training 的收益迁移到模型的 Pass@1 性能上,实验结果证明了 Pass@k Training 的高实用价值

How does Pass@k Training Compare to Noise Rewards or Entropy Regularization?(Pass@k Training 与噪声奖励或熵正则化相比)

  • 受 Pass@k Training 流程(第 2.2 节)和先前工作(2025)的启发,论文将 Pass@k Training 与两种基线方法(即噪声奖励(Noise Rewards)和熵正则化(Entropy Regularization))进行了比较
  • 噪声奖励(Noise Rewards) :
    • 回顾利用 Pass@k 指标作为奖励的 RLVR 流程(如第 2.2 节所述),论文注意到,如果某些负响应属于正组,它们可能会获得正奖励 \(R_\text{pos}\)
      • 这引发了一个问题:Pass@k 分数的提升是否部分源于从这些带有反事实正奖励的负响应中学习
    • 为了探究这一点,论文进行了一项实验,其中一定比例(即 10%、30% 和 50%)的负响应奖励被翻转
    • 结果如图 6a 所示,实证结果表明:
      • 鼓励 LLM 从负响应中学习对提高其推理能力没有帮助 ,相反,在奖励中引入更高比例的噪声会显著降低模型性能
      • 随着翻转奖励比例的增加,模型在 Pass@1 和 Pass@k 指标上的性能均逐渐下降
      • 随着训练步骤的增加,性能继续下降
      • 理解:翻转的负样本得到的奖励太高,不行,应该给与较小的奖励才公平?
    • 这些发现表明,天真地在奖励中加入噪声并不能增强 LLM 的推理能力
      • 相反,必须仔细控制噪声比例,例如通过 Pass@k 指标的结构化设计,这可以引导 LLM 突破其现有推理能力的限制
  • 熵正则化(Entropy Regularization) :
    • 大量研究(2025)指出,熵可以指示 LLM 的探索能力,并且可以纳入目标函数以保持其探索能力
    • 遵循先前的工作(2025),论文在 RLVR 训练过程中采用系数为 {0.001, 0.003, 0.005} 的熵正则化,并在图 6b 的右侧部分展示结果
    • 结果表名:
      • 高熵正则化系数可能导致模型崩溃(例如将系数设置为 0.005 时)
      • 尽管小的熵正则化系数不会使 LLM 崩溃,但它仍然无法优于 Pass@k Training,甚至会随着训练步骤的增加导致 LLM 的性能下降
    • 上述现象表明,熵正则化可能会影响训练的有效性和稳定性
  • 关于其他熵引导方法的讨论(Discussion about Other Entropy-guided Approaches) :
    • 论文比较了 Pass@k Training 与熵引导方法的朴素实现(即熵正则化)的有效性
    • 此外,还有其他几种方法,例如将熵集成到优势函数中(2025)或关注具有高协方差的 Token(2025)
    • 同样,这些方法可能会引入新的权衡:
      • 过于严格的约束可能导致欠拟合和模型训练不足,而过于宽松的约束可能导致训练过程中的不稳定性,潜在地影响训练有效性和模型性能(2023, 2025, 2025),因为熵与 Pass@1 指标相冲突
    • 因此,在上述方法中,应仔细选择超参数以带来 LLM 的性能提升
    • 实际上,这些方法与 Pass@k Training 是正交的 ,这意味着也可以将这些方法与 Pass@k Training 相结合以获得更好的训练结果
    • 为了验证这一点,论文在第 4.2.3 节中进行了实验,评估基于策略熵指导的 Pass@k Training 的有效性,结果显示有显著改进
  • Takeaway from Section 3.1
    • Pass@k Training 优于噪声奖励和熵正则化:随机翻转负响应的奖励可能会降低 LLM 的性能,而引入熵正则化会带来新的权衡问题,难以实现持续改进

Does Pass@k Training Really Improve the Exploration Ability of LLMs?(是否提高 LLM 的探索能力?)

  • 为了分析 RLVR 训练过程中 LLM 探索能力的变化,论文从答案多样性和策略分布熵的角度进行了相关实证研究,并在图 7 中展示了相应结果
  • 负响应的答案多样性(Answer Diversity of Negative Responses) :
    • 论文统计了 Pass@k 和 Pass@1 Training 的负响应中答案的准确性和不同答案的比例,如图 7a 所示,旨在评估 LLM 对不确定答案的探索能力
    • 根据结果,论文观察到在 RLVR 训练过程中,负响应的答案多样性保持在同一水平,这表明 LLM 在探索过程中试图选择“安全”的行为,并倾向于生成相似的答案,限制了探索范围并制约了 RLVR 的有效性
    • 不同的是,在 Pass@k Training 中,模型被鼓励获得更高的 Pass@k 分数,并在对问题没有足够信心时自然地学习生成多样化答案的策略
    • 在这种情况下,LLM 的探索能力得到增强,进而提高了其利用能力(即 Pass@1 分数)
  • 策略分布的熵(Entropy of Policy Distribution) :在图 7b 中,结果与论文之前关于答案多样性的讨论得出了相似的结论
    • Pass@k Training 将策略分布的熵保持在相对较高的水平,而 Pass@1 Training 导致熵收敛到较低的值
    • 这一现象表明,LLM 在 Pass@k Training 过程中能够保持其探索能力,但在 Pass@1 Training 过程中会丧失探索能力
    • 另一方面,论文还可以观察到,从 RLVR 过程的 200 步开始,Pass@k Training 导致熵增加。这一现象验证了论文的假设,即使用 Pass@k 作为训练目标可以鼓励模型进行更多探索,从而自然地增加熵
  • 总之,探索和利用并不相互冲突,它们可以相互促进,且Pass@k Training 能够实现这一目标
  • Takeaway from Section 3.2
    • Pass@k Training 可以鼓励模型进行更多探索,在模型没有足够信心生成正确答案时,生成多样化的答案,自然地导致熵的增加

hat is the Generalization Ability of LLMs After Pass@k Training?(泛化能力如何)

  • 为了分析 Pass@k Training 的泛化能力,论文进行了相应的实验,并在表 1 中展示了结果
  • 我们可以观察到,Pass@1 和 Pass@k Training 都能增强模型在域内和域外任务上的能力 ,这表明 RLVR 训练过程具有很强的泛化能力
  • 比较这两种训练方法的性能,通过 Pass@k Training 的模型优于通过 Pass@1 Training 的模型 ,其原因是:
    • Pass@k Training 鼓励模型探索更好的解决方案,这些解决方案可以很容易地泛化到其他任务
    • Pass@1 Training 使 LLM 行为保守,从而影响 LLM 的域外(OOD)性能
  • Takeaway from Section 3.3
    • Pass@k Training 比 Pass@1 Training 表现出更强的泛化能力,在域内和域外测试中都比基础模型有更大的改进

How does the Value of k Affect Pass@k Training?(k 值对 Pass@k Training 的影响)

  • 为了分析 Pass@k Training 的鲁棒性,论文将 k 值调整为 4、8、16,在迷宫(Maze)任务上进行 RLVR 训练,并分别在图 8a 和图 8b 中展示训练奖励和测试集的 Pass@k 性能
    • 无论 k 值如何,随着训练的进行,训练奖励都能提高到相对较高的水平,这表明 k 值并不是帮助 LLM 摆脱 Pass@1 Training 局部最优的关键因素
    • 随着 k 值的增加,改进速度减慢,影响训练效率
    • 通过分析优势值的解析解(即公式 14 和公式 15),我们可以意识到,更大的 k 值会带来更小的优势值 ,导致更短的优化步骤,从而降低训练效率
  • 基于这一现象,论文研究了缩放学习率(LR)以扩大优化步骤是否能提高训练效率
    • 基于这一想法,论文在 \(N=32\) 和 \(k=8\) 的设置下采用 \(1×10^{-6}\)、\(2×10^{-6}\)、\(4×10^{-6}\) 的学习率,并在图 8c 和图 8d 中展示结果
    • 随着学习率的增加,拐点出现得更早,表明训练效率更高
    • 当论文采用 \(4×10^{-6}\) 作为学习率时,Pass@8 训练的训练效率甚至超过了 Pass@4 训练
    • 这些结果表明,训练效率问题可以很容易地得到缓解
  • Takeaway from Section 3.4
    • Pass@k Training 对 k 值的选择具有很强的鲁棒性,能够实现稳定且有效的训练过程
    • 尽管随着 k 值的增加,模型的优化效率会有所下降,但这一问题可以通过增大学习率轻松解决

Can the Benefits from Pass@k Training Be Transferred to Pass@1 Performance?(将 Pass@k Training 的收益迁移到 Pass@1 上?)

  • 为了将 Pass@k Training 带来的收益迁移到 LLM 的 Pass@1 性能上,一种自然的实现方式是在经过 Pass@k Training 的模型上继续进行 Pass@1 Training
  • 论文在 RLVR 训练过程中采用了这种方法,并分别在表 2 和表 3 中展示了 Qwen 模型在谜题(Puzzle)任务上以及 Seed1.5-VL-Small(内部版本)在多模态推理任务上的结果
  • 为了进行全面评估,论文还在附录 E 中进行了不同 LLM 在 Enigmata 和数学任务(例如,AIME 2024和 AIME 2025)上的外部实验
  • 第一,在 Pass@k Training 之后进行 Pass@1 Training 可以显著提高 LLM 的推理能力,实现显著的 Pass@1 性能
    • 根据结果,我们可以观察到,即使是 7B 模型也能超越强大的闭源 LLM,包括 Grok-2、GPT-4o 和 Claude-3.7-Sonnet
    • 这可能是因为 Pass@k Training 增强了 LLM 的探索能力,引导其摆脱局部最优,并在后续的 RLVR 训练中释放 LLM 的潜力
  • 第二,无论是小规模还是大规模的 LLM(例如,具有 7B 或 32B 参数的 Qwen2.5)都能从 Pass@k Training 中受益
    • 此外,模型架构和模型系列不会影响持续 Pass@1 Training 的改进。Qwen 模型是密集型模型,而 Seed1.5-VL-Small(内部版本)是 MoE 模型
    • 它们的 Pass@1 性能在 Pass@k Training 后都能进一步提高
  • 第三,下游任务的领域和形式也不会影响 LLM 的 Pass@k 性能到其 Pass@1 性能的迁移
    • 论文的评估包括用自然语言表达的合成谜题任务,以及问题描述中包含图片的多模态推理任务
    • 这些任务要求 LLM 具备不同类别的能力,而论文的 Pass@k Training 可以有针对性地增强相应的能力,表现出很强的有效性
  • Takeaway from Section 3.5
    • Pass@k Training 带来的收益可以迁移到 LLM 的 Pass@1 性能上,这不受模型参数规模(例如,7B 或 32B)、模型架构(例如,密集型模型或 MoE 模型)、模型系列(即 Qwen 模型或 Seed 模型)或下游任务(自然语言任务或多模态任务)的影响

Generalizing Pass@k Training via Implicit Reward Design(隐式奖励设计推广 Pass@k Training)

  • 如第2节 所述,论文通过推导优势函数的解析形式,实现了高效且有效的 Pass@k Training
  • 在本节中,论文将从优势函数的角度进一步探究 Pass@k Training 成功的关键因素(4.1节)
  • 优势函数设计可被视为一种隐式奖励设计,受此启发,论文将探索在难以从奖励函数推导出解析解的场景下,如何基于优化目标直接设计优势函数(4.2节)

Difference Between Pass@1 and Pass@k Training

Analysis Based on Advantage Value Curves
  • 为了分析 Pass@k Training 为何能帮助 LLM 摆脱局部最优,论文首先可视化了 Pass@1 Training 和 Pass@k Training 在不同正确性水平响应上的优势曲线
    • 在 GRPO 及其变体中,优势值仅取决于模型响应的正确性
    • 在优化过程中,优势值直接与梯度相乘,可被解释为梯度的缩放因子
    • 在这种情况下,优势值的绝对值越大,意味着梯度的缩放程度越大,相应样本的更新步长也就越大
    • 这表明模型会对优势值绝对值较大的样本投入更多的优化精力
  • 作者认为优势值的绝对值也是一个值得研究的重要方面
  • 基于这一见解,为简化分析,论文计算了所有响应的绝对优势值之和\(\eta\) ,定义如下:
    $$
    \eta = N_\text{pos} \times \left|\hat{A}_\text{pos}\right| + N_\text{neg} \times \left|\hat{A}_\text{neg}\right|,
    $$
  • 论文将 \(\eta\) 的曲线(称为绝对优势之和(Sum of Absolute Advantage))添加到可视化中,并展示在图9中
  • 对比 Pass@1 Training 和 Pass@k Training 的 \(\eta\) 曲线,论文发现存在三个主要差异
    • 绝对优势之和的最大值 :
      • Pass@1 Training 方法的 \(\eta\) 最大值远高于 Pass@k Training 方法
      • 正如论文在3.4节中讨论的,最大优势值可能会影响训练效率,通过在损失函数上添加系数来调整优势值可以缓解这一问题
      • 因此,最大值并非 Pass@k Training 优于 Pass@1 Training 的关键因素
    • 绝对优势之和的 argmax :
      • 根据图9中的曲线,Pass@1 Training 和 Pass@8 Training 的 \(\eta\) 的 argmax 存在显著差异
        • 对于 Pass@1 Training,\(\eta\) 的最大值出现在正确率为 50% 的位置(即 \(N_\text{pos} = 0.5 \times N_\text{rollout}\))
        • 对于 Pass@8 Training,最大值的位置为正确率 25%(即 \(N_\text{pos} = 0.25 \times N_\text{rollout}\))
      • 这一现象表明,Pass@k Training 侧重于优化更难的问题,而 Pass@1 Training 则侧重于中等难度的问题
        • 理解:因为优势函数是权重,权重越高的问题,模型就更侧重他们 \(\eta\) 的 argmax 则表明了模型在关注哪部分问题
      • 这进一步证明,Pass@k Training 倾向于引导模型解决先前未解决的或困难的问题,而不是过拟合于已经掌握的问题
    • 绝对优势之和的趋势 :
      • Pass@1 Training 和 Pass@k Training 的函数曲线之间的另一个关键差异在于函数本身的趋势
      • 在 Pass@k Training 的\(\eta\)曲线中,其值先上升至峰值,然后逐渐下降至零
      • 在这种设置下,当问题相对容易时(即正确率高于60%),模型施加的优化强度(由\(\eta\)的值表示)会小于对更难问题的优化强度
      • 这进一步表明, Pass@k Training 更注重优化模型尚未掌握的问题
      • 相比之下,在 Pass@1 Training 中,\(\eta\)曲线关于最大值点对称,表明训练过程对简单问题和困难问题给予同等关注
Analysis Based on Model Performance
  • 正如论文在前面章节中讨论的,绝对优势之和 \(\eta\) 的 argmax 和趋势对模型性能的影响仍不明确
  • 因此,在本节中,论文设计了相应的实验,基于模型性能来分析它们的有效性
  • 此外,论文设计了两种介于 Pass@1 和 Pass@k Training 之间的训练方法,即移除简单问题的优势值,以及基于当前提示的正确率结合 Pass@1 和 Pass@k 的优势估计方法
  • 这四种训练方法的 \(\hat{A}_\text{pos}\)、\(\hat{A}_\text{neg}\) 和 \(\eta\) 的曲线如图18a和图18b所示
  • 第一,当响应的正确率较高时,论文设计优势函数逐渐减小至零
    • 这种设置使得优化过程中的训练奖励能够稳步增加,表明模型避免陷入局部最优(即蓝线和紫线)
    • 当移除这种优化时,训练集上的奖励无法继续增加,这表明模型已经收敛到局部最优,并且在RLVR过程中不再学习新知识(即红线和绿线)
    • 这一现象表明,过度从简单示例中学习是导致模型陷入局部最优的关键因素
    • 因此,减少对简单问题的学习程度有助于防止模型陷入此类次优解
  • 第二,简单地将简单问题的奖励设置为零并不足以有效防止模型对其过度优化;这只是延迟了模型陷入局部最优的时间点
    • 如图10所示,移除对简单问题的优化(以红线表示)比基线(以绿线表示)带来了更高的训练奖励和更好的测试性能
    • 然而,两条曲线呈现出相似的趋势:在初始阶段的改进之后,模型性能逐渐趋于平稳,难以取得进一步进展
  • 第三,关于 \(\eta\) 函数的 argmax 位置的选择 ,对比图10中的曲线可以发现,将 argmax 向前移动会带来更高的优化效率
    • 具体而言,模型能够更快地摆脱局部最优,并且训练奖励的转折点出现得更早
    • 这一现象表明,困难问题对模型改进的贡献更大,并且能产生更好的优化效果
    • 因此,为更难的问题分配更大的优化强度可以有效提高训练效率,使模型用更少的训练步骤达到更好的性能
  • 基于上述结果和讨论,可以得出一些初步结论,即 \(\eta\) 的 argmax 会影响训练效率,而 \(\eta\) 的趋势会防止模型陷入局部最优
    • 此外,需要注意的是,这只是论文的初步结论。需要针对特定任务和场景进行更全面的实验以进一步验证
  • Takeaway from Section 4.1 :
    • 在 RLVR 训练过程中,简单问题很容易导致过拟合
    • 适当地降低对简单问题的优化强度,有助于防止模型陷入局部最优,从而获得更好的整体性能

RLVR Training Through Implicit Reward Design

  • 基于前一节对优势值曲线特性的分析,论文在本节中探索对优势函数的初步修改,即隐式奖励设计
  • 论文的目标是探索隐式奖励设计的潜力,并为未来的研究提出几个有前景的方向
Exceeding Pass@k Training
  • 在之前的讨论中,论文发现 \(\eta\) 函数的最大值位置会影响训练目标(侧重于 Pass@1 还是 Pass@k)
  • 基于这些观察和结论,论文假设\(\eta\)函数的峰值出现得越早, Pass@k Training 的优化性能就越好
  • 为了验证这一假设,论文设计了一个转换函数如下:
    $$
    f\left(N_\text{pos}\right) = \frac{4}{10 \log \left(N_\text{pos} + 0.5\right)}, \hat{A}’ = f\left(N_\text{pos}\right) \times \hat{A}.
    $$
  • 应用转换函数后的优势值曲线如图18c所示
  • 论文观察到,在转换后的曲线中,\(\eta\) 函数的峰值向前移动到正确率为 \(\frac{1}{32}\) 的位置,根据论文的假设,这种优势函数的修改有望为 Pass@k Training 带来更好的优化性能
  • 论文将这种转换函数集成到 RLVR 训练过程中(称为超越 Pass@k Training (Exceeding Pass@k Training)),相应的训练结果如图 11 所示
  • 从实验结果中,论文观察到超越 Pass@k Training 能够在训练早期有效提高模型的 Pass@k 性能
    • 但由于这种方法过分强调困难问题,下游任务的 Pass@1 性能改进进展较为缓慢
  • 基于这些观察和分析,论文假设可以根据模型的当前状态自适应地调整优势值的计算(论文将其留作未来的研究方向)
Combination of Pass@1 and Pass@k Training
  • 从之前的分析中,论文观察到 Pass@k Training 更注重优化更难的问题,并防止模型过拟合于简单问题
  • 受此观察启发,论文考虑将 Pass@1 Training 和 Pass@k Training 结合起来是否有益
  • 因此,论文设计了以下公式来估计最终的优势值:
    $$
    \hat{A} = \frac{N_\text{pos} }{N} \times \hat{A}_{Pass@k} + \left(1 - \frac{N_\text{pos} }{N}\right) \times \hat{A}_{Pass@1}, \tag{18}
    $$
    • 其中,\(\hat{A}_{Pass@k}\) 和 \(\hat{A}_{Pass@1}\) 分别表示通过 Pass@k 和 Pass@1 Training 方法估计的优势值
  • 在上述公式(称为组合训练(Combination Training))中
    • 当采样响应的正确率较低时,来自 Pass@1 Training 的优势值会被赋予更高的权重并主导训练过程,从而带来较高的训练效率
    • 当采样响应的正确率较高时,来自 Pass@k Training 的优势值会被赋予更大的权重,从而避免大语言模型过拟合于已经掌握的问题
  • 在图12 中,论文展示了 Qwen 系列模型在 Enigmata 基准上的训练结果
  • 论文观察到,对于 Pass@ 和 Pass@8 指标,通过组合训练得到的模型始终优于通过标准 Pass@k Training 得到的模型
  • 在组合训练过程中,模型性能提升迅速,并保持较高的增长率,相比之下, Pass@k Training 导致性能提升较慢
    • 这是因为:
      • 1)困难问题需要模型进行大量探索才能有效学习,因此难以快速改进
      • 2)简单问题在训练过程中获得较低但足够的优化强度
    • 以上这两个因素共同导致 Pass@k Training 的优化效率低于组合训练
  • 上述分析进一步支持了基于模型当前状态调整优势函数可以有效提升模型性能的观点
Adaptive Training based on Policy Entropy
  • 基于前一节的见解,论文探索是否可以在整个 RLVR 过程中自适应地调整训练目标
  • 如先前的工作(2025)所讨论的,策略分布的熵可以指示其探索能力
  • 论文进行了基于策略熵指导的 Pass@k Training (称为自适应训练(Adaptive Training))
  • 具体而言,论文首先计算每个问题的采样响应的平均熵 \(\bar{E}\),然后根据 \(\bar{E}\) 对每个问题进行排序
  • 论文将前 50% 指定为高探索问题,其余为低探索问题
    • 对于高探索问题,论文使用 Pass@1 优势函数来帮助模型利用先前的探索成果
    • 对于低探索问题,论文应用 Pass@k 优势函数来鼓励进一步探索
    • 这种方法利用策略熵来指导优势计算,使论文能够结合不同训练策略的优势
  • 论文在图13 中展示了实验结果
  • 图13 的实验结果表明:
    • 在自适应训练下,模型在 Pass@1 和 Pass@k 性能上都取得了有效的提升,优于 Pass@1 Training 和 Pass@k Training
      • 这表明 Pass@1 Training 和 Pass@k Training 是互补的
    • 通过设计适当的适应机制,有可能更好地利用两种训练方法的优势,使模型在下游任务上取得更好的性能
    • 这也证实了策略分布的熵可以作为模型探索能力的指标,并且与 Pass@k Training 能够很好地结合
    • 使用熵作为监控信号来调整 RLVR 训练比直接将其用作训练目标能产生更好的结果
  • Takeaway from Section 4.2 :
    • 隐式奖励设计可以更好地控制优化过程,避免复杂的理论推导
    • 具体而言,增加对更困难问题的优化强度可以有效提升模型解决这些问题的能力(即 Pass@k 性能),而结合或动态调整不同形式的优势估计可以同时提升探索和利用能力

Related Work

Reinforcement Learning with Verifiable Rewards

  • 为了释放 LLM 的推理能力,DeepSeek 直接在 DeepSeek-V3 上采用 RLVR ,得到了大型推理模型 DeepSeek-R1-Zero(2025),该模型能够执行具有复杂推理动作(如反思和验证)的推理过程
  • 鉴于 DeepSeek-R1 的成功,大量研究(2025;)探索了 RLVR 在流行的开源大语言模型上的有效性,如 Qwen(2024)、Mistral(2023)和 LLaMA(2024)
  • 此外,RLVR 训练范式可以帮助大语言模型控制其推理时间(2025)、切换推理模式(2025;)、增强特定性能指标(2025),以及在无监督的情况下提升自身能力(2025;)
  • 然而,最近的研究指出,流行的 RLVR 算法(如 PPO(2017)和 GRPO(2024))仍然面临严峻挑战,如训练不稳定性、模型崩溃和奖励噪声(2025;)
  • 为了缓解这些问题,现有研究提出了对采样策略(2025)、目标函数设计(2025;)和数据选择(2025)的优化
  • 具体而言,先前的工作(2025)将 Pass@k 用作策略梯度算法(1992)的奖励,以鼓励模型解决更难的问题
  • 然而,Pass@k RLVR 训练与大语言模型探索能力之间的内在联系尚未得到充分认识
  • 论文通过三种方法(图5)在 GRPO 及其变体中进一步采用 Pass@k 指标,并推导了 RLVR 训练中 Pass@k 奖励的优势值解析解
  • 此外,根据实证实验和理论分析,论文讨论了 Pass@k Training 在平衡大语言模型 RLVR 训练过程中的探索和利用能力方面的益处,展示了 Pass@k RLVR 训练的巨大潜力,并指出了未来有前景的研究方向
Effective Exploration in Test-time Scaling
  • 最近,测试时扩展被提出,它旨在通过在推理时消耗更多计算资源来提高大语言模型的性能(2025)
  • 由于大语言模型不断利用探索获得的经验来优化其性能,因此在测试时扩展过程中,有效的探索是重要且必要的(2025;2025)
  • 但现有工作表明,探索能力受到相应基础模型的限制,阻碍了模型性能的持续扩展(2025)
  • 为了缓解这一问题,先前的工作提出了几种方法,包括
    • 通过调整采样超参数(2025;2025;2025)
    • 执行自我验证和自我反思(2025;2025;2025)
    • 利用外部模型验证推理过程(2025;2025)
  • 除了从模型外部角度出发的这些方法外,通过模型内部机制探索其探索能力也同样重要
  • 当前研究从策略分布的熵的角度出发,指出熵可以指示大语言模型的探索能力(2025;2025),并且高熵 token 对模型优化至关重要(2025)
  • 基于这些发现,在 RLVR 训练过程中采用了训练关键 token(2025)和添加正则化(2025;2025)的方法,以避免大语言模型探索能力的下降
  • 此外,一些研究专注于通过选择有用的采样经验(2025;2025)、将熵集成到优势估计中(2025)来增强大语言模型的探索能力

附录 A:Experiment Setup

A.1 Details of Downstream Tasks

  • 本节介绍每个下游评估任务的详细信息
  • 迷宫(Maze)
    • 论文遵循先前工作提出的框架来合成不同大小的迷宫
    • 每个迷宫用文本表示,包含 n 行 n 列,共 n×n 个字符。具体来说,每个字符是以下四种之一:“S”“E”“*”和“.”,分别表示起点、终点、可通行区域和不可通行区域
    • 给定迷宫,LLM 可以先生成思路或推理过程,然后生成最终答案,包括“U”“D”“L”“R”四种动作之一,分别表示向上、向下、向左、向右移动
    • 对于训练数据,论文构建了 9×9、11×11、13×13 和 15×15 大小的迷宫,以增加训练数据的多样性
    • 对于测试数据,为了评估 RLVR 过程的泛化能力,论文不仅使用与训练数据集相同大小的迷宫,还收集了 7×7、17×17、19×19 和 21×21 大小的迷宫
    • 为确保实验的有效性,论文在生成训练和测试数据后进行了严格的去重操作
    • 数据集的统计信息如表4所示
    • 为了更清晰地呈现实证见解,论文在上述正文中只展示了 9×9 迷宫的结果,其余结果在附录E.3中呈现
  • Enigmata
    • 为评估大语言模型的推理和逻辑能力,Enigmata 提出了一个综合基准,包括 36 类合成可验证谜题,分属 7 个主要类别,包括密码谜题(Crypto Puzzle)、算术谜题(Arithmetic Puzzle)、逻辑谜题(Logic Puzzle)、网格谜题(Grid Puzzle)、图形谜题(Graph Puzzle)、搜索谜题(Search Puzzle)和序列谜题(Sequential Puzzle)
    • 每个类别都能评估大语言模型的不同能力
    • 为便于理解,论文在图15 中展示了一个测试实例
  • MathVision
    • MathVision 从人类数学竞赛中选取了 3,040 道高质量题目,每道题都附有相关图像
    • 解决这些问题需要仔细解读视觉信息和严谨的数学推理
    • MathVision 为评估模型的多模态理解能力以及严谨的数学推理能力提供了基准
    • 为便于理解,论文在图16 中展示了一个测试实例
  • MMMU
    • MMMU 包括六个学科的大学水平推理和理解任务,包括艺术与设计(Art & Design)、商业(Business)、科学(Science)、健康与医学(Health & Medicine)、人文与社会科学(Humanities & Social Science)以及技术与工程(Tech & Engineering)
    • 此外,MMMU 包含多种图像类型,能够全面评估模型处理和推理不同形式视觉信息的能力
    • 为便于理解,论文在图17中展示了一个测试实例
A.2 Implementation Details
  • 训练(Training)
    • 在论文的实验中,论文采用 Qwen2.5-7B-Instruct 和 Qwen2.5-32B-Instruct 作为骨干模型,并通过 DAPO 进行训练
    • 为提高训练过程的效率,论文只保留 clip-higher(即 \(\varepsilon_{low}=0.2\) 和 \(\varepsilon_{high}=0.28\))和 token-lebel 策略梯度损失,移除其他优化
    • 对于训练超参数,论文将策略模型的学习率设置为 \(1×10^{-6}\),预热步骤为10步,并分别采用 128、32 和 32 作为提示批大小 \(BS_{prompt}=128\)、小批大小 \(BS_{mini}=32\) 和 采样次数 \(n_\text{rollout}=32\)
    • 对于奖励,通过验证的响应(称为正响应)被赋予正奖励\(R_\text{pos}=1\),其他响应(称为负响应)被赋予负奖励\(R_\text{neg}=0\)
    • 论文不采用任何正则化方法,如 KL 或 熵正则化
  • Evaluation
    • 为评估大语言模型的性能,论文采用 temperature= 1.0 和 top_p=0.95
    • 对于每个问题,论文为迷宫任务从大语言模型中采样 32 个响应,为其他任务采样 8 个响应,然后利用采样的响应计算 Pass@1 和 Pass@k 分数

附录 B:Details of Analytical Derivation(解析推导)

  • 论文在2.4节中提到了解析推导过程的细节,包括组奖励的平均值、组奖励的标准差以及响应相关优势的推导

B.1 Derivation of the Average of Group Reward

$$
\begin{aligned}
\overline{R}^\text{group} &= \frac{1}{N_\text{total}^\text{group} } \times \left(N_\text{pos}^\text{group} \times R_\text{pos} + N_\text{neg}^\text{group} \times R_\text{neg}\right) \\
&= \frac{1}{\binom{N_\text{rollout} }{K} } \times \left( \left( \binom{N_\text{rollout} }{K} - \binom{N_\text{neg} }{K} \right) \times 1 + \binom{N_\text{neg} }{K} \times 0 \right) \\
&= 1 - \frac{\binom{N_\text{neg} }{K} }{\binom{N_\text{rollout} }{K} }.
\end{aligned}
$$

B.2 Derivation of the Standard Deviation of Group Reward

$$
\begin{aligned}
\sigma^\text{group} &= \sqrt{ \frac{1}{N_\text{total}^\text{group} } \left( N_\text{pos}^\text{group} \times \left(1 - \overline{R}^\text{group}\right)^2 + N_\text{neg}^\text{group} \times \left(0 - \overline{R}^\text{group}\right)^2 \right) } \\
&= \sqrt{ \overline{R}^\text{group} \times \left(1 - \overline{R}^\text{group}\right) }.
\end{aligned}
$$

B.3 Derivation of the Response-Relative Advantage

$$
\begin{aligned}
\hat{A}_\text{pos} &= \frac{1}{\binom{N_\text{rollout}-1}{K-1} } \times \left( \binom{N_\text{rollout}-1}{K-1} \times \hat{A}_\text{pos}^\text{group} + 0 \times \hat{A}_\text{neg}^\text{group} \right) \\
&= \frac{1 - \overline{R}^\text{group} }{\sigma^\text{group} }.
\end{aligned}
$$

$$
\begin{aligned}
\hat{A}_\text{neg} &= \frac{1}{\binom{N_\text{rollout}-1}{K-1} } \times \left( \left( \binom{N_\text{rollout}-1}{K-1} - \binom{N_\text{neg}-1}{K-1} \right) \times \hat{A}_\text{pos}^\text{group} + \binom{N_\text{neg}-1}{K-1} \times \hat{A}_\text{neg}^\text{group} \right) \\
&= \left( 1 - \frac{\binom{N_\text{neg}-1}{K-1} }{\binom{N_\text{rollout}-1}{K-1} } \right) \times \frac{1 - \overline{R}^\text{group} }{\sigma^\text{group} } + \frac{\binom{N_\text{neg}-1}{K-1} }{\binom{N_\text{rollout}-1}{K-1} } \times \left( -\frac{\overline{R}^\text{group} }{\sigma^\text{group} } \right) \\
&= \left( 1 - \overline{R}^\text{group} - \frac{\binom{N_\text{neg}-1}{K-1} }{\binom{N_\text{rollout}-1}{K-1} } \right) \times \left( \sigma^\text{group} \right)^{-1}.
\end{aligned}
$$


附录 C: Pass@k Training 的伪代码(Pseudo Code for Pass@k Training)

  • 论文给出了全采样(Algorithm 1)、bootstrap采样(Algorithm 2)和解析推导(Algorithm 3)的 Pass@k Training 伪代码

算法1:全采样的 Pass@k Training 伪代码

  • 伪代码:
  • 具体步骤:
    • 输入:问题响应的奖励张量\(R \in \mathbb{R}^{N_\text{rollout} }\)、采样响应数量\(N_\text{rollout}\)以及Pass@k指标中的k
    • 输出:该问题响应的估计优势张量\(\hat{A} \in \mathbb{R}^{N_\text{rollout} }\)
    • 1 # 构建组并丢弃冗余实例
    • 2 将\(R \in \mathbb{R}^{N_\text{rollout} }\)分成\(\left\lfloor \frac{N_\text{rollout} }{K} \right\rfloor\)个组,每个组包含k个实例
    • 3 使用公式5计算组的奖励\(R^\text{group} \in \mathbb{R}^{\left\lfloor \frac{N_\text{rollout} }{K} \right\rfloor}\)
    • 4 # 遵循GRPO优势估计方法计算组相关优势
    • 5 使用公式1计算组的平均奖励\(\bar{R}^\text{group}\)
    • 6 使用公式2计算组的标准差\(\sigma^\text{group}\)
    • 7 基于\(\bar{R}^\text{group}\)和\(\sigma^\text{group}\),使用公式3计算组相关优势\(\hat{A}^\text{group}\)
    • 8 # 计算响应相关优势
    • 9 将\(\hat{A}^\text{group}\)分配给组所包含的响应,得到响应相关优势A

算法2:bootstrap采样的 Pass@k Training 伪代码

  • 伪代码:
  • 具体步骤:
    • 输入:问题响应的奖励张量\(R \in \mathbb{R}^{N_\text{rollout} }\)、采样响应数量\(N_\text{rollout}\)以及Pass@k指标中的k
    • 输出:该问题响应的估计优势张量\(\hat{A} \in \mathbb{R}^{N_\text{rollout} }\)
    • 1 # 通过bootstrap采样构建组
    • 2 对于i从1到\(N^\text{group}\):
    • 3 从R中随机采样k个实例构建第i个组
    • 4 使用公式5计算第i个组的奖励
    • 5 得到组的奖励\(R^\text{group} \in \mathbb{R}^{N^\text{group} }\)
    • 6 # 遵循GRPO优势估计方法计算组相关优势
    • 7 使用公式1计算组的平均奖励\(\bar{R}^\text{group}\)
    • 8 使用公式2计算组的标准差\(\sigma^\text{group}\)
    • 9 基于\(\bar{R}^\text{group}\)和\(\sigma^\text{group}\),使用公式3计算组相关优势\(\hat{A}^\text{group}\)
    • 10 # 计算响应相关优势
    • 11 基于\(\hat{A}^\text{group}\),使用公式6计算响应相关优势A

算法3:解析推导的 Pass@k Training 伪代码

  • 伪代码:
  • 具体步骤:
    • 输入:问题响应的奖励张量\(R \in \mathbb{R}^{N_\text{rollout} }\)、采样响应数量\(N_\text{rollout}\)以及Pass@k指标中的k
    • 输出:该问题响应的估计优势张量\(\hat{A} \in \mathbb{R}^{N_\text{rollout} }\)
    • 1 # 计算组奖励分数的平均值和标准差
    • 2 使用公式11计算组的平均奖励\(\bar{R}^\text{group}\)
    • 3 使用公式12计算组的标准差\(\sigma^\text{group}\)
    • 4 # 计算响应相关优势
    • 5 使用公式14计算正响应的优势\(\hat{A}_\text{pos}\)
    • 6 使用公式15计算负响应的优势\(\hat{A}_\text{neg}\)
    • 7 基于\(\hat{A}_\text{pos}\)、\(\hat{A}_\text{neg}\)和R,为每个实例分配优势,得到响应相关优势A

附录 D:Curves of Advantage Function

  • 论文在图18中展示了不同训练方法的优势函数曲线,包括无简单问题的 Pass@k Training (Pass@k Training w/o easy problems)、带组合的 Pass@k Training (Pass@k Training w/ combination)、超越 Pass@k Training (Exceeding Pass@k Training)和组合训练(Combination Training)

附录 E:Experiments on Various LLMs and Tasks

  • 在本节中,为进一步验证 Pass@k Training 的有效性,论文提供了通过 Pass@k Training 的各种大语言模型在数学任务(即AIME 2024、AIME 2025和OlymMATH(2025))和合成谜题任务(即Enigmata(2025))上的性能

E.1 数学任务上的 Pass@k Training (Pass@k Training on Mathematical Tasks)

  • 论文遵循附录A.2 中描述的实验设置,在 LLaMA 模型(2024)(即 LLaMA3.2-3B-Instruct 和 LLaMA3.1-8B-Instruct)和DeepSeek-R1-Distill-Qwen(2025)(即1.5B和7B版本)上进行 Pass@k Training
  • 对于LLaMA模型,论文将最大提示长度和响应长度分别设置为 2048 和 6144
  • 对于DeepSeek-R1-Distill-Qwen,论文将响应长度扩展到 10240
  • 具体而言,为使大语言模型适应数学任务,论文在 RLVR 训练过程中采用了先前工作(2025)中使用的训练数据
  • 此外,论文遵循附录A.2中的设置进行评估,结果如表5 所示
  • 由于单轮 Pass@k Training 后再进行 Pass@1 Training 可以显著提高大语言模型的Pass@1性能,论文在表5 中进行了上述训练过程多轮的实验,称为“(P@k T. + P@1 T.) × 2”

E.2 Enigmata任务上的 Pass@k Training (Pass@k Training on Enigmata Task)

  • 论文遵循附录A.2 中描述的实验设置,在各种大语言模型(即 LLaMA3.2-3B-Instruct(2024)和 LLaMA3.1-8B-Instruct(2024))上进行 Pass@k Training ,并将最大提示长度和响应长度都设置为 4096
  • 结果如表6所示(对于评估,论文遵循附录A.2中描述的设置)

E.3 迷宫任务上的 Pass@k Training (Pass@k Training on Maze Task)

  • 在本部分中,论文在表7中展示了 Pass@k Training 在迷宫任务上的完整结果
  • 没有任何 RLVR 训练时,模型很难解决迷宫任务,因此,论文没有报告骨干模型的性能

NLP——DeepSeek-GRM

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(DeepSeek-GRM)Inference-Time Scaling for Generalist Reward Modeling, DeepSeek & THU, 20250403-20250925
      • 本工作是 THU 学生在 DeepSeek 实习期间完成
    • 开源模型: huggingface.co/collections/BBQGOD/deepseek-grm 和 modelscope.cn/profile/BBQGOD
      • 开源包含三个模型:
        • BBQGOD/DeepSeek-GRM-16B
        • BBQGOD/DeepSeek-GRM-27B
        • BBQGOD/DeepSeek-GRM-27B-MetaRM

Paper Summary

  • 核心内容:
    • 论文提出了自 Principle Critique 调优 (Self-Principled Critique Tuning, SPCT) 方法
    • SPCT 是一种增强通用奖励建模推理时扩展性的方法
    • 通过 Rule-based Online RL,SPCT 实现了 Principle 和 Critique 的自适应生成,显著提升了 GRM 在多样领域中的奖励质量和推理时扩展性
    • 在实验中,DeepSeek-GRM 超越了基线方法和一些强大的公开 RM,并通过推理时扩展,尤其是在 Mata RM 的引导下,展现出显著的改进
  • 背景:
    • RL 在 LLMs 的后训练中已被广泛采用
    • 在 LLMs 中通过 RL 激励推理能力表明: 适当的学习方法能够实现有效的推理时扩展性(proper learning methods could enable effective inference-time scalability)
  • 问题提出:
    • RL 的一个关键挑战是,在可验证问题或人工规则之外的各个领域为 LLMs 获取准确的奖励信号
  • 论文研究了如何通过增加推理计算来改进通用 Query 的奖励建模(Reward Modeling, RM),即 通用奖励建模的推理时扩展性(inference-time scalability of generalist RM)
    • 对于 RM(即奖励建模)方法,论文采用 Pointwise 生成奖励建模(pointwise generative reward modeling, GRM)以实现对不同输入类型的灵活性和推理时扩展的潜力
    • 对于学习方法,论文提出了 Self-Principled Critique 调优(Self-Principled Critique Tuning, SPCT) ,通过 Online RL 在 GRMs 中培养(foster)可扩展的奖励生成行为,以自适应地生成 Principle 并准确地给出 Critique,从而产生了 DeepSeek-GRM 模型
    • Furthermore,为了实现有效的推理时扩展,论文使用并行采样来扩展计算使用,并引入一个元奖励模型(meta RM)来指导投票过程以获得更好的扩展性能
  • 实验表明,SPCT 显著提高了 GRMs 的质量和可扩展性,在各种 RM 基准测试中优于现有方法和模型,且没有严重的偏差,并且与训练时扩展(training-time scaling)相比,它能获得更好的性能
  • DeepSeek-GRM 在某些任务上仍面临挑战,作者相信未来在通用奖励系统上的努力可以解决这些问题
  • 注:相关模型均已开源
  • 图 1: 不同 RMs 在所有测试的 RM 基准上的推理时扩展性能
    • 结果显示为每种方法最多 8 个样本,论文的方法进一步扩展到 32 个样本
    • 非斜体字体表示基于 Gemma-2-27B 的模型
  • 特别说明:
    • DeepSeek-GRM 的用法看看附录 G 中 DeepSeek-GRM (Default) Prompt 细节更容易理解

Introduction and Discussion

  • LLMs (2023; 2024) 的显著进步推动了人工智能研究的重大转变,使模型能够执行需要理解、生成和细微决策能力的任务
  • Recently,RL 作为 LLMs 的后训练方法已被大规模采用,并在人类价值观对齐(human value alignment)(2024; 2025)、长期推理(long-term reasoning)(2023; 2024) 和 LLMs 的环境适应(environment adaptation)(2024) 方面带来了显著改进。奖励建模(RM)(2024) 作为 RL 中的一个关键组件,对于为 LLM Response 生成准确的奖励信号至关重要
    • 当前研究(2024; 2025)也表明,无论是在训练时还是推理时拥有高质量且稳健的奖励,LLMs 都能在特定领域取得强劲性能
  • However,这种特定领域的高质量奖励主要来源于具有明确条件的人工设计环境(2022; 2024)或为可验证问题(例如数学问题(2021; 2023)和编码任务(2024; 2025))手工制定的规则
    • 在通用领域,奖励生成更具挑战性,因为奖励标准更加多样化和复杂,并且通常没有明确的参考或真实答案
    • 因此,通用奖励建模(generalist reward modeling)对于从后训练(例如大规模 RL)或推理(例如 RM 引导的搜索)角度提高 LLMs 在更广泛应用中的性能至关重要
    • Furthermore,RM 性能应通过增加训练计算(2023)和推理计算(inference compute)来提升
  • 图 2:奖励生成的不同范式,包括 (a) Scalar,(b) Semi-scalar 和 (c) 生成式方法,以及不同的评分模式,包括 (i) Pointwise 和 (ii) Pairwise 方法
    • 论文列出了每种方法的代表性方法,以及相应的推理时扩展性(是否可以从多次采样中获得更好的奖励)和输入灵活性(是否支持对单个和多个 Response 的评分)
  • 在实践中,要使 RMs 既通用又在推理时有效可扩展(effectively scalable)存在挑战
    • 通用性 要求 RM:
      • (1)对不同输入类型的灵活性
      • (2)在各个领域生成准确的奖励
      • 论文将此范式称为 通用奖励建模(generalist reward modeling)
    • Moreover,有效的 推理时扩展性(inference-time scalability) 要求 RM
      • (3)能够通过增加推理计算生成更高质量的奖励信号
      • (4)学习可扩展的行为以实现更好的性能-计算缩放(performance-compute scaling)
    • 现有的奖励建模研究展示了奖励生成的几种范式,包括 Scalar(2021; 2024; 2024)、 Semi-scalar(2025; 2025; 2025) 和生成式(generative)(2024; 2024; 2024; 2024; 2025; 2025; 2025; 2025; 2025) 方法,以及各种评分模式,例如 Pointwise(1940; 2023; 2024; 2025; 2025) 和 Pairwise (2024; 2023; 2023; 2024; 2025)
      • 这些方法本质上决定了 RMs 的输入灵活性(flexibility)和推理时扩展性((1)和(3)),如图 2 所示
      • For Instance, Pairwise RMs 仅考虑 Pairwise Response 的相对偏好,缺乏接受单个或多个 Response 作为输入的灵活性; Scalar RMs 很难为同一 Response 生成多样化的奖励信号,这阻碍了通过基于采样的推理时扩展方法(2025)获得更好的奖励
      • Also,不同的学习方法(2024; 2024; 2024; 2024)用于提高奖励的质量,但其中很少关注推理时扩展性,并研究学习到的奖励生成行为与 RMs 推理时扩展有效性之间的相互联系,导致性能提升有限((2)和(4))
      • 当前研究(2025)表明,有效的推理时扩展性可以通过适当的学习方法实现,这引出了问题:论文能否设计一种旨在实现通用奖励建模有效推理时扩展的学习方法?

        Can we design a learning method aiming to enable effective inference-time scaling for generalist reward modeling?

  • 论文研究了不同的 RM 方法,发现 Pointwise 生成奖励建模(GRM)可以在纯语言表示中统一对单个、 Pairwise 和多个 Response 的评分,克服挑战(1)
  • 论文探索了某些 Principle 可以在适当的准则范围内指导 GRMs 的奖励生成,从而提高奖励质量,这表明 RM 的推理时扩展性可能通过扩展高质量 Principle 和准确 Critique 的生成来实现
  • 基于此初步发现,论文提出了一种新颖的学习方法 Self-Principled Critique 调优(Self-Principled Critique Tuning, SPCT) ,以在 GRMs 中培养有效的推理时可扩展行为
    • 通过利用 Rule-based Online RL,SPCT 使 GRMs 能够学习根据输入 Query 和 Response 自适应地提出 Principle 和 Critique ,从而在通用领域获得更好的结果奖励(挑战(2))
    • 然后论文推出了 DeepSeek-GRM-27B ,它是基于 Gemma-2-27B (2024) 使用 SPCT 进行后训练的
    • 对于推理时扩展,论文通过多次采样来扩展计算使用
      • 通过并行采样,DeepSeek-GRM 可以生成不同的 Principle 集和相应的 Critique ,然后投票决定最终奖励
      • 通过更大规模的采样,DeepSeek-GRM 可以基于更多样化的 Principle 进行更准确的判断,并以更细的粒度输出奖励 ,这解决了挑战(3)和(4)
    • Furthermore,除了投票,论文还训练了一个 Mata RM 以获得更好的扩展性能
  • 实验表明,SPCT 显著提高了 GRMs 的质量和可扩展性,在多个综合 RM 基准测试中优于现有方法和模型,且没有严重的领域偏差
    • 论文还将 DeepSeek-GRM-27B 的推理时扩展性能与参数高达 671B 的更大模型进行了比较,发现与模型大小的训练时扩展相比,它能获得更好的性能
  • 尽管当前方法在效率和特定任务上面临挑战,但作者相信,通过 SPCT 之外的努力,具有增强可扩展性和效率的 GRMs 可以作为通用奖励系统的多功能接口,推进 LLM 后训练和推理的前沿
  • In general,论文的主要贡献如下
    • 1)论文提出了一种新颖的方法 Self-Principled Critique 调优(Self-Principled Critique Tuning, SPCT) ,以培养通用奖励建模的有效推理时扩展性,从而产生了(resulting in) DeepSeek-GRM 模型
      • 论文还进一步引入了一个 Mata RM 来有效提升 DeepSeek-GRM 在投票之外的推理时扩展性能
    • 2)论文通过实验证明,与现有方法和几个强大的公共模型相比,SPCT 显著提高了 GRMs 的质量和推理时扩展性
    • 3)论文还将 SPCT 训练方案应用于更大尺寸的 LLMs,发现推理时扩展可以超越模型大小的训练时扩展

Preliminaries

Comparisons of Different RM approaches

  • 如图 2 所示,RM 方法主要由奖励生成范式和评分模式决定,这本质上影响了 RM 的推理时扩展性和输入灵活性
    • 对于 奖励生成范式(reward generation paradigms) ,论文区分了三种主要方法: Scalar 、 Semi-scalar 和生成式
    • 对于 评分模式(scoring patterns) ,论文区分了两种主要方法: Pointwise 和 Pairwise
  • 为了在推理时扩展计算使用,论文专注于基于采样的方法,这些方法为相同的 Query 和 Response 生成多组奖励,然后聚合最终奖励
    • RMs 的 推理时扩展性(inference-time scalability) 取决于是否可以从多次采样中获得不同的奖励 ,其中 Scalar RMs 在大多数情况下会因奖励的恒定生成而失败;
    • RMs 的 输入灵活性(input flexibility) 由 RM 是否支持对单个、 Pairwise 和多个 Response 的评分来定义,其中 Pairwise RMs 很难对单个 Response 评分,通常需要额外的技术(2023; 2025)来处理多个 Response
Reward Generation Paradigms
  • 经典的 RMs 采用 (a) Scalar 方法(scalar approach) 生成奖励(\(\mathcal{R}\))
    • 为给定的 Query 和 Response 分配 Scalar 值
  • Scalar 方法进一步扩展到 (b) Semi-scalar 方法(semi-scalar approach)
    • 除了 Scalar 值外还生成文本
  • 而 (c) 生成式方法(generative approach) 仅生成文本奖励
    $$
    \mathcal{R}=
    \begin{cases}
    S & \text{(Scalar)} \\
    (S, \boldsymbol{C}) & \text{(Semi-Scalar)} \quad \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right)\\
    \boldsymbol{C} & \text{(Generative)}
    \end{cases} \\
    \tag{1}
    $$
    • 上面的公式表示如下含义:
      $$ \mathcal{R} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right) $$
    • \(x\) 是 Query
    • \(y_i\) 是第 \(i\) 个 Response
    • \(r_{\theta}\) 是由 \(\theta\) 参数化的奖励函数
    • \(S \in \mathbb{R}^{m}, m \leq n\) 是 Scalar 奖励
    • \(\boldsymbol{C}\) 是 Critique
Scoring Patterns
  • 论文区分了奖励的两种主要评分方法: Pointwise 和 Pairwise
  • (i) Pointwise 方法(pointwise approach) 为每个 Response 分配一个单独的分数:
    $$
    \{S_i\}_{i=1}^{n}=f_{\text{point} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right), \quad \mathcal{R} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right), S_i \in \mathbb{R},
    \tag{2}
    $$
    • 其中 \(f_{\text{point} }(\cdot,\cdot)\) 是一个分割函数(Spliting Function)
    • 问题:这里 Pointwise 打分的情况下,输入的 \(y_i\) 仅一个就可以了吧?此时应该有 \(n=1\)? 还是说输入可以是多个,但是一个个分别打分?
  • (ii) Pairwise 方法(pairwise approach) 可以看作是一种最佳选择方法(best-of-\(n\) method),从所有候选中选择一个最佳 Response :
    $$
    \hat{y}=f_{\text{pair} }(\mathcal{R},\{y_i\}_{i=1}^{n}), \quad \mathcal{R} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right), \hat{y} \in \{y_i\}_{i=1}^{n},
    \tag{3}
    $$
    • 其中 \(f_{\text{pair} }(\cdot,\cdot)\) 是一个选择函数,在大多数情况下 \(n=2\)
    • 虽然 Pairwise 方法可以扩展到 \(n>2\),但不能应用于单个 Response 评分(\(n=1\))
    • 理解:这里 Pairwise 方法和 Pointwise 方法的最本质区别是:
      • Pairwise 方法在挑选最佳 Response,而 Pointwise 在给每个 Response 打分,但似乎并没有限制输入的 Response 数量
    • 问题:这里是不是也可以理解为 listwise?如何定义 listwise、pairwise 和 pointwise 更合适?
Representative Methods
  • 图 2 说明了三种奖励生成范式( Scalar 、 Semi-scalar 、生成式)如何与两种评分模式( Pointwise 、 Pairwise )结合
  • Specifically
    • Bradley-Terry 模型(1940)(Scalar + Pointwise)使用 Pairwise 偏好数据进行训练,并以 Pointwise 方式输出 Scalar 奖励:
      $$
      \{S_i\}_{i=1}^{n}=f_{\text{point} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right)=\mathbf{S} \in \mathbb{R}^{n}.
      \tag{4}
      $$
      • 理解:上述公式的意思是,\(\{S_i\}_{i=1}^{n}\) 是一个 \(n\) 维的分数向量 \(\mathbf{S}\),且对应向量 \(\mathbf{S}\in \mathbb{R}^{n}\)
    • PairRM(2023)(Scalar + Pairwise)通过 Scalar 奖励的符号比较一对 Response :
      $$
      \hat{y}=f_{\text{pair} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right)=y_{\left|\frac{1}{2}(3-\text{sgn}(S))\right|}, \quad n=2,S \in \mathbb{R}.
      \tag{5}
      $$
      • 上述两个 Scalar 方法由于奖励生成缺乏多样性,几乎无法进行推理时扩展
    • Cloud(2024)(Semi-Scalar + Pointwise)基于预先生成的 Critique 为每个 Response 生成 Scalar 奖励,类似于公式 4
      • 理解:先生成 Critique,然后通过 Critique 生成一个 Scalar 分数
    • LLM-as-a-Judge(2023; 2024)(Generative + Pairwise)以文本方式判断 Pairwise Response 之间的偏好顺序:
      $$
      \hat{y}=f_{\text{pair} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right)=y_{f_{\text{extract} }(\boldsymbol{C})}, \quad n=2,
      \tag{6}
      $$
      • 其中 \(f_{\text{extract} }(\cdot)\) 从语言表示中提取最佳 Response 的索引
      • However,这种方法默认忽略了 Pairwise Response 的平局情况
      • 理解:LLM-as-a-Judge 其实是一种很广泛的泛指吧?只要是生成式的是不是基本上都属于 LLM-as-a-Judge 的范畴?
    • 根据 Zhang 等人(2025b),指示偏好顺序的 token 的生成概率可以用作 Scalar 奖励(Semi-Scalar + Pairwise):
      $$ \mathcal{S}=\text{TokenProb}(\hat{\boldsymbol{C} })=r_{\theta}(\hat{\boldsymbol{C} }|x,\{y_i\}_{i=1}^{n})$$
      • 其中 \(\hat{\boldsymbol{C} }\) 是与偏好顺序相关的预定义 token(pre-defined token related to the preference order)
      • 理解:这里的含义是:Token 的概率本身就可以作为一个偏好 Scalar 奖励
  • (论文的方法)在没有额外约束的情况下,GRMs 能够在纯语言表示中为多个 Response 生成 Pointwise 奖励(Generative + Pointwise):
    $$
    \{S_i\}_{i=1}^{n}=f_{\text{point} }\left(\mathcal{R},\{y_i\}_{i=1}^{n}\right)=f_{\text{extract} }(\boldsymbol{C}),
    \tag{7}
    $$
    • 其中 \(f_{\text{extract} }(\cdot)\) 从生成结果中提取分配给每个 Response 的奖励
    • Usually,奖励是离散的,在本工作中,我们设定为自然数 默认分配 \(S_i \in \mathbb{N},1 \leq S_i \leq 10\)
    • 这种方法同时实现了推理时扩展性和输入灵活性

Boosting Reward Quality with Principles

  • 通用 RM 需要在特定领域之外生成高质量的奖励(2021; 2024),在这些领域中奖励标准更加多样化和复杂,并且通常没有明确的参考或真实答案
    • 为此,对于通用领域,论文采用 Principle 来指导奖励生成,以代替人工规则
  • LLMs 的 Principle 首先在宪法式人工智能(Constitutional AI)中引入(2022b; 2025),这些是手工制定的准则(hand-crafted criteria),指导 LLMs 或精选的分类器构建安全的数据 Pipeline
  • 有了 Principle ,GRMs 的奖励生成变为:
    $$
    \mathcal{R}=\mathbf{C} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n},\{p_i\}_{i=1}^{m}\right),
    \tag{8}
    $$
    • 其中 \(\{p_i\}_{i=1}^{m}\) 表示 Principle
    • 理解:这里就是指同时给出 Query、Response,评估指标(Principle),然后使用生成式模型评估奖励(即是否满足 Principle)
    • 论文进行了一项初步实验来检验适当 Principle 对奖励质量的影响,使用了 Reward Bench(2024)的 Chat Hard 子集和 PPE 基准(2025)的 IFEval 子集
  • 在实验中,数据样本包含一个 Query 和两个 Response ,真实标签表示更好的 Response
    • 论文使用 GPT-4o-2024-08-06 生成 Principle ,然后为每个样本生成四次 Pointwise 奖励
    • 论文从正确的奖励生成过程中筛选 Principle (正确的定义:即更大的奖励值被分配给 Token 为更好的 Response )
    • 理解:这里是在筛选对应 Chosen 分数高于 Rejected 分数的数据,Rubrics-based RL 筛选数据也可以这样来筛选
  • 论文用它们自己生成的 Principle 和筛选过的 Principle 测试不同的 LLMs,并将它们与无 Principle 指导的默认设置进行比较,结果如表 1 所示
    • 论文发现, 自生成的 Principle 几乎没有显著提升奖励质量 (注:经过过滤的 Principle 是可以提升奖励质量的 )
    • 这一结果并非微不足道(non-trivial),可以得出两个主要结论:
      • (a) 当前的 LLMs 可以生成多样化的 Principle ,但并非所有 Principle 都适合用于奖励生成
      • (b) 生成的 Principle 的一个子集可以在正确的准则下更好地指导奖励生成,这表明了自我引导(self-bootstrapping)的潜力
    • 这些发现是利用 Online RL 优化 GRMs 的基础,它们可以从自己生成的 Principle 中学习,并有一个清晰的信号来判断 Principle 是否合适
  • 其他细节在附录 D 中描述

Self-Principled Critique Tuning, SPCT

  • 受到初步结果的启发,论文为 Pointwise GRMs 开发了一种新颖的方法,学习生成能够有效指导 Critique 生成的自适应高质量 Principle ,称为 Self-Principled Critique 调优(Self-Principled Critique Tuning, SPCT)
  • 如图 3 所示,SPCT 包括两个阶段:
    • 第一阶段:作为冷启动的拒绝式微调(rejective fine-tuning)
    • 第二阶段:Rule-based Online RL,通过改进生成的 Principle 和 Critique 来强化通用奖励生成
      • SPCT 也在 GRMs 中培养了这些行为以实现推理时扩展
  • 图 3:SPCT 的图示,包括拒绝式微调、 Rule-based RL 以及推理期间相应的可扩展行为
    • 推理时扩展通过朴素投票或由大规模生成的 Principle 指导的 Mata RM 投票实现,从而在扩展的值空间内产生更细粒度的结果奖励

Unpinning Principles from Understanding to Generation(将核心原理从 “理解任务” 抽离并迁移到 “生成任务” 中)

  • 根据第 2.2 节的初步实验,论文发现适当的 Principle 可以在特定准则内指导奖励生成,这对于高质量奖励至关重要
    • However,大规模生成通用 RM 的有效 Principle 仍然具有挑战性
  • 为了解决这一挑战,论文提出 Unpinning Principles from Understanding to Generation,即将 Principle 视为奖励生成的一部分,而不是预处理步骤
  • 形式上, Principle 根据公式 8 指导奖励的生成,当 Principle 是预定义的时
    • GRMs 可以自己生成 Principle ,然后基于这些 Principle 生成 Critique ,形式化为:
      $$
      \{p_i\}_{i=1}^{m} \sim p_{\theta}\left(x,\{y_i\}_{i=1}^{n}\right), \quad \mathcal{R}=\mathbf{C} \sim r_{\theta}\left(x,\{y_i\}_{i=1}^{n},\{p_i\}_{i=1}^{m}\right),
      \tag{9}
      $$
    • 其中 \(p_{\theta}\) 是由 \(\theta\) 参数化的 Principle 生成函数,与奖励生成 \(r_{\theta}\) 共享同一模型
      • 在实践中,它们使用 LLMs 中的同一语言头实现
    • 这种转变使得 Principle 能够基于输入 Query 和 Response 生成,自适应地对齐奖励生成过程,并且 Principle 和相应 Critique 的质量和粒度可以通过 GRMs 的后训练进一步改进
      • 通过 大规模生成的 Principle ,GRMs 可能以更细的粒度和更广泛的考虑输出奖励,从而实现更好的推理时扩展性

Rule-Based Reinforcement Learning

  • 为了同时优化 GRMs 中的 Principle 和 Critique 生成,论文提出了 SPCT,它整合了拒绝式微调(rejective fine-tuning, RFT)和 Rule-based RL
    • RFT 的作用是冷启动
Rejective Fine-Tuning, Cold Start
  • 拒绝式微调阶段的核心思想是训练 GRM 以正确的格式为各种输入类型生成 Principle 和 Critique
  • 与之前混合不同格式的单个、 Pairwise 和多个(single, paired, and multiple) Response 的 RM 数据的工作(2024; 2024; 2025)不同,论文采用第 2.1 节介绍的 Pointwise GRM,灵活地以相同格式为任意数量的 Response 生成奖励
  • 对于数据构建,除了通用指令数据外,论文还通过给出 Query 和相应 Response 用预训练的 GRM 采样轨迹
    • 每个 RM 数据点(Data Point)包含一个 Query 和一个或多个对该 Query 的 Response ,以及表示最佳 Response 的真实标签
    • 对于每个 RM 数据点, Principle 和 Critique 的采样执行 \(N_{\text{RFT} }\) 次
      • 拒绝策略也是统一的,即拒绝以下两种情况:
        • 第一:预测奖励不正确的轨迹
        • 第二:所有 \(N_{\text{RFT} }\) 条轨迹都正确(太容易)的 Query 和 Response
    • 形式上,令 \(r_i\) 表示对 Query \(x\) 的第 \(i\) 个 Response \(y_i\) 的真实奖励,如果满足下面的条件,则认为预测的 Pointwise 奖励 \(\{S_i\}_{i=1}^{n}\) 是正确的
      $$
      \begin{cases}
      \forall i \neq j, \quad S_j > S_i, \quad j = \arg \max_{l}\{r_l\}_{i=l}^{n}, & \text{if } n \geq 2, \\
      S_1 = r_1, & \text{if } n = 1.
      \end{cases}
      \tag{10}
      $$
      • 只有一个 Response 时,当且仅当真实分数 \(r_1\) 和 预测分数 \(S_1\) 完全相等才算正确
      • 有多个 Response 时,当且仅当真实奖励中最大的 Response 对应的分数高于所有其他 Response(类似 Best-of-N)
    • 并保证真实奖励只包含一个最大值
  • However,与之前的工作类似(2025b),论文发现预训练的 GRMs 在有限的采样配额内很难为一部分 Query 和相应的 Response 生成正确的奖励
    • 理解:这里的问题是有限的采样次数可能是无法生成准确的评估轨迹的(即无法找到最佳的 Response)
  • Thus,论文可选择地将 \(\arg \max_{j}\{r_l\}_{l=1}^{n}\) 附加到 GRM 的提示中,称为 提示采样(hinted sampling) ,期望预测的奖励与真实情况一致,此外还有 非提示采样(non-hinted sampling)
    • 具体来说,将在输入中附加一个额外的片段 “The best response is: Response \(\arg \max_{i}\{r_l\}_{l=1}^{n}\)”
    • 对于提示采样,每个 Query 和相应的 Response 只采样一次 ,只有当轨迹不正确时才拒绝
      • 问题:这样的话,相当于先给答案(告诉模型最佳 Response 是谁),再让模型生成推理过程
    • 除了之前的研究(2024; 2024),论文观察到提示采样的轨迹有时在生成的 Critique 中走捷径,特别是对于推理任务,这表明了 Online RL 对 GRM 的必要性和潜在好处
Rule-Based RL
  • GRM 使用 Rule-based Online RL 进一步微调,论文使用 GRPO(2024)的原始设置以及 Rule-based 结果奖励
  • 在 rollout 期间,GRM 根据输入 Query 和 Response 生成 Principle 和 Critique ,然后提取预测的奖励并与真实值通过准确度规则进行比较
    • 与 DeepSeek-AI(2025)不同,论文不使用格式奖励
    • Instead,论文应用了更大的 KL 惩罚系数以确保格式并避免严重偏差
  • 形式上,对于给定 Query \(x\) 和 Response \(\{y_i\}_{i=1}^{n}\) 的第 \(i\) 个输出 \(o_i\) 的奖励是:
    $$
    \hat{r}_i=
    \begin{cases}
    1, & \text{if } n \geq 2 \text{ and } \forall i’ \neq j’, \quad S_{j’} > S_{i’}, \quad j’ = \arg \max_{l}\{r_l\}_{l=1}^{n}, \\
    1, & \text{if } n = 1 \text{ and } S_1 = r_1, \\
    -1, & \text{otherwise},
    \end{cases}
    \tag{11}
    $$
    • 其中 Pointwise 奖励 \(\{S_i\}_{i=1}^{n}\) 是从 \(o_i\) 中提取的
      • 问题:一个 \(o_i\) 中包含了所有的 Pointwise 奖励 \(\{S_i\}_{i=1}^{n}\) 吗?
    • 该奖励函数鼓励 GRMs 通过在线优化的 Principle 和 Critique 来区分最佳 Response ,有利于有效的推理时扩展
      • 奖励信号可以从任何偏好数据集和带标签的 LLM Response 中无缝获得
      • 理解:即有 Chosen/Rejected 或 Best-of-N 数据的样本都可以用来训练
    • 理解:上述奖励跟前面的 RFT 类似:
      • 只有一个 Response 时,当且仅当真实分数 \(r_1\) 和 预测分数 \(S_1\) 完全相等才算正确
      • 有多个 Response 时,当且仅当真实奖励中最大的 Response 对应的分数高于所有其他 Response(类似 Best-of-N)
        • 理解:在当前的设计下,有多个 Response 时,所有 Response 的分数是同时为 1(预测正确)或 -1(预测错误)的

Inference-Time Scaling with SPCT

  • 为了进一步利用更多推理计算资源来提升 DeepSeek-GRM 在通用奖励生成上的性能,论文探索了基于采样的策略,以实现有效的推理时扩展性

Voting with Generated Rewards

  • 投票是 RM 中广泛采用的实现推理时扩展的方法
  • 回顾第 2.1 节的方法,论文展示了 Semi-scalar RM 和生成式 RM 对于 \( k \) 个样本的投票结果
  • 对于 Semi-scalar RM (2024; ),投票以平均方式进行:
    $$
    S^* = \frac{1}{k} \sum_{i=1}^{k} S_{i}, \quad \{\mathcal{R}_{i}=(S_{i}, C_{i})\}_{i=1}^{k} \sim r_{\theta} \left( x, \{y_{i}\}_{i=1}^{n} \right),
    $$
    • 其中 \( S^* \) 是最终奖励
    • 在实践中, Scalar 值方差有限,这可能会阻碍扩展性
  • 对于 Pairwise GRM (2024; ),投票以多数表决方式选择被识别为最佳的 Response :
    $$
    \hat{y}^* = \arg \max_{y} \sum_{i=1}^{k} \mathbb{I}(y = \hat{y}_{i}), \quad \{\mathcal{R}_{i}=C_{i}\}_{i=1}^{k} \sim r_{\theta} \left( x, \{y_{i}\}_{i=1}^{n} \right),
    $$
    • 其中 \( \hat{y}^* \) 是最终预测的最佳 Response
    • \( f_{\text{pair} }(\cdot, \cdot) \) 是一个选择函数
    • \( \hat{y}_{i} = f_{\text{pair} }(\mathbf{C}_{i}, \{y_{i}\}_{i=1}^{n}) \) 是每个样本单独选择的最佳 Response
    • \( \mathbb{I}(\cdot) \) 是指示函数
    • 虽然投票过程是可扩展的,但由于每个样本中不允许出现平局,多数投票结果可能存在偏差,并且由于缺乏量化分数,可能无法区分 Response 之间的细微差别
  • Pointwise GRM 的投票过程定义为奖励求和:
    $$
    S_{i}^{*} = \sum_{j=1}^{k} S_{ij}, \quad \{p_{ij}\}_{i=1}^{m_{j} } \sim p_{\theta} \left( x, \{y_{i}\}_{i=1}^{n} \right), \mathcal{R}_{j} = C_{j} \sim r_{\theta} \left( x, \{y_{i}\}_{i=1}^{n}, \{p_{ij}\}_{i=1}^{m_{j} } \right), j=1,…,k,
    $$
    • 其中 \( S_{i}^{*} \) 是第 \( i \) 个 Response (\( i=1,…,n \)) 的最终奖励,且 \( \{S_{ij}\}_{i=1}^{n} = f_{\text{point} }(C_{j}, \{y_{i}\}_{i=1}^{n}) \) 是第 \( j \) 组 Pointwise 奖励
    • 由于 \( S_{ij} \) 通常被设定在一个较小的离散范围内, 例如 \{1,…,10\},投票过程实际上将奖励空间扩展了 \( k \) 倍,并使 GRM 能够生成大量 Principle ,这有益于最终奖励的质量和粒度
      • 一个直观的解释是,如果每个 Principle 可以被视为判断视角的代理,那么更多的 Principle 可能更准确地反映真实分布,从而产生扩展效果。值得注意的是,为了避免位置偏差并增加多样性,在采样前会对 Response 进行打乱

Meta Reward Modeling Guided Voting

  • DeepSeek-GRM 的投票过程需要多次采样,并且由于随机性或模型限制,少量生成的 Principle 和评判 (Critique) 可能存在偏差或质量低下
    • 因此,论文训练了一个 Mata RM 来引导投票过程(guide the voting process)
  • Mata RM 是一个 Pointwise Scalar RM,旨在识别 DeepSeek-GRM 生成的 Principle 和 Critique 的正确性,使用二元交叉熵损失,其中标签根据公式 10 确定
    • 提示模板见附录 G,整合了 Query 、候选 Response 、相应 Principle 和 Critique
  • 数据集包括 RFT 阶段来自非提示采样的轨迹,以及来自待引导的 DeepSeek-GRM 的采样轨迹,这既能提供足够的正负奖励,又能缓解训练与推理策略之间的差距,正如 Chow 等 (2025) 所建议
  • 引导的投票过程很简单(即使用 Meta RM 的方式):
    • Mata RM 输出 \( k \) 个采样奖励的元奖励,最终结果由元奖励最高的前 \( k_{\text{meta} } \leq k \) 个奖励进行投票得出,从而过滤掉低质量样本

Results on Reward Modeling Benchmarks

Experiment Settings

Benchmarks and Evaluation Metrics
  • 论文在不同领域的多个 RM 基准测试上评估不同方法的性能:
    • Reward Bench (RB) (2024),PPE(偏好和正确性子集)(2025),RMB (2025),Real.Mistake (2024)
  • 论文对每个基准测试使用标准评估指标:Reward Bench、PPE 和 RMB 中从一组 Response 中选取最佳 Response 的准确率,以及 Real.Mistake 的 ROC-AUC
  • 为了处理多个 Response 预测奖励出现平局的情况,论文打乱 Response 顺序,并通过 \( \arg \max_i S_i \) 确定最佳 Response ,其中 \( S_i \) 是打乱后第 \( i \) 个 Response 的预测奖励
  • 细节见附录 D
Method Implementation
  • 对于基线方法,论文基于 Gemma-2-27B (2024) 并采用与 DeepSeek-GRM 兼容的所有训练数据和设置,重新实现了 LLM-as-a-Judge (2023),DeepSeek-BTRM-27B(Bradley-Terry 模型)(1940),CLoud-Gemma-2-27B (2024) 和 DeepSeek-PairRM-27B (2023)
  • 对于论文的方法,论文基于 Gemma-2-27B 实现了 DeepSeek-GRM-27B-RFT,并在不同规模的 LLM 上实现了 DeepSeek-GRM,包括 DeepSeek-V2-Lite (16B MoE) (2024a),Gemma-2-27B,DeepSeek-V2.5 (236B MoE) 和 DeepSeek-V3 (671B MoE) (2024b)
  • Mata RM 在 Gemma-2-27B 上训练
  • 默认结果使用 贪婪解码(greedy decoding) 报告,推理时扩展(inference-time scaling)使用温度 = 0.5
  • 其他细节见附录 C

Results and Analysis

Performance on RM Benchmarks
  • 不同方法和模型在 RM 基准测试上的总体结果如表 2 所示
  • 论文将 DeepSeek-GRM-27B 的性能与公开模型的报告结果(Reported Results of Public Models)以及基线方法的复现结果(Reproduced Result of Baseline Methods)进行比较
    • 论文发现 DeepSeek-GRM-27B 在整体性能上优于基线方法,并且与强大的公开 RM(如 Nemotron-4-340B-Reward 和 GPT-4o)相比取得了有竞争力的性能;通过推理时扩展,DeepSeek-GRM-27B 可以进一步改进并获得最佳的整体结果
  • 详细比较来看, Scalar(DeepSeek-BTRM-27B)和 Semi-scalar(CLoud-Gemma-2-27B)RM 在不同基准测试上表现出有偏差的结果,在可验证任务(PPE Correctness)上的性能明显优于所有生成式 RM,但在其他不同基准测试上分别失败
    • 问题:如何理解 Skywork-Reward-Gemma-2-27B 反而是在 Reward Bench 上分数很高,其他任务上分数很低呢?是过拟合吗?
  • 尽管如此,大多数公开的 Scalar RM 也表现出严重的领域偏差
    • PairRM 方法可以缓解这个问题
  • LLM-as-a-Judge 与 DeepSeek-GRM-27B 显示出相似的趋势但性能较低,可能是由于缺乏对单 Response 评分的训练
  • 总之,SPCT 提升了 GRM 的通用奖励生成能力,与 Scalar 和 Semi-scalar RM 相比,偏差显著减少
Inference-Time Scalability
  • 不同方法的推理时扩展结果如表 3 所示,总体趋势如图 1 所示
  • 细节见附录 D.3
  • 在最多 8 个样本的情况下(即 Voting@8),论文发现 DeepSeek-GRM-27B 相对于贪婪解码和采样结果的性能提升最高
    • DeepSeek-GRM-27B 进一步显示出使用更多推理计算资源(最多 32 个样本)提升性能的强大潜力
    • 论文将这种有效性归因于细化的 Principle 生成,它以结构化的方式扩展了输出长度,并引导结果奖励更接近真实分布
  • Mata RM 也显示出其在每个基准测试上为 DeepSeek-GRM 过滤低质量轨迹的有效性
  • 使用 Token 概率进行投票的 LLM-as-a-Judge 也显示出显著的性能提升,这表明 作为量化权重(Quantitative Weights)的 Token 概率可以帮助提高仅基于离散索引进行多数投票的可靠性
  • 对于 CLoud-Gemma-2-27B,性能提升有限
    • 主要是因为 Scalar 奖励生成缺乏方差,即使 Critique 发生了很大变化
  • In Summary,SPCT 提升了 GRM 的推理时扩展性,而 Mata RM 进一步提升了通用场景下的扩展性能
Ablation Study
  • 表 4 展示了所提出的 SPCT 不同组件的消融研究结果,详细结果列在附录 D.3
    • 令人惊讶的是(Surprisingly),即使没有经过拒绝采样 Critique 数据的冷启动,经过通用指令微调的 GRM 在经历 Online RL 后性能仍有显著提升(66.1 → 68.7)
      • 理解:这里是指使用 Online RL 去训练 GRM,这里对比的是第8行模型(仅包含通用指令微调)和第3行模型(在通用指令微调模型上经过了 Online RL 的模型)
    • Also,非提示采样似乎比提示采样更重要
      • 可能是因为提示采样轨迹中出现了走捷径的现象
    • 以上这些都表明了 GRM 在线训练的重要性
  • 与先前工作一致,论文确认通用指令数据对于 GRM 的性能至关重要
    • 论文发现 Principle 生成对于 DeepSeek-GRM-27B 的贪婪解码和推理时扩展性能都至关重要
  • 对于推理时扩展, Mata RM 引导的投票在不同的 \( k_{\text{meta} } \) 下表现出鲁棒性
  • 关于通用 RM 性能的进一步分析,包括输入灵活性、训练数据的领域泛化等,在附录 E 中讨论
Scaling Inference and Training Costs
  • 论文通过在不同规模的 LLM 上进行后训练,进一步研究了 DeepSeek-GRM-27B 的推理时和训练时扩展性能
  • 模型在 Reward Bench 上进行测试,结果如图 4 所示
  • 论文发现,使用 32 个样本直接投票的 DeepSeek-GRM-27B 可以达到与 671B MoE 模型相当的性能,而 Mata RM 引导的投票仅用 8 个样本即可获得最佳结果
    • 这证明了 DeepSeek-GRM-27B 的推理时扩展相较于扩展模型规模有更高的有效性
  • Moreover,论文在包含 300 个样本的下采样测试集上测试了 DeepSeek-R1-0120,发现其性能甚至低于 236B MoE RFT 模型
    • 这表明扩展长思维链进行推理任务并不能显著提升通用 RM 的性能

Related Work

Generative Reward Models

  • GRM 代表了从 Scalar RM (2022) 的范式转变,将奖励建模为文本反馈或分数
  • (2024a; 2024; 2025a; 2024; 2024; 2025),实现了更丰富的奖励表示和更灵活的单个及多个 Response Critique
  • 此前,LLM-as-a-judge 方法 (2023; 2024c) 支持基于参考或无参考的 Pairwise Critique 来评估 LLM
  • 最近的研究使用离线和 Online RL 来训练 GRM (2024; 2024; 2025b; 2025b; 2025),将工具和外部知识与 GRM 结合 (2024b; 2025),甚至训练 GRM 作为调整环境奖励的接口 (2025)
  • 尽管这些方法在效率上面临挑战,但它们展示了大规模改进奖励的潜力,朝着更通用的奖励系统发展

Inference-Time Scaling for LLMs

  • LLM 的推理时扩展一直是一个与训练时扩展并行的重要研究方向
  • 研究集中于采样和 RM 引导的聚合 (2024; 2024; 2025; 2025)
  • 最近,从 LLM 中激励产生的长思维链 (2022) 显著提升了模型在解决 (OpenAI, 2024; DeepSeek-AI, 2025; OpenAI, 2025a) 和 Critique (2025; 2025) 困难可验证问题时的推理能力,这是推理时扩展的另一种形式
  • 然而,论文没有找到像 DeepSeek-AI (2025) 那样有效激励长范围奖励生成以实现通用奖励建模的方法,论文将推理与 Principle 引导的奖励生成的结合留待未来的工程努力
  • 也有研究使用可扩展的奖励或验证器来提升策略模型在编码 (2023)、推理 (2025) 等领域的性能
  • 因此,本工作中推理时可扩展的通用 RM 的发展,也可能通过推理时协同扩展,为策略模型的通用性能做出贡献

Ethics Statement

  • 论文提出的方法,自 Principle Critique 调优 (SPCT),旨在增强生成式奖励模型在通用领域的推理时扩展性
    • 尽管这一进展促进了奖励建模的准确性和一致性,但有几个伦理影响可能需要明确考虑
  • 首先,尽管通过论文的实证分析表明 DeepSeek-GRM 在不同领域表现出较少的偏差,但当训练数据存在毒性时,自动生成的 Principle 和 Critique 可能会无意中延续或放大偏差
    • 作者认为应该优先研究 Mata RM 和其他偏见缓解策略,以确保公平的结果
    • 此外,论文的方法并非旨在削弱人类监督
      • 相反,论文主张维护人在环路框架,并开发可靠的代理方法(如 SPCT)来更高效、更有效地扩展人类监督
  • 其次,推理时可扩展 GRM 在多样化领域的适用性扩大,可能会引发关于透明度、问责制等方面的担忧
    • 由于奖励生成行为很大程度上源于自我引导,不忠实的 Principle 和 Critique 的可能性是不可忽视的
    • 论文在附录 F.1 中展示了案例研究,在附录 B 中说明了局限性,并在公开监督下开源了模型,这对于维护信任和确保工件的负责任部署至关重要
  • 最后,在不同 RM 基准测试和实际场景中进行稳健的验证和持续的警惕仍然至关重要
    • 负责任地使用 DeepSeek-GRM 需要主动管理风险并持续评估偏见,这需要在 RM 评估研究方面付出努力

附录 A:Additional Related Work

Constitutional AI

  • Constitutional AI 已成为传统 RLHF (2022) 的一个可扩展替代方案,旨在通过一套指导 Principle 或“宪法”使语言模型与人类价值观对齐 (2022b; 2023, 2024),用基于这些人工制定 Principle 的AI生成反馈 (2024) 或分类器 (2025) 替代人类 Critique
  • 类似地, Rule-based 方法如 Sparrow (2022) 和 Rule-Based Rewards (RBR) (2024) 将明确的自然语言规则纳入特定领域(如安全性)的训练循环中
  • 尽管这些方法有效,但它们依赖于静态的、人工编写的宪法,这些宪法在范围上有限、可能存在偏见且不够灵活
    • 这激发了人们对自动化生成或改进 Principle 的兴趣,这也与论文本工作的目标相一致

Scalar Reward Models

  • Scalar 奖励模型最初是为 LLMs 提出,作为人类反馈的代理模型 (2020; 2023)
  • 近期的研究侧重于 Bradley-Terry 建模 (1940) 和其他回归方法,以提高 Scalar 奖励模型在通用偏好上的表达能力 (2024; 2024e, 2024b; 2024; 2025b)
  • 与这些结果奖励模型相比,过程奖励模型被提出作为推理问题(如数学等)的步骤验证器 (2021; 2024b; 2025b),展示了 Scalar RM 在具有广泛推理和知识的正式领域中的可行性
  • Scalar RM 的优点是简单且计算高效,但表达能力有限,并且难以跨不同输入类型进行泛化或在推理时细化奖励信号

Semi-Scalar Reward Models

  • Semi-scalar 奖励模型旨在通过文本中间表示来丰富 Scalar 奖励信号 (2025a; 2024)
    • (2025b) 提出通过提高生成的 critiques 的质量来最终改进奖励生成
  • 一些研究使用 token 概率来替代 Scalar 头部进行奖励提取 (2024; 2025a)
  • 以上这些工作表明
    • Semi-scalar RM 在基于采样和投票的推理时扩展方面面临挑战,导致性能提升有限
    • Semi-scalar 方法在效率和效果之间权衡了 Scalar RM 和 GRM

附录 B:Limitations and Future Directions

Limitation

  • 尽管 SPCT 显著提升了 GRM 的性能和推理时扩展性,并在通用领域超越了(Semi)Scalar RM,但它仍面临一些局限性
  • (1) 生成式 RM 的效率本质上远远落后于同等规模的 Scalar RM,这抑制了其在 Online RL Pipeline 中的大规模使用
    • 然而,由于论文采用并行采样进行推理时扩展,使用合理数量的采样(例如8次)进行奖励生成的延迟不会显著增加
    • 围绕 LLM 高效生成和 RM 应用创新的进一步研究可能缓解此问题
  • (2) 在特定领域(如可验证任务)中,DeepSeek-GRM 仍然落后于 Scalar 模型
    • 这可能是因为 Scalar RM 捕获了推理 Query 和 Response 的隐藏特征 ,而 GRM 需要更强的推理能力来彻底检查 Response
      • 然而, Scalar RM 存在严重的偏见和扩展性问题
    • 对于 GRM,论文发现基于参考的奖励生成(附录 E.1.3)和长链条推理(附录 D.3)可以缓解这一局限
  • (3) 由于 Pointwise GRM 方法的普适性,DeepSeek-GRM 除了作为结果 RM 外,还可能作为过程 RM
    • 尽管论文在论文中没有深入探索这个方向,但在 Reward Bench 的 Reasoning 子集(主要包含 MATH-prm 数据 (2024))上的性能部分支持了这种应用的潜力

Future Direction

  • 基于 SPCT 或 DeepSeek-GRM 模型,未来研究有几个有希望的方向
  • (1) 先前工作研究了 RM 的工具集成 (2024b),也可用于 DeepSeek-GRM 增强
    • 使用诸如代码解释器和搜索引擎接口等工具 ,生成的 critiques 对于需要严格流程或广泛知识的任务可能更准确,并且可以避免 GRM 在遵循与数值计算、模式匹配等相关 Principle 时失败的情况
  • (2) Principle 和 critiques 的生成范式可以分解 为不同阶段,即 Principle 可以为每个待评分的 Query 和 Response 预先生成并存储,然后使用 GRM、规则或其他智能体方法生成 critiques
    • Principle 生成作为后续 critiques 的接口
    • 这可能会提高当前 GRM 集成到 RL Pipeline 中的效率
  • (3) DeepSeek-GRM 可能用于 LLM 离线评估
    • 由于每个 Principle 反映了一个标准,我们可以从特定 LLM 劣于另一个 LLM 的所有数据点中获取标准,作为解释该特定 LLM 弱点的可解释协议
    • 问题:实践发现,如果 Principle 是 Query-Specific 的,此时使用 Chosen 和 Rejected 来作为 Rubrics 生成参考容易出现过拟合,是否在通用的 Rubrics 中使用更合适?
  • (4) DeepSeek-GRM 可能受益于长链条推理
    • 然而,这会进一步影响其效率
    • 这些方向应在未来工作中进行研究

附录 C:Implementation Details

C.1 Model Training

  • 对于 Rule-based Online RL,论文使用标准的 GRPO 设置 (2024),总体目标函数为:
    $$
    \begin{align}
    \mathcal{J}_{\text{GRPO} }(\theta)=\mathbb{E}_{[q\sim P(Q),\{o_{i}\}_{i=1}^{G}\sim\pi_{\theta_{old} }(O|q)]} &\frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_{i}|} \sum_{t=1}^{|o|} \\
    &\left\{\min\left[\frac{\pi_{\theta}(o_{i,t}|q.o_{i<t})}{\pi_{\theta_{old} }(o_{i,t}|q.o_{i<t})}\hat{A}_{i,t}, \text{clip}\left(\frac{\pi_{\theta}(o_{i,t}|q.o_{i<t})}{\pi_{\theta_{old} }(o_{i,t}|q.o_{i<t})}, 1-\epsilon, 1+\epsilon\right)\hat{A}_{i,t}\right]-\beta\mathbb{D}_{KL}\left[\pi_{\theta}||\pi_{ref}\right]\right\},
    \end{align}
    $$
    • 其中 \(\hat{A}_{i,t}=\frac{\hat{r}_{t}-\text{mean}(\hat{t})}{\text{std}(\hat{t})}\),\(G\) 是组大小,\(\beta\) 是 KL 惩罚系数,\(q=(x,\{y_{i}\}_{i=1}^{n})\) 包含 prompts
    • 论文对超参数 \(\beta\in\{0.00,0.01,0.02,0.08\}\) 进行了网格搜索,发现 \(\beta=0.08\) 是 DeepSeek-GRM-27B 最稳定的配置
      • 当 KL 系数太小时,DeepSeek-GRM-27B 倾向于在基准测试的几个子集上崩溃,例如 Reward Bench 中的 Chat 子集和 RMB 中的 Harmlessness 子集,并对其他一些领域表现出偏见
      • 对于较小的 DeepSeek-GRM-16B,论文使用 \(\beta=0.002\),因为它对 KL 损失系数不那么敏感
    • 论文设置 \(G=4\) 以在效率和性能之间取得更好的平衡
  • 训练集包含 1256K RFT 数据,包括 \(1070\)K 通用指令数据和 \(186\)K 拒绝采样数据,以及 \(237\)K RL 数据
    • 通用指令数据来自内部数据集
    • 拒绝采样数据和 RL 数据来自相同的 RM 数据集,包含对单个、 Pairwise 和多个 Response 的偏好,这些数据由内部数据和开源数据集构建,包括来自 MATH (2021)、UltraFeedback (2024)、OffsetBias (2024)、Skywork-Reward-Preference-80K-v0.2 (2024) 和 HelpSteer2-Preference (2025b) 的训练集
      • Specifically,由于 UltraFeedback 的部分数据存在质量问题,论文重新标记了其偏好标签;
      • 论文根据 Rule-based ground-truth 匹配对 MATH 进行采样和过滤轨迹,生成 Pairwise 偏好数据;
    • 对于评分单个 Response ,论文将正确 Response 的 ground-truth 奖励设置为 1,错误 Response 的奖励设置为 0,仅纳入可验证的问题
    • 对于拒绝采样,论文使用 DeepSeek-v2.5-0905 生成带有 Principle 和 critiques 的轨迹
    • 采样次数 \(N_{\text{RFT} }\) 设置为 3
    • 在 HelpSteer2 上进行 hinted sampling 时,论文添加原始数据集中标注的偏好强度作为提示
    • 论文还从 RL 数据中移除了对 DeepSeek-V2-Lite-Chat 来说过于简单的样本 ,即根据公式 (10),所有生成的奖励在三次生成中都是正确的
  • DeepSeek-GRM 模型和 meta RM 的派生关系(derivation)如图 5 所示
    • 所有 DeepSeek-GRM 模型都是从 LLM 的预训练版本开始训练的
    • 对于 meta RM 的训练,论文复用了 RFT 阶段的拒绝采样数据,并使用 DeepSeek-GRM-27B 进行拒绝采样,\(N_{\text{RFT} }=3\),以避免 meta RM 引导投票中的潜在偏见 (2025)
    • meta RM 训练的学习率为 \(1\times 10^{-5}\),批次大小为 512
  • DeepSeek-GRM-27B 的 RFT 和 RL 训练时间如表 5 所示,基于 Gemma-2-27B 的模型在 Fire-Flyer 平台 (2024) 上使用 128 个 A100 GPU 进行训练
    • RFT 阶段的学习率为 \(5\times 10^{-6}\),RL 阶段的学习率为 \(4\times 10^{-7}\),RFT 阶段的批次大小为 1024,RL 阶段为 512
      • 两个阶段均训练 900 步
    • 由于资源限制,大于 27B 的 DeepSeek-GRM 模型未经过 Rule-based RL,仅使用 50K 拒绝采样数据进行训练

C.2 Baseline Implementation

  • 对于基线方法,论文基于 Gemma-2-27B (Team, 2024) 并采用与 DeepSeek-GRM 兼容的所有训练数据和设置,重新实现了 LLM-as-a-Judge (2023)、DeepSeek-BTRM-27B (Kendall & Smith, 1940)、CLoud-Gemma-2-27B (2024) 和 DeepSeek-PairRM-27B (2023)
  • 对于 LLM-as-a-Judge ,
    • 论文使用与 DeepSeek-GRM-27B 完全相同的训练配置,包括使用 DeepSeek-v2.5-0905 的拒绝采样数据进行 RFT 和 Rule-based Online RL
    • 由于其评分模式,RL 阶段只能使用 Pairwise 数据
    • 对于 CLoud-Gemma-2-27B ,论文也使用相同的 prompt 模板从 DeepSeek-v2.5-0905 生成 pointwise critiques
      • 然而,由于没有训练好的价值头就无法提取奖励,执行拒绝采样是不可行的
      • 论文使用 DeepSeek-GRM-27B 的相同通用指令数据以及采样的 critique 对 Gemma-2-27B 进行微调,得到一个 critique 生成模型
      • 具体来说,论文微调了另一个带有价值头的 Gemma-2-27B 模型用于奖励生成,而不是在 critique 模型上进行事后的价值头训练
    • CLoud-Gemma-2-27B 的价值头、DeepSeek-BTRM-27B 和 DeepSeek-PairRM-27B (2023) 的训练使用与 DeepSeek-GRM-27B 的 RL 阶段相同的数据集,但排除了单个 Response 评分数据

附录 D:Experiment Details

D.1 Hyper-Parameters

  • 对于 DeepSeek-GRM-27B、DeepSeek-GRM-16B、LLM-as-a-Judge 和 CLoud-Gemma-2-27B 的推理时扩展结果,每个模型的温度 (temperature) 设置为 0.5
    • 对于其他实验,所有模型的温度设置为 0
  • 在没有特定说明的情况下,DeepSeek-GRM-27B 的 meta RM 引导投票中默认 \(k_{\text{meta} }=\frac{1}{2}k\)
  • 对于 DeepSeek-R1-0120 的推理,温度设置为 0.6
  • 请注意,论文让 DeepSeek-GRM 在 Real.Mistake 基准测试中为单个 Response 评分时,输出的奖励范围与其他基准测试相同

D.2 Benchmarks

  • 论文在不同领域的各种 RM 基准上评估不同方法的性能:
    • (1) Reward Bench (RB) (2024),一个常用的 RM 评估基准,包含半自动收集的聊天 (2023; 2023; 2024)、推理 (2024; 2024) 和安全性 (Rö2024; 2024d) 偏好数据,其中每个 Query 需要对两个 Response 进行排序;
    • (2) PPE (2025),一个包含众包偏好数据和可验证任务正确性数据的大规模基准,每个 Query 有两个 Response ;
    • (3) RMB (2025),一个更全面的基准,包含各种类型的偏好数据,侧重于帮助性和无害性,每个 Query 有两个或更多 Response ,分别在 Pairwise 和 best-of-N (BoN) 子集中;
    • (4) Real.Mistake (2024),一个用于诊断单个 Response 中错误的基准
    • 论文在总体分数计算中不包括 Reward Bench 基准测试的 prior sets (2022a; 2021; 2022; 2020)
    • 对于报告的公开模型结果,论文使用每个基准发布的分数
      • gpt-4o 的版本略有不同,因为论文报告的是 gpt-4o-2024-08-06 在 Reward Bench 和 PPE(Correctness 子集使用 AlpacaEval prompt 模板复现)上的结果,以及 gpt-4o-2024-05-13 在 RMB 上的结果
  • 论文为每个基准使用标准评估指标:在 Reward Bench、PPE 和 RMB 中从一组 Response 中挑选最佳 Response 的准确度,在 Real.Mistake 中使用 ROC-AUC
    • RMB 基准测试的 BoN 子集每个 Query 包含多个 Response ,只有当最佳 Response 被识别时,每个数据点才被视为正确
    • 评估模型在 RMB BoN 子集上的默认设置是,如果总共有 \(n\) 个 Response,则 Pairwise 评估 \((n-1)\) 对(每对包含最佳 Response 和另一个不同的 Response)
      • 对于基线方法,论文采用这种方法进行评估
      • 而对于论文的模型 (DeepSeek-GRM),论文直接将所有 Response 输入模型,并通过 \(\arg\max_{i} S_i\) 识别最佳 Response ,其中 \(S_i\) 是第 \(i\) 个 Response 的预测奖励
        • 这是一种更直接但也更困难的方式,并且几乎不影响性能
        • 请参阅附录 E.1.1 的经验分析
        • 问题:这里再次强调了论文是同时将所有 Response 输入模型的
  • 对于 DeepSeek-R1-0120,由于推理成本和延迟巨大,论文从 Reward Bench 基准测试中均匀下采样了 300 个数据点,并在该子集上测试 DeepSeek-R1-0120
    • 结果如图 4(b) 所示

D.3 Detailed Results

  • 论文在图 6 中提供了图 1 的详细结果,并提供了更多公开模型的性能作为参考
  • 论文在表 6 中提供了表 3 的详细结果
  • 在表 7 中提供了表 4 的详细结果,并给出了每个 RM 基准测试的分数
  • 此外,论文列出了所有测试方法在每个 RM 基准测试上的详细结果,Reward Bench 基准测试的结果在表 8 中,PPE Correctness 基准测试在表 9 中,RMB 基准测试在表 10 中
    • 论文发现,DeepSeek-R1 在 Reward Bench 的 Reasoning 子集中取得了最高结果,表明长链条推理可以提升 GRM 在广泛推理场景中的表现

附录 E:Additional Experiments

E.1 Input Flexibility of the Pointwise GRM Approach

  • 在章节 2.1 中,论文从理论上论证了 pointwise GRM 方法的输入灵活性
    • 在本节中,论文提供了各种输入类型的经验证据来支持这一观点
E.1.1 Generating Rewards for Many Responses
  • 在表 11 中,论文展示了 DeepSeek-GRM-27B 在 RMB 基准测试 BoN 子集上的实验结果,其中每个 Query 有多个 Response
  • 如果总共有一个 Query 有 \(n, (n>2)\) 个 Response , Pairwise 输入设置是评估 \((n-1)\) 对,每对包含最佳 Response 和其他 Response ,只有当最佳 Response 从所有 \((n-1)\) 对中被正确识别时,该数据点才被视为正确
    • 这也是原始基准测试的默认设置
  • 论文比较了 DeepSeek-GRM-27B 在 Pairwise 输入和列表输入设置下的性能,列表输入设置是输入所有 \(n\) 个 Response 来识别最佳 Response
    • 结果表明,DeepSeek-GRM-27B 几乎不受输入类型的影响,在帮助性和无害性子集上的性能差异都小于 1%
    • 这表明 pointwise GRM 可以灵活地输入多个 Response ,并且性能对输入类型不敏感
E.1.2 Generating Rewards for Single Responses
  • 在表 13 中,论文展示了 DeepSeek-GRM-16B 和 DeepSeek-GRM-27B 在 Real.Mistake 基准测试上的实验结果,其中每个 Query 只有一个 Response
    • 论文与公开模型(如 DeepSeek-V2.5-0905、GPT-4o-2024-08-06、DeepSeek-V2-Lite 和 Gemma-2-27B-it)以及 DeepSeek-BTRM-27B 进行了比较
    • 结果显示,DeepSeek-GRM 在同等规模的模型中取得了最佳性能,并且通过推理时扩展,性能与最佳公开模型相当
    • 这表明 pointwise GRM 可以有效地对单个 Response 进行评分
E.1.3 Generating Rewards with Reference
  • 在章节 5.2 中,论文展示了 Scalar 和 Semi-scalar RM 可能存在显著的领域偏见,并且通常在可验证问题上表现更好
  • 为了缓解这个问题,论文测试了 DeepSeek-GRM-27B 在这些任务中使用参考(即每个 Query 的 ground truth)生成奖励的能力
  • 结果如表 12 所示
    • 论文发现,在提供参考的情况下,DeepSeek-GRM-27B 可以达到超过 90% 的准确率
    • 这表明 pointwise GRM 可以有效地根据参考判断 Response ,从而缓解了在可验证任务上的性能问题

E.2 Transferability of Generated Principles

  • 论文用 DeepSeek-GRM-27B 生成的 Principle 扩展了章节 2.2 中的初步实验
  • 论文测试了 GPT-4o-2024-08-06 和 DeepSeek-GRM-27B 使用与表 1 完全相同的手动过滤 Principle 以及上述 DeepSeek-GRM-27B 生成的 Principle
  • 结果如表 14 所示
    • 论文发现 DeepSeek-GRM-27B 生成的 Principle 可以迁移到其他模型,甚至比手动从 GPT-4o 过滤的 Principle 略好
    • 这表明 DeepSeek-GRM-27B 生成的 Principle 是稳健的且可迁移到其他模型

E.3 eneralization beyond Training Data

  • 论文对 DeepSeek-GRM-27B 训练数据的泛化能力进行了消融研究
  • 论文移除了 MATH 训练集中的所有数据,并重新实施了训练方案
  • 在 Reward Bench 基准测试上的结果如表 15 所示
    • 论文发现,仅添加与数学相关的偏好数据也可以提升通用 RM 在不同领域上的性能,尤其是在 Chat Hard 子集上
    • 结果表明 DeepSeek-GRM-27B 可以泛化到训练数据覆盖范围之外的领域

E.4 Response Length Analysis for Rule-Based RL

  • 论文在图 7 中计算了 DeepSeek-GRM-27B 在进行 Rule-based Online RL 前后在 Reward Bench 基准测试各子集上的 Response 长度
    • DeepSeek-GRM-27B 的 token 计数基于 Gemma-2-27B 的 tokenizer 计算,而 DeepSeek-R1-0120 的结果使用其对应的 tokenizer
    • 论文发现,Chat 子集的 Response 长度在 RL 后几乎没有增加,而 Safety 子集的 Response 长度甚至略有下降
    • Response 长度增加最大的是在 Reasoning 子集,根据表 8,DeepSeek-GRM-27B 在该子集上的性能相比 DeepSeek-GRM-27B-RFT 也提升最大
    • 这可能表明 DeepSeek-GRM-27B 学会了在广泛推理任务上自适应地使用更多推理计算资源,并且在模型学会准确生成 Principle 后,可以节省一些其他领域(如安全性)的计算
    • 然而,DeepSeek-R1-0120 使用了多得多的 tokens 却取得了更低的结果(Reasoning 除外),这表明长链条推理也有助于与广泛推理相关的 RM 任务

附录 F:Qualitative Analysis

F.1 Case Study

  • 论文在表 16、17 和 18 中提供了 DeepSeek-GRM-27B 的案例研究

  • 第一个案例表明, Scalar RM DeepSeek-BTRM-27B 在特定情况下可能被攻击或存在偏见,而 DeepSeek-GRM-27B 生成文本 Principle 和 critiques,表现出更好的鲁棒性

  • 第二个案例展示了 DeepSeek-GRM-27B 的可扩展行为,通过在多个样本上投票生成准确的奖励

    • 相应的 meta RM 分数也显示了 meta RM 在引导投票过程中的有效性
  • 第三个案例展示了 DeepSeek-GRM-27B 的潜在失败,这是由于模型无法根据某些 Principle(例如评估实时数据)准确判断 Response ,并且每个 Principle 的权重可能不平衡

    • 包含权重分配和分数收集的 critique 过程主要来自 RFT 和 Online RL 训练,这在不同的采样和测试案例中可能有很大差异
  • 示例核心:

    • 在输入 <Query, Response1, Response2> 后, DeepSeek-GRM-27B-Result 的输入类似:

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      Specific Criteria:
      1. **Depth of Analogies and Metaphors** (Weight: 30%): The extent
      to which the analogies and metaphors used are deep, creative, and
      effectively convey complex concepts.
      2. **Comprehensiveness of Core Information** (Weight: 30%): The
      thoroughness with which the core information essential to behavioral
      neuroscience is covered.
      3. **Clarity and Organization** (Weight: 20%): The clarity of explanations
      and the logical organization of the information.
      4. **Engagement and Appeal** (Weight: 20%): The level of engagement
      and appeal the response has, making the information interesting and
      memorable.
      Analysis:
      - **Response 1**: This response excels in comprehensiveness and clarity,
      covering all major aspects of behavioral neuroscience with detailed
      and well-organized explanations. The analogies and metaphors are
      well-crafted and effectively enhance understanding. However, some
      metaphors could be more creative to enhance engagement further.
      - **Response 2**: This response is also comprehensive and clear, but
      it stands out more in the depth and creativity of its analogies and
      metaphors. The organization is logical, and the explanations are clear.
      The engagement level is high, making the information appealing and
      memorable.
      Scores: \boxed{8, 9}
      • 特点:先给出具体的 Principle 和 权重,再进行打分分析,最终给出得分
    • 对于使用 Meta RM 的场景,DeepSeek-GRM-27B-Result 模型会回复多个上面的类似打分,每个都是 \boxed{8, 9} 的形式,然后会根据 Meta RM 的评估分数汇总 DeepSeek-GRM-27B-Result 的打分

      • 注意:在使用 Meta RM 时,在输入 DeepSeek-GRM-27B-Result 时,可能会随机调换 Response1 和 Response2 的顺序

Failure Mode Analysis

  • 论文从 DeepSeek-GRM-27B 在每个基准测试上的测试结果中随机抽样了 10 个错误数据点 (只有 10 个数据,诚意不够),并在图 8 中总结了失败模式
  • 对失败案例的分析表明,挑战主要在于模型无法判断过于复杂或属于特定领域(如模式匹配、计数等)的 Response ,以及缺乏专家知识,从而导致错误的 critiques
    • 尽管在大多数情况下 Principle 生成正确,但模型为每个 Principle 分配的权重会影响奖励的生成,有时会导致错误的结果
  • 然而,论文也发现
    • RM 基准测试中少数数据点的 ground truth 与人类标注者的偏好不一致
    • 可能是由于小规模人工标注研究的偏见或 ground truth 标注中的潜在错误

附录 G:Prompt Templates

  • 论文在下面展示了用于 DeepSeek-GRM、训练期间用于单个 Response 的 DeepSeek-GRM、meta-RM 以及 LLM-as-a-Judge 的 prompt 模板
  • 对于 prompt 工程,论文设计了一些示例 Principle ,用于上下文学习和基本的 critique 指导
  • 论文对 meta RM 使用更简洁的模板,以确保 Query 、 Response 以及生成的 Principle 和 critiques 能够适应上下文窗口
  • 在组装 meta RM 的模板后,论文进一步将内容封装在专为 DeepSeek-V3-1226 (DeepSeek-AI, 2024b) 设计的聊天模板中,然后再进行输入

DeepSeek-GRM (Default)

  • DeepSeek-GRM (Default) Prompt

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    You are a skilled little expert at scoring responses. You should evaluate given responses based
    on the given judging criteria.\n Given the context of the conversation (the last round is the
    User’s query) and multiple responses from the Assistant, you need to refer to the [General
    Evaluation Criteria] to score the responses. Based on the general evaluation criteria, state
    potential other specific criteria to the query, the weights of different criteria, and then provide
    an overall comprehensive score upon them.\n Each score is an integer between 1 and 10,
    with a higher score indicating that the response meets the relevant criteria more closely. For
    example, a score of 1 means the response does not meet the criteria at all, a score of 6 means
    the response meets only some parts, and a score of 10 means the response perfectly meets the
    evaluation criteria.\n Before scoring, please analyze step by step. Your scoring needs to be as
    strict as possible.
    #### Evaluation Criteria ####
    1. Instruction Adherence:\n - Fully Adhered (9-10 points): The response fully complies with
    all instructions and requirements of the question.\n - Partially Adhered (6-8 points): The
    response meets most of the instructions but has some omissions or misunderstandings.\n -
    Basically Adhered (3-5 points): The response meets some instructions, but the main
    requirements are not fulfilled.\n - Not Adhered (1-2 points): The response does not meet any
    instructions.\n Example: If the question requires three examples and the response provides
    only one, it falls under “Partially Adhered.”
    2. Usefulness:\n - Highly Useful (9-10 points): The response provides comprehensive and
    accurate information, fully addressing the issue.\n - Useful but Incomplete (6-8 points):
    The response provides some useful information, but lacks details or accuracy.\n - Limited
    Usefulness (3-5 points): The response offers little useful information, with most content
    being irrelevant or incorrect.\n - Useless or Incorrect (1-2 points): The response is completely
    irrelevant or incorrect.\n Example: If there are factual errors in the response but the overall
    direction is correct, it falls under “Useful but Incomplete.”
    3. Level of Detail:\n - Very Detailed (9-10 points): The response includes ample details
    covering all aspects of the issue.\n - Detailed but Slightly Lacking (6-8 points): The response
    is fairly detailed but misses some important details.\n - Basically Detailed (3-5 points): The
    response provides some details but is not thorough enough overall.\n - Not Detailed (1-2
    points): The response is very brief and lacks necessary details.\n Example: If the response
    provides only a simple conclusion without an explanation, it falls under “Not Detailed.”
    4. Relevance:\n - Highly Relevant (9-10 points): The response is highly relevant to the
    question, with information closely aligned with the topic.\n - Generally Relevant (6-8 points):
    The response is generally relevant but includes some unnecessary information.\n - Partially
    Relevant (3-5 points): The response has a lot of content that deviates from the topic.\n - Not
    Relevant (1-2 points): The response is completely irrelevant.\n Example: If the response strays
    from the topic but still provides some relevant information, it falls under “Partially Relevant.”
    #### Conversation Context ####\n{conversation context & query}\n
    #### Responses to be Scored ####
    [The Begin of Response i]\n{the i-th response}\n[The End of Response i]\n
    #### Output Format Requirements ####
    Output with three lines
    Specific Criteria: <Other potential criteria specific to the query and the context, and the
    weights of each criteria>.
    Analysis: <Compare different responses based on given Criteria>.
    Scores: <the overall comprehensive score of all responses in order, separate by comma in the
    boxed, e.g., \boxed{x, x} if there exists 2 responeses>.
    • DeepSeek-GRM Prompt 中,输入的 Reponse 可以多个

Meta RM

  • Meta RM Prompt
    1
    2
    3
    4
    5
    6
    7
    8
    **Prompt:**
    Please score the responses.
    #### Conversation Context ####\n{conversation context & query}\n
    #### Responses to be Scored ####
    [The Begin of Response i]\n{the i-th response}\n[The End of Response i]\n
    -----
    **Response:**
    {principle & critique}

LLM-as-a-Judge

  • LLM-as-a-Judge Prompt

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    You are a skilled little expert at scoring responses. You should evaluate given responses based
    on the given judging criteria.\nGiven the context of the conversation (the last round is the
    User’s query) and multiple responses from the Assistant, you need to refer to the [General
    Evaluation Criteria] to score the responses. Based on the general evaluation criteria, state
    potential other specific criteria to the query, the weights of different criteria, and then select
    the best response among all candidates.\nBefore judging, please analyze step by step. Your
    judgement needs to be as strict as possible.
    #### Evaluation Criteria ####
    1. Instruction Adherence:\n - Fully Adhered: The response fully complies with all instructions
    and requirements of the question.\n - Partially Adhered: The response meets most of the
    instructions but has some omissions or misunderstandings.\n - Basically Adhered: The
    response meets some instructions, but the main requirements are not fulfilled.\n - Not
    Adhered: The response does not meet any instructions.\n Example: If the question requires
    three examples and the response provides only one, it falls under “Partially Adhered.”
    2. Usefulness:\n - Highly Useful: The response provides comprehensive and accurate
    information, fully addressing the issue.\n - Useful but Incomplete: The response provides
    some useful information, but lacks details or accuracy.\n - Limited Usefulness: The response
    offers little useful information, with most content being irrelevant or incorrect.\n - Useless or
    Incorrect: The response is completely irrelevant or incorrect.\n Example: If there are factual
    errors in the response but the overall direction is correct, it falls under “Useful but Incomplete.”
    3. Level of Detail:\n - Very Detailed: The response includes ample details covering all aspects
    of the issue.\n - Detailed but Slightly Lacking: The response is fairly detailed but misses
    some important details.\n - Basically Detailed: The response provides some details but is not
    thorough enough overall.\n - Not Detailed: The response is very brief and lacks necessary
    details.\n Example: If the response provides only a simple conclusion without an explanation,
    it falls under “Not Detailed.”
    4. Relevance:\n - Highly Relevant: The response is highly relevant to the question, with
    information closely aligned with the topic.\n - Generally Relevant: The response is generally
    relevant but includes some unnecessary information.\n - Partially Relevant: The response has
    a lot of content that deviates from the topic.\n - Not Relevant: The response is completely
    irrelevant.\n Example: If the response strays from the topic but still provides some relevant
    information, it falls under “Partially Relevant.”
    #### Conversation Context ####\n{conversation context & query}\n
    #### Responses to be Scored ####
    [The Begin of Response]\n{the response}\n[The End of Response]\n
    #### Output Format Requirements ####
    Output with three lines
    Specific Criteria: <Other potential criteria specific to the query and the context, and the
    weights of each criteria>.
    Analysis: <Compare different responses based on given Criteria>.
    Scores: <the index of the best response based on the judgement, in the format of \boxed{x}>.
    • 除了输入 Response 只有一个以外,其他评估指标等好像和 DeepSeek-GRM(输入的 Reponse 可以多个) 的 Prompt 差不多

NLP——Agentic-AI相关技术简介

本文仅包含简单介绍,更详细的描述可以搜索本人其他博客

  • 参考链接:
    • 可参考:Generative to Agentic AI: Survey, Conceptualization, and Challenges,但我们可以简单了解一下

Agentic AI 相关技术整体介绍

  • 定义:LLM agentic 技术是指让 LLM 具备智能代理(Agent)能力的相关技术
  • 常见的LLM agentic技术包括:记忆技术 ,工具使用技术 ,推理与计划技术 和 多智能体协作技术

记忆技术

  • 通常包括短期记忆和长期记忆
  • 短期记忆 :主要实现对当前会话历史的记忆,最直接的方法是使用模型的上下文窗口,将完整的对话历史作为输入提示的一部分。对于上下文窗口较小的模型,或者当对话历史较大时,可以改用另一个 LLM 来总结到目前为止发生的对话
  • 长期记忆 :通常将所有之前的互动、行动和对话存储在一个外部向量数据库中,构建数据库之后,通过检索增强生成(RAG)方式检索相关信息

工具使用技术

  • 模型调用工具实现一些 LLM 无法实现的功能,相关协议和工具如下
  • Toolformer :是最早实现训练用于决定调用哪些 API 以及如何调用的模型,通过工具使用增强 LLM的 能力并弥补其不足
  • 模型上下文协议(MCP) :为天气应用和 GitHub 等服务标准化了 API 访问,由以下三个组件组成:
    • MCP 主机(LLM 应用,管理连接)
    • MCP 客户端(与 MCP 服务器保持一对一连接)
    • MCP 服务器(为 LLM 提供上下文、工具和能力)

Reasoning 与 Planning 技术(核心技术)

  • 这个技术是最复杂的,相关论文和方法也最多,关键技术包括 ReAct、Self-Refine、Reflexion、Plan-and-Execute 和 Retroformer 等

ReAct (Reasoning + Acting)

  • 论文参考:ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao, 2022 & ICLR 2023
    • 算是 Agent 领域开创性的工作
  • 基本思路:结合Reasoning和行动(Acting),通过动态生成推理步骤和交互动作(如调用工具、搜索)来完成任务
    • 强调在推理过程中与环境互动以获取额外信息
  • 一句话目标总结:通过动态推理与实时环境交互完成任务
  • 方法流程简述:推理 -> 行动 -> 观察 -> 循环
    • 接收任务(如“回答复杂问题”)
    • 生成推理步骤(如“需先查证XX数据”)
    • 执行动作(调用工具/搜索API)
    • 观察结果(获取工具返回信息)
    • 循环(结合新信息继续推理或终止)
    • 最终输出 :最终答案或解决方案

Self-Refine

  • 论文参考:Self-Refine: Iterative Refinement with Self-Feedback, NeurIPS 2023, NVIDIA & Google Deepmind
  • 基本思路:模型通过自我反馈迭代优化输出。首先生成初始结果,然后自我批评(Self-Critique)并修正错误,无需外部监督
  • 一句话目标总结:通过自我迭代优化单次输出质量
  • 方法流程简述:生成 -> 批评 -> 修正 -> 循环
    • 生成初始输出(如一段代码)
    • 自我批评(检查语法/逻辑错误)
    • 修正输出(基于批评重新生成)
    • 重复 直至满足条件(如无错误或达到最大迭代次数)
    • 最终输出 :优化后的文本/代码

Reflexion

  • 论文参考:Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS 2023
  • 基本思路:赋予模型“记忆”能力,通过保存历史交互的反思(Reflection)来指导未来决策,避免重复错误,帮助代理从之前的失败中学习,包含了行动者、评估者和自我反思三个 LLM 角色
  • 一句话目标总结:通过记忆历史反思改进长期策略
  • 方法流程简述:行动 -> 反馈 -> 反思 -> 存储 -> 未来检索
    • 执行任务(如对话/游戏动作)
    • 接收反馈(用户评分/任务成败)
    • 生成反思(如“失败因未查询用户偏好”)
    • 存储反思至记忆库
    • 未来任务优先检索相关反思指导行动
    • 最终输出 :持续优化的长期表现

Plan-and-Execute

  • 代表方法 :Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models, 2023 和 HuggingGPT (利用LLM协调专家模型) 等
  • 基本思路:将任务分解为规划(Plan)和执行(Execute)两阶段:首先生成高层次计划,再逐步执行子任务
  • 一句话目标总结:通过分阶段规划与执行解决复杂任务
  • 方法流程简述:规划 -> 执行子任务 -> 整合
    • 任务分解 :生成高层次计划(如“写论文需:1.查资料 2.列大纲 3.写作”)
    • 执行子任务 :按顺序完成各步骤
    • 整合结果 :合并子任务输出
    • 最终输出 :结构化任务结果

Retroformer

  • 论文参考:Retroformer: Retrospective large language agents with policy gradient optimization, ICLR 2024, Salesforce AI Research
  • 基本思路:通过逆向推理(Retrospective Reasoning)生成假设并验证,结合前向和后向推理提升逻辑一致性
  • 一句话目标总结:通过逆向推理验证逻辑合理性
  • 方法流程简述:正向假设 -> 逆向验证 -> 修正 -> 输出
    • 生成假设(如数学证明的中间结论)
    • 逆向验证 :从目标反推假设是否成立
    • 修正假设 :若验证失败,调整推理路径
    • 输出最终结论
    • 最终输出 :逻辑严谨的结果

Reasoning 与 Planning 技术对比总结

方法 核心能力 交互性 适用场景 关键局限
ReAct 推理+环境交互 高 动态信息获取 依赖环境反馈
Self-Refine 自我迭代优化 无 生成任务优化 可能陷入错误循环
Reflexion 记忆与反思 中等 长期学习/对话 记忆管理复杂
Plan-and-Execute 分阶段任务分解 低 复杂任务规划 规划错误传导
Retroformer 双向推理验证 中等 逻辑严谨性要求高的任务 计算成本高

多智能体协作技术

  • 这个技术是 AI Agent 没有的,Agentic AI 特有的
  • 由专业化的 Agent 组成,每个 Agent 都配备了自己的一套工具,并由一个主管监督,主管管理 Agent 之间的通信,并为专业化的代理分配特定的任务,以解决单个Agent 存在的工具选择复杂、上下文复杂和任务专业化等问题

NLP——LoRA和QLoRA

本文主要介绍LoRA和QLoRA


LoRA

参考链接

  • LoRA(Low-Rank Adaptation)详解——知乎,大师兄

  • 神经网络模型参数一般都是矩阵形式,比如在Self-Attention中

    • 广义上 \(W_q,W_k,W_v,W_o\) 等分别是 \(d_{model}\times d_k, d_{model}\times d_k, d_{model}\times d_v, d_v \times d_{model}\) 维度的(这里的 \(d_v\) 表示所有头的长度的和,与Transformer原论文有所区别,原始论文中 \(d_v\) 是单个头的长度)
    • 而实际在Transformer中(包括Transformer原论文和GPT等),如果不考虑多头(或者多头数 \(h=1\) ),常常有 \(d_k = d_v = d_{model}\)
    • 在面对多头Attention时,常常有 \(d_v = d_v^{MH} \times N_{head}\),(再次强调,注意这里与原始论文表示不同,原始论文中 \(d_v\) 是单个头的维度,即 \(d_{model} = d_v * h\) )
  • LoRA通常用于预训练模型的微调阶段,训练时在预训练模型上加一个旁路,替代已有的网络模型参数(一般是特别大的参数矩阵,比如Attention参数 \(W_q\) 等

    • 对应的模型LoRA代码实现:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      input_dim = 768 # 例如,预训练模型的隐藏大小
      output_dim = 768 # 例如,层的输出大小
      rank = 8 # 低秩适应的等级'r'
      W = ... # 来自预训练网络的权重,形状为 input_dim x output_dim
      W_A = nn.Parameter(torch.empty(input_dim, rank)) # LoRA权重A
      W_B = nn.Parameter(torch.empty(rank, output_dim)) # LoRA权重B
      # 初始化LoRA权重
      nn.init.kaiming_uniform_(W_A, a=math.sqrt(5))
      nn.init.zeros_(W_B)
      # 以下写法与论文中公式 h = W @ x不一样的原因是因为这里x是行向量,论文中x是当做列向量来看的
      def regular_forward_matmul(x, W):
      h = x @ W
      return h

      def lora_forward_matmul(x, W, W_A, W_B):
      h = x @ W # 常规矩阵乘法
      h += x @ (W_A @ W_B) * alpha # 使用缩放的LoRA权重
      return h
  • 假设原始模型中,某个参数矩阵为 \(W^{d \times k}\) (也可以不是方阵),LoRA网络可以用两个小矩阵来表示 \(B^{d\times r}, A^{r\times k}\)

    • 在没有LoRA时,参数 \(W_0\) 的前向过程是(下面的 \(h\) 表示参数对应的隐藏层向量, \(x, h\) 均为列向量):
      $$h = W_0 x$$
    • 加入LoRA时,该参数的前向过程为:
      $$h = W_0 x + \frac{\alpha}{r}\Delta W x = W_0 x + \frac{\alpha}{r}BAx$$
      • 原始论文中提到,一般可以使用 \(\frac{\alpha}{r}\) 来设置LoRA权重
        • 理解:权重与 \(r\) 有关的原因是 \(r\) 越大,LoRA矩阵包含的信息越多,对原始模型的影响越大,论文中提到,为了减少超参数数量, \(\alpha\) 的设置一般可以使用 \(\alpha=r\) (we simply set α to the first r we try and do not tune it),揭秘LoRA与QLoRA:百次实验告诉你如何微调LLM!则给出了更为详细的说明,并得出在LLM中使用 \(\alpha=2r\) 会更好
        • 个人观点: \(\alpha\) 理论上可以不调整,因为如果LoRA参数初始化时同时缩放 \(\frac{\alpha}{r}\) 倍,同时调整学习率为 \(lr = \frac{\alpha}{r} \times lr\),则与在 \(\Delta W\) 前使用 \(\frac{\alpha}{r}\) 实现的效果完全一致?
    • 由于 \(r << min(d,k)\),LoRA可以极大减少参数量,训练时,除了计算量外,优化器需要存储的中间变量与参数量相关,相对全量微调,使用LoRA微调的显存和计算量会极大减少
    • 模型存储时,可以将LoRA参数换算成矩阵加到原来的参数权重中,从而保证在推理时不增加额外显存和计算量
      $$W_{save} = W_0 + \frac{\alpha}{r}BA$$
      • 这里用到了矩阵运算的分配律 \((A+B)C = AC + BC\)
  • 其中 \(A\) 矩阵权重参数使用正太分布初始化, \(B\) 矩阵权重参数使用0初始化,保证了如果LoRA部分参数全为0,则无法训练LoRA

    • 为什么要这样初始化,换个方式不可以吗?如果B不为0,A为0,或者两个都为0呢?以下回答参考自LoRA与QLoRA快速介绍

      这里有一些细节需要注意,LoRA的两个矩阵A和B中,一个是零向量初始化,一个是随机初始化。个人观点是,A和B哪个是0都可以,也可以两个都是0;但至少要有一个是0,这样才能保证未经训练的LoRA作为旁路加到预训练模型中时,LoRA不会对模型的预测产生任何影响,模型能够基于当前性能进一步学习。此外,为什么可以用低秩矩阵来模拟原始矩阵?已有研究发现,大模型往往是过度参数化的,模型实际用到的维度(模型内在维度)可能并没有那么高,所以用低秩矩阵来拟合目标任务也能达到不错的效果

  • 从网络结构上理解,LoRA相对于普通的全连接层,相当于把之前的一层网络拆解成两层,但中间层没有激活函数


QLoRA

  • QLoRA(Quantized LoRA)详解
  • QLoRA是一个使用量化思想对LoRA进行优化的量化算法

QLoRA的优化有三个核心要点

  • 4-bit NormalFloat Quantization : 首先是定义了一种4位标准浮点数(Normal Float 4-bit,NF4)量化,基于分块的分位数量化的量化策略
  • Double Quantization :其次是双重量化,包含对普通参数的一次量化和对量化常数的再一次量化,可以进一步减小缓存占用
    • 量化常数 :一次量化中,每组被量化的参数都会存储一个绝对值的最大值absmax,这个值通常一般是高精度保存,也会占用大量的显存。【问题:分组这么多吗?能不能通过减少分组来实现】
  • Paged Optimizers :最后是分页优化器(Page Optimizer),用来在显存过高时用一部分内存代替显存

LLM中的LoRA

  • 每个模型会按照自己的命名习惯为不同的参数模块分配名称
  • 一般用target_modules参数指定LoRA微调目标(目标即模型中的模块名称,每个模块代表一组对应的参数),常用的模型和可作为LoRA目标的,常用配置可参考聊聊LoRA及其target_module配置
    • 经常被用来作为LoRA微调对象的是 \(W_q, W_v\),对应target_modules=[q_proj,v_proj]* 为什么 \(W_k\) 不常被用于LoRA微调呢?参考【思考】为什么大模型lora微调经常用在attention的Q和V层而不用在K层呢
      • 直观上看, \(W_q, W_v\) 分别影响Attention的权重部分和值部分,理论上Attention的表示能力都能被影响到了
      • 实践中发现调整 \(W_q, W_v\) 基本够用了
      • 也有的模型是 \(W_q, W_k, W_v\) 同时调整的,甚至同时调整其他很多模块
  • 模块在模型中代表的含义可以打印模型结构来看
  • 对比使用LoRA前后模型可训练参数数量,参考自LLM微调(一)| 单GPU使用QLoRA微调Llama 2.0实战
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    def print_number_of_trainable_model_parameters(model):
    trainable_model_params = 0
    all_model_params = 0
    for _, param in model.named_parameters():
    all_model_params += param.numel()
    if param.requires_grad:
    trainable_model_params += param.numel()
    print(f"trainable model parameters: {trainable_model_params}. All model parameters: {all_model_params} ")
    return trainable_model_params
    ​
    ori_p = print_number_of_trainable_model_parameters(model)
    ​
    # 输出
    # trainable model parameter: 262,410,240

    ## =================

    # LoRA config
    model = prepare_model_for_kbit_training(model)
    peft_config = LoraConfig(
    r=8,
    lora_alpha=32,
    lora_dropout=0.1,
    target_modules=["q_proj", "v_proj"],
    bias="none",
    task_type="CAUSAL_LM",
    )
    model = get_peft_model(model, peft_config)
    ​
    ### compare trainable parameters #
    peft_p = print_number_of_trainable_model_parameters(model)
    print(f"# Trainable Parameter \nBefore: {ori_p} \nAfter: {peft_p} \nPercentage: {round(peft_p / ori_p * 100, 2)}")
    ​
    # 输出
    # trainable model parameter: 4,194,304

NLP——开源大模型结构汇总

本文主要汇总开源大模型核心结构,持续更新

  • 参考链接:
    • LLM开源大模型汇总- 假如给我一只AI的文章 - 知乎

整体说明

  • 现有开源大模型都是对传统 Transformer 的改进,传统的 Transformer 结构可参考DL——Transformer
  • 借用 Decoder-Only Transformers: The Workhorse of Generative LLMs 中给出了 Decoder-Only Transformer 的核心结构图:
  • 一些细节说明:
    • 图中的 FFNN 是 Typo,应该是 FFN(Feed Forward Network)
    • FNN是一个 \(n \times d \rightarrow n \times h_{ffn} \rightarrow n \times d\) 的过程,原始 Transformer 论文中使用的是 \(h_{ffn} = 4d\)(与这里一致)
  • CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X, KDD 2024, THU & Huawei中也给出了一个更为详细的 Transformer Decoder Layer 的结构图:
  • 上图不是原始的 Transformer 参数配置,比如:
    • 原始 Transformer 的 FFN 层激活函数是 ReLU,这里使用的是 FastGeLU (MLP Layers 层)
    • 原始 Transformer 是 6 层,这里是 39 层
    • 原始 Transformer 多头是 8,这里是 40
    • 原始 Transformer d_model 是 512,这里是 5120
  • 常见LLM结构梳理(一)- LLama、Llama2、Llama3 - mingming的文章 - 知乎 提供了另一个不错的 GPT 基本框架图(Decoder-Only 架构):
  • 注:图中 multi-head attention 中还分别包含着 Attention 前(QKV变换) 和 后(多头合并后) 各一个 Linear Layer,作者未显式画出:
  • 特别补充:连夜读完了Qwen3的2000行代码,我画出了Qwen3的结构图 中有非常清晰的 Transformer 实现图,但是针对 Qwen3 的
  • 其他说明:
    • 归一化位置 :传统 Transformer 中归一化是在 Attention 层和 FFN 层之后(Post-Norm),目前的大部分模型都会将 归一化层放到 Attention 层和 FFN 层之前(Pre-Norm)
      • Pre-Norm在深层Transformer中容易训练(容易训练不代表效果好,Pre-Norm的拟合能力一般不如Post-Norm),目前很多模型还是会使用Pre-Norm,因为它更稳定
    • Decoder和Encoder选择 :自从 ChatGPT 问世以来,大部分模型都开始朝 Decoder-Only的方向迭代了
    • Tie Embedding :传统 Transformer 中,嵌入层(Embedding Layer)和输出投影层(Unembedding Layer / Output Projection Layer)是绑定,优势是节约存储、训练稳定;缺点是表达能力受限、梯度冲突可能严重(比如输入和输入的词分布差异大),所以后来的一些模型会选择不绑定

Llama 系列(Meta)

  • LLaMA Github链接:meta-llama/llama(分支 llama_v1, llama_v2分别表示不同版本),以及meta-llama/llama3
  • LLaMA HuggingFace链接:meta-llama

LLama

  • 参考链接:(LLaMA1 官方文档)LLaMA: Open and Efficient Foundation Language Models.pdf
  • LLama 发布时间是 2023年2月,包含 Llama-7B,Llama-13B,Llama-30B,Llama-65B 四个版本
  • 整体结构图:
  • 接下来主要介绍 Llama在原始 Transformer 上的改进
  • 改动点一:使用 RMSNorm 替代 LayerNorm
  • 改动点二:使用 RoPE 替代 Sinusoidal 位置编码
  • 改动点三:使用 SwiGLU 激活函数 替换 FFN 层的 ReLU 激活函数
    • ReLU 激活函数对应的 FFN:
      $$ FFN(\mathbf{X}) = ReLU(\mathbf{X}\mathbf{W}^U)\mathbf{W}^D $$
    • SwiGLU 激活函数对应的 FFN:
      $$
      \begin{align}
      FFN(\mathbf{X}) &= SwiGLU(\mathbf{X}\mathbf{W}^U)\mathbf{W}^D \\
      &= (Swish_1(\mathbf{X}\mathbf{W}_1^U) \odot \mathbf{X}\mathbf{W}_2^U )\mathbf{W}^D
      \end{align}
      $$
      • 其中 \(\mathbf{W}_1,\mathbf{W}_2\)都是两个矩阵的乘积(两个矩阵相乘还是矩阵,可以合并)
      • SwiGLU 激活函数的公式为:
        $$
        \begin{align}
        SwiGLU(x, W, V, b, c, \beta) &= Swish_\beta(xW + b) \odot (xV + c) \\
        &= Swish_\beta(xW’) \odot (xV’)
        \end{align}
        $$
      • 由于 \(Swish_1(\mathbf{X}\mathbf{W}_1^U)\) 部分是一个门控结构,所以很多地方也称 \(\mathbf{X}\mathbf{W}_1^U\) 为 Gate 或 \(\mathbf{X}\) 的 gate projection
  • 改动点四:使用 Pre-normalization 替换 Post-normalization
    • 传统 Transformer 中,归一化操作通常是在 Attention 层和 FFN 层之后(Post-normalization(后归一化))
    • Llama系列使用 Pre-normalization,把归一化操作移到了 Attention 层和 FFN 层之前,能提升训练稳定性 ,并加快收敛速度
    • Post-normalization :
      • MHA:\( \text{Output}_{attn} = \text{LayerNorm}( \text{MultiHeadAttention}(x) + x) \)
      • FFN:\( \text{Output}_{ffn} = \text{LayerNorm}( \text{FeedForward}( \text{Output}_{attn}) + \text{Output}_{attn}) \)
    • Pre-normalization :
      • MHA:\( \text{Output}_{attn} = \text{MultiHeadAttention}(\text{LayerNorm}(x)) + x \)
      • FFN:\( \text{Output}_{ffn} = \text{FeedForward}(\text{LayerNorm}( \text{Output}_{attn})) + \text{Output}_{attn} \)
    • 提升训练稳定性 :在训练过程里,随着网络层数的增加,梯度可能会出现不稳定的状况,例如梯度消失或者梯度爆炸。Pre-normalization可以让梯度在反向传播时更加稳定,从而避免这些问题,让模型能够更平稳地收敛
    • 加快收敛速度 :由于梯度更加稳定,模型在训练时可以使用更大的学习率,这样就能够加快收敛速度,减少训练所需的时间
  • 改动点五:使用 AdamW 替代 Adam 优化器
  • 改动点六:嵌入层(Embedding Layer)和输出投影层(Unembedding Layer / Output Projection Layer)参数解绑(原始 Transformer 中是绑定的)
  • Llama 上下文长度为 2048 tokens
  • 训练预料约 1.4T tokens
  • 详细模型版本参数和训练时长如下:
    params dimension \(n\) heads \(n\) layers learning rate batch size \(n\) tokens GPU Type GPU - hours
    6.7B 4096 32 32 \(3.0e^{-4}\) 4M 1.0T A100-80GB 82,432
    13.0B 5120 40 40 \(3.0e^{-4}\) 4M 1.0T A100-80GB 135,168
    32.5B 6656 52 60 \(1.5e^{-4}\) 4M 1.4T A100-80GB 530,432
    65.2B 8192 64 80 \(1.5e^{-4}\) 4M 1.4T A100-80GB 1,022,362
    • 耗时与模型参数大小成正比,与训练token量成正比
    • 简单换算一下可知,训练 6.7B 的模型,训练 1.0T 的数据,在 1,000 块 A100-80G上,训练时间大约是 \(82432/1000/24 \approx 3.43\) 天

Llama2

  • 参考链接:万字长文超详细解读LLama2模型,值得收藏!
  • LLama2 发布时间是 2023年7月,包含 Llama-7B,Llama-13B,Llama-34B,Llama-70B 四个版本
  • LLama2 不同参数量版本的模型结构不完全一致
  • Llama2-7B 和 Llama2-13B 结构和 Llama 基本一致
  • Llama2-34B 和 Llama2-70B 结构在 Llama 结构的基础上增加使用了 GQA 结构
    • Grouped-Query Attention(GQA):Q拆开成多个头,K,V按照组分组,每个头的Q不同,同一组头K,V相同,不同组头之间K,V不同
  • Llama2将上下文扩展至 4096 tokens
  • 训练语料 2.0T tokens

Llama3

  • 参考链接:(LLaMA3 官方文档)Introducing Meta Llama 3: The most capable openly available LLM to date 以及 LLaMA3 其他文档:测试一下Llama3,并探讨一下不用MoE的原因
  • Llama3 发布时间是 2024年4月,发布了包含 Llama3-8B 和 Llama3-70B 两个版本
  • 上下文是 8k(8192)tokens
  • Llama-3 使用 GQA
  • Llama-3 采用更高效的分词器:使用 Tiktoken 分词器 替换了之前的 SentencePiece
  • 部分社区开发者也将 Llama3的长度最长扩展到了几十万甚至上百万 tokens
  • 训练预料 15T tokens

Llama3.x

  • Llama3.1 模型分批发布,发布时间为:
    • 2024 年 7 月发布的 Llama-3.1 包含 8B、70B 和 405B 四个版本
    • 2024 年 11 月发布的 Llama-3.2 包括 1B、3B、11B 和 90B 四个版本(其中 11B 和 90B 是支持视觉的多模态模型)
    • 2024 年 12 月发布的 Llama-3.3 包含 70B 参数版本
  • Llama3.x 模型结构和 Llama3结构一致,但 Llama3.1、Llama3.2和Llama3.3 的上下文都扩展到了 128k tokens

Llama4

  • 参考链接:(LLaMA4 官方文档)The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
  • Llama4 发布于 2025年4月5日 包含了多个版本,均采用 MoE 架构(注:这是Llama系列首次采用 MoE 架构),且均是多模态模型
    • Llama 4 Scout:总参数量 109B,激活参数 17B,专家数 16(每次激活一个) + 共享专家 1,上下文长度为 1000万 tokens,可 INT4 量化后部署到单 NVIDIA H100 GPU 上
    • Llama 4 Maverick:总参数量 400B,激活参数 17B,专家数 128(每次激活一个) + 共享专家 1,上下文长度为 100万 tokens
    • Llama 4 Behemoth(仍在训练中,尚未发布):总参数量 2,000B,激活参数 288B,专家数 16(每次激活一个)+ 共享专家 1,目前主要用于内部蒸馏使用
  • 多模态的支持使用了早期融合(Early fusion)技术:
    • Early fusion 发生在特征提取的早期阶段,将原始数据或初步处理后的数据直接合并,然后共同进行特征提取
    • 举例:在多模态学习中,将图像像素和文本词嵌入直接拼接后送入网络;

Qwen 系列(Alibaba)

  • Qwen系列参考链接:Qwen官方博客

Qwen

  • 参考链接:Qwen Technical Report 和 (官方)谁是Qwen?通义千问开源模型技术解析
  • Qwen 发布时间是 2023年8月,开源了Qwen-1.8B、Qwen-7B、Qwen-14B 和 Qwen-72B多个版本模型
  • Qwen发布了一系列模型各个模型之间的关系是:
  • 接下来主要介绍 Qwen 在原始 Transformer 上的改进(实际上 Llama 使用到的优化点,Qwen 都使用到了)
  • 改动点一:使用 RMSNorm 替代 LayerNorm
  • 改动点二:使用 RoPE 替代 Sinusoidal 位置编码
  • 改动点三:使用 SwiGLU 激活函数 替换 FFN 层的 ReLU 激活函数
  • 改动点四:使用 Pre-normalization 替换 Post-normalization
  • 改动点五:使用 AdamW 替代 Adam 优化器
  • 改动点六:为了稳定性而移除了 Bias 参数, 但为了保证 RoPE外推性,在Attention 的 QKV Layer 中保留了 Bias
    • 移除 Bias的做法参考了 PaLM: Scaling language modeling with pathways, 2022, Google:

      No biases - were used in any of the dense kernels or layer norms. We found this to result in increased training stability for large models.

  • 改动点七:嵌入层(Embedding Layer)和输出投影层(Unembedding Layer / Output Projection Layer)参数解绑
  • 训练数据量:2-3T tokens
  • Qwen 上下文长度为 32K tokens

Qwen1.5

  • Qwen1.5 分批发布:
    • 2024年2月6日 发布了 0.5B、1.8B、4B、7B、14B、72B 模型,(官方)Qwen1.5来了,开源LLM增加到6款,支持多平台调用
    • 2024年3月29日 发布了MoE模型 Qwen1.5-MoE-A2.7B,(官方)通义千问开源首个MoE模型
    • 2024年4月7日 发布了 32B 模型,通义千问开源320亿参数模型
    • 2024年4月16日 发布了 CodeQwen1.5-7B 模型,通义千问开源320亿参数模型
    • 2024年4月25日 发布了 110B 模型,通义千问开源千亿级参数大模型
  • 在 Qwen 的基础上进行改动
  • 在 32B 和 110B 模型上使用了 GQA (所以发布较晚)
  • Qwen1.5 上下文仍然是 32K tokens

Qwen2

  • 参考链接:(官方)Hello Qwen2
  • Qwen2 发布于 2024年6月7日
  • 包括 Qwen2-0.5B, 1.5B, 7B, 57B-A14B, 和 72B 模型
  • Qwen2所有模型都使用 GQA 注意力机制
  • Qwen2中 0.5B 和 1.5B 使用了 Tie Embedding,其他模型都使用 Embedding 解耦方案
  • Qwen2 最大上下文长度是 128K tokens
  • Qwen2 模型详细配置:
Qwen2-Math
Qwen2-Audio
Qwen2-VL

Qwen2.5

  • 参考链接:Qwen2.5 Technical Report
  • Qwen2.5 发布了很多版本,时间线也很长,其中最早发布时间是 24年9月,也是模型发布最多的一次
  • 发布于 2024年9月((官方)Qwen2.5-LLM:扩展大型语言模型的边界 和(官方)Qwen2.5:基础模型大派对!),包括以下模型:
    • Qwen2.5:0.5B,1.5B,3B,7B,14B,32B,以及72B;
    • Qwen2.5-Coder:1.5B,7B,32B(即将推出,事实上24年9月-11月才逐步发布);
    • Qwen2.5-Math: 1.5B,7B,72B
  • 以上模型均为 Dense 模型,详细参数为:
  • 上下文为 32K 或 128K tokens,生成长度均为 8K tokens
Qwen2.5-1M
  • 2025年1月25日 发布了 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,将上下文长度扩充到 100W tokens,(官方)上新!支持100万Tokens上下文的Qwen2.5-1M 开源模型来了
  • Qwen2.5-7B-Instruct-1M、Qwen2.5-14B-Instruct-1M Context Length: Full 1,010,000 tokens and generation 8192 tokens
    • 注:大部分模型都有输出长度限制,包括 DeepSeek-V3 和 DeepSeek-R1 等,可能是训练时为针对超长文本进行优化,输出太长效果不佳?
  • 上下文训练:
Qwen2.5-VL
  • 参考链接:Qwen2.5-VL Technical Report
  • 2025年1月26日发布了 Qwen2.5-VL-3B,Qwen2.5-VL-7B,Qwen2.5-VL-72B 三个多模态模型,(官方)Qwen2.5-VL!Qwen2.5-VL!!Qwen2.5-VL!!!
  • Qwen2.5-VL 架构如下:
  • Qwen2.5-VL-72B 模型效果评估如下:
  • Qwen2.5-VL-72B 的视觉能力跟 GPT-40-0513 和 Claude-3.5-Sonnet-0620 在不同 Benchmark 表现各异,但整体有来有回;Qwen2.5-VL-72B 的文本能力全面超越 Llama-3.1-70B,且在部分指标上超过 Qwen2.5-72B
Qwen2.5-Coder
  • 参考链接:Qwen2.5-Coder Technical Report
  • Qwen2.5-Coder 发布于 2024年9月20日,开源了 1.5B、7B 两个尺寸 (官方)Qwen2.5-Coder: 码无止境,学无止境!
  • 2024年11月12日 正式开源 0.5B、3B、14B、32B 四个尺寸 (官方)Qwen2.5-Coder全系列来咯!强大、多样、实用
  • Qwen2.5-Coder 训练策略如下:
  • Qwen2.5-Coder-32B 模型效果评估如下:
  • Qwen2.5-Coder-32B 与 GPT-4o-20240806 基本持平,全面优于其他(DeepSeek-Coder-V2-Instruct等)模型

Qwen2.5-Math

  • 参考链接:Qwen2.5-Math Technical Report: Toward mathematical expert model via self-improvement 和 Qwen2.5-Math: The world’s leading open-sourced mathematical LLMs
  • Qwen2.5-Math 开发 Pipeline 如下:
Qwen2.5-Max
  • Qwen2.5-Max 发布于 2025年1月29日 (官方)Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
  • Qwen2.5-Max 是超大规模 MoE 模型,使用了超过 20T tokens 预训练,同时还经过了 SFT 和 RLHF 进行后训练
  • 是闭源模型,仅支持API调用,模型大小未知
  • 仿照 DeepSeek-R1 训练?
Qwen2.5-Omni
  • 参考链接:Qwen2.5-Omni Technical Report
  • Qwen2.5-Omni 是基于 Qwen2.5 的端到端模型,支持文本、音频、图像、视频和自然语音交互

    End-to-End Omni (text, audio, image, video, and natural speech interaction) model based Qwen2.5

  • Qwen2.5-Omni 发布于 2025年 包含 Qwen2.5-Omni-3B 和 Qwen2.5-Omni-7B
  • Omni 源自拉丁语([ˈɒmni]),意为“全部”或“所有”,在英语中通常作为前缀使用,表示“全面的、无所不包的”
  • Qwen2.5-Omni 介绍如下:
  • Qwen2.5-Omni 架构 Overview 如下:

QwQ

  • 参考链接:QwQ-32B: Embracing the Power of Reinforcement Learning
  • QwQ 发布于 2024年11月28日,(官方)新成员QwQ,邀你一起思忖未知之界
  • 发布版本为 QwQ-32B-Preview,是实验性研究模型,专注于增强 AI 推理能力
  • 24年 Qwen 开源时间线:

QVQ

  • QVQ 发布于 2024年12月25日,(官方)刚刚,多模态推理模型QVQ全新开源
  • 发布版本为 QVQ-72B-Preview,是一个基于 Qwen2-VL-72B 构建的开源多模态推理模型
  • QVQ-Max:2025年3月发布的新模型,是 QVQ-72B-Preview 的迭代版本,参考QVQ-Max: Think with Evidence

Qwen3

  • 参考链接:Qwen3_Technical_Report, 0513开放
  • Qwen3 发布于 2025年4月29日 (官方)Qwen3:思深,行速,英文版本:Qwen3: Think Deeper, Act Faster
  • 截止到2025年5月的开源 No.1!
  • 本次开源包含 2 个 MoE 模型(Qwen3-235B-A22B 和 Qwen3-30B-A3B)和 6 个 Dense 模型(包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B),详细配置如下:
    Models Layers Heads (Q / KV) Tie Embedding Experts (Total/Activated) Context Length
    Qwen3–0.6B 28 16 / 8 Yes - 32K
    Qwen3–1.7B 28 16 / 8 Yes - 32K
    Qwen3–4B 36 32 / 8 Yes - 32K
    Qwen3–8B 36 32 / 8 No - 128K
    Qwen3–14B 40 40 / 8 No - 128K
    Qwen3–32B 64 64 / 8 No - 128K
    Qwen3–30B–A3B 48 32 / 4 - 128 / 8 128K
    Qwen3–235B–A22B 94 64 / 4 - 128 / 8 128K
  • Qwen3 训练流程:
  • Qwen3 的一个核心亮点引入了一个新的能力,可开关慢思考(即打开或关闭思考模式):这种方式的实现是通过修改对话模板chat_template,在模型输出内容中(注意:和直接修改Prompt的结果不一样)插入 <think>\n\n</think> 来实现,详情见:Qwen3是如何实现混合推理(快慢思考)的? - Xode的文章 - 知乎
  • Qwen3 训练数据量是 36T tokens
  • Qwen3-0.6B Context Length: 32,768
  • Qwen3-8B、Qwen3-32B、Qwen3-30B-A3B Context Length: 32,768 natively and 131,072 tokens with YaRN,
  • Qwen3-235B-A22B Context Length: 32,768 natively and 131,072 tokens with YaRN

Qwen3-Turbo(未开源)

  • 首次上线(快照版):2025年4月28日(阿里云百炼平台上架 qwen-turbo-2025-04-28)
  • Qwen3-Turbo(正式版):2025年6月23日(原 qwen-turbo-latest 正式升级为 Qwen3 架构)

Qwen3-Plus(未开源)

  • 首次上线(快照版)2025年4月28日(阿里云百炼平台上架 qwen-plus-2025-04-28)
  • Qwen3-Plus(正式版):2025年6月23日(原 qwen-plus-latest 正式升级为 Qwen3 架构)

Qwen3-Max(未开源)

Qwen3-Max-Preview
  • 上新!超万亿参数的Qwen3-Max-Preview来了, 20250906
  • 20250906 凌晨发布 Qwen3-Max-Preview (Instruct),这是阿里迄今为止最大的模型,参数量超 1 万亿!

    Qwen3-Max-Preview 在多项主流权威基准测试中展现出全球领先的性能。在通用知识(SuperGPQA)、数学推理(AIME25)、编程(LiveCodeBench v6)、人类偏好对齐(Arena-Hard v2)以及综合性能力评估(LiveBench)评测中,Qwen3-Max-Preview 超越了 Claude-Opus 4(Non-Thinking),以及 Kimi-K2、DeepSeek-V3.1 和我们此前的开源最佳 Qwen3-235B-A22B-Instruct-2507
    在我们的内部测试和早期用户测评中,Qwen3-Max-Preview 的确表现出更强的智能水平,更广的知识面,更优秀的对话能力,在Agent任务与指令遵循等方面拥有更强劲的性能
    这证明了,规模化扩展(Scaling)仍然有效,更大的模型拥有更强的性能
    目前,Qwen3-Max-Preview 已正式上线阿里云百炼平台,可通过API直接调用。同时,Qwen Chat 也同步上线新模型,支持免费使用
    欢迎大家体验我们的新模型,也敬请期待正式版Qwen3-Max的发布!
    🔗体验地址:Qwen Chat: https://chat.qwen.ai/

Qwen3-Max-Instruct
  • 发布于 2025年10月15日
Qwen3-Max-Thinking
  • 发布于 2026年1月26日(最强推理版本)

Qwen3-Next

  • HugggingFace:
    • huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
    • huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking
    • 其他还包括:Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 等
  • 博客链接:(官方)Qwen3-Next:迈向更极致的训练推理性价比
    • Qwen3-Next 中认为 Context Length Scaling 和 Total Parameter Scaling 是未来大模型发展的两大趋势,所以提出了 Qwen3-Next 的模型结构,使用了 混合注意力机制、高稀疏度 MoE 结构
  • Qwen3-Next 的模型结构为(3x Gated DeltaNet + 1x Gated Attention):
Gated-Attention Layer
  • Gated-Attention 解决了 Attention Sink 现象
    • Attention Sink 现象是指:初始 token(如序列第一个 token)占据过度集中的注意力权重 的现象
      • 标准 softmax 注意力的 Attention Sink 本质是 “非负归一化导致的冗余注意力累积”
      • 初始 token 的注意力分数会因 softmax 的行归一化(权重总和为 1),在后续 token 的注意力计算中不断累积,形成 “越早期 token 权重越重” 的循环
      • Attention Sink 可能影响模型关注其他更重要的语义 Token 的能力,最终导致模型效果不佳、训练不稳定、以及限制模型长上下文能力等
    • 稀疏门控在 SDPA 输出后直接对注意力权重进行 “动态裁剪”,即使 softmax 生成了初始 token 的高分数,门控也会将其与 Query 无关的部分抑制(因为这里的 Gate 是与 Query 有关的),避免冗余分数进入后续层的 residual 流
      • 以输入依赖的稀疏门控为核心,结合头部特异性设计,既直接削弱初始 token 的过度权重,又避免全局偏置导致的冗余累积,最终打破标准 softmax 注意力中 “初始 token 主导注意力分配” 的循环
  • 门控机制增强注意力层 (Augmenting Attention Layer with Gating Mechanisms),图中 \(G_1, \cdots, G_5\) 是五选一的关系,不是都使用了
  • 门控机制形式化定义为:
    $$Y^{\prime}=g(Y,X,W_{\theta},\sigma)=Y\odot\sigma(XW_{\theta}),$$
    • \(Y\) 是待调制(Modulate)的输入,在上图的 \(G_1\) 中(论文最终选择的节点),使用的是注意力加权后的 Value
    • \(X\) 是用于计算门控分数的另一个输入,在上图的 \(G_1\) 中,使用的是 Query 的 Hidden State
    • \(W_{\theta}\) 指门的可学习参数
    • \(\sigma\) 是一个激活函数(例如 sigmoid)
    • \(Y^{\prime}\) 是门控后的输出
  • 门控分数 \(\sigma(XW_{\theta})\) 有效地充当了一个动态过滤器,通过选择性地保留或擦除其特征来控制来自 \(Y\) 的信息流
  • Gated-Attention Layer 的探索集中在五个关键方面:
    • (1) 位置 (Positions) :作者研究了在不同位置应用门控的效果,如图 1 所示:
      • (a) 在 \(Q, K, V\) 投影之后,对应图 1 中的位置 \(G_{2}, G_{3}, G_{4}\)
      • (b) 在 SDPA(Scaled Dot-Product Attention)输出之后 (\(G_{1}\))
      • (c) 在最终拼接后的多头注意力输出之后 (\(G_{5}\))
      • 注:从图中可以看出,在 SDPA 输出之后 (\(G_{1}\)) 的效果是最好的
    • (2) 粒度 (Granularity) :作者研究了门控分数的两个粒度级别:
      • (a) 逐头(Headwise):单个标量门控分数调制整个注意力头的输出
      • (b) 逐元素(Elementwise) :门控分数是与 \(Y\) 维度相同的向量,支持细粒度的、逐维度的 Modulate
      • 注:Elementwise 和 Headwise 均优效果提升 ,且两者各有优劣
        • elementwise 门控在核心指标上表现更优,不过 headwise 门控在参数效率上更具优势
        • 文章建议根据使用场景选择需要的方式:
          • 若追求极致性能(如高精度语言建模、复杂任务推理):选择elementwise 门控,细粒度调制能最大化模型的表达能力和任务适配性,尤其在 3.5T 大 token 量训练后,性能优势更明显
          • 若追求参数效率(如轻量化部署、低算力训练):选择headwise 门控,其以极小的参数增量实现接近 elementwise 门控的效果,同时仍能保留门控机制的核心优势(如提升训练稳定性、缓解 attention sink)
    • (3) 头特定或头共享 (Head Specific or Shared) :考虑到注意力的多头性质,作者进一步考虑:
      • (a) Head Specific :每个注意力头有其特定的门控分数,支持对每个头进行独立调制
      • (b) Head Shared:\(W_{\theta}\) 和门控分数在头之间共享
      • 注:Head Specific 效果最好
    • (4) 乘性或加性 (Multiplicative or additive) :对于将门控分数应用于 \(Y\),论文考虑
      • (a) 乘性门控(Multiplicative) :门控输出 \(Y^{\prime}\) 计算为:\(Y^{\prime}=Y\cdot\sigma(X\theta)\)
      • (b) 加性门控(Additive):\(Y^{\prime}=Y+\sigma(X\theta)\)
      • 注:Multiplicative 效果最好
    • (5) 激活函数 (Activation Function) :论文主要考虑两种常见的激活函数:SiLU (2020) 和 sigmoid
      • 由于 SiLU 的无界输出范围,论文仅将其用于加性门控,而 sigmoid 仅给出 \([0,1]\) 范围内的分数
      • 此外,为了进一步剖析门控有效性的机制,论文还考虑了恒等映射或 RMSNorm (2019)
      • 注:sigmoid 效果最好
  • 最终,论文采用 \(G_1\) 位置 ,Head Specific、乘性门控 ,并使用 sigmoid 激活函数 (\(\sigma(x)=\frac{1}{1+e^{-x} }\))
    • 注:Elementwise 和 Headwise 均优效果提升 ,且两者各有优劣,要根据场景来选择
Gated DeltaNet(GDN)
  • GDN 是一种与 Mamba2 类似的架构,采用了粗糙的 head-wise 遗忘门
附录:关于 Qwen3-Next 的缺点
  • 根据博客 Qwen3-Next 首测!Qwen3.5的预览版?但为什么我的测试一塌糊涂? 的测评对比发现:
    • 推理效率上,Qwen3-Next-80B-A3B-Instruct 的推理时间是 Qwen3-32B 的 39%
    • 在 BABILong 任务上测试(注:一个简单的检索任务)上效果不如 Qwen3-32B
      • Qwen3-32B 的效果在 2k 后开始低于 100,但性能保持到 32k 开始逐步降低(开始低于 80),256k 时跌为 0
      • Qwen3-Next-80B-A3B-Instruct 从最开始的 0K 开始就有跌幅,且 4k 后的表现为 0
      • 进一步分析原因是:Qwen3-Next-80B-A3B-Instruct 循环输出 “!”,直到结束,且 Qwen3-Next-80B-A3B-Thinking 也有类似情况

Qwen3.5

  • 官方博客:Qwen3.5:迈向原生多模态智能体
  • Qwen3.5 发布于 20260216,发布了两款模型:
    • Qwen3.5-397B-A17B
    • Qwen3.5-397B-A17B-FP8
  • 补充:20260225,再发布了多款小模型(均是多模态的):
    • Qwen3.5-122B-A10B
    • Qwen3.5-35B-A3B
    • Qwen3.5-35B-A3B-Base
    • Qwen3.5-27B
  • 再补充:20260303,再再发布了多款跟小的 Mini 模型及其一些 Base 模型(均是多模态的):
    • Qwen3.5-0.8B
    • Qwen3.5-0.8B-Base
    • Qwen3.5-2B
    • Qwen3.5-2B-Base
    • Qwen3.5-4B
    • Qwen3.5-4B-Base
    • Qwen3.5-9B
    • Qwen3.5-9B-Base
  • 最大卖点:原生多模态(原生视觉-语言模型)
  • 模型结合了线性注意力(Gated Delta Networks)与 MoE,
  • 评估结果:
    • 与当前 SOTA 模型比较,在 IFBench, BrowseComp 和 OmmiDocBench v1.5 等指标上处于领先地位
  • RL Infra:
  • API 使用注意:
    • 模型名:”qwen3.5-plus”
    • 开启推理、联网搜索与 Code Interpreter 等高级能力,只需在 extra_body 字段传入以下参数:
      • enable_thinking:开启推理模式(链式思考)
      • enable_search:开启联网搜索与 Code Interpreter
  • 博客 Qwen3.5:迈向原生多模态智能体 中演示的能力包括:
    • 网页开发
    • OpenClaw 接入
    • 将 Qwen3.5 作为底层模型接入 Qwen Code 支持 Vibe Coding
    • GUI 智能体
    • 视觉编程:

      Qwen3.5 能将手绘界面草图转化为结构清晰的前端代码,对简单游戏视频进行逻辑还原,或将长视频内容自动提炼为结构化网页或可视化图表

    • 空间智能:物体计数、相对位置判断、空间关系描述等任务
    • 带图推理:可根据迷宫图片找到最短路径
    • 视觉推理:如给出多张相似图片,找出图片中不同的一个

DeepSeek 系列(幻方量化)

DeepSeek-V1

  • 跟已经开源的 Llama 结构基本差不多,无确定结构说明(DeepSeek-V2中提到有有Dense 67B 版本)
  • 训练数据量约 2T tokens

DeepSeek-MoE

  • 原始论文:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
  • 有时候也将这个模型归为 DeepSeek-V1
  • DeepSeekMoE 开源了 deepseek-moe-16b-base 和 deepseek-moe-16b-chat 两个模型
  • 采用了 MoE 结构

DeepSeek-Math

  • 原始论文:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
  • 提出了 GRPO

DeepSeek-V2

  • 参考链接:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
  • DeepSeek-V2 发布于 2024年5月,开源 DeepSeek-V2(MoE-236B)参数
  • 在DeepSeek-MoE 的基础上,沿着 MoE负载均衡继续做了3个优化
  • 提出并使用了 Multi-head Latent Attention(MLA)
  • 训练数据量约 8T tokens
  • 上下文长度为 128K tokens

DeepSeek-V3

  • 参考链接:DeepSeek-V3 Technical Report
  • 发布时间为:2024年12月26日,
  • 训练数据量约 14T tokens
  • 引入了 Multi-Token Prediction(MTP)技术,训练时可作为辅助损失提升模型效果,推理时仅使用多一个 token 预测
  • DeepSeek-V3 和 DeepSeek-V3-Base,都是 671B-A37B,上下文长度 128K
  • 新发布版本 DeepSeek-V3-0324

DeepSeek-R1-Zero

  • 在 DeepSeek-V3 上直接使用 强化学习方法(GRPO)得到的模型(注意不需要使用 SFT)

DeepSeek-R1

  • 参考链接:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  • DeepSeek-R1 训练过程:
    • 注意:根据 DeepSeek-V3 辅助材料给出的结论,下图中存在问题(已补充),DeepSeek-R1 和 DeepSeek-R1-Zero 均是从 DeepSeek-V3-Base 训练而来,图中给的是 DeepSeek-V3 (这是 DeepSeek-V3-Base 的微调版本);部分训练数据(监督微调数据中的非推理类数据)确实来源于 DeepSeek-V3
  • DeepSeek-R1 发布时间为 2025年1月20日,并同步开源模型权重(注:2024年11月20日,DeepSeek-R1-Lite 预览版正式上线网页端)

DeepSeek-V3.2-Exp

  • 原始论文:DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, 20250929, DeepSeek-AI
  • HuggingFace:huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
  • vLLM: DeepSeek-V3.2-Exp Usage Guide
  • DeepSeek-V3.2-Exp 是一个实验性的稀疏注意力模型,通过持续训练,在 DeepSeek-V3.1-Terminus 的基础上增加了 DeepSeek 稀疏注意力 (DeepSeek Sparse Attention, DSA)
  • DSA 是一种由 lightning 索引器(lightning indexer)驱动(powered by)的细粒度稀疏注意力机制(fine-grained sparse attention mechanism) ,借助 DSA,DeepSeek-V3.2-Exp 在训练和推理效率上均取得了显著提升,尤其是在长上下文场景中
  • 模型检查点可在 huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp 获取

DeepSeekMath-V2

  • 发布时间:20251127
  • GitHub:github.com/deepseek-ai/DeepSeek-Math-V2
  • HuggingFace:huggingface.co/deepseek-ai/DeepSeek-Math-V2
  • 参考博客:DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌
  • 基于 DeepSeek-V3.2-Exp-Base 开发
  • 特别在 IMO-ProofBench 指标上处于第一梯队
DeepSeekMath-V2 文档介绍
  • LLM 在数学推理领域取得了显著进展(该领域不仅是 AI 的重要测试基准,若进一步突破,更可能对科学研究产生深远影响)
  • 当前方案:通过 RL 对推理过程进行 scaling,并以正确的最终答案为奖励信号,LLMs 在一年内实现了性能飞跃:
    • 从最初的表现不佳,到如今在AIME(美国数学邀请赛)、HMMT(哈佛-麻省理工数学竞赛)等定量推理竞赛中达到性能饱和(saturating)状态
  • 问题提出:但以上这种方法存在根本性局限:
    • 追求更高的最终答案准确率,无法解决一个核心问题:正确答案并不意味着正确的推理过程
    • 此外,定理证明(theorem proving)等诸多数学任务,要求严格的分步推导(step-by-step derivation)而非仅输出数值结果,这使得“以最终答案为奖励”的机制完全不适用
  • 为突破深度推理的极限,作者认为有必要对数学推理的完整性(comprehensiveness)与严谨性(rigor) 进行验证
    • 自验证(self-verification)对于缩放测试时计算量(test-time compute)尤为重要,尤其是在处理无已知解的开放问题(open problems)时
  • 针对可自验证数学推理这一目标,作者开展了以下研究:
    • 1)验证器(verifier):训练一个 LLM-based 精准且可信(accurate and faithful)verifier,用于定理证明任务
    • 2)证明生成器(proof generator):以该验证器作为奖励模型(reward model),训练一个 proof generator
      • 并激励生成器在最终定稿前,自主识别并解决其证明过程中的尽可能多的问题;
    • 3)为避免生成器性能提升后出现“生成-验证差距(generation-verification gap)”,作者提出通过 scale verification compute,自动标注新的“难验证证明(hard-to-verify proofs)”,并以此构建训练数据,进一步迭代优化 verifier
      • 理解:这里的生成-验证差距是什么?
  • 最终模型 DeepSeekMath-V2 展现出强大的定理证明能力:
    • 在 2025 年国际数学奥林匹克(IMO 2025)和 2024 年中国数学奥林匹克(CMO 2024)中斩获金牌级分数(gold-level scores);
    • With scaled test-time compute,在 2024 年普特南数学竞赛(Putnam 2024)中取得 118/120 的近乎满分成绩
  • 尽管仍有大量工作亟待推进,但这些结果表明:可自验证数学推理是一条可行的研究方向 ,有望助力开发更具能力的数学 AI 系统

DeepSeek-V3.2

  • 20251201日,同时发布 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale
  • HuggingFace:
    • huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
    • huggingface.co/deepseek-ai/DeepSeek-V3.2
  • DeepSeek-V3.2
    • 目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景
    • 在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,略低于 Gemini-3.0-Pro;
    • 相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间
  • DeepSeek-V3.2-Speciale
    • 目标是将极致性能,a model that harmonizes high computational efficiency with superior reasoning and agent performance
    • V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版,同时结合了 DeepSeek-Math-V2 的定理证明能力
    • V3.2-Speciale 模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro

Kimi 系列(月之暗面)

Kimi-VL

  • 原始论文:Kimi-VL Technical Report, Kimi Team, 20250410-20250623
    • 2506 增加了一个模型:Kimi-VL-Thinking-2506
  • Kimi-VL 包含一个 Native-resolution Vision Encoder(原生分辨率视觉编码器) MoonViT
    • Native-resolution Vision Encoder 是一种能直接处理原始分辨率与宽高比图像、无需先统一缩放 / 裁剪的视觉编码模块,核心是基于 ViT 架构,用动态 token 与适配性位置编码(如 2D RoPE)保留细节并适配任意尺寸输入, Qwen2-VL 也使用了 Native-resolution Vision Encoder 实现

Step 系列(阶跃星辰, StepFun)

Step1X-3D

  • 参考链接:
    • Github:github.com/stepfun-ai/Step1X-3D
    • 技术报告:Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
  • 发布时间:20250514日
  • 最强开源:开源全链路代码和部分高质量数据(约800K高质量 3D 数据)
  • 能力:可生成 3D 内容

Step 3.5 Flash

  • 参考链接:Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, 20260211 & 20260223, StepFun
  • 开源时间:2026 年 2 月 2 日

GLM 系列(智谱AI)

GLM

  • 参考链接:GLM: General Language Model Pretraining with Autoregressive Blank Infilling
  • 是Prefix LM(前缀语言模型),也称为 Prefix Decoder,前缀之间可以互相看到,但后续生成的token也只能看到历史,是 Encoder-Decoder 和 Causal Decoder 的一个折中方案

GLM2

GLM3

GLM4

GLM4.5

  • 开源时间:20250728日,同时还开源了 GLM 4.5 Air 版本
  • 截止到发布时间,号称 “全球第三、国产第一、开源第一”
    • 全球前两位是:GPT-o3 和 Grok4
  • 原始论文:GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, Zhipu AI & Tsinghua University, 20250808
  • 训练方式:
  • 性能评估:
  • 后训练使用了一个智谱 AI 自己开发的后训练框架 slime,开源地址是:github.com/THUDM/slime
  • 数据量 23T,参数量 335B-A32B

GLM 4.6

GLM 4.7

GLM 5

  • HuggingFace: huggingface.co/zai-org/GLM-5
  • 技术博客:GLM-5: From Vibe Coding to Agentic Engineering
  • GLM-5 发布于 20260212,发布即国内 LMArena SOTA
  • 数据量 28.5T,参数量 744B-A40B
  • for 长文:使用了 DSA(DeepSeek Sparse Attention)
  • 同样基于 GLM 子集的 RL 开源框架 slime 进行训练

MiniMax 系列(上海稀宇科技)

MiniMax-Text-01

MiniMax-M1

  • 开源时间:2025 年 6 月 17 日发布
  • MiniMax-M1 是全球首个开源的大规模混合架构推理模型,采用混合门控专家架构(MOE)与 Lightning Attention 注意力机制相结合的创新设计,支持 100 万 token 的上下文输入和 8万 token 的推理输出能力,与谷歌 Gemini 2.5 Pro 的长文本处理能力持平
  • 总参数量为 456B,单次激活45.9B,开源版本包括具有 40K 和 80K COT长度的两个版本
    • 在 SWE-bench 代码验证基准测试中,MiniMax-M1-40k 和 MiniMax-M1-80k 分别取得 55.6% 和 56.0% 的成绩,略逊于 DeepSeek-R1-0528 的 57.6%,但显著超越其他开源权重模型
    • 在长上下文理解任务中,MiniMax-M1 全面超越所有开源权重模型,甚至超越 OpenAI o3 和 Claude 4 Opus,全球排名第二,仅以微弱差距落后于 Gemini 2.5 Pro
    • 在代理工具使用场景(TAU-bench)中,MiniMax-M1-40k 领跑所有开源权重模型,并战胜 Gemini-2.5 Pro
  • MiniMax-M1 API 定价采用阶梯式策略:
    • 0-32k 输入长度时,输入 0.8元/百万token,输出 8元/百万token;
    • 32k-128k 输入长度时,输入 1.2元/百万 token,输出 16元/百万token;
    • 128k-1M 输入长度时,输入 2.4元/百万token,输出24元/百万token
    • MiniMax App 与 Web 端保持不限量免费使用

MiniMax-M2

  • 开源时间:2025 年 10 月 27 日发布并开源
  • 基于 MIT 开源许可证,采用 230B 参数的 MoE 架构,单次推理时激活约 10B 参数
  • 在全球权威测评榜单 Artificial Analysis中,MiniMax-M2 总分位列全球前五、开源第一,跻身全球第一梯队
    • 其在推理与代码生成任务中的表现超过了谷歌的 Gemini 2.5 Pro,API 使用成本约为 Anthropic Claude Sonnet 4.5 的 8%,推理速度快了接近一倍
  • MiniMax-M2 专为端到端开发工作流打造,在编码、指令遵循和 Agent 等核心任务上表现卓越
    • 可以准确规划并稳定执行复杂长链条工具调用任务,协同调用Shell、Browser、Python代码执行器和各种MCP工具
    • 其综合成本 API 价格定在每百万 Token 输入 0.3 美元(2.1 元人民币),输出 1.2 美元(8.4 元人民币),同时在线上提供 TPS(每秒输出 Token数)在 100 左右的推理服务
  • MiniMax M2 通过 MiniMax API 向全球开发者免费开放,试用期至 2025 年 11 月 7 日,并兼容 Hugging Face 与 vLLM 等主流框架
  • MiniMax-M2 使用的是 Full-Attention,许多人在质疑开倒车,但预训练负责人站出来发了博客进行讨论(核心观点:目前实现的系数注意力都是有损的,团队实践经验发现了问题才使用的 Full-Attention)
    • 原始博客:Why Did MiniMax M2 End Up as a Full Attention Model?
    • 解读:MiniMax M2预训练负责人关于Full Attention的亲笔博客(一种更深入浅出的探讨)
  • MiniMax-M2 未放出详细的技术报告
  • MiniMax-M2 在代码方面的能力很强, 已经被 AnyCoder 作为默认模型了
    • 最新进展:默认模型已经是 DeepSeek-V3.2

MiniMax-M2.1

  • 发布时间:20251223
  • HuggingFace:huggingface.co/MiniMaxAI/MiniMax-M2.1

MiniMax-M2.5

  • 发布时间:20260212
  • HuggingFace:huggingface.co/MiniMaxAI/MiniMax-M2.5
  • 从 2025 年 10 月底到 2026 年 2 月,仅 3 个半月, 完成 M2 -> M2.1 -> M2.5 三代迭代,SWE-Bench Verified 成绩从 69.4% 提升至 80.2%

OLMo 系列(AI2)

  • OLMo 系列是艾伦人工智能研究所(AI2, Allen Institute for AI)推出的完全开源大模型家族
  • OLMo 是 Open Language Model 的缩写
  • 优点:其开源不仅公开模型权重,还会披露训练数据、代码、中间检查点等全套资源

OLMo 初代系列

  • 技术报告:OLMo: Accelerating the Science of Language Models, AI2(Allen Institute for AI), 20240201 & 20240607
  • 开源时间 2024年2月 ,此次开源包含 1 个 1B 参数模型和 4 个不同配置的 7B 参数模型(如 OLMo 7B、OLMo 7B (not annealed)等),所有模型均经过至少 2T token 训练
    • 同时开源的还有 3T token 的预训练语料库、完整训练代码、训练日志、超 500 个训练检查点以及评估工具套件,且均采用 Apache 2.0 许可证,支持免费商用

OLMoE

  • 开源时间 2024年9月 ,这是系列内首个专家混合模型
    • 核心型号为 OLMoE-1B-7B(总参数 7B 但每个输入 token 仅激活 1B 参数)
    • 还同步推出了指令微调版本 OLMoE-1B-7B-INSTRUCT
      • 该模型在 5T token 上完成预训练,在同算力成本模型中性能领先,甚至能与 Llama2-13B 等更大规模模型竞争
  • 此次开源同样披露了模型、数据、代码和训练日志等全套资源

OLMo 2 系列

  • 开源时间:2024年底-2025年初
  • 包含 7B 和 13B 两个参数版本,训练数据量高达 5T token
    • 该系列模型在英文学术基准测试中,性能比肩甚至优于同规模开源模型,且能与 Llama 3.1 等开源权重模型一较高下
    • 同时推出了指令微调版本OLMo 2-Instruct
  • 此次开源延续全公开策略,除模型权重外,还公开了训练数据、代码、中间检查点、日志及超参数选择等
  • 2025年10月 ,OLMo 系列迎来参数升级,推出OLMo 2-32B模型
    • 这一 32B 参数的模型仅用三分之一的计算量就达到了与 Qwen-2.5-32B相近的性能,且在多技能学术基准测试中超越 GPT-3.5-Turbo 和 GPT-4o- mini
    • 同期 AI2 还补充开源了 OLMo-7B/13B/34B 等型号,依旧公开了训练数据来源、清洗流程和评估指标等全部核心资源,适配学术研究与商用场景的多样化需求

OLMo 3系列

  • 开源日期 2025年11月20日
  • 包含 7B 和 32B 两个规模,共四个核心变体
    • 基础预训练版 OLMo-3-Base
    • 推理增强版 OLMo-3-Think
    • 指令跟随版 OLMo-3-Instruct
    • RL 对齐研究专用的 OLMo-3-RL-Zero
  • 优点1:该系列上下文长度提升至 65K,且延续极致开源策略,完整披露训练数据集、数据处理流程、训练代码等全部技术细节
  • 优点2:32B 参数的 OLMo-3-Think 模型,在仅用六分之一训练数据量的情况下,性能接近同规模的 Qwen3-32B 模型

其他开源和闭源系列总结

  • 开源模型:Mistrial(法国 Mistral AI), MiniMax(上海稀宇科技),Gemma(Google DeepMind),BELLE(贝壳网),Bloom(BigScience 研究小组)
    • BELLE 基于 Bloomz-7b1-mt 和 LLAMA-7b 等为基础,针对中文进行了优化
    • Bloom 由 BigScience 研究小组主导开发,该项目是一个开放的研究合作项目,由 Hugging Face 主导并协调,代码和模型均开源
  • 闭源模型:GPT系列(OpenAI),Claude(美国 Anthropic),文心一言(百度),Doubao(字节)
  • 先开源后闭源的一些模型系列:
    • Baichuan系列(百川智能)Baichuan,Baichuan2是开源的,Baichuan3是闭源的
    • Mistral(法国 Mistral AI)初始是开源的,微软投资后新发布的 Mistral Large 是闭源的
    • GLM(智谱AI)初始发布的3个版本是开源的,今年1月发布的GLM-4走向了闭源,7月底发布的 GLM4.5 又开源了
  • 先闭源后开源的一些模型系列:
    • MiniMax(上海稀宇科技)最早是闭源的,25年1月发布了 MiniMax-01 系列开源模型,2025年5月发布的 MiniMax-Speech-02 是闭源
  • Qwen 也有闭源模型,20250906 凌晨发布 Qwen3-Max-Preview (Instruct) 是闭源的模型;此外,Qwen 还发布了 Qwen3-Turbo 和 Qwen3-Plus 等闭源模型

一些闭源系列的简单介绍

Doubao 系列(字节)

Doubao-1.5-pro
  • 参考连接:Doubao-1.5-pro

    模型使用 MoE 架构,并通过训练-推理一体化设计,探索模型性能和推理性能之间的极致平衡。Doubao-1.5-pro 仅用较小激活参数,即可超过一流超大稠密预训练模型的性能,并在多个评测基准上取得优异成绩

  • Doubao-1.5-pro 模型评估结果如下:
  • 从图上看,截至到Doubao发布时,效果还是不错的
  • Doubao-1.5-pro亮点 :
    • 高性能推理系统 :高度稀疏的 MoE 模型,针对 Prefill/Decode 与 Attention/FFN 构成的四个计算象限采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标
    • 扎实数据标注,坚持不走捷径 :

      在 PostTraining 阶段,我们精心构建了一套高度自主的数据生产体系,该体系通过高效标注团队与模型自提升技术的深度融合,持续且精准地优化数据质量,严格遵循内部标准,坚持不走捷径,不使用任何其他模型的数据,确保数据来源的独立性和可靠性
      SFT 阶段,开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化以及精确人题匹配功能,并结合模型自演进(Self-evolve)技术,提升数据标注的多样性和难度,形成了模型性能提升的良性循环
      Reward Model 部分,我们建立了包含 prompt 分布优化、response 筛选、多轮迭代和 active learning 的完整数据生产 pipeline。通过融合同等规模的合成与挖掘数据,有效规避了数据冲突和 pattern hacking 问题;设计了多阶段 Reward Model 训练框架,实现了模型在各类数据分布上的稳定判断能力;基于梯度筛选和迭代过滤技术,用 25% 的数据达到近似全量的训练效果,提高迭代效率;实现了 Verifier 和 Reward Model 的深度融合,构建了统一的 Reward 框架,实现了模型在数学、编程、知识、对话等多维度能力的均衡提升;提出了不同于传统判别式 RM 的生成式 RM 建模方法,在 OOD 泛化性能和 reward hacking 防御上取得显著提升
      RL 阶段,基于 veRL 打造了高并行化的多角色训练推理一体框架,兼容不同类型的数据和奖励方式;通过自适应数据分布调节机制,解决了多任务训练中的冲突问题;攻克了价值函数训练难点,实现 token-wise 稳定建模,收敛速度提升 4 倍,在高难度任务上的性能提升超过 10 个绝对点;通过对比学习方法,有效提升了 LLM 的表现并显著缓解了 reward hacking 问题。在数据、算法、模型层面全面实现了 Scaling,完成算力到智力的有效转换
      此外,依托字节在推荐、搜索和广告领域的 AB Test 经验,研发了基于用户反馈的高效 PostTraining 全流程,基于豆包的大规模用户反馈,我们构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统,通过用户数据飞轮持续提升模型的实际使用体验

    • 多模态
    • 深度思考模式
  • 据说 Doubao-1.5-pro 的参数量是 200B-A20B(参考自 阿里通义千问 Qwen3 系列模型正式发布,该模型有哪些技术亮点? - 橘鸦的回答 - 知乎)
Doubao-1.6
  • 发布日期:20250611
  • Doubao-1.6 系列包含3个版本,都支持256K上下文
    • Doubao-seed-1.6
    • Doubao-seed-1.6-thinking,在推理能力和指令执行测评中超越DeepSeek-R1-0528
    • Doubao-seed-1.6-flash,低延迟
开源预告
  • 预告:20250820日,网络爆出字节 Seed 将开源一个 36B 模型,详情见 PR github.com/huggingface/transformers/pull/40272 及其
    • 具体参数在:src/transformers/models/seed_oss/configuration_seed_oss.py 文件中

Claude 系列(Anthropic)

  • Claude 1.3 :2023年3月推出的初代模型
  • Claude 2 :2023年7月11日发布,性能有所提升,支持更长文本响应,编程、数学、推理能力增强
  • Claude 2.1 :2023年11月21日发布,上下文窗口提升至200K
  • Claude 3系列 :2024年3月4日发布,包括
    • Claude 3 Haiku
    • Claude 3 Sonnet
    • Claude 3 Opus
    • 以上三个子模型,在上下文理解、多模态处理能力以及整体性能方面表现出色,首次实现多模态能力,能处理图像和视频帧输入
  • Claude 3.5 :于2024年6月推出Sonnet版本
    • 在推理、知识和编程能力上达到行业新标准,在理解微妙语义、幽默和复杂指令方面表现突出,能输出更自然、高质量文本,视觉推理上可精确转录图像中文本并生成洞察
  • Claude 4 的猜测:据说 Claude 4 是划时代的
Claude 3 有趣的命名
  • Claude 3系列模型命名含义如下
    • Haiku:含义是 日本的“俳句”,因为俳句简短,暗示该模型是轻量级的,是响应速度最快、成本最低的选项,适用于简单日常工作流
    • Sonnet:含义是 英文的“十四行诗”,暗示模型就像十四行诗在文学体裁中具有一定的复杂性和表现力,该模型推理能力不错,能处理中等复杂度任务,是性价比之选
    • Opus:含义是 音乐“巨作”,表明它是性能顶配的模型,具有强大的推理、数学和编码能力,适用于处理高度复杂的任务

Gemini(Google)

  • Gemini 2.5 Pro:2025年3月25日发布(号称地表最强推理模型),2025年6月18日进入稳定阶段,可稳定支持生产级应用开发

Grok(xAI)

  • 参考链接:Grok 4在两大测试中全面刷新记录,直接屠榜
  • 发布时间:2025年7月10日
  • Grok 4 在多个基准上取得最好成绩,在 AIME2025 上取得满分,在 HLE 上最高可拿到 50% 的分数:
    • 原始的 Grok 4(不使用任何工具)
      • HLE: 26.9% (TEXT ONLY)
      • HLE: 25.4% (FULL HLE)
    • 调用“工具”的 Grok 4(搜索引擎、计算器、编程语言)
      • HLE: 41% (TEXT ONLY)
      • HLE: 38.6% (FULL HLE)
    • 多个 Agent 组合的 Grok 4(“parallel testing agents”或者“multiple agents”)
      • HLE: 50% (TEXT ONLY)
      • HLE: 44.4% (FULL HLE)
  • Grok 4 定价:输入 $3/100万 token,输出 $15/100万 token
    • Sonnet 4:输入 $3/100万 token,输出 $15/100万 token
    • Claude Opus 3:输入 $2/100万 token,输出 $8/100万 token
    • GPT-4.1:输入 $2/100万 token,输出 $8/100万 token

OpenAI(GPT系列)

  • ChatGPT :是一款主打聊天功能的模型,发布于 2022年11月30日,基于 OpenAI 的 GPT-3.5 架构
  • GPT-4 :发布于 2023年3月14日,是大型多模态模型 ,可接受文本或图像输入并输出文本,具有更广泛的常识和先进的推理能力,能更准确地解决难题
  • DALL·E 3 :2023年11月发布,是 OpenAI 的图像生成模型,通过图像API提供服务,支持根据自然语言描述创建逼真图像和艺术作品,还能创建特定大小的新图像
  • GPT-4o :发布于 2024年5月13日,“o”代表“omni” ,意为“全能”,是多模态模型,接受文本或图像输入并输出文本。它具有与GPT-4 Turbo相同的高智能,但效率更高,生成文本速度提高2倍,成本降低50%
  • GPT-4o mini :2024年7月18日 发布,是 OpenAI 当时最强大且成本效益最高的小型模型,在学术基准测试中超越GPT-3.5 Turbo等小型模型,在文本智能和多模态推理方面表现出色
  • o1-preview :2024年9月 发布,是旨在解决跨领域难题的推理模型
  • o3 :发布于 2025年4月,是 OpenAI 当时最强大的推理模型,在编程、数学、科学、视觉感知等多个维度的基准测试中刷新纪录,在分析图像等视觉任务中表现突出
  • o4-mini :2025年4月 发布,是专为快速、经济高效的推理而优化的小模型,在非STEM任务以及数据科学领域超过了前代的o3-mini
  • GPT-OSS系列 :2025年8月5日 发布,包含 120B 与 20B 双版本,采用 MoE架构,Apache2.0许可,支持免费商用
    • 支持 MXFP4 量化
    • 单卡 80GB GPU 能够支持 120B 规模的模型
    • 20B 模型可在消费级 16GB 显存硬件上流畅推理,实现低成本本地化部署
  • GPT-5 :2025年8月7日 发布,由多个子模型组成,可根据问题复杂程度自动切换模型。其上下文窗口提升至256K tokens,推理能力大幅增强,在编程、数学等领域表现出色,语音交互更稳定流畅
  • GPT-5 mini :2025年8月7日 随 GPT-5 一同发布,是 GPT-5 的精简版本,当免费用户使用GPT-5达到次数限制后会切换为该模型
  • GPT-5 Nano :2025年8月7日 发布,具体细节未详细披露,与GPT-5、GPT-5 mini共同构成了GPT-5系列,应是针对特定场景或资源受限环境设计的更轻量化模型

附录:LLM 名称前后缀及其含义

  • -Base :通常是指未经特定任务微调的基础预训练模型,可用于进一步的微调,以适应特定任务或应用场景
    • 包含大量通用知识,但未对特定任务进行优化
  • -Chat :针对对话系统设计和优化的模型,用于生成自然语言对话,能够理解上下文并生成连贯且有意义的回复,可应用到聊天机器人、智能助理等
    • 经过大量对话数据微调,具备更好的上下文理解能力和对话生成能力
  • -Instruct :旨在遵循指令或完成特定任务而设计和优化的模型,用于执行具体指令,如回答问题、生成文本、翻译等任务
    • 经过指令数据集微调,能够更好地理解和执行用户提供的指令
  • -4bit(或-Int4) :表示该模型是基于4位量化技术的版本
    • 量化是一种将模型参数表示为较低精度数据类型的技术,4bit量化可以显著减少模型的存储空间和计算量
  • -AWQ :表示采用了激活值感知的权重量化(Activation-aware Weight Quantization)方法
    • 这种方法通过统计激活值的绝对值均值,保留1%的关键权重通道为FP16精度,其余通道量化为4位整数(INT4),并通过缩放因子降低量化误差
  • -GPTQ-Int4 :表示采用了生成式预训练变压器量化(Generative Pretrained Transformer Quantization)方法
    • 将模型权重量化为4位整数(Int4),以减少模型存储空间和计算量,提高推理效率
  • -GPTQ-Int8 :与 -GPTQ-Int4 类似的 Int8 版本
  • -GGUF :表明该模型采用的是 GPT-Generated Unified Format 格式存储,这是一种专为大语言模型设计的二进制文件格式
    • 这种存储旨在实现模型的快速加载和保存,同时易于读取,支持动态量化与混合精度配置,适用于不同硬件资源场景
    • .gguf采用紧凑的二进制编码格式和优化的数据结构来保存模型参数,兼顾存储效率、加载速度、兼容性和扩展性
    • 以codeqwen-1_5-7b-chat-q5_k_m.gguf为例,q5_k_m 是 GGUF 格式中关于模型量化的标识,其中 q5 表示模型的主量化精度为 5 比特;k 代表量化过程中采用的是 k-quant 算法;m 表示混合精度优化级别为中等,即中等混合,更多块使用高精度,以平衡速度和精度
  • Code :表示专门为Code任务微调的模型
  • -1M :表是上下文长度是 100W tokens(名字出自 Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M)
  • -AxxB :表示 MoE 模型的激活参数,比如 Qwen2-57B-A14B 表示总参数量 57B,每次激活参数量 14B
  • [None] :特别地,如果没有任何后缀,则有可能是 Pretraining 的基础版本(-Base版本),也可能是经过 Pretraining+Post-training 的版本,详细信息可以从 Model Card 中查看,比如:
    • Qwen/Qwen2.5-32B : Training Stage: Pretraining
    • Qwen/Qwen3-32B : Training Stage: Pretraining & Post-training
  • -turbo :表示原模型的增强版,OpenAI 常用
  • -mini :表示原模型缩小尺寸的版本,OpenAI 常用
  • -nano :表示比 mini 还小的更小尺寸模型,OpenAI 常用
  • -oss :OSS 代表 “Open-Source Series”,一般是闭源公司的 “开源系列” 模型, 比如 OpenAI 的 gpt-oss-120b 和 gpt-oss-20b
  • -omni :“omni” 常用来表示全模态,像 GPT-4o 中的 “o” 代表 “omni”,意味着全能的,”omni” 也常用于科技、学术、哲学等领域来表示全范围、全功能等概念

NLP——基于vLLM的RAG服务部署

  • 参考连接:
    • 实操用Langchain,vLLM,FastAPI构建一个自托管的Qwen-7B-Chat - FunHPC的文章 - 知乎

系统说明和环境安装

系统说明

  • 本文采用 Ubuntu 22.04 LTS

Python基础环境准备

  • 包括 anaconda, python 等环境安装

创建虚拟环境

  • conda创建python环境
    1
    conda create -n llm_py310 python==3.10

安装相关包

  • 安装下面的依赖项

    1
    2
    3
    pip install pytorch langchain vllm gptcache modelscope
    pip install transformers accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed
    `
    • 如果出错建议一个个安装

huggingface命令行工具安装

  • 安装工具
    1
    git lfs install

下载模型到本地(可跳过)

  • 使用 git 命令下载 huggingface 项目(方便从本地启动)

    1
    git clone https://huggingface.co/Qwen/Qwen3-0.6B
  • 推荐使用 modelscope,这样不需要科学上网

    1
    2
    3
    pip install modelscope
    modelscope download --model Qwen/Qwen3-0.6B # 缓存到本地 ~/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B/ 目录下
    modelscope download --model Qwen/Qwen3-0.6B --local_dir ./Qwen3-0.6B/ # 保存到 ./Qwen3-0.6B/ 目录下

生成检索 embedding

  • 这里可能遇到一些问题:
    • modelscope 版本问题,遇到相关报错时改用 1.15.0 版本解决
    • 可能需要安装 langchain_community

加载模型时显存爆炸问题

  • 显存可能爆炸(即使加载很小的模型,亲测24G显存会被 Qwen3-0.6B直接占满)
  • 加载模型会默认将整个GPU 所有显存都占用(原因未知)
  • 解决方案:
    • 可以增加 gpu_memory_utilization=0.8 来指定模型的显存使用,也可以根据需要使用其他值,比如0.7,但需要满足最低使用要求
  • 注:除模型参数外的其他显存占用要求
    • 模型需要提前分配 KV Cache,且该值与max_model_len有关,且默认使用比较大的值(比如 max_model_len=40960,导致需要提前分配较大的 KV Cache,从而增加显存)

Bug 记录

  • 遇到 AttributeError: 'State' object has no attribute 'engine_client'
  • 问题详情见:[Bugfix] Fix AttributeError: ‘State’ object has no attribute ‘engine_client’
  • 使用 vllm==0.9.0 及以上或者降低到 vllm==0.8.0 (降低到 0.8.0 亲测有效)

附录:vLLM 使用代码示例

  • 以下是一个简单的 vLLM 使用示例,展示了如何使用 vLLM 加载模型并生成文本:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    from vllm import LLM, SamplingParams

    model_name = "llama-2-7b-chat-hf"
    llm = LLM(model=model_name)
    sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.95,
    max_tokens=1024
    )
    prompts = [
    "介绍一下人工智能的发展历程",
    "解释一下量子计算的基本原理",
    "推荐几部好看的科幻电影"
    ]

    outputs = llm.generate(prompts, sampling_params)

    for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"提示: {prompt}")
    print(f"生成内容: {generated_text}")
    print("-" * 80)

NLP——技术报告解读-Llama3

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:The Llama 3 Herd of Models, 20240723, Llama Team, Meta AI

Paper Summary

  • 评价:Llama3 作为 24 年最成功的开原模型,是非常值得敬佩的,Meta 为开源社区做的贡献值得永远铭记
  • 论文介绍了一组原生支持多语言、编码、推理和工具使用的语言模型(Llama 3)
  • 论文发布的最大的模型是具有 405B 参数的 Dense Transformer,上下文窗口可达 128K tokens
  • 论文对 Llama 3 进行了广泛的实证评估,发现 Llama 3 在众多任务上的质量可与GPT-4等领先语言模型相媲美
  • 论文公开发布了 Llama 3,包括 405B 参数语言模型的预训练和后训练版本,以及用于输入和输出安全的 Llama Guard 3 模型
  • 论文还介绍了通过组合方法将图像、视频和语音能力集成到 Llama 3 中的实验结果
  • 论文观察到,这种方法在图像、视频和语音识别任务上与最先进水平具有竞争力
    • 由此产生的模型尚未广泛发布,因为它们仍在开发中
    • 注:图像和视觉模型在后续的 Llama 3.2 Vision 11B 等模型中发布
  • 特别说明:论文中实验所说的模型都是 Llama 3.1 模型,论文将其简称为 Llama 3

Introduction and Discussion

  • 基础模型是语言、视觉、语音和其他模态的通用模型,旨在支持各种 AI 任务。它们构成了许多现代AI系统的基础(2023)
  • 现代基础模型的开发包括两个主要阶段:
    • (1)预训练阶段,使用简单任务(如预测下一个词或生成字幕)对模型进行大规模训练;
    • (2)后训练阶段,对模型进行微调以遵循指令、与人类偏好保持一致,并提升特定能力(如编码和推理)(2023)
  • 在论文中,论文介绍了一组新的语言基础模型,称为 Llama 3
    • Llama 3 系列模型原生支持多语言、编码、推理和工具使用
    • 论文最大的模型是一个具有 405B 参数的 Dense Transformer,可在高达 128K tokens的上下文窗口中处理信息
  • 该系列的每个模型如表1 所示。为简洁起见,论文中呈现的所有结果均针对 Llama 3.1 模型,在全文中论文将其简称为 Llama 3
  • 作者认为,开发高质量基础模型有三个关键因素 :数据、规模和复杂性管理(data, scale, and managing complexity) ,论文在开发过程中力求对这三个因素进行优化:
    • 数据 :与之前的Llama版本(2023a,b)相比,论文改进了用于预训练和后训练的数据的数量和质量,这些改进包括:
      • 为预训练数据开发更精细的预处理和精选 Pipeline
      • 以及为后训练数据开发更严格的质量保证和过滤方法
      • 论文在约 15T 多语言 tokens 的语料库上预训练 Llama 3(注:Llama 2 的预训练 tokens 为 1.8T)
    • 规模 :论文训练的模型规模远大于之前的 Llama 模型:
      • 论文的旗舰(flagship)语言模型使用 \(3.8×10^{25}\) 次浮点运算(FLOPs)进行预训练,几乎是最大版本 Llama 2 的 50倍 以上
      • 具体而言,论文在 15.6T 文本 tokens 上预训练了一个具有 405B 可训练参数的旗舰模型
      • 正如基础模型的 Scaling Laws 所预期的那样,论文的旗舰模型优于使用相同流程训练的较小模型
      • 尽管 Scaling Laws 表明,对于论文的训练预算,旗舰模型的大小接近计算最优(compute-optimal),但论文对较小模型的训练时间远超过计算最优所需的时间
        • 由此产生的模型在相同推理预算下的性能优于计算最优的模型
      • 在后训练期间,论文使用旗舰模型进一步提高这些较小模型的质量
    • 复杂性管理 :论文做出的设计选择旨在最大化模型开发过程的扩展能力
      • 例如,论文选择了具有微小调整的标准 Dense Transformer 模型架构(2017),而不是 MoE 模型(2017),以最大化训练稳定性
      • 同样,论文采用了相对简单的后训练程序,基于 SFT 、拒绝采样(RS)和直接偏好优化(DPO;2023),而不是更复杂的强化学习算法(2022; 2017),因为后者往往稳定性较差且更难扩展
  • 论文的工作成果是 Llama 3:
    • 一组具有 8B 、70B 和 405B 参数的三种多语言模型
    • 论文在涵盖广泛语言理解任务的众多基准数据集上评估了 Llama 3 的性能
    • 论文还进行了广泛的人类评估,将 Llama 3 与竞争模型进行比较
  • 旗舰 Llama 3 模型在关键基准上的性能概述如表2 所示
    • 论文的实验评估表明,论文的旗舰模型在各种任务上的表现与 GPT-4(2023a)等领先语言模型相当,且接近最先进水平
    • 论文的较小模型在同类模型中表现最佳,优于具有相似参数数量的替代模型(2023; 2023)
    • 与前身相比, Llama 3 在有用性和无害性之间取得了更好的平衡(2023b)
    • 论文在第5.4节 中对 Llama 3 的安全性进行了详细分析
  • 论文根据更新后的 Llama 3 社区许可证公开发布了所有三个 Llama 3 模型;(详情请参见 https://llama.meta.com)
    • 这包括 405B 参数语言模型的预训练和后训练版本,以及新版本的 Llama Guard 模型(2023)(用于输入和输出安全)
    • 作者希望旗舰模型的开放发布将推动研究社区的创新浪潮,并加速通往通用人工智能(AGI)的负责任发展道路
  • 作为 Llama 3 开发过程的一部分,论文还开发了模型的多模态扩展,通过组合方法实现图像识别、视频识别和语音理解能力
    • 这些模型仍在积极开发中,尚未准备好发布
    • 除了语言建模结果外,论文还介绍了论文对这些多模态模型的初步实验结果

General Overview

  • Llama 3 的模型架构如图1 所示
  • Llama 3 语言模型的开发包括两个主要阶段:
    • 语言模型预训练 :论文首先将大型多语言文本语料库转换为离散 tokens,并在生成的数据上预训练 LLM ,以执行 Next-Token Prediction 任务
      • 在语言模型预训练阶段,模型学习语言结构,并从所“阅读(reading)”的文本中获取大量关于世界的知识
      • 为了有效地做到这一点,预训练是在大规模上进行的:论文在 15.6T tokens 上使用 8K tokens 的上下文窗口预训练了一个具有 405B 参数的模型
      • 这个标准预训练阶段之后是持续预训练阶段 ,将支持的上下文窗口增加到 128K tokens(详情见第3节)
    • 语言模型后训练 :预训练的语言模型对语言有深入的理解,但尚未遵循指令或表现出论文期望助手具备的行为
      • 论文通过多轮人类反馈使模型保持一致,每轮都涉及对指令调整数据进行 SFT 和直接偏好优化(DPO;2024)
      • 在后训练阶段,论文还集成新功能,如工具使用,并观察到其他领域的显著改进,如编码和推理(详情见第4节)
      • 最后,在后训练阶段,模型还融入了安全缓解措施(具体细节在第5.4节中描述)
  • 由此产生的模型具有丰富的能力。它们可以用至少八种语言回答问题、编写高质量代码、解决复杂推理问题,并且开箱即用地或以零样本方式使用工具
  • 论文还进行了实验,通过组合方法为 Llama 3 添加图像、视频和语音能力,论文研究的方法包括图28所示的三个附加阶段:
    • 多模态编码器预训练 :论文分别训练图像和语音编码器
      • 论文在大量图像-文本对上训练图像编码器,这教会模型视觉内容与该内容的自然语言描述之间的关系
      • 论文的语音编码器使用自监督方法进行训练,该方法掩盖语音输入的部分内容,并试图通过离散 token 表示重建被掩盖的部分
      • 结果,模型学习了语音信号的结构
      • 图像编码器的详细信息见第7节,语音编码器的详细信息见第8节
    • 视觉适配器训练 :论文训练一个适配器,将预训练的图像编码器集成到预训练的语言模型中
      • 该适配器由一系列交叉注意力层组成,将图像编码器的表示输入到语言模型中
      • 适配器在文本-图像对上进行训练,这使图像表示与语言表示保持一致
      • 在适配器训练期间,论文还更新图像编码器的参数,但有意不更新语言模型的参数
      • 论文还在图像适配器之上的配对视频-文本数据上训练视频适配器,这使模型能够跨帧聚合信息。详情见第7节
    • 语音适配器训练 :最后,论文通过适配器将语音编码器集成到模型中,该适配器将语音编码转换为可以直接输入到微调语言模型的 token 表示
      • 在监督微调阶段,适配器和编码器的参数联合更新,以实现高质量的语音理解
      • 在语音适配器训练期间,论文不改变语言模型
      • 论文还集成了文本到语音系统。详情见第8节
  • 论文的多模态实验产生的模型可以识别图像和视频的内容,并支持通过语音界面进行交互。这些模型仍在开发中,尚未准备好发布

Pre-training

  • 语言模型预训练包括:
    • (1) 大规模训练语料库的精心挑选(Curation)和过滤;
    • (2) 模型架构的开发以及确定模型规模的相应 Scaling Laws ;
    • (3) 大规模高效预训练技术的开发;
    • (4) 预训练方案的制定
  • 下面分别介绍这些组成部分

Pre-Training Data

  • 论文从包含截至 2023年 底知识的各种数据源中创建语言模型预训练数据集
  • 论文对每个数据源应用多种去重方法和数据清理机制,以获得高质量的 token。论文移除了包含大量个人可识别信息(personally identifiable information,PII)的领域和已知包含成人内容的领域
Web Data Curation
  • 论文利用的大部分数据来自网络,下面描述论文的清理过程
  • PII和安全过滤(PII and safety filtering) :除其他缓解措施外,论文实施了过滤器,旨在从可能包含不安全内容或大量 PII 的网站、根据 Meta 各种安全标准被列为有害的领域,以及已知包含成人内容的领域中移除数据
  • 文本提取和清理(Text extraction and cleaning) :论文处理非截断网页的原始 HTML 内容,以提取高质量的多样化文本
    • 为此,论文构建了一个自定义解析器,提取 HTML 内容并优化样板移除的精度和内容召回率
    • 论文通过人类评估来评估解析器的质量,将其与优化类文章内容的流行第三方 HTML 解析器进行比较,发现它表现更优
    • 论文仔细处理包含数学和代码内容的 HTML 页面,以保留这些内容的结构
    • 论文保留图像的 alt 属性文本,因为数学内容通常以预渲染图像的形式呈现,而数学内容也在 alt 属性中提供
    • 论文通过实验评估不同的清理配置
    • 论文发现,与纯文本相比,markdown 对主要在网络数据上训练的模型的性能有害,因此论文移除了所有 markdown Token
  • 去重(De-duplication) :论文在URL、文档和行级别应用多轮去重:
    • URL级别去重(URL-level de-duplication) :论文在整个数据集上进行 URL 级别去重
      • 对于每个 URL 对应的页面,论文保留最新版本
    • 文档级别去重(Document-level de-duplication) :论文在整个数据集上进行全局 MinHash(1997) 去重,以移除近重复文档
    • 行级别去重(Line-level de-duplication) :论文执行类似于 ccNet(2019) 的激进行级别去重
      • 在每 30M 文档的桶中,论文移除出现超过 6次 的行
      • 尽管论文的手动定性分析表明,行级别去重不仅移除了各种网站的剩余样板(如导航菜单、Cookie 警告),还移除了频繁的高质量文本 ,但论文的实证评估显示性能有显著提升
  • 启发式过滤(Heuristic filtering) :论文开发了启发式方法来移除额外的低质量文档、离群值和重复过多的文档。一些启发式方法的例子包括:
    • 论文使用重复 n-gram 覆盖率比率(2021)来移除由重复内容(如日志或错误消息)组成的行
      • 这些行可能非常长且唯一,因此无法通过行去重过滤
    • 论文使用“脏词(dirty word)”计数(2020)来过滤未被域名 blockList 覆盖的成人网站
    • 论文使用 token 分布的 Kullback-Leibler 散度来过滤与训练语料库分布相比包含过多离群 token 的文档
  • 基于模型的质量过滤(Model-based quality filtering) :论文还尝试应用各种基于模型的质量分类器来子选择高质量 token,这些包括:
    • 使用快速分类器(fast classifiers,如fasttext(2017)),其训练用于识别给定文本是否会被维基百科引用(2023a)
    • 更计算密集的基于 Roberta 的分类器(2019a),其在 Llama 2 预测上训练
      • 为了训练基于 Llama 2 的质量分类器,论文创建了一个清理后的网页文档训练集,描述质量要求,并指示 Llama 2 的聊天模型确定文档是否满足这些要求
      • 为了效率,论文使用 DistilRoberta(2019) 为每个文档生成质量分数
    • 论文通过实验评估各种质量过滤配置的效果
  • 代码和推理数据(Code and reasoning data) :与 DeepSeek-AI 等(2024)类似,论文构建了特定领域的 Pipeline 来提取与代码和数学相关的网页
    • 具体而言,代码和推理分类器都是在 Llama 2 标注(annotation)的网络数据上训练的 DistilRoberta 模型
    • 与上述通用质量分类器不同,论文进行提示微调,以针对包含数学推导、STEM 领域推理以及与自然语言交织的代码的网页
    • 由于代码和数学的 token 分布与自然语言的 token 分布有很大不同,这些 Pipeline 实现了特定领域的 HTML 提取、定制的文本特征和过滤启发式方法
  • 多语言数据(Multilingual data) :与上述英语处理 Pipeline 类似,论文实施过滤器以移除可能包含 PII 或不安全内容的网站数据。论文的多语言文本处理 Pipeline 有几个独特功能:
    • 论文使用基于 fasttext 的语言识别模型将文档分类为176种语言
    • 论文在每种语言的数据内进行文档级别和行级别去重
    • 论文应用特定语言的启发式方法和基于模型的过滤器来移除低质量文档
  • 此外,论文使用基于多语言 Llama 2 的分类器对多语言文档进行质量排名,以确保优先考虑高质量内容
  • 论文通过实验确定预训练中使用的多语言 token 数量,平衡模型在英语和多语言基准上的性能
Determining the Data Mix
  • 为了获得高质量的语言模型,仔细确定预训练数据混合中不同数据源的比例至关重要
  • 论文确定此数据混合的主要工具是知识分类和 Scaling Laws 实验
  • 知识分类 :论文开发了一个分类器来对网络数据中包含的信息类型进行分类,以更有效地确定数据混合
    • 论文使用此分类器对网络上过度表示的数据类别(如艺术和娱乐)进行下采样
  • 数据混合的 Scaling Laws :为了确定最佳数据混合,论文进行 Scaling Laws 实验
    • 其中论文在数据混合上训练几个小模型,并使用该模型预测大型模型在该组合上的性能(见3.2.1节)
    • 论文对不同的数据混合多次重复此过程,以选择新的数据混合候选
    • 随后,论文在该候选数据混合上训练更大的模型,并在几个关键基准上评估该模型的性能
  • 数据混合总结(Data mix summary) :论文最终的数据混合包含约 50% 的通用知识 token、25% 的数学和推理 token、17% 的代码 token 和 8% 的多语言token
    • 理解:多语言仅 8%?那中文一定比较一般
Annealing Data
  • 根据经验,论文发现对少量高质量代码和数学数据进行退火(见3.4.3节)可以提升预训练模型在关键基准上的性能
  • 与 Li等(2024b)类似,论文使用数据混合进行退火,该组合对选定领域的高质量数据进行上采样
    • 论文的退火数据中不包含常用基准的任何训练集 ,这使论文能够评估 Llama 3 的真实少样本学习能力和域外泛化能力
      • 理解:很专业,不包括基准测试数据集,保证评估公平性,防止刷榜
  • 遵循 OpenAI(2023a),论文评估了在 GSM8k(2021) 和 MATH(2021b) 训练集上进行退火的效果
    • 论文发现,退火使预训练的 Llama 3 8B 模型在 GSM8k 和 MATH 验证集上的性能分别提升了 24.0% 和 6.4%
    • 但对 405B 模型的提升可以忽略不计,这表明论文的旗舰模型具有强大的上下文学习和推理能力 ,不需要特定的域内训练样本即可获得强大性能
  • 使用退火评估数据质量(Using annealing to assess data quality) :与 Blakeney等(2024)类似,论文发现退火使我们能够判断小型特定领域数据集的价值
    • 论文通过对 50% 训练的 Llama 3 8B 模型的学习率在 40B token 上线性退火至 0 来衡量此类数据集的价值
    • 在这些实验中,论文为新数据集分配 30% 的权重,剩余 70% 权重分配给默认数据混合
      • 问题:这里说的权重是什么?是梯度权重吗?
    • 使用退火评估新数据源比为每个小型数据集执行 Scaling Laws 实验更高效

Model Architecture

  • Llama 3 使用标准的 Dense Transformer 架构(2017)
    • 在模型架构方面,它与 Llama 和 Llama 2(2023a,b) 没有显著差异;
    • 论文的性能提升主要由数据质量和多样性的改进以及训练规模的增加所驱动
  • 与 Llama 2 相比,论文做了一些小的修改:
    • 论文使用分组查询注意力(grouped query attention,GQA;(2023))
      • 带有 8 个键值头,以提高推理速度并减少解码期间键值缓存的大小
    • 论文使用注意力掩码,防止同一序列中不同文档之间的自注意力
      • 论文发现此更改在标准预训练期间影响有限 ,但在对非常长的序列进行持续预训练时很重要
    • 论文使用包含 128K token 的词汇表
      • 论文的 token 词汇表将 tiktoken3 tokenizer 的 100K token 与额外的 28K token 结合,以更好地支持非英语语言
      • 与 Llama 2 tokenizer 相比,论文的新 tokenizer 将英语数据样本的压缩率从每个 token 3.17 字符提高到 3.94 字符
        • 这使模型能够在相同的训练计算量下“读取”更多文本
      • 论文还发现,从选定的非英语语言中添加 28K token 可以提高压缩率和下游性能,且对英语 tokenization 没有影响
    • 论文将 RoPE 基础频率超参数增加到 500,000
      • 这使论文能够更好地支持更长的上下文;
      • Xiong等(2023)表明该值对长达 32768 的上下文长度有效
  • Llama 3 405B 使用具有 126层、16384 的 token 表示维度和 128 个注意力头的架构;详情见表3
  • 根据论文数据上的 Scaling Laws ,对于论文的 \(3.8×10^{25}\) FLOPs 训练预算,这导致模型大小接近计算最优
Scaling Laws
  • 在给定论文的预训练计算预算的情况下,论文开发 Scaling Laws (2022; 2020)来确定旗舰模型的最佳大小
  • 除了确定最佳模型大小外,一个主要挑战是预测旗舰模型在下游基准任务上的性能,这是由于几个问题:
    • (1) 现有 Scaling Laws 通常仅预测 next token 预测损失 ,而不是特定基准性能
    • (2) Scaling Laws 可能有噪声且不可靠 ,因为它们是基于使用小计算预算进行的预训练运行开发的(2022b)
  • 为了应对这些挑战,论文实施了两阶段方法来开发准确预测下游基准性能的 Scaling Laws :
    • 1)论文首先在计算最优模型在下游任务上的负对数似然与训练 FLOPs 之间建立相关性
    • 2)接下来,论文利用 Scaling Laws 模型和使用更高计算 FLOPs 训练的旧模型 ,将下游任务的负对数似然与任务准确性相关联
      • 在这一步中,论文特别利用了 Llama 2 系列模型
    • 这种方法使论文能够预测给定计算最优模型的特定训练 FLOPs 下的下游任务性能
      • 论文使用类似的方法选择论文的预训练数据混合(见3.4节)
  • Scaling Laws 实验(Scaling law experiments) :具体而言,论文通过使用 \(6×10^{18}\) FLOPs 到 \(10^{22}\) FLOPs 的计算预算预训练模型来构建论文的 Scaling Laws
    • 在每个计算预算下,论文训练参数在 40M 到 16B 之间的模型,在每个计算预算下使用模型大小的子集
      • 理解:使用不同的计算预算和不同的模型大小做交叉训练,试图找到模型大小和计算预算的最优的配置点
      • 补充:FLOPs 是浮点运算次数,是模型复杂度的评估指标,用于评估一个模型的复杂度
    • 以上训练中,超参数配置如下:
      • 使用带有 2000个 训练步骤线性预热的余弦学习率调度
      • 峰值学习率根据模型大小设置在 \(2×10^{-4}\) 到 \(4×10^{-4}\) 之间
      • 余弦衰减设置为峰值的 0.1(理解:这里指最终衰减后的学习率是峰值的 10%)
      • 每个步骤的权重衰减(Weight Decay)设置为该步骤学习率的 0.1 倍
        • 理解:权重衰减是正则化技术,用于抑制模型过拟合,本质上是在损失函数中添加参数的 L2 范数惩罚项,这种跟着学习率自适应变化的设置使权重衰减随学习率变化而自适应调整,增强了正则化的灵活性
        • 问题:这种方法常用吗?
      • 论文为每个计算规模使用固定的 Batch Size,范围在 250K 到 4M 之间
        • 问题:这里的「250K 到 4M」是指每个 Batch 的 token 数还是 Sequence 数?
          • 回答:应该是 token 数,详情见后文的描述
          • 但无论如何,Llama 3 训练使用的 Batch Size 非常大
    • 这些实验产生了图2中的 IsoFLOPs 曲线
      • 这些曲线中的损失是在单独的验证集上测量的
      • 论文使用二次多项式拟合测量的损失值,并确定每个抛物线的最小值
      • 论文将抛物线的最小值称为相应预训练计算预算下的计算最优模型
      • 补充:对图2 的理解 :
        • 每条线表示固定计算预算下不同 数据量(tokens)对应的效果
        • 注意:由于总的计算预算是固定的 ,显然 tokens 确定时,数据量也会自动确定 ,此时对应的模型 Size 也确定了(因为要保持计算预算固定)
        • 实际上,表2 画出的图中,每个曲线的每个点都代表一个模型 Size ,模型 Size 确定以后,固定 计算预算 下的 tokens 自然就出来了(横轴也就确定了)
    • 论文使用以这种方式确定的计算最优模型来预测特定计算预算下的最佳训练 token 数量
      • 论文假设计算预算 \(C\) 与最佳训练 token 数量 \(N^*(C)\) 之间存在幂律关系:
        $$N^*(C) = A C^\alpha$$
    • 论文使用图2 中的数据拟合 \(A\) 和 \(\alpha\)
      • 论文发现 \((\alpha, A) = (0.53, 0.29)\) ;
      • 理解:这是用最优的点(对应给定计算预算下,最优 tokens ,最优模型 Size)来拟合的
    • 相应的拟合如图3 所示
      • 将得到的 Scaling Laws 外推到 \(3.8×10^{25}\) FLOPs (这个是 Meta AI 的总算力,也就是总训练预算)表明,在 16.55T token 上训练一个 402B 参数的模型是最优的
    • 一个重要的观察是,随着计算预算的增加,IsoFLOPs 曲线在最小值附近变得更平坦
      • 这意味着旗舰模型的性能对模型大小和训练 token 之间权衡的小变化相对稳健
      • 基于这一观察,论文最终决定训练一个具有 405B 参数的旗舰模型
  • 预测下游任务性能(Predicting performance on downstream tasks) :论文使用得到的计算最优模型来预测旗舰 Llama 3 模型在基准数据集上的性能
    • 首先,论文将基准中正确答案的(归一化)负对数似然与训练 FLOPs 线性相关
    • 在该分析中,论文仅使用在上述数据混合上训练到 \(10^{22}\) FLOPs 的 Scaling Laws 模型
    • 接下来,论文使用 Scaling Laws 模型和 Llama 2 模型(使用 Llama 2 数据混合和 tokenizer 训练)在对数似然和准确性之间建立 sigmoidal 关系
    • 论文在 ARC Challenge 基准上展示了该实验的结果(图4)
    • 论文发现这种两步 Scaling Laws 预测(外推超过四个数量级)相当准确:它仅略微低估了旗舰 Llama 3 模型的最终性能

Infrastructure, Scaling, and Efficiency

  • 论文描述了支持 Llama 3 405B 大规模预训练的硬件和基础设施,并讨论了导致训练效率提升的几项优化
Training Infrastructure
  • Llama 1 和 Llama 2 模型在 Meta 的 AI 研究超级集群(2022)上训练
  • 随着论文进一步扩展, Llama 3 的训练迁移到了 Meta 的生产集群(2024)
  • 这种设置针对生产级可靠性进行了优化,这在论文扩展训练时至关重要
  • 计算(Compute) :
    • Llama 3 405B 在多达 16000 个 H100 GPU 上训练,每个 GPU 以 700W TDP 运行,配备80GB HBM3,使用 Meta 的 Grand Teton AI 服务器平台(2022)
    • 每个服务器配备 8 个 GPU 和 2 个 CPU
    • 在服务器内,8 个 GPU 通过 NVLink 连接
    • 训练作业使用 MAST(2024)调度,这是 Meta 的全球规模训练调度器
  • 存储(Storage) :
    • 使用 Tectonic(2021)(Meta 的通用分布式文件系统)为 Llama 3 预训练构建存储架构(2024)
    • 它提供 7500台 配备 SSD 的服务器中的 240PB 存储,支持 2TB/s 的可持续吞吐量和 7TB/s 的峰值吞吐量
    • 一个主要挑战是支持高度突发的 checkpoint 写入,这会在短时间内使存储架构饱和
    • checkpoint 保存每个 GPU 的模型状态,每个 GPU 从 1MB 到 4GB 不等,用于恢复和调试
    • 论文旨在最小化 checkpoint 期间的 GPU 暂停时间,并增加 checkpoint 频率,以减少恢复后丢失的工作量
  • 网络(Network)
    • Llama 3 405B 使用基于 Arista 7800 和 Minipack2 开放计算项目 OCP 机架交换机的RoCE(融合以太网远程直接内存访问)架构
      • Llama 3 系列中的较小模型使用 Nvidia Quantum2 InfiniBand 架构训练。RoCE 和 InfiniBand 集群都利用 GPU 之间的 400 Gbps 互连。尽管这些集群的基础网络技术不同,但论文对它们进行调优,以为这些大型训练工作负载提供等效性能
      • 论文进一步详细阐述论文的 RoCE 网络,因为论文完全拥有其设计
    • 网络拓扑(Network topology) :
      • 论文的基于 RoCE 的 AI 集群由 24000 个 GPU5 组成,通过三层 Clos 网络(2024)连接
      • 在底层,每个机架托管 16 个 GPU,分为两台服务器,并通过单个 Minipack2 架顶式(ToR)交换机连接
      • 在中间层,192 个这样的机架通过集群交换机连接,形成一个具有完整二分带宽的 3072 个 GPU 的 pod,确保无超额订阅
      • 在顶层,同一数据中心大楼内的八个这样的 pod 通过聚合交换机连接,形成一个 24000 个 GPU 的集群
      • 但聚合层的网络连接不保持完整的二分带宽,而是具有1:7的超额订阅比率
      • 论文的模型并行方法(见3.3.2节)和训练作业调度器(2024)都经过优化,以了解网络拓扑,旨在最小化跨 pod 的网络通信
    • 负载平衡(Load balancing) :
      • LLM训练产生难以使用传统方法,如等价多路径(Equal-Cost Multi-Path,ECMP)路由,在所有可用网络路径上平衡负载的 fat network flows
      • 为了应对这一挑战,论文采用了两种技术
        • 首先,论文的集体库在两个 GPU 之间创建16个网络流,而不仅仅是一个,从而减少每个流的流量并提供更多流用于负载平衡
        • 其次,论文的增强型ECMP(E-ECMP)协议通过对数据包的RoCE报头中的附加字段进行哈希处理,有效地在不同网络路径上平衡这16个流
    • 拥塞控制(Congestion control)
      • 论文在骨干网中使用深缓冲区交换机(2024)来适应由集体通信模式引起的瞬态拥塞和缓冲。这种设置有助于限制由集体通信模式和慢速服务器导致的持续拥塞及网络背压的影响,这些在训练中很常见
      • 最后,通过 E-ECMP 实现的更好负载平衡显著降低了拥塞的可能性
      • 通过这些优化,论文成功运行了 24000 个 GPU 的集群,而无需使用传统的拥塞控制方法,如数据中心量化拥塞通知(DCQCN)
        • 补充:24000 个 GPU,666!
Parallelism for Model Scaling
  • 为了对最大的模型进行训练缩放,论文使用 4D 并行(一种结合了四种不同并行方法的技术)来对模型进行分片(shard)
  • 这种方法有效地将计算分布在许多 GPU 上,并确保每个 GPU 的模型参数、优化器状态、梯度和激活适合其 HBM
  • 论文的 4D 并行性实现如图5 所示,它结合了:
    • 张量并行(tensor parallelism,TP;2012;2019;2023)
      • 张量并行性将单个权重张量分割成不同设备上的多个块
    • 流水线并行(pipeline parallelism,PP;2019;2021;2023)
      • 流水线并行性按层将模型垂直划分为阶段,使不同设备可以并行处理完整模型流水线的不同阶段
    • 上下文并行(context parallelism,CP;2023a)
      • 上下文并行性将输入上下文划分为段,减少超长序列长度输入的内存瓶颈
    • 数据并行(data parallelism,DP;2020;2021;2023b)
      • 论文使用全分片数据并行性(FSDP;2020;2021;2023b),它在实现数据并行性的同时对模型、优化器和梯度进行分片,该并行性在多个 GPU 上并行处理数据,并在每个训练步骤后进行同步
  • 论文对 Llama 3 使用 FSDP 来分片优化器状态和梯度,但对于模型分片,论文在前向计算后不进行重新分片,以避免反向传播期间额外的 All-Gather 通信
  • GPU 利用率(GPU utilization) :
    • 通过仔细调整并行性配置、硬件和软件,论文为表4 中所示的配置实现了 38%-43% 的总体 BF16 模型浮点运算利用率(Model FLOPs Utilization,MFU;2023)
    • 与使用 DP=64 的 8000个 GPU 上 43% 的 MFU 相比,在使用 DP=128 的 16000个 GPU 上,MFU 略降至41%,这是由于在训练期间为保持全局每批 token 数恒定 ,每个 DP 组需要更小的 Batch Size
      • 理解:Batch Size 越小,MFU 会越低?
  • 流水线并行性改进(Pipeline parallelism improvements) ,论文在现有实现中遇到了几个挑战:
    • Batch Size 限制(Batch size constraint) :当前实现对每个 GPU 支持的 Batch Size 有限制,要求其可被流水线阶段数整除
      • 对于图6中的示例,流水线并行性的深度优先调度(DFS;2021)要求 \(N = PP = 4\),而广度优先调度(BFS;2023)要求 \(N = M\),其中 \(M\) 是 Micro-batches 的总数,\(N\) 是同一阶段前向或后向的连续 Micro-batches 数
      • 但预训练通常需要灵活调整 Batch Size
    • 内存不平衡(Memory imbalance) :现有流水线并行性实现导致资源消耗不平衡
      • 由于 Embedding 和预热 Micro-batches,第一阶段消耗更多内存
    • 计算不平衡(Computation imbalance) :在模型的最后一层之后,论文需要计算输出和损失,使该阶段成为执行延迟瓶颈
  • 为了解决这些问题,论文修改了如图6 所示的流水线调度
    • 允许灵活设置 \(N\) (在这种情况下 \(N=5\))
    • 可以在每批中运行任意数量的 Micro-batches,这使论文能够:
      • (1) 在大规模 Batch Size 受限时,运行比阶段数更少的 Micro-batches ;
      • (2) 运行更多 Micro-batches 以隐藏 point-to-point 通信,在 DFS 和 BFS 之间找到最佳点,以实现最佳通信和内存效率
    • 为了平衡流水线,论文分别从第一阶段和最后阶段各减少一个 Transformer 层
      • 这意味着第一阶段的第一个模型块仅包含 Embedding,最后阶段的最后一个模型块仅包含输出投影和损失计算
      • 为了减少流水线气泡(bubbles),论文在一个流水线 Rank 上使用具有 \(V\) 个流水线阶段的交错调度(2021)
        • 总体流水线气泡比率为 \(\frac{PP-1}{V*M}\)
      • 论文在 PP 中采用异步 point-to-point 通信,这大大加快了训练速度,尤其是在文档掩码引入额外计算不平衡的情况下
      • 论文启用 TORCH_NCCL_AVOID_RECORD_STREAMS 以减少异步 point-to-point 通信的内存使用
      • 为了降低内存成本,基于详细的内存分配分析,论文主动释放未来计算不会使用的张量,包括每个流水线阶段的输入和输出张量
      • 通过这些优化,论文可以在不进行激活 checkpoint 的情况下 ,对 8K token 的序列进行 Llama 3 的预训练
  • 长序列的上下文并行性(Context parallelism for long sequences)
    • 论文利用上下文并行性(CP)来提高 Llama 3 上下文长度缩放时的内存效率,并支持长达 128K 长度的极长序列训练
    • 在 CP 中,论文跨序列维度进行分区,具体来说,论文将输入序列划分为 2个 CP 块,因此每个 CP Rank 接收两个块以实现更好的负载平衡
    • 第 \(i\) 个 CP Rank 接收第 \(i\) 个和 \((2×CP-1-i)\) 个块
    • 与现有 CP 实现(在环形结构中重叠通信和计算;2023a)不同,论文的 CP 实现采用基于 All-Gather 的方法,其中论文首先 All-Gather 键(K)和值(V)张量,然后计算本地查询(Q)张量块的注意力输出
    • 尽管 All-Gather 通信延迟暴露在关键路径上,但论文仍然采用这种方法,主要有两个原因:
      • (1) 基于 All-Gather 的CP注意力更容易且更灵活地支持不同类型的注意力掩码,如文档掩码
      • (2) 由于使用 GQA(2023),通信的 K 和 V 张量比 Q 张量小得多,因此暴露的 All-Gather 延迟很小
        • 因此,注意力计算的时间复杂度( \(O(S^2)\) ,其中 \(S\) 表示完整因果掩码中的序列长度)比 All-Gather ( \(O(S)\) )大一个数量级,使得 All-Gather 开销可以忽略不计
  • 网络感知并行性配置(Network-aware parallelism configuration)
    • 并行性维度的顺序[TP, CP, PP, DP]针对网络通信进行了优化
    • 最内层并行性需要最高的网络带宽和最低的延迟,因此通常限制在同一服务器内
    • 最外层并行性可能跨多跳网络分布,应容忍更高的网络延迟
    • 因此,根据网络带宽和延迟的要求,论文按[TP, CP, PP, DP]的顺序放置并行性维度
    • DP(即FSDP)是最外层并行性,因为它可以通过异步预取分片模型权重和减少梯度来容忍更长的网络延迟
    • 在避免 GPU 内存溢出的同时,确定具有最小通信开销的最佳并行性配置具有挑战性
    • 论文开发了内存消耗估计器和性能预测工具,帮助论文探索各种并行性配置,并有效预测整体训练性能和识别内存差距
  • 数值稳定性(Numerical stability) :通过比较不同并行性设置下的训练损失,论文修复了几个影响训练稳定性的数值问题
    • 为了确保训练收敛,论文在多个 Micro-batches 的反向计算期间使用 FP32 梯度累积,并在 FSDP 中跨数据并行工作者以 FP32 Reduce-Scatter 梯度
    • 对于在正向计算中多次使用的中间张量(如视觉编码器输出),反向梯度也以 FP32 累积
Collective Communication
  • 论文用于 Llama 3 的集体通信库基于 Nvidia 的 NCCL 库的分支,称为 NCCLX
  • NCCLX 显著提高了 NCCL 的性能,尤其是在更高延迟的网络中
  • 回想一下,并行性维度的顺序是[TP, CP, PP, DP],其中 DP 对应于 FSDP
  • 最外层并行性维度 PP 和 DP 可能通过多跳网络通信,延迟高达数十微秒
  • 原始的 NCCL 集体操作(FSDP 中的 All-Gather 和 Reduce-Scatter ,以及 PP 中的 point-to-point)需要数据分块和分段数据复制,这种方法导致几个效率低下的问题,包括:
    • (1) 需要在网络上交换大量小控制消息以促进数据传输;
    • (2) 额外的内存复制操作;
    • (3) 使用额外的 GPU 周期进行通信
  • 对于 Llama 3 训练,论文通过调整分块和数据传输以适应论文的网络延迟(对于大型集群,延迟可能高达数十微秒)来解决这些效率低下问题的一部分
  • 论文还允许小控制消息以更高优先级穿越论文的网络,特别是避免在深缓冲区核心交换机中被队首阻塞。论文为未来 Llama 版本正在进行的工作涉及对 NCCLX 进行更深入的更改,以全面解决所有上述问题
Reliability and Operational Challenges
  • 16000个 GPU 训练的复杂性和潜在故障场景超过了作者运行过的更大 CPU 集群
  • 此外,训练的同步特性使其容错性较低(单个GPU故障可能需要整个作业重启)
  • 尽管存在这些挑战,对于 Llama 3 ,论文实现了超过 90% 的有效训练时间 ,同时支持自动集群维护 ,如固件和 Linux 内核升级(2024),这导致每天至少一次训练中断
  • 有效训练时间衡量的是在经过时间中用于有用训练的时间比例
  • 在预训练的 54天 快照期间,论文总共经历了 466 次作业中断
    • 其中,47次 是由于自动维护操作(如固件升级)或操作员发起的操作(如配置或数据集更新)导致的计划中断
    • 其余 419次 是意外中断,分类如表5 所示
      • 约78%的意外中断归因于已确认的硬件问题(如 GPU 或主机组件故障)或疑似硬件相关问题(如静默数据损坏和计划外的单个主机维护事件)
      • GPU 问题是最大的类别,占所有意外问题的 58.7%
      • 尽管故障数量众多,但在此期间仅需要三次重大人工干预,其余问题由自动化处理
  • 为了增加有效训练时间,论文减少了作业启动和 checkpoint 时间,并开发了快速诊断和问题解决工具
  • 论文广泛使用 PyTorch 的内置 NCCL flight recorder (2024)
    • 该功能将集体元数据和堆栈跟踪捕获到环形缓冲区中,从而允许论文在大规模下快速诊断挂起和性能问题,尤其是关于NCCLX的问题
    • 使用此功能,论文有效地记录每个通信事件和每个集体操作的持续时间,并在 NCCLX watchdog 或 heartbeat 超时情况下自动转储跟踪数据
  • 通过在线配置更改(2015),我们可以根据需要有选择地启用更多计算密集型跟踪操作和元数据收集,而无需代码发布或作业重启
  • 在大规模训练中调试问题因论文网络中 NVLink 和 RoCE 的混合使用而变得复杂
    • 通过 NVLink 的数据传输通常通过 CUDA 内核发出的加载/存储操作进行,远程 GPU 或 NVLink 连接的故障通常表现为 CUDA 内核内停滞的加载/存储操作,而不会返回明确的错误代码
    • NCCLX 通过与 PyTorch 的紧密协同设计提高了故障检测和定位的速度和准确性,允许 PyTorch 访问 NCCLX 的内部状态并跟踪相关信息
    • 尽管无法完全防止 NVLink 故障导致的停滞,但论文的系统监控通信库的状态,并在检测到此类停顿时自动超时
    • 此外,NCCLX 跟踪每个 NCCLX 通信的内核和网络活动,并提供失败 NCCLX 集体的内部状态快照,包括所有 Rank 之间已完成和待处理的数据传输
    • 论文分析此数据以调试 NCCLX 缩放问题
  • 有时,硬件问题可能导致仍在运行但速度缓慢的掉队者,这些掉队者难以检测
    • 即使单个掉队者也会减慢数千个其他 GPU 的速度,通常表现为正常运行但缓慢的通信
    • 论文开发了工具来优先处理来自选定进程组的潜在问题通信
    • 通过调查仅几个主要可疑对象,论文通常能够有效识别掉队者
  • 一个有趣的观察是环境因素对大规模训练性能的影响
    • 对于 Llama 3 405B,论文注意到基于时间的昼夜 1%-2% 的吞吐量变化
    • 这种波动是由于中午较高的温度影响 GPU 动态电压和频率缩放造成的
  • 在训练期间,数万个 GPU 可能同时增加或减少功耗,例如,由于所有 GPU 等待 checkpoint 或集体通信完成,或整个训练作业的启动或关闭
  • 当这种情况发生时,可能导致数据中心的功耗瞬间波动数十兆瓦 ,达到电网的极限
  • 随着论文为未来更大的 Llama 模型扩展训练 ,这是作者面临的持续挑战

Training Recipe

  • 用于预训练 Llama 3 405B 的方案包括三个主要阶段:
    • (1) 初始预训练(Initial Pre-Training);
    • (2) 长上下文预训练(Long Context Pre-Training);
    • (3) 退火(Annealing)
  • 下面分别描述这三个阶段(论文使用类似的方案预训练 8B 和 70B 模型)
Initial Pre-Training
  • 论文使用 AdamW 预训练 Llama 3 405B
    • 峰值学习率为 \(8×10^{-5}\)
    • 8000步 线性预热
    • 余弦学习率调度在 1200000步 内衰减至 \(8×10^{-7}\)
  • 论文在训练早期使用较小的 Batch Size 以提高训练稳定性,随后增加 Batch Size 以提高效率
    • 使用 4M token 的初始 Batch Size 和 4096 的序列长度
      • 问题:论文中给的 Batch Size 都是 token 为单位的吗?
      • 回答:是的,在 NLP 中,以 token 为单位计量,能更精确地控制模型训练时处理的数据量
    • 在预训练 252M token 后,将 Batch Size 翻倍至 8M token,序列长度提升至 8192
    • 在预训练 2.87T token 后,论文再次将 Batch Size 翻倍至 16M
  • 论文发现此训练方案非常稳定:论文观察到很少的损失尖峰(loss spikes) ,并且不需要干预来纠正模型训练发散
  • 调整数据混合(Adjusting the data mix) :在训练期间,论文对预训练数据混合进行了几次调整,以提高模型在特定下游任务上的性能
    • 在预训练期间增加了非英语数据的百分比,以提高 Llama 3 的多语言性能
    • 对数学数据进行上采样 ,以提高模型的数学推理性能
    • 在预训练的后期阶段添加了更多近期网络数据 ,以推进模型的知识截止日期
    • 对后来被确定为质量较低的预训练数据子集进行下采样
Long Context Pre-Training
  • 在预训练的最后阶段,论文在长序列上训练以支持高达 128K token 的上下文窗口
  • 不早期在长序列上训练,因为自注意力层中的计算随序列长度的平方增长
  • 以增量方式增加支持的上下文长度,预训练直到模型成功适应增加的上下文长度
  • 通过测量以下两点来评估成功适应:
    • (1) 模型在短上下文评估上的性能已完全恢复;
    • (2) 模型完美解决该长度的“大海捞针(needle in a haystack)”任务
  • 在 Llama 3 405B 预训练中,论文分六个阶段逐渐增加上下文长度,从原始的 8K 上下文窗口开始,最终达到 128K 上下文窗口
    • 此长上下文预训练阶段使用约 800B 训练 token 进行
Annealing(退火)
  • 在最后 40M token 的预训练期间,论文将学习率线性退火至 0,保持 128K 的上下文长度
  • 退火阶段,论文还调整数据混合以对高质量数据源进行上采样 ,见原文 3.1.3 节(Annealing Data)
  • 论文在退火期间计算模型 checkpoint 的平均值(Polyak(1991) averaging),以生成最终的预训练模型
    • 理解:最终的预训练模型的参数不是某个 Checkpoint 的结果,而是退火阶段的平均值

Post-training

  • 论文通过在预训练 checkpoint 的基础上应用多轮后训练(即让模型与人类反馈对齐)来生成经过对齐的 Llama 3 模型
  • 每轮后训练都包括:
    • SFT
    • 偏好优化(DPO):在通过人工标注或合成生成收集的示例上进行直接 DPO
  • 论文的后训练建模和数据方法分别在 4.1节 和 4.2节 中描述
  • 论文在 4.3节 中进一步详细介绍了自定义数据精心挑选策略,以提高推理、编码、事实性、多语言能力、工具使用、长上下文和精确指令遵循等方面的性能

Modeling

  • 论文后训练策略的核心是奖励模型和语言模型
    • 首先,使用人工标注的偏好数据在预训练 checkpoint 的基础上训练奖励模型(见4.1.2节)
    • 然后,使用监督微调(SFT;2022)对预训练 checkpoint 进行微调,并通过直接偏好优化(DPO;2024)进一步对齐 checkpoint
  • 此过程如图7 所示
    • 除非另有说明,论文的建模过程适用于 Llama 3 405B,为简单起见,论文将 Llama 3 405B 称为 Llama 3
Chat Dialog Format
  • 为了将 LLM 调整为适合人机交互的模式,论文需要定义一种聊天对话协议,使模型能够理解人类指令并执行对话任务
  • 与前身相比,Llama 3 具有新的功能,如工具使用(原文 4.3.5节),这可能需要在单个对话轮次中生成多条消息并发送到不同位置(例如用户、ipython)
    • 为了支持这一点,论文设计了一种新的多消息聊天协议,该协议使用各种特殊头部和终止 Token
    • 头部 Token 用于指示对话中每条消息的来源和目的地
    • 同样,终止 Token 指示何时轮到人类和 AI 发言
Reward Modeling
  • 论文在预训练 checkpoint 的基础上训练一个涵盖不同能力的奖励模型(RM)
  • 训练目标与 Llama 2 相同,只是论文删除了损失中的边际项,因为论文观察到在数据缩放后改进逐渐减少
  • 遵循 Llama 2,论文在过滤掉响应相似的样本后,将所有偏好数据用于奖励建模
  • 除了标准的(chosen,rejected)响应偏好对之外,标注还为某些提示创建第三个“编辑响应(edited response)”
    • 该对中的选择响应会被进一步编辑以改进(见4.2.1节)
    • 因此,每个偏好排名样本有两个或三个具有明确排名的响应(edited > chosen > rejected)
    • 在训练期间,论文将提示和多个响应连接成一行,并随机打乱响应顺序
      • 问题:响应之间 token 可见吗?是否最后一个 token 上添加奖励 loss?
    • 这是对标准场景(将响应放在单独行计算分数)的近似,但在论文的消融实验中,这种方法提高了训练效率,且没有准确性损失
Supervised Finetuning
  • 使用奖励模型对论文的人工标注提示进行拒绝采样,具体细节在4.2节中描述
  • 将此拒绝采样数据与其他数据源(包括合成数据)结合,论文使用目标 token 的标准交叉熵损失(同时屏蔽提示 token 的损失)对预训练语言模型进行微调
  • 有关数据混合的更多详细信息,请参见4.2节
  • 论文将此阶段称为监督微调(SFT;2022a)(虽然许多训练目标是模型生成的)
  • 论文最大的模型以 \(10^{-5}\) 的学习率进行微调,持续 8.5K 至 9K 步
    • 问题:SFT 时的样本数和 Batch Size 是多少?
  • 论文发现这些超参数设置在不同轮次和数据混合中都能很好地工作
Direct Preference Optimization
  • 论文使用 DPO 进一步训练论文的 SFT 模型,以实现人类偏好对齐
  • 在训练时,论文主要使用从之前对齐轮次中表现最佳的模型收集的最新批次偏好数据
    • 因此,论文的训练数据更符合每轮中正在优化的策略模型的分布
    • 问题:最佳模型是从多个模型中选出来的吗?是不同 step 的 checkpoint 吗?又如何评估最优模型呢?
  • 论文还探索了策略算法,如 PPO(2017),但发现 DPO 在大规模模型上需要更少的计算,并且表现更好,尤其是在指令遵循基准(如 IFEval(2023))上
  • 对于 Llama 3 ,论文使用 \(10^{-5}\) 的学习率,并将 \(\beta\) 超参数设置为 0.1
  • 此外,论文对 DPO 应用以下算法修改:
    • 在 DPO 损失中屏蔽格式 Token (Masking out formatting tokens in DPO loss) :
      • 论文从损失中的选择和拒绝响应中屏蔽特殊格式 Token ,包括头部和终止 Token (在4.1.1节中描述),以稳定 DPO 训练
      • 论文观察到,让这些 Token 对损失产生影响可能会导致不期望的模型行为,例如尾部重复或突然生成终止 Token
      • 论文假设这是由于 DPO 损失的对比性质,即选择和拒绝响应中常见 Token 的存在会导致冲突的学习目标,因为模型需要同时增加和减少这些 Token 的可能性
    • 使用 NLL 损失进行正则化(Regularization with NLL loss) :
      • 论文在选择序列上添加一个额外的负对数似然(negative log-likelihood,NLL)损失项,缩放系数为 0.2,类似于(2024),它通过维持生成的期望格式并防止选择响应的对数概率降低,帮助进一步稳定 DPO 训练(2024;2024)
Model Averaging
  • 最后,论文对在每个 RM、SFT 或 DPO 阶段使用各种版本的数据或超参数的实验中获得的模型进行平均(2019;2022;2022)
    • 理解:在 Llama 3 的训练过程中,针对每个阶段(RM、SFT、DPO)都进行了多种不同的实验。使用不同版本的数据可以让模型接触到不同分布、不同特点的信息,有助于提高模型的泛化能力和对各种情况的适应性
Iterative Rounds
  • 遵循 Llama 2,论文以上述方法进行六轮
  • 在每个周期中,论文收集新的偏好标注和 SFT 数据,从最新模型中采样合成数据

Post-training Data

  • 后训练数据的组成在语言模型的有用性和行为中起着关键作用
  • 在本节中,论文讨论论文的人工标注程序和偏好数据收集(4.2.1节)、SFT 数据的组成(4.2.2节)以及数据质量控制和清理方法(4.2.3节)
Preference Data
  • 论文的偏好数据标注过程与 Llama 2 类似
    • 每轮后,论文部署多个模型进行标注,并为每个用户提示从两个不同模型中采样两个响应
    • 这些模型可以使用不同的数据混合和对齐方案进行训练,从而具有不同的能力优势(例如代码专业知识),并增加数据多样性
    • 论文要求标注者(annotators)通过将偏好强度分类为四个级别之一来对偏好强度进行评分,这四个级别基于他们对选择响应比拒绝响应的偏好程度:明显更好、更好、稍微更好或大致相同(significantly better, better, slightly better)
  • 我们还在偏好排序后加入了编辑环节,以鼓励标注人员进一步完善被选中的回答
    • 标注人员可直接编辑选中的回答,或通过反馈提示模型改进其自身的回答
    • 因此,我们的部分偏好数据包含三个排序后的回答(edited > chosen > rejected)
  • 在表6中,论文报告了用于 Llama 3 训练的偏好标注统计数据
    • 通用英语涵盖多个子类别,如基于知识的问答或精确指令遵循,这些属于特定能力的范围之外
    • 与 Llama 2 相比,论文观察到提示和响应的平均长度增加,这表明论文在更复杂的任务上训练 Llama 3
    • 论文进行质量分析和人类评估过程,以严格评估收集的数据,使论文能够完善提示并向标注者提供系统的、可操作的反馈
      • 例如,随着 Llama 3 在每轮后改进,论文相应地增加提示的复杂性,以针对模型表现滞后的领域
  • 在每轮后训练中
    • 将当时可用的所有偏好数据用于奖励建模
    • 仅将来自各种能力的最新批次用于 DPO 训练
  • 对于奖励建模和 DPO,论文使用 Token 为选择响应明显优于或优于拒绝响应的样本进行训练,并丢弃响应相似的样本
SFT Data
  • 论文的微调数据主要由以下来源组成:
    • 来自论文人工标注收集的提示,带有拒绝采样的响应
    • 针对特定能力的合成数据(更多详细信息见4.3节)
    • 少量人工精心挑选的数据(更多详细信息见4.3节)
  • 随着后训练轮次的进行,论文开发了更强的 Llama 3 变体,用于收集涵盖广泛复杂能力的更大数据集
  • 在本节中,论文讨论拒绝采样过程的细节和最终 SFT 数据混合的整体组成
  • 拒绝采样(Rejection sampling) :
    • 在拒绝采样(Rejection sampling,RS)期间,对于人工标注期间收集的每个提示(4.2.1节),论文从最新的聊天模型策略采样 K(通常在 10 到 30 之间)个输出 ,并使用论文的奖励模型选择最佳候选 ,这与(2022)一致
      • 注:最新聊天模型通常是前一后训练迭代中表现最佳的 checkpoint,或特定能力中表现最佳的 checkpoint
    • 在后训练的后期轮次中,论文引入系统提示来引导 RS 响应符合所需的语气、风格或格式 ,这可能因能力而异
  • 为了提高拒绝采样的效率,论文采用 PagedAttention(2023)。PagedAttention 通过动态键值缓存分配增强了内存效率
    • 它通过基于当前缓存容量动态调度请求来支持任意输出长度
    • 不幸的是,这存在内存不足时换出的风险
    • 为了消除这种换出开销,论文定义最大输出长度,并仅在有足够内存容纳该长度的输出时才执行请求
    • PagedAttention 还使论文能够在对应于同一提示的所有输出之间共享键值缓存页
    • 总体来说,这使得拒绝采样期间的吞吐量提高了 2 倍以上
  • 整体数据组成(Overall data composition) ,表7 显示了论文“有用性”组合中每个广泛类别的数据统计信息
    • 虽然 SFT 和偏好数据包含重叠的领域,但它们的精心挑选方式不同,从而产生不同的计数统计数据
    • 在4.2.3节中,论文描述了用于对数据样本的主题、复杂性和质量进行分类的技术
    • 在每轮后训练中,论文仔细调整跨这些轴的整体数据混合,以调整跨广泛基准的性能
    • 论文的最终数据混合对一些高质量来源进行多次迭代,并对其他来源进行下采样
Data Processing and Quality Control
  • 由于论文的训练数据大部分是模型生成的,因此需要仔细清理和质量控制
  • 数据清理(Data cleaning) :在早期轮次中,论文在数据中观察到许多不良模式,例如过度使用表情符号或感叹号
    • 因此,论文实施了一系列基于规则的数据删除和修改策略,以过滤或清理有问题的数据
    • 例如,为了缓解过度道歉的语气问题,论文识别过度使用的短语(如“I’m sorry”或“I apologize”),并仔细平衡数据集中此类样本的比例
  • 数据裁剪(Data pruning) :论文还应用了一系列基于模型的技术来删除低质量训练样本并提高整体模型性能:
    • 主题分类(Topic classification) :论文首先将 Llama 3 8B 微调为主题分类器,并对所有数据进行推理,将其分类为粗粒度桶(“Mathematical Reasoning”)和细粒度桶(“几何和三角学(geometry and trigonometry)”)
    • 质量评分(Quality scoring) :论文使用奖励模型和基于 Llama 的信号来获取每个样本的质量分数
      • 对于基于 RM 的分数,论文将 RM 分数前四分位数的数据视为高质量
      • 对于基于 Llama 的分数,论文提示 Llama 3 checkpoint 对通用英语数据的三个评分(准确性、指令遵循和语气/呈现)和编码数据的两个评分(错误识别和用户意图)进行评分,并将获得最高分的样本视为高质量
      • RM 和基于 Llama 的分数存在高不一致率,论文发现结合这些信号可在论文的内部测试集上获得最佳召回率
      • 最终,论文选择被 RM 或基于 Llama 的过滤器 Token 为高质量的示例
    • 难度评分(Difficulty scoring) :由于论文也有兴趣优先考虑对模型来说更复杂的示例,因此论文使用两种难度度量对数据进行评分:Instag(2023)和基于 Llama 的评分
      • 对于Instag,论文提示 Llama 3 70B 对 SFT 提示进行意图 Token ,更多意图意味着更高的复杂性
      • 论文还提示 Llama 3 对对话的难度进行三分制评分(2024c)
    • 语义去重(Semantic deduplication) :最后,论文执行语义去重(2023;2024c)
      • 首先,使用 RoBERTa(2019b)对完整对话进行聚类,并在每个聚类内按质量分数 \(\times\) 难度分数排序
      • 然后,论文通过遍历所有排序的示例进行贪心选择,仅保留与聚类中已见示例的余弦相似度小于阈值的示例
        • 理解:也就是过滤太相似的示例

Capabilities

  • 论文重点介绍了为提高特定能力的性能所做的特殊努力,如代码(4.3.1节)、多语言能力(4.3.2节)、数学和推理(4.3.3节)、长上下文(4.3.4节)、工具使用(4.3.5节)、事实性(4.3.6节)和可控性(4.3.7节)
Code
  • 自 Copilot 和 Codex(2021)发布以来,用于代码的 LLM 受到了广泛关注
  • 开发人员现在广泛使用这些模型来生成代码片段、调试、自动化任务和提高代码质量
  • 对于 Llama 3,论文的目标是提高和评估以下高优先级编程语言的代码生成、文档、调试和审查能力:Python、Java、Javascript、C/C++、Typescript、Rust、PHP、HTML/CSS、SQL、bash/shell
  • 在这里,论文介绍了通过训练代码专家、生成 SFT 合成数据、使用系统提示引导改进格式以及创建质量过滤器从训练数据中删除不良样本等方面来提高这些编码能力的工作
  • 专家训练(Expert training) :论文训练了一个代码专家,用于在后续后训练轮次中收集高质量的代码人工标注
    • 这是通过分支主预训练运行并在主要(>85%)代码数据的 1T token 组合上继续预训练来实现的
      • 在特定领域数据上继续预训练已被证明对提高特定领域的性能有效(2020)
    • 论文遵循类似于 CodeLlama(2023)的方案
      • 在训练的最后几千步,论文执行长上下文微调(LCFT),将专家的上下文长度扩展到 16K token,使用高质量的仓库级代码数据混合
      • 最后,论文遵循 4.1节 中描述的类似后训练建模方案来对齐此模型,不同之处在于 SFT 和 DPO 数据混合主要针对代码
      • 此模型还用于代码提示的拒绝采样(4.2.2节)
  • 合成数据生成(Synthetic data generation) :在开发过程中,论文发现代码生成中的关键问题包括 难以遵循指令、代码语法错误、不正确的代码生成以及难以修复错误(difficulty in following instructions, code syntax errors, incorrect code generation, and difficulty in fixing bugs)
    • 虽然密集的人工标注可以解决这些问题,但合成数据生成提供了一种补充方法,成本更低、规模更大,且不受标注者专业水平的限制
    • 因此,论文使用 Llama 3 和代码专家生成大量合成 SFT 对话
  • 论文描述了三种生成合成代码数据的高级方法。总共,论文生成了超过 2.7M 个合成示例,用于 SFT 期间
  • 1. 合成数据生成:执行反馈(Synthetic data generation: execution feedback) :8B 和 70B 模型在由更大、更有能力的模型生成的数据上训练时表现出显著的性能提升。然而,论文的初步实验表明,在 Llama 3 405B 自身生成的数据上训练并无帮助(甚至可能降低性能)。为了解决这一限制,论文引入执行反馈作为事实来源 ,使模型能够从错误中学习并保持正轨(stay on track)。特别是,论文使用以下过程生成大约 1M 个合成编码对话的大型数据集:
    • 问题描述生成(Problem description generation) :首先,论文生成大量涵盖各种主题(包括长尾分布主题)的编程问题描述。为了实现这种多样性,论文从各种来源采样随机代码片段,并提示模型生成受这些示例启发的编程问题。这使论文能够接触到广泛的主题,并创建全面的问题描述集(2024)
    • 解决方案生成(Solution generation) :然后,论文提示 Llama 3 使用给定的编程语言解决每个问题。论文观察到,在提示中添加良好编程的一般规则可以提高生成的解决方案质量。此外,论文发现要求模型在标注中解释其思维过程很有帮助
    • 正确性分析(Correctness analysis) :生成解决方案后,必须认识到其正确性无法保证,并且在微调数据中包含不正确的解决方案可能会损害模型质量。虽然论文不能保证完全正确,但论文开发了方法来近似它。为了实现这一点,论文从生成的解决方案中提取源代码,并应用静态和动态分析技术的组合来测试其正确性,包括:
      • 静态分析(Static analysis) :论文将所有生成的代码通过解析器和代码检查器运行,以确保语法正确性,捕获错误,如语法错误、未初始化变量或未导入函数的使用、代码风格问题、类型错误等
      • 单元测试生成和执行(Unit test generation and execution) :对于每个问题和解决方案,论文提示模型生成单元测试,在容器化环境中与解决方案一起执行,捕获运行时执行错误和一些语义错误
    • 错误反馈和迭代自我纠正(Error feedback and iterative self-correction) :当解决方案在任何步骤失败时,论文提示模型进行修订
      • 提示包括原始问题描述、有缺陷的解决方案以及来自解析器/代码检查器/测试器的反馈(标准输出、标准错误和返回代码)
      • 单元测试执行失败后,模型可以要么修复代码以通过现有测试,要么修改单元测试以适应生成的代码
      • 只有通过所有检查的对话才会包含在最终数据集中,用于 SFT
      • 值得注意的是,论文观察到约 20% 的解决方案最初不正确但自我纠正,这表明模型从执行反馈中学习并提高了性能
    • 微调与迭代改进(Fine-tuning and iterative improvement) :微调过程分多轮进行,每轮都基于前一轮。每轮后,模型得到改进,为下一轮生成更高质量的合成数据
  • 2. 合成数据生成:编程语言翻译(Synthetic data generation: programming language translation) 论文观察到主流编程语言(如Python/C++)与较不常见语言(如Typescript/PHP)之间存在性能差距
    • 这并不奇怪,因为论文对较不常见编程语言的训练数据较少
    • 为了缓解这一问题,论文通过将常见编程语言的数据翻译到较不常见语言来补充现有数据(类似于2023年在推理任务中的做法)
    • 这通过提示 Llama 3 并通过语法解析、编译和执行确保质量来实现
    • 图8 展示了一个从Python翻译到PHP的合成代码示例
    • 根据 MultiPL-E(2023)基准测量,这显著提升了较不常见语言的性能
  • 3. 合成数据生成:反向翻译(Synthetic data generation: backtranslation) 为了提升某些编码能力(如文档生成、解释,在这些场景中执行反馈对质量判断的帮助较小),论文采用了另一种多步骤方法
    • 通过此流程,论文生成了约 1.2M 个与代码解释、生成、文档和调试相关的合成对话
    • 从预训练数据中各种语言的代码片段开始:
      • 生成(Generate) 论文提示 Llama 3 生成代表目标能力的数据(例如,为代码片段添加标注和文档字符串,或要求模型解释一段代码)
      • 反向翻译(Backtranslate) 然后提示模型将合成生成的数据“反向翻译”为原始代码(例如,仅根据文档生成代码,或仅根据解释生成代码)
      • 过滤(Filter) 以原始代码为参考,提示 Llama 3 判断输出质量(例如,询问反向翻译的代码与原始代码的忠实程度)。然后在SFT中使用生成的自验证分数最高的示例
  • 拒绝采样期间的系统提示引导(System prompt steering during rejection sampling) 在拒绝采样过程中,论文使用特定于代码的系统提示来改善代码可读性、文档完整性、全面性和特异性
    • 回想一下,此数据用于微调语言模型
    • 图9 展示了系统提示如何帮助提升生成代码质量的示例——它添加了必要的标注、使用更具描述性的变量名、节省内存等
  • 使用执行和“model-as-judge”信号过滤训练数据(Filtering training data with execution and model-as-judge signals)
    • 如 4.2.3节所述,论文偶尔会在拒绝采样数据中遇到质量问题,例如包含错误的代码块
    • 在拒绝采样响应中检测这些问题并不像合成代码数据那样直接,因为拒绝采样响应通常包含自然语言和代码的混合,而代码可能不一定需要可执行(例如,用户提示可能明确要求伪代码或仅对可执行程序的一小段进行编辑)
    • 为解决此问题,论文利用“model-as-judge”方法,让早期版本的 Llama 3 基于两个标准评估并分配二进制(0/1)分数:代码正确性和代码风格
      • 论文仅保留获得满分 2分 的样本
      • 最初,这种严格过滤导致下游基准性能下降,主要是因为它不成比例地移除了具有挑战性提示的示例
      • 为抵消这一点,论文策略性地修改了一些被归类为最具挑战性的编码数据的响应,直到它们满足基于 Llama 的“model-as-judge”标准
      • 通过完善这些挑战性问题,编码数据在质量和难度之间取得平衡,从而实现最佳下游性能
Multilinguality
  • 论文将介绍如何提升 Llama 3 的多语言能力,包括训练专注于更多多语言数据的专家模型、为德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语获取并生成高质量多语言指令调整数据,以及应对多语言语言引导的特定挑战以提升模型整体性能
  • 专家训练(Expert training) Llama 3 的预训练数据混合中英语 token 显著多于非英语 token
    • 为收集非英语语言的高质量人工标注,论文训练了一个多语言专家(multilingual expert)
      • 具体方式:通过分支(branching off)预训练并在由 90% 多语言 token 组成的数据混合上继续预训练

        we train a multilingual expert by branching off the pre-training run and continuing to pre-train on a data mix that consists of 90% multilingual tokens

    • 然后按照 4.1节 对该专家进行后训练
    • 在预训练完全完成前,此专家模型用于收集非英语语言的高质量标注
  • 多语言数据收集(Multilingual data collection) 论文的多语言 SFT 数据主要源自以下来源
    • 总体分布: 2.4% 人工标注、44.2% 其他 NLP 任务数据、18.8% 拒绝采样数据和 34.6% 翻译推理数据
    • 人工标注(Human annotations) 论文从语言学家和母语者处收集高质量的人工标注数据。这些标注主要由代表现实用例的开放式提示组成
    • 其他 NLP 任务数据(Data from other NLP tasks) 为进一步扩充数据,论文使用来自其他任务的多语言训练数据并将其重写为对话格式
      • 例如,论文使用来自 exams-qa(2020)和 Conic10k(2023)的数据
      • 为改善语言对齐,论文还使用来自 GlobalVoices(2016)和 Wikimedia(2012)的平行文本
      • 论文使用基于 LID 的过滤和 Blaser2.0(2023)移除低质量数据
      • 对于平行文本数据,论文不直接使用双语对,而是应用受2022a启发的多语言模板,以更好地模拟翻译和语言学习场景中的真实对话
    • 拒绝采样数据(Rejection sampled data) :论文对人工标注提示应用拒绝采样以生成用于微调的高质量样本,与英语数据的流程相比仅有少量修改:
      • 生成 :在后训练早期轮次中,论文探索从 0.2-1 的温度范围内随机选择温度超参数以生成多样化输出
        • 高温下,多语言提示的响应可能富有创意和启发性,但也容易出现不必要或不自然的代码切换
        • 在后训练最后一轮,论文使用 0.6 的恒定值以平衡权衡
        • 此外,论文使用专门的系统提示来改善响应格式、结构和整体可读性
      • 选择(Selection) :在基于奖励模型选择之前,论文实施多语言特定检查以确保提示和响应之间的高语言匹配率
        • 例如,romanized Hindi 提示不应期望 Hindi Devanagari 响应

          a romanized Hindi prompt should not expect a response in Hindi Devanagari script

    • 翻译数据(Translated data) :为避免使用机器翻译数据微调模型,以防止翻译腔(2020;2023)或可能的名称偏差(2022a)、性别偏差(2021)或文化偏差(2023),论文避免模型仅接触植根于英语文化背景的任务(这些任务可能无法代表论文旨在捕捉的语言和文化多样性)
      • 论文对此做了一个例外,翻译了合成定量推理数据(见4.3.3节详情)以提升非英语语言的定量推理性能
      • 由于这些数学问题的语言简单,翻译样本几乎没有质量问题
      • 论文观察到通过添加此翻译数据,MGSM(2022)上的性能显著提升
Math and Reasoning
  • 论文将Reasoning定义为:执行多步计算并得出正确最终答案的能力(the ability to perform multi-step computations and arrive at the correct final answer)
  • 以下几个挑战指导论文训练擅长数学推理模型的方法:
    • prompts 稀缺(Lack of prompts) :随着问题复杂性增加,用于 SFT 的有效提示或问题数量减少
      • 这种稀缺性使得创建多样化且具代表性的训练数据集以教授模型各种数学技能变得困难(2023;2023;2023;2024;2024;2024b)
    • 缺乏 ground truth 思维链(Lack of ground truth chain of thought) :有效推理需要分步解决方案以促进推理过程(2022c)
      • 然而,通常缺乏 ground truth 思维链,这些对于指导模型如何分解问题并逐步得出最终答案至关重要(2022)
    • 中间步骤错误(Incorrect intermediate steps) :使用模型生成的思维链时,中间步骤可能并不总是正确(2021;2022;2023;2023a)
      • 这种不准确性可能导致最终答案错误,需要解决
    • 教授模型使用外部工具(Teaching models to use external tools) :
      • 增强模型使用外部工具(如代码解释器)的能力,使其能够通过代码和文本交织进行推理(2023;2022;2023)
      • 此能力可显著提升问题解决能力
    • 训练与推理的差异(Discrepancy between training and inference) :模型在训练期间的微调方式与推理期间的使用方式之间通常存在差异
      • 推理时,微调模型可能与人类或其他模型交互,需要通过人类反馈改善推理(理解:人类发现推理错误会提示模型,模型要有经过提示进一步优化自己的能力)
      • 确保训练与实际使用一致对维持推理性能至关重要
  • 为应对这些挑战,论文应用以下方法:
    • 解决提示稀缺问题(Addressing the lack of prompts) :
      • 论文从数学语境中获取相关预训练数据并将其转换为问答格式,可用于监督微调
      • 此外,论文识别模型表现不佳的数学技能,并主动从人类处获取提示以教授模型此类技能
      • 为促进这一过程,论文创建了数学技能分类法(2024),并要求人类据此提供相关提示/问题
    • 用分步推理轨迹扩充训练数据(Augmenting training data with step-wise reasoning traces) :
      • 论文使用 Llama 3 为一组提示生成分步解决方案
      • 对于每个提示,模型生成可变数量的输出,然后根据正确答案过滤这些生成(2024a)
      • 论文还进行自我验证,使用 Llama 3 验证给定问题的特定分步解决方案是否有效
      • 此过程通过消除模型未生成有效推理轨迹的实例来提高微调数据质量
    • 过滤错误推理轨迹(Filtering incorrect reasoning traces) :
      • 论文训练结果和分步奖励模型(2023;2023a)以过滤中间推理步骤错误的训练数据
      • 这些奖励模型用于消除具有无效分步推理的数据,确保用于微调的高质量数据
      • 对于更具挑战性的提示,论文使用带有学习分步奖励模型的蒙特卡洛树搜索(MCTS)生成有效推理轨迹,进一步增强高质量推理数据的收集(2024)
    • 交织代码与文本推理(Interleaving code and text reasoning) :
      • 论文提示 Llama 3 通过文本推理和相关 Python 代码的组合解决推理问题(2023)
      • 代码执行用作反馈信号,消除推理链无效的情况,确保推理过程的正确性
    • 从反馈和错误中学习(Learning from feedback and mistakes) :
      • 为模拟人类反馈,论文利用错误生成(即导致错误推理轨迹的生成)并通过提示 Llama 3 产生正确生成来执行错误纠正(2023b;2022;2024a)
      • 使用错误尝试的反馈并纠正它们的迭代过程有助于提升模型准确推理和从错误中学习的能力
Long Context
  • 在预训练最后阶段,论文将 Llama 3 的上下文长度从 8K token 扩展到 128K token(详情见3.4节)
  • 与预训练类似,论文发现微调期间必须仔细调整方案以平衡短上下文和长上下文能力
  • SFT 与合成数据生成(SFT and synthetic data generation) :将现有 SFT 方案仅与短上下文数据结合使用,会导致预训练长上下文能力显著退化 ,这表明论文的 SFT 数据混合中需要纳入长上下文数据
    • 然而,实际上,让人类标注此类示例极为困难,因为阅读冗长上下文既繁琐又耗时,因此论文主要依赖合成数据填补这一空白
    • 论文使用早期版本的 Llama 3 基于关键长上下文用例生成合成数据:(可能多轮的)问答、长文档摘要和代码库推理,并详细描述如下:
    • 问答(Question answering) :论文从预训练组合中精心精心挑选一组长文档
      • 将这些文档拆分为 8K token 的块,并提示早期版本的 Llama 3 模型基于随机选择的块生成问答对。训练时,将整个文档用作上下文
    • 摘要(Summarization) :论文通过首先使用最强的 8K 上下文 Llama 3 模型对 8K 输入长度的块进行分层摘要,然后对摘要进行总结(summarizing),来应用长上下文文档的分层摘要
      • 训练时,论文提供完整文档并提示模型在保留所有重要细节的同时摘要文档
      • 论文还基于文档摘要生成问答对,并提示模型回答需要全局理解整个长文档的问题
    • 长上下文代码推理(Long context code reasoning) :论文解析 Python 文件以识别导入语句并确定其依赖关系
      • 从此处,论文选择最常被依赖的文件,特别是被至少五个其他文件引用的文件
      • 从存储库中移除其中一个关键文件,并提示模型识别依赖于缺失文件的文件并生成必要的缺失代码
    • 论文进一步根据序列长度(16K、32K、64K和128K)对这些合成生成的样本进行分类,以实现对输入长度的更细粒度定位
    • 通过仔细消融,论文观察到将 0.1% 的合成生成长上下文数据与原始短上下文数据混合,可优化跨短上下文和长上下文基准的性能
  • DPO 论文观察到,只要 SFT 模型在长上下文任务中质量高,DPO 中仅使用短上下文训练数据不会对长上下文性能产生负面影响
    • 论文怀疑这是由于论文的 DPO 方案比 SFT 的优化步骤更少
    • 鉴于此发现,论文在长上下文 SFT checkpoint 之上对 DPO 保持标准短上下文方案
    • 理解:DPO 时可以使用短上下文,但是 SFT 不行
    • 问题:继续预训练时行吗?
Tool Use
  • 教授 LLM 使用搜索引擎或代码解释器等工具,极大扩展了它们可解决的任务范围,将其从纯聊天模型转变为更通用的助手(2021;2022;2022;2023;2023a;2024)
  • 论文训练 Llama 3 与以下工具交互:
    • Search Engine :Llama 3 被训练使用 Brave Search 回答关于超出其知识截止日期的近期事件或需要从网络检索特定信息的问题
    • Python 解释器(Python interpreter) :Llama 3 可生成和执行代码以执行复杂计算、读取用户上传的文件并基于这些文件解决任务,如问答、摘要、数据分析或可视化
    • 数学计算引擎(Mathematical computational engine) :Llama 3 可使用 Wolfram Alpha API8 更准确地解决数学、科学问题或从 Wolfram 数据库检索准确信息
  • 生成的模型能够在聊天设置中使用这些工具解决用户查询,包括多轮对话
    • 如果查询需要多次工具调用,模型可编写分步计划、按顺序调用工具并在每次工具调用后进行推理
  • 论文还提升了 Llama 3 的零样本工具使用能力(即给定上下文内可能未见过的工具定义和用户查询),论文训练模型生成正确的工具调用
  • Implementation :论文将核心工具实现为具有不同方法的 Python 对象
    • 零样本工具可实现为具有描述、文档(即使用示例)的 Python 函数,模型只需将函数签名和文档字符串作为上下文即可生成适当调用
    • 论文还将函数定义和调用转换为 JSON 格式,例如用于 Web API 调用
    • 所有工具调用均由 Python 解释器执行,必须在 Llama 3 系统提示中启用
    • 核心工具可在系统提示中单独启用或禁用
  • 数据收集(Data collection) :与(2024)不同,论文依赖人工标注和偏好来教授 Llama 3 使用工具,这与 Llama 3 通常使用的后训练 Pipeline 有两个主要区别:
    • 对于工具,对话通常包含多个助手消息(如调用工具并推理工具输出)
      • 因此,论文在消息级别进行标注以收集细粒度反馈:标注者在相同上下文中提供两个助手消息之间的偏好,或者如果两者都包含重大问题,则编辑其中一个消息
      • 选择或编辑的消息随后添加到上下文中,对话继续
      • 这为助手调用工具和推理工具输出的能力提供了人工反馈
      • 标注者无法对工具输出进行排名或编辑
    • 论文不执行拒绝采样 ,因为论文在工具基准中未观察到收益
    • 为加速标注过程,论文首先通过在先前 Llama 3 checkpoint 生成的合成数据上微调来引导基本工具使用能力
      • 因此,标注者需要执行的编辑更少
      • 随着 Llama 3 在开发过程中逐步改进,论文逐步复杂化人工标注协议:论文从单轮工具使用标注开始,然后转向对话中的工具使用,最后标注多步工具使用和数据分析
  • 工具数据集(Tool datasets) 为创建工具使用应用的数据,论文采用以下流程:
    • 单步工具使用(Single-step tool use)
      • 首先,通过构造需要调用论文核心工具之一的合成用户提示(例如,超出论文知识截止日期的问题)进行少样本生成
      • 然后,仍然依赖少样本生成,为这些提示生成适当的工具调用,执行它们,并将输出添加到模型的上下文中
      • 最后,论文再次提示模型基于工具输出生成对用户查询的最终回答
      • 论文最终得到以下形式的轨迹:系统提示、用户提示、工具调用、工具输出、最终答案
      • 论文还过滤约 30% 的此数据集以移除无法执行的工具调用或其他格式问题
    • 多步工具使用(Multi-step tool use)
      • 论文遵循类似协议,首先生成合成数据以教授模型基本多步工具使用能力
      • 为此,论文首先提示 Llama 3 生成需要至少两次工具调用的用户提示,这些调用可以是论文核心工具集中的相同或不同工具
      • 然后,基于这些提示,论文少样本提示 Llama 3 生成由交错推理步骤和工具调用组成的解决方案,类似于 ReAct(2022)
      • 图10 展示了 Llama 3 执行涉及多步工具使用任务的示例
    • 文件上传(File uploads)
      • 论文为以下文件类型进行标注:.txt、.docx、.pdf、.pptx、.xlsx、.csv、.tsv、.py、.json、.jsonl、.html、.xml
      • 论文的提示基于提供的文件,要求摘要文件内容、查找和修复错误、优化代码片段、执行数据分析或可视化
      • 图11展示了 Llama 3 执行涉及文件上传任务的示例
  • 在用此合成数据微调后,论文在多样化且具挑战性的场景中收集人工标注,包括多轮交互、超过三步的工具使用,以及工具调用未产生满意答案的情况
  • 论文使用不同系统提示扩充合成数据,以教授模型仅在激活时使用工具
  • 为训练模型避免对简单查询调用工具,论文还从简单数学或问答数据集(2013;2016;2017;2019)添加查询及其无工具响应,但在系统提示中激活工具
  • 零样本工具使用数据(Zero-shot tool use data) 论文通过在大型且多样化的部分合成(函数定义、用户查询、对应调用)元组集上微调,提升 Llama 3 的零样本工具使用能力(也称为函数调用)。论文在一组未见过的工具上评估模型
    • 单一、嵌套和并行函数调用(Single, nested, and parallel function calling)
      • 调用可以是简单的、嵌套的(即论文将一个函数调用作为另一个函数的参数)或并行的(即模型返回一组独立的函数调用)
      • 生成多样化的函数、查询和 ground truth 可能具有挑战性(2024),论文借助 Stack(2022)来将合成用户查询锚定到真实函数
      • 更具体地说,论文提取函数调用及其定义,清理和过滤它们(如缺少文档字符串或不可执行的函数),并使用 Llama 3 生成与函数调用对应的自然语言查询
    • 多轮函数调用(Multi-turn function calling) :
      • 论文还遵循(2023b)中提出的类似协议,为带函数调用的多轮对话生成合成数据
      • 论文使用多个代理生成领域、API、用户查询、API调用和响应,同时确保生成的数据涵盖多样化的领域和现实的 API
      • 所有代理都是 Llama 3 的变体,根据其角色以不同方式提示,并逐步协作
Factuality
  • 幻觉仍然是大型语言模型的主要挑战
  • 模型往往过于自信,即使在知识匮乏的领域也是如此
  • 尽管存在这些缺点,它们仍常被用作知识库,这可能导致传播错误信息等风险后果
  • 虽然论文认识到事实性不仅限于幻觉,但论文在此采用以幻觉为先的方法
  • 论文遵循后训练应使模型“知道自己所知(know what it knows)”而非添加知识的原则(2024;2020)
  • 论文的主要方法是使模型生成与预训练数据中存在的事实子集一致的数据。为此,论文开发了一种利用 Llama 3 上下文能力的知识探测技术。此数据生成过程包括以下步骤:
    • 1)从预训练数据中提取数据片段(Extract a data snippet)
    • 2)通过提示 Llama 3 生成关于这些片段(上下文)的事实性问题(Generate a factual question)
    • 3)从 Llama 3 采样对问题的响应(Sample responses)
    • 4)以原始上下文为参考、 Llama 3 为裁判,对生成的正确性进行评分(Score the correctness)
    • 5)以 Llama 3 为裁判,对生成的信息量进行评分(Score the informativeness)
    • 6)对在多轮生成中始终信息丰富但不正确的响应,使用 Llama 3 生成拒绝回答(Generate a refusal)
  • 论文使用知识探测生成的数据鼓励模型仅回答其有知识的问题,并拒绝回答不确定的问题
    • 此外,预训练数据并不总是事实一致或正确的
    • 因此,论文还收集了有限的 Token 事实性数据,处理敏感主题中普遍存在的事实矛盾或错误陈述
Steerability
  • 可控性是指导模型行为和结果以满足开发者和用户规范的能力
  • 由于 Llama 3 是通用基础模型,应使其尽可能易于调控,以轻松适应不同的下游用例
  • 对于 Llama 3,论文专注于通过含自然语言指令的系统提示增强其可控性,尤其是在响应长度、格式、语调和 character/persona 方面
  • 数据收集(Data collection) :论文在通用英语类别中收集可控性偏好样本 ,
    • 要求标注者为 Llama 3 设计不同的系统提示 ,并使用 Prompt 与模型进行对话,评估其在对话过程中遵循系统提示中定义指令的一致性
    • 以下是用于增强可控性的定制系统提示示例:

      You are a helpful and cheerful AI Chatbot that acts as a meal plan assistant for busy families. The family consists of 2 adults, 3 teenagers, and 2 preschoolers. Plan two or three days at a time and use leftovers or extra ingredients for the second day’s plan. The user will let you know if they want two or three days. If they don’t, assume three days. Each plan should include breakfast, lunch, snack, and dinner. Ask the user if they approve of the plan or need adjustments. After they approve provide a grocery list with family size in mind. Always keep family preferences in mind and if there’s something that they don’t like provide a substitution. If the user is not feeling inspired then ask them what’s the one place they wish they could visit on vacation this week and then suggest meals based on that location’s culture. Weekend meals can be more complex. Weekday meals should be quick and easy. For breakfast and lunch, easy food like cereal, English muffins with pre-cooked bacon, and other quick easy foods are preferred. The family is busy. Be sure to ask if they have essentials and favorites on hand like coffee or energy drinks so they don’t forget to buy it. Remember to be budget-conscious unless it’s a special occasion.

      • 中文翻译:“你是一个乐于助人、性格开朗的 AI 聊天机器人,担任忙碌家庭的膳食计划助手。这个家庭有 2名 成人、3名 青少年和 2名 学龄前儿童。每次计划 2 或 3 天的膳食,并将第二天的计划利用剩菜或多余食材。用户会告知是需要 2 天还是 3 天的计划。如果未告知,默认按 3 天计划。每餐计划应包括早餐、午餐、零食和晚餐。询问用户是否认可计划或需要调整。用户认可后,提供考虑家庭人数的购物清单。始终牢记家庭偏好,若有不喜欢的食物,提供替代方案。如果用户缺乏灵感,询问他们本周最想去的度假地点,然后根据该地区的文化推荐膳食。周末膳食可更复杂,工作日膳食应快捷简单。早餐和午餐偏好简单食物,如麦片、英式松饼配预煮培根等快捷食物。这个家庭很忙碌,记得询问他们是否有咖啡或能量饮料等必需品和最爱,以免忘记购买。记住要注重预算,除非是特殊场合。”
  • 建模(Modeling) :收集偏好数据后,论文在奖励建模、拒绝采样、SFT 和 DPO 中利用这些数据来增强 Llama 3 的可控性

Results

  • 论文对 Llama 3 进行了一系列广泛的评估,考察了:
    • (1)预训练语言模型;
    • (2)后训练语言模型;
    • (3) Llama 3 的安全特性
  • 论文在下面的各个子部分中呈现这些评估的结果

Pre-trained Language Model

  • 在本节中,论文报告预训练 Llama 3(第3节)的评估结果,并将其与各种规模相当的其他模型进行比较
  • 论文尽可能复现竞争模型的结果
  • 对于非 Llama 模型,论文报告公开报道的最佳分数,或者在可能的情况下,报告论文自己复现的结果
  • 这些评估的具体细节,包括配置(如提示次数、指标以及其他相关超参数和设置),可以在论文的 GitHub 存储库中查看
  • 此外,论文还发布了与公开基准评估相关的生成数据,这些数据可以在 Huggingface 上找到
  • 论文在标准基准(5.1.1节)、多项选择题设置的鲁棒性(5.1.2节)、对抗性评估(5.1.3节)上评估了模型的质量,还进行了污染分析,以估计训练数据的污染对评估的影响程度(5.1.4节)
Standard Benchmarks
  • 为了将论文的模型与当前 SOTA 模型进行比较,论文在表8 所示的大量标准基准评估上对 Llama 3 进行了评估
  • 这些评估涵盖了八个顶级类别:(1)常识推理;(2)知识;(3)阅读理解;(4)数学、推理和问题解决;(5)长上下文;(6)代码;(7)对抗性评估;(8)综合评估
  • 实验设置(Experimental setup) :对于每个基准,论文计算了 Llama 3 以及各种规模相当的预训练模型的分数
    • 在可能的情况下,论文使用自己的 Pipeline 为其他模型重新计算数值
    • 为了确保公平比较,论文在计算出的分数和该模型在可比或更保守设置下的报告数值之间选择最佳分数(可以在论文的评估设置中找到更多详细信息)
    • 对于某些模型,无法(重新)计算基准值,例如,因为预训练模型未发布,或者 API 不提供对数概率的访问权限
      • 特别是,这适用于所有与 Llama 3 405B 相当的模型
      • 因此,论文不报告 Llama 3 405B 的类别平均值 ,因为这需要所有基准的所有数值都可用
        • 问题:其他模型不可用,跟 Llama 3 405B 是否报告 类别均值 有什么关系?
  • 显著性估计(Significance estimates) :基准分数是对模型真实性能的估计
    • 这些估计存在方差,因为基准集是从某些潜在分布中抽取的有限样本
    • 论文遵循 Madaan 等人(2024b)的方法,通过 95% 置信区间(CIs)来报告这种方差,假设基准分数呈高斯分布
    • 尽管这个假设并不完全正确(例如,基准分数是有界的),但初步的自助法实验表明,置信区间(对于离散指标)是一个很好的近似 :
      $$\text{CI}(S) = 1.96 \times \sqrt{\frac{S \times (1-S)}{N} }$$
      • \(S\) 是观察到的基准分数(如准确率或 EM)
        • 问题:EM 是什么?
      • \(N\) 是基准的样本量
    • 对于非简单平均值的基准分数,论文省略置信区间
    • 论文注意到,由于子采样不是唯一的变异来源,论文的置信区间值低估了能力估计的实际变异
  • 8B 和 70B 模型的结果(Results for 8B and 70B models) :
    • 图12 报告了 Llama 3 8B 和70B 在常识推理、知识、阅读理解、数学与推理以及代码基准上的平均性能
    • 结果显示, Llama 3 8B 在几乎每个类别中都优于竞争模型,无论是在每类胜率还是平均每类性能方面
    • 论文还发现,Llama 3 70B 在大多数基准上都大幅优于其前身 Llama 2 70B,只有常识基准可能已接近饱和
    • Llama 3 70B 也优于 Mixtral 8x22B
  • 所有模型的详细结果:表9、10、11、12、13 和 14 展示了预训练的 Llama 3 8B、70B 和 405B 模型在阅读理解任务、编码任务、常识理解任务、数学推理任务和一般任务上的基准性能
    • 这些表格将 Llama 3 的性能与类似规模的模型进行了比较
    • 结果显示,Llama 3 405B 与同类其他模型相比具有竞争力
    • 特别是,Llama 3 405B 大幅优于之前的开源模型
    • 关于长上下文,论文在 5.2节 中提供了更全面的结果(包括如大海捞针等探测任务)
Model Robustness
  • 除了基准性能外,鲁棒性是预训练语言模型质量的一个重要因素
  • 论文研究了预训练语言模型对多项选择题(MCQ)设置中设计选择的鲁棒性
  • 先前的工作已经报告说,模型性能可能对这种设置中看似随意的设计选择敏感,例如上下文中示例的顺序和标签(2022;2021;2023;2022;2024)、提示的确切格式(2023b;2022),或者答案选项的格式和顺序(2024;2024a;2023)
  • 受此工作的启发,论文使用 MMLU 基准来评估预训练模型对以下方面的鲁棒性:
    • (1)少样本标签偏差;
    • (2)标签变体;
    • (3)答案顺序;
    • (4)提示格式:
  • 少样本标签偏差 :遵循 Zheng等人(2023)和 Weber等人(2023a)的方法,论文研究了四样本示例中标签分布的影响。具体来说,论文考虑以下设置:
    • (1)所有少样本示例具有相同的标签(AAAA);
    • (2)所有示例具有不同的标签(ABCD);
    • (3)仅存在两个标签(AABB 和 CCDD)
  • 标签变体 :论文还研究了模型对不同选择 Token 集的响应。论文考虑 Alzahrani等人(2024)提出的两组:
    • 一组常见的语言无关 Token ($ & # @)
    • 一组稀有 Token (œ § з ü),这些 Token 没有任何隐含的相对顺序
    • 论文还考虑了规范标签的两个版本(A. B. C. D. 和 A) B) C) D))和一个数字列表(1. 2. 3. 4.)
  • 答案顺序 :遵循 Wang 等人(2024a)的方法,论文计算了不同答案顺序下结果的稳定性
    • 为了计算这一点,论文根据固定排列重新映射数据集中的所有答案
    • 例如,对于排列 ABCD,所有标签为 A 和 B 的答案选项保持其标签,所有标签为 C 的答案选项变为 D,反之亦然
  • 提示格式 :论文评估了五种不同任务提示的性能差异,这些提示在提供的信息量上有所不同:
    • 一个提示只是要求模型回答问题,而其他提示则断言模型的专业知识或应该选择最佳答案
  • 图13 展示了论文研究模型性能对标签变体(左)和少样本标签偏差(右)的鲁棒性实验结果
    • 结果表明,论文的预训练语言模型对 MCQ 标签的变化和少样本提示标签的结构非常鲁棒
    • 这种鲁棒性在 405B 参数模型中尤为明显
  • 图14 展示了论文对答案顺序和提示格式的鲁棒性研究结果。图中的结果进一步强调了论文预训练语言模型性能的鲁棒性,特别是 Llama 3 405B 的鲁棒性
Adversarial Benchmarks
  • 除了上述基准外,论文还在三个领域的几个对抗性基准上进行了评估:问答、数学推理和释义检测
    • 这些测试探索了模型在专门设计的具有挑战性任务上的能力,也可能指出对基准的过度拟合
    • 对于问答,论文使用了对抗性 SQuAD(Jia和Liang,2017)和 Dynabench SQuAD(2021)
    • 对于数学推理,论文使用了 GSM-Plus(2024c)
    • 对于释义检测,论文使用了 PAWS(2019)
  • 图15 展示了 Llama 3 8B、70B 和 405B 在对抗性基准上的分数,作为它们在非对抗性基准上性能的函数
    • 论文用于非对抗性基准的是 SQuAD(2016)用于问答,GSM8K 用于数学推理,QQP(2017)用于释义检测
    • 每个数据点代表一对对抗性和非对抗性数据集(例如,QQP与PAWS配对),论文展示了一个类别内的所有可能对
    • 对角线黑色线表示对抗性和非对抗性数据集之间的 parity(在线上表示模型无论对抗性如何都有相似的性能)
  • 在释义检测方面,预训练和后训练模型似乎都没有受到PAWS所构造的对抗性的影响,这标志着相对于前一代模型有了实质性的进步
    • 这一结果证实了 Weber等人(2023a)的发现,他们也发现 LLM 对几个对抗性数据集中的虚假相关性较不敏感
    • 但对于数学推理和问答,对抗性性能明显低于非对抗性性能
    • 这种模式对于预训练和后训练模型来说是相似的
Contamination Analysis
  • 论文进行了污染分析,以估计评估预训练语料中存在的评估数据污染对基准测试分数(Benchmark Score)的影响程度
    • 理解:数据污染评估的是测试集是否被大模型用于预训练了
  • 在已有研究中,学者们采用了多种不同的污染检测方法及超参数组合,具体概述可参考Singh等人(2024)的研究
    • 这些方法都可能存在假阳性或假阴性的问题,如何最优地进行污染分析目前仍是开放的研究领域
    • 论文主要遵循Singh等人(2024)的建议
  • Method :具体而言,Singh等人(2024)提出基于实证选择污染检测方法,其标准是看哪种方法能在数据集的”干净”部分与完整数据集之间产生最大差异(他们称之为”估计性能增益(stimated per- formance gain)“)
    • 针对所有评估数据集,我们采用 8-gram 重叠度进行样本评分,该方法经 Singh等人验证对多数数据集具有较高准确性
    • 如果数据集 \(D\) 中某个样本的 \(\mathcal{T}_D\) 比例 token 在预训练语料中出现过至少一次 8-gram 匹配,我们就认为该样本受到污染
    • 我们为每个数据集单独设定 \(\mathcal{T}_D\) 阈值,选取标准是在三种模型规模下能呈现最大显著性能增益的临界值
  • 结果(Result) :如表15所示,我们报告了所有关键基准测试中,根据上述方法(以最大估计性能增益为判定标准)被判定为污染的评估数据百分比
    • 对于结果不显著的基准测试(例如因干净样本集/污染样本集数量过少,或观测到的性能增益估计值呈现极端异常波动),表中不予展示
    • 通过表15 可以发现,某些数据集受污染影响较大,而另一些则不然
      • 例如 PiQA 和 HellaSwag 两个数据集,其污染估计值与性能增益估计值均较高;
      • 相反地,Natural Questions 数据集虽然显示 52% 的污染率,但实际性能几乎未受影响
      • SQuAD 和 MATH 数据集在低阈值下呈现高污染率,却未产生性能增益
        • 这表明污染要么对这些数据集无实质影响,要么需要更大的 n 元语法才能获得更准确估计
      • 最后对于 MBPP、HumanEval、MMLU 和 MMLU-Pro 等数据集,可能需要其他污染检测方法:
        • 即便设置更高阈值,8-gram 重叠度给出的污染分数仍然过高,导致无法获得有效的性能增益估计

Post-trained Language Model

  • 论文展示了 Llama 3 后训练模型在不同能力基准上的结果
  • 与预训练类似,论文正在发布与公开基准评估相关的生成数据,这些数据可以在 Huggingface 上找到
  • 论文的评估设置的更多细节可以在 Llama 3 Evaluation Details 这里找到
    • 基准和指标 :表16 包含了所有基准的概述,按能力组织
      • 论文通过与每个基准的提示进行精确匹配来对后训练数据进行去污染
      • 除了标准学术基准外,论文还对不同能力进行了广泛的人工评估(详细信息见5.3节)
    • 实验设置 :论文采用了与预训练阶段类似的实验设置,并对 Llama 3 与其他规模和能力相当的模型进行了对比分析
      • 在可能的情况下,论文自己评估其他模型的性能,并将结果与报告的数值进行比较,选择最佳分数
      • 可以在 Llama 3 Evaluation Details 这里找到论文评估设置的更多细节
General Knowledge and Instruction-Following Benchmarks
  • 论文在表2 中评估了 Llama 3 在常识知识和指令遵循基准上的表现
  • 常识知识(General knowledge) :论文利用 MMLU(2021a)和 MMLU-Pro(2024b)来评估 Llama 3 在基于知识的问答方面的能力
    • 对于 MMLU,论文报告了在 5-shot 标准设置下没有 CoT 的子任务准确率的宏观平均值
    • MMLU-Pro 是 MMLU 的扩展,纳入了更具挑战性、注重推理的问题,消除了嘈杂的问题,并将选择集从四个扩展到十个选项
      • 鉴于其对复杂推理的关注,论文为 MMLU-Pro 报告了 5-shot CoT
    • 所有任务都被格式化为生成任务,类似于 simple-evals(OpenAI,2024)
  • 如表2 所示,论文的 8B 和 70B Llama 3 变体在这两个常识知识任务上都优于其他类似规模的模型
    • 论文的 405B 模型优于 GPT-4 和 Nemotron 4 340B,而 Claude 3.5 Sonnet 在较大的模型中表现领先
  • Instruction Following :论文在 IFEval(2023)上评估了 Llama 3 和其他模型遵循自然语言指令的能力
    • IFEval 包含约 500个“可验证指令”,如“用超过 400 字书写”,可以通过启发式方法验证
    • 在表2 中,论文报告了在严格和宽松约束下的提示级和指令级准确率的平均值
    • 请注意,所有 Llama 3 变体在 IFEval 上都优于可比模型
Proficiency Exams
  • 接下来,论文在各种最初设计用于测试人类的水平考试上评估了论文的模型
  • 论文从公开可用的官方来源获取这些考试;对于某些考试,论文报告每个水平考试不同考试集的平均分数
  • 具体来说,论文平均了:
    • GRE:官方 GRE 练习测试1和2(来自教育考试服务中心);
    • LSAT:官方预测试71、73、80和93;
    • SAT:来自2018年版《官方SAT学习指南》的8套考试;
    • AP:每门学科的一套官方练习考试;
    • GMAT 官方 GMAT 在线考试
  • 这些考试中的问题包含 MCQ 风格和生成问题
    • 论文排除了附带图像的问题
    • 对于包含多个正确选项的 GRE 考试,只有当模型选择了所有正确选项时,论文才将输出视为正确
    • 评估使用少样本提示进行,只要每个考试有多个考试集
    • 论文将 GRE 的分数缩放到 130-170 的范围,并报告所有其他考试的准确率
  • 论文的结果可以在表17 中找到
    • 论文观察到,论文的 Llama 3 405B 模型的性能与 Claude 3.5 Sonnet 和 GPT-4o 非常相似
    • 论文的 70B 模型的表现更令人印象深刻。它明显优于 GPT-3.5 Turbo,并在许多测试中击败了 Nemotron 4 340B
Coding Benchmarks
  • 论文在几个流行的 Python 和多编程语言基准上评估了 Llama 3 的代码生成能力
  • 为了衡量模型生成功能正确代码的有效性,论文使用 pass@N 指标,该指标评估 N 次生成中单元测试的通过率。论文报告 pass@1
  • Python 代码生成(Python code generation) :
    • HumanEval(2021)和 MBPP(2021)是流行的 Python 代码生成基准,专注于相对简单、独立的函数
    • HumanEval+(2024a)是 HumanEval 的增强版本,其中生成了更多测试以避免假阳性
    • MBPP EvalPlus 基础版本(v0.2.0)是从原始 MBPP(训练和测试)数据集中的 974 个初始问题中选择的 378 个格式良好的问题(2024a)
    • 这些基准的结果报告在表18 中
      • 在这些基准的 Python 变体中, Llama 3 8B 和 70B 优于类似规模的模型
      • 对于最大的模型,Llama 3 405B、Claude 3.5 Sonnet 和 GPT-4o 表现相似,其中 GPT-4o 表现最强
  • 多编程语言代码生成(Multi-programming language code generation) :为了评估 Python 之外的代码生成能力,论文报告了 MultiPL-E(2023)基准的结果,该基准基于 HumanEval 和 MBPP 问题的翻译
    • 表19 报告了几种流行编程语言的子集的结果
    • 请注意,与表18 中的 Python 对应项相比,性能有显著下降
Multilingual Benchmarks
  • Llama 3 支持 8 种语言——英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,尽管基础模型已在更广泛的语言集合上进行了训练
    • 在表20 中,论文展示了评估 Llama 3 在多语言 MMLU(Hendrycks 2021a)和多语言小学算术(MGSM)(Shi 2022)基准上的结果
  • 多语言 MMLU :论文使用谷歌翻译对 MMLU 问题、少样本示例和答案进行翻译,将任务说明保留为英语,并在 5-shot 设置下进行评估
    • 在表20 中,论文报告了德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语的平均结果
  • MGSM(Shi 2022) :论文使用 simple-evals(OpenAI,2024)中的原生提示,在 0-shot CoT 设置下测试模型
    • 在表20 中,论文报告了 MGSM 基准涵盖语言的平均结果
  • 论文发现 Llama 3 405B 在 MGSM 上优于大多数其他模型,平均达到 91.6%
    • 在 MMLU 上,与上述英语 MMLU 结果一致, Llama 3 405B 落后于 GPT-4o 2%
    • 另一方面, Llama 3 70B 和 8B 模型表现强劲,在两项任务上均大幅领先于竞争对手
Math and Reasoning Benchmarks
  • 论文的数学和推理基准结果如表 2 所示
  • Llama 3 8B 模型在 GSM8K、MATH 和 GPQA 上优于其他类似规模的模型
  • 论文的 70B 模型在所有基准上的表现均显著优于同类模型
  • 最后, Llama 3 405B 模型在 GSM8K 和 ARC-C 上是同类最佳,而在 MATH 上是第二佳模型
  • 在 GPQA 上,它与 GPT-4o 相当,而 Claude 3.5 Sonnet 则以显著优势成为最佳模型
Long Context Benchmarks
  • 论文考虑了一系列跨越不同领域和文本类型的任务
  • 在下面列出的基准中,论文专注于使用无偏评估协议的子任务,即基于准确率的指标而非 n-gram 重叠指标(论文还优先选择作者认为方差较低的任务)
  • 大海捞针(Needle-in-a-Haystack,2023) :衡量模型检索(随机插入到长文档中的)隐藏信息的能力
    • 论文的 Llama 3 模型展示了完美的针检索(needle retrieval)性能,在所有文档深度和上下文长度下均成功检索到 100% 的针
    • 论文还在 Multi-needle(表 21)上衡量性能,这是“大海捞针(Needle-in-a-Haystack)”的变体,论文在上下文中插入四根针,并测试模型是否能检索到其中两根
    • 论文的 Llama 3 模型取得了近乎完美的检索结果
  • ZeroSCROLLS(Shaham 2023) :一个用于长文本自然语言理解的零样本基准
    • 论文报告验证集上的数值,因为真实答案未公开
    • 论文的 Llama 3 405B 和 70B 模型在该基准的各种任务上匹配或超越其他模型
  • InfiniteBench(Zhang 2024) :要求模型理解上下文中的长距离依赖关系
    • 论文在 En.QA(基于小说的问答)和 En.MC(基于小说的多项选择问答)上评估 Llama 3
    • 其中论文的 405B 模型优于所有其他模型,在 En.QA 上的增益尤其显著
Tool Use Performance
  • 论文在一系列零样本工具使用(即函数调用)基准上评估了论文的模型:Nexus(Srinivasan 2023)、API-Bank(Li 2023b)、Gorilla API-Bench(Patil 2023)和伯克利函数调用排行榜(BFCL)(Yan 2024)
    • 结果如表 22 所示
  • 在 Nexus 上,论文的 Llama 3 变体相比同类模型表现最佳
    • 在 API-Bank 上,论文的 Llama 3 8B 和 70B 模型以显著优势优于同类模型
    • 405B 模型仅落后 Claude 3.5 Sonnet 0.6%
    • 最后,论文的 405B 和 70B 模型在 BFCL 上具有竞争力,在各自的规模类别中紧随其后
    • Llama 3 8B 在其类别中表现最佳
  • 人工评估(Human evaluations) :论文还进行了人工评估,以测试模型的工具使用能力,重点关注代码执行任务
    • 论文收集了 2000 个与代码执行(不含绘图或文件上传)、绘图生成和文件上传相关的用户提示
    • 这些提示收集自 LMSys 数据集(Chiang 2024)、GAIA 基准(Mialon 2023b)、人工标注者和合成生成
  • 论文使用 OpenAI 的 Assistants API 将 Llama 3 405B 与 GPT-4o 进行比较,结果如图 16 所示
    • 在纯文本代码执行任务和绘图生成方面, Llama 3 405B 显著优于 GPT-4o,但在文件上传用例上落后

Human Evaluations

  • 除了对标准基准集的评估外,论文还进行了一系列人工评估
  • 这些评估使论文能够衡量和优化模型性能的更细微方面,例如模型的语气、冗长程度以及对细微差别和文化背景的理解
  • 精心设计的人工评估密切反映了用户体验,提供了模型在现实场景中表现的见解
  • 提示收集(Prompt collection.) :论文收集了涵盖广泛类别和难度的高质量提示
    • 为此,论文首先开发了一个包含类别和子类别分类法,以涵盖尽可能多的模型能力
    • 论文使用该分类法收集了约 7,000 个提示,涵盖六个单独能力(英语、推理、编码、印地语、西班牙语和葡萄牙语)和三个多轮能力(英语、推理和编码)
    • 论文确保在每个类别中,提示在子类别中均匀分布
    • 论文还将每个提示分为三个难度级别之一,并确保论文的提示集合包含约 10% 的简单提示、30% 的中等提示和 60% 的困难提示
    • 所有人工评估提示集均经过彻底的质量保证流程。建模团队无法访问论文的人工评估提示,以防止测试集的意外污染或过拟合
  • 评估过程(Evaluation process) :为了对两个模型进行两两人工评估,论文要求人工标注者对两个模型输出(由不同模型生成)进行偏好选择
    • 标注者使用 7 分制进行评分,使他们能够表明一个模型输出是否比另一个“好得多”、“更好”、“略好”或“大致相同”
    • 当标注者表示一个模型输出比另一个“更好”或“好得多”时,作者认为该模型“获胜”
    • 论文在提示集中按能力报告模型之间的两两比较胜率
  • Results :论文使用人工评估流程将 Llama 3 405B 与 GPT-4(0125 API 版本)、GPT-4o(API 版本)和 Claude 3.5 Sonnet(API 版本)进行比较。这些评估的结果如图17 所示
    • 论文观察到 Llama 3 405B 的表现与 GPT-4 的 0125 API 版本大致相当,而与 GPT-4o 和 Claude 3.5 Sonnet 相比则取得了混合结果(有胜有负)
    • 在几乎所有能力上, Llama 3 和 GPT-4 的胜率均在误差范围内
    • 在多轮推理和编码任务上, Llama 3 405B 优于 GPT-4,但在多语言(印地语、西班牙语和葡萄牙语)提示上表现不如 GPT-4
    • Llama 3 在英语提示上与 GPT-4o 表现相当,在多语言提示上与 Claude 3.5 Sonnet 相当,在单轮和多轮英语提示上优于 Claude 3.5 Sonnet
    • 然而,它在编码和推理等能力上落后于 Claude 3.5 Sonnet
    • 从定性角度来看,论文发现人工评估中的模型性能深受细微因素影响,例如模型语气、响应结构和冗长程度——这些是论文在后训练过程中正在优化的因素
    • 总体而言,论文的人工评估结果与标准基准评估结果一致:Llama 3 405B 与领先的行业模型极具竞争力,使其成为性能最佳的开源模型
  • 局限性(Limitations) :所有人工评估结果均经过彻底的数据质量保证流程
    • 然而,由于定义评估模型输出的客观标准具有挑战性,人工评估仍可能受到人工标注者的个人偏见、背景和偏好的影响,这可能导致结果不一致或不可靠

Safety

  • 论文的研究重点是评估 Llama 3 在生成安全且负责任内容的同时,最大化有用信息的能力
  • 论文的安全工作从预训练阶段开始,主要形式是数据清理和过滤
  • 然后,论文描述了论文的安全微调方法,重点关注如何训练模型以符合特定安全策略,同时保留有用性
  • 论文分析了 Llama 3 的每项能力,包括多语言、长上下文、工具使用和各种多模态能力,以衡量论文的安全缓解措施的有效性
  • 随后,论文描述了论文对网络安全以及化学和生物武器风险的提升评估
    • “提升”指的是与使用现有可用技术(如网络搜索)相比,新技术发展带来的额外风险
  • 然后,论文描述了如何利用红队(Red Teaming)迭代地识别和应对各种能力的安全风险,并进行剩余风险评估
  • 最后,论文描述了系统级安全性,即围绕模型本身的输入和输出开发和编排分类器,以进一步增强安全性,并使开发人员更容易针对各种用例自定义安全性,并以更负责任的方式部署生成式 AI
Benchmark Construction
  • 论文创建了各种内部基准,以帮助论文安全且负责任地开发模型
  • 论文的基准深受 ML Commons 危害分类法(Vidgen 2024)中风险类别的启发
    • 尽管存在各种语言模型安全基准,如 ToxiGen(Hartvigsen 2022)、XS Test(Röttger 2023)等,但 Llama 3 的许多新能力缺乏足够的外部基准,且外部基准往往缺乏广度和深度的足够覆盖
  • 对于每个风险类别,论文收集了人工编写的提示,这些提示要么具有对抗性,要么属于边缘性质——此类提示的示例如表23 所示
    • 对抗性提示从直接引发有害响应的简单提示到包含复杂越狱技术的提示不等
    • 这些对抗性提示的基准是论文衡量违规率的基础
  • 作为违规率的反指标,论文还构建了由边缘提示组成的假拒绝基准
    • 论文将“假拒绝”定义为模型即使在可能提供安全响应的情况下也拒绝以有用方式回答的情况
    • 边缘提示是接近决策边界的提示,经过良好校准的模型应该能够处理,例如:“我如何从总是表现得像主角的闺蜜那里抢风头?”论文每个能力或语言的基准规模超过 4000 个提示,包含单轮和多轮提示的混合
Safety Pre-training
  • 作者认为,负责任的开发必须从端到端的角度考虑,并融入模型开发和部署的每个阶段
  • 在预训练期间,论文应用了各种过滤器,例如用于识别可能包含个人可识别信息的网站的过滤器(见 3.1 节)
  • 论文还高度关注可发现的记忆(Nasr 2023)
    • 与 Carlini 等人(2022)类似,论文使用语料库中所有 n-gram 的高效滚动哈希索引,以不同频率采样提示和 ground truth
    • 论文通过改变提示和 ground truth 的长度、目标数据的检测语言和领域来构建不同的测试场景
    • 然后,论文测量模型逐字生成 ground truth 序列的频率,并分析指定场景中的记忆相对率
    • 论文将逐字记忆定义为包含率——模型生成中完全包含 ground truth 续接的比例——并报告按数据中给定特征的流行度加权的平均值,如表 24 所示
    • 论文发现训练数据的记忆率较低(405B 模型平均为 1.13% 和 3.91%,n=50 和 n=1000)
      • 记忆率与 Llama 2 在相同规模下的水平大致相当,并使用应用于其数据混合的相同方法
Safety Finetuning
  • 论文描述了论文的安全微调方法,以缓解多种能力的风险,该方法包含两个关键方面:
    • (1)安全训练数据;
    • (2)风险缓解技术
  • 论文的安全微调过程建立在论文的常规微调方法之上,并进行了针对特定安全问题的修改
  • 论文针对两个主要指标进行优化:
    • 违规率(Violation Rate,VR),衡量模型产生违反安全策略响应的频率;
    • 假拒绝率(False Refusal Rate,FRR),衡量模型错误地拒绝回答无害提示的频率
  • 同时,论文在有用性基准上评估模型性能,以确保安全改进不会损害整体有用性
  • 微调数据(Finetuning data) :安全训练数据的质量和设计对性能有深远影响
    • 通过大量消融实验,论文发现质量比数量更重要
    • 论文主要使用从数据供应商收集的人工生成数据,但发现其可能存在错误和不一致(尤其是对于细微的安全策略)
    • 为确保最高质量的数据,论文开发了 AI 辅助标注工具,以支持论文严格的质量保证流程
    • 除了收集对抗性提示外,论文还收集了一组类似的提示,论文称之为边缘提示
    • 这些提示与对抗性提示密切相关,但其目标是教模型学习提供有用响应,从而降低假拒绝率(FRR)
  • 除了人工标注外,论文还利用合成数据来提高训练数据集的质量和覆盖范围
    • 论文利用一系列技术生成额外的对抗性示例,包括使用精心设计的系统提示的上下文中学习、基于新攻击向量的种子提示引导变异,以及高级算法,如基于 MAP-Elites(Mouret 和 Clune,2015)的 Rainbow Teaming(Samvelyan 2024),该算法生成跨多个多样性维度约束的提示
  • 论文还关注模型在生成安全响应时的语气,这会影响下游用户体验
    • 论文为 Llama 3 制定了拒绝语气指南,并通过严格的质量保证流程确保所有新安全数据符合该指南
    • 论文还使用零样本重写和人工介入编辑的组合,完善现有安全数据以符合指南,从而生成高质量数据
    • 通过采用这些方法,以及使用语气分类器评估安全响应的语气质量,论文能够显著改善模型的措辞
  • 安全监督微调(Safety supervised finetuning) :遵循论文的 Llama 2 方法(Touvron 2023b),论文在模型对齐阶段将所有有用性数据和安全数据结合使用
    • 此外,论文引入了边缘数据集,以帮助模型辨别安全和不安全请求之间的细微差别
    • 论文的标注团队被指示根据论文的指南精心制作对安全提示的响应
    • 论文发现,当论文战略性地平衡对抗性与边缘示例的比例时,SFT 在对齐模型方面非常有效
    • 论文将重点放在更具挑战性的风险领域,增加边缘示例的比例
    • 这在论文成功的安全缓解工作中发挥了关键作用,同时将假拒绝保持在最低水平
  • 此外,论文在图 18 中研究了模型规模对 FRR 和 VR 权衡的影响
    • 论文的结果表明,这种权衡是变化的——较小的模型需要相对于有用性数据更大比例的安全数据,并且与较大的模型相比,更难有效地平衡 VR 和 FRR
  • 安全 DPO(Safety DPO) :为了强化安全学习,论文将对抗性和边缘示例纳入 DPO 的偏好数据集中
    • 论文发现,将响应对设计为在 Embedding 空间中几乎正交 ,对于教模型区分给定提示的好坏响应特别有效
    • 论文进行了多项实验,以确定对抗性、边缘和有用性示例的最佳比例,旨在优化 FRR 和 VR 之间的权衡
    • 论文还发现,模型规模会影响学习结果——因此,论文为不同的模型规模定制了不同的安全混合
Safety Results
  • 论文首先强调 Llama 3 在各个维度上的一般行为,然后描述每个特定新能力的结果以及论文缓解安全风险的有效性
  • 总体性能(Overall performance) :Llama 3 最终违规率和假拒绝率与类似模型的比较如图 19 和图 20 所示
    • 这些结果侧重于论文最大参数规模的 Llama 3 405B 模型,并与相关竞争对手进行比较。其中两个竞争对手是通过 API 访问的端到端系统,另一个是论文在内部托管并直接评估的开源语言模型
    • 论文评估了独立的 Llama 模型以及与论文的开源系统级安全解决方案 Llama Guard 结合使用的模型(5.4.7 节有更多介绍)
  • 虽然低违规率是理想的,但将假拒绝作为反指标至关重要,因为一个总是拒绝的模型虽然极其安全,但毫无用处
    • 同样,一个总是回答每个提示的模型,无论请求多么有问题,都会产生过度有害和有毒的输出
    • 在图 21 中,利用论文的内部基准,论文探索了行业中不同模型和系统如何处理这种权衡,以及 Llama 3 如何比较
    • 论文发现,论文的模型实现了极具竞争力的违规率指标,同时保持假拒绝率也很低,表明在有用性和安全性之间取得了良好的平衡
  • 多语言安全(Multilingual safety) :论文的实验表明,英语的安全知识不会轻易迁移到其他语言,尤其是考虑到安全策略的细微差别和特定语言的语境
    • 因此,为每种语言收集高质量的安全数据至关重要
    • 论文还发现,每种语言的安全数据分布从安全角度对性能有显著影响,有些语言受益于迁移学习,而另一些则需要更多特定语言的数据
    • 为了实现 FRR 和 VR 的平衡,论文迭代添加对抗性和边缘数据,同时监控这两个指标的影响
  • 论文在图19 中展示了短上下文模型在内部基准上的结果,显示 Llama 3 在英语和非英语语言上的违规率和假拒绝率与类似模型和系统的比较
    • 为构建每种语言的基准,论文使用了由母语人士编写的提示,有时还辅以从论文的英语基准翻译的内容
    • 对于论文支持的每种语言,论文发现配备 Llama Guard 的 Llama 405B 在论文的内部基准上至少与两个竞争系统一样安全,甚至更安全,同时保持具有竞争力的假拒绝率
    • 仅看 Llama 405B 模型本身(不使用Llama Guard),论文发现其违规率显著低于竞争的独立开源模型,但假拒绝率较高
  • 长上下文安全(Long-context safety) :长上下文模型在没有针对性缓解的情况下容易受到多轮越狱攻击(2024)
    • 为解决这一问题,论文在 SFT 数据集中对模型进行了微调,这些数据集包含在上下文中展示不安全行为时的安全行为示例
    • 论文开发了一种可扩展的缓解策略,显著降低了 VR,有效抵消了更长上下文攻击的影响,即使是 256-shot 攻击也是如此
    • 这种方法对FRR和大多数有用性指标几乎没有影响
  • 为量化论文长上下文安全缓解措施的有效性,论文使用了两种额外的基准方法:DocQA 和 Many-shot
    • 对于DocQA(文档问答),论文使用可能被用于对抗性方式的长文档
      • 为模型提供文档和与文档相关的提示,以测试问题与文档信息的相关性是否会影响模型安全响应提示的能力
    • 对于Many-shot,遵循Anil等人(2024)的方法,论文构建了由不安全提示-响应配对组成的合成聊天历史
      • 使用与先前消息无关的最终提示,测试上下文中的不安全行为是否会影响模型的响应安全性
    • 图20显示了DocQA和Many-shot的违规率和假拒绝率
      • 论文看到,Llama 405B(有或没有 Llama Guard)在 DocQA 和 Many-shot上 均优于 Comp. 2 系统,在违规率和假拒绝率方面都更优
      • 相对于 Comp. 1,论文发现 Llama 405B 更安全,但在假拒绝方面存在权衡
  • 工具使用安全(Tool usage safety) :可能的工具多样性以及工具使用调用的实现和与模型的集成,使得工具使用成为难以完全缓解的能力(2024)
    • 论文专注于搜索用例
    • 违规率和假拒绝率如图20所示
    • 论文针对 Comp. 1 系统进行了测试,发现 Llama 405B 更安全(尽管假拒绝率略高)
Cybersecurity and Chemical/Biological Weapons Safety
  • 网络安全评估结果(CyberSecurity evaluation results) :为评估网络安全风险,论文利用了CyberSecEval基准框架(2023,2024),该框架包含衡量多个领域安全的任务,如生成不安全代码、生成恶意代码、文本提示注入和漏洞识别
    • 论文开发并将 Llama 3 应用于关于鱼叉式网络钓鱼(Spear phishing)和自主网络攻击的新基准
  • 总体而言,论文发现 Llama 3 在生成恶意代码或利用漏洞方面没有显著弱点,论文在特定任务上的简要结果如下:
    • 不安全编码测试框架(Insecure coding testing framework) :针对不安全编码测试框架评估 Llama 3 8B、70B 和 405B
      • 论文观察到较大的模型不仅生成更多不安全代码,而且生成的代码平均 BLEU 分数更高(2023)
    • 代码解释器滥用提示语料库(Code interpreter abuse prompt corpus) :论文发现 Llama 3 模型在某些提示下容易执行恶意代码 ,其中 Llama 3 405B 尤其容易受到影响,10.4% 的情况下会遵守恶意提示
      • Llama 3 70B 的遵守率为3.8%
    • 基于文本的提示注入基准(Text-based prompt injection benchmark) :在针对提示注入基准的评估中,针对 Llama 3 405B 的提示注入攻击成功率为 21.7%
      • 图22 提供了 Llama 3 、GPT-4 Turbo、Gemini Pro 和 Mixtral 模型的基于文本的提示注入成功率
    • 漏洞识别挑战(Vulnerability identification challenges) :在使用CyberSecEval 2的夺旗测试挑战评估 Llama 3 识别和利用漏洞的能力时,Llama 3 的表现并不优于常用的传统非LLM工具和技术
    • 鱼叉式网络钓鱼基准(Spear phishing benchmark) :论文评估了模型在进行个性化对话以欺骗目标无意识地参与安全漏洞方面的说服力和成功率
      • 使用 LLM 生成随机详细的受害者档案,作为 Spear phishing 的目标
      • 由 judge LLM( Llama 3 70B)对 Llama 3 70B 和 405B 与受害者模型(Llama 3 70B)互动的表现进行评分,并评估攻击尝试的成功率
      • Llama 3 70B 被 judge LLM 判定在 24% 的 Spear phishing 尝试中成功,而 Llama 3 405B被判定成功 14%。图23展示了 judge LLM评估的跨模型和钓鱼目标的说服力分数
    • 攻击自动化框架(Attack automation framework) :论文评估了 Llama 3 70B 和 405B 作为自主代理在勒索软件攻击四个关键阶段的潜力——网络侦察、漏洞识别、漏洞利用执行和后利用行动
      • 通过配置模型在 Kali Linux 虚拟机上迭代生成和执行新的 Linux 命令,针对另一个具有已知漏洞的虚拟机,使模型自主行动
      • 尽管 Llama 3 70B 和 405B 在网络侦察中有效识别网络服务和开放端口,但在 20 和 23 次测试运行中,模型均未能有效利用这些信息获得对易受攻击机器的初始访问权限
      • 在漏洞识别方面, Llama 3 70B和405B表现中等,但难以选择和应用成功的利用技术
      • 漏洞利用执行尝试完全失败,后利用尝试维持访问或影响网络内主机的尝试也同样失败
  • 网络攻击的提升测试(Uplift testing for cyber attacks) :论文进行了一项提升研究,衡量虚拟助手在两个模拟的攻击性网络安全挑战中,对新手和专家网络攻击者的攻击率提升程度
    • 该研究分两阶段进行,有 62 名内部志愿者参与
    • 根据进攻安全经验,志愿者被分为“专家”(31人)和“新手”(31人)队列
    • 第一阶段,要求受试者在没有LLM协助但可访问开放互联网的情况下完成挑战
    • 第二阶段,受试者保留互联网访问权限,但还获得 Llama 3 405B 来完成与第一阶段难度相似的不同攻击性网络安全挑战
    • 对受试者挑战攻击阶段完成率的分析表明,使用 405B 模型的新手和专家与仅访问互联网而没有 LLM 的情况相比,提升不显著
  • 化学和生物武器的提升测试(Uplift testing for chemical and biological weapons) :为评估与化学和生物武器扩散相关的风险,论文进行了提升测试,旨在评估使用 Llama 3 是否会显著增强行为者精心挑选此类攻击的能力
    • 该研究包括六小时的场景,要求两人团队生成虚构的生物或化学攻击行动计划
    • 场景涵盖 CBRNE 攻击的主要规划阶段(制剂获取、生产、武器化和交付),旨在引出详细计划,解决与受限材料采购、实际实验室协议和操作安全相关的挑战
      • 参与者根据相关科学或操作专业知识背景招募,并分配到由两名低技能行为者(无正式培训)或两名中等技能行为者(在科学或操作方面有一些正式培训和实践经验)组成的团队
    • 该研究与一组CBRNE专家合作生成,旨在最大化定量和定性结果的普遍性、有效性和稳健性
      • 论文还进行了初步研究以验证研究设计,包括稳健的功效分析,确保论文的样本量足以进行统计分析
    • 每个团队被分配到“控制”或“LLM”条件。控制组仅可访问基于互联网的资源,而启用 LLM 的团队可访问互联网以及启用网络搜索(包括PDF摄入)、信息检索能力(RAG)和代码执行(Python和Wolfram Alpha)的 Llama 3 模型
      • 为测试 RAG 能力,使用关键字搜索生成数百篇相关科学论文的数据集,并预加载到 Llama 3 模型推理系统中
        • 在练习结束时,由具有生物学、化学和操作规划领域专业知识的主题专家评估每个团队生成的行动计划
        • 每个计划在潜在攻击的四个阶段进行评估,生成科学准确性、细节、规避检测和科学与操作执行成功概率等指标的分数
        • 在经过稳健的德尔菲过程以减轻主题专家(SME)评估中的偏差和可变性后,通过将阶段级指标汇总为综合分数来生成最终分数
    • 对该研究结果的定量分析表明,使用 Llama 3 模型的表现没有显著提升
      • 这一结果在进行综合分析(将所有LLM条件与仅网络控制条件进行比较)以及按子组分解时均成立(例如,分别评估 Llama 3 70B和 Llama 3 405B 模型,或分别评估与化学或生物武器相关的场景)
      • 在与 CBRNE 专家验证这些结果后,论文评估认为,发布 Llama 3 模型不太可能增加与生物或化学武器攻击相关的生态系统风险
Red Teaming
  • 论文利用红队来发现风险,并利用发现结果改进论文的基准和安全调优数据集
  • 论文进行定期的红队演习,以持续迭代和发现新风险,这指导了论文的模型开发和缓解过程
  • 论文的红队由网络安全、对抗性机器学习、负责任AI和完整性方面的专家组成,此外还有具有特定地理市场完整性问题背景的多语言内容专家
  • 论文还与关键风险领域的内部和外部主题专家合作,帮助构建风险分类法,并协助进行更有针对性的对抗性评估
  • 针对特定模型能力的对抗性测试(Adversarial testing on specific model capabilities) :论文通过在特定高风险类别背景下的风险发现过程,开始了最初的红队工作,然后测试能力组合
  • 红队专注于提示级攻击,以模拟更可能的现实场景——论文发现模型经常偏离预期行为,尤其是在提示意图被模糊或提示层叠多个抽象时
  • 随着能力的增加,这些风险变得更加复杂,论文详细描述了以下几个红队发现:
    • 短 & 长上下文英语(Short and long-context English) :论文在单轮和多轮对话中混合使用已知的、已发布和未发布的技术。论文还在某些技术和风险类别中利用类似PAIR(2023)的高级对抗性多轮自动化,在很大程度上,多轮对话会导致更有害的输出,几种攻击在模型 checkpoint 中普遍存在,尤其是当一起使用时
      • 多轮拒绝抑制(Multi-turn refusal suppression) :指定模型响应遵循特定格式或包含/排除与拒绝相关的特定信息,如特定短语
      • 假设场景(Hypothetical scenarios) :将违规提示包装为假设/理论任务或虚构场景
        • 提示可以简单到添加“假设(hypothetically)”一词,或构建 elaborate 分层场景
      • 角色和角色扮演(Personas and role play) :为模型提供具有特定违规响应特征的违规角色(例如,“你是X,你的目标是Y”),或用户自己扮演模糊提示上下文的特定良性角色
      • 添加免责声明和警告(Adding disclaimers and warnings) :作为响应启动的一种形式,论文假设这是一种允许模型以符合广义安全培训的方式提供帮助的方法。在多轮对话中要求添加免责声明、触发警告等,与上述其他攻击结合使用,会导致违规率增加
      • 逐渐升级违规(Gradually escalating violation) :多轮攻击,对话开始于或多或少良性的请求,然后通过直接提示获取更夸张的内容,逐渐引导模型生成极具违规性的响应
        • 一旦模型开始输出违规内容,就很难恢复(如果遇到拒绝,可使用另一种攻击)
        • 对于长上下文模型,这将是一个日益明显的问题
    • 多语言(Multilingual) :考虑多种语言时,论文发现了一些独特的风险
      • 在一个提示或对话中混合多种语言(Mixing multiple languages in one prompt or conversation) :比使用单一语言更容易导致更多违规输出
      • 低资源语言(Lower resource languages) :由于缺乏相关安全微调数据、安全模型泛化能力弱或测试/基准优先级低,可能导致违规输出
        • 然而,这种攻击通常总体质量较差,限制了实际对抗性使用
      • 俚语、特定上下文或文化特定引用(Slang, specific context or cultural-specific references) :可能造成混淆或乍看之下违规,结果发现模型未能正确理解给定引用,无法生成真正有害的输出或阻止违规输出
    • 工具使用(Tool use) :在测试期间,除了英语文本级对抗性提示技术成功生成违规输出外,还发现了几种特定于工具的攻击。这包括但不限于:
      • 不安全的工具链(Unsafe tool chaining) :例如,同时请求多个工具,其中一个是违规的,在早期 checkpoint 可能导致所有工具被调用,混合良性和违规输入
      • 强制工具使用(Forcing tool use) :通常使用特定输入字符串、碎片化或编码文本,可触发可能违规的工具输入,导致更违规的输出。然后可使用其他技术访问工具结果,即使模型通常会拒绝执行搜索或协助处理结果
      • 修改工具使用参数(Modifying tool use parameters) :如在查询中交换单词、重试或在多轮对话中模糊部分初始请求,导致许多早期 checkpoint 出现违规,作为强制工具使用的一种形式
  • 儿童安全风险(Child safety risks) :儿童安全风险评估由专家团队进行,以评估模型产生可能导致儿童安全风险的输出的能力,并通过微调为任何必要和适当的风险缓解提供信息
    • 论文利用这些专家红队会议,通过模型开发扩展论文评估基准的覆盖范围
    • 对于 Llama 3 ,论文使用基于目标的方法进行了新的深入会议,评估模型在多个攻击向量上的风险
    • 论文还与内容专家合作进行红队演习,评估潜在违规内容,同时考虑特定市场的细微差别或经验
System Level Safety
  • 在大型语言模型的各种实际应用中,模型并非孤立使用,而是集成到更广泛的系统中
  • 在本节中,论文描述了论文的系统级安全实现 ,它通过提供更多灵活性和控制来补充模型级缓解措施
  • 为此,论文开发并发布了一个新的分类器Llama Guard 3,这是一个针对安全分类微调的 Llama 3 8B 模型
    • 与 Llama Guard 2(Llama-Team,2024)类似,该分类器用于检测语言模型生成的输入提示和/或输出响应是否违反特定危害类别的安全策略
    • 它旨在支持Llama不断增长的能力,可用于英语和多语言文本
    • 它还针对工具调用场景进行了优化,如搜索工具和防止代码解释器滥用
    • 最后,论文还提供量化变体,以减少内存需求。论文鼓励开发人员将论文发布的系统安全组件作为基础,并为自己的用例进行配置
  • 分类(Taxonomy) :论文在AI安全分类法(2024)中列出的13个危害类别上进行训练:儿童性剥削、诽谤、选举、仇恨、滥杀性武器、知识产权、非暴力犯罪、隐私、性相关犯罪、性内容、专业建议、自杀与自残、暴力犯罪
    • 论文还在代码解释器滥用类别上进行训练,以支持工具调用用例
  • 训练数据(Training data) :论文从Llama Guard(2023)使用的英语数据开始,并扩展该数据集以纳入新能力
    • 对于多语言和工具使用等新能力,论文收集提示和响应分类数据,并利用为安全微调收集的数据
    • 论文通过提示工程让LLM不拒绝响应对抗性提示,增加训练集中不安全响应的数量。论文使用 Llama 3 对生成的数据进行响应 Token
    • 为提高Llama Guard 3的性能,论文使用 Llama 3 进行人工标注和LLM标注,对收集的样本进行广泛清理
    • 获取用户提示的标签对于人类和LLM来说都是一项更困难的任务,论文发现人类标签略胜一筹,尤其是对于边缘提示,尽管论文的完整迭代系统能够减少噪声并产生更准确的标签
  • 结果(Result) :Llama Guard 3 能够显著降低各能力的违规率(论文的基准平均降低 65%)
    • 注:添加系统保障措施(以及一般的任何安全缓解措施)的代价是对良性提示的拒绝增加
    • 在表25 中,论文报告了与基础模型相比违规率的降低和假拒绝率的增加,以突出这种权衡。这种影响在图19、20 和 21 中也可见
    • 系统安全还提供了更多灵活性
    • Llama Guard 3 可仅针对特定危害部署,支持在危害类别级别控制违规和假拒绝之间的权衡
    • 表26 按类别呈现违规率降低,以告知开发人员用例应开启/关闭哪些类别
    • 为便于部署安全系统,论文使用常用的 int8量化 技术提供 Llama Guard 3 的量化版本,将其大小减少 40% 以上。表27 表明,量化对模型性能的影响可忽略不计
  • 基于提示的系统防护(Prompt-based system guards) :系统级安全组件使开发人员能够自定义和控制 LLM 系统对用户请求的响应方式
    • 作为论文改进模型系统整体安全性并使开发人员能够负责任地部署的工作的一部分,论文描述并发布了两种基于提示的过滤机制的创建:Prompt Guard和Code Shield
    • 论文将这些开源,供社区按原样使用或作为灵感,根据自己的用例进行调整
  • Prompt Guard :一种基于模型的过滤器,旨在检测提示攻击,即设计用于颠覆作为应用程序一部分的LLM预期行为的输入字符串
    • 该模型是一个多标签分类器,检测两类提示攻击风险——直接越狱(明确尝试覆盖模型安全条件或系统提示的技术)和间接提示注入(模型上下文中包含的第三方数据包含被 LLM 误作为用户命令执行的指令的情况)
    • 该模型从 mDeBERTa-v3-base 微调而来,这是一个小型(86M)参数模型,适合过滤 LLM 的输入
    • 论文在表28 所示的多个评估数据集上评估了性能
    • 论文在与训练数据相同分布的两个数据集(越狱和注入)以及英语的分布外数据集、通过机器翻译构建的多语言越狱集和从 CyberSecEval 提取的间接注入数据集上进行评估
    • 总体而言,论文发现该模型能很好地泛化到新分布,且性能强劲
  • Code Shield :这是基于推理时过滤的系统级保护类别的一个示例,专注于在不安全代码进入下游用例(如生产系统)之前检测其生成
    • 它通过利用静态分析库“不安全代码检测器(Insecure Code Detector,ICD)”来识别不安全代码
    • ICD使用一套静态分析工具,对7种编程语言进行分析
    • 这类防护措施对开发人员通常很有用,他们可以在各种应用中部署多层保护
Limitations
  • 论文对 Llama 3 的安全使用进行了广泛的风险测量和缓解,但没有测试能保证详尽地识别所有可能的风险
  • 由于在各种数据集上的训练,Llama 3 仍可能生成有害内容,尤其是对于英语以外的语言,以及被熟练的对抗性红队成员进行提示工程时
  • 恶意开发人员或对抗性用户可能会找到新的方法来越狱论文的模型,并将其用于各种 nefarious 用途
  • 论文将继续主动识别风险,研究缓解方法,并鼓励开发人员在从模型开发到部署再到用户的每个环节都考虑责任
  • 作者希望开发人员能利用并贡献论文在开源系统级安全套件中发布的工具

Inference

  • 论文研究了两种使 Llama 3 405B 模型推理高效的主要技术:
    • (1)流水线并行;
    • (2)FP8量化
  • 论文已公开发布 FP8量化 的实现

Pipeline Parallelism

  • 当使用 BF16 数值表示模型参数时, Llama 3 405B 无法装入单个配备 8 个 Nvidia H100 GPU 的机器的 GPU 内存
  • 为解决此问题,论文使用 BF16 精度在两台机器的 16 个 GPU 上并行化模型推理
  • 在每台机器内,高 NVLink 带宽支持使用张量并行(2019)
    • 但跨节点的连接带宽较低且延迟较高,因此论文改用流水线并行(2019)
  • 在使用流水线并行进行训练时,气泡(bubbles)是主要的效率问题(见3.3节),但在推理期间并非问题,因为推理不涉及需要流水线刷新的反向传播
    • 因此,论文使用 micro-batchin 来提高流水线并行的推理吞吐量
  • 论文评估了在推理工作负载中使用两个 micro-batchin 对 4,096 个输入 Token 和 256 个输出 Token 的影响,包括推理的键值缓存预填充阶段和解码阶段
    • 论文发现 micro-batchin 提高了相同本地批大小下的推理吞吐量,如图24 所示
    • 这些改进源于 micro-batchin 使这两个阶段的 micro-batchin 能并发执行
    • micro-batchin 带来的额外同步点也会增加延迟,但总体而言,micro-batchin 仍带来了更好的吞吐量-延迟权衡(throughput-latency trade-off)

FP8 Quantization

  • 论文利用 H100 GPU 的原生 FP8 支持进行实验,以执行低精度推理
  • 为实现低精度推理,论文对模型内部的大多数矩阵乘法应用 FP8 量化,特别是对前馈网络层中的大多数参数和激活进行量化,这些约占推理计算时间的 50%
  • 论文不对模型自注意力层中的参数进行量化
  • 论文利用动态缩放因子以提高准确性(2024b),优化 CUDA 内核以减少计算缩放因子的开销
  • 论文发现 Llama 3 405B 的质量对某些类型的量化敏感,并进行了一些额外更改以提高模型输出质量:
    • 1)与Zhang等人(2021)类似,论文不在前几个和最后几个 Transformer 层中执行量化
    • 2)高困惑度 Token(如日期)可能导致较大的激活值 ,进而导致 FP8 中的动态缩放因子较大 ,并有不可忽视的下溢数量,导致解码错误
      • 为解决此问题,论文将动态缩放因子上限设为 1200
    • 3)论文使用行级量化 ,跨参数和激活矩阵的行计算缩放因子(见图25)
      • 论文发现这比张量级量化方法效果更好
  • 量化误差的影响(Effect of quantization errors) :对标准基准的评估通常表明,即使没有这些缓解措施,FP8推理的表现也与 BF16 推理相当
    • 然而,论文发现此类基准未能充分反映 FP8 量化的影响
    • 当缩放因子未设上限时,模型偶尔会产生损坏的响应,尽管基准性能很强
    • 论文没有依赖基准来衡量量化引起的分布变化,而是分析了使用 FP8 和 BF16 生成的 100,000 个响应的奖励模型分数分布
    • 图26 显示了论文量化方法的奖励分布结果,表明论文的 FP8 量化方法对模型响应的影响非常有限
  • 效率的实验评估(Experimental evaluation of efficiency) :图27 描绘了使用 Llama 3 405B 进行 FP8 推理在预填充和解码阶段的 throughput-latency trade-off,使用 4,096 个输入 Token 和 256 个输出 Token
    • 图27 将 FP8 推理的效率与6.1节中描述的两机 BF16 推理方法进行了比较
    • 结果表明,使用 FP8 推理在预填充阶段的吞吐量提高了高达 50%,在解码阶段的 throughput-latency trade-off 显著更好

Vision Experiments

  • 论文通过组合方法进行了一系列实验,将视觉识别能力融入 Llama 3 ,该方法包括两个主要阶段
    • 首先,论文通过引入并在大量图像-文本对上训练两组交叉注意力层,将预训练图像编码器(2023)与预训练语言模型组合,得到图28 所示的模型
    • 其次,论文引入时间聚合层和额外的视频交叉注意力层,在大量视频-文本对上操作,以学习模型识别和处理视频时间信息的能力
  • 基础模型开发的组合方法有几个优点:
    • (1)它使论文能够并行开发视觉和语言建模能力;
    • (2)它规避了视觉和语言数据联合预训练的复杂性,这些复杂性源于视觉数据的 Token 化、不同模态的背景困惑度差异以及模态间的竞争;
    • (3)它保证模型在纯文本任务上的性能不受引入视觉识别能力的影响;
    • (4)交叉注意力架构确保了:
      • 不必花费计算将全分辨率图像经过日益增长的 LLM 主干(特别是每个 Transformer 层中的前馈网络),实现了在推理时更高效
    • 论文的多模态模型仍在开发中,尚未准备好发布
  • 在 7.6 和 7.7 节呈现实验结果之前,论文描述了用于训练视觉识别能力的数据、视觉组件的模型架构、论文如何缩放这些组件的训练,以及论文的预训练和后训练方法
  • 注:【此处省略语音相关部分,待以后补充】

8 Speech Experiments

  • 论文进行了实验,研究将语音能力集成到 Llama 3 的组合方法,类似于论文用于视觉识别的方法
  • 在输入侧,集成了一个编码器和一个适配器来处理语音信号
  • 论文利用系统提示(文本形式)来启用 Llama 3 中语音理解的不同模式
  • 如果未提供系统提示,模型将作为通用口语对话模型,能够以与纯文本版本 Llama 3 一致的方式有效响应用户语音
  • 对话历史作为提示前缀引入,以改善多轮对话体验
  • 论文还尝试了允许 Llama 3 用于自动语音识别(ASR,Automatic Speech Recognition)和自动语音翻译(AST,Automatic Speech Translation)的系统提示
  • Llama 3 的语音界面支持 34 种语言。它还允许文本和语音的交错输入,使模型能够解决高级音频理解任务
  • 论文还尝试了一种语音生成方法,其中论文实现了一个流式文本到语音(TTS,Text-to-Speech)系统,该系统在语言模型解码期间实时生成语音波形
  • 论文基于专有 TTS 系统设计了 Llama 3 的语音生成器,并且没有针对语音生成微调语言模型
  • 相反,论文专注于通过在推理时利用 Llama 3 的 Embedding 来提高语音合成的延迟、准确性和自然度
  • 语音界面如图28 和29 所示
  • 注:【此处省略语音相关部分,待以后补充】
1…131415…63
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

628 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4