NLP——LLM对齐微调-Rationale-Consistency

注:本文包含 AI 辅助创作

Paper Summary

  • 总结(TLDR):
    • 作者的发现(整篇文章都围绕这个主题):使用结果监督(outcome supervision) 信号的方法(GenRM 和 LLM-as-a-Judge)可能存在 欺骗性对齐 (deceptive alignment) 问题
    • 指标贡献:论文提出了一个新的指标 推理一致性 (Rationale Consistency) (可使用 MetaJudge 测量这个指标)
      • 这个指标有效暴露了欺骗性对齐,并区分了强大的模型
    • 方法贡献:在 GenRM 训练期间添加推理监督(作为结果监督信号的辅助信号),可显著提高 GenRM 性能
    • 缺陷:本文提出的方法实在 Pairwise 的数据上训练的,且模型也是 Pairwise 的,不是 Pointwise,难以在现实场景中使用,比如采样 8 个 Rollout 时,两两比较需要 28 次,除非使用其他已有的研究方案缓解这个问题(比如降低到 7-8 次)
      • 但是效率也远远低于 Pointwise 方案
    • 注:附录中有大量的 Prompt 和实践经验,值得细读
  • 问题提出:
    • 生成式奖励模型 (GenRMs) 和 LLM-as-a-Judge 模型都因其训练和评估都优先考虑结果准确性 (Outcome Accuracy)
      • 这会导致基于错误的原因做出正确判断,表现出欺骗性对齐 (deceptive alignment) (理解:其实就是 Reward Hacking 的一种情况)
  • 解决方案:
    • 第一:作者提出一种细粒度的度量标准:推理一致性 (Rationale Consistency) ,用于量化模型推理过程与人类判断之间的一致性
      • (SOTA LLM 上的)实验表明:推理一致性能够有效区分 SOTA 模型并检测欺骗性对齐(结果准确性均不行)
    • 第二:作者引入了一种混合信号 (hybrid signal),将推理一致性与结果准确性相结合,用于 GenRM 训练
  • 在 RM Benchmarks 上的评估:
    • 作者的训练方法在 RM-Bench (87.1%) 和 JudgeBench (82%) 上达到了 SOTA 性能,平均比仅基于结果的基线模型高出 5%
    • 在 RLHF 中使用这个奖励模型,论文的方法有效提升了在 Arena Hard v2 上的表现,特别是在创意写作任务上带来了 7% 的提升
      • 因为避免了欺骗性对齐陷阱,有效逆转了仅结果训练中观察到的推理一致性下降趋势(推理一致性从 \(25%\) 提高到 \(37%\))

Introduction and Discussion

  • 已有现象:奖励模型在静态数据集上取得高准确率,但在 RLHF 过程中无法有效泛化 (2023; 2023; 2024)
    • 作者将此归因于对 outcome supervision 的依赖(模型仅被优化来预测人类标注的二元偏好)
    • 以 outcome supervision 方式训练的模型倾向于学习虚假相关性或捷径 (shortcuts) 以最大化结果准确性,而并未进行真正的推理 (2024; 2020; 2022),从而导致奖励模型的欺骗性对齐 (2019; 2023),即奖励模型因错误的原因预测了正确的标签
  • 作者主张加入推理监督 (rationale supervision) ,以确保奖励模型的推理过程与人类判断相匹配
  • 新指标:推理一致性 ,一种细粒度的评估指标,旨在验证模型的评估过程与人类判断之间的一致性
    • 为了精确测量这一点,作者构建了 MetaJudge 框架,该框架将人类推理分解为互斥的原子单元 (atomic units),提示模型输出相应的推理列表,并使用一个 LLM 执行严格的一对一语义匹配,从而量化模型恢复人类推理的确切比例
  • 作者发现模型的输出正确性与其判断有效性之间存在关键脱节,如图 1 所示
    • 这种脱节体现在两个关键局限性上:
      • (1) 结果准确性掩盖了欺骗性对齐
        • 高结果准确性并不能保证稳健的判断
        • 一个显著的例子是 o3 和 o3-mini 之间的对比:尽管结果准确性相当,但它们的判断逻辑根本不同
        • o3 能识别出类似于人类评审员的、具体的、潜在的缺陷,而 o3-mini 则常常依赖于肤浅、模糊的论证,未能检测到实际缺陷(见表 1)
      • (2) 结果准确性正接近饱和点
        • 结果准确性无法清晰地将前沿模型(如 GPT-5 和 Gemini 3 Pro )与其他被评估模型区分开,而推理一致性则保持了高度的区分度
  • 作者使用一个结合了推理一致性与结果准确性的混合信号,通过 GRPO 来训练 GenRMs
    • 作者实施了分层监督:只有当模型同时提供正确结果和正确推理时,它才会获得奖励
  • 方法的显著增益:
    • (1) 在 RM-Bench (2024b) 上达到 \(87.1%\),在 JudgeBench (2024) 上达到 \(82.0%\)(vs 基线高出 \(3%\) 和 \(7%\));
    • (2) 在 RLHF 中作为奖励模型,进一步提高了在 Arena Hard v2 (2024b) 上的性能,在创意写作任务上带来了 \(7%\) 的提升

MetaJudge

  • MetaJudge 是用于衡量 LLM 判断过程与人类推理之间对齐(即 Rationale Consistency)的框架
  • 注:表 1 是一个具体示例的完整的流程
  • 问题:上述的人类推理是人工写的吗?

Benchmark Construction

  • 作者从 HelpSteer3 (2025c) 构建了一个原子推理基准
    • HelpSteer3 是一个专家标注的人类偏好数据集,涵盖通用对话、代码、STEM 和多语言任务
    • 每个实例包含一个 Query \(x\)、两个回复 \((y_{1},y_{2})\)、详细的人类推理和一个偏好标签 \(l\)
    • 由于自由格式的推理 \(R_{\mathrm{un} }\) 很难与模型生成的理由直接比较,作者应用了一个受先前细粒度评估工作 (2024; 2024) 启发的原子分解 (Atomic Decomposition) 流程
  • 作者从每个领域抽取 250 个示例,并使用 GPT-5 将每个自由格式推理 \(R_{\mathrm{un} }\) 分解为原子推理
    $$ R_{h} = \{r_{1},\ldots ,r_{n}\} $$
    • 分解遵循两个原则:
      • (i) 保留具体的、有证据基础的推理,同时过滤掉通用的主观陈述
      • (ii) 消除冗余,使每个项目形成一个独立的语义单元
    • 作者手动检查了 93 个随机抽样的案例,发现原子推理忠实地反映了原始的人类推理(分解提示词和基准统计数据在附录 A 中提供)
    • 附录 A.3 进一步提供了案例研究,表明该流程有效地生成了基于证据的、非冗余的检查清单,支持高质量的细粒度评估
    • 作者过滤实例以保留 3-7 个批评点,因为作者观察到,拥有过多或过少推理点通常表明是明显低质量的反馈
    • 作者将得到的基准命名为 HelpSteer 3-Atomic
    • 问题:上述得到的 原子认为单做 人类原子推理 使用是吗?
      • 回答:看起来是的
  • 为了进一步加强评估,作者创建了 CW-Atomic,其中人工标注者以相同的原子格式标注了 350 个创意写作样本
    • 每个示例由三位标注者标注;去除标注者之间存在分歧的实例,最终得到 207 个高质量测试案例
    • 关于 CW-Atomic 的标注和构建细节参见附录 B
    • 理解:这里是使用了人工来标注原子推理
  • 值得注意的是,该标注过程并未引入额外负担 ,只是要求标注者将其推理组织成原子化的、有证据基础的格式
    • 最近关于奖励模型标注的研究表明,引出推理是确保标注质量的重要方式:要求标注者提供理由可以鼓励他们更仔细地评估上下文和权衡,从而得到更可靠的结果
      • 理解:这里的意思是,标注者本就要给出理由的
    • 注:本论文的工作进一步表明,这种推理信息也可以用作训练和评估模型的监督信号

LLM-based Semantic Matching

  • 使用一个 LLM 来执行人类原子原因 \(R_{h}\) 与 AI 生成的原子原因 \(R_{ai}\) 之间的细粒度语义匹配
    • 注:这里要求 AI 在给出最终结论前需要按重要性顺序列出原子原因
  • 对于每个人类原因 \(r_i \in R_{h}\),评估者将其与 \(R_{ai}\) 进行匹配,并分配一个满足度分数 \(s_{ij} \in [0, 1]\):
    • 1 表示完全匹配的原因,且关键条件/证据一致
    • 0 表示问题缺失、被反驳,或仅以通用的、非本地化的方式陈述
  • 仅以通用的、非本地化的方式陈述(附录 C.1 提供了提示词模板,附录 C.2 包含了说明详细评估的示例)

Rationale Consistency Metrics

  • 为了防止模型通过生成一个覆盖多个人类原因的宽泛原因来操纵度量标准,作者施加了严格的一对一匹配约束:
    $$S_{\text{total} } = \max_{i,j}\sum_{(i,j)\in \pi}s_{ij} \tag{1}$$
    • 其中 \(\pi\) 是一个匹配集合,使得 \(R_{h}\) 和 \(R_{ai}\) 中的任何原因在 \(\pi\) 中最多出现一次
    • 在此约束下,每个 AI 原因最多只能匹配到一个最佳匹配的人类原因
  • 基于全局最优匹配分数 \(S_{\mathrm{total} }\),作者将推理一致性 (Rationale Consistency) 定义为 \(N\) 个样本上的平均软召回率 (soft recall):
    $$\mathrm{RC} = \frac{1}{N}\sum_{k = 1}^{N}\frac{S_{\mathrm{total} }^{(k)} }{|R_{h}^{(k)}|}. \quad (2)$$
  • 由于不同模型输出的原因列表长度不同,在评估阶段,作者强制所有模型输出一个固定长度的原因列表(例如,Top-5)
    • 这限制了输出预算,以测试模型识别关键原因的能力
    • 注:在训练期间作者不施加此约束

Rationale Consistency Evaluation

Beyond Outcome Accuracy

  • 作者对过去一年发布的 19 个前沿 LLM 进行了大规模评估,使用 Qwen3 Plus 作为 MetaJudge 评估器
  • 图 1 可视化了所有模型在 Helpsteer3-Atomic 基准上结果准确性与推理一致性的性能分布(每个子类别的评估结果见附录 C.3)
  • 虽然结果准确性与推理一致性总体上呈正相关,但通过推理一致性的视角分析模型,揭示了结果准确性未能揭示的两个关键弱点
    • 弱点 1:对前沿模型的区分度有限
      • 在图 1 的绿色区域,推理一致性清晰地分辨出更强的前沿模型(例如,GPT-5, o3, Gemini 3 Pro)和较弱的模型(例如,Claude 3.5, GPT-4.1, Gemini 3 Flash),即使它们达到相似的结果准确性
      • 这表明许多模型可以达到可比的结果准确性,但只有 SOTA 模型才能持续遵循与人类一致的判断逻辑,并产生与人类识别的关键原因相匹配的推理
      • 结论:推理一致性提供了一个更可靠的人类对齐判断信号
    • 弱点 2:欺骗性对齐陷阱
      • 图 1 中出现了一个显著的差异,即“欺骗性对齐陷阱”区域(红色区域),最明显的是同系列模型 o3 和 o3-mini 之间
        • 它们达到了相似的结果准确性,但 o3-mini 的推理一致性低了近 50%
      • 在 Gemini 3 Pro 和 Gemini 3 Flash 之间也观察到了类似的模式:
        • Flash 模型达到了相当的结果准确性,但其推理一致性明显更低
      • 结论:这表明结果准确性无法有效检测欺骗性对齐
  • 作者在表 1 的案例研究中说明了这一差距
    • 尽管 o3-mini 选择了偏好的答案,但其推理与人类推理不匹配
    • 人类和 o3 明确检查了严格的字数限制约束,而 o3-mini 则依赖于表面线索(例如,自我声称的遵守、表情符号),未能验证该约束
    • 这表明模型可能因错误的原因做出正确选择,而仅凭结果准确性,在没有推理一致性的情况下无法检测到这一点
  • 反正,即使是 SOTA 模型,其推理一致性也仅在 0.4 左右,表明在使模型判断逻辑与人类推理对齐方面仍有很大的改进空间
    • 注:使用 LLM 来合成人类偏好存在与人类判断逻辑不匹配的风险!在可预见的未来,要实现与人类的真正对齐,仍然需要人工标注
    • 同意上述结论

Measurement Reliability(专门针对评估的可靠性评判)

  • 作者从两个维度评估推理一致性的可靠性:
    • 对评估器的敏感度(问题:测试推理一致性对评估器模型是否敏感?)
    • 跨领域和标注者的稳健性(问题:测试推理一致性是否能在不同的标注者和领域间泛化?)
    • 结论:作者发现推理一致性可以稳健地进行评估:
      • 分数在很大程度上对评估器模型不敏感,并且能很好地跨领域和标注者群体泛化
  • 结论1:对评估器模型不敏感
    • 由于 MetaJudge 依赖于一个 LLM 评估器,一个关键的担忧是与评估器相关的偏差
    • 作者比较了 Qwen-Plus(一个相对较弱、非推理模型)和 DeepSeek-R1 (2025)(一个更强的推理模型)
    • 如图 2a 所示,它们的分数高度一致 \((R^2 = 0.983\),RMSE \(= 0.006\))
      • 这是可以预料的,因为评估器主要执行原因的语义匹配,这相对轻量级;
      • 即使是一个非推理模型也可以作为一个可靠的评估器,并产生与专家级评审相当的分数
  • 结论1:跨领域和标注者的泛化
    • 为了,作者进一步在创意写作的 CW-Atomic 基准上评估了多个模型,该基准由不同的标注者群体标注,并且与 HelpSteer3-Atomic 相比涵盖了一个新领域。图 2b 显示,模型排名在两个基准之间基本保持一致(斯皮尔曼 \(\rho = 0.85\)),表明推理一致性是稳定的,可以可靠地区分跨领域和标注者池中的强弱模型。同时,推理一致性仍然反映了特定领域的优势(例如,Claude Sonnet 4.5 在创意写作中升至第 1 名),这与先前强调其在创意写作任务上优势的评估一致 (2023)

Generative Reward Modeling Based on Rationale Consistency

  • 仅结果监督无法有效对齐模型的推理过程与人类判断
  • 作者将推理监督纳入 GenRM 的训练中

Training Objective

Outcome Reward
  • 生成式奖励建模主要依赖于结果监督
  • 对于给定的输入 \((x, y_1, y_2)\) 和模型生成的判断 \(y_{\text{outcome} }\),作者将结果准确率奖励 \(R_{\text{outcome} }\) 定义为一个二元信号:
    • 如果模型的预测与人类标注的偏好标签一致,则 \(R_{\text{outcome} } = 1\),否则为 0
Rationale Reward
  • 将模型生成的原子理由序列视为一个有序列表
  • 为了优先考虑与人类对齐的理由的重要性,作者采用平均精度 (Average Precision,AP,2028) 作为推理奖励 \(R_{\text{rationale} }\):
    $$R_{\mathrm{rationale} } = AP = \frac{\sum_{k = 1}^{|R_{\mathrm{ai} }|}(P\oplus k\times \mathbb{I}(k))}{|R_{h}|} \tag{3}$$
    • \(P\oplus k\) 表示在第 k 位的精度
    • \(\mathbb{I}(k)\) 是从图匹配结果导出的指示函数(如果第 k 个理由属于最优匹配集 \(\pi\),则值为 1,否则为 0)
  • 不同于 F1 分数(将输出视为无序集合),AP 的核心优势在于引入了软排序约束
  • AP 不仅要求模型检索全面的理由,还激励将符合人类认知的核心理由放在推理列表的顶部
  • 这为强化学习提供了更平滑、优先级更高的梯度信号
Hybrid Reward
  • 为了解决模型基于错误逻辑预测正确结果的欺骗性对齐问题,作者提出了一个混合奖励函数 \(R_{\text{final} }\):
    $$R_{\mathrm{final} } = R_{\mathrm{rationale} }\times R_{\mathrm{outcome} } \tag{4}$$
    • 这种乘法形式实现了一种门控机制:即使最终结果正确,正确的推理也是获得高奖励的必要条件
Optimization Algorithm
  • 采用 GRPO 来最大化上述奖励
  • 对于每个 Query \(q\),GRPO 采样一组输出 \(\{o_1, o_2, \dots, o_G\}\),并根据组内相对优势来优化策略,目标函数定义如下:
    $$\mathcal{I}(\theta) = \mathbb{E}_{q,\{o_i\} }\left[\frac{1}{G}\sum_{i = 1}^{G}\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\mathrm{old} }(o_i|q)}\hat{A}_i - \beta \mathbb{D}_{\mathrm{KL} }\right)\right] \tag{5}$$
    • \(\hat{A}_i\) 是通过在组内标准化奖励 \(R\) 计算得到的优势
    • \(\beta\) 表示 KL 散度系数
    • \(\pi_{\mathrm{ref} }\) 是参考模型

Experimental Settings

  • 遵循第 2.1 节中的原子分解方法,将所有 HelpSteer3 推理转换为结构化的原子理由清单作为监督信号
  • 为了提高效率,作者使用 Qwen3-Turbo 作为 MetaJudge,以提供快速的训练时奖励
    • 问题:这里的 Qwen3-Turbo 是多少 B 的?
  • 训练方法与 (RRMs)Reward Reasoning Model, Microsoft & THU & PKU, 20250520 保持一致,仅修改奖励信号的来源
    • RRMs 的训练方法详见原始论文 Figure2
  • 基于 Qwen3-14B 和 Qwen3-30B-A3B 进行训练和比较,并在两个互补且具有挑战性的基准上进行评估
    • RM-Bench (2024b) 衡量模型在聊天、代码、数学和安全等任务上区分细微差异和风格偏见的能力
    • JudgeBench (2024) 侧重于在具有挑战性的知识和推理任务上进行深度判断和逻辑推理
  • 其他详细的超参数设置见附录 D

Generative Reward Modeling

  • 使用相同的训练流程进行了严格的对照比较,仅奖励信号不同:
    • 本文方法使用 \(R_{\mathrm{final} } = R_{\mathrm{rationale} }\cdot R_{\mathrm{outcome} }\)
    • 基线仅结果方法单独使用 \(R_{\mathrm{outcome} }\)
  • 如表 2 所示,引入推理奖励带来了持续且显著的性能提升
  • 从总体指标角度看,作者的方法在不同模型规模上表现出卓越的鲁棒性
    • Qwen3-14B (Ours) 将总平均分从基线的 \(76.8%\) 提升到 \(82.9%\)
    • Qwen3-30B-A3B (Ours) 进一步从 \(80.3%\) 提升到 \(84.6%\)
    • 在 JudgeBench 上,两个模型的提升幅度都超过了 \(7%\)
    • 这种性能增益表明,由推理一致性提供的监督信号有效地增强了模型的判别能力,特别是在需要深度和复杂推理的领域
  • 鉴于 HelpSteer3 包含与代码相关的数据,作者观察到在两个基准的代码领域都有显著提升
  • 结论:进行结果准确率训练并不能教会模型可靠的代码正确性概念,而基于推理一致性的训练使模型能够真正验证代码逻辑和准确性
Comparison with SoTA
  • 与 SOTA 生成式奖励模型 (2025)、标量奖励模型 (2024a) 和 LLM-as-a-Judge 基线进行比较
    • Qwen3-30B-A3B (Ours) 实现了 \(84.6%\) 的总体平均分,超过了所有竞争对手,包括近期表现强劲的 GRAM-\(\mathbb{R}^2\) (2025a) \((83.4%)\) 和 Principles-Qwen32B (2025b) \((83.8%)\)
    • GRAM-\(\mathbb{R}^2\) 采用了数据增强技术,并在超过一百万 \((1M+)\) 的外部偏好和推理样本混合数据上训练,聚合了来自 StackExchange 和 PKU-SafeRLHF (2024) 的数据集,这增强了其在知识和安全领域的判别能力
    • Principles-Qwen32B 通过标注一组判断原则并识别适用的原则来降低判别难度
  • 本文方法大幅提高了监督信号的质量,使模型能够有效学习与人类推理一致的判断逻辑
Ablation Note
  • 作者尝试仅使用 \(R_{\mathrm{rationale} }\) 进行训练
    • 会导致了一种 Reward Hacking:由于缺乏对最终结果的激励信号,模型会生成与其自身推理过程不一致的结果
    • 结论:混合信号是必不可少的

Utilizing Reward Model in RLHF

  • 从 Qwen-30B-A3B-Base 模型开始,进行少量 SFT 以实现基本的指令遵循,然后使用 Qwen-30B-A3B (Ours) 或 Qwen-30B-A3B (Outcome only) 作为奖励模型来对齐 SFT 后的模型(超参数见附录 D)
  • 作者在 Arena Hard v2 (2024b) 上评估,该基准包括困难提示和创意写作任务
  • 如表 3 所示
    • 基于奖励的指导对齐相较于 SFT 有显著提升(从 \(12.61% /41.12%\) 提升到 \(21.22% /69.08%\))
    • 混合奖励在两个子集上持续优于仅结果基线,在创意写作任务上获得了 \(7%\) 的增益
  • 作者将此归因于创意写作提示中的隐含约束(例如,所需元素、严格的字数限制):
    • 仅结果奖励更容易被欺骗,而推理一致性提供了更细粒度的监督,鼓励更仔细的判断,并产生更好的下游对齐

Escaping the Deceptive Alignment Trap

  • 作者评估了两种方法的推理一致性,并发现了一个关键结论:
    • 仅结果监督可以提高与人类决策的一致性,但其背后的判断过程却日益偏离人类逻辑
    • 本文的方法显著改善了与人类判断逻辑的对齐,并且这种改进在不同领域具有泛化性
Rationale Consistency Evaluation
  • 使用 DeepSeek R1 作为 MetaJudge 评估器,测量在 HelpSteer3-Atomic 和 CW-Atomic 上使用仅结果监督与推理+结果监督训练的模型的推理一致性
  • 如表 4 所示
    • 仅结果监督相较于基础模型降低了推理一致性,在域内 HelpSteer3-Atomic 降低了 \(3.97%\),在域外 CW-Atomic 降低了 \(7.08%\)
    • 推理+结果监督在 HelpSteer3-Atomic(域内)将推理一致性提高了 \(+12.13%\),在 CW-Atomic(域外)提高了 \(+1.4%\)
    • 这表明与人类判断逻辑的对齐更紧密,且具有更好的域外泛化能力
Training Dynamics: Similar Outcome Reward, Divergent Rationale Reward
  • 图 3 比较了训练动态
    • 两种方法的结果奖励几乎相同,这表明仅从结果信号中就可以学会选择正确答案,而无需保留丰富的判断过程
    • 推理奖励出现了分化:在没有推理一致性约束的情况下,仅结果模型的推理奖励稳步下降,最终比作者的模型低约 \(24.2%\)
    • 检查推理过程发现,当中间判断不受激励时,模型会舍弃成本高昂的验证,转而依赖成本更低但仍能获得相似结果奖励的替代性线索
      • 作者称之为推理退化,这解释了为什么仅结果训练在结果层面上看起来是对齐的,而在逻辑层面上却是漂移的
Rationale Degeneration
  • 作者将原子理由分为证据依据型 (EG)、准则依据型 (CG) 和通用/风格型 (GS),并跟踪其分布变化(图 4)
    • 即使未经训练,模型也主要产生引用具体证据(例如错误的精确位置)的 EG 理由
    • 在仅结果优化下,模型从证据转向了
      • (1) 听起来专业但未定位问题的模糊 CG 陈述(例如,“代码存在逻辑错误”)
      • (2) GS 宽泛、通用的理由,如“响应 B 更详细”
        • 因为结果奖励是一个二元信号,仔细的证据检查与奖励相关性较弱,所以模型越来越依赖表面线索,逐渐掏空了评估过程
    • 本文方法进一步增加了 EG 理由的比例,鼓励基于证据的判断
  • 为了详细评估模型推理的质量,作者定义了七个缺陷标签 (F1-F7) 来捕捉比较判断中常见的失败模式,并使用 DeepSeek-R1 为模型理由列表中的每一项打标签
    • F1 仅关注风格:关注格式、长度或语气而非内容
    • F2 通用正确性:声称一个响应更正确但未引用证据
    • F3 通用相关性:声称一个响应更相关但未指向具体内容
    • F4 单方面赞扬:赞扬一个响应而不与另一个比较
    • F5 不可证伪:无法从给定响应中验证或反驳
    • F6 不合逻辑:结论与所述前提不符
    • F7 矛盾:与同一推理中的其他陈述冲突
  • 图 5 显示了不同训练信号放大或减少了哪些缺陷
    • 仅结果奖励强烈放大了捷径推理
      • 增幅最大的是 F4 单方面赞扬,从 \(17.76%\) 增加到 \(61.97%\)
        • 这表明模型经常先决定优胜者,然后毫无实质比较地对其进行赞扬
      • F1 仅关注风格也大幅增加,表明更严重地依赖表面线索
      • F5 不可证伪也有所增加,显示出更多难以检查的模糊主张
    • 将推理一致性纳入奖励时,这些被放大的缺陷急剧下降
      • F4 降至 \(0.05%\),几乎消除了单方面论证
      • F1 恢复到接近训练前的水平
      • F2、F3 和 F5 也降至接近零
    • 结论,推理监督减少了浅层启发式方法,鼓励基于证据的、真正具有比较性的推理

Generative Reward Models and LLM-as-a-Judge

  • 为了缓解标量奖励模型的不透明性 (2022),研究已转向生成式奖励模型 (GenRMs) 和“LLM-as-a-Judge”范式 (2023)
  • 虽然像 Prometheus (2024) 和 Auto-J (2024a) 这样的模型通过 CoT 增强了可解释性,且近期工作使用 RL 优化这些推理轨迹 (2025; 2025),但主观评估仍容易陷入“事后合理化”
    • 在这里,CoT 通常是为有偏见的决策提供合理化,而不是作为判断的因果基础 (2024)

Critique

  • Critique-based 方法(例如 Self-Refine (2023))代表了与奖励建模平行的对齐方向
  • 诸如 CritiqueBench (2024) 和 RealCritic (2025) 等基准评估 Critique 质量,这与作者的想法密切相关
  • 作者进一步将这种 Critique 评估转化为奖励建模的监督信号
    • 但由于 Critique 是以文本反馈形式提供的,它们难以在强化学习中有效使用

Meta-Verification

  • 元验证在客观领域已被证明是有效的;
    • 例如,DeepSeekMathV2 (2025) 使用“元验证器”来惩罚数学推理中的幻觉缺陷
  • 作者将这种严格的一致性检查扩展到价值对齐的主观领域
  • 同时期的工作 RM-NLHF (2026) 也利用自然语言反馈进行过程监督,它依赖于 Critique 的语义相似性,而作者的方法强制执行严格的原子理由匹配
  • 这种分解降低了一致性验证的复杂性,产生了稳健可靠的度量,确保了训练和评估的稳定性

Process Supervision vs. Rationale Supervision

  • 推理奖励不同于过程奖励模型 (PRMs, 2024)
  • PRMs 监督求解器的中间步骤以防止逻辑错误,而本文的目标是 Judge
  • 作者不监督解决方案的推导,而是评估本身的逻辑忠实性,要求 Judge 的推理在结构上必然导出其最终标签,以减轻欺骗性对齐

Limitations

  • 计算推理一致性仍然需要高质量的人工标注
    • 虽然先前的工作探索了使用 LLMs 合成人类偏好,但尚不清楚这种信号是否能保留人类判断逻辑
    • 即使是最强大的前沿模型,其与人类推理的一致性也不到 \(40%\),这表明当前 LLMs 在这方面尚不能可靠地替代人类
  • 在不牺牲忠实性的前提下扩展推理一致性监督可能需要新的进展,例如更稳健的方法来验证合成推理的“拟人性”,或更有效的人机协作标注协议

附录 A Details of Benchmark Construction

A.1 Atomic Decomposition

  • 作者用一个原子分解流程来构建原子理由基准,将原始的评估者反馈转化为具体的检查清单项目

  • 如图 6 所示,该流程接收完整的评估上下文,保留基于证据的具体要点,解决冲突,并移除冗余,从而生成一个原子理由列表以及被丢弃的主观或无效陈述

  • Figure6, Decomposition Prompt (核心:指示模型提取具体的、基于证据的评估要点,同时过滤掉模糊的、主观的或相互矛盾的陈述)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    System Instruction: You are an assistant for extracting and concretizing key points. Based on the “Evaluation Content”, structurally summarize the “Brief Evaluation Summary”, 
    keeping only specific, constructive points that can be directly supported by the evaluation content. You may add details from the evaluation content; remove subjective and vague comments; merge duplicate points.

    Input Format:
    <INPUT START>
    [Evaluation Content]
    <history>{history}</history>
    <query>{query}</query>
    <response 1>{response_1}</response 1>
    <response 2>{response_2}</response 2>
    [Brief Evaluation Summary]{str_brief}
    [Evaluation Content]{str_eval}
    <INPUT END>

    Rules:
    1. Each output point must be specific and directly evidenced by the evaluation content; include elements such as object/step/metric, and provide numbers, conditions, ranges, times, or examples whenever possible.
    2. Keep only problem/error-type points that can improve the content; ignore neutral statements.
    3. Remove vague descriptions (e.g., overall poor, needs improvement, may have issues, average performance).
    4. You may use the evaluation content to supplement details to concretize vague statements; if it still cannot be concretized, ignore that summary sentence.
    5. Each point should be simple, specific, and clear. Merge duplicate or synonymous points, keeping the more specific version.
    6. If no specific points can be extracted, output an empty list and explain the reason.
    7. If there are conflicting statements in the evaluation summary, ignore them and explain the reason.

    Important Notes: It is absolutely forbidden to output any content not mentioned in the [Brief Evaluation Summary]! Absolutely no independent evaluation; only rewrite the [Brief Evaluation Summary].

    Output Format:
    <RESULT_START>
    CLAIM_COUNT=integer
    CLAIMS:
    - C1: specific point text
    - C2: specific point text
    IGNORED_SUMMARY:
    - Ignored sentence 1 (Reason: ...)
    <RESULT_END>
    • 中文大致含义:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      **System Instruction:** 你是一个用于提取和具体化关键点的助手
      * 基于“评估内容”,结构化地总结“简要评估摘要”,仅保留可由评估内容直接支持的、具体的、建设性的要点。你可以添加来自评估内容的细节;移除主观和模糊的评论;合并重复的要点
      ...
      **Rules:**
      1. 每个输出点必须是具体的,并且可直接由评估内容证实;包含诸如对象/步骤/指标等要素,并尽可能提供数字、条件、范围、时间或示例
      2. 仅保留可以改进内容的问题/错误类要点;忽略中性陈述
      3. 移除模糊描述(例如,整体较差、需要改进、可能有问题、平均性能)
      4. 你可以使用评估内容来补充细节以具体化模糊的陈述;如果仍然无法具体化,则忽略该总结句
      5. 每个点应当简单、具体、清晰。合并重复或同义的要点,保留更具体的版本
      6. 如果无法提取具体要点,则输出空列表并说明原因
      7. 如果评估摘要中存在相互矛盾的陈述,请忽略它们并说明原因
      **Important Notes:** 绝对禁止输出未在[简要评估摘要]中提及的任何内容!绝对不要进行独立评估;仅重写[简要评估摘要]
      ...

A.2 Benchmark Statistics

  • 本节报告基准统计信息,重点关注各领域检查清单项目的分布情况
  • 该基准包含 1000 个实例,涵盖四个领域:代码、通用、多语言和科学、技术、工程和数学
  • 表 5 总结了各领域的检查清单统计信息
    • 基准包含 1000 个实例(每个领域 250 个)
    • 每个实例的平均项目数从 4.08(多语言)到 4.58(代码)不等,并通过作者的过滤规则被限制在 [3, 7] 之间,该规则旨在移除琐碎或过于复杂的情况
    • 代码和科学、技术、工程和数学领域具有稍高的平均值(分别为 4.58 和 4.54),反映出可提取的技术性批评更多

A.3 Case Study

  • 图 7 和图 8 展示了原子分解如何将自由形式、多注释者的反馈转化为一个紧凑的、可操作的批评要点检查清单
  • 给定完整的评估上下文(对话、候选回复和三位评估者的评论),分解器:
    • (i) 将每个项目基于具体的回复证据;
    • (ii) 将模糊印象重写为具体、可验证的问题;
    • (iii) 通过仅保留一致的批评来解决评估者间的冲突;
    • (iv) 移除冗余和纯粹主观的陈述
  • 输出是一个原子检查清单,其中隔离了关键故障模式(例如,无根据的事实主张、无关的讨论、虚构的情节细节以及冗长/混淆),并记录了被丢弃的主观、无关或矛盾的陈述
  • 图 7:事实核查任务展示了理由分解
    • 用户对“Geoffrey Hurd”被催眠的说法提出了错误主张
    • 三位评估者指出了回复 1 中无根据的主张和无关的讨论
    • 分解过程提取了 3 个具体的、可操作的检查清单项目,同时过滤掉了主观或模糊的陈述
  • 图 8:事实 Query 任务展示了两个回复均存在问题的分解
    • 用户询问一个电视剧集情节
    • 回复 1 包含了无关信息,而回复 2 则虚构了情节细节
    • 分解提取了 4 个可操作的项目

附录 B Creative Writing Dataset Annotation Process

  • 作者从在线日志中收集高质量的创意写作 Query ,涵盖科普文章、影评、散文和小说
  • 人工写作者和多个 LLM 生成回复以形成回复对
  • 三位注释者独立评估每个样本,为两个回复提供对比分析和详细评估
  • 详细的标注说明请参见表 14
  • 由于注释者的评估可能包含冗余、冲突或模糊的表达,作者使用 Gemini-3-Flash 来整合原始标注,合并相似点,过滤过于笼统的陈述,解决冲突并标准化格式
    • 具体示例参见图 11 和图 12

附录 C MetaJudge

C.1 Prompt Template

  • MetaJudge 旨在评估模型生成的批评 (critique) 与人类专家检查清单 (checklist) 之间的一致性
    • 给定一个原始评估列表(模型生成)和一个参考评估列表(人类检查清单),MetaJudge 判定原始列表中每个项目在多大程度上实现了参考列表中每个项目的预期目的/改进目标
    • 图 9 展示了用于严格一对一语义匹配和打分的 MetaJudge 提示

C.2 Case Study of MetaJudge

  • 表 6 和表 7 中的案例研究表明,结果层面的同意可能掩盖了理由一致性方面的重大差异
  • 在案例 1(创意写作)中
    • gemini-2.0-flash 和 deepseek-r1-0528 都倾向于 \(B\) 而非 \(A\)
      • gemini-2.0-flash 提供了大量笼统或非诊断性的批评(例如,“更好的情节”),只是微弱地触及角色混淆这一关键问题,并且错过了提示未对齐和设定发展点(一致性 8.3%)
      • deepseek-r1-0528 明确指出了所有三个人类检查清单项目并提供了具体证据,达到了 100% 的一致性
  • 在案例 2(事实核查)中
    • deepseek-r1 不仅错过了人类检查清单,还颠倒了批评逻辑,它赞扬了 \(A\) 无根据的推测,并为无关的讨论进行辩护,导致了错误的最终决定和 0% 的一致性;
    • gpt-5 则指出了无根据的主张,直接解决了错误的前提,并标记了无关的推理,达到了 100% 的一致性
  • 这些例子共同表明,细粒度语义匹配能够捕捉模型的判断过程是否与人类推理相匹配,超越了最终的偏好标签

C.3 More Results

  • 如图 10 所示的散点图说明了结果正确性与推理质量之间的关系
    • 虽然大多数模型表现出正相关性,但 03-mini 表现为一个显著的异常值(所有图中底部居中),保持了有竞争力的结果准确率,但其理由一致性却崩溃了
      • 这有效地可视化了欺骗性对齐陷阱
    • 在 SOTA 模型(例如 GPT-5,Gemini 3 Pro)中,结果准确率趋于饱和,而理由准确率仍然具有很高的区分度

附录 D Training and Evaluation Details

D.1 GenRM Training

  • 使用 GRPO 算法训练 GenRM,关键超参数如下:

    • 学习率 \(2\times 10^{-6}\),批大小 256,小批大小 128
  • 每个提示采样 \(n = 8\) 个 Response,最大生成长度为 12K Token ,最大提示长度为 8K Token

  • 正向和负向裁剪比率均设置为 \(2\times 10^{-4}\)

  • 模型总共训练 2 个 epoch

  • 用于 GenRM 的训练 Prompt 如图 13 所示

  • (论文标题有错)GenRM Training Prompt(文字版: Prompt 模型需要比较两个 Response 并提供结构化的评估理由以及最终的 Pairwise 判断)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    你将看到一个对话上下文,随后是一个用户 Query 和两个 Response。你需要预测哪个 Response 将更受人类专家标注员的青睐。你可以考虑任何你认为合适的标准。尽力而为,仔细思考,深入分析 Response,并提供最终裁决

    首先,以列表格式输出评估理由。理由应根据其对最终评估的影响从高到低排序。理由应具体、清晰、有针对性,避免模糊或重复

    最后,单独给出最终评估结果,并且必须严格使用以下五种格式之一:
    Response A 明显更受人类专家标注员青睐:\\(\boxed{A>B}\\)

    Response A 略微更受人类专家标注员青睐:\\(\boxed{A>B}\\)

    平局,人类专家标注员认为相对相同:\\(\boxed{A=B}\\)

    Response B 略微更受人类专家标注员青睐:\\(\boxed{B>A}\\)

    Response B 明显更受人类专家标注员青睐:\\(\boxed{B>A}\\)

    输出格式(严格遵守;不要添加标记外的内容):

    <RESULT_START>
    理由列表:
    - 具体的评估理由
    -
    最终评估结果:使用上述五种格式之一
    <RESULT_END>
  • Figure 14:Creative-writing pairwise evaluation annotation instructions

D.2 Downstream Policy Alignment Training

  • 下游策略对齐也采用 GRPO 算法,超参数如下:
    • 学习率 \(2\times 10^{-6}\),批大小 512,小批大小 128。作者对每个提示采样 \(n = 8\) 个 Response,最大生成长度为 12K Token ,最大提示长度为 8K Token
    • 正向和负向裁剪比率设置为 \(2\times 10^{-4}\)
    • 策略模型使用训练好的 GenRM 作为奖励信号,训练 90 步

附录 E Case Studies

  • 案例 8 和 9 说明了仅结果 (Outcome-Only, OC) 训练下理由质量如何退化,以及理由+结果 (Rationale+Outcome) 训练如何不仅能防止这种退化,还能超越基线
  • 表 7: 案例 2:事实准确性评估
    • deepseek-r1 颠倒了人类判断(赞扬 A 的推测),达成 0% 一致性
    • gpt-5 正确识别了所有事实问题

附录 F Human Annotation: Recruitment, Compensation, Diversity, and Quality Control(人工标注:招募、报酬、多样性与质量控制)

  • 根据合同协议招募标注员,并提供与当地劳动力成本相称的、具有竞争力的、充足的报酬
  • 为了减少人口统计偏差并提高标注质量,作者力求招募具有不同背景的标注员
  • 每个样本由三名标注员独立标注,分歧通过复核和聚合规则解决以产生最终标签
  • 该数据集仅用于研究评估和测试目的,不用于商业用途或面向用户的部署
  • 作者在数据收集和使用之前获得了数据所有者的统一授权,并遵守允许的范围及任何相关要求
  • 表 8: 案例 1:游戏角色招式列表
    • OC 模型产生通用批评,达成 0% 理由一致性
    • 第 0 步仅识别出 3 个问题中的 1 个(33% RC)
    • 理由+结果模型通过识别所有 3 个问题超越了基线(100% RC)
  • 表 9: 案例 2:Python Futurize 命令
    • OC 模型产生完全错误的分析(声称错误的标志是正确的),达成 0% 理由一致性
    • 第 0 步仅识别出 1 个问题(25% RC)
    • 理由+结果模型通过正确识别两个 Response 都存在标志问题超越了基线(75% RC)