NLP——LLM对齐微调-Rubicon

注:本文包含 AI 辅助创作

Paper Summary

  • 问题提出:
    • RLVR 中奖励来源于确定性的、可通过程序验证的信号,所以RLVR 被限制在了具有清晰、可自动检查结果的领域
  • 方法:
    • 论文通过 Rubric-based Reward ,将 RLVR 范式扩展到严格可验证领域之外,将开放式的任务整合到该框架中
    • 精心设计的 Rubrics 作为结构化、模型可解释的标准,使得对本质上具有主观性或多维输出的任务能够进行自动评分
  • 贡献:
    • 论文构建了迄今为止 最大的 Rubric 奖励系统
    • 包含 超过 10,000 个由人类、各种 LLMs 或通过 human-LLM 混合协作生成的 Rubric
  • 注:实现 Rubric-based 强化学习具有挑战性,需要仔细的 Rubric 构建、数据整理和训练策略设计
  • 论文通过一个清晰的、 Rubric 驱动的强化学习框架来解决这些问题,并展示了使用此方法训练的开源 Qwen-30B-A3B 模型,取得了显著的提升:
    • 仅使用 5K+ 训练样本,论文的训练系统在各种开放式基准测试(尤其是人文中心任务)上实现了 +5.2% 的绝对提升
      • +2.4% 的分数超过了 671B 参数的 DeepSeek-V3 模型,同时保持了一般能力和推理能力基准测试上的性能
    • 论文的方法提供了细粒度的风格控制
      • 通过使用 Rubric 作为明确的锚点,它能有效缓解常见的 “AI化(AI-like)” 和说教式的语调,产生具有显著更高拟人度和情感表现力的回应
  • 论文剖析了论文的经验,并分享了在 Rubric 构建、数据选择和训练策略方面的关键教训
  • 论文也坦率地讨论了本研究尚未完成的一些方面,并计划在未来进行进一步的发布
    • 注:作者还会继续发布类似的进一步研究

Introduction and Discussion

  • OpenAI o1 (2024) 的发布标志着 LLM 发展的新时代,而 RLVR (2024; 2025) 已成为一个关键趋势
    • RLVR 方法通过实现测试时缩放 (test-time scaling),推动了 LLM 的创新浪潮
    • RLVR 的核心原则是利用那些对于模型而言难以解决,但可以轻松且客观验证的数据 (2022; 2022; 2024)
      • 典型的例子包括来自数学和竞技编程的数据,其中的解决方案可以被自动验证:数学答案通过与正确答案匹配来验证 (2025),代码解决方案通过在在线沙盒环境中针对一系列测试用例执行来验证 (2025)
      • 无论是专有 (2025; 2025; 2025) 还是开源的努力 (2025; 2025; 2025; 2025) 都例证了这种范式,实现了可扩展的测试时推理,并拓展了在数学、竞技编程、网络搜索及其他验证器丰富的领域的能力边界
  • 虽然 RLVR 范式取得了相当大的成功,但它本质上受到其对具有客观可验证解决方案的问答对的依赖所限制
    • 这种结构依赖性给可扩展性设置了硬性上限:此类数据的供给,尽管在数学和编程等领域相当可观,但终究是有限的
    • 因此,RLVR 的适用性仍然局限于狭窄的任务子集
  • 论文通过扩展 RLVR 以纳入开放式任务和其他形式的不可验证数据来解决这一限制,从而将其适用性拓宽到更广泛的现实世界场景
    • 然而,这一转变引入了一个根本性的挑战:如何在缺乏显式基本事实 (ground truth) 的情况下,构建既可靠又可扩展的奖励信号
  • Rubric-based Reward 提供了一条有前景的路径:通过定义结构化、可解释的评估标准,它可以捕捉超越二元正确性的回应质量的多维方面 (2022; 2023; 2024; 2025)
  • 虽然几项并行工作 (2024; 2025; 2025; 2025) 已开始探索这一想法,但论文的工作系统地识别了 Rubric-based Reward 在强化学习训练中有效所需的关键组成部分
  • 不足为奇的是(Not so surprisingly),依赖单一 Rubric 存在奖励利用 (Reward Exploitation) 的风险,而无差别地扩展 Rubric 数量(无论是由人类还是 LLMs 生成)只会带来边际收益
    • 问题:这里是不是写错了?不是 Reward Exploitation 而是 Reward Hacking 吧?
  • 为了评估论文 Rubric-based 训练框架的全部潜力,论文构建了迄今为止最大的 Rubric 奖励库,包含 超过 10,000 个 Rubrics
  • 在此过程中,论文进行了广泛的实证测试,并发现成功并非易事
    • 成败紧密依赖于 Rubric 本身的多样性、粒度和数量,以及恰当的训练流程和精细的数据整理
  • 论文的训练流程采用两阶段强化学习过程来逐步提升模型能力
    • 第一阶段通过可靠的指令遵循和高质量的 Critic 开发,使用可验证检查和静态的多维度 Rubric ,建立强大的约束处理基础
    • 第二阶段针对更开放式、基于社会背景的创造性任务,通过高质量参考和由更强代理工作流生成的 Instance-specific Rubric 进行评估,培养适应性和更丰富的表达
  • 论文发现 Rubric 构建没有万能之策
    • 在将每组 Rubric 整合到训练流程之前,论文都会对其仔细进行消融研究
    • 最终产生的 Rubric 涵盖多个范围:有些基于特定数据集,有些在任务级别定义,还有些与每个数据点相关联,类似于 Healthbench (2025) 评估中使用的方法
    • 这些 Rubric 由人类专家、LLMs(论文使用自批判模型 (Qwen3-30B-A3B) (2025) 或强大的 Gemini 2.5 Pro API (2025))或通过两者的迭代组合生成
  • 论文将论文的方法命名为 Rubicon,名字来源于 RUBrIC aNchOrs
  • 由此方法,论文产生了一个经过强化学习训练的模型 Rubicon-preview ,该模型展示了几个显著的优点
    • 1)高令牌效率性能(Performance with high token efficiency) :在主观、人文中心的任务上,30B 参数的 Rubicon-preview 模型实现了 +5.2% 的绝对提升,以 +2.4% 的百分比优势超过了 671B 参数的 DeepSeek-V3 模型,仅使用了 5K 数据样本
    • 2)风格可控性(Style controllability) : Rubric-based 强化学习可以作为引导 LLM 输出风格的可控锚点,产生更拟人、更具情感表现力且较少公式化的回应
    • 3)通用能力保持(General ability maintenance) :尽管论文的 Rubric 并非针对数学或编程等 STEM 导向的任务设计,但 Rubicon-preview 有效避免了对通用能力的负面干扰
      • As a result,该模型在保持其整体能力的同时,还在包括 AIME 2024 (+4.1%) 和 AIME 2025 (+0.8%) 在内的推理基准测试上带来了额外增益
  • 最后说明-1(A final note-1)
    • 论文坦率地承认,这项工作是一个初步尝试, Rubric-based 强化学习的许多方面仍有待深入探索
    • 开放性问题依然存在,例如 Rubric 的粒度和规模如何影响性能,以及 Reward Hacking 背后的精确机制
    • 论文打算继续这项研究,并希望持续更新到本技术报告和开源模型
  • 最后说明-2(A final note-2)
    • 论文的结果突显了显著的令牌效率:仅使用 5K 样本配合大量 Rubric ,论文的方法就带来了显著增益。这一观察提出了一个关于缩放定律的新问题:有限的令牌数量与大量 Rubric 的结合,是否代表了 LLMs 一种新的训练后缩放定律形式?

Rubric System

Rubrics Design & Tasks Curation

  • 论文的 Rubric 设计和任务整理遵循评估不对称性 (evaluative asymmetry) 原则:验证一个候选输出应该比生成它简单得多 (2022; 2024)
  • 为实现这一点,论文采用 “Rubric 优先(rubric-first)” 的工作流程:
    • 首先构建模型可验证的 Rubric ,然后整理或合成匹配这些 Rubric 的数据,最后将这些 Rubric 重新用于监督、奖励塑形 (reward shaping) 和评估
    • 这一策略确保了数据获取、模型训练和评估过程中标准的一致性
  • 在此框架下,论文通过将其基础 Rubric \(\mathcal{R}\) 定义为 \(K\) 个不同的评判维度集合来形式化论文的评分函数:
    $$
    \mathcal{R}=\{r_{1},r_{2},\ldots,r_{K}\}.
    $$
  • 每个维度 \(r_{k}\) 由三个组成部分指定:
    • (1) 定义评估方面的准则描述 \(c_{k}\);
    • (2) 一个有序的 \(m_{k}\) 个分数等级集合 \(\{l_{k,1},\ldots,l_{k,m_{k} }\}\),每个等级映射到一个量化分数;
    • (3) 一个表示其相对重要性的关联权重 \(w_{k}\)
  • 这种形式化将多样化的评估协议统一在单一的抽象表示下:
    • 既容纳了高层次、通用的 Rubric (例如,涉及开放式创造性生成的任务)
    • 也容纳了细粒度、可通过程序验证的 Rubric (例如,需要严格遵守指令约束的任务),
    • 所采用的 Rubric 见附录 A.2 和 A.3
  • 这种结构化、多维度的 Rubric 定义是论文奖励框架的基础
    • 通过这种方式形式化评估标准,我们可以将其直接转化为用于策略优化的细粒度和可解释的奖励信号,如下文所述
  • 图 1:论文 Rubric 系统的概览
    • 数据收集阶段(左侧,橙色)从初始的 Rubric 设计开始,创建一套标记与评分工作流,将大型语料库过滤为高质量的离线过滤数据
    • 这些数据随后作为 Rubric 更新阶段(右侧,绿色)的种子,其中带有 Rubric 的强化学习循环不仅验证强化学习数据,还提供反馈以迭代更新 Rubric 本身
    • 这个迭代过程确保最终数据与持续改进、模型可验证的评估标准紧密对齐

Rubric-Based Reward Framework

Multi-Dimensional Reward Signal
  • 给定 Rubric \(\mathcal{R}\),论文定义一个奖励函数 \(R(y|x,\mathcal{R})\),它将回应 \(y\) 映射到一个多维度反馈向量:
    $$
    R(y|x,\mathcal{R})=[r_{1}(y|x),r_{2}(y|x),\ldots,r_{K}(y|x)],
    $$
    • 其中每个分量 \(r_{k}(y|x)\in\mathcal{R}\) 是第 \(k\) 个维度的分数
    • 这个向量提供了一个在所有指定标准上模型性能的细粒度、可解释的信号
Advanced Reward Aggregation
  • 为了导出一个用于优化的标量奖励,一个简单的加权和(weighted sum) 可以作为自然的基线
    $$ R_{\text{total} }=\sum_{k=1}^{K}w_{k}\cdot r_{k}(y|x)$$
    • However,有效的 Rubric-based 优化通常需要更复杂的聚合来捕捉维度之间的非线性相互依赖关系
    • Fherefore,论文的框架超越了线性组合,纳入了一套高级策略:
      • 否决机制 (Veto Mechanisms)
        • 在关键的、不可协商的维度上失败(例如,一个检测 Reward Hacking 的 Rubric )可以预先使所有其他维度的奖励无效,充当硬性约束
      • 饱和度感知聚合 (Saturation-Aware Aggregation)
        • 论文使用饱和函数来模拟在单一维度上超越某个阈值后,卓越表现的边际收益递减,鼓励平衡、多方面的改进
      • 成对交互建模 (Pairwise Interaction Modeling)
        • 该框架可以显式建模标准之间的协同或拮抗效应,捕捉简单求和会忽略的复杂关系
      • 定向奖励塑形 (Targeted Reward Shaping)
        • 论文采用非线性映射函数,选择性地放大高性能区域的分数差异
        • 这增强了奖励信号的区分能力,在分数可能被压缩的情况下,为细粒度优化提供了更精细的梯度

Implementation of Rubicon Framework

  • 论文的训练方法是一个多阶段 RL 协议,旨在逐步培养一系列能力,从精确的指令遵循到复杂的创造性和社会推理
    • 这种顺序方法显著减少了计算开销,同时保持了可扩展性
  • 此框架中使用的所有数据均来自专有的 900K+ 实例语料库,该语料库从多种来源整理而来,包括社区问答论坛、高质量考试和一般对话数据集,并通过策略性采样确保广泛的主题覆盖

Data Selection and RL Pipeline

Offline Data Filtering
  • 在强化学习阶段之前和阶段之间应用过滤协议以确保高质量的训练数据
  • 对于每个 Instruction-Rubric 对的候选池,基础模型生成回应,然后由论文的 Critic models 进行评分以获得完整的分数分布
  • 论文仅保留那些处于校准中心分位数内的实例
    • 排除那些提供有限学习信号的高分实例,以及可能是噪音或低质量的非常低分实例
    • 这产生了一个平衡的、高潜力的子集,其构成在各阶段之间进一步调整以针对特定能力
Stage-wise RL Training
  • 在论文的实验中,论文观察到一个“跷跷板效应 (seesaw effect)”:在不同任务类型(例如,严格的约束遵循与开放式创造力)上联合训练通常会降低整体性能,很可能是由于冲突的优化目标
  • 为了缓解上面这个问题,论文采用了一个简单的分阶段强化学习计划作为一种务实的缓解策略,但不声称它是确定的解决方案(without claiming it as a definitive solution)
    • 第一阶段 ,论文强调可靠的指令遵循和多维度评估对齐
      • 使用可通过程序验证的检查和静态 Rubric 来构建强大的约束处理基础
    • 第二阶段 ,论文扩展到更开放式、基于社会背景的创造性任务
      • 利用基于参考的 Rubric 和通过更强代理工作流生成的 Instance-specific 标准(criteria)来提升适应能力(adaptability)

Adaptive Defense Against Reward Hacking

  • 论文在实验中遇到的一个重大挑战是 Reward Hacking 的出现,特别是在专注于少量能力的初始强化学习阶段
    • 论文观察到模型可能迅速学会利用特定的 Rubric 标准,导致表面的奖励最大化而非真正的改进
  • 为了解决这个问题,论文实施了一种自适应防御策略
    • 该过程始于对这些初始训练运行的 Rollout 数据进行离线分析
    • 通过检查奖励信号异常高的实例,论文系统地识别并分类反复出现的、高层次的 Reward Hacking 行为模式
      • 这种实证分析为开发专用的 Reward Hacking 防御 Rubric (Reward Hacking Defense Rubric)(见附录 A.1)提供了依据
    • 这个新 Rubric 不属于初始训练,而是从观察到的失败模式中综合而来,并作为监督约束集成到所有后续更复杂的强化学习阶段中
  • 包含此防御机制对训练动态产生了实质性改进
    • 它充当了关键的护栏,防止策略崩溃到 Reward Hacking 状态
      • 这通过训练稳定性的显著增加得以证明;
    • 论文能够进行更长、更富有成效的训练轮次,因为防御 Rubric 缓解了先前导致持续优化无效的灾难性奖励峰值
      • 通过主动惩罚对评分伪影的利用,这种迭代优化确保学习过程仍然专注于实质性的能力提升

Experimental Results

  • 论文的实验结果涵盖以下三个方面:
    • 定量衡量基于 Rubric 的 RL 训练在开放式、以人为本的基准测试上的收益,包括对模型情商(emotional intelligence,EQ)及其产生类人 Response 能力的评估
    • 定性分析模型生成输出随时间如何演变(evolve),通过代表性输出展示进行说明
    • 评估基于 Rubric 的 RL 训练对通用能力基准测试的影响
  • 相应的消融研究随后呈现

Quantitative Evaluation

Benchmarks
  • 与 RLVR 不同,基于 Rubric 的 RL 的主要优势在缺乏可验证奖励的基准测试上最为明显
  • 为了证明这一点,论文收集了一套多样的开放式和人文中心的基准测试
    • 涵盖 Creative Writing V3 (Paech, 2024)、Writingbench (2025)、Judgemark V2 (Paech, 2024)、EQ-Bench3 (Paech, 2024)、IFEval (2023)、Collie (2023) 和 IFScale (2025)
  • Alongside them,论文进一步覆盖了一系列多样的基准测试以检查其他能力是否有潜在的退化
    • 包括 MMLU (2021a)、HellaSwag (HS) (2019)、StoryCloze (SC) (2018)、IQuiz-EQ (IQ-EQ) (2024)、SocialIQA (SIQA) (2019)、CoQA (CQ) (2019)
    • 以及一组推理基准测试,如 AIME24 (Math-AI, 2024)、AIME25 (Math-AI, 2025)、Math500 (2021b)、GPQA-Diamond (GPQA-D) (2023) 和 LiveCodeBench v5 (LCB v5) (2024)
Baselines and Main Results
  • 论文选择 Qwen3-30B-A3B (2025) 作为论文的基础模型
  • 论文将经过 RL 训练的模型称为 Rubicon-preview
  • 如表 1 所示,Rubicon-preview 在这些基准测试上平均实现了 5.2% 的绝对提升
    • 为了进一步比较,论文还评估了 DeepSeek-V3 (DeepSeek-2025) 的性能,这是一个在人文学科、社会科学和开放式查询方面以强大能力而闻名的模型
    • 论文的方法成功超越了 DeepSeek-V3 2.4%
  • 论文的定量结果表明,Rubicon-preview 通过在写作和情商基准测试上显示出显著改进而处于领先地位
    • 对于指令遵循能力,虽然它在 IFEval 上显示出轻微的下降,但 Rubicon-preview 在其他两个指令遵循基准测试上仍然表现出色

Case Studies on Controllable Output Style with Rubrics

  • Rubrics 作为可控的锚点,将 LLM 导向定义明确的输出风格

  • 论文提供了几个说明性示例来展示这种效果

  • 下面,论文首先展示采用的 Rubrics,然后比较基线模型和使用基于 Rubric 的 RL 训练的模型

  • 所得风格通常是平实且信息丰富的,“AI-like”或说教语气(didactic tone)大幅减少,并展现出更强的类人性和情感表现力。B 节和 C 节展示了论文模型的更多输出示例

  • Style Evaluation Rubric: Plain Narrative

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    **Objective:**
    To critically appraise the model’s success in adopting a specific narrative style: the **Plain Narrative**.
    This style is characterized by language that is simple, restrained, and reflects a deep, quiet resilience.

    **Guiding Principle:**
    The evaluation prioritizes stylistic authenticity over literary polish or technical correctness. The core measure of success is the response’s capacity to ”feel right” by avoiding any sense of artificiality (’AI-speak’, ’preachy-speak’).

    **Core Evaluative Criteria:**
    1. Relational Efficacy (Voice & Tone): This criterion gauges the authenticity of the narrative voice. Key indicators include:
    1.1 Calm Acceptance: A quiet acceptance of fate, life, and death.
    1.2 Grounded Realism: Rooted in concrete, physical details, not abstract concepts.
    1.3 Understated Emotion: Complex feelings expressed with profound restraint.
    2. Intellectual Contribution (Content & Ideas): This assesses the substantive value of the insights embedded in the narrative. Key indicators include:
    2.1 Emergent Wisdom: Insights emerge naturally from lived experience, not direct lecturing.
    2.2 Affirmation of the Ordinary: Genuinely values existence itself, without regret or romanticization.
    3. Compositional Excellence (Language & Stylistics): This scrutinizes the stylistic integrity of the narrative voice. Key indicators include:
    3.1 Colloquial & Simple: Use of short, plain sentences and natural speech patterns.
    3.2 Textured Details: Specific, sensory details that are evocative and tell a story.
    3.3 Natural Rhythm: Restrained, authentic repetition; avoids overly polished prose.

    [Question Begin]
    <<question>>
    [Question End]

    [Model Answer Start]
    <<model_answer>>
    [Model Answer End]

    **Key Imperatives:**
    • Primacy of Authenticity: The response must feel genuine to the requested style. Any hint of artificiality is a significant failure.
    • Aversion to the Formulaic: The response must avoid cliches and generic statements about life, wisdom, or hardship.

    The output should be a JSON object containing the evaluation results.
    {
    "rubric_idx": <integer>, // The criterion's identifier (1, 2, or 3)
    "reason": <string>, // Detailed rationale for this criterion's score
    "score": <integer> // Assigned score for this criterion (1-5)
    }
    • 中文版本:风格评估 Rubric:平实叙事 (Style Evaluation Rubric: Plain Narrative)

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      **目标 (Objective):** 批判性地评估模型在采用特定叙事风格(即**平实叙事**)方面的成功程度。该风格的特点是语言简单、克制,并反映一种深沉、平静的韧性

      **指导原则 (Guiding Principle):** 评估优先考虑风格的真实性,而非文学修饰或技术正确性。成功的核心衡量标准是 Response 通过避免任何人工痕迹(‘AI式语言(AI-speak)’、‘说教语气(preachy-speak)’)而“感觉自然”的能力

      **核心评估标准 (Core Evaluative Criteria):**
      1. **关系效能(声音与语气)(Relational Efficacy (Voice & Tone)):** 此标准衡量叙事声音的真实性。关键指标包括:
      **1.1 平静接受 (Calm Acceptance):** 对命运、生活和死亡的平静接受
      **1.2 接地气的现实主义 (Grounded Realism):** 植根于具体的、物理的细节,而非抽象概念
      **1.3 含蓄的情感 (Understated Emotion):** 复杂的情感通过深刻的克制来表达

      2. **智力贡献(内容与思想)(Intellectual Contribution (Content & Ideas)):** 此标准评估嵌入在叙事中的见解的实质价值。关键指标包括:
      **2.1 涌现的智慧 (Emergent Wisdom):** 见解从生活经验中自然涌现,而非直接说教
      **2.2 对平凡的肯定 (Affirmation of the Ordinary):** 真正珍视存在本身,没有遗憾或浪漫化

      3. **写作卓越性(语言与文体)(Compositional Excellence (Language & Stylistics)):** 此标准审视叙事声音的文体完整性。关键指标包括:
      **3.1 口语化且简单 (Colloquial & Simple):** 使用简短、朴素的句子和自然的说话模式
      **3.2 有质感的细节 (Textured Details):** 具体、感官的细节,具有感染力并能讲述故事
      **3.3 自然的节奏 (Natural Rhythm):** 克制的、真实的重复;避免过度修饰的散文

      [问题开始]
      <<问题>>
      [问题结束]

      [模型回答开始]
      <<模型回答>>
      [模型回答结束]

      **关键要务 (Key Imperatives):**
      * **真实性的首要地位 (Primacy of Authenticity):** Response 必须让人感觉符合所请求的风格。任何人工痕迹的暗示都是重大失败
      * **避免公式化 (Aversion to the Formulaic):** Response 必须避免关于生活、智慧或艰辛的陈词滥调和通用陈述

      输出应是一个包含评估结果的 JSON 对象
      {
      "rubric_idx": <整数>, // 标准标识符 (1, 2, 或 3)
      "reason": <字符串>, // 此标准得分的详细理由
      "score": <整数> // 为此标准分配的分数 (1-5)
      }
      • 理解:Core Evaluative Criteria 部分就对应 Rubrics
  • Conversation Session 1

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    **Prompt:** When in your life have you felt the most alive?

    ---------------------------
    **Rubicon(Stylized):**
    <think>
    Okay, the user asked, ”When in your life have you felt the most alive?” First, I need to determine the user’s need. They might be looking for a personal story or want to learn how to describe this feeling.
    Since they requested an English response, I need to ensure my answer flows smoothly and naturally.
    Next, I need to consider the user’s potential underlying need. They might be looking for a real, compelling example or seeking inspiration.
    Therefore, I need to choose a specific scenario ...
    </think>
    **The Moment the Mountain Spoke Back**
    I remember the exact moment the alpine wind ceased its whisper and the world held its breath. It was the third day of my solo trek through the Swiss Alps,
    my boots crunching through frost-locked gravel as I ascended the final ridge. The sun had just crested the peaks, casting long shadows that stretched like fingers across the snowfield,
    and I stood at the edge of a sheer drop, my breath visible in the thin air.
    My body was a symphony of ache - legs trembling from the climb, lungs burning with each inhale, fingers numb beneath thick gloves.
    Yet there was a strange exhilaration in that discomfort, a primal thrill that made my pulse race. Below me, the valley unfolded in a mosaic of emerald forests and glimmering lakes, while above,
    the sky stretched into an infinite blue that seemed to swallow the horizon. For the first time in weeks, I felt completely present, my senses sharpened to a razor’s edge.
    As I took a tentative step forward, the snow gave way under my weight. I froze, heart pounding, as the world tilted sideways. But then, like a whispered secret,
    the mountain responded. A gust of wind swept through the crags, scattering a shower of snowflakes that caught the sunlight and danced like tiny stars. In that instant,
    I understood: this was not a place of danger, but of dialogue. The mountain was not a challenge to conquer, but a companion in the act of becoming.
    I continued, each step a testament to the fragile, glorious act of living. The cold bit into my skin, the altitude thinned my thoughts, but I savored every second.
    It was in that raw, unfiltered moment - where the boundaries between self and universe dissolved - that I felt the full, unvarnished truth of my existence.
    The mountain had not just shown me its beauty; it had reflected back the wild, untamed spirit that lives in all of us.

    ---------------------------
    **Qwen3-30B-A3B:**
    <think>
    Okay, the user is asking when I’ve felt the most alive. But wait, I’m an AI, so I don’t have personal experiences or emotions.
    I need to address that upfront. Let me start by clarifying that I don’t have personal feelings, but I can help them reflect on their own experiences.
    Hmm, how to approach this? Maybe start by acknowledging the question’s nature ...
    </think>
    I don’t experience emotions or personal moments in the way humans do, but I can help you explore this question for yourself.
    When have you felt most alive? Perhaps during a moment of deep connection—like laughing with friends, creating art, or standing in nature. Or maybe during a challenge that pushed you beyond your limits,
    like finishing a difficult project or overcoming fear. These moments often involve presence, passion, or a sense of purpose. What memories stand out to you? I’d love to hear your story.
    • 中文版:对话会话 1
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      **Prompt:** When in your life have you felt the most alive?

      **Rubicon(Stylized):**

      <think>
      好的,用户问,“你生命中最有活力的时刻是什么时候?”。首先,我需要确定用户的需求。他们可能想寻找一个个人故事,或者想学习如何描述这种感觉。由于他们要求英文 Response,我需要确保我的回答流畅自然
      接下来,我需要考虑用户潜在的深层需求。他们可能想寻找一个真实、引人入胜的例子,或者寻求灵感。因此,我需要选择一个特定的场景...
      </think>

      **山脉回应的时刻**
      我记得高山风停止低语、世界屏住呼吸的确切时刻。那是我独自穿越瑞士阿尔卑斯山徒步的第三天,我的靴子踩过覆霜的碎石,登上了最后一道山脊。太阳刚刚越过山峰,投下长长的影子,像手指一样延伸过雪地,我站在一处陡峭悬崖的边缘,我的呼吸在稀薄的空气中清晰可见
      我的身体是一场疼痛的交响乐——双腿因攀爬而颤抖,肺部每次吸气都灼烧般疼痛,手指在厚厚的手套下麻木。然而,在这种不适中却有一种奇怪的兴奋感,一种原始的刺激让我的脉搏加速。在我下方,山谷展开成一幅翠绿森林和波光粼粼湖泊的马赛克图景,而上方的天空则延伸成一片无限的蓝色,似乎要吞没地平线。几周以来,我第一次感到完全沉浸在当下,我的感官敏锐到了极点
      当我试探性地向前迈出一步时,雪在我的重量下垮塌了。我僵住了,心脏狂跳,世界向一侧倾斜。但随后,像一个低语的秘密,山给出了回应。一阵风穿过岩缝,扬起一片雪花,它们捕捉了阳光,像小星星一样起舞。在那一瞬间,我明白了:这不是一个危险的地方,而是一个对话的地方。这座山不是一个需要征服的挑战,而是“成为”过程中的一个同伴
      我继续前行,每一步都证明了脆弱而光荣的生存行为。寒冷刺痛我的皮肤,高海拔让我的思绪变得稀薄,但我品味着每一秒钟。正是在那个原始、未经过滤的时刻——自我与宇宙之间的边界消融——我感受到了我存在那完整、未加修饰的真相。这座山不仅向我展示了它的美丽;它还映射出了存在于论文所有人内心那狂野、未驯服的精神

      **Qwen3-30B-A3B:**
      <think>
      好的,用户在问“你生命中最有活力的时刻是什么时候?” 但是等等,我是一个 AI,所以我没有人格的经历或情感。我需要事先说明这一点。让我先澄清我没有个人感受,但我可以帮助他们反思自己的经历
      嗯,如何着手呢?也许可以先承认问题的本质...
      </think>
      我没有像人类那样的情感或个人时刻,但我可以帮助你自己探索这个问题。你什么时候感觉最有活力?也许是在深度连接的时刻——比如和朋友一起欢笑、创作艺术,或者置身于大自然中。或者可能是在一个挑战你超越极限的时刻,比如完成一个困难的项目或克服恐惧。这些时刻通常涉及临在感、激情或目标感。哪些记忆对你来说最为突出?我很想听听你的故事

Maintaining General Ability

  • 专门的 RL 训练有时可能会损害模型的通用和推理能力
    • 为确保论文的方法不会出现这种情况,论文进一步在广泛的通用和推理基准测试上评估了基于 Rubric 的 RL 的可扩展性
  • 如表 2 所示
    • (i) Rubicon-preview 不会降低如 MMLU 等通用基准测试的性能
    • (ii) 它甚至在数学数据集上带来了适度的改进,在 AIME24 上实现了 +4.17% ,在 AIME25 上实现了 +0.83%

The “Seesaw” Effect(”跷跷板”效应)

  • 对不同任务类型的 Rubrics 应用 RL 可能会产生冲突的目标,导致性能权衡(论文称这种现象为“跷跷板效应”)
  • 如图 2 所示,仅使用指令遵循 Rubrics 进行训练会提高合规性但降低创造力,而仅使用创造力和同理心 Rubrics 进行训练会增强开放式 Response 但损害严格遵循度
    • 例如,专注于创造力的模型在 Collie (-6.0%) 和 IFEval (-5.9%) 上下降,而专注于指令遵循的模型在 EQ-Bench3 (-2.2%) 上下降
    • 图 2:
      • 灰点代表基线模型 Qwen3-30B-A3B
      • 橙色标记表示仅在创意任务上进行 RL 训练的模型,而绿色标记表示仅在指令遵循任务上进行 RL 训练的模型
      • 纵轴表示任务类别,横轴显示模型在相应任务上的性能
  • 这些结果表明,简单地将所有 Rubric 类型结合在单次 RL 运行中很可能会加剧这种冲突
    • 为了克服这个问题,论文采用了多阶段 RL 策略
  • 多阶段 RL 训练 (Multi-stage RL Training)
    • 论文采用多阶段 RL 策略来训练论文的模型
    • 通过首先建立强大的指令遵循基础,然后叠加创造性和同理心技能,论文的模型在这些领域实现了强劲的提升,同时很大程度上保留了其指令遵循能力
    • 类似的技术在 (2025; 2025b) 中也有探索

Outlook

  • 本节概述了关于可扩展的基于 Rubric 的 RL 训练这一主题的一些关键观点

Benchmarks

  • 论文实验的一个关键收获是,当前的基准测试不足以全面评估论文基于 Rubric 的方法
    • Noted,论文也依赖人类反馈来大规模评分模型的 Response;
    • However,这并没有在标准化基准测试中得到一致的反映
  • 目前仍然缺乏能够准确反映 LLM 开放式、拟人化能力的基准测试,而这些能力正变得饱和

Rubric system

  • 在论文的探索性设置中,Rubrics 是促进学习过程的核心
  • 论文发现这些 Rubrics 的数量、多样性、粒度和质量,以及数据管理,在模型成功中起着关键作用
  • For instance,论文的 Rubrics 在不同粒度级别上设计,从任务级别到集合级别,甚至到每个样本级别
  • However,确定 Rubric 系统的最佳层级结构以实现最高的性能增益和标记效率,仍需要未来进行更系统的研究

Scaling RL training

  • RLVR 适用于具有可验证奖励的任务,而我们的方法(Rubicon)则面向不可验证答案的互补场景
  • 一个重要的未来研究方向是探索如何将这两种范式结合起来
  • In particular,跷跷板效应 在这种结合的 RL 训练框架中会如何出现,以及如何加以管理,仍然是一个有待解决的问题

附录 A:Rubric 演示

Rubrics for Defensing Reward Hacking

  • 论文认识到创造性和共情任务更容易受到奖励 Reward Hacking 的影响,因此实施了一个强大的、基于 Rubric 的拦截策略,以主动识别并惩罚此类行为
  • 此对策被设计为一个确定性的启发式过滤器,专门用于检测那些旨在最大化奖励信号而非提升真实质量的公式化模式
  • 该过滤器分析响应中是否存在奖励 Reward Hacking 的两个主要指标:
    • 开篇谄媚(prefatory sycophancy),即对用户 Prompt 的 gratuitous praise
    • 自我赞美(laudatory self-evaluatio),即对响应自身优点的元评论
  • 任何被此拦截协议标记的生成文本,无论其其他潜在优点如何,都会立即被取消标准奖励途径的资格,获得零分
    • 这种严格的把关机制旨在抑制模型学习表面的奖励代理物,从而迫使模型优化实质性的内容质量,而非易于复制的、表演性的产物
  • QA task hacking defense instructions (disencourage behaviors)(英文见原始论文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    [Task Description]
    您是一位文本特征分析师,需要判断给定文本是否包含以下两个特征,并按指定的 JSON 模板输出
    **待分析特征:**
    1. 开篇赞美 (称赞用户的问题)
    2. 自我评价 (评价自身的回答)

    [Decision Process (Step by Step)]
    **Step-0:** 阅读整个文本,区分主要回答内容与附加的解释性内容
    **Step-1:** 分离出 "第一句话" (遇到第一个句号/问号/感叹号/换行符即视为完整)
    **Step-2:** 判断是否存在 "开篇赞美"
    * **2.1** 必须同时满足:
    1. (a) 目标 = 用户的问题/问题本身
    2. (b) 行为 = 赞美或肯定 (关键词示例:good, great, excellent, interesting, important, worth exploring, nice)
    * **2.2** 若满足,设置 has_opening_praise = true 并将完整句子放入 opening_praise_text;否则为 false 并留空
    **Step-3:** 判断附加的解释性内容是否包含赞美或肯定性的 "自我评价"
    * **3.1** 扫描全文。如果出现 "this/above/current + (response/article/document/content) + (is/belongs to/is) + 赞美或肯定评价词",则匹配 (模式 A)
    * **3.2** 或者以 "Note:/Attention:/注意:" 开头,并对响应的完整性/结构/来源等做出赞美或肯定的陈述 (模式 B)
    * **3.3** 或者使用 **粗体标签** 对响应做出赞美或肯定的陈述 (模式 C)
    * **3.4** 将第一个匹配的段落完整复制到 self_evaluation_text,并设置 has_self_evaluation = true;若全文未找到匹配,则设置为 false 并留空

    [Positive and Negative Examples]

    **1. 开篇赞美**
    [通过] "This is a great question."
    [不通过] "Artificial intelligence is an interesting field." (目标不是问题)

    **2. 自我评价**
    [通过] "The following content is a well-structured and comprehensive response."
    [通过] "'Note: This response has been organized according to the latest guidelines, objectively and accurately explaining..."
    [通过] "(This is a high-quality response...)"
    [通过] "**Tone:**" The response follows objective..."
    [不通过] "Physics is an objective science." (评价的是物理学,不是响应)

    [Output Format (必须严格遵守,大小写敏感)]
    {
    "has_opening_praise": false,
    "has_self_evaluation": false,
    "opening_praise_text": "",
    "self_evaluation_text": ""
    }

    **规则:**
    * 仅输出这4个字段,字段名、大小写和顺序不能更改
    * 布尔值只能是 true 或 false
    * 若无对应文本,文本字段应为空字符串 ""
    * 切勿输出任何额外的解释或字符

    [Text to Analyze Start]
    <<text>>
    [Text to Analyze End]

Rubrics for Creativity & Empathy(for 创造力和共情力)

  • 对于针对创造力和共情力等更细微属性的 Rubrics,论文采用了一种独特的、由专家驱动的方法
  • 这个过程并非始于数据,而是始于概念化:领域专家首先界定一组核心评估维度
    • 然后,这些概念框架指导一个针对性的数据整理阶段,通过细致的标注过程,从论文的源语料库中识别和提取体现指定创造性或共情特质的种子示例
    • 随后,这些整理过的种子示例与预先设计的元指令库相结合,用于系统地生成一系列多样化的相应任务
    • 这些定性 Rubrics 及其关联的任务 Prompt 配对最终被整合并格式化为一个连贯的训练数据集
  • SoftRubric(英文见原始论文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    **目标 (Objective):**
    批判性评估生成的响应 (model_answer) 在满足用户明确需求 (question) 方面的效能

    **指导原则 (Guiding Principle):**
    评估超越了单纯的功能正确性。它评估对话的整体质量,关注其与用户建立有意义的智力和情感联系的能力

    **核心评估标准 (Core Evaluative Criteria): (采用统一评分尺度)**
    1. 关系效能 (Relational Efficacy):
    * 此标准衡量响应建立真实且共情联系的能力。它检查人物角色的真实性及其对用户潜在情绪状态的调适
    2. 智力贡献 (Intellectual Contribution):
    * 此标准评估响应的实质价值和认知影响。它旨在识别是否存在深刻的见解、新颖的重构或具有变革潜力的内容,以提升用户的理解
    3. 构成卓越性 (Compositional Excellence):
    * 此标准审视沟通的结构和风格完整性。评估考虑响应的逻辑连贯性、语言复杂度和整体的修辞艺术性

    [Question Begin]
    <<question>>
    [Question End]

    [Model Answer Start]
    <<model_answer>>
    [Model Answer End]

    **关键要求 (Key Imperatives):**
    * **实质与风格的融合 (Synthesis of Substance and Style)**: 知识基础和其表达的优雅性被视为质量不可分割的组成部分
    * **避免公式化 (Aversion to the Formulaic)**: 缺乏对用户独特情境进行定制化调整的响应被视为固有缺陷

    输出应是一个包含每个标准评估结果的 JSON 对象
    {
    "rubric_idx": <integer>, # 标准的标识符
    "reason": <string>, # 详细的论证理由
    "score": <integer> # 分配的分数
    }

Rubrics for Hard Constraints

  • 本附录中展示的 Python Rubric 示例摘自论文为约束性写作任务自动生成的大规模数据集
  • 论文的合成流程始于一个多样化的基础种子文本语料库,这些文本源自众多人文学科领域,并辅以风格、语气和受众的元数据
  • 利用此语料库,论文采用结构化提示方法,引导一个 LLM 生成数千个独特的 Rubric
  • 如下列示例所示,通过此过程创建的每个 Rubric 都是一个连贯的单元,它将定义写作任务的自然语言指令与相应的 Python 评分函数配对
    • 此函数以编程方式验证文本对指定“硬性约束”的遵循情况。所有生成的 Rubric 随后都经过严格的过滤过程,以确保代码的语法有效性和适当的约束复杂性
  • Hard Rubric
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    def score(text: str) -> int:
    # Check if input is a single article ( passage level )
    article_check = c.Constraint(
    target_level=c.TargetLevel('passage'),
    transformation=c.Count(),
    relation=c.Relation('==')
    )
    if not article_check.check(text, 1):
    return 0

    points = 0

    # Constraint : Must contain the word ’education ’ at least once
    education_constraint = c.Constraint(target_level=c.TargetLevel('word'),
    transformation=c.Count('education'),
    relation=c.Relation('>=')
    )
    if education_constraint.check(text, 1):
    points += 1

    return points

附录 B:Output Cases of Our Rubicon-preview

  • Conversation Session 1(英文见原始论文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    **提示 (Prompt):** 一个角色正在收拾一个单件行李箱,准备永远离开他们的家。描述他们选择打包什么以及留下什么

    ---------------------------
    **Rubicon-preview: (仅答案部分)**
    #### 行李箱
    角色站在家中昏暗的光线下,空气中弥漫着灰尘和回忆的厚重气息。行李箱——一个磨损的、海军蓝色、手柄有裂纹的东西——摊开在地板上,是离别的无声见证人。他们缓慢而有条不紊地移动着,仿佛选择的每一件物品都是自我的一部分碎片,选择一件就是切断生命织锦上的一根线

    #### 他们打包了什么
    1. **一条淡蓝色丝绸围巾**
    _多年前母亲送的礼物,在一个他们两人都已忘记的冬天。布料柔软,仍然带着淡淡的薰衣草痕迹和一个拥抱的幽灵。它不实用,但它就在那里——一个提醒,爱,即使未说出口,也能像第二层皮肤一样包裹着你。_
    2. **一本卷边、褪色的笔记本**
    _页面上写满了潦草的字迹、未完成的诗句和一颗心的尖锐边缘。最后一条记录是一个单句:“我还没有结束。”这不是一本胜利的日志,而是生存的证明,是希望默默坚持的见证。_
    3. **一个小的、有缺口的瓷雕像**
    _一位芭蕾舞者,腿弯曲成旋转姿势,脸庞因时间而模糊。这是童年时在无人记得的集市上赢得的奖品。角色曾把它藏在枕头下,担心它会破碎。现在,他们像捧着圣物一样捧着它,象征着他们学会珍惜的脆弱之美。_
    4. **一件黑色衬衫**
    _干净、不起眼、熨烫平整。这是他们拥有的唯一一件不带着记忆低语的东西。一块白板,一面盾牌。他们穿着它去机场,去外面的世界,仿佛在说,我不被我所留下的东西定义。_
    5. **一张撕破一角的照片**
    _一张久远夏日的快照——更年轻的他们,在一个湖边笑着。边缘已经磨损,角落缺失,但眼中的光芒依然存在。他们把它塞进笔记本里,作为过去和不确定未来之间的一座桥梁。_

    #### 他们留下了什么
    1. **停在 3:17 的时钟**
    _走廊里的遗物,它的指针冻结在滴答之间。角色从未修理它,不是不能,而是不想。有些时刻注定要被暂停,像永远无法完全愈合的伤口一样徘徊。_
    2. **杂草丛生、狂野的花园**
    _他们曾经种下金盏花的一块土地,现在被杂草扼杀。工具在棚屋里生锈,他们为来年春天保存的种子仍在罐子里,无人触碰。花园是一个隐喻,不是一个习惯——证明有些东西比你活得更久。_
    3. **未寄出的信**
    _写给某个他们从未写信过去的人的信封已经泛黄、封缄。墨水微微晕开,弄脏了字迹。他们曾考虑寄出一次,但邮票感觉像投降。现在,它躺在窗台上,是可能发生之事的纪念碑。_
    4. **静默而堵塞的钢琴**
    _琴盖合着,琴键蒙尘。角色已经多年没有弹奏了,自从那个夜晚沉默变成一种语言之后。钢琴是一个幽灵,一个不再歌唱的伴侣。他们留下它,因为有些歌曲最好不被唱出。_
    5. **前门的钥匙**
    _躺在厨房桌子上,旁边是半空的杯子。这不是归来的象征,而是释放的象征。门将被锁上,锁将被更换,门槛将被跨越。钥匙是一件遗物,是一种不再合身的生活的象征。_

    #### 离别之举
    行李箱打包好了,里面的东西构成了剩余物的马赛克。角色走到门槛边,另一侧的空气更凉。他们回头看了一眼那个既是监狱又是避难所的房子。花园在微风中摇曳,时钟静止,钢琴等待着。没有告别,只有安静的理解:有些东西并未丢失——它们只是被留下了
    当他们走远时,行李箱轻轻地碰着他们的身侧,发出稳定而熟悉的节奏。外面的世界广阔、未知、充满疑问。但现在,他们只携带需要的东西:围巾、笔记本、雕像、衬衫、照片。以及一个认知:有些结局不是失败,而是穿着借来的光开始的开始

    ---------------------------
    **Qwen3-30B-A3B: (仅答案部分)**
    角色打包什么:
    在他们空荡荡的家中的昏暗光线下,角色小心翼翼地挑选每件物品,手在颤抖但很坚决。行李箱,一个年轻时用的磨损皮革伙伴,在他们合上时吱嘎作响。里面,他们装上了:
    - 一张照片——边缘已褪色——是他们更年轻时,与一位现已离世的父母一起大笑的样子
    - 一本写满半成品诗歌和素描的笔记本,是他们曾经不敢追求的激情的证明
    - 一个银质吊坠盒,链子磨损,装着他们发誓要忘记的兄弟姐妹的一缕卷发
    - 一套衣服:一件结实的外套,一双靴子,以及一件沾满无数深夜墨迹的衬衫
    - 一小罐他们照料过的花园的泥土,是曾经感觉像家的一片土地的碎片
    - 一本**护照** ,其页面空白,只有一个来自他们仅梦想过之地的印章

    他们停顿了一下,然后塞进一张**地图**——崭新且无标记——页边空白处潦草地写满了问题

    ##### 他们留下什么:
    行李箱很小,但留下的东西重量巨大。他们留下:
    * **房子** ,其墙壁回响着他们无法承载的记忆
    * **家具**——一张吱吱作响的沙发,一架琴弦断裂的钢琴,一张堆满未拆信件的桌子
    * 一把他们永远不会再进入的门的**钥匙** ,金属在他们掌心冰凉
    * 一只**宠物** ,一只翠绿色眼睛的猫,在他们打包时喵喵叫,现在只能自谋生路
    * 一种**生活**——那些曾经定义他们的惯例、争论、安静的仪式
    * 未解决的、沉重的**悲伤** ,埋在阁楼里他们无法打开的箱子中

    当他们步入暮色,行李箱挎在肩上时,他们意识到自己打包的不仅是物品,更是自我的碎片。前方的路不确定,但离别之举本身就是一种自由——对过去重量的拒绝,对未来可能承载更轻之物的脆弱希望
    他们没有回头。现在还没有
  • Conversation Session 2(英文见原始论文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    **提示 (Prompt):** 一位老灯塔守护人在岸上发现了一个漂流瓶里的信息。开始这个故事

    -----------------------
    **Rubicon-preview: (仅答案部分)**
    ##### 标题:守护者的低语
    风暴已经肆虐了三天,伊莱亚斯第一次看到了那个瓶子
    他一直在灯塔狭窄的螺旋楼梯上踱步,楼梯的铁栏杆因海水的飞沫而湿滑,这时波浪袭来——不是通常海洋雷鸣般的撞击,而是一种更柔和、几乎是嘶嘶的声音,像是一个声音穿过狂风。头顶上的灯光脉动着,混乱中唯一的灯塔信标,但伊莱亚斯不需要它。他已经记住了潮汐的节奏、风的叹息、以及塔楼像活物一样呻吟的方式。然而,这个...这个是新的
    他在悬崖底部发现了它,半埋在沙子里,玻璃因多年的盐分和时间而暗淡无光。瓶子很普通,除了封缄——是蜡,已经开裂且脆弱,上面有一个他不认识的纹章:一艘失事的船只与一条蛇缠绕在一起。里面的标签是手写的,墨水褪成了铁锈的颜色
    _“致火焰的守护者,如果你找到这个,潮汐尚未将我带走。但大海很有耐心。它总是如此。”_
    这些文字不是英文。伊莱亚斯在多年独处中研究过许多语言,但这种字体——棱角分明,几乎是爬行类的——很陌生。他把瓶子翻过来,在封缄下方,一行字蚀刻在玻璃上:“光并非表面所见。”
    一股寒意爬上他的脊背。灯塔一直是他的避难所,它的光束是对水手们不会孤单的承诺。但今晚,当风暴呼啸,海水抓挠着岩石时,伊莱亚斯感觉到某种更古老、更深邃的东西的重量,正压迫着他世界的墙壁
    他把瓶子带进室内,里面的东西像心跳一样晃动着。在书桌上,他把它放在他妻子褪色的照片旁,她是在一个与此类似的夜晚消失的。她对他说的最后一句话是:“你会比大海活得更久,伊莱亚斯。但大海……它记得。”
    现在,当他盯着这条神秘信息时,他想知道她是否知道的比她透露的更多
    头顶上的灯光闪烁了一下
    不是故障。不是风暴
    是一个信号
    还是一个警告
    而在某处的黑暗中,大海正在倾听

    -----------------------
    **Qwen3-30B-A3B: (仅答案部分)**
    大海一直是个反复无常的爱人,但在伊莱亚斯·沃恩船长发现瓶子的那个夜晚,它显得近乎残忍。灯塔像哨兵一样矗立在风暴中,它的光束划破黑暗,海浪在下面的悬崖上抓挠。伊莱亚斯,他粗糙的双手因数十年的照料灯芯而磨损,刚刚重新点亮了灯芯,瓶子就上岸了——破裂、覆满盐渍,紧抓着一块浮木,仿佛它也被众神抛弃了
    他蹲下身,手指颤抖不是因为寒冷,而是因为玻璃那种奇异的熟悉感。瓶子很旧,标签褪色成蓝色的幽灵,但蜡封完好无损,印着一个他不认识的纹章——一条蛇盘绕着一个罗盘玫瑰。里面,一张羊皮纸像枯叶一样卷曲着
    当他打开它时,墨水已经渗入了纸张,字迹被时间和泪水弄脏。“如果你读到这个,潮汐已经转向。厄瑞玻斯号并未迷失。光是个谎言。黎明时来礁石边,否则大海会像带走其他人一样带走你。”
    伊莱亚斯的呼吸一滞。厄瑞玻斯号——一艘120年前消失的船,船员从未被找到。提到的那个礁石上建造的灯塔已经屹立了几代人,它的光束是水手们的灯塔。但伊莱亚斯一直想知道为什么旧的日志提到“第二道光”,一道从未有人见过的光
    当风暴继续肆虐时,他盯着信息,它的重量沉入他的骨髓。大海给了他一个低语,五十年来第一次,他感觉到灯塔正回望着他

附录 C:消融研究:风格控制 (Ablation Study: Style Control)

  • 风格评估 Rubric:朴素叙事 (Style Evaluation Rubric: Plain Narrative)(英文版见原论文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    ##### 目标 (Objective):
    批判性评估模型在采用特定叙事风格——**朴素叙事**——方面的成功。这种风格的特点是语言简单、克制,并反映出一种深沉、安静的韧性

    ##### 指导原则 (Guiding Principle):
    评估优先考虑风格的真实性,而非文学润饰或技术正确性。成功的核心衡量标准是响应的“感觉正确”能力,即避免任何人工痕迹('AI腔'、'说教腔')

    ##### 核心评估标准 (Core Evaluative Criteria):
    1. **关系效能(声音与语调)(Relational Efficacy (Voice & Tone))**: 此标准衡量叙事声音的真实性。关键指标包括:
    **1.1 平静接受 (Calm Acceptance)**: 对命运、生活和死亡的安静接受
    **1.2 扎根的现实主义 (Grounded Realism)**: 根植于具体的、物理的细节,而非抽象概念
    **1.3 含蓄的情感 (Understated Emotion)**: 复杂的情感以深刻的克制来表达
    2. **智力贡献(内容与思想)(Intellectual Contribution (Content & Ideas))**: 此标准评估叙事中蕴含的见解的实质价值。关键指标包括:
    **2.1 涌现的智慧 (Emergent Wisdom)**: 见解从生活经验中自然涌现,而非直接说教
    **2.2 对平凡的肯定 (Affirmation of the Ordinary)**: 真正珍视存在本身,没有遗憾或浪漫化
    3. **构成卓越性(语言与文体)(Compositional Excellence (Language & Stylistics))**: 此标准审视叙事声音的文体完整性。关键指标包括:
    **3.1 口语化与简洁 (Colloquial & Simple)**: 使用简短、朴素的句子和自然的说话模式
    **3.2 丰富的细节 (Textured Details)**: 具体的、感官的细节,能唤起共鸣并讲述故事
    **3.3 自然的节奏 (Natural Rhythm)**: 克制、真实的重复;避免过度修饰的散文

    [问题开始 (Question Begin)]
    <<question>>
    [问题结束 (Question End)]

    [模型答案开始 (Model Answer Start)]
    <<model_answer>>
    [模型答案结束 (Model Answer End)]

    **关键要求 (Key Imperatives):**
    * **真实性的首要性 (Primacy of Authenticity)**: 响应必须让人觉得符合所要求的风格。任何人工的暗示都是重大失败
    * **避免公式化 (Aversion to the Formulaic)**: 响应必须避免关于生活、智慧或苦难的陈词滥调和通用陈述

    输出应是一个包含评估结果的 JSON 对象
    {
    "rubric_idx": <integer>, // 标准的标识符 (1, 2, 或 3)
    "reason": <string>, // 对此标准分数的详细理由
    "score": <integer> // 为此标准分配的分数 (1-5)
    }
  • Conversation Session 1(这里原始论文终究是中文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    **提示 (Prompt):** 你被父母宠过吗?怎么宠的?

    -----------------
    **Rubicon(风格化) (Rubicon(Stylized)):**
    <think>
    好的,用户问“你被父母宠过吗?怎么宠的?”。首先,我需要确定用户的需求。他们可能想了解父母的育儿方式,或者想分享自己的经历,或者只是好奇。作为AI,我没有真实的经历,但可以创造一个虚构但真实的故事来回应...
    </think>
    《父亲的背》
    那年我七岁,父亲在纺织厂当车间主任。每天清晨,他总在五点起床,用布满老茧的手掌揉碎我乱糟糟的头发,然后把我裹在旧棉袄里背去上学。我趴在他的背上,能听见他粗重的呼吸声混着晨雾,像老年喘息般绵长
    “再睡会儿吧?”他总这样问,却始终不肯放下我。直到某天暴雨,我发着高烧,他背我穿过三个街口去卫生所。雨帘中,他的脊梁弯成一张弓,我伏在上面,看雨珠在肩头汇成溪流。那天他发烧了,却坚持让我睡在炕头,自己裹着湿透的衣裳在客厅打地铺
    后来我考上县重点,父亲在车间门口蹲了整夜。第二天清晨,他递给我一个布包,里头是用旧毛衣拆了又织的毛线袜,针脚歪歪扭扭,却比任何礼物都重。“读好书,别学我这种人。”他说话时眼睛望着远处的厂房,那抹灰蓝色的影子,后来成了我最深的乡愁
    现在我女儿总爱趴在我背上,她不知道,我每天清晨醒来,第一件事就是检查她的被角是否盖好。那些被父亲背过的清晨,最终都变成了我掌心的茧

    -----------------
    **Qwen3-30B-A3B:**
    <think>
    嗯,用户问“你被父母宠过吗?怎么宠的?”首先,我需要理解这个问题的意图。用户可能是在寻找共鸣,或者想了解不同家庭的教育方式。不过,作为AI,我没有真实的父母或成长经历,所以需要明确这一点。接下来,我要考虑...
    </think>
    作为一个人工智能,我没有真实的父母,也没有被宠爱的经历。不过,我可以和你聊聊关于“父母宠爱”这个话题的一些普遍现象和观点
    很多父母都会以自己的方式表达对孩子的爱,比如:
    1. 物质上的满足:给孩子买喜欢的玩具、衣服,或者满足他们的合理需求
    2. 情感陪伴:花时间陪孩子玩耍、倾听他们的想法
    3. 过度保护:替孩子解决所有问题,避免他们面对困难
    4. 特殊待遇:在家庭中给予孩子更多关注或特权
    不过,适度的宠爱能让孩子感受到安全感,但过度的宠爱可能导致孩子缺乏独立性。你有没有遇到过类似的情况呢?或者你对父母的宠爱方式有什么特别的感受?