Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

NLP——论文阅读-粗读文章汇总

注:本文包含 AI 辅助创作
汇总一些暂时没有完整阅读的论文简读结果


Retaining by Doing

  • Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting, 20251021, Princeton University, Danqi Chen Group
  • 动机:
    • 灾难性遗忘(catastrophic forgetting)发生的原因是什么?
    • 如何避免灾难性遗忘
  • 一些分析,核心针对 SFT 和 RL 两种对齐手段进行研究,从 forward KL(通过 SFT 最小化交叉熵损失等价于最小化与最优策略 (optimal policy) ) 和 reverse KL 的视角看遗忘问题:
  • 贡献、工作:
    • 设计了一套评测方式和指标,评估模型在新任务上的 Gain 和在旧任务上的 Drop
    • 发现了 RL 更容易记得住的原因是因为 On-policy 数据,而不是损失函数等(GRPO 和 REINFORCE 结论相同)
      • 也不是其他算法选择,如优势估计或 KL 正则化的应用
    • 提出 Iterative-SFT 来让 SFT 像 RL 一样记住旧任务的数据分布
  • 结论:
    • 遗忘的本质是分布的错位
    • 模型分布错位最主要的原因是因为数据偏移
  • 核心 Insights:
    • SFT 是 mode-covering,forward KL
    • RL 是 mode-seeking,reverse KL
    • 如果初始策略是单峰的 (uni-modal)
      • 那么 SFT 实际上可能比 RL 对遗忘更鲁棒;
    • 如果初始策略是多峰的 (multi-modal):这对于实际的 LM 来说 arguably 是实际情况
      • 那么 mode-seeking 的 RL 导致的遗忘比模式覆盖的 SFT 更少

附录:实验中使用到的方法

  • SFT 方法:which uses responses generated by Llama-3.3-70B-Instruct as ground truth responses
  • Self-SFT 方法:which uses responses generated by the initial model (we keep only the correct responses based on the reward function)
    • 原始论文:STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning, NeurIPS 2022, Stanford & Google
  • RL 方法(以 GRPO 为主)

附录:reverse KL 和 forward KL

  • 注:reverse KL 的使用还可以参考 On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting, NeurIPS 2022
  • reverse KL 和 forward KL 是机器学习和概率分布比较中常见的两个概念,都与 KL 散度(Kullback–Leibler Divergence)有关
  • KL 散度是用来衡量两个概率分布之间差异的一个非对称度量,对于两个分布 \(P(x)\) 和 \(Q(x)\),KL 散度定义为:
    $$
    D_{\mathrm{KL} }(P \parallel Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}
    $$
  • 或在连续情况下:
    $$
    D_{\mathrm{KL} }(P \parallel Q) = \int P(x) \log \frac{P(x)}{Q(x)} dx
    $$
    • 非对称性 :\(D_{\mathrm{KL} }(P \parallel Q) \neq D_{\mathrm{KL} }(Q \parallel P)\)
    • 意义 :它可以理解为:如果真实分布是 \(P\),而论文用 \(Q\) 来近似,那么 KL 散度表示额外消耗的信息量(即编码代价的增加)
Forward KL
  • Forward KL
    $$
    D_{\mathrm{KL} }(P \parallel Q) = \int P(x) \log \frac{P(x)}{Q(x)} dx
    $$
  • 优化方向:真实分布 \(P\) 在前,近似分布 \(Q\) 在后
  • 特点:
    • 优化含义:在模型训练中,最小化 Forward KL 相当于让近似分布 \(Q\) 尽量覆盖真实分布 \(P\) 的所有概率质量
    • 对于 \(P\) 中概率较大的区域,若 \(Q\) 赋值过低,会有很大惩罚
    • 会倾向于 覆盖所有高概率区域 ,即 mode-covering
  • 应用场景:常见于最大似然估计(MLE),比如语言模型训练时用训练数据的分布 \(P\) 拟合模型分布 \(Q\)
Reverse KL
  • Reverse KL
    $$
    D_{\mathrm{KL} }(Q \parallel P) = \int Q(x) \log \frac{Q(x)}{P(x)} dx
    $$
  • 优化方向:近似分布 \(Q\) 在前,真实分布 \(P\) 在后
  • 特点:
    优化含义:最小化 Reverse KL 会让 \(Q\) 专注于匹配 \(P\) 中概率较高的区域,而忽略概率很低的部分
    • 在 \(Q\) 中赋值很高但 \(P\) 非常低的区域会受到强烈惩罚
    • 倾向于 集中在一个或几个模式上 ,即 mode-seeking
  • 应用场景:常见于变分推断(Variational Inference),因为计算 \(D_{\mathrm{KL} }(Q \parallel P)\) 更容易在某些情况下进行采样和估计
Reverse KL vs Forward KL
  • 两者对比表格如下:
    对比项 Forward KL (\(P \parallel Q\)) Reverse KL (\(Q \parallel P\))
    惩罚重点 忽略真实分布的高概率区域 包含不真实的低概率区域
    行为倾向 Mode-covering(覆盖所有模式) Mode-seeking(集中于少数模式)
    常见应用 最大似然估计、监督学习 变分推断、近似推理
    计算难度 需要能从 \(P\) 采样 需要能从 \(Q\) 采样
举例理解
  • 假设真实分布 \(P\) 有两个峰(双峰分布),而我们用一个单峰分布 \(Q\) 来近似:
    • Forward KL 会让 \(Q\) 尽量覆盖两个峰,即可能变得更宽、更平,以覆盖所有高概率区域
    • Reverse KL 会让 \(Q\) 只选择其中一个峰(概率最大的那个),从而集中在一个模式上

On-Policy Distillation(Thinking Machines)

  • On-Policy Distillation,目前常常简称为 OPD

  • 原始博客:On-Policy Distillation

  • 解读博客:刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次,机器之心

  • 背景:

    • 动机:论文主要研究如何高效将大模型的能力蒸馏到小模型上
    • Qwen3 技术报告 Qwen3 Technical Report, Qwen, 20250514 中提到了 On-Policy Distillation 方法:

      On-policy Distillation: In this phase, the student model generates on-policy sequences for fine-tuning. Specifically, prompts are sampled, and the student model produces responses in either /think or /no think mode. The student model is then fine-tuned by aligning its logits with those of a teacher model (Qwen3-32B or Qwen3-235B-A22B) to minimize the KL divergence

    • 方法理解:
      • 第一步:使用学生模型采样;
      • 第二步:在采样得到的样本上,用学生模型对齐教师模型的输出 logits
  • On-policy distillation 方法概述:

    • 从小模型采样数据(rollout)
    • 借助大模型的输出 logits 对小模型进行强化训练(理解:本质是用大模型的输出 logits 作为稠密奖励,此时每个 Token 上都有奖励)
      • 注:Qwen3 中主要是直接对齐 logits,这里则是仍然用 RL 的损失形式,KL 散度用作 advantage
  • 三种方法对比:

    • SFT 奖励密集,但是是 off-policy 的
    • RL 是 On-policy 的,但是奖励稀疏
    • On-policy distillation 既是 on-policy 的,奖励也是密集的
    • 三种方法对比
      Method Sampling Reward signal
      Supervised finetuning off-policy dense
      Reinforcement learning on-policy sparse
      On-policy distillation on-policy dense
  • On-policy distillation 实现伪代码(具体实现代码地址: github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/rl/train.py):

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    # Initialize teacher client (main):
    teacher_client = service_client.create_sampling_client(
    base_model=teacher_config.base_model,
    model_path=teacher_config.load_checkpoint_path,
    )

    # Sample trajectories (main):
    trajectories = do_group_rollout(student_client, env_group_builder)
    sampled_logprobs = trajectories.loss_fn_inputs["logprobs"]

    # Compute reward (compute_teacher_reverse_kl):
    teacher_logprobs = teacher_client.compute_logprobs(trajectories)
    reverse_kl = sampled_logprobs - teacher_logprobs
    trajectories["advantages"] = -reverse_kl

    # Train with RL (train_step):
    training_client.forward_backward(trajectories, loss_fn="importance_sampling")
    • 注意,这里也用到了 reverse KL:
      $$
      \begin{align}
      \text{Reverse-KL}(\pi_{\theta} \mid\mid \pi_{\text{teacher}}) &= \mathbb{E}_{x \sim \pi_{\theta}} \left[ \log \frac{\pi_{\theta}(x_{t+1} \mid x_{1..t})}{\pi_{\text{teacher}}(x_{t+1} \mid x_{1..t})} \right] \\
      &= \mathbb{E}_{x \sim \pi_{\theta}} \left[ \log \pi_{\theta}(x_{t+1} \mid x_{1..t}) - \log \pi_{\text{teacher}}(x_{t+1} \mid x_{1..t}) \right]
      \end{align}
      $$
      • 从 student_client 采样,则有 reverse_kl = sampled_logprobs - teacher_logprobs
      • 为了最小化 reverse_kl,伪代码中将负的 reverse_kl 分配给 Advantage:
        • 赋值代码:trajectories["advantages"] = -reverse_kl
        • 代码解读:最大化 Advantage,等于最小化 Reverse-KL 散度
    • 这里的 Advantage 看似和 MiMo-V2-Flash 技术博客的 MOPD 实现是反的,但实际上是一样的,因为 OPD 这里是先是先计算 Reverse-KL 散度的公式,然后再加个 负号的,MiMo-V2-Flash 里相当于没有这个负号了
      • 理解:最终含义相同,都是最大化 Advantage,等于最小化 Reverse-KL 散度

应用场景 1:Distillation for reasoning

  • 类似 Qwen3 做的事情,通过蒸馏赋予小模型思考的能力
  • 论文进行了更详细的实验验证效率(On-policy distillation 和 SFT-2M (extrapolated) 是在性能差不多的情况下对比的)
    Method AIME’24 Teacher FLOPs Student FLOPs CE vs SFT-2M
    Initialization: SFT-400K 60% 8.5 × \(10^{20}\) 3.8 × \(10^{20}\) –
    SFT-2M (extrapolated) ~70% (extrapolated) 3.4 × \(10^{21}\) 1.5 × \(10^{21}\) 1×
    Reinforcement learning 68% - - \(\approx\)1×
    On-policy distillation 70% 8.4 × \(10^{19}\) 8.2 × \(10^{19}\) 9-30×
  • 9-30 的差异是是否包含 SFT-2M 的分母:
    • 9(9 倍加速):表示 CE = (On-policy distillation Student + On-policy distillation Teacher) / (SFT-2M Student)
      • 此时表示 SFT 数据已经有了的场景(无需从 大模型重新采样 SFT 数据)
    • 30(30 倍加速):表示 CE = (On-policy distillation Student + On-policy distillation Teacher) / (SFT-2M Student + SFT-2M Teacher)
      • 此时表示 SFT 数据还没有的一般性场景(需要从大模型重新采样 SFT 数据)
      • 注意:On-policy distillation 是不需要使用大模型采样 SFT 的,仅仅需要一次 推理(非生成式推理)得到 logits 即可
  • 关于表格的其他解读
    • RL 达到和 SFT 差不多的性能,需要的资源差不多

应用场景 2:Distillation for personalization

  • 目标:通过蒸馏赋予小模型一些个性化能力,比如某个领域知识的助手
  • 阶段一:首先训练新任务(注:老任务性能会下降)
    • 为防止灾难性遗忘(catastrophic forgetting),加入一些预训练数据
      • 由于无法获得 Qwen3 的预训练数据,这里使用 Qwen3-8B 在 chat 指令遵循数据集 Tulu3 上生成数据
    • 调整了不同混合比例的超参数,但无论如何旧任务 IFEval 性能都有下降
    • 使用不同的 LoRA rank,依然无法阻止 IFEval 性能下降
  • 阶段二:接着通过 On-policy Distillation 代替 RL 来激发 IFEval 的能力
    • 方法:在 Tulu3 数据集,用 Qwen3-8B 作为教师模型,对上一步得到的目标模型进行蒸馏
      • 注:这里是以提升 IFEval 能力为主,这个阶段领域任务旧任务,因为这一阶段的目标是恢复模型 IFEval 的能力
    • 提升 IFEval 的同时,为了保留上一阶段学到的 领域知识能力,这里使用数据组合的形式输入
      • 最终结论:几乎做到了领域知识和指令遵循能力双高
        Model Internal QA Eval (Knowledge) IF-eval (Chat)
        Qwen3-8B 18% 85%
        + midtrain (100%) 43% 45%
        + midtrain (70%) 36% 79%
        + midtrain (70%) + distill 41% 83%
  • 可以迭代执行第一阶段和第二阶段,循环提升模型效果

讨论和思考

  • RL 和 On-policy Distillation 的区别:
    • On-policy Distillation 的奖励更稠密,效率更高
      • RL 中,每个 rollout 信息只是提供 \(O(1)\) bits 的信息(参见 Thinking Machines 的 LoRA Without Regret 博客)
      • On-policy Distillation 中,每个 rollout 信息只是提供 \(O(N)\) bits 的信息
    • 作者给出了实验验证这个结论:
  • 重用 Prompt
    • Prompt 是稀缺的,可以让一个 Prompt 多次 rollout 来实现多次训练
    • On-policy Distillation 是学习教师的完整分布,而不是某个答案
    • 实验:仅使用一个 Prompt 来训练,依然在 20 个 Step 后,在 AIME 上得到了较大的效果提升
  • 一个新的理解:RL searches in the space of semantic strategies
    • 即 RL 是在语义空间中搜索
    • 而作为 RL 的良好替代, On-policy Distillation 则直接学习最终的策略,不需要探索过程(这是更简单的)
  • 持续学习的应用:On-policy learning as a tool for continual learning
    • RL 只能塑造行为,不能学习新知识,不足以用于持续学习
    • SFT 训练时,即使使用 On-policy 的方法(使用模型自己 Rollout 得到的样本)进行 SFT,在 Qwen-32B 上看到 IFEval 也是有下降的
      • 关于这一点现象的原因,原始博客中的解释有点奇怪
      • 更容易理解的解释:模型产生的序列是以一定概率的,直接进行 SFT 相当于要求模型 100% 输出这个序列,所以模型分布会发生改变
    • On-policy Distillation 的目标是收敛到教师模型,所以不会像 SFT 一样出现性能的衰退
      • 相当于将大模型的知识注入小模型?问题是 Prompt 难以引导小模型生成想要的知识吧
  • 个人理解: On-policy Distillation 本质是一个将 教师模型作为 Token-level 稠密奖励模型的 RL 方法

Teacher 和 Student 的分数差多少时,适合使用 OPD ?

  • 一般来说,Teacher 比 Student 好的越多,OPD 效果越好,否则 OPD 可能反而会影响 Student 的信号(限制 Student 模型的效果上限)
  • 待补充:Teacher 比 Student 好多少时适合用 OPD?

OPD 和其他 RL 方法可以联合使用

  • 因为 OPD 和其他 RL 方法,如 GSPO/GRPO/Dr.GRPO 等是正交的,所以可以选择在不同的方法下使用 OPD

TTT(Test-Time Training)

  • 原始论文:Learning to (Learn at Test Time): RNNs with Expressive Hidden States, Stanford & Meta AI, 20240705 & 多次更新
  • TTT 是一种新型的序列建模层设计框架,是一种将测试时学习机制嵌入序列建模层的新范式
    • 其核心思想是将隐藏状态本身定义为一个机器学习模型,并通过自监督学习在测试时动态更新该模型
  • TTT 通过将隐藏状态建模为可学习的模型,并在推理过程中持续优化,从而在保持线性复杂度的同时提升对长上下文的建模能力
  • 理解:TTT 是一种更高阶的序列建模范式,其覆盖了普通的线性注意力和自注意力机制

TTT 核心方法设计

  • 传统序列建模
    • 传统的 RNN 层(如 LSTM、Mamba)将历史上下文压缩成一个固定大小的隐藏状态 ,这限制了其在长上下文中的表达能力
    • Transformer 虽然表达能力更强,但其注意力机制具有二次复杂度 ,不适合长序列
  • TTT 核心思想:
    • 隐藏状态 \(s_t\) 是一个模型 \(f\) 的参数 \(W_t\),例如线性模型或 MLP
    • 更新规则 是对该模型在输入序列上进行一步自监督学习(如梯度下降)
    • 输出规则 是使用当前隐藏状态(即模型参数)对当前输入进行预测:
      $$
      z_t = f(x_t; W_t)
      $$
  • TTT 的更新过程
    • 更新过程图示:
    • TTT 层的更新过程可以形式化为:
      • 1)初始化隐藏状态 :\(W_0\)(可学习)
      • 2)对每个时间步 \(t\) :
        • 计算自监督损失(如重建损失):
          $$
          \ell(W_{t-1}; x_t) = |f(\tilde{x}_t; W_{t-1}) - x_t|^2
          $$
        • 执行一步梯度下降更新:
          $$
          W_t = W_{t-1} - \eta \nabla \ell(W_{t-1}; x_t)
          $$
        • 输出:
          $$
          z_t = f(x_t; W_t)
          $$
  • TTT 的两种实例化(论文提出了两种具体的 TTT 层):
    • TTT-Linear :隐藏状态是一个线性模型 \(f(x) = Wx\)
    • TTT-MLP :隐藏状态是一个两层 MLP,具有更强的表达能力
  • 与 Transformer 的对比
    对比视角 Transformer TTT层
    隐藏状态 KV缓存:一个不断增长的列表,存储所有历史的 \( (K_i, V_i) \) 对 一个机器学习模型的参数 \( W_t \)(如线性模型的权重矩阵);大小固定
    更新规则 拼接;将当前词的 \( (K_t, V_t) \) 直接添加到KV缓存列表中 训练/学习;对隐藏状态模型执行一步梯度下降 ,以最小化一个自监督损失(如重建损失);
    \( W_t = W_{t-1} - \eta \nabla \ell(W_{t-1}; x_t) \)
    输出规则 全局注意力;计算当前 Query \( Q_t \) 与缓存中所有历史键 \( K_{1:t} \) 的相似度,然后对值 \( V_{1:t} \) 加权求和;
    \( z_t = \text{Attention}(Q_t, K_{1:t}, V_{1:t}) \)
    前向预测;直接将当前词(或其投影)输入到隐藏状态模型 \( f \) 中,得到输出;
    \( z_t = f(x_t; W_t) \)
    时间复杂度 每生成一个token,都需要扫描整个KV缓存,复杂度为 \( O(t) \);总复杂度为 \( O(n^2) \) 更新和预测的计算量只与隐藏状态模型的大小有关,与序列长度 \( t \) 无关;每token复杂度为 \( O(1) \),总复杂度为 \( O(n) \)

核心实验结论

  • TTT 在长上下文(如 16k、32k)中表现优于 Mamba,且能持续利用更多上下文信息降低困惑度
  • TTT-Linear 在短上下文中与 Mamba 相当,但在长上下文中优势明显
  • TTT-MLP 虽然潜力更大,但由于计算和内存 I/O 的限制,目前效率较低

其他

  • 论文还证明了:
    • 当 \(f\) 为线性模型且使用批量梯度下降(Batch Gradient Descent)时,TTT 等价于线性注意力
    • 当 \(f\) 为 Nadaraya-Watson 核回归估计器时,TTT 等价于自注意力

Titans

  • Titans: Learning to Memorize at Test Time, 20241231, Google
  • Titans 是一种用于序列建模的架构 ,旨在通过引入长时神经记忆模块 ,解决 Transformer 和现有线性循环模型在处理长序列时的局限性
  • Titans 的核心思想是模拟人脑中的短时记忆与长时记忆系统 ,构建一个多模块、可独立运作的记忆体系
  • Titans 的优点:
    • 长上下文支持 :可扩展到超过 200 万 token 的上下文长度
    • 在线记忆学习 :在测试时仍能学习并更新记忆,适应新数据
    • 并行化训练 :通过分块和矩阵运算实现高效训练
    • 理论表达能力强 :优于 Transformer 和多数线性循环模型,能解决超出 \(\mathrm{TC}^0\) 复杂度的问题
  • 总结:Titans 是一个融合短时注意力与长时神经记忆的混合架构 ,通过在线记忆学习、遗忘机制、动量更新和持久记忆 ,实现了对长序列的高效建模和强大推理能力
    • 理解:Titans 不仅在多项任务中超越现有模型,还开辟了可测试时学习的记忆增强网络的新方向

Titans 的核心介绍(三个主要模块)

  • 模块一:Core(核心模块)
    • 负责处理当前上下文,通常使用受限窗口的注意力机制 ,充当短时记忆
    • 公式表示:
      $$
      \mathbf{y}_t = \text{Attn}(\hat{\mathsf{S} }^{(t)})
      $$
  • 模块二:Long-term Memory(长时记忆模块)
    • 是一个神经记忆网络 ,能够在测试时继续学习并存储历史信息
    • 使用基于梯度的“惊奇度”机制来决定哪些信息值得记忆:
      $$
      S_t = \eta_t S_{t-1} - \theta_t \nabla \ell(\mathcal{M}_{t-1}; \boldsymbol{x}_t)
      $$
    • 包含遗忘机制(权重衰减)来管理记忆容量:
      $$
      \mathcal{M}_t = (1 - \alpha_t) \mathcal{M}_{t-1} + S_t
      $$
  • 模块三:Persistent Memory(持久记忆)
    • 一组可学习但与输入无关的参数 ,用于存储任务相关的元知识
    • 在输入序列前添加:
      $$
      \boldsymbol{x}_{\text{new} } = [\boldsymbol{p}_1, \dots, \boldsymbol{p}_{N_p}] \parallel \boldsymbol{x}
      $$

Titans 的三种变体

  • 论文提出了三种将记忆模块整合到架构中的方式:
    变体 名称 机制
    MAC Memory as a Context 将记忆输出作为当前上下文的补充输入
    MAG Memory as a Gate 使用门控机制融合记忆输出与注意力输出
    MAL Memory as a Layer 将记忆模块作为网络的一层,与注意力层堆叠

Negative Sample Reinforcement (NSR)

  • 原始论文:The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning, Princeton University, Danqi Chen, 20250602 & 20251025
  • 参考博客:Negative Sample Reinforcement:负样本强化学习的惊人有效性
  • 论文讨论了 RLVR 在 LLM 推理任务中的有效性机制
  • 论文聚焦于 RLVR 中正负样本奖励信号的独立作用,核心探究:仅通过惩罚错误样本(负样本强化)是否能提升模型推理性能,以及如何平衡正负样本强化以兼顾推理准确性与输出多样性

Key Decomposition: Positive and Negative Sample Reinforcement

RLVR Objective Function
  • RLVR 基于二元奖励(正确 +1、错误 -1)优化模型策略,目标函数为:
    $$
    \mathcal{L}_{RLVR}(\theta)=-\mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(\cdot | x)}[r(x, y)], \quad r(x, y) \in\{-1,+1\}
    $$
    • 其中 \(\theta\) 为模型参数,\(\mathcal{D}\) 为 Prompt 数据集,\(\pi_{\theta}(y|x)\) 为模型生成响应 \(y\) 的概率分布,\(r(x,y)\) 为可验证奖励函数
Decomposition into PSR and NSR
  • 将 RLVR 目标函数拆解为两个独立子目标,分别对应正负样本的学习信号:
    • 正样本强化(Positive Sample Reinforcement, PSR):提升正确响应的生成概率,类似有 SFT :
      $$
      \mathcal{L}_{PSR}(\theta)=-\mathbb{E}_{x \sim \mathcal{D} }\left[\sum_{y: r(x, y)=1} \pi_{\theta}(y | x)\right]
      $$
    • 负样本强化(Negative Sample Reinforcement, NSR):降低错误响应的生成概率,通过概率重分配优化推理路径:
      $$
      \mathcal{L}_{NSR}(\theta)=-\mathbb{E}_{x \sim \mathcal{D} }\left[\sum_{y: r(x, y)=-1}-\pi_{\theta}(y | x)\right]
      $$
    • 完整 RLVR 目标满足
      $$ \mathcal{L}_{RLVR}(\theta)=\mathcal{L}_{PSR}(\theta)+\mathcal{L}_{NSR}(\theta)$$
      • 两者均为在线策略(on-policy)学习,响应样本来自模型自身生成

Core Method: Negative Sample Reinforcement Mechanism

Gradient Dynamics of NSR
  • 通过 Token-level 梯度分析,NSR 的更新规则如下(\(\pi_v=\pi_{\theta}(v|x,y_{ < t})\)为 Token \(v\)的生成概率):
    • 对于错误响应中的采样 Token (\(v=y_t\)):抑制其概率
      $$
      \color{red}{-\frac{\partial \mathcal{L}_{NSR} }{\partial z_{v} } \propto -\pi_{v} \cdot\left(1-\pi_{v}\right)}
      $$
    • 对于未采样 Token (\(v \neq y_t\)):按当前概率比例提升其权重,保留合理候选
      $$
      \color{red}{-\frac{\partial \mathcal{L}_{NSR} }{\partial z_{v} } \propto \pi_{y_{t} } \cdot \pi_{v}}
      $$
    • 其中 \(z_v\) 为 Token \(v\) 的对数几率(logit)
  • 该机制具有三大优势:
    • 1)保留高置信先验知识:对模型预训练中习得的高概率正确 Token (如语法结构)惩罚较弱;
    • 2)先验引导的概率重分配:按模型原有信念优化候选 Token 排序,促进有效探索;
    • 3)隐式正则化:错误响应消除后自动停止更新,避免过拟合与多样性坍缩
  • 思考:
    • 这样可能导致模型长期不收敛,因为未采样到的样本都能分配相同的概率
    • 这样还可能导致模型学习很慢,因为正确响应相当于没有被学习,而且不断降低 低概率的 Token,估计得把几乎所有可能的 Token 都访问一遍才能学到?这效率也太低了
Weighted Reinforcement Learning Objective
  • 为平衡 PSR 的准确性优势与 NSR 的多样性保留能力,提出加权强化(Weighted-REINFORCE, W-REINFORCE)目标,通过系数 \(\lambda\) 下调 PSR 权重:
    $$
    \color{red}{\mathcal{L}_{W-REINFORCE }(\theta)=\lambda \cdot \mathcal{L}_{PSR}(\theta) + \mathcal{L}_{NSR}(\theta)}
    $$
    • 其中 \(\lambda=0.1\)(实验最优值),当 \(\lambda=1\) 时退化为标准 REINFORCE,\(\lambda=0\) 时等价于纯NSR
  • 思考:
    • 相对仅使用 NSR 的方法,这个思路比较合理

Experimental Design

Models and Datasets
  • Base Model :Qwen2.5-Math-7B、Qwen3-4B(非思考模式)、Llama-3.1-8B-Instruct;
  • 训练数据集:MATH(7500道数学题);
  • 评估基准:MATH、AIME 2025、AMC23,核心指标为全谱Pass@k(\(k=1,2,…,256\)),衡量不同采样次数下的正确响应率
Comparative Algorithms
  • 包括 PPO(2017)、GRPO(2025)、标准 REINFORCE(1992)、纯 PSR、纯 NSR,其中 PPO 与 GRPO 采用 KL 正则化(系数 1e-3)和裁剪机制(clip ratio=0.2)稳定训练

核心结论

  • 纯 NSR 的意外有效性:无需强化正确样本,即可在全 Pass@k 谱上超越 Base Model ,甚至匹配/超越 PPO 与 GRPO,尤其在大 k(如256)时表现更优;
  • PSR 的局限性:仅提升 Pass@1(贪心解码准确性),但因多样性坍缩导致大 k 时性能下降;
  • W-REINFORCE 的优势:在 MATH、AIME 2025、AMC23 上均实现准确性与多样性的平衡,多数 k 值下超越现有RL算法;
  • 模型依赖性:NSR 对 Qwen 系列模型提升显著,但对 Llama-3.1-8B-Instruct 的性能降解最小,说明骨干模型特性影响 RL 效果(2025)

Contrastive Decoding (CD)

  • 原始论文:Contrastive Decoding: Open-ended Text Generation as Optimization, Stanford & CMU & FAIR, 2023
  • 参考博客:[2]Contrastive Decoding: 一种可提高文本生成质量的解码方法 - 机器爱学习的文章 - 知乎
  • 对比解码(Contrastive Decoding, CD) 是一种无额外训练的搜索式解码方法 ,通过利用不同规模语言模型的差异优化生成目标,在保证流畅性的同时提升文本连贯性和多样性,解决了传统解码中重复、不连贯或主题漂移的问题

Core Design Idea

  • 核心观察:小型语言模型(Amateur LM)比大型语言模型(Expert LM)更容易出现重复、主题漂移等不良生成行为,而大型模型在合理输出上的概率分配更具优势
  • 设计目标:通过对比两个模型的概率差异,强化大型模型的优质生成特征,抑制小型模型的不良生成倾向
  • 关键特性:无需对模型进行额外训练,直接使用现成(off-the-shelf)的不同规模模型,推理开销低且泛化性强

Core Components

Contrastive Objective Function
  • 目标函数定义为大型模型与小型模型对数概率的差值,用于奖励大型模型偏好的优质文本,惩罚小型模型偏好的不良文本:
    $$
    \mathcal{L}_{CD}(x_\text{cont}, x_\text{pre}) = \log p_\text{EXP}(x_\text{cont} | x_\text{pre}) - \log p_\text{AMA}(x_\text{cont} | x_\text{pre})
    $$
    • \(x_\text{pre}\) 为输入 Prompt
    • \(x_\text{cont}\) 为生成的续文
    • \(p_\text{EXP}\) 表示大型专家模型(如 OPT-13B、GPT-2 XL)的概率分布
    • \(p_\text{AMA}\) 表示小型 amateur 模型(如 OPT-125M、GPT-2 Small)的概率分布
自适应合理性约束(Adaptive Plausibility Constraint, \(V_{head}\))
  • 为解决对比目标可能导致的虚假阳性(奖励不合理 token)和虚假阴性(惩罚合理 token)问题,引入基于大型模型置信度的约束,筛选出概率足够高的候选 token:
    $$
    \mathcal{V}_{head}(x_{ < i}) = \left\{x_i \in \mathcal{V} : p_\text{EXP}(x_i | x_{ < i}) \geq \alpha \max_w p_\text{EXP}(w | x_{ < i})\right\}
    $$
    • \(\alpha\) 为超参数(论文中固定为 0.1)
    • \(\mathcal{V}\) 为词汇表
    • \(x_{ < i}\) 表示第 \(i\) 个 token 之前的上下文
    • 理解:不用这么麻烦,直接替换 \(\max_w p_\text{EXP}(w | x_{ < i}) \rightarrow 1\) 应该是可以的
Full Decoding Framework
  • 结合对比目标和合理性约束,通过束搜索(beam search,束宽设为 5)优化 token-level 得分,流程如下:
    • 1)基于 \(V_{head}\) 筛选出大型模型高概率候选 token;
    • 2)计算候选 token 的对比得分(CD-score):
      $$
      \color{red}{\text{CD-score}(x_i; x_{ < i}) =
      \begin{cases}
      \log \frac{p_\text{EXP}(x_i | x_{ < i})}{p_\text{AMA}(x_i | x_{ < i})}, & \text{if } x_i \in \mathcal{V}_{head}(x_{ < i}), \\
      -\inf, & \text{otherwise.}
      \end{cases}}
      $$
    • 3)选择对比得分最高的 token 作为下一个生成 token,迭代完成续文生成
      • 理解:核心步骤
Amateur LM Selection Strategy
  • 规模差异:优先选择同模型家族中最小的模型作为 amateur(如 OPT-13B 搭配 OPT-125M),规模差距越大,生成质量越优;
  • 温度调节:通过调整 amateur 模型的温度参数 \(\tau\)(GPT-2 实验中设为 0.5,OPT 实验中设为 1.0),强化其不良行为特征;
  • 上下文限制:可限制 amateur 模型的上下文窗口(如仅使用最后一个 token),进一步突出大型模型的连贯性优势
    • 问题:若仅使用最后一个 Token,那还不如用统计了吧?或者说用统计也可以?
    • 创新思考:是否可以在学习时基于统计或者学习一个简单模型,然后预训练或者 SFT 直接针对这个比值进行训练?
      • 补充:其实最新有论文是这样做的

Key Features and Advantages

  • 无额外训练:直接使用预训练模型,无需微调或重新训练,部署成本低;
  • 跨模型泛化:适用于 GPT-2、OPT 等不同家族和规模的模型;
  • 多维度优化:在自动评估(MAUVE 得分、连贯性得分)和人工评估(流畅性、连贯性)中均显著优于 nucleus sampling、top-k、典型解码等基线方法;
  • 鲁棒性强:实验来看,超参数(\(\alpha\)、\(\tau\))在较广范围内(如 \(\tau \in [0.5, 1.0]\))性能稳定

LightReasoner

  • 原始论文:LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?, HKU, 20251009
  • 参考博客:小模型当老师,大模型反而学得更好了?
  • 论文的基本思路来自于 Contrastive Decoding: Open-ended Text Generation as Optimization, Stanford & CMU & FAIR, 2023
  • TLDR:针对传统 SFT 资源消耗大、训练效率低的问题,提出一种反直觉框架:
    • 利用小语言模型(Small Language Model, SLM)作为“业余模型(Amateur Model)”,通过其与大型语言模型(Large Language Model, LLM)“专家模型(Expert Model)”的行为差异,定位高价值推理时刻,为专家模型提供精准监督信号,实现高效推理能力提升,且无需依赖真实标签(Ground-Truth Labels)

Key Theoretical Foundations

Autoregressive Language Model Generation
  • 给定词汇表 \(\mathcal{A}\) 和输入 \(a_0\),语言模型通过前缀 \(s_t = [a_0, …, a_{t-1}]\) 自回归生成响应 \(a_{1:T} = [a_1, …, a_T]\),输出分布为 \(\pi_\text{LM}(\cdot | s_t)\),联合似然分解为:
    $$
    \pi_\text{LM}(a_{1:T} | a_0) = \prod_{t=1}^T \pi_\text{LM}(a_t | s_t)
    $$
    • 推理能力的提升本质是优化模型的生成策略 \(\pi_\text{LM}\)
Token Informativeness(信息量量化) via Expert-Amateur Divergence
  • 通过 KL 散度(Kullback–Leibler Divergence)量化专家模型 \(\pi_\text{E}\) 与业余模型 \(\pi_\text{A}\) 在每个生成步骤的分歧,定位关键推理节点:
    $$
    D_{KL}\left(\pi_\text{E}(\cdot | s_t) | \pi_\text{A}(\cdot | s_t)\right) = \sum_{a \in \mathcal{A} } \pi_\text{E}(a | s_t) \log \frac{\pi_\text{E}(a | s_t)}{\pi_\text{A}(a | s_t)}
    $$
    • KL 散度值越大,表明该步骤是区分专家与业余推理能力的关键瓶颈,此类 token 仅占总 token 的 20% 左右,但对推理结果起决定性作用(2022; 2025)

Framework Workflow

  • LightReasoner 包含两个核心阶段,整体流程如图4所示:
Sampling Stage
  • 第一步:信息性步骤筛选(Informative Step Selection)

    • 通过 \(\beta\)-过滤保留KL散度超过阈值的关键步骤,过滤 trivial 步骤以避免学习信号稀释:
      $$
      D_{KL}\left(\pi_\text{E}(\cdot | s_t) | \pi_\text{A}(\cdot | s_t)\right) > \beta
      $$
    • 其中 \(\beta = 0.4\)(经实验验证的最优阈值)
  • 第二步:对比分布监督信号构建(Contrastive Distributional Supervision)

    • 1)掩码支持集(Masked Support Set):过滤专家模型低置信度 token,避免噪声干扰:
      $$
      \mathcal{A}_{mask} = \left\{a \in \mathcal{A} : \pi_\text{E}(a | s_t) \geq \alpha \cdot \max_{b \in \mathcal{A} } \pi_\text{E}(b | s_t)\right\}
      $$
      • 其中 \(\alpha = 0.2\),用于平衡监督信号的质量与多样性,跟 Contrastive Decoding: Open-ended Text Generation as Optimization, Stanford & CMU & FAIR, 2023 类似
    • 2)对比分数计算:量化专家模型相对业余模型的优势:
      $$
      v’_C(a | s_t) = \log \frac{\pi_\text{E}(a | s_t)}{\pi_\text{A}(a | s_t)}
      $$
    • 3)归一化处理:将对比分数转换为有效概率分布,形成最终监督信号 \(v_C(\cdot | s_t)\):
      $$
      \tilde{v}_C(\cdot | s_t) = \text{softmax}\left(v’_C(\cdot | s_t)\right) \quad (\text{over } \mathcal{A}_{mask}) \\
      v_C(a | s_t) = \begin{cases}
      \tilde{v}_C(a | s_t) & a \in \mathcal{A}_{mask} \\
      0 & \text{otherwise}
      \end{cases}
      $$
Fine-Tuning Stage
  • 采用自蒸馏训练目标(Self-Distillation Training Objective),使专家模型对齐对比监督信号,强化其推理优势:
    $$
    \color{red}{\mathcal{L}(s_t) = D_{KL}\left(v_C(\cdot | s_t) | \pi_\text{E}(\cdot | s_t)\right) = \sum_{a \in \mathcal{A} } v_C(a | s_t) \left[\log v_C(a | s_t) - \log \pi_\text{E}(a | s_t)\right]}
    $$
    • 该目标等价于交叉熵最小化,可高效引导专家模型在关键推理步骤上增强与业余模型的分歧

Key Implementation Details

  • 1)模型配对(Model Pairing):专家模型选用 Qwen2.5-Math 系列(1.5B/7B)、DeepSeek-R1-Distill-1.5B 等,业余模型固定为 Qwen2.5-0.5B(无专门数学预训练,确保领域 expertise 差异);
  • 2)训练配置(Training Configuration):采用 LoRA 进行参数高效微调,rank=8,scaling factor=16,目标模块为 q_proj 和 v_proj;训练步数 1000 步,有效批次大小 16;
  • 3)数据处理(Data Processing):基于 GSM8K 数据集生成推理轨迹,采用 CoT Prompt 引导分步推理,轨迹长度限制为 128 token(早期步骤推理信号更可靠)

LightReasoner 核心优势

  • 性能卓越(Strong Performance):在7个数学推理基准上,准确率最高提升 28.1%,优于传统 SFT
  • 效率极高(Order-of-Magnitude Efficiency):训练时间减少 90%,采样问题减少8 0%,微调 token 减少 99%,无需真实标签验证
  • 泛化性强(Cross-Dataset Generalization):仅在 GSM8K 上训练,可迁移至 MATH、SVAMP 等多个基准,捕获通用推理模式
  • 灵活适配(Adaptive to Model Architectures):适用于不同规模、不同优化程度的模型( Base Model /指令微调模型)

Idiosyncrasies in Large Language Models

  • 原始论文:Idiosyncrasies in Large Language Models, 20250616, ICML 2025, CMU & UC Berkeley
  • Idiosyncrasies:特质;特征;癖好
  • 核心结论:LLM 存在独特特质,通过微调文本嵌入模型可高准确率区分不同模型的输出,这些特质根植于词汇分布与语义内容,且具有广泛应用与潜在风险

研究目标

  • 验证不同 LLMs 是否存在可区分的独特特质
  • 构建分类任务量化这些特质,评估分类准确率
  • 探究特质的来源与表现形式
  • 讨论研究发现的广泛意义与应用场景

核心方法

任务设计:LLM输出分类任务
  • 给定 N 个 LLM(记为 \(f_{1}, …, f_{N}\)),每个模型接收 Prompt \(\p) 并输出文本 \(o\),收集每个模型的输出集 \(O_{i}\)
  • 构建 N 分类任务,目标是根据输出文本预测其来源模型,以分类准确率衡量模型特质的显著程度
模型与训练设置
  • Base Model :采用 Decoder-based Transformer 文本嵌入模型 LLM2vec,添加 \(N\) 分类头
  • 训练方法:使用 LoRA 微调,输入序列截断为 512 个 token
  • 关键参数:优化器为 AdamW,权重衰减 0.001,动量 \(\beta_{1}=0.9\)、\(\beta_{2}=0.999\),训练轮次 3 轮,批次大小 8,学习率采用余弦衰减,热身比例 10%,梯度裁剪 0.3
实验数据与模型分组
  • 数据收集:每个 Prompt 数据集收集11K文本序列,按10K(训练集)和1K(验证集)拆分,跨模型使用相同拆分
  • 模型分组:
    • 聊天API模型(chat):ChatGPT、Claude、Grok、Gemini、DeepSeek(部分闭源)
    • Instruct 模型(instruct):Llama、Gemma、Qwen、Mistral(均为7-9B参数规模)
    • Base 模型(base):上述 Instruct 模型的预训练版本(无后训练阶段)
  • Prompt 数据集:聊天 API 和 Instruct 模型使用 UltraChat,Base 模型使用 FineWeb
文本变换与分析方法
  • 文本变换:包括词汇 Shuffle (词级、字母级)、移除特殊字符、改写(释义、翻译、总结)、格式控制(纯文本、长度限制)等
  • 分析工具:使用ROUGE-1、ROUGE-L、BERTScore衡量文本相似度;通过TF-IDF提取特征短语;借助LLM作为评判者进行开放式语言分析

主要实验与结果

跨模型家族分类实验
  • 聊天API模型:5 分类任务验证集准确率达 97.1%(随机猜测准确率 20%),两两组合分类准确率均超 90%,部分达 99%
    • 注:其中 Gemini 和 DeepSeek 的差异高达 99.9%
  • Instruct 模型:多组合分类准确率普遍超 96%,两两组合多数达 99%
  • Base 模型:分类准确率达 87.3%,低于聊天 API 和 Instruct 模型,但远高于随机水平
同模型家族分类实验
  • 以 Qwen2.5 系列 4 个不同参数规模(7B、14B、32B、72B)的 Instruct 模型为对象,4 分类准确率 59.8%,两两组合最高准确率 85.5%
  • 区分同一模型的基础版与指令版:Qwen2.5-7b 的两类模型分类准确率达 96.8%
分布外泛化实验
  • 训练集与测试集来自不同 Prompt 数据集(UltraChat、Cosmopedia、LmsysChat、WildChat), Instruct 模型分类准确率维持在 88.3%-99.8%,证明模型学到的特质具有强泛化性
控制变量实验
实验1:Prompt 干预实验
  • 长度控制(限制 100 词内单段回复): Instruct 模型分类准确率 93.0%(原始 96.3%)
  • 格式控制(纯文本,禁用标记语言): Instruct 模型分类准确率 91.4%,特质不受表面格式约束
实验2:输入序列长度实验
  • 仅使用 1 个 token 时,聊天API和 Instruct 模型分类准确率约 50%;输入长度达 256 token 后,准确率趋于饱和
  • 结论:初始 token 含独特信号,更多上下文可提升分类效果
实验3:采样方法实验
  • 同一模型(Llama3.1-8b instruct)
    • 采用不同采样策略(贪心解码、温度 softmax、top-k、top-p),分类准确率最高 59%;
    • 5种温度(T=0,0.25,0.5,0.75,1)的 softmax 采样分类准确率 37.9%,仅略高于随机水平
    • 采样策略对模型特质影响极小
实验4:文本嵌入模型对比实验
  • 不同模型作为基座训练结论
    嵌入模型 chat准确率 instruct准确率 base准确率
    ELMo 90.8% 91.0% 69.8%
    BERT 91.1% 91.5% 66.0%
    T5 90.5% 89.8% 67.9%
    GPT-2 92.1% 92.3% 80.2%
    LLM2vec 97.1% 96.3% 87.3%
    • 先进嵌入模型表现更优,LLM2vec 效果最佳
实验5:训练数据量实验
  • 仅 10 个训练样本时,聊天 API 模型分类准确率 40.3%(超随机水平);训练样本达 10K 时,准确率收敛,更多数据可提升分类性能

特质来源分析实验

分析1:词汇与字母层面
  • 移除特殊字符:
    • chat 准确率 95.1%、instruct 93.8%、base 75.4%,影响极小
  • 词级 Shuffle :
    • chat 准确率 88.9%、instruct 88.9%、base 68.3%,仍保持高准确率
  • 字母级 Shuffle :
    • 三类模型准确率均降至 38.6%-39.1%,接近随机水平
  • 特征短语:
    • 通过 TF-IDF 提取单字/双字特征,逻辑回归分类器在 chat 和 instruct 模型上准确率达 85.5% 和 83.7%
    • 注:各模型有独特高频短语(如ChatGPT 常用 “such as”,Claude 常用 “according to”)
    • 理解:仅使用 TF-IDF 抽取特征,使用 LR 分类器就已经有很高分类精度了,但远低于 LLM2vec 的 97% 的水平
分析2:标记语言格式层面
  • 仅保留 markdown 元素(粗体、斜体、标题等),替换文本为“xxx”:
    • chat 准确率 73.1%、instruct 77.7%、base 38.5%
  • 各模型格式使用存在差异(如 Claude 极少用粗体和标题,Gemini 常用斜体)
  • 理解:仅仅格式方面就有较大差异
分析3:语义层面
  • 语义层面的相似度检查
    文本处理方式 chat准确率 instruct准确率 base准确率
    原始文本 97.8% 96.3% 87.3%
    释义改写 91.4% 92.2% 71.7%
    翻译(中译) 91.8% 92.7% 74.0%
    总结 58.1% 57.5% 44.7%
  • 语义保留变换(释义、翻译)后仍保持高准确率,总结后准确率下降但超随机水平,证明语义是特质的重要组成
  • 开放式语言分析:ChatGPT 倾向详细深入解释,Claude 侧重简洁直接回应,各模型在语气、词汇、结构上有显著差异

研究结论

核心结论
  • 不同 LLMs 存在显著且稳定的独特特质,通过微调文本嵌入模型可实现高准确率分类,该现象适用于不同模型家族、规模和 Prompt 数据集
  • 特质来源包括三方面:
    • 词汇分布(特征短语、高频词使用)
    • 标记语言格式习惯
    • 语义表达风格(语气、内容详略)
  • 特质具有强鲁棒性,不受长度限制、格式约束、采样策略影响,且可通过释义、翻译等语义保留变换传递
意义与应用
  • 合成数据训练:使用 LLM 生成的合成数据训练新模型,会继承源模型的特质,需谨慎使用
  • 模型相似度推断:可通过分类框架量化不同模型(含闭源与开源)的相似度,如 Grok 输出常被归类为 ChatGPT
  • LLM 评估优化:现有投票式排行榜(如 Chatbot Arena)易受特质操纵,需开发更稳健的评估方法
  • 理解:很多模型得分高,可能就是特质导致的
未来研究方向
  • 验证特质是否适用于非 Transformer 架构的 LLM(如状态空间模型、扩散语言模型)
  • 探究训练过程如何导致特质形成
  • 扩展至大规模、未知来源模型的分类场景
  • 研究特质与模型蒸馏技术的关联

(AEPO) QwenLong-L1.5

  • 原始文章:(AEPO)QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management, Qwen Team, 20251215
    • 解读博客: QwenLong-L1.5:长上下文推理与记忆管理的后训练方案
  • QwenLong-L1.5 是基于 Qwen3-30B-A3B-Thinking 开发的长上下文推理模型,创新点包括:
    • 数据合成
    • 强化学习优化
    • 记忆增强架构
  • QwenLong-L1.5 在长上下文推理基准上实现了 9.90 分的平均提升,性能比肩 GPT-5 和 Gemini-2.5-Pro,同时在 1M∼4M Token 的超长任务中展现出显著优势

Background and Contribution

  • 背景:长上下文推理是 LLM 的关键能力,但现有研究多集中在预训练或架构创新,缺少成熟的端到端后训练方案,存在三大缺口:
    • 高质量长上下文推理数据稀缺
    • 缺乏适配长上下文的强化学习方法
    • 无针对超上下文窗口任务的智能体架构
  • 整体贡献
    • 1)提出长上下文数据合成流水线(Long-Context Data Synthesis Pipeline) :解构文档为原子事实及关系,生成多跳推理、数值计算等复杂任务,避免简单检索类任务局限
    • 2)设计稳定的长上下文强化学习策略(Stabilized Reinforcement Learning for Long-Context Training) :包括任务平衡采样、任务特定优势估计和 AEPO 方法,解决训练不稳定性
    • 3)构建记忆增强架构(Memory-Augmented Architecture for Ultra-Long Contexts) :通过多阶段融合强化学习训练,整合单遍推理与迭代记忆处理,支持超 4M Token 任务

Long-Context Data Synthesis Pipeline

  • 数据规模与多样性
    • 最终构建 14.1K 高质量训练样本(远超前代 QwenLong-L1 的 1.6K),涵盖代码仓库、学术文献、专业文档等多领域
    • 输入长度上限提升至 119,932 Token ,平均输入长度达 34,231 Token ,包含多跳推理、假设场景、时间推理等 9 类复杂问题类型
  • 关键合成步骤
    • 1)语料收集与预处理:筛选 82,175 份高质量文档(约 92 亿 Token ),覆盖 5 大核心类别
    • 2)问答合成:通过知识图谱引导多跳推理、结构化表格引擎生成数值推理、多智能体自演进生成通用任务三类方法,确保信息分散分布以提升推理难度
    • 3)数据验证:通过知识接地检查(过滤无需上下文即可回答的样本)和上下文鲁棒性检查(插入无关文档验证答案稳定性)保证数据质量

长上下文后训练范式

  • 渐进式训练流程
    • 分四阶段逐步扩展输入/输出长度,避免直接切换长上下文任务导致的训练崩溃
      • 20K input + 12K output
      • 60K input + 20K output
      • 120K input + 50K output
    • 前三个阶段专注全上下文推理训练,第四阶段融合记忆管理专家模型(通过 SCE 算法合并),最终实现单遍推理与记忆代理能力的统一
  • 多任务强化学习优化
    • 任务平衡采样(Task-balanced sampling) :按领域、任务类型分层采样 ,确保每个训练批次中多任务分布均衡,避免数据偏移
    • 任务特定优势估计(Task-specific advantage estimation) :针对不同任务的奖励分布差异,基于任务级奖励标准差计算优势值,减少估计偏差,公式如下:
      $$A_{i}^{\text{task} }=\frac{r_{i}^{\text{task} }-mean\left(\left\{r_{k}^{\text{task} }\right\}_{k=1}^{G}\right)}{\text{std}\left(r^{\text{task} } | r^{\text{task} } \in \mathcal{B}^{\text{task} }\right)}$$
      • 其中 \(\mathcal{B}^{\text{task} }\) 为当前批次中同一任务的样本集合,\(r_{i}^{\text{task} }\) 为第 \(i\) 个样本的任务奖励
  • 记忆增强架构
    • 将超长文档分割为块,通过迭代记忆更新与导航规划实现全局信息整合:
      • 记忆更新:每处理一个文档块,基于历史记忆和当前块信息更新记忆状态 \(m_t\)
      • 导航规划:生成下一块的信息提取指引 \(p_t\),状态转移公式为:
        $$\left(m_{t}, p_{t}\right) \sim \pi_{\theta}\left(\cdot | m_{t-1}, p_{t-1}, x_{t}, q_{core }\right)$$
      • 最终答案生成:整合所有块的记忆 \(m_K\) 与格式指令 \(q_{inst }\),生成符合要求的输出

AEPO(Adaptive Entropy-Controlled Policy Optimization)

Motivation
  • 长上下文强化学习中存在两大核心问题:
    • 负优势样本与高熵 Token 强相关:高熵 Token (探索性推理步骤)易产生大梯度,增加参数更新方差,导致训练不稳定(Spearman 相关系数 \(\rho=0.96\))
    • 奖励分配模糊:长上下文任务中正确与错误推理路径的短语级重叠度高(如 DocMath 任务的 ROUGE-L 达 45.37),负样本包含大量正确步骤,直接惩罚会破坏模型探索能力
  • AEPO 通过动态控制负梯度信号,平衡探索与利用,解决训练不稳定性问题

核心定义与公式

Negative Gradient Clipping
  • 基于 GRPO 目标函数,加入熵控制的掩码机制 \(\mathbb{I}(i,t)\),筛选参与训练的梯度信号:
    $$\mathcal{J}_{GRPO}(\theta)=\mathbb{E}_{c, q \sim \mathcal{D},\left\{y_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{old } } }\left[\frac{1}{\sum_{j=1}^{G}\left|y_{j}\right|} \sum_{i=1}^{G} A_{i} \sum_{t=1}^{\left|y_{i}\right|} \rho_{i, t}(\theta) \mathbb{I}(i,t)\right]$$
    • 其中掩码函数 \(\mathbb{I}(i,t)\) 定义为:
      $$
      \mathbb{I}(i, t)=
      \begin{cases}
      0 & \text{if}\ A_{i}<0 \text{ and } \left(\left(P_{\text{token_level} } \land H(t | i)>\tau_{token }\right) \lor \left(\neg P_{\text{token_level} } \land \overline{H}(i)>\tau_{\text{sequence} }\right)\right) \\
      1 & otherwise
      \end{cases}
      $$
      • \(H(t | i)\) 为第 \(i\) 个序列第 \(t\) 个 Token 的 Token-level 熵,\(\overline{H}(i)\) 为 Sequence-level 平均熵
      • \(\tau_{token}\) 和 \(\tau_{sequence}\) 分别为 Token-level 和 Sequence-level 熵阈值
      • \(P_{\text{token_level}}\) 控制熵筛选粒度(Token-level/Sequence-level)
        • 注:\(P_{\text{token_level}}\) 是布尔类型的参数
Batch-level 熵定义
  • 用当前训练批次 \(\mathcal{B}\) 的平均熵,量化策略生成 Token 的随机性:
    $$H\left(\pi_{\theta}, \mathcal{B}\right)=-\frac{1}{|\mathcal{B}|} \sum_{i=1}^{|\mathcal{B}|} \frac{1}{\left|y_{i}\right|} \sum_{t=1}^{\left|y_{i}\right|} \sum_{v \in V} \pi_{\theta}\left(v | c, q, y_{i,<<t}\right) \log \pi_{\theta}\left(v | c, q, y_{i,<t}\right)$$
    • 其中 \(V\) 为模型词汇表,\(y_i\) 为第 \(i\) 个样本的生成序列,\(\pi_{\theta}\) 为当前策略模型
熵控制范围
  • 设定目标熵区间 \([H_{low}, H_{high}]\),动态调整负梯度参与训练的比例:
    • 当批次熵 \(H\left(\pi_{\theta}, \mathcal{B}\right) > H_{high}\):模型探索过度,屏蔽所有负优势样本,仅用正优势样本更新,减少熵值
    • 当批次熵 \(H\left(\pi_{\theta}, \mathcal{B}\right) < H_{low}\):模型探索不足,重新引入负梯度,避免熵崩溃
实验效果及分析
  • AEPO 核心优势
    • 动态平衡探索与利用:通过熵反馈机制自适应调整负梯度参与度,避免过度探索或探索不足
    • 稳定训练过程:屏蔽高熵负样本的干扰,减少梯度方差,支持超长序列的持续训练
    • 无需额外参数:基于现有策略熵计算,无需引入新的模型组件,易于集成
  • 实验结果
    • 在 Qwen3-4B-Thinking 上,AEPO 较 GRPO 基线平均提升 3.29 分,在 MRCR(密集奖励任务)和 CorpusQA(长上下文聚合任务)上提升尤为显著
    • 在 Qwen3-30B-A3B-Thinking 上,AEPO 保持熵值稳定在目标区间,训练 200 步后无性能下降,支持模型向更长序列扩展

整体实验性能

  • 长上下文基准测试
    • QwenLong-L1.5-30B-A3B 在 6 大长上下文基准(DocMath、LongBench-V2 等)上平均得分 71.82,较基线提升 9.90 分,其中 MRCR 任务提升 31.72 分,CorpusQA 任务提升 9.69 分,性能接近 Gemini-2.5-Pro(72.40)
  • 超长任务性能
    • 在 1M∼4M Token 任务中,记忆代理框架较基线提升 9.48 分,在 4M Token 的 CorpusQA 任务中实现 14.29 分,远超传统全上下文模型的处理能力
  • 泛化能力
    • 长上下文推理能力可迁移至通用领域,在 AIME25(数学推理)提升 3.65 分,LongMemEval(对话记忆)提升 15.60 分,在工具使用、科学推理等场景均有改善

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

  • 原始论文:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond), 20251027, UW & CMU & AI2 & Stanford
  • Key Contributions
    • 1)构建首个大规模真实世界开放式 Query 数据集 INFINITY-CHAT,配套完整分类体系和高密度人类标注,填补开放式生成评估资源空白
    • 2)首次系统揭示LM在开放式任务中的“人工蜂群思维”效应,量化模型内重复与模型间同质化,为AI安全风险研究提供实证基础
    • 3)发现现有模型在捕捉人类多元偏好上的核心缺陷,为后续多元对齐、多样性优化提供明确方向
  • Limitations
    • 1)数据集以英文为主,可能低估非英语语境和多元文化场景的多样性,泛化性受限
    • 2)依赖文本嵌入相似度衡量多样性,可能未能捕捉创意表达的多维差异
    • 3)未完全厘清同质化的根本成因(如训练数据重叠、对齐流程、记忆效应等),需进一步机制分析
  • Future Work
    • 1)拓展数据集至多语言、多文化场景,完善分类体系的跨语境适应性
    • 2)研发多样性感知的训练目标和对齐方案,在保证质量的同时提升输出多样性
    • 3)深入探究同质化成因,优化数据筛选、模型训练流程以减轻“人工蜂群思维”效应

核心结论

  • LMs 在开放式生成任务中存在显著的 人工蜂群思维(Artificial Hivemind) 效应(或者翻译为 人工乌合之众 更好)
  • 具体表现为模型内部输出重复和模型间输出同质化 ,且现有 LM、奖励模型 及 LM Judger 难以匹配人类对开放式 Response 的多元偏好
    • 长期可能导致人类思维同质化,需通过针对性数据集和方法优化缓解这一风险

数据集构建:INFINITY-CHAT

  • 来源:从 WildChat 数据集筛选、清洗并修订真实用户 Query ,最终得到 26,070 条开放式 Query 和 8,817 条封闭式 Query ,涵盖真实世界多样化使用场景
  • 分类体系:构建首个开放式 Query 分类体系,包含 6 个顶层类别(如创意内容生成、头脑风暴与构思、推测性与假设场景等)和 17 个细分类别,通过 GPT-4o 自动标注并经人类验证(89% Query 被判定为真正开放式)
  • 人类标注:针对 50 个代表性 Query ,收集 31,250 条人类标注,包括 18,750 条绝对质量评分(1-5分)和 12,500 条 pairwise 偏好评分,每个 Query - Response 对均有25个独立标注,捕捉人类多元偏好

实验设计

  • 模型范围:涵盖 70+ 开源与闭源LM(主论文详述 25 个),包括 GPT-4o 系列、Llama-3 系列、Qwen 系列等主流模型
  • 生成参数:采用 top-p 采样(p=0.9,temperature=1.0)和 min-p 采样(p=1.0,min-p=0.1,temperature=2.0),每个模型对每个 Query 生成50条 Response
  • 评估指标:通过 OpenAI 的 text-embedding-3-small 计算句子嵌入的余弦相似度,衡量输出同质化;采用皮尔逊相关系数和斯皮尔曼相关系数,对比模型评分与人类标注的一致性;使用香农熵量化人类标注分歧
  • 子集分析:构建相似质量子集(通过 Tukey’s fences 等 6 种方法筛选)和高分歧子集(通过熵、基尼不纯度等6种方法筛选),验证模型评分与人类偏好的校准程度

关键实验 1:人工蜂群思维效应验证

Intra-model repetition,模型内部重复
  • 结果:
    • 即使采用高随机性解码参数,同一模型对同一开放式 Query 的输出仍高度重复
    • 79% 的 Query Response 平均相似度超过 0.8;
    • min-p 采样虽降低极端重复,但 81% 的 Response 对相似度仍超 0.7,61.2% 超 0.8,模式崩塌问题未根本解决
  • 例证:
    • 单个模型生成的“时间隐喻”类 Response ,核心意象集中于“河流”或“织工”,语义相似度极高
Inter-model homogeneity,模型间同质化
  • 结果:
    • 不同模型(含不同家族、不同规模)的输出语义重叠显著,平均 pairwise 相似度达 71%-82%;
    • 部分模型对(如DeepSeek-V3 与 qwen-max-2025-01-25)相似度高达 0.82,甚至出现完全相同的 Response (如“成功类社交媒体座右铭”生成完全一致的表述)
  • 聚类分析:
    • 25 个模型对“时间隐喻” Query 的 50 条 Response ,仅形成两大聚类(“时间是河流”主导聚类和“时间是织工”次要聚类),抽象概念收敛明显

关键实验 2:模型与人类偏好的校准分析

相似质量 Response 场景
  • 结果:
    • 当 Response 质量相近时,LM 困惑度、奖励模型分数、LM Judger 分数与人类评分的相关性显著下降
    • 说明现有模型难以区分“同等优质但风格/角度不同”的开放式 Response
  • 跨方法验证:
    • 6 种相似子集筛选方法均验证了这一结论,模型校准能力不足具有稳健性
高分歧人类偏好场景
  • 结果:
    • 当人类标注存在高分歧(熵值较高)时,模型评分与人类评分的相关性大幅降低,现有模型倾向于拟合单一“共识质量”,忽略人类多元偏好
  • 例证:
    • 对“生活意义”“周日海边雾景描述”等 Query ,人类标注熵值高,但模型评分难以反映这种偏好多样性

拓展实验: Prompt 改写对同质化的影响

  • 设计:对 30 个原始 Query 生成 4 种改写版本,共 150 个 Prompt,42 个模型各生成 20 条 Response
  • 结果:原始 Prompt 与改写 Prompt 的 Response 相似度差异仅为 0.04(分别为 0.821 和 0.781),说明即使调整 Prompt 表述,模型仍倾向于生成同质化内容

From \(f(x)\) and \(g(x)\) to \(f(g(x))\)

  • 原始论文:From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones, 20250929-20251219, UIUC & THU & Shanghai AI Lab & PKU
  • 研究代码开源链接:github.com/PRIME-RL/RL-Compositionality
  • 官方博客:From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones, 202509
    • 相关博客:大突破!实验证明,RL能为LLM注入“创新”能力
  • 论文 证实了 RL 能让 LLMs 通过组合现有原子技能习得真正的新技能,呼应了人类认知技能习得的核心机制(1982),反驳了“RL 仅激活现有技能”的悲观观点
  • 论文的亮点是:提出的受控合成框架(明确的原子/组合技能定义、可控难度、无数据污染)为LLM技能习得研究提供了新范式
  • 实践启示 :
    • Base Model 开发应注重原子技能的构建,为后续组合技能学习奠定基础
    • RL 训练需明确设置组合激励,才能有效习得泛化性强的复杂技能
    • 组合技能的跨任务迁移特性,可减少不同领域的 RL 训练数据需求

研究背景 & 核心问题

  • RL 在提升 LLM 性能方面取得了广泛成功,尤其在推理任务中,特别是近期研究发现,即便无需前置监督微调也能发挥作用
  • 但学界对RL的作用存在争议:
    • 观点一:认为 RL 能实现显著效果
    • 观点二:认为 RL 仅为现有推理策略重新加权,并未让模型习得真正的新技能
    • 除此以外,RL 训练中存在熵崩溃、pass@k 评估中性能差距随样本量增大而缩小等现象,进一步引发了对“RL 是否能教会 LLMs 新技能”的质疑
  • 本研究聚焦三个核心问题:
    • 1)RL 能否教会 LLMs 新技能?
    • 2)若问题 1)的答案是能,如何激励这种技能习得?
    • 3)习得的技能是否具有泛化性?

研究框架 & 实验设计

核心假设
  • RL 组合性假设 :
    • 若模型已通过 Next Token Prediction(NTP)训练掌握任务所需的原子技能(不可分解的基础技能) ,则带有适当激励的 RL 能让模型通过组合原子技能 ,习得解决复杂问题的新技能
任务设计:字符串变换预测任务
  • 为避免数据污染和技能边界模糊的问题,研究设计了受控的合成任务,具有以下 3 个特点:
  • 1)原子技能定义 :构建 25 个独特的字符串变换函数(如字符去重、元音移除、字符串反转等),每个函数作为原子技能,采用无意义标识符(如 func_16)命名,避免模型通过函数名推断功能
  • 2)难度控制 :任务难度按组合深度划分等级,Level-n对应n个函数的嵌套组合。例如:
    • Level-1:单一函数应用(如 func_16(x))
    • Level-2:双函数组合(如 func_16(func_15(x)))
    • 更高 Level:更多函数嵌套(如 Level-3 为 func_a(func_b(func_c(x))))
  • 3)任务独立性 :RL 训练和评估任务均不包含在 LLM 预训练语料中,确保性能提升源于学习而非记忆
训练方式-两阶段训练
  • Stage 1:原子技能获取 :通过拒绝微调(RFT)让模型学习所有 25 个原子技能,训练数据包含函数定义、输入字符串及正确推理轨迹,确保模型内化每个函数的行为
  • Stage 2:组合技能训练 :隐藏函数定义,模型仅接收函数名和组合形式(如 func_2(func_16(x))),对比两种训练方式:
    • RL 训练:基于输出正确性提供二元奖励,采用 GRPO 优化算法
    • RFT 基线:使用 NTP 在组合问题的正确推理轨迹上训练
评估方式
  • 留存评估(Held-out Evaluation):Stage 2 训练时将函数分为两组,仅在一组上训练,另一组用于评估未见过的函数组合
  • 难易泛化评估:在 Level-1 至 Level-6 的任务上评估,测试模型对超出训练难度的泛化能力
  • 跨任务迁移评估:以 Countdown 任务(用给定整数通过算术运算构造目标数)为目标任务,测试字符串任务中习得的组合技能能否迁移
实验模型与参数
  • 实验采用 Llama-3.1-8B-Instruct 模型,关键参数如下:
    • Stage 1:训练 2 个 epoch,学习率 \(2×10^{-5}\), Batch Size 128
    • Stage 2:RL 训练采用 DAPO 优化算法,训练 Batch Size 和 Mini-Batch Size 均为 16,学习率 \(1×10^{-6}\),KL 散度和熵损失系数为 0;RFT 基线学习率\(2×10^{-5}\), Batch Size 128,迭代生成训练数据

核心结论

结论 1:RL 能教会 LLMs 新的组合技能
  • 仅在 Level-1 原子技能上训练的 RL 模型(RL Level 1),在 Level-2 及以上任务中性能接近 0;
  • 在 Level-2 组合任务上训练的 RL 模型(RL Level 2)和混合 Level-1+2 训练的模型(RL Level 1+2),展现出极强的泛化能力:
    • Level-3 任务准确率从近 0 提升至 30%
    • Level-4 任务准确率从 1% 提升至 15%
    • 该泛化能力可延伸至 Level-5 及以上,表明模型习得的是组合推理的通用原则,而非记忆解决方案
  • Takeaway 1:

    RL on compositional data teaches new skills that generalize to unseen compositions of known atomic skills.

结论 2:RL 是组合技能习得的关键因素
  • 对比 RL Level 2 模型与基于相同 Level-2 数据训练的 RFT 模型:
    • RFT 模型在 Level-3 任务上准确率从未超过 2.6%,Level-2 任务准确率仅 15%,无法泛化到未见过的组合或更高难度
    • RL 模型在 Level-2 任务上准确率达 64%,Level-3 达 27%,显著优于 RFT
  • 结论:仅靠组合数据的监督训练(RFT)不足以习得组合技能,RL 的激励机制是必要条件
  • Takeaway 2:

    RFT, even with on compositional data, is suboptimal for learning compositional skills; RL, in addition to compositional training data, is another important factor in learning generalizable compositional skills.

结论 3:RL 习得的组合技能具有跨任务迁移性
  • 实验设置:
  • 跨任务迁移实验以 Countdown 任务为目标,测试字符串任务中习得的组合技能迁移效果:
    • 仅掌握 Countdown 原子技能的模型(Multi-Base):
      • 在 Level-3 任务上准确率约 17%,在 Level-4 接近 0 准确率
    • 掌握 Countdown 原子技能,叠加原子技能 RL 训练的模型(Multi-Base + RL L1)
      • 性能提升微弱(Level-3 约 20%),在 Level-4 接近 0 准确率
    • 掌握 Countdown 原子技能,叠加组合技能 RL 训练的模型(Multi-Base + RL L1+2)性能显著提升:
      • Level-3 达 35%,Level-4 达 6%
    • 无 Countdown 原子技能但有组合 RL 训练的模型(String-Base + RL L1+2)完全失败
  • 结论:组合技能可跨任务迁移,但目标任务的原子技能是迁移的前提
  • Takeaway 3:

    Compositional skills learned through RL are transferable to a different task where the model possesses the atomic skills.

结论 4:RL 能突破 Base Model 的性能限制
  • 针对“RL 仅重排(Reranking) Base Model 响应,未提升性能上限”的质疑,研究通过细分难度的 pass@k 评估验证:
    • 在 Base Model 已表现较好的简单任务(Level-1、Level-2)中,RL 模型与 Base Model 的 pass@k 差距随 k 增大而缩小 ,符合“重排”现象
    • 在复杂组合任务(Level-3 至 Level-6)中,RL Level 1+2 模型的 pass@k 性能显著优于 Base Model ,且差距随 k 增大而扩大
      • 如 Level-5 任务中,pass@1 差距 4%,pass@1024 差距达 25%
      • 理解:实际上,如果无限拉大 k,最终一定还会逐步收敛到 1 的,但那种情况下,采样需要的成本就不太可接受了
  • 结论:此前“RL 未提升性能上限”的结论,源于评估任务中 Base Model 已具备较高 pass@k,RL 缺乏学习新技能的激励;
    • 在 Base Model 表现不佳的复杂任务中,RL 能显著突破性能限制
  • Takeaway 4:

    The prior conclusion that RLVR only utilizes base models’ reasoning patterns without learning new abilities is likely an artifact of evaluating and RL training on tasks that base models already achieve high pass@k; thus RL has little incentive to learn a new skill.

结论 5:RL 从根本上改变模型的推理行为
  • 分析方法:使用 Gemini-2.5-Pro 对模型在 Level 3 任务上的错误进行分类:
    • 1)正确
    • 2)忽略组合
    • 3)不完整追踪
    • 4)错误组合
    • 5)原子错误(已正确解析组合结构)
  • 对 Level-3 任务的失败模式分析显示:
    • RFT Base、RFT Level 2 和 RL Level 1 模型的失败主要源于“忽略组合”(>50%)和“误解组合结构”(>35%)
    • RL Level 2 模型:
      • 完全消除“忽略组合”错误
      • 正确率提升至 28.1%
      • 主要失败模式变为“原子错误”(55%),表明已掌握组合结构解析,仅在基础技能应用上存在失误
  • 结论:RL 不仅提升准确率,还根本改变了模型的推理行为 ,使其能够正确理解和处理组合结构
  • Takeaway 5:

    Rather than merely improving accuracy, RL on compositional problems fundamentally transforms the model’s behavior, enabling it to correctly understand and handle compositions.


H-Neurons

  • 原始论文:H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs, THU, 20251202
  • H-Neurons:论大型语言模型中幻觉相关神经元的存在、影响与起源:系统性研究了与 LLM 幻觉相关的神经元(称为 H-Neurons)
  • 贡献 :
    • 揭示了幻觉与过度服从行为在神经元层面的关联
    • 证明幻觉机制根植于预训练目标,而非对齐过程
    • 为 幻觉检测 提供了鲁棒的神经元级特征
    • 为 针对性神经元干预 提供了可能,但需平衡幻觉抑制与模型效用
  • 启示:改善 LLM 可靠性需从 预训练目标 和 神经元级机制 入手,而非仅依赖对齐或数据增强
  • 个人理解:其实不太严谨,只是说明存在一些神经元对某些幻觉敏感,针对所有场景显然很难成立,一些看似幻觉的东西,在不同上下文、对不同的人可能感觉不同

H-Neurons 的是否存在?

  • 副标题:是否存在一组神经元,其激活模式能可靠地区分幻觉输出与忠实输出?
  • 确实存在一组 极其稀疏的神经元子集(占总数不到 \(0.1%\)),能有效预测模型是否会产生幻觉
  • 使用 TriviaQA 数据集构建训练集,通过 稀疏逻辑回归(L1正则化) 识别出这些神经元
  • H-Neurons 在多种场景下具有强泛化能力:
    • 领域内知识回忆(TriviaQA、NQ)
    • 跨领域鲁棒性(BioASQ)
    • 虚构知识检测(NonExist)
  • 表1显示,基于 H-Neurons 的分类器在幻觉检测任务上显著优于随机选择神经元的分类器

H-Neurons 对模型行为的影响?

  • H-Neurons 与 过度服从(over-compliance) 行为存在因果关联
  • 通过 激活缩放(scaling factor \(\alpha \in [0,3]\)) 进行干预实验:
    • 放大(\(\alpha>1\)) : 增加过度服从行为
    • 抑制(\(\alpha<1\)) : 减少过度服从行为
    • 核心方法:缩放神经元激活值 \(z_{j,t} \leftarrow \alpha \cdot z_{j,t}\),观察行为变化
  • 过度服现在四个方面:
    • 1)无效前提(FalseQA)
    • 2)误导性语境(FaithEval)
    • 3)怀疑态度(Sycophancy)
    • 4)有害指令(Jailbreak)
  • 图 3 显示,放大 H-Neurons 导致合规率上升,抑制则提升模型鲁棒性

H-Neurons 的起源?

  • 副标题:H-Neurons 是在预训练阶段还是后训练对齐阶段出现的?
  • H-Neurons 主要形成于 预训练阶段 ,而非对齐阶段
  • 通过 跨模型迁移实验 发现:
    • 在指令调优模型中训练的幻觉检测分类器,在对应的基模型中仍保持高预测能力(AUROC 显著高于随机基线)
    • 图 4 显示,H-Neurons 在基模型与对齐模型之间的参数变化极小,呈现“参数惯性”
  • 结论:幻觉机制根植于预训练目标(如 NTP) ,对齐过程未有效改变这些机制

RLMs(Recursive Language Models)

  • (RLMs)Recursive Language Models, 20251231, MIT
  • RLM 是一种通用、可扩展的推理框架 ,通过将 Prompt 作为环境变量并支持递归调用,显著提升了 LLM 处理超长上下文的能力
    • 实验表明,RLM 在多种长上下文任务上均表现优异,且推理成本可控,为下一代语言模型系统的扩展提供了新方向
    • 理解:本质上是一个有规划能力的 Agent 了
  • 上下文衰减(Context Rot):LLM 在推理和工具使用方面进步迅速,但其上下文长度仍然有限 ,并且随着上下文变长,模型性能会出现显著下降,这种现象称为 Context rot

核心方法:递归语言模型(即 RLMs)

  • RLMs 是一种任务无关的推理范式 ,其核心思想是将长 Prompt 视为外部环境的一部分 ,让 LLM 能够以编程方式交互式地查看、分解和递归调用自身来处理这些内容
  • RLM 的工作原理
    • 1)环境初始化 :将输入 Prompt \(P\) 作为一个变量加载到 Python REPL(Read-Eval-Print Loop)环境 中
    • 2)符号化交互 :LLM 可以在该环境中编写代码来查看、分解 \(P\),并执行递归调用
    • 3)递归子调用 :LLM 可以在代码中构建子任务,并递归调用自身(或子模型)来处理这些子任务
    • 4)迭代式推理 :通过 REPL 环境的执行反馈,逐步构建最终答案
  • 数学表达(概念性)
    • 给定一个长 Prompt \(P\),RLM 将其视为一个环境变量,并通过递归调用函数 \(f_{\text{LLM} }\) 来处理:
      $$
      \text{RLM}(P) = f_{\text{LLM} }^{\text{recursive} }(P, \mathcal{E})
      $$
      • 其中 \(\mathcal{E}\) 是 REPL 环境,支持代码执行、变量存储和递归调用
  • 其他公式总结:
    • 基础 LLM 调用:\(y = f_{\text{LLM} }(x)\)
    • RLM 递归调用:\(y = f_{\text{RLM} }(P, \mathcal{E})\)
    • 环境状态更新:\(\mathcal{E}_{t+1} = \text{REPL_Step}(\mathcal{E}_t, \text{code}_t)\)
    • 递归子调用:\(\text{sub_answer} = f_{\text{LLM} }(\text{chunk}, \mathcal{E}_{\text{sub} })\)

实验设计与任务

  • 论文在多个长上下文任务上评估 RLM,任务复杂度随输入长度呈常数、线性、二次增长 :
    任务 描述 复杂度
    S-NIAH 单针海任务,在长文本中查找特定信息 常数
    BrowseComp+ (1K) 多跳问答,需跨多个文档推理 常数
    OOLONG 长推理任务,需对输入进行语义转换与聚合 线性
    OOLONG-Pairs 需聚合两两配对信息的长推理任务 二次
    LongBench-v2 CodeQA 代码库理解与问答 常数

实验结果与发现

  • 1)RLM 可扩展到 1M+ token ,在长上下文任务上显著优于基础模型和现有方法(如摘要代理、检索代理等)
  • 2)REPL 环境是关键 ,即使没有递归调用,RLM 仍能处理超长输入
  • 3)RLM 性能随任务复杂度增长而缓慢下降 ,优于基础模型的快速衰减
  • 4)推理成本与基础模型相当但方差较大 ,因任务复杂度不同导致调用次数差异大
  • 5)RLM 是一种模型无关的策略 ,适用于不同架构的 LLM
  • 代表性结果(GPT-5 vs RLM(GPT-5))
    任务 GPT-5 RLM (GPT-5)
    OOLONG 44.00 56.50
    OOLONG-Pairs 0.04 58.00
    BrowseComp+ 0.00 91.33
    CodeQA 24.00 62.00

RLM 的典型行为模式分析

  • 1)基于先验的代码过滤 :使用正则表达式等工具筛选信息
  • 2)分块与递归调用 :将长输入分块后递归处理
  • 3)子调用验证答案 :通过递归调用来验证中间结果
  • 4)变量式长输出构建 :通过 REPL 变量逐步构建超长输出

相关研究对比

  • 长上下文系统 :如 MemWalker、ReSum 等,通常采用有损压缩(摘要、截断)或显式内存层次结构
  • 任务分解方法 :如 ViperGPT、THREAD、DisCIPL 等,强调任务分解但 无法处理超长输入
  • RLM 的优势 :将 Prompt 作为环境变量,支持符号化操作 和 执行反馈驱动的递归优化

缺点讨论

  • 1)同步调用速度慢 :当前使用同步调用,未来可探索异步调用与沙箱环境
  • 2)耗时方差大 :平均耗时低,但部分任务或 Prompt 耗时很长
  • 3)模型未针对 RLM 训练 :当前使用现有模型,未来可训练专用 RLM 模型
  • 4)Prompt 设计敏感 :不同模型需调整 Prompt 以避免过度调用
  • 5)对模型能力有要求 :需要能生成代码的强力模型,且依赖模型自身的规划能力好的

AlpacaFarm

  • 原始论文:AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback, NeurIPS 2023, Stanford
  • AlpacaFarm 是一款针对从人类反馈中学习(learning from pairwise feedback, LPF) 的模拟框架,旨在解决该领域数据收集成本高、缺乏可靠评估方法和参考实现的三大核心挑战
    • AlpacaFarm 通过 API LLM 模拟人类反馈,成本较人工标注低 45 倍且与人类判断一致性高,提供自动评估方案(与真实人类交互数据相关性强)及 PPO、Best-of-n 等多种参考方法实现
    • 经验证,其训练的模型排名与基于真实人类反馈训练的模型排名 Spearman correlation 达 0.98 ,且能复现奖励模型过拟合等人类反馈的定性特征,其中 PPO 方法表现最优,较 Davinci003 胜率提升 10% ,为 LPF 相关研究提供了低成本、高效迭代的解决方案
  • LLM 的指令跟随能力依赖于人类反馈训练,但该领域存在三大关键障碍,制约研究推进:
    • 1)数据成本高 :人工标注成对反馈价格昂贵,1000条示例成本约300美元,且耗时久(数天);
    • 2)评估不可靠 :人类评估成本高、不可复现,缺乏能反映真实人类交互的评估数据;
    • 3)方法无参考 :缺乏经过验证的从人类反馈中学习(LPF)方法开源实现,难以对比迭代
  • AlpacaFarm 的核心目标是构建一个低成本、高效迭代的模拟框架,支持研究者在模拟环境中开发 LPF 方法,并能迁移至真实人类反馈场景
  • 核心一:模拟人类反馈(p_sim)
    • 利用 API LLM(如 GPT-4、ChatGPT)设计提示词,模拟人类成对比较偏好;
      • 构建 13 个模拟标注者(含不同模型、提示词格式、上下文示例),模拟标注者间变异性;
      • 训练阶段注入 25% 标签翻转噪声,模拟标注者内变异性;
    • 成本仅为人工标注的 1/45(1000条示例仅需6美元),与人类多数投票一致性达 65%,接近人类标注者间的 66% 一致性
  • 核心二:自动评估方案
    • 以模型相对于参考模型 Davinci003 的胜率为核心指标,直观反映模型性能;
      • 融合 Self-Instruct、OASST、Vicuna 等5个开源数据集,共 805 条指令,覆盖多样化真实人类交互场景;
    • 与 Alpaca Demo 真实用户交互数据的胜率相关性达 \(R^2\)=0.97,证明其能有效替代真实场景评估
  • 核心三:AlpacaFarm 实现并验证了6种主流 LPF 方法,分为两类:
    方法类型 具体方法 核心逻辑
    直接学习成对反馈 Binary FeedME 基于成对反馈中偏好的输出继续监督微调
    直接学习成对反馈 Binary Reward Conditioning 给偏好/非偏好输出添加正负标记,进行条件微调
    优化代理奖励模型 Best-of-n 推理时从SFT模型采样n个输出,选择代理奖励最高的输出(n=1024)
    优化代理奖励模型 Expert Iteration 先通过Best-of-n生成优质输出,再用其微调SFT模型
    优化代理奖励模型 PPO 强化学习算法,在最大化代理奖励的同时,通过KL惩罚约束与SFT模型差异
    优化代理奖励模型 Quark 按奖励分箱,仅用最优分箱数据训练,添加KL和熵正则化
  • 通过训练 11 种模型分别在模拟反馈和真实人类反馈上训练,其胜率排名的斯皮尔曼相关系数达 0.98
    • 证明在 AlpacaFarm 中迭代的方法能有效迁移至真实人类反馈场景
  • 模拟评估标注者(p_sim^eval)与人类多数投票一致性 65%,接近人类标注者间 66% 的一致性;

问题1:AlpacaFarm 如何解决 LPF 研究中的高成本问题?其模拟反馈与真实人类反馈的核心一致性表现如何?

  • AlpacaFarm 通过 API LLM(如 GPT-4、ChatGPT)设计提示词模拟人类成对反馈,成本仅为人工标注的 1/45(1000条示例6美元 vs 人工300美元),且标注效率提升(小时级 vs 天级)
  • 核心一致性表现:模拟评估标注者与人类多数投票的一致性达 65%,接近人类标注者之间 66% 的一致性;模拟反馈的方差(0.26-0.43)与人类标注方差(0.35)接近,能复现人类反馈的过拟合等定性特征,确保模拟场景的真实性

问题2:在 AlpacaFarm 支持的 6 种 LPF 方法中,哪种性能最优?其核心优势是什么?

  • PPO 方法性能最优,其核心表现:在人类反馈训练中对 Davinci003 的胜率达 55.1%,超过 ChatGPT(52.9%),较基础 SFT 10k 提升 10.8 个百分点;在模拟训练中胜率为 46.8%,同样排名第一
  • 核心优势:通过强化学习最大化代理奖励,同时引入 KL 惩罚约束模型参数与 SFT 模型的差异,避免过度偏离基础能力,平衡了性能提升与输出稳定性,相比 Expert Iteration 等方法更能充分利用代理奖励信号

问题3:AlpacaFarm 的自动评估方案如何保证与真实场景的相关性?其评估数据和指标有何特点?

  • AlpacaFarm 自动评估方案通过“数据融合+指标适配”保证与真实场景的相关性
  • 评估数据特点:融合 Self-Instruct、OASST、Vicuna 等5个开源数据集,共 805 条指令,覆盖多样化真实人类交互场景,其根动词、主题分布与真实 Alpaca Demo 交互数据高度匹配;评估指标特点:采用模型相对于 Davinci003 的胜率作为核心指标,直观且可横向对比
  • 相关性验证结果:该评估方案与 Alpaca Demo 真实用户交互数据的胜率相关性达 \(R^2\)=0.97,证明能可靠替代真实场景评估,支持研究者快速迭代方法

RL’s Razor

  • 原始论文:RL’s Razor: Why Online Reinforcement Learning Forgets Less, 20250904, MIT
    • TODO:有一个推导需要补一下
  • 相关博客:SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 该论文核心研究 RL 与 SFT 在模型微调中的“灾难性遗忘”问题,主要内容为:
    • 核心现象:RL 与 SFT 在新任务上性能相近,但 RL 能显著保留先验知识,SFT 则需以遗忘旧能力为代价换取新任务提升
    • 关键发现:提出经验遗忘定律,模型遗忘程度可通过新任务上“微调后与基准策略的 KL 散度” \(\mathbb{E}_{x \sim \tau}[KL(\pi_0 | \pi)]\) 预测
    • 核心原理(RL 的剃刀, RL’s Razor):On-policy RL 天然偏向 KL 散度最小的新任务解决方案,而 SFT 可能收敛到与基准模型差异极大的分布
    • 实验验证:在 LLM(数学推理、科学问答等)和机器人抓取任务中验证上述结论,Oracle SFT(显式 KL 最小化)甚至比 RL 遗忘更少
    • 核心思考启示:未来微调算法应显式最小化与基准模型的 KL 散度,结合 RL 的抗遗忘性与 SFT 的效率,实现模型“终身学习”

核心现象:RL 微调比 SFT 更少遗忘先验知识

  • 对比 RL 与 SFT 的微调效果:
    • 两者在新任务上可达到相近性能
    • RL 能显著更好地保留模型的先验知识和能力,而 SFT 往往通过牺牲先验知识换取新任务性能提升,存在严重的“灾难性遗忘”问题
  • 该现象在 LLM 和机器人基础模型的实验中均得到验证,涵盖数学推理、科学问答、工具使用及机器人抓取放置等任务

遗忘定律:KL 散度是灾难性遗忘的强预测因子

  • 提出经验遗忘定律 :模型在新任务上微调后,其灾难性遗忘程度可通过新任务上微调后策略\(\pi\)与基准策略\(\pi_0\)的 KL 散度准确预测,公式为
    $$ \mathbb{E}_{x \sim \tau}[KL(\pi_0 | \pi)] $$
    • 其中 \(\tau\) 为新任务分布
  • 该定律的实用性:无需访问先验任务数据,可在微调过程中直接测量和调控,且在不同模型、不同领域中保持一致性,反映了遗忘的本质属性
  • 实验验证:
    • 在 ParityMNIST 玩具模型中,遗忘程度与 KL 散度的二次拟合\(R^2=0.96\)
    • 在 LLM 实验中,二次拟合 \(R^2=0.71\),残差可归因于噪声

RL 的核心优势:KL 最小化偏好(即 RL’s Razor)

  • 定义 RL 的剃刀原理(RL’s Razor) :在所有能解决新任务的高奖励方案中,On-policy RL 天然偏向于与原始策略 KL 散度最小的解决方案,即
    $$ \pi^{\dagger}=\arg \min_{\pi \in P^{*} \cap \Pi} D_{KL}(\pi | \pi_0)$$
    • 其中 \(P^*\) 为最优策略集合,\(\Pi\) 为可行策略集合
  • 与 SFT 的差异:SFT 可能收敛到与基准模型 KL 散度任意远的分布(依赖于标注数据),而 RL 的 On-policy 训练机制(从模型自身分布采样)约束学习过程,仅对基准模型已赋予非零概率的输出进行更新,实现“渐进式偏移”而非“任意分布跳转”

On-policy 特性是 KL 散度更小的关键

  • 对比 RL 与 SFT 的训练机制差异:
    • SFT 目标:最小化与外部监督分布 \(\pi_\beta\) 的交叉熵,训练数据来自固定外部标注;
    • RL(策略梯度)目标:最大化 \(\mathbb{E}_{y \sim \pi}[A(x,y) \log \pi(y)]\)(\(A(x,y)\) 为优势函数),训练数据来自模型自身分布,且包含对错误输出的负向惩罚
  • 实验验证:
    • On-policy 算法(如 GRPO、1-0 Reinforce)无论是否使用负例,均比 Offline 算法(SFT、SimPO)产生更小的 KL 偏移,同时保留更多先验知识;
    • SFT 若显式引导至 KL 最小分布(如“Oracle SFT”),可实现比 RL 更优的遗忘-性能权衡,证明 RL 的优势源于隐式 KL 最小化而非算法本身
  • 关于 Optimal SFT Distribution 的说明
    • 为验证 KL 散度是预测变量,作者构建了一个“先知 SFT 分布”(oracle SFT distribution)
    • 在 ParityMNIST 任务中,其简洁性使我们能够通过解析方法,在所有达到 100% 准确率的分布中,找到与 Base 模型 KL 散度最小的 labeling(详见附录B.3)
      • 补充 附录 B.3 内容:

        SFT with oracle distribution: annotations drawn from the minimum-KL distribution consistent with task correctness

      • 若 KL 散度完全决定遗忘程度,那么基于该先知分布训练 SFT 应能实现最优的准确率-遗忘权衡
    • 图 3 的实验结果验证了这一预测(基于先知分布训练的 SFT 比 RL 保留了更多先验知识,达成了观测到的最优权衡效果)
      • RL 表现出色的原因在于其 On-policy 更新会使解决方案偏向低 KL 散度区域,但当 SFT 被显式引导至 KL 最小分布时,其性能可超越 RL
      • 作为额外验证,作者使用 RL-trained model 生成的数据训练了一个 SFT 模型(即利用 RL-trained 模型作为教师去蒸馏一个 SFT 模型),该蒸馏后的 SFT 与 RL 的准确率-遗忘权衡效果一致(见图 9),这进一步证明:决定遗忘程度的是所学的分布,而非优化算法本身

理论支撑:RL 与 KL 最小化的等价性

  • 定理 A.3:二进制奖励下的单步 RL 目标等价于“带信息投影的 EM 算法”,即通过迭代实现:
    • 1)I 步: \(q_t=arg min_{q \in P^{*} } KL(q | \pi_t)\)(找到最优策略集中与当前策略 KL 最小的分布);
    • 2)M 步: \(\pi_{t+1}=arg min_{\pi \in \Pi} KL(q_t | \pi)\)(将当前策略投影到该分布),最终收敛到 KL 最小解 \(\pi^\dagger\)
  • 命题 A.4:若策略空间 \(\Pi\) 为指数族模型且最优策略集非空,无论M投影是否精确(误差可求和),RL 均收敛到 \(\pi^\dagger\)

延伸发现与启示

  • 表征一致性:RL 微调后模型的表征空间与基准模型相似度更高(CKNNA=0.94),而 SFT 出现显著表征漂移(CKNNA=0.56),说明 RL 在不破坏原有表征结构的前提下整合新能力
  • 模型规模影响:增大模型规模(3B->7B->14B)无法改变 SFT 的“新任务性能-先验知识遗忘”权衡,仅提升初始通用能力
  • 优化动力学:微调步骤中,KL 散度的变化与遗忘梯度方向高度相关,更大的 KL 偏移往往导致更严重的灾难性遗忘
  • 实践启示:未来微调算法应显式最小化与基准模型的KL散度,结合RL的遗忘抗性与 SFT 的效率,实现模型“终身学习”

PipelineRL

  • 原始论文:PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, 20250923 & 20250926, ServiceNow AI Research
  • 开源地址:github.com/ServiceNow/pipelinerl)
    • 提供可扩展、模块化的开源代码,支持灵活配置训练加速器数量与生成批次规模,兼容 vLLM、DeepSpeed 等主流工具
  • PipelineRL 是一种针对长序列生成场景 设计的 RL 方法,旨在解决 LLMs 强化学习训练中硬件利用率(Hardware Efficiency)与数据时效性(Data On-policyness)的平衡问题,实现更快的训练速度
  • 在数学推理任务(OpenReasoner Zero 数据集,Qwen 2.5 7B 模型)中,PipelineRL 在 MATH500(84.6%)和 AIME2024(19.8%)基准上达到或超过现有方法性能,同时在相同回报下所需时间仅为传统 RL(G=32)的一半
  • 注:传统强化学习(Conventional RL)在扩展到多加速器时面临瓶颈:
    • 为提升硬件利用率需增大批次规模或增加优化器步数(G),但会导致生成数据与当前训练策略存在滞后(off-policy),损害 REINFORCE、PPO 等算法的性能;
    • 但保持完全 on-policy 又会因加速器空闲降低训练吞吐量
  • PipelineRL 的核心创新是 并发异步数据生成与模型训练 ,并引入 In-flight 权重更新(in-flight weight updates) 机制:
    • 生成引擎在序列生成过程中仅短暂暂停 ,通过高速互联网络接收更新后的模型权重 ,无需等待全部序列生成完成
    • 既保证了加速器的高利用率,又最大化了训练数据的新鲜度
    • 注:同一个序列可能是多个策略模型 Rollout 的拼接结果得到的
  • PipelineRL 的优势:
    • 1)训练速度提升:在 128 块 H100 GPU 上,针对长文本推理任务,训练速度较传统 RL 提升约 2 倍;
    • 2)高数据时效性:虽最大滞后(max lag)较高,但 ESS 与传统 RL(G=8)相当,保证训练稳定性;
    • 3)硬件高效利用:并发执行生成与训练,避免加速器空闲,支持大规模扩展

策略与目标函数

  • LLM 的策略表示为
    $$ \pi(y | x)=\prod_{i=1}^{n} \pi\left(y_{i} | x, y_{ < i}\right)$$
    • 其中 \(y_i\) 为生成的第 \(i\) 个 token,\(x\) 为输入 Prompt
  • 训练目标是最大化期望回报
    $$ J(\pi)=\frac{1}{m} \sum_{j=1}^{m}\left[\mathbb{E}_{y \sim \pi\left(\cdot | x_{j}\right)} R\left(x_{j}, y\right)\right] $$
  • 通过策略梯度估计优化:
    $$\tilde{\nabla} J(\pi)=\frac{1}{m} \sum_{j=1}^{m} \sum_{t=1}^{T_{j} }\left(R\left(x_{j}, y_{j}\right)-v_{\phi}\left(x_{j}, y_{j, \leq t}\right)\right) \nabla \log \pi\left(y_{j, t} | x_{j}, y_{j,<t}\right)$$
    • 其中 \(R(x_j,y_j)\) 为回报,\(v_\phi\) 为价值函数

In-flight 权重更新

  • 生成过程中动态更新行为策略 \(\mu\),使得序列中近期 token 基于最新权重生成,缓解 off-policy 问题
  • 行为策略定义为:
    $$\mu :=\mu_{C}(x_{1:t_{1} })… \mu_{C+g}(x_{t_{g}:t_{g+1} } | \hat{x}_{1:t_{1} },… \hat{x}_{t_{g-1}:t_{g} })$$
    • 其中 \(C\) 为初始检查点,\(g\) 为滞后步数,\(\hat{x}\) 表示保留的KV缓存(平衡效率与时效性)
    • 问题:同一个序列中不同的 Token 由不同策略生成,本质就是一个混合策略 Rollout 的结果

性能指标

  • 通过有效样本量(Effective Sample Size,ESS)量化数据时效性,定义为
    $$ESS=\left( \sum_{i=1}^{N}w_{i}\right) ^{2}\Big/N\sum_{i=1}^{N}w_{i}^{2}$$
    • 取值接近 1 表示数据接近完全 on-policy

PipelineRL 的架构

  • 三阶段流水线:
    • 包含 Actor(生成序列)、Preprocessor(计算参考模型对数概率)、Trainer(模型更新)
    • 通过 Redis 实现数据流式传输,支持模块化集成各类生成引擎

ArenaRL

  • 原始论文:ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking, 20260110, Alibaba Tongyi & Amap
  • ArenaRL 通过组内相对排名替代逐点标量评分 ,有效缓解 Discriminative Collapse;
  • ArenaRL 使用 Seeded Single-Elimination 拓扑,在效率与精度之间取得最优平衡;
  • ArenaRL 论文构建的两个基准(Open-Travel、Open-DeepResearch)填补了开放式 Agent 全周期评估的空白

ArenaRL 解决的核心问题

  • 在开放式任务(Open-Ended Tasks) 中(如旅游规划、深度调研),缺乏客观真实奖励(Ground-Truth Reward) ,传统 RL 方法难以适用
  • 现有方法多采用 LLM-as-Judge 进行逐点标量评分(Pointwise Scalar Scoring),但存在 Discriminative Collapse :
    • 轨迹组内评分方差(\(\sigma_{\text{group} }\))趋近于零;
    • 评分噪声方差(\(\sigma_{\text{noise} }\))较大,导致信噪比(SNR)极低;
    • 奖励信号被噪声主导,RL 优化停滞

ArenaRL 核心创新

  • 文章提出 ArenaRL ,一种从 Pointwise Scalar Scoring 转向 Intra-Group Relative Ranking 的强化学习范式:
    • 引入 Process-Aware Pairwise Evaluation ,基于多维度 Rubrics 进行细粒度比较;
    • 设计锦标赛式排名方案(Tournament-Based Ranking Scheme) ,提升优势估计的稳定性与效率

方法框架:ArenaRL 方法框架

任务定义
  • 任务建模为条件轨迹生成问题:
    $$
    \tau = [z_1, a_1, o_1, \dots, z_K, a_K, o_K, y]
    $$
    • 其中 \(z_k\) 为 Chain-of-Thought,\(a_k\) 为工具调用,\(o_k\) 为环境反馈,\(y\) 为最终答案
  • RL 目标为:
    $$
    \mathcal{L}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, \tau \sim \pi_\theta} \left[ r_\theta(x, \tau) - \beta \mathbb{D}_{\text{KL} } \left( \pi_\theta (\cdot|x) | \pi_{\text{ref} } (\cdot|x) \right) \right]
    $$
Process-Aware Pairwise Evaluation
  • 构建 Arena Judge \(\mathcal{I}\),同时评估两条轨迹 \(\tau_a, \tau_b\),输出各自的评分 \(s_a, s_b\);
  • 输入包括:用户 Query \(x\)、两条轨迹的完整过程(含 CoT、工具调用)、细粒度 Rubrics;
  • 采用双向评分协议 消除位置偏置:
    $$
    (s_i, s_j) = \mathcal{I}(x, \tau_i, \tau_j, u) + \mathcal{I}(x, \tau_j, \tau_i, u)
    $$
    • 需要评两次,但是能保证没有位置偏差
Tournament Topologies(锦标赛拓扑结构)
  • 研究了五种锦标赛拓扑结构,旨在在计算成本与排名精度之间取得平衡:
    拓扑结构 计算复杂度 特点
    Round-Robin \(\mathcal{O}(N^2)\) 全配对,精度最高
    Anchor-Based Ranking \(\mathcal{O}(N)\) 基于锚点轨迹排名,分辨率低
    Seeded Single-Elimination \(\mathcal{O}(N)\) 论文方案 ,基于锚点预排名后构建二叉树
    Double-Elimination \(\mathcal{O}(2N)\) 双败淘汰,对随机种子敏感
    Swiss-System \(\mathcal{O}(N \log N)\) 非淘汰制,动态配对
  • 补充:种子单败淘汰赛(Seeded Single-Elimination)的具体流程
    • 种子阶段 :使用 Anchor-Based Ranking 获得初始排名;
    • 淘汰阶段 :按种子排名构建二叉树进行配对,胜者晋级;
    • 最终排名基于生存深度与累积平均分
Ranking-Based Policy Optimization
  • 将排名转换为优势信号:
    $$
    r_i = 1 - \frac{\mathrm{Rank}(\tau_i)}{N-1} \\
    A_i = \frac{r_i - \mu_r}{\sigma_r + \epsilon}
    $$
    • 理解:排名 \(\mathrm{Rank}(\tau_i)\) 越靠后,奖励分数 \(r_i\) 越低
  • 目标函数为带 KL 惩罚的 PPO 形式:
    $$
    \mathcal{L}_{\text{ArenaRL} }(\theta) = \mathbb{E}_{x, \mathcal{G} } \left[ \frac{1}{N} \sum_{i=1}^N \left( \min\left( \frac{\pi_\theta}{\pi_{\text{old} } } A_i, \text{clip}\left( \frac{\pi_\theta}{\pi_{\text{old} } }, 1-\epsilon, 1+\epsilon \right) A_i \right) - \beta \mathbb{D}_{\text{KL} } (\pi_\theta | \pi_{\text{ref} }) \right) \right]
    $$

新的基准构建:Open-Travel 与 Open-DeepResearch

  • 构建流程
    • Stage I :高质量 Query 与参考轨迹构建;
    • Stage II :大规模训练数据生成(SFT + RL 数据);
    • Stage III :轨迹数据质量控制( LLM-based 质量检查)
  • 数据集统计
    数据集 SFT 样本数 RL 样本数 测试样本数 语言 领域
    Open-Travel 2,600 1,626 250 中文 旅游规划
    Open-DeepResearch 2,662 2,216 100 中英混合 Deep Research

实验与结果

  • 主要结果
    • ArenaRL 在 Open-Travel 上平均胜率 41.8% ,显著高于 GRPO(16.4%)和 GSPO(17.2%)
    • 在 Open-DeepResearch 上胜率 64.3% ,有效生成率(Val.%)达 99%
    • 在公开写作任务(WritingBench, HelloBench, LongBench-write)上也表现优异,平均得分高于所有基线
  • 锦标赛拓扑分析
    • Seeded Single-Elimination 在 \(\mathcal{O}(N)\) 复杂度下达到与 Round-Robin 相近的排名精度;
    • Anchor-Based 与 Swiss-System 在精度上表现较差
  • 其他扩展分析
    • 组大小(Group Size) \(N\) 增加可提升性能,尤其在复杂任务中;
    • 一致性评估 :LLM 评估与人工评估一致性达 73.9%;
    • 无需冷启动的 RL :ArenaRL 可直接从基础模型开始训练,有效缓解冷启动问题;
    • 真实业务场景 :在高德地图(Amap)生态中,ArenaRL 在 POI 搜索与开放规划任务中表现优异

实现细节

  • 训练:
    • 冷启动阶段:基于 Qwen3-8B,SFT 3 个 epoch;
    • RL 阶段:使用 Slime 框架,组大小 \(N=16\)(Open-Travel)/ \(N=8\)(Open-DeepResearch),学习率 \(1 \times 10^{-6}\)
  • 评估:
    • 使用 Qwen3-Max 与 Claude-4-Sonnet 作为双 Judge;
    • 采用多维度 Rubrics 进行成对评估
  • 工具说明:
    • Open-DeepResearch 使用 Google API 搜索 + 摘要模型;
    • Open-Travel 集成高德地图 POI 搜索、路线规划等六类工具

附录:论文中提到的 5 个锦标赛对战方法详情

  • 在 ArenaRL 中,最终选择 Seeded Single-Elimination 作为主要锦标赛拓扑,因其在 \(\mathcal{O}(N)\) 复杂度下实现了接近 Round-Robin 的排名精度,且通过种子机制有效避免了高质量轨迹的过早淘汰
Round-Robin Tournament(循环赛)
  • 对战方法:
    • 每一条轨迹 \(\tau_i\) 都会与组内所有其他 \(N-1\) 条轨迹进行成对比较
    • 使用 Process-Aware Pairwise Evaluation 机制进行比较
    • 每条轨迹的最终得分为其胜率 :
      $$
      \mathrm{Score}(\tau_i) = \frac{1}{N-1} \sum_{j \neq i} \mathbb{I}(s_i > s_j)
      $$
      • 其中 \(\mathbb{I}(\cdot)\) 为指示函数,若 \(s_i > s_j\) 则为 1,否则为 0
    • 最终排名按 \(\mathrm{Score}(\tau_i)\) 降序排列
  • 理论最优排名 ,但计算复杂度为 \(\mathcal{O}(N^2)\);
  • 适用于小规模组或作为“黄金标准”用于评估其他锦标赛的精度
Anchor-Based Ranking(锚点排名)
  • 对战方法:
    • 1)生成锚点轨迹 :
      • 使用贪心解码(Temperature = 0)生成一个确定性轨迹 \(\tau_{\text{anc} }\),作为质量锚点
    • 2)生成探索轨迹 :
      • 其余 \(N-1\) 条轨迹通过高熵采样(Temperature = 0.8)生成,保持多样性
    • 3)成对比较 :
      • 每条探索轨迹 \(\tau_i\) 分别与锚点轨迹 \(\tau_{\text{anc} }\) 进行比较,得到一组评分 \((s_i, s_{\text{anc} }^i)\)
    • 4)计算锚点平均分 :
      $$
      s_{\text{anc} } = \frac{1}{N-1} \sum_{i=1}^{N-1} s_{\text{anc} }^i
      $$
    • 5)排名 :
      • 将所有轨迹的评分集合 \(\{s_1, \dots, s_{N-1}, s_{\text{anc} }\}\) 降序排列
  • 计算复杂度为 \(\mathcal{O}(N)\),效率高;但 无法区分两条探索轨迹之间的细微差异 ,排名分辨率低
Seeded Single-Elimination Tournament(种子单败淘汰赛)
  • 对战方法:
    • 阶段一:种子阶段(Seeding Phase)
      • 1)使用 Anchor-Based Ranking 对组内所有轨迹进行初步排名;
      • 2)得到种子排名 \(s_{\text{seed} }^i\),用于构建对战树
    • 阶段二:淘汰阶段(Elimination Phase)
      • 1)构建二叉树结构 ,根据种子排名进行配对:
        • 种子 1 vs 种子 \(N\),种子 2 vs 种子 \(N-1\),以此类推;
      • 2)每一场对战中,胜者晋级,败者淘汰:
        $$
        \tau_{\text{win} } = \mathrm{argmax}_{\tau \in \{\tau_i, \tau_j\} } (s_i, s_j)
        $$
        • 循环多次直到只剩下一个模型没有被淘汰(需要 \(N-1\) 次比较)
      • 3)最终排名依据:
        • 生存深度 :在锦标赛中走得更远的轨迹排名更高;
        • 若在同一轮被淘汰(如四强赛),则根据累积平均分进一步排名
  • 计算复杂度为 \(\mathcal{O}(N)\)(种子阶段 \(N-1\) 次比较 + 淘汰阶段 \(N-1\) 次比较);
  • 通过种子机制避免高质量轨迹过早相遇 ,提升排名精度
Double-Elimination Tournament(双败淘汰赛)
  • 对战方法:
    • 包含胜者组与败者组;
      • 轨迹首次失败后进入败者组,再次失败才被淘汰
    • 胜者组正常进行单败淘汰;
    • 败者组内部也进行淘汰赛,胜者可重新挑战胜者组败者
    • 最终排名基于淘汰轮次与累积平均分
  • 计算复杂度约为 \(\mathcal{O}(2N)\);
    • 对偶然失误更鲁棒 ,但若初始种子质量差,排名精度仍有限
Swiss-System Tournament(瑞士制锦标赛)
  • 对战方法:
    • 1)动态配对 :每轮根据当前胜负记录进行配对(如“1胜0负” vs “1胜0负”);
      • 所有轨迹参与固定轮次 \(K \approx \log_2 N\),每轮进行 \(N/2\) 场对战
    • 2)最终排名依据 :
      • 总胜场数;
      • 布赫霍尔兹分(Buchholz Score) :对手的胜场总和,用于衡量对手强度
    • 3)排名公式 :
      • 综合胜场与对手强度进行排序
  • 计算复杂度为 \(\mathcal{O}(N \log N)\);
  • 无淘汰机制,所有轨迹参与全程;
  • 适合规模较大、需渐进排名的场景

Prompt-Repetition

  • 原始论文:(Prompt-Repetition)Prompt Repetition Improves Non-Reasoning LLMs, Google, 20251217
  • 总结:本论文提出并验证了一种简单却有效的 Prompt 增强策略(重复输入 Prompt),能显著提升 LLM 在非推理任务上的性能,且不影响效率
  • 基本思路是通过复制 Query 一遍以提升性能,文中提到 Prompt Repetition 是 一种简单有效的非推理任务提升方法 ,适用于多种主流 LLM,不影响延迟与输出长度,建议作为非推理任务的默认策略之一
  • 与之前的多种提示技术(如 Chain-of-Thought、Re-reading 等不同),它们常增加输出长度与延迟
  • 注:之前有研究显示重复输入可提升文本嵌入质量,其他研究也有重复输入能提升推理表现的发现,但论文重点在非推理任务

Motivation

  • 由于 因果语言模型(causal language model)的训练方式,输入 token 的顺序会影响模型预测性能
    • 如,“CONTEXT > QUESTION”与“QUESTION > CONTEXT”两种顺序可能导致不同结果
  • 核心假设:将输入 Prompt 重复一遍(即 QUERY > QUERY),使每个 prompt token 能关注到所有其他 prompt token,从而缓解顺序依赖问题,提升模型在非推理任务上的性能

具体方法:Prompt Repetition

  • 将原始输入 QUERY 转换为 QUERY > QUERY,即简单复制一次
    • 在不增加生成 token 数量或延迟的前提下,提升模型在非推理任务上的准确率
  • 其他变体:
    • Prompt Repetition (Verbose) :加入 “Let me repeat that:” 等引导词
    • Prompt Repetition ×3 :重复三次
    • Padding :用无关 token(如句点)填充至相同长度,作为对照实验

实验设计:模型与基准测试

  • 模型:涵盖 7 个主流 LLM,包括 Gemini 2.0 Flash/ Lite、GPT-4o/4o-mini、Claude 3 Haiku/3.7 Sonnet、Deepseek V3
  • Benchmark :
    • 标准任务:ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH
    • 自定义任务:NameIndex、MiddleMatch(用于验证 Prompt 重复的强效场景)
  • 在非推理模式下测试,部分任务测试“选项优先”与“问题优先”两种输入顺序
  • 非推理模式 :直接回答
  • 推理模式 :使用“Think step by step”引导模型逐步推理

实验结果

  • 非推理模式下的表现
    • Prompt Repetition 在 47/70 个模型-基准组合中显著优于基线,0 次显著劣于基线
    • 在自定义任务 NameIndex 和 MiddleMatch 中效果尤为明显(如 Gemini 2.0 Flash-Lite 准确率从 21.33% 提升至 97.33%)
    • Prompt Repetition ×3 在某些任务上表现更优
  • 推理模式下的表现
    • Prompt Repetition 效果为中性或轻微正面(5 胜 1 负 22 平)
    • 因为推理过程本身常会重复部分 Prompt,重复带来的增益有限
  • 效率影响
    • Prompt Repetition 不增加生成 token 数量 ,不增加延迟(仅影响可并行化的 prefill 阶段)
    • 例外:Claude 模型在处理极长输入(如重复三次)时延迟略有增加
  • 消融分析
    • Padding 对照实验 :仅增加长度而不重复内容,无性能提升,说明增益来自内容重复而非长度增加
    • Prompt Repetition ×3 与 Verbose 变体 :在某些任务中表现与标准重复相当或略优

文中提到的未来研究方向(共 13 点)

  • 在训练中引入重复 Prompt 进行微调
  • 训练推理模型时使用重复 Prompt 以提升效率
  • 在生成过程中重复最后生成的 token,探索多轮对话适用性
  • 在 KV-cache 中仅保留第二次重复以减少计算负担
  • 仅重复部分 Prompt(尤其适用于长 Prompt)
  • 重新排序 Prompt(如使用小模型)而非简单重复
  • 扩展至非文本模态(如图像)
  • 研究多次重复(>2)的效果
  • 分析重复对注意力模式的影响
  • 结合选择性注意力等技术使用重复
  • 探索与 Prefix LM 的交互
  • 研究重复有效的情境及 token 表示的变化
  • 探索其他有前景的变体

GRADE: Replacing Policy Gradients with Backpropagation for LLM Alignment

  • GRADE: Replacing Policy Gradients with Backpropagation for LLM Alignment, 20251230, Lotus Health AI
  • Motivation:RLHF 已成为对齐 LLM 与人类偏好的主流范式,但基于 Policy Gradient(策略梯度)的方法(如 PPO)存在以下问题:
    • 梯度估计方差高:需要大量样本和精细的超参数调优
    • 计算资源需求大:训练不稳定,优化效率低
    • 离散采样瓶颈:由于需要采样离散 Token,无法实现从奖励信号到模型参数的端到端梯度流
  • 为解决这些问题,论文提出了一种 全新的、完全避免 Policy Gradient 估计的方法

核心方法:GRADE

  • GRADE 的全称是 Gumbel-softmax Relaxation for Alignment via Differentiable Estimation(通过可微分估计进行对齐的 Gumbel-Softmax 松弛)
  • GRADE 核心思想是:使用可微分的 Token 生成过程替代离散采样,从而允许通过标准的反向传播直接优化奖励目标
  • 思考:论文创新主要是直接回传梯度,实际本质与 Offline RL 中的 Batch Loss 类似
相关关键技术
Gumbel-Softmax 重参数化
  • 用于生成连续的、可微分的“Soft Token”分布 \(\tilde{y}\),近似离散的类别分布
  • 公式:\(\tilde{y}_i = \frac{\exp((\ell_i + g_i) / \tau)}{\sum_{j=1}^{V}\exp((\ell_j + g_j) / \tau)}\),其中 \(g_i \sim \mathrm{Gumbel}(0,1)\),\(\tau\) 为温度参数
  • 当 \(\tau \to 0\) 时,输出趋近于 One-Hot 向量(即 Hard Sampling );当 \(\tau \to \infty\) 时,输出趋近于均匀分布。整个过程对 Logits \(\ell\) 是可微的
Straight-Through Estimator, STE
  • Straight-Through Estimator,暂时翻译为直通估计器
  • 在前向传播中使用 Hard Sampling (离散 Token),在反向传播 中让梯度通过软分布(Gumbel-Softmax 输出)进行流动
    $$ y_{\mathrm{STE} } = y_{\mathrm{hard} } - \mathrm{sg}(\tilde{y}) + \tilde{y}$$
    • 其中 \(\mathrm{sg}(\cdot)\) 是停止梯度算子
  • 这确保了生成的文本是离散的(可用于标准奖励函数评估),同时保持了梯度的可传播性
GRADE-STE 变体
  • 将 Gumbel-Softmax 与 STE 相结合,形成了论文推荐的方法 GRADE-STE
  • 它在前向传递中生成真实的离散文本,在反向传递中通过 Soft Token 分布计算梯度
GRADE 方法流程
  • 第一步:可微分 Token 生成
    • 在每个生成步骤 \(t\),模型不是采样一个离散 Token,而是生成一个 Soft Token 分布 \(\tilde{y}_t\)
    • 通过 Soft Token 的嵌入向量 \(\tilde{e}_t = \tilde{y}_t^{\top}E\) 输入到 Transformer 中,以自回归方式生成后续 Token
  • 第二步:可微分奖励计算
    • 奖励模型也需要能够处理 Soft Token 输入
    • 通过共享词汇表,将 Soft Token 序列 \(\tilde{Y}\) 输入 奖励模型 计算奖励 \(r(x, \tilde{Y})\)
  • 第三步:优化训练目标
    • 目标函数结合了奖励最大化和KL 散度正则化(防止策略偏离预训练模型太远):
      $$
      \mathcal{L}(\theta) = -\mathbb{E}_{x\sim \mathcal{D} }\left[r(x,\hat{Y}_{\theta})\right] + \beta \cdot \mathbb{E}_{x\sim \mathcal{D} }\left[\mathrm{KL}(\pi_{\theta}| \pi_{\mathrm{ref} })\right]
      $$
      • 注意:梯度 \(\nabla_{\theta} \mathcal{L}\) 是通过标准的、低方差的反向传播计算得出,而不是通过高方差的 Policy Gradient 估计
  • 其他:内存优化
    • 采用 Top-k Gumbel-Softmax ,仅对 Logits 最高的 k 个 Token(实验中 \(k=256\))进行计算,大幅降低内存开销(从 \(O(T \times V)\) 降至 \(O(T \times k)\))
    • 使用梯度检查点(Gradient Checkpointing)和在线 KL 计算等技术

理论分析

  • 论文提供了 GRADE 为何能降低梯度方差的理论依据:
  • 命题1(方差减少) :
    • 在奖励函数平滑的假设下,Gumbel-Softmax 梯度估计器 \(\hat{g}_{GS}\) 的方差小于等于 REINFORCE 策略梯度估计器 \(\hat{g}_{PG}\) 的方差
    • 这源于重参数化技巧将随机性隔离在了噪声变量 \(\epsilon\) 中
  • 命题2(偏差-方差权衡) :
    • Gumbel-Softmax 梯度估计器是有偏的,偏差随温度 \(\tau \to 0\) 而减小(但降低温度后方差会增加)
    • 需要采用温度退火 策略:训练初期使用较高的温度以获得低方差梯度,后期降低温度以减少偏差

实验与评估

  • 任务:基于 IMDB 电影评论数据集的情感控制文本生成 ,即给定一段评论开头(Prompt),模型需生成表达积极情感的续写
  • 基线方法:PPO, REINFORCE, 以及 GRADE(无 STE 的变体)
  • 评估设置:严格的数据划分(奖励模型训练集、策略训练集、验证集、测试集),防止数据泄露
  • 主要结果(见表1):
    • GRADE-STE 取得了最佳性能:测试集奖励达到 \(0.763 \pm 0.344\)
    • 显著优于基线:相对 PPO (\(0.510\)) 有 50% 的提升,相对 REINFORCE (\(0.617\)) 有 24% 的提升
    • 梯度方差极低:GRADE-STE 的梯度标准差为 \(0.003\),比 REINFORCE (\(0.050\)) 低 14 倍以上
    • 泛化能力优秀:GRADE-STE 表现出负的“泛化差距”(测试性能优于验证性能),而 PPO 则显示出过拟合迹象(正泛化差距)

整体评价

  • GRADE-STE 成功的原因:
    • 1)低梯度方差:通过可微分松弛实现确定性反向传播
    • 2)直通估计器(STE)的关键作用:平衡了前向的离散性与反向的连续性
    • 3)隐式正则化:在 Soft Token 分布上训练可能起到了防止过拟合的作用
  • 适用场景 :
    • 当奖励模型能与生成器共享词汇表时
    • 当训练稳定性和计算效率是关键考量时
  • 局限性 :
    • 1)词汇表匹配要求:无法直接使用任意外部奖励函数
    • 2)温度敏感性:性能依赖于温度退火策略
    • 3)内存需求:尽管有优化, Soft Token 生成仍比 Hard Sampling 需要更多内存
    • 4)训练-测试不匹配:模型用 Soft Token 训练,但用 Hard Sampling 测试

SDPO(Self-Distillation Policy Optimization)

  • 原始论文:Reinforcement Learning via Self-Distillation, 20260128
  • SDPO(Self-Distillation Policy Optimization,自蒸馏策略优化)是一种针对 LLM 在可验证环境(如代码、数学推理)中进行强化学习的方法
  • SDPO 通过利用环境提供的丰富反馈(如运行时错误、测试失败信息、评语等),以自蒸馏的方式实现密集信用分配(Dense Credit Assignment) ,从而克服传统 RL 方法中因标量奖励导致的奖励稀疏性 带来的信用分配瓶颈
    • 理解:SDPO 的本意实际上就是想使用更丰富的奖励
  • 评价:
    • 新颖的想法:将符号化反馈转化为密集学习信号;在 Token 级别分配优势,提升学习效率
    • 无需外部教师 :完全自监督,适用于在线学习
    • 适配性强可作为标准 RLVR 方法的即插即用替代
    • 可以用于避免冗余和循环推理,提升模型推理质量
    • 可能存在问题:
      • 性能依赖于模型的上下文学习能力,对较弱模型可能还不如 GRPO
      • 此外,反馈质量直接影响学习效果,要重点关注

SDPO 核心思想

  • 背景:
    • 传统 RL 方法(如 GRPO)在可验证奖励环境(RLVR)中仅使用标量奖励(如 0/1 表示正确/错误),导致学习信号稀疏
    • 许多环境实际上提供结构化、符号化的反馈(如错误信息、失败用例、状态描述等),这些反馈能帮助模型理解为什么失败
  • SDPO 将这一设置形式化为 “带丰富反馈的强化学习(Reinforcement Learning with Rich Feedback,RLRF)” ,并利用当前模型作为Self-teacher ,在接收到反馈后重新评估自身生成的序列,生成一个基于上下文的、更优的 Token 分布 ,从而为每个 Token 提供密集的信用信号

SDPO 算法基本流程

  • 对于每个问题 \( x \):
    • Step 1:学生策略(当前模型 \(\pi_\theta\))生成答案 \( y \sim \pi_\theta(\cdot | x) \)
    • Step 2:环境返回丰富反馈 \( f \)(如错误信息、失败用例、成功示例等)
    • Step 3:Self-teacher 策略 将反馈 \( f \) 作为上下文,重新评估同一序列 \( y \) 的每个 Token ,得到条件分布:
      $$
      \pi_\theta(\cdot | x, f, y_{ < t})
      $$
    • Step 4:通过最小化学生分布与 Self-teacher 分布 之间的 KL 散度,实现自蒸馏:
      $$
      \mathcal{L}_{\mathrm{SDPO} }(\theta) = \sum_t \mathrm{KL}\big( \pi_\theta(\cdot | x, y_{ < t}) \big| \big| \mathrm{stopgrad}\big( \pi_\theta(\cdot | x, f, y_{ < t}) \big) \big)
      $$
      • 理解:这里 \(\mathrm{stopgrad}\) 防止 Self-teacher 被学生拉回(影响)
      • 问题:直观看,这个方式可能打乱模型原本的分布,因为强行拟合一个条件分布可能是比较奇怪的

SDPO 梯度推导

  • SDPO 的梯度可表示为:
    $$
    \nabla_\theta \mathcal{L}_{\mathrm{SDPO} }(\theta) = \mathbb{E}_{y \sim \pi_\theta(\cdot | x)} \left[ \sum_{t=1}^{|y|} \sum_{\hat{y}_t \in \mathcal{V} } \nabla_\theta \log \pi_\theta(\hat{y}_t | x, y_{ < t}) \cdot \log \frac{\pi_\theta(\hat{y}_t | x, y_{ < t})}{\pi_\theta(\hat{y}_t | x, f, y_{ < t})} \right]
    $$
    • 其中 \(\mathcal{V}\) 表示 Token 词表集合,对其进行加和本质就是对输出 Token \(\hat{y}_t\) 进行积分
    • 这等价于一个基于对数优势的梯度更新 ,其中优势函数定义为:
      $$
      A_{t}^{\mathrm{SDPO} }(\hat{y}_t) = \log \frac{\pi_\theta(\hat{y}_t | x, f, y_{ < t})}{\pi_\theta(\hat{y}_t | x, y_{ < t})}
      $$
      • 优势为正表示教师认为该 Token 更优,为负表示更差
      • 注意:详细推导见原始论文附录 B.1
        • 问题:似乎推导是错误的(具体来讲 \( \nabla_\theta A_{t,k}\) 求导似乎有点问题)
        • 回答:已确认,没有问题,将 \(A_{t,k}\) 拆成两个对数的差即可快速得到结果

SDPO vs GRPO 的优势函数比较

  • GRPO 的优势函数 :
    $$
    A_{i,t}^{\mathrm{GRPO} }(\hat{y}_{i,t}) = \color{red}{\mathbb{1}\{y_{i,t} = \hat{y}_{i,t}\}} (r_i - \mathrm{mean}\{r_i\})
    $$
    • 仅为已生成 Token (\(y_t\))分配常数优势,信息稀疏
    • 理解:这里是可以将所有可能的 Token 都列出来,再选择命中的(已生成的)Token 作为优势,其他的分配 0 优势,体现稀疏性(相对 SDPO 的优势函数)
  • SDPO 优势函数 :
    $$
    A_{i,t}^{\mathrm{SDPO} }(\hat{y}_{i,t}) = \log \frac{\pi_\theta(\hat{y}_{i,t} | x, f_i, y_{i,<t})}{\pi_\theta(\hat{y}_{i,t} | x, y_{i,<t})}
    $$
    • 为每个可能的 Next Token 分配优势,实现 密集信用分配

其他关键技术细节

  • SDPO 可处理(支持)三种反馈类型:
    • 环境输出(如错误信息)
    • 成功样本(同组内其他成功的尝试)
    • 原始尝试(可选,但实验表明可能降低探索性)
  • (增加教师正则化)为防止教师过快偏离初始模型,采用以下正则化策略:
    • 显式信任域约束(Trust-Region Teacher)
    • 指数移动平均参数更新(EMA Teacher)
  • (近似计算)为节省内存,使用 Top-K 蒸馏 :
    • 仅计算学生 Top-K Token 的分布差异,其余 Token 合并为一个“尾部”概率项
  • SDPO 是可扩展的,可以扩展为:
    • SDPO+GRPO 混合优势 :结合标量奖励与 Self-teacher 信号
    • 离策略训练 :支持PPO风格的重要性采样

SDPO 相关实验效果

无丰富反馈环境(标准 RLVR)
  • 在科学推理、工具使用等任务上,SDPO 显著优于 GRPO
    • 生成答案更简洁,推理更高效
    • 训练速度更快,样本效率更高
有丰富反馈环境(如代码生成等)
  • 在 LiveCodeBench v6 上,SDPO 准确率显著高于 GRPO
    • 所需生成次数减少约 4 倍
    • 特别在中等和难题上表现优异
测试时自蒸馏:Test-Time Self-Distillation
  • 对于极难题(pass@64 < 0.03),SDPO 能加速解决方案的发现
  • 相比 best-of-\(k\) 采样或多轮对话,发现速度提升约 3 倍

RLPR(Reinforcement Learning with Reference Probability Reward)

  • 原始论文:RLPR: Extrapolating RLVR to General Domains without Verifiers, THU & NUS …, 20250623
  • 论文提出了一种名为RLPR的新框架,旨在将RLVR(Reinforcement Learning with Verifiable Rewards)方法推广到通用领域,而无需依赖外部验证器(Verifier)
  • 论文核心贡献总结
    • 1)提出 RLPR 框架 :首次将 RLVR 推广到通用领域,无需外部验证器
    • 2)提出概率奖励(Probability Reward,PR) :利用 LLM 内在解码概率作为奖励,优于似然奖励和验证器模型
    • 3)提出标准差过滤策略 :动态过滤训练样本,改进 PR 并提升训练稳定性与最终性能
    • 4)全面实验验证 :在多个模型和基准上验证了 RLPR 的有效性与通用性

背景 and Insight

  • 背景:
    • RLVR 已在数学和代码生成任务中表现不错,但其严重依赖于领域特定的验证器(如规则验证器或训练好的验证模型)
      • 1)扩展成本高、工程复杂度大;
      • 2)难以推广到自然语言回答自由形式多样、难以规则化的通用领域
  • 作者的核心 Insight 与动机
    • Insight:LLM 生成正确答案的内在概率直接反映了其自身对推理质量的评估
    • 动机:能否直接利用这个概率信号作为奖励,从而摆脱对外部验证器的依赖?

RLPR 方法核心思想

  • 使用参考答案的解码概率 作为奖励信号,替代传统的外部验证器奖励
  • 通过概率去偏和标准差过滤 机制,提升奖励的稳定性和训练效果
Probability Reward(PR)
  • 第一步:给定问题 \(Q\)
    • 模型生成推理内容 \(z\) 和答案 \(y\) ,参考答案为 \(y^*\)
  • 第二步:将生成的答案替换为参考答案,构成新序列 \(o’\)
    • 将新序列输入策略模型 \(\pi_\theta\) 得到每个 token 的解码概率 \(p_i\)
  • 奖励计算为参考答案对应 token 概率的均值(而非序列似然),以降低方差、提升鲁棒性:
    $$
    r = \frac{1}{|y^*|} \sum_{o_i’ \in y^*} p_i
    $$
    • 注意这里的 \(p_i\) 是生成参考答案的概率
    • 理解:这种 Reward 涉及的一个隐含一个目标 等价于 最大化当前策略 \(\pi_\theta\) 生成参考答案对应的概率
Reward Debiasing
  • 概率奖励可能受到问题本身或参考答案的影响,引入偏差
  • 定义一个基础分数 \(r’\)
    • \(r’\) 为直接解码参考答案 \(y^*\)(无中间推理 \(z\))的概率
    • 理解:\(r\) 和 \(r’\) 的区别是 \(r’\) 不包含推理过程 \(z\),\(r\) 包含推理过程,作者认为 不包含推理过程的 \(r’\) 可以用来作为基线
      • 问题:但这样会导致最大化目标变成 最大化带推理的概率 - 不带推理的概率 ,且 \(r’\) 对不同的问题是不一样的,这可能是有偏的,更像是再优化推理的准确性,即加上推理以后的效果比原始模型不加推理的效果更好
  • 去偏后的奖励为:
    $$
    \hat{r} = \mathrm{clip}(0, 1, r - r’)
    $$
    • 理解:这里应该只会被下界 0 Clip(概率的均值不会大于 1),此时表示加入推理后生成 reference 的概率更低了(从而分数更低了)
  • 目标函数梯度为:
    $$
    \nabla \mathcal{J}_{\mathrm{RLPR} }(\theta) = \mathbb{E}_{o \sim \pi_\theta(\cdot|x)}[\hat{r} \nabla \log \pi_\theta(o|x)]
    $$
Standard Deviation Filtering
  • 传统 RLVR 使用准确率过滤(全对或全错的样本),甚至不需要设置阈值,论文提到 PR 是连续值,难以设置阈值
    • 理解:其实也不难,毕竟可以设置一个 0.8 这种值(比如当前很多训练时准确率 0.98 的 Query 也可能会被过滤掉的),只是说不是动态的,分数可能无法动态按照难度区分而已
  • 作者进一步提出动态标准差过滤 :移除奖励标准差低于阈值 \(\beta\) 的样本(表示样本太简单或太难)
  • \(\beta\) 通过指数移动平均 动态更新,适应训练过程中奖励分布的变化

实验结果

实验设置
  • Base Model :Gemma2、Llama3.1、Qwen2.5 系列
  • 训练数据 :使用 WebInstruct 中非数学类的高质量推理问题,经 GPT-4.1 过滤后保留约 77k 条
  • 评估基准 :
    • 数学推理:MATH-500、Minerva、AIME24
    • 通用推理:MMLU-Pro、GPQA、TheoremQA、WebInstruct
  • 基线方法 :包括 Base/Instruct 模型、PRIME、SimpleRL-Zoo、Oat-Zero、TTRL、General Reasoner、VeriFree 等

主要结果

  • RLPR 在通用领域和数学推理任务 上均显著优于基线方法
  • 在 Qwen2.5-7B 上:
    • MMLU-Pro:56.0(优于 General Reasoner 的 55.4)
    • TheoremQA:55.4(优于 VeriFree 7.6 分)
  • 在 Llama3.1-8B 和 Gemma2-2B 上也取得一致提升
概率奖励质量分析
  • PR 在区分正误回答 上优于规则验证器和基于模型的验证器(AUC 更高)
  • 即使在小规模模型(如 Qwen2.5-0.5B)上也表现良好
  • PR 与生成回答的长度和熵 相关性极低,表明其作为奖励机制的鲁棒性
消融实验
  • 去除去偏操作 :性能下降约 2.5-2.7 分
  • 去除标准差过滤 :性能下降约 1.4-2.9 分
  • 使用序列似然替代 token 平均概率 :性能大幅下降(20+ 分),验证了平均概率的鲁棒性
在可验证领域也可用?
  • 在数学数据上,结合规则验证器奖励与 PR 可进一步提升模型性能(Table 4)
  • 说明 PR 不仅能用于无验证器场景,也能增强有验证器场景的细粒度判别能力
鲁棒性高
  • 在不同提示模板下,RLPR 性能稳定,而 VeriFree 对模板敏感
  • 训练过程中响应长度和熵保持稳定,无退化或崩溃现象

ReAct

  • 原始论文:ReAct: Synergizing Reasoning and Acting in Language Models, 20221006-20230310, Shunyu Yao, Princeton

Epiplexity

  • 原始论文:From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence, 20260106, CMU & NYU
  • 注:epiplexity(/ˌepɪˈpleksəti/) 是作者新造的单词,属于信息论的学术属术语,论文中标注为:epistemic complexity(认知复杂度)

  • 原始论文:Tree of Thoughts: Deliberate Problem Solving with Large Language Models, NeurIPS 2023, Shunyu Yao, Princeton & DeepMind

NLP——技术报告解读-LongCat-Flash-Chat

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report, 20250831, LongCat Team, Meituan
    • LongCat Chat 在线体验: https://longcat.ai
    • Hugging Face: https://huggingface.co/meituan-longcat
    • Github: https://github.com/meituan-longcat
    • 部署链接:LongCat-Flash Deployment Guide
      • [Model] Add LongCat-Flash #23991
      • [Model] Support Meituan LongCat-Flash && LongCat-Flash-MTP #9824

Paper Summary

  • LongCat-Flash 是一个 560B 参数的 MoE 模型,LongCat-Flash 采用了两种新颖的设计:
    • (a) 零计算专家(Zero-computation Experts) :
      • 能够实现动态计算预算分配,并根据上下文需求为每个 token 激活 18.6B 至 31.3B (平均 27B )参数,从而优化资源使用
    • (b) 捷径连接的 MoE(Shortcut-connected MoE)
      • 扩大了计算-通信重叠窗口,与同等规模的模型相比,在推理效率和吞吐量方面展现出显著提升
  • 论文为大型模型开发了一个全面的扩展框架,该框架结合了多个能力以实现稳定且可复现的训练:
    • 超参数迁移(hyperparameter transfer)
    • 模型增长初始化(model-growth initialization)
    • 多管齐下的稳定性套件(multi-pronged stability suite)
    • 确定性计算(deterministic computation)
  • 利用可扩展架构设计和基础设施工作之间的协同作用,作者在 30 天内完成了超过 20T token 的模型训练,同时实现了超过 100 tokens/秒(TPS)的推理速度,每百万输出 token 的成本为 0.70 美元
  • 训练过程:
    • 在优化的混合数据上进行了大规模预训练
    • 随后针对推理、代码和指令进行了有针对性的中期训练(mid-training)和Post-training
    • 并进一步通过合成数据(synthetic data)和工具使用任务(tool use tasks)进行增强
  • 作为一个 Non-thinking 的基础模型,LongCat-Flash 在其他领先模型中提供了极具竞争力的性能,并在智能体任务中表现出卓越的优势

Introduction and Discussion

  • LLM 的快速发展已经证明了扩展模型规模和计算资源的有效性
    • 尽管最近的一些进展引发了人们对潜在扩展放缓的担忧,但作者相信算法设计、底层系统优化和数据策略都在进一步推动可扩展智能前沿方面扮演着同样关键的角色
    • 这需要在模型架构和训练策略上进行创新,以提高扩展的成本效益,同时需要一个系统性的数据策略来增强模型解决现实世界任务的能力
  • LongCat-Flash 旨在沿着两个协同方向推进语言模型的前沿:计算效率(computational efficiency) 和 智能体能力(agentic capability)
  • LongCat-Flash 在数万个加速器(Accelerators)上训练, 将架构创新与复杂的多阶段训练方法相结合,以打造可扩展且智能的模型
    • 注意:使用的是 Accelerators 不一定是英伟达的 GPU!
  • 论文的贡献涵盖了效率和智能体智能两个方面:
  • 面向计算效率的可扩展架构设计(Scalable Architectural Design for Computational Efficiency)
    • LongCat-Flash 的设计和优化遵循两个关键原则:高效的计算利用率 ,高效的训练和推理
    • (1) 由于 并非所有 token 都是平等的 ,论文在 MoE 块中引入了 零计算专家(zero-computation experts) 机制,根据 token 的重要性为其动态分配计算预算,即基于上下文需求激活 18.6B 至 31.3B 参数(总共 560B )
      • 为了确保一致的计算负载,论文采用了由 PID 控制器调整的专家偏置(expert bias) ,将每个 token 的平均激活参数维持在约 27B
    • (2) 由于通信开销在 MoE 模型扩展过程中成为瓶颈,论文采用了 捷径连接的 MoE(Shortcut-connected MoE, ScMoE) (2024) 设计来扩大计算-通信重叠窗口
      • 结合定制的基础设施优化,该设计使得能够在超过数万个加速器的大规模上进行训练,并实现高吞吐量和低延迟的推理
  • 有效的模型扩展策略(Effective Model Scaling Strategy)
    • 有效且高效地扩展模型规模仍然是策略设计中的一个关键挑战,为此,论文开发了一个全面的稳定性与扩展框架,用于稳健地训练大规模模型:
    • (1) 论文成功地将超参数迁移策略应用于如此大的模型
      • 通过利用具有理论保证的较小代理模型的结果来预测最优超参数配置
    • (2) 论文使用基于精炼的半规模检查点的模型增长机制(model-growth mechanism based on a refined half-scale checkpoint)来初始化模型
      • 与传统的初始化方法相比,实现了更好性能
    • (3) 一个多管齐下的(multi-pronged)稳定性套件包含了:
      • 原则性的路由器梯度平衡(principled router-gradient balancing)
      • 用于抑制大规模激活的隐藏 z-loss (hidden z-loss to suppress massive activations)
      • 精调的优化器配置(fine-tuned optimizer configurations)
    • (4) 为了增强大规模集群训练的可靠性,论文引入了确定性计算(deterministic computation)
      • 这保证了实验的精确可复现性,并能够在训练过程中检测静默数据损坏(Silent Data Corruption, SDC)
    • 以上这些干预措施确保了 LongCat-Flash 的训练保持稳定,没有出现不可恢复的损失尖峰
  • 面向智能体能力的多阶段训练流程(Multi-Stage Training Pipeline for Agentic Capability)
    • 通过精心设计的流程,LongCat-Flash 被赋予了先进的智能体行为
    • 最初的努力集中在构建一个更适合智能体后训练的基础模型上,论文设计了一个两阶段预训练数据融合策略(two-stage pretraining data fusion strategy)来浓缩(concentrate) reasoning-intensive 领域的数据
    • 在中期训练期间,论文增强了推理和编码能力,同时将上下文长度扩展到 128k,以满足智能体后训练的要求
    • 基于这个先进的基础模型,论文进行多阶段的后训练
    • 认识到高质量、高难度的智能体任务训练问题的稀缺性,论文设计了一个多智能体合成框架 ,该框架在三个轴线上定义任务难度,即:
      • 信息处理(information processing)
      • 工具集复杂性(tool-set complexity)
      • 用户交互(user interaction):使用专门的控制器来生成需要迭代推理和环境交互的复杂任务
  • 受益于论文在可扩展架构设计、训练策略和基础设施工作之间的协同作用,LongCat-Flash 同时实现了高训练吞吐量和低推理延迟
    • 在 30 天内完成了 560B 参数模型超过 20T token 的预训练 ,并在无需人工干预解决故障的情况下实现了 98.48% 的时间可用性
    • 在推理期间,大规模部署效率在 H800 上超过每秒 100 个 token(TPS) ,每百万输出 token 的成本为 0.7 美元,与类似规模的模型相比,展现了卓越的性能
  • 论文在各种基准测试中评估了 LongCat-Flash 的基础版本和指令调优版本,其概览总结在图 1 中
    • 作为一个非思维模型,LongCat-Flash 实现了与最先进的非思维模型(包括 DeepSeek-V3.1 (2025) 和 Kimi-K2 (2025))相媲美的性能,同时使用了更少的参数并提供了更快的推理速度
    • LongCat-Flash 得分展示了在通用领域、编码和智能体工具使用方面的强大能力:
      • 在 ArenaHard-V2 上得分为 86.5
      • 在 TerminalBench 上得分为 39.5
      • 在 \(\tau^{2}\)-Bench 上得分为 67.7
    • 为了减轻现有开源基准测试可能带来的污染(contamination)并增强评估信心,论文精心构建了两个新的基准测试:Meeseeks (2025) 和 VitaBench
      • Meeseeks 通过迭代反馈框架模拟真实的人与 LLM 交互,以评估多轮指令遵循能力,LongCat-Flash 在该测试中取得了与前沿 LLMs 相当的成绩
      • VitaBench 利用真实的商业场景来评估模型在处理复杂现实世界任务方面的熟练程度,LongCat-Flash 在其中提供了优于其他 LLMs 的性能
  • 论文组织结构如下:
    • 首先,详细介绍 LongCat-Flash 的架构和创新之处
    • 然后,描述预训练和后训练过程,包括论文的训练策略、数据构建方法和评估结果
    • 最后,讨论训练 LongCat-Flash 过程中的挑战和解决方案,以及利用其独特架构的优化推理和部署方法

Architecture

  • LongCat-Flash 采用了一种新颖的 MoE 架构,包含两项关键创新(图 2):
    • (1) MoE 块中引入了零计算专家(zero-computation experts)(2024) 以实现动态计算
      • 允许 token 根据其上下文重要性消耗可变计算资源
      • 且通过自适应专家偏置(adaptive expert bias)来调节平均计算负载
    • (2) 每一层集成了两个多头潜在注意力(Multi-head Latent Attention, MLA)块 (2024a) 和多个异构前馈网络(Feed-Forward Network, FFN)块
      • 采用了从第一个 MLA 输出到 MoE 块的快捷连接(shortcut connection)(2024)
      • 为了进一步提升性能,论文通过方差对齐(variance alignment)改进了 MLA 和细粒度 FFN 专家

Zero-Computation Experts

  • Next Token Prediction 展现出固有的计算异质性(computational heterogeneity)
    • 困难的 token 可能需要更多资源来进行准确预测,而简单的 token 则需要可忽略的计算
    • 注:这种现象也通过 投机采样(speculative decoding) 得到了经验性证据支持,其中小型草稿模型(draft model)能够可靠地预测大型模型对于大多数简单 token 的输出 (2023)
  • 受现象启发,LongCat-Flash 提出了一种动态计算资源分配机制,通过零计算专家 (2024, 2024) 为每个 token 激活可变数量的 FFN 专家,从而能够根据上下文重要性更合理地分配计算
    • 具体来说,LongCat-Flash 除了 \(N\) 个标准 FFN 专家外,还将其专家池扩展了 \(Z\) 个零计算专家
  • 零计算专家简单地将其输入 \(x_{t}\) 作为输出返回,因此不引入额外的计算成本
  • 令 \(x_{t}\) 为输入序列的第 \(t\) 个 token,LongCat-Flash 中的 MoE 模块可以公式化如下:
    $$
    \begin{align}
    \text{MoE}(x_{t})&=\sum_{i=1}^{N+Z}g_{i}E_{i}(x_{t}), \\
    g_{i}&=\begin{cases}
    R(x_{t})_{i}, & \text{if } R(x_{t})_{i} \in \text{TopK}(R(x_{t})_{i}+b_{i} \mid 1\leq i\leq N+Z, K), \\
    0, & \text{otherwise},
    \end{cases} \\
    E_{i}(x_{t})&=\begin{cases}
    \text{FFN}_{i}(x_{t}), & \text{if } 1\leq i\leq N, \\
    x_{t}, & \text{if } N < i\leq N+Z,
    \end{cases} \tag{1}
    \end{align}
    $$
    • \(R\) 表示 softmax 路由器(router)
    • \(b_{i}\) 是对应于第 \(i\) 个专家的专家偏置(expert bias)
    • \(K\) 表示每个 token 选择的专家数量
      • 问题: \(K\) 和 \(N+Z\) 有什么关系?\(\text{TopK}(R(x_{t})_{i}+b_{i} \mid 1\leq i\leq N+Z, K)\) 的具体含义是什么?
  • 路由器将每个 token 分配给 \(K\) 个专家,其中激活的 FFN 专家数量根据上下文重要性因 token 而异
  • 通过这种自适应分配机制,模型学会动态地将更多计算资源分配给具有更高上下文重要性的 token,从而在与图 2(a) 所示相同计算能力下实现更优的性能
Computational Budget Control
  • 为了激励模型学习上下文相关的计算分配,对零计算专家的平均选择比率进行细粒度控制至关重要
    • 没有显式约束时,模型倾向于未充分利用零计算专家(理解:即不选择零计算专家),导致资源使用效率低下
  • 论文通过改进无辅助损失(aux-loss-free strategy)策略 (2024a) 中的专家偏置机制来实现这一点,引入了一个专家特定的偏置项,该偏置项根据最近的专家利用率动态调整路由分数 ,同时与语言模型(LM)训练目标解耦
  • 对于对应于第 \(i\) 个专家的专家偏置 \(b_{i}\) ,它在每个步骤中按以下增量更新:
    $$
    \Delta b_{i}=\begin{cases}
    \mu \left( \frac{K_{e} }{K} \cdot \frac{1}{N} - \frac{T_{i} }{T_{\text{all} } } \right), & \text{if } 1\leq i\leq N, \\
    0, & \text{if } N < i\leq N+Z,
    \end{cases}
    \tag{2}
    $$
    • \(\mu\) 表示偏置适应率(bias adaptation rate)
    • \(T_{\text{all} }\) 表示全局批次(global batch)中的 token 数量
    • \(T_{i}\) 表示路由到第 \(i\) 个专家的 token 数量
    • \(K_{e}\) 表示期望激活的 FFN 专家数量,它小于每个 token 选择的专家数量 \(K\)
    • 理解:
      • 回顾:供包含 \(N\) 个标准 FFN 专家(非0计算专家),\(Z\) 个零计算专家
      • \(\frac{1}{N}\) 表示绝对均衡情况下,每个非0计算专家需要负担的 Token 比例(所有 Token 比例)
      • \(\frac{K_{e} }{K}\) 表示非0计算专家占选中的总专家数的比例(注意只有非 0 计算专家需要计算比例)
      • \(\frac{K_{e} }{K}\frac{1}{N}\) 则表示绝对均匀情况下,每个非0计算专家需要负担的非0计算 Token 比例
        • 注意:这里有点绕,实际上,路由到当前专家的 Token 都是命中了非 0 专家的部分
      • \(\frac{T_{i} }{T_{\text{all} } }\) 表示当前专家(非0专家)被路由到的 Token 比例(路由到当前专家的都是非0专家路由)
      • 最终,当所有非 0 专家都满足上面的式子为 0 时,即:
        $$ \frac{K_{e} }{K} \cdot \frac{1}{N} - \frac{T_{i} }{T_{\text{all} } } = 0 $$
        • 此时每个非0专家被路由的次数比例为
          $$ \frac{T_{i} }{T_{\text{all} } } = \frac{K_{e} }{K} \cdot \frac{1}{N} $$
        • 此时,总的非0专家被路由总次数比例为
          $$\frac{K_{e} }{K}$$
        • 结合每个 Token 路由共 \(K\) 个专家,此时每个 Token 对应的非0专家次数为:
          $$\frac{K_{e} }{K} \times K = K_e$$
        • 每个 Token 对应的 0 计算专家次数为:
          $$ K - K_e $$
        • 注:对 0 计算专家,我们不要求每个专家都均衡的被路由,仅仅考虑整体满足比例约束即可
          • 原因:非0计算专家是等价的,计算是完全一致的,都是 identity 操作!!
  • 上述更新规则采用了控制理论中的 PID 控制器(比例-积分-微分控制器)(Bennett, 1993),确保第 \(i\) 个专家的 token 分配收敛到其目标比例
    • 与固定的偏置增量 (2024a) 相比,这种机制提高了 softmax 路由器概率分布在专家数量扩展时的鲁棒性
    • 值得注意的是,论文将零计算专家排除在偏置更新之外 ,因为它们的恒等性质只需要一个全局约束 ,当所有 FFN 专家达到其期望的 token 比例时,该约束会自动满足
      • 问题:如何理解?
    • 根据经验,大 Batch Size 和 \(\mu\) 的衰减计划(decay schedule)提高了预算控制的稳定性,而小 Batch Size 可能需要降低更新频率
  • 在预训练期间,论文跟踪了激活专家的平均数量和标准差(图 2(b) 和 2(c))
    • 结果表明,在经过大约 20B token 的调整后,所有层中的平均专家数量收敛到期望值,波动小于 1%
    • 但标准差持续保持在相对较高的水平,表明模型在不同 token 间分配了显著不同的计算资源
  • 注:关于动态路由的详细统计和案例研究,请参阅附录 A.1
  • 补充 图 3:
    • (a) 在匹配的计算预算下,比较带有/不带有零计算专家的模型的验证损失曲线
      • 基线(top-k=8,蓝色)每个 token 固定激活 6B 参数,而零专家变体(top-k=12,橙色)动态激活 4.2B-7.0B 参数,但保持 8 个 FFN 专家的期望(波动小于 1%)
      • 一致的损失降低证明了零计算专家的有效性
    • (b) LongCat-Flash 训练期间激活的 FFN 专家的平均数量
      • 平均数量始终保持在大约 8 左右,对应于期望的 27B 激活参数
    • (c) 激活的 FFN 专家的标准差增长到 3,表明不同 token 间激活参数存在显著变异性
Load Balance Control
  • 高效的 MoE 训练需要 FFN 专家之间的鲁棒负载均衡
  • 公式 (2) 在语料库级别强制执行平衡,论文进一步引入了设备级负载均衡损失 (DeepSeek-2025) 以进一步防止 EP 组(Expert Parallelism groups)之间的极端序列级不平衡
  • 论文做出了必要的努力来适应零计算专家,具体来说:假设所有 \(N\) 个 FFN 专家被分为 \(D\) 个组,每组包含 \(G=\frac{N}{D}\) 个专家,该损失可以表示为:
    $$
    \begin{align}
    \mathcal{L}_{\text{ LB} } &=\alpha\sum_{j=1}^{D+1}f_{j}P_{j}, \tag{3} \\
    P_{j} &=\frac{1}{T}\sum_{i\in\text{Group}_{j} }\sum_{t=1}^{T}R(x_{t})_{i},
    \tag{4} \\
    f_{j} &=\begin{cases}
    \dfrac{D}{K_{e}T}\sum_{t=1}^{T}\mathbb{I}(\text{token } t \text{ selects Group}_{j}), & \text{if } 1\leq j\leq D, \\
    \dfrac{1}{(K-K_{e})T}\sum_{t=1}^{T}\mathbb{I}(\text{token } t \text{ selects zero-computation experts}), & \text{if } j = D+1,
    \end{cases} \tag{5}
    \end{align}
    $$
    • \(\alpha\) 是平衡因子
    • \(T\) 是微批次(micro batch)中的 token 数量
    • \(\mathbb{I}\) 是指示函数
    • 理解(与 DeepSeek-V3 类似,比 DeepSeek-V3 设计复杂一些):
      • 每次计算最小化 损失 \(\mathcal{L}_{\text{ LB} }\) 时,都可以看做是一个求解约束优化问题的过程
      • 约束优化问题为:
        • 求解约束优化问题时,系数 \(f_{j}\) 可以看做是固定值(是每个序列的统计值,不同序列该值不同)
        • 变量是 \(P_{j}\) 满足一定约束(详情参考 DeepSeek-V3)
          $$ \sum_j P_j=1 $$
        • 直观上看,最小化 \(\sum_{j=1}^{D+1}f_{j}P_{j}\) 的解就是让概率 \(P_{j}\) 随着 \(f_j\) 变化, \(f_j\) 越小,则 \(P_j\) 应该越大
          • 这样才能才能满足最小化 \(\sum_{j=1}^{D+1}f_{j}P_{j}\)
        • 从梯度上看
          $$ \frac{\partial \mathcal{L}_{\text{ LB} }}{\partial P_{j}} = \alpha f_{j} $$
          • 对于 \(f_{j}\) 越大的组,其概率 \(P_j\) 下降的越多
          • 进一步理解:\(P_j\) 下降是通过调整模型 router 参数实现的,这会导致参数更新后下一轮中真实统计值 \(f_j\) 下降,最终会收敛到一个大家的真实分配统计值 \(f_j\) 都差不多相同的地方(这也就实现了所谓的均衡),此时有:
            $$ \dfrac{D}{K_{e}T} \beta_j^\text{non-0} = \dfrac{1}{(K-K_{e})T} \beta_j^\text{0} $$
            • \(\beta_j^\text{non-0}\) 表示 Token 选择某一个非0计算专家组的次数比例
            • \(\beta_j^\text{0}\) 表示 Token 选择0计算专家组的次数比例
          • 于是有单个非0组与0组的比例为:
            $$ \frac{\beta_j^\text{non-0}}{\beta_j^\text{0}} = \frac{K_e}{D(K-K_e)}$$
          • 进一步有,整体非0组与0组的比例为:
            $$ \sum_j\frac{\beta_j^\text{non-0}}{\beta_j^\text{0}} = \frac{K_e}{K-K_e}$$
      • 精巧的设计:上文对每个非 0 专家组使用的是
        $$\dfrac{D}{K_{e}T}\sum_{t=1}^{T}\mathbb{I}(\text{token } t \text{ selects Group}_{j}), \text{if } 1\leq j\leq D$$
        • 而不是:
          $$\dfrac{\color{red}{1}}{K_{e}T}\sum_{t=1}^{T}\mathbb{I}(\text{token } t \text{ selects Group}_{j}), \text{if } 1\leq j\leq D$$
        • 这里故意放大了 非0计算专家组的 \(f_{j}\) 就是想要让最终总的非0专家数与0计算专家数的比例为: \(\frac{K_{e} }{K-K_{e} }\) ,具体逻辑参见对损失函数梯度的理解
  • 在损失中,论文将所有零计算专家分配到一个额外的组,并对每组中的频率取平均
  • 通过调整 \(f_{j}\) 的系数,论文确保当损失收敛时,FFN 专家与零计算专家的比率接近 \(\frac{K_{e} }{K-K_{e} }\)

Shortcut-Connected MoE

  • 论文最初的架构采用了 MoE 和 Dense FFN 块的交错拓扑(interleaved topology)
    • 该设计已通过实证研究得到广泛验证,表现出与领先的共享专家模型 (2022, 2024a) 相当的性能
    • 但大规模 MoE 模型的效率在很大程度上受到通信开销的限制
    • 在传统的执行范式中,专家并行(Expert Parallelism, EP)强加了一个顺序工作流:一个集合操作(collective operation)必须首先将 token 路由到其指定的专家,然后才能开始计算
      • 这种通信延迟成为瓶颈,导致设备利用率不足并限制整体系统吞吐量
    • 共享专家架构试图通过将通信与单个专家的计算重叠来缓解这个问题 ,但它们的效率受到该单个专家较小计算窗口的限制
  • 论文通过采用快捷连接混合专家(Shortcut-connected MoE, ScMoE)架构 (2024) 来克服这一限制
    • ScMoE 引入了一个跨层快捷方式(cross-layer shortcut),重新排序了执行流水线
      • 注:ScMoE 的详情见:Shortcut-connected expert parallelism for accelerating mixture-of-experts, arXiv 2024 & ICML 2025, HKUST
    • 这一关键创新允许前一个块的 Dense FFN 与当前 MoE 层的分发/组合(dispatch/combine)通信并行执行,创造了比共享专家设计更实质性的重叠窗口
  • 此外,该架构设计选择通过以下关键发现得到验证
    • 首先,ScMoE 结构不会损害模型质量
      • 如图 4 所示,论文的架构与没有 ScMoE 的基线的训练损失曲线几乎相同,证实了这种重新排序的执行不会损害模型性能
      • 在多种设置下观察到一致的结果,包括一个带有 MLA 的 2.4B-16B MoE 模型、一个带有 MHA(多头注意力)(2017) 的 3B-20B 模型,以及带有 GQA(分组查询注意力)(2023) 的 15B-193B 模型
      • 重要的是,这些发现表明 ScMoE 的稳定性和益处与注意力机制的选择是正交的
      • 问题:这里的不损害模型质量相对于哪种结构来说的?
        • 回答:应该是 MoE 和 Dense FFN 块的交错拓扑结构
        • 补充问题:那现在的设计在每个 Layer 中多了一个 Dense FFN 块吧
    • 其次,ScMoE 架构为训练和推理带来了显著的系统级效率提升
      • 对于大规模训练:扩大的重叠窗口允许前一个块的计算与 MoE 层中的分发和组合通信阶段完全并行,这是通过沿 token 维度将操作划分为细粒度块(fine-grained chunks)来实现的
      • 对于高效推理:ScMoE 实现了单批次重叠(Single Batch Overlap)流水线,与 DeepSeek-V3 等领先模型相比,将理论上的每输出 token 时间(Time-Per-Output-Token, TPOT)减少了近 50%
        • 此外,它允许并发执行不同的通信模式: Dense FFN 的节点内张量并行(Tensor Parallelism, TP)通信(通过 NVLink)可以与节点间专家并行(Expert Parallelism, EP)通信(通过 RDMA)完全重叠,从而最大化总网络利用率
  • 总之,ScMoE 在不牺牲模型质量的情况下提供了显著的性能提升
    • 这些效率增益不是通过权衡实现的,而是经过严格验证的、质量中立的架构创新的直接结果

Variance Alignment Design for Scalability

  • 在小规模下表现出色的架构设计,随着模型规模的扩大可能会变得次优,反之亦然 ,这使得初始设计选择不可靠
  • 通过广泛的实验和理论分析,论文确定特定模块中的方差失配(variance misalignment)是导致这种差异的关键因素 ,这可能在扩展过程中导致不稳定和性能下降
  • 为了应对这一挑战,论文为 MLA 和 MoE 块提出了方差对齐技术
Scale-Correction for MLA
  • LongCat-Flash 采用了改进的多头潜在注意力(Multi-head Latent Attention, MLA)机制 (2024a),它结合了尺度校正因子 \(\alpha_{q}\) 和 \(\alpha_{kv}\) 以解决不对称低秩分解(asymmetric low-rank factorization)中固有的方差不平衡问题
  • 论文整合了这些校正因子的完整数学公式如下:
    $$
    \begin{aligned}
    c^Q_{t} &= \color{red}{\alpha_{q}} W^{DQ} h_{t} \in \mathbb{R}^{d_{q} }, \\
    c^{KV}_{t} &= \color{red}{\alpha_{kv}} W^{DKV} h_{t} \in \mathbb{R}^{d_{kv} }, \\
    q^{C}_{t,i} &= W^{UQ} c^Q_{t}, \\
    k^{C}_{t,i} &= W^{UK} c^{KV}_{t}, \\
    v_{t,i} &= W^{UV} c^{KV}_{t}, \\
    q^{R}_{t,i} &= \text{RoPE}(W^{QR} c^Q_{t}), \\
    k^{R}_{t} &= \text{RoPE}(W^{KR} h_{t}), \\
    q_{t,i} &= [q^{C}_{t,i}; q^{R}_{t,i}], \\
    k_{t,i} &= [k^{C}_{t,i}; k^{R}_{t}], \\
    o_{t,i} &= \text{Attention}(q_{t,i}, k_{1:t,i}, v_{1:t,i}), \\
    u_{t} &= W^{O} [o_{t,1}; o_{t,2}; \ldots; o_{t,n_{h} }],
    \end{aligned}
    \tag{6}
    $$
    • \(h_{t} \in \mathbb{R}^{d_{\text{model} } }\) 是输入隐藏状态
    • 每个头 \(i\) 的最终查询(query)和键(key)通过连接一个内容部分(C)和一个旋转部分(R)形成
    • 注:作为对照,下面是原始的 MLA 结构:
  • 引入 \(\alpha_{q}\) 和 \(\alpha_{kv}\) 解决了查询/键向量分量之间基本的方差失配问题
    • 在初始化时,它们的方差与其源维度成正比: \(\sigma^{2}(q_{t}^{C})\) , \(\sigma^{2}(q_{t}^{R}) \propto d_{q}\) 和 \(\sigma^{2}(k_{t}^{C}) \propto d_{kv}\)
    • 相比之下,旋转键分量 \(k_{t}^{R}\) 的方差与完整模型维度成正比: \(\sigma^{2}(k_{t}^{R}) \propto d_{\text{model} }\)
    • 当 \(d_{q}\) , \(d_{kv}\) , 和 \(d_{\text{model} }\) 变化时,这种维度差异导致初始化时的注意力分数不稳定,导致模型缩放期间性能下降且不可预测
  • 论文的解决方案是重新缩放低秩路径分量,使其最终方差与参考尺度对齐,论文使用完整模型维度作为参考。这是通过定义缩放因子来实现的:
    $$
    \alpha_{q}=\left( \frac{d_{\text{model} } }{d_{q} } \right)^{0.5} \quad \text{and} \quad \alpha_{kv}=\left( \frac{d_{\text{model} } }{d_{kv} } \right)^{0.5}.
    \tag{7}
    $$
  • 这种尺度不变的校正(scale-invariant correction)中和了方差失配,确保它们对于注意力计算是良态的(well-conditioned)。论文的实验表明,这种方法提高了模型性能,如图 4(a) 所示
Variance Compensation for Experts Initialization
  • LongCat-Flash 采用了来自 DeepSeek-MoE (2024a) 的细粒度专家策略,该策略将每个专家分割成 \(m\) 个更细粒度的专家,以增强组合灵活性和知识专门化
    • 但论文观察到这种设计的性能对其他架构选择(例如,专家数量、top-k、 \(m\) )很敏感
  • 为了解决这个问题,论文提出了一种方差补偿机制,以抵消由专家分割引起的初始化方差减少。该机制将一个缩放因子 \(\gamma\) 应用于专家的聚合输出,公式如下:
    $$
    \text{MoE}(x_{t})=\gamma \left( \sum_{i=1}^{mN} g_{i} \cdot E_{i}(x_{t}) \right),
    \tag{8}
    $$
    • \(g_{i}\) 是路由器在 \(mN\) 个细粒度专家上的输出
    • \(N\) 表示分割前的专家总数
  • 公式 (8) 中的缩放因子 \(\gamma\) 是通过量化两个主要方差减少来源得出的:
    • 1)门控稀释(Gating Dilution) :将每个原始的 \(N\) 个专家分解为 \(m\) 个更细粒度的专家,将专家总数扩展到 \(mN\)
      • 这种扩展迫使 softmax 门控将其概率质量分布在更大的专家池上,按比例减小单个门控值 \(g_{i}\) 的大小。因此,输出方差大约减少了 \(m\) 倍
    • 2)维度减少(Dimensional Reduction) :每个细粒度专家的中间隐藏维度( \(d_{\text{expert_inter} }\) )减少了 \(m\) 倍
      • 假设参数初始化均匀,单个专家的输出方差也减少了 \(m\) 倍
  • 为了在初始化时保持 MoE 层的输出方差(与分割前的基线匹配), \(\gamma\) 必须补偿这两种效应
    • 因此,组合的方差补偿因子是 \(\gamma = \sqrt{m \cdot m} = m\)
  • 补充 图 5:
    • (a) 在 MLA 上加入尺度校正因子显示了在 1B 激活的 MoE 模型上改进的收敛性(更低的损失)
    • (b) 模型增长实验中一个 6B 激活的 MoE 模型的验证损失曲线

Model Information

  • Tokenizer
    • LongCat-Flash 采用字节对编码(Byte-Pair Encoding, BPE)(1999, 2015) 进行分词
    • 论文的分词器是在一个涵盖网页、书籍、源代码等的全面多语言语料库上训练的,确保了强大的跨域性能
    • 在继承 GPT-4 的预分词框架的同时,论文引入了以下修改:
      • (1) 增强的中日韩(CJK)字符分割以改进中文文本处理
      • (2) 独立的数字分词以提升数学能力
    • 词汇表大小优化为 131,072 个 token,在计算效率和语言覆盖范围之间取得了有效平衡
  • Multi-Token Prediction
    • 为了提升推理效率,论文集成了多 token 预测(Multi-Token Prediction, MTP)(2024) 作为辅助训练目标
      • 问题:辅助训练目标的话,是提升效果吧?
    • 为了获得最佳推理性能,论文使用单个 Dense 层而不是 MoE 层作为 MTP 头(MTP head)
    • 经验观察显示 MTP 损失快速收敛,促使论文在训练管道中期策略性地引入 MTP 训练,以平衡模型性能和预测准确性
      • MTP 头在评估中实现了 >90% 的接受率(表 5)
      • 问题:具体评估了多少个?
  • LongCat-Flash 模型配置 (Model Configurations) :
    • 包含 28 层(不包括 MTP 层),隐藏状态维度为 6144
    • 每个 MLA 块使用 64 个注意力头,每个头的维度为 128,以实现性能-效率的平衡权衡
    • Following DeepSeek-V3 (DeepSeek-2025),KV 压缩维度设置为 512,查询压缩维度设置为 1536
    • Dense 路径中的 FFN 采用 12288 个中间维度,而每个 FFN 专家使用 2048 个维度
    • MLA 块和 FFN 块中的缩放因子遵循第 2.3.1 节的方法
    • 每层包含 512 个 FFN 专家和 256 个零计算专家,每个 token 精确激活 12 个专家(从两种类型中选择)
    • LongCat-Flash 总参数量为 560B,根据上下文每个 token 激活 18.6B 到 31.3B 参数,平均激活约 27B 参数

Pre-Training

  • LongCat-Flash 的预训练遵循三阶段课程:
    • (1) 论文使用约 20T token、序列长度为 8192 的数据训练模型,以建立一个强大的基础模型
    • (2) 使用数万亿数据进一步增强推理和编码能力
    • (3) 通过在长上下文语料库上进行训练,将上下文长度扩展到 128k
  • 每个阶段都实施了量身定制的数据策略,并辅以严格的去污染程序以防止测试集泄露
  • 为了优化可扩展性,论文引入了超参数迁移和模型增长策略,显著提高了模型规模增大时的性能
    • 鉴于大规模训练中固有的不稳定性挑战,论文识别并实施了多种有效技术来增强训练稳定性

Training Strategy

Hyperparameter Transfer
  • LongCat-Flash 采用基于宽度缩放 (2024) 的超参数迁移策略来高效训练大规模模型,该方法包括:
    • (1) 在较小的代理模型上确定最优超参数
    • (2) 通过理论驱动的缩放规则将这些配置迁移到目标模型
  • 迁移机制的核心是宽度缩放因子
    $$ s = n_{\text{target} } / n_{\text{proxy} }$$
    • 其中 \(n\) 是模型的隐藏维度
  • 论文特别采用了标准参数化的 “Adam LR Full Align” 规则
  • 这些规则规定了如何调整代理模型的最优初始化方差 (\(\sigma^{2}\)) 和学习率 (\(\eta\)) 以适应目标架构
  • 实际的迁移规则总结在表 1 中
  • 遵循此方法,论文的训练涉及以下步骤:
    • 1)论文基于计算效率和迁移性能之间的权衡分析,将宽度缩放因子 \(s\) 设为 8,代理模型配置为宽度 768
    • 2)然后论文在代理模型上执行全面的超参数搜索,以确定最优的层特定初始化方差 (\(\sigma_{\text{proxy} }^{2}\)) 和学习率 (\(\eta_{\text{proxy} }\))
    • 3)代理模型的最优超参数按照表 1 中详述的规则迁移到目标模型
      • 所有其他架构属性(深度、稀疏性和批大小)在此迁移过程中保持不变
  • 论文进行了全面的实验来验证此方法的有效性
    • 结果表明,该方法在为大规模模型训练确定最优超参数(初始化方差和学习率)时显著降低了计算成本,同时建立了一个稳健的、理论基础的模型缩放框架
Model Growth Initialization
  • LongCat-Flash 采用模型增长作为其初始化策略,从一个在数百亿 token 上预训练的半规模模型开始
  • 在现有的模型增长方法 (2015; 2024; 2023a; 2022; 2023b; 2019) 中,论文采用层堆叠技术 (2024; 2023) 来扩展参数并提升性能
  • 暂时忽略嵌入和反嵌入过程,整个过程表述如下:
    $$\begin{split}
    L_{\text{small} } &= l_{1} \circ l_{2} \circ \cdots \circ l_{n} \\
    L_{\text{target} } &= \underbrace{L_{\text{small} } \circ L_{\text{small} } \circ \cdots \circ L_{\text{small} } }_{r}
    \end{split}$$
    • \(l_{i}\) 表示模型中第 \(i\) 层的变换
    • \(r\) 表示扩展率
    • \(L_{\text{small} }\) 表示从小模型 token 嵌入到最终隐藏状态的变换
    • \(L_{\text{target} }\) 表示通过堆叠 \(r\) 个小模型副本构建的目标(大)模型的变换(论文的架构使用 \(r=2\) )
  • 通过大量实验,论文一致观察到,通过模型增长初始化的模型表现出一个特征性的损失轨迹:
    • 初始损失增加,随后加速收敛,最终性能超过随机初始化的基线
    • 图 4(b) 展示了论文 6B 激活模型实验中的一个代表性案例,证明了模型增长初始化的优势
  • 论文推测这种改进源于两个协同因素:
    • (1) 较小模型的更快收敛可能为缩放训练提供更高质量的参数初始化
    • (2) 增长操作可能作为防止参数崩溃的隐式正则化
      • 实验证据进一步表明,过度优化前代模型可能会对目标模型的 token 效率产生负面影响 ,这表明需要明智地选择增长时机
  • 对于 LongCat-Flash 初始化,论文
    • 首先,训练一个与目标模型架构相同的 14 层模型 ,在初始数据段上使用随机初始化
    • 然后,将训练好的模型堆叠以创建 28 层检查点,保留所有训练状态 ,包括来自前代模型的样本计数器和学习率调度
Training Stability
  • 论文从三个角度增强 LongCat-Flash 的训练稳定性:路由器稳定性、激活稳定性和优化器稳定性
Router Stability
  • 训练 MoE 模型的一个基本挑战是路由器稳定性,它源于两种竞争梯度之间的张力:
    • 语言建模 (language modeling,LM) 损失,驱动专家专业化(expert specialization)(将 token 分配给最合适的专家),
    • 辅助负载平衡 (auxiliary load balancing,LB) 损失,强制路由均匀性(routing uniformity)(将 token 均匀分布在专家之间)
  • 当 LB 梯度占主导地位时,所有专家的路由器参数会趋于相似 ,导致无论输入 token 如何,路由决策都是均匀的
    • 这抵消了条件计算的好处,并严重降低了模型性能
  • 为了诊断和控制这种行为,论文提出了一个包含两个关键指标的监控框架:
    • 路由器权重相似度 (Router Weight Similarity) :测量专家权重向量 \(\{w_{i}\}\) 之间的平均成对余弦相似度
      • 高相似度直接表明负载平衡损失过度占主导地位
    • 梯度范数比 (\(R_{g}\)) (Gradient Norm Ratio) :量化两种损失对批次平均专家概率向量 \(\vec{P}\) 的相对影响:
      $$
      R_{g} = \frac{|\alpha \nabla_{\vec{P} } \mathcal{L}_{\text{LB} }|_{2} }{|\nabla_{\vec{P} } \mathcal{L}_{\text{LM} }|_{2} },
      $$
      • 其中 \(\mathcal{L}_{\text{LB} }\) 是在没有系数 \(\alpha\) 的情况下计算的负载平衡损失
  • 在此框架的指导下,论文建立了设置超参数 \(\alpha\) 的实用指南
    • 原则是确保负载平衡项充当正则化器,而不压倒 LM 损失
    • 论文建议选择一个系数,使 \(R_{g}\) 保持在一个较小的阈值以下(例如, \(R_{g} < 0.1\) )
Activation Stability via Hidden z-loss
  • 受 router z-loss (2022) 的启发,论文设计了隐藏 z-loss 来规避 LLM 训练期间普遍出现的大规模激活现象 (2024)
    • 注:在原论文中 ST-MoE: Designing Stable and Transferable Sparse Expert Models, arXiv 2022, Google,提出了一种名为 router z-loss 的辅助损失函数,用于稳定 MoE 路由的训练:
      $$ L_{z}(x) = \frac{1}{B} \sum_{i=1}^B \left( \log \sum_{j=1}^N e^{x_j^{(i)}} \right)^2$$
      • 可以使用 torch.logsumexp(x) 来实现上述括号中的算子
  • 通过经验观察,论文发现这种大规模激活与训练期间严重的损失尖峰相关,而损失尖峰与优化不稳定性和潜在的性能下降有关
  • 隐藏 z-loss 主要用于抑制幅度极大的元素:
    $$
    \mathcal{L}_{Z} = \frac{\lambda}{T} \sum_{t=1}^{T} \left( \log \sum_{i=1}^{|x_{t}|} \exp(\text{abs}(x_{t}^{i})) \right)^{2},
    $$
    • \(\lambda\) 是加权此损失的系数
    • \(|x_{t}|\) 是隐藏大小
    • \(\text{abs}(*)\) 表示绝对值函数
  • 如图 6 所示,论文发现一个非常小的损失系数可以显著抑制大规模激活现象,而不会影响训练损失,从而降低了 BF16 训练期间出现数值错误的风险
On the Practical Configuration of Adam’s Epsilon
  • 随着模型规模的增加,Adam 优化器中的 epsilon (\(\varepsilon\)) 参数(传统上被视为确保数值稳定性的次要常数)成为一个关键的超参数
  • OLMo 等人 (2024) 证明,将其设置为 1e-8 相比默认值 1e-5 能产生更优的结果,这种敏感性增强主要源于两个因素:
    • (1) 大规模模型通常采用较小的参数初始化
    • (2) 它们在训练期间使用更大的批大小
  • 当使用默认的 \(\varepsilon\) 值时,参数的大小可能与梯度二阶矩的典型规模相当甚至超过,从而破坏优化器的自适应机制
  • 如图 7 所示,论文跟踪梯度均方根 (RMS) 范数 (2019) 的经验分析揭示了两个关键发现:
    • (1) 阈值效应:当 \(\varepsilon\) 接近观测到的梯度 RMS 范数时,会发生显著的性能下降;
    • (2) 下界稳定性:一旦 \(\varepsilon\) 降低到此临界阈值以下,进一步减小对模型性能的影响可以忽略不计
  • 因此,论文建议将 \(\varepsilon\) 设置为一个较小的值(比预期的梯度 RMS 范数小几个数量级)
    • 在 LongCat-Flash 中,论文采用 \(\varepsilon=1e-16\) ,此配置在保持优化器自适应特性的同时确保了数值稳定性

General Pre-Training

  • 论文首先进行通用预训练阶段以确保模型的整体能力,设计了一个多阶段流程以确保数据质量和多样性。主要阶段包括:
    • 内容提取 (Content Extraction) 论文使用定制版本的 trafilatura (2021) 处理通用网络内容,并使用专用流程处理 STEM 材料,以正确解析公式、代码和表格等复杂元素
    • 质量过滤 (Quality Filtering) 采用两步过滤方法。初始分类器清除明显低质量的文档,随后基于流畅度和内容完整性等指标进行更细粒度的筛选
    • 去重 (Deduplication) 论文应用高效的 MinHash 实现进行大规模去重,并辅以识别和处理重复网络模板的策略,以实现更准确的文档级去重
  • 最终的数据混合过程采用两阶段调度,逐步增加高质量推理数据(例如 STEM 和代码)的比例
    • 阶段 1 (Stage 1) :对于通用数据,论文采用实例级(instance-level)数据混合策略,平衡数据质量和多样性
      • 如 SampleMix (2025) 所述,即使用质量和多样性分数计算初始采样分布,并基于细粒度的领域和写作风格标签进一步调整分布倾向
      • 冗余的低价值领域(例如广告、体育、招聘)被降采样,而富含推理的领域(例如科学)被升采样
    • 阶段 2 (Stage 2) :在此阶段,论文优先考虑 reasoning-intensive 领域,STEM 和代码占最终混合数据的 70%
      • 初步实验表明,通用领域数据的突然减少会暂时降低模型能力
      • 因此,论文实施渐进的代码比例增加 ,并通过在外部验证集上持续监控困惑度来指导 ,以确保平稳过渡而不损害通用性能

Reasoning and Coding Enhancement

  • 为了进一步增强模型的推理和编码能力,并为后续的后训练建立具有巨大潜力的强大基础模型,论文利用通过预训练数据检索和数据合成相结合生成的高质量相关数据,进行了一个中期训练阶段(mid-training stage)
  • 引入了系统的合成数据工作流程,通过三个关键机制优化数据质量和多样性:
    • (1) 知识图谱遍历和节点组合(Knowledge graph traversal and node combination)以确保概念复杂性和领域覆盖;
    • (2) 多阶段迭代细化(Multi-stage iterative refinement)以逐步提高难度级别和思维链 (CoT) 推理质量;
    • (3) 双模态生成和验证(Dual-modality generation and verification)(文本和计算)以保证数学准确性和解决方案有效性
  • 结合基于规则和基于模型的过滤器进行了仔细的质量控制,最终数据集包含数千亿 token

Long Context Extension

  • 论文实施了两阶段上下文长度扩展策略,以满足后续长上下文推理和智能体训练的要求
    • 在第一阶段,使用 80B 训练 token 将上下文窗口从 8k 扩展到 32k token,并将 RoPE 的基频率 (2024) 从 1,000,000 提高到 5,000,000
    • 在第二阶段,论文通过额外的 20B token 将其进一步扩展到 128k token,将基频率增加到 10,000,000
  • 训练语料库建立在自然产生的长文本数据之上,例如高质量的书籍和小说
    • 论文还开发了一种系统方法来组织仓库级源代码,以提高模型的长上下文能力
    • 论文精心挑选了高质量的代码仓库,并应用多阶段过滤过程来移除非文本内容、构建产物和自动生成的代码,最终形成了一个用于长上下文预训练的精选的 20B token 数据集
  • 为了确保模型的通用能力在长度扩展期间保持稳定,论文采用了与主预训练阶段相同的数据混合策略 ,并在此混合基础上增加了 25% 的长上下文数据 ,以增强模型的长上下文性能

Decontamination

  • 论文对所有训练数据执行严格的去污染,以防止常见基准测试测试集的数据泄露
  • 对于网络和代码数据,论文移除包含与预定义测试集有任何 13-gram 重叠的文档
  • 对于合成数据和问答对,论文采用基于 BGE-m3 (2024) 嵌入的语义相似度的更严格策略
  • 如果文档满足以下任一标准,则被丢弃:
    • (1) 与任何测试用例的语义相似度得分 \(> 0.9\) ;
      • 问题:如何评估,样本一一比较的复杂度是不是太高了
      • 回答:实际上可能只针对不分特定的数据集做去重,其实复杂度还可以接受?
    • (2) 词汇重叠(通过稀疏嵌入测量)结合相似度得分在 0.7 到 0.9 之间

Evaluation

  • 本节介绍了对 LongCat-Flash 基础模型的全面评估,包括方法和结果
Evaluation Benchmarks and Configurations
  • 模型评估涵盖四个核心能力:通用任务、通用推理、数学推理和编码。用于评估的基准包括:
    • 通用任务 (General Tasks) :MMLU (2021a), MMLU-Pro (2024b), C-Eval (2023), 和 CMMLU (2023a)
    • 推理任务 (Reasoning Tasks) :GPQA (2023), SuperGPQA (M-A-P Team, ByteDance., 2025), BBH (2023), PIQA (2019), DROP (2019), CLUEWSC (2020), 和 WinoGrande (2019)
    • 数学任务 (Math Tasks) :GSM8K (2021), MATH (2021b)
    • 编码任务 (Coding Tasks) :MBPP+ (2024b), HumanEval+ (2023), MultiPL-E (2022), 和 CRUXEval (2024)
  • 论文将 LongCat-Flash 基础模型与最先进的开源基础 MoE 模型进行比较,包括 DeepSeek-V3.1 Base (DeepSeek-2025), Llama-4-Maverick Base (Meta AI, 2025), 和 Kimi-K2 Base (MoonshotAI, 2025)
  • 为确保公平性,所有模型都在相同的流水线和配置下进行评估。对于无法复现的少数结果,论文直接采用公开报告中的指标,并在表 2 中明确标注。评估设置如下:
    • 通用/推理/数学任务:使用少样本提示 (few-shot prompts) 指导输出格式
      • 性能通过准确率或 F1 分数衡量
    • HumanEval+ 和 MBPP+:遵循 OpenAI 推荐设置 (2021)
    • MultiPL-E:遵循 BigCode Evaluation Harness (Ben 2022)
    • CRUXEval:遵循官方配置,采用 2-shot 示例
Evaluation Results
  • 表 2 展示了跨不同基准的评估结果
  • LongCat-Flash Base 模型在激活/总参数量更紧凑的情况下,实现了与最先进基础模型相当的性能
    • Llama-4-Maverick 的激活和总参数更少,但 LongCat-Flash Base 在几乎所有基准测试上都超过了它
  • 对比分析表明,LongCat-Flash Base 在所有领域都匹配了 DeepSeek-V3.1 Base 的性能(但前者参数更少)
    • 虽然两个模型在通用任务上表现相似,但 LongCat-Flash Base 在 MMLU-Pro 基准(包含具有挑战性的问题)上表现出显著优势
    • 对于推理任务,LongCat-Flash Base 获得了更高的平均分
    • 在数学和编码任务中,它在大多数基准测试上优于 DeepSeek-V3.1 Base,仅在 CRUXEval 和 MultiPL-E 上观察到微小的性能差距
    • 与 Kimi K2 Base 相比,LongCat-Flash Base 在通用任务上表现略低,但在推理、数学和编码任务上达到持平或更优
  • 这些结果共同强调了 LongCat-Flash Base 的参数效率,因为它在大多数评估基准上提供了与更大模型相当或更优的性能

Post-Training

  • 论文采用了一个常规的多阶段后训练框架来增强基础模型在多个领域的性能,范围涵盖复杂的推理、编码和智能体工具使用任务,以及通用能力
  • 在此过程中,论文观察到,高质量问题集的有限可用性是所有领域的一个显著瓶颈
  • 在后续小节中,论文将介绍从论文的后训练方法中得出的关键见解,分为三个不同的阶段:
    • (1) 推理与编码
    • (2) 智能体工具使用
    • (3) 通用能力

Reasoning and Coding

Mathematics
  • 为了生成高质量和新颖的问题,论文使用了一种角色扮演(persona)(2024) 和自我指导(self-instruct)(2022) 范式
    • 这个过程由一个全面的数学框架指导,涵盖从初级到高级的主题
  • 论文利用一组多样化的数学相关“专家”角色来提出问题,引导 LLM 合成涵盖代表性不足学科的查询
  • 每个查询的结构旨在引发 CoT 推理,在生成的答案中促进逐步解决问题
  • 角色策划和答案验证的细节如下:
    • 角色策划 (Persona Curation) :这些角色从多个来源构建:论文从高质量预训练数据中生成它们,从现有的数学查询中衍生它们,并整合来自 Persona Hub 的相关集合
      • 每个角色都根据其 STEM 学科进行系统性标注
      • 为了确保最大的多样性并与论文的学科框架保持一致 ,论文使用 MinHash 算法来选择最终的角色集用于查询生成
    • 答案验证 (Answer Verification) :论文采用一个两阶段过程来确保合成解决方案的准确性:
      • (1) 论文使用几个不同的大语言模型为每个问题生成答案,并选择最一致的解决方案作为最终答案
      • (2) 论文训练一个生成式奖励模型,特别增强了推理数据,以自动评分并验证解题步骤的逻辑合理性
        Coding
  • 论文从多个来源汇集了多样化的编码查询,包括公共数据集、从 GitHub 代码片段 (2024b) 和编码相关论坛生成的查询,以及使用代码进化指导(Code Evol-Instruct)方法 (2024) 演化而来的查询
    • 数据分布根据主题多样性和难度进行平衡
  • 论文训练一个模型来选择清晰、一致、正确且具有足够解释细节的查询,并实施一个过滤流程来消除包含乱码内容、重复模式或逻辑错误的回答
    • 对于软件工程任务,论文策划并验证了包含测试用例的数万个 Docker 镜像
      • 每个镜像用于验证模型生成的代码是否能解决相应代码库中的特定问题
    • 论文开发了一个基于智能体的系统,利用各种工具来自主分析代码结构、识别相关文件、修复错误和实现新功能
      • 这个过程产生了数千条通过所有测试用例的成功轨迹,从而增强了模型自主解决现实世界软件工程问题的能力
        Logical Reasoning
  • 论文构建了涵盖演绎、假设和归纳推理的逻辑推理数据集,其中包括诸如 LogicPro (2025)、PODA (2025b) 和斑马谜题(Zebra-style logic puzzles)等任务
  • 为了管理难度,论文首先使用 Pass@k 指标进行初步平衡,然后过滤掉高级思维模型也失败的棘手问题
  • 论文还将多项选择题转换为填空题格式 ,以减轻随机猜测
  • 对回答的评估侧重于四个关键领域:
    • (1) 最终答案的正确性;
    • (2) 推理的完整性和清晰度;
    • (3) 避免过度重复;
    • (4) 语言使用的一致性

Agentic Tool Use

  • 论文将智能体任务定义为通过系统性的环境交互来解决复杂问题
    • 在这种范式中,模型必须迭代分析现有信息,并确定何时需要与环境交互
    • 在智能体工具利用框架内,环境由具有不同特征的用户和工具组成
    • 用户作为一个自主的信息提供实体,没有上游或下游依赖关系 ,但表现出不愿被打扰和非自发的信息披露
      • 问题:如何理解用户这个角色?
      • 回答:这是在模拟现实世界的用户,用以定义现实环境问题
    • 因此,模型必须最小化用户查询,同时在必要时采用策略性提问技巧以引出最精确的信息
    • 工具可以被高频广泛调用,但表现出复杂的相互依赖性
  • 从这个角度来看,除了领域特定专业知识(如高级编程能力或数学计算),论文将任务难度升级归因于三个因素:
    • 信息处理复杂度 (Information processing complexity) 模型必须进行复杂的推理过程,以整合信息并将其转换为所需组件
    • 工具集复杂度 (Tool set complexity) 通过基于工具间依赖关系将工具集建模为有向图,复杂度可以通过图的节点基数和边密度来量化表征
    • 用户交互复杂度 (User interaction complexity) 模型必须学会以最低频率进行多轮策略性提问,适应各种对话风格、沟通意愿水平和信息披露模式,从而在确保充分获取信息的同时促进有效的用户交互
  • 基于这些见解,论文构建了一个多智能体数据合成框架,通过系统地解决智能体训练关键的三个复杂度维度来生成高质量、具有挑战性的任务:
    • (1) 工具集复杂度
    • (2) 信息处理复杂度
    • (3) 用户交互复杂度
  • 该框架包含以下专门智能体:
    • 用户画像智能体 (UserProfileAgent) 除了生成包含个人信息和偏好的基本用户画像外,论文还进一步实施了对用户对话风格、沟通意愿水平和信息披露模式的控制,以更准确地模拟真实用户交互场景,同时增强任务复杂度
    • 工具集智能体 (ToolSetAgent) 为了最大化数据多样性并防止对特定场景的过拟合,论文采用了类似于 Kimi-K2 (2025) 的方法,枚举了 40 个不同的领域,随后利用模型枚举了 1600 个应用
      • 基于这些应用,论文构建了 80,000 个模拟工具,形成了一个广泛的工具图
      • 通过随机游走方法,论文从这个综合工具图中系统地采样具有预定节点数量的子图,从而通过节点数量控制工具图复杂度
    • 指令智能体 (InstructionAgent) 推理的难度在以下维度上量化:约束复杂度、推理点数量和推理链长度
      • 该模型需要基于 ToolSetAgent 提取的工具集生成全面描述完整任务的指令
    • 环境智能体 (EnvironmentAgent) 论文根据 UserProfileAgent 和 InstructionAgent 生成的内容增强环境信息,包括项目细节、位置 specifics、时间参数和气象条件
      • 此外,论文为项目和位置引入混淆元素以进一步增加推理复杂度
    • 评分标准智能体 (RubricAgent) 论文基于各种任务相关信息构建了一套全面的具体检查清单
      • 在最终评估时,考虑到智能体任务固有的长上下文特性,论文采用滑动窗口方法评估整个轨迹,持续更新检查清单项目的完成状态
    • 验证智能体 (ValidatorAgent) 和 去重智能体 (DeduplicatorAgent) 论文从多个角度检查最终任务的质量,并删除任何过于相似的任务
      • 这个过程确保论文拥有一套多样化且高质量的任务集
  • 利用这些高质量、具有挑战性的任务,论文进一步进行严格的回答选择,以构建具有适当数量的冷启动训练集,揭示多样化的模式并保持高探索能力
  • 论文还仔细选择了这些生成任务的一个子集用于进一步的后训练过程,以确保每个任务都值得大量探索

General Capability

Instruction-following
  • 论文策划了单轮和多轮指令遵循数据集,具有不同级别的约束复杂度和数量
  • 对于多约束查询 ,论文采纳了 Ye 等 (2025) 的见解,过滤掉语义质量低或约束冲突的查询
  • 对于不同的查询类型,论文采用可验证规则、基于模型的验证和定制策略来确保回答满足所有约束
  • 此外,论文汇编了针对挑战性任务的批评(critique)数据集,以增强模型的批判性思维能力 (2025c)
  • 论文观察到某些约束类型本质上难以遵循,使得直接生成有效的查询-答案对不可靠
    • 为了解决这个问题,论文提出了一种反向提示生成策略:从保证满足约束的预定义答案生成查询
Long Context
  • 为了使模型能够在复杂、冗长的上下文中识别和分析相关信息,论文开发了三种类型的长序列数据集:阅读理解、基于表格的问答和定制设计的任务
  • 为了促进长序列中显著信息的学习,论文在数据构建中聚合了主题相关的上下文片段
  • 论文特别增强了模型的多跳推理、多轮对话和复杂计算能力
  • 为了减轻在遇到不完整上下文时的幻觉,论文优化了模型的拒绝能力,从而提高了其对知识边界和局限性的认识
Safety
  • 基于 Mu 等 (2024) 的框架并与论文内部内容指南保持一致,论文制定了一个内容安全策略,将查询分类为超过 40 个不同的安全类别,对应五种响应类型:遵守(comply)、遵守并带指南(comply with guideline)、软拒绝(soft refuse)、软拒绝并带指南(soft refuse with guideline) 或 硬拒绝(hard refuse)
  • 明确的标准确保每种响应类型都有一致、符合安全标准的响应
  • 该系统通过两个阶段作为一个上下文感知的数据合成器运行:
    • (1) 查询分类:来自不同来源(开放域语料库、内部业务风险报告、政府问答和对抗性大语言模型合成的红队内容)的查询使用自动化标签和人工验证进行分类
    • (2) 响应映射与优化:分类后的查询被映射到响应类型,并生成优化的、特定类型的响应,这些响应在作为训练目标之前经过人工评估

Evaluation

  • 论文在后训练后对 LongCat-Flash 进行了全面而严格的评估
  • 具体来说,论文评估了其在多个维度的能力,包括通用领域、指令遵循、数学推理、通用推理以及编码和智能体任务
Evaluation Benchmarks and Configurations
  • 评估采用以下基准:
    • 通用领域 (General Domains): MMLU (2023a), MMLU-Pro (2024b), ArenaHard (2024a), CEval (2023), 和 CMMLU (2023a)
    • 指令遵循 (Instruction Following): IFEval (2023), COLLIE (2024), 和 Meeseeks (2025a)。Meeseeks 通过一个迭代反馈框架评估模型在多轮场景中的指令遵循能力,该框架模拟了真实的人与 LLM 交互,使模型能够基于每轮的失败进行自我纠正,更好地反映现实世界的使用模式
    • 数学推理 (Mathematical Reasoning): MATH500 (2023), AIME24 (MAA, 2024), AIME25 (MAA, 2025), 和 BeyondAIME (ByteDance-Seed, 2025)
    • 通用推理 (General Reasoning): GPQA-diamond (2024), DROP (2019), ZebraLogic (2025), 和 GraphWalks (OpenAI, 2025a)
    • 编码 (Coding): Humaneval+ (2023, 2024c), MBPP+ (2024c), LiveCodeBench (2024.08-2025.05) (2025), SWE-Bench-Verified (2024), 和 TerminalBench (Team, 2025a)
    • 智能体工具使用 (Agentic Tool Use): \(\tau^{2}\)-Bench (2025) 和 AceBench (2025)
    • 智能体工具使用补充:论文还开发了一个高质量的专有基准 VitaBench,利用美团的全面现实业务场景来系统评估模型解决复杂现实世界任务的能力
      • 在 VitaBench 中,为了全面评估模型的泛化智能体能力,论文特意策划了跨领域的日常场景,并明确描述了工具间的依赖关系,避免提供广泛的领域特定策略
      • 论文的基准强调三个关键的复杂度维度:工具集复杂度(以密集工具图为特征,平均每个任务超过 30 个可用工具)、推理复杂度和用户交互复杂度(以具有挑战性的用户角色为特征,评估模型平均每个任务超过 60 个交互轮次)
      • VitaBench 完整的基准数据集,连同详细的构建方法和全面的结果分析,将在后续工作中完全发布
  • 论文还评估了 LongCat-Flash 的安全性能。具体来说,论文对四个主要风险类别进行了评估:
    • 有害 (Harmful) :暴力、仇恨言论、侮辱、骚扰和欺凌、自残和自杀、成人内容等
    • 犯罪 (Criminal) :非法活动、未成年人违规、极端恐怖主义和暴力等
    • 错误信息 (Misinformation) :错误信息和虚假信息、不安全做法、幻觉等
    • 隐私 (Privacy) :隐私侵犯、侵权等
    • 在每个类别中,构建了足够数量的私有测试查询,随后进行了全面的人工审查,以确保其分类的准确性和质量的可靠性
  • 论文将 LongCat-Flash 的聊天版本与几个当代的非思维(non-thinking)聊天模型进行了比较,包括 DeepSeek-V3.1 (DeepSeek-2025), Qwen3-235B-A22B (2507 版本) (2025), Kimi-K2 (MoonshotAI, 2025), GPT-4.1 (OpenAI, 2025b), Claude4-Sonnet (Anthropic, 2025), 和 Gemini2.5-Flash (2025)
    • 对于闭源模型,论文通过其官方 API 进行评估
    • 对于支持思维和非思维两种模式的模型(Qwen3-235B-A22B, Gemini2.5-Flash, 和 Claude4-Sonnet),论文明确配置这些模型在非思维模式下运行以进行公平比较
  • 对于每个基准类别,论文采用以下专门的指标和设置:
    • 通用领域基准 (General domain benchmarks): 论文使用准确率(accuracy)作为评估指标
      • 与依赖精确匹配(EM)进行正确性判断的原始基准不同,论文采用一个评分模型来评估模型响应是否与参考答案一致
      • 由于论文的评分模型能识别语义正确但文本不完全匹配的答案,报告的值可能略高于原始文档记录
    • 指令遵循基准 (Instruction following benchmarks): 论文基于指令规则设计正则表达式来验证合规性
      • 此外,还采用了基于规则和基于模型的答案跨度提取工具来支持此评估
    • 数学推理基准 (Mathematical reasoning benchmarks): 论文对 MATH500 应用上述评分模型,对 AIME 相关基准采用 \(10\) 次运行的平均 EM 分数
      • 问题:这里的 EM 分数是什么?是最终答案的完全匹配吗?
        • 注:EM(Exact Match)是大模型评测中的 “精确匹配率”:模型输出与标准答案在字符 or Token 层面完全一致的样本占比,常用作问答、信息抽取、文本生成等任务的严格度量
        • EM 分数一般取值 0–1(或百分比),越高越好
      • 注:由于单次评估模型效果可能会波动,所以常见的方案是用同一个数据集多次评估模型
    • 通用推理基准 (General reasoning benchmarks): 论文对 GPQA-diamond 应用评分模型,计算 DROP 的 F1 分数,对 ZebraLogic 采用基于规则的匹配,并按照其 128k 上下文长度子集的官方实现使用精度(precision)指标
    • 编码基准 (Coding benchmarks):
      • 如果模型的响应在沙箱环境中通过所有测试用例或匹配特定状态,则每个问题得分为 1,否则为 0
        • 最终得分是所有问题的平均值
      • 论文采用 OpenAI 提供的脚本来评估 Humaneval+ 和 MBPP+,并使用其他基准的官方脚本
      • 具体来说,对于 SWE-Bench-Verified,论文使用 R2E-Gym (Openhands scraffold),运行限制为 100 次迭代进行评估(DeepSeek V3.1 除外,使用 Openhands)
      • 对于 Terminal-Bench,论文使用 Terminus 框架和直接提示进行评估
  • 智能体工具使用基准 (Agentic tool use benchmarks): 论文利用官方基准框架以确保公平性和可重现性
    • 对于 AceBench,论文使用直接提示而非函数调用
    • 对于论文提出的 VitaBench ,考虑到智能体任务固有的长上下文特性,论文采用滑动窗口机制来系统评估整个执行轨迹中的任务完成状态,促进对单个检查清单组件完成状态的持续更新
Evaluation Results
  • 如表 3 详述,论文的全面评估表明 LongCat-Flash 是一个强大且多才多艺的模型
    • LongCat-Flash 在不同领域始终展现出领先的性能,通常在广泛的一系列挑战性任务中优于当代模型,且激活参数相对较少
    • 接下来的分析详细介绍了其在不同维度上的卓越能力
  • 通用领域 (General Domains) 在通用领域知识方面,LongCat-Flash 表现出强大而全面的性能
    • 它在 ArenaHard-V2 上取得了 86.50 的优秀分数,在所有评估模型中排名第二,展示了其在具有挑战性的 head-to-head 比较中的强大能力
    • 在基础基准测试上,它仍然具有高度竞争力,在 MMLU 上得分 89.71,在 CEval 上得分 90.44
    • 这些结果与领先模型相当,并且值得注意的是,这是在比 DeepSeek-V3.1 和 Kimi-K2 等竞争对手更少参数的情况下实现的,表明了高效率
  • 指令遵循 (Instruction Following) LongCat-Flash 展现了最先进的指令遵循能力
    • 它在 IFEval 上取得了最高分 89.65,优于所有其他模型,并展示了在遵循复杂和细致入微的指令方面卓越的可靠性
    • 此外,它在 COLLIE (57.10) 和 Meeseeks-zh (43.03) 上获得了最佳分数,强调了其在英语和中文中多样化和具有挑战性的指令集上的卓越熟练度
  • 数学推理 (Mathematical Reasoning) 在数学推理方面,LongCat-Flash 显示出强大而先进的能力
    • 虽然其在 MATH500 上的分数 (96.40) 非常有竞争力,但其优势在更复杂的竞赛级基准测试中尤为明显
    • 它在 AIME25 (61.25) 和 BeyondAIME (43.00) 上提供了优秀、顶级的成绩,在这些具有挑战性的领域中名列性能最佳的模型之一
    • 这突显了其进行复杂、多步逻辑推理和问题解决的高级能力
  • 通用推理 (General Reasoning) 对于通用推理任务,LongCat-Flash 的表现也很扎实
    • 它在结构化逻辑推理方面表现出非凡的优势,在 ZebraLogic 上取得了 89.30 的分数,跻身顶级竞争者之列
    • 它还在阅读理解基准 DROP 上获得了有竞争力的分数 79.06
    • 相反,其在 GPQA-diamond (73.23) 和 GraphWalks (51.05) 上的结果表明了进一步改进的机会,特别是在增强其在极长上下文中分析结构化数据的能力方面
  • 编码 (Coding) LongCat-Flash 在编码领域展现出了有前途且有能力的形象
    • 其突出表现在 TerminalBench 上,取得了 39.51 的分数,排名第二,展示了在实用的、智能体命令行任务方面的卓越熟练度
    • 它在 SWE-Bench-Verified 基准测试中也具有竞争力,得分为 60.4
    • 在基础的代码生成任务上,如 Humaneval+ 和 MBPP+,其表现扎实,但未来仍有优化潜力以与领先模型看齐
  • 智能体工具使用 (Agentic Tool Use) LongCat-Flash 在使用智能体工具使用领域展现出明显优势,在 \(\tau^{2}\)-Bench 上显著优于其他模型,即使与参数更多的模型相比也是如此
    • 在高度复杂的场景中,它在 VitaBench 上取得了最高分 24.30,展示了在复杂场景中的强大能力
  • 安全性 (Safety) LongCat-Flash 在识别和减轻风险方面整体表现出色,特别是在有害(Harmful)和犯罪(Criminal)领域

Training Infrastructures

  • 论文训练基础设施(Training Infrastructures)的核心设计原则是 可扩展性与精确性 (scalability with precision)
  • 论文开发了一种系统化的方法来验证算子精度,并将在线静默数据损坏(Silent Data Corruption, SDC)检测嵌入到空闲计算阶段,以最小化数值错误
  • 为保证可重现性并确保小规模实验与全规模训练之间结果一致,论文在所有计算和通信算子中强制执行确定性(determinism)。这使得任何训练步骤的多次重新运行都能实现比特级对齐的损失值
  • 在确保正确性后,论文专注于加速训练效率
  • 挂钟时间(Wall-clock time)对于快速算法迭代至关重要,然而单个加速器的能力有限
    • 注:Wall-clock time(墙上时钟时间)的说明:
      • Wall-clock time 是从任务开始到结束在现实世界中流逝的实际时间,等同于你看墙上挂钟或手表所感知的时间,也常称作 real-world time、elapsed real time 或 wall time;
      • (主要区别于 CPU 时间)Wall-clock time 包含所有等待时间,如 I/O、进程调度延迟、锁等待等,反映用户实际等待时长
  • 因此,论文将训练扩展到数万个加速器上,面临着可扩展性和稳定性方面的挑战
  • 通过模型-系统协同设计、多维并行以及全自动的故障检测和恢复,论文实现了接近线性的扩展和 98.48% 的可用性,在 30 天内完成了训练

Numerical Precision Control and Fault Detection

ULP Evaluation
  • 浮点误差受多种因素影响,甚至在同一厂商不同代的加速器之间也会有所不同
  • 为量化和减轻这些误差,论文采用 ULP(Unit in the Last Place,最小精度单位)作为度量标准,其中 ULP 误差衡量了加速器 BF16 结果与 CPU FP32 真实值之间的偏差
  • 零 ULP 误差表示完美精度,而值越大表示精度越差
  • 论文收集了训练中使用的所有算子类型和形状,并比较它们的 ULP 误差
  • 表 4 显示了两种解决方案之间 GEMM 的 ULP 误差
SDC Detection Mechanism
  • SDC 故障在大规模训练中通常不可避免,并且会通过改变数据而严重降低模型性能,且系统不会发出警告
  • 为解决此问题,论文实现了一种高效的片上原地算子重计算机制
  • 具体来说,论文发现 FlashAttention 梯度(FlashAttention Gradients, FAG)的反向计算对 SDC 最敏感,因为它同时混合了张量和向量计算
  • 重计算结果之间的比特差异指示了潜在的 SDC 风险。检测计算在计算流(compute streams)内进行编排,重计算间隔可手动调整,从而在检测覆盖范围和计算成本之间实现灵活的权衡
  • 值得注意的是,算子精度控制对于确保模型准确性是必要的,但还不够
  • 使用不同算子实现的实验可能显示训练损失差异在 1e-3~1e-4 范围内,但在基准测试中却表现出大于 5 个百分点(pp)的变化
  • 成本效益地评估算子精度误差对模型性能的影响仍然是一个开放的挑战

Kernel Optimization for Determinism and Performance

  • 确定性(Determinism)是计算正确性的黄金标准,它消除了浮点误差作为实验变量
    • 但实现确定性通常会带来显著的性能开销
  • 论文通过内核重新设计来解决这个问题,在 LongCat-Flash 的整个训练过程中保持确定性的计算和通信
Deterministic FAG
  • 默认的 FAG 实现是非确定性的,因为 \(dQ\) 、\(dK\) 和 \(dV\) 沿不同维度进行归约(reduce),其中原子加法(atomic addition)缺乏顺序保持性
  • 论文开发了一种高效的确定性 FAG 内核,使用有限的额外工作空间以确定性顺序累加分块(tiles)
  • 通过协同优化,包括双缓冲流水线(double-buffer pipelining)、调整后的分块调度(tuned tiling schedules)和负载均衡,论文的实现达到了原始确定性版本性能的 1.6 倍,非确定性版本的 0.95 倍,在确定性和效率之间取得了平衡
Deterministic ScatterAdd
  • 反向传播(backward passes)中的 ScatterAdd 对于梯度聚合至关重要,但存在输入-输出操作数计数不匹配的问题。默认实现在单个计算单元内强制顺序执行,导致高达 50 倍的减速
  • 论文提出了一种分层归约算法(hierarchical reduction algorithm),在所有可用处理器上并行化梯度聚合,实现了与非确定性版本相当的性能
Optimized Grouped GEMM
  • 考虑到其高计算量但相对于密集 GEMM 较低的计算密度,分组 GEMM(Grouped GEMM)的性能至关重要。论文通过以下方式对其进行优化:
    • (1) 双缓冲流水线(Double-buffer pipelining)以重叠计算、内存 I/O 和收尾操作(epilogue);
    • (2) 对角线分块(Diagonal tiling)以减轻 L2 缓存冲突;
    • (3) 通过计算单元限制控制 HBM 带宽,以重叠分组 GEMM 与分发/组合(dispatch/combine)通信
  • 这些优化比默认版本带来了 5%-45% 的加速
Fused GemmAdd
  • 梯度累积过程中的 \(dw\) 计算遭受带宽瓶颈的限制
  • 论文将 FP32 加法融合到 GEMM 的收尾操作(epilogue)中,避免了中间写回(intermediate write-backs),并将加法隐藏在分块 GEMM 流水线中
  • 这显著减少了延迟,并消除了由 BF16 数据转换为 HBM 引起的精度损失,在融合的 GroupedGemmAdd 基准测试上实现了 3.12 倍到 3.86 倍的加速
  • 此外,论文重新实现了 I/O 密集型内核(例如 MoE 层的置换/逆置换,permute/unpermute),集成了丢弃 Token (drop-token)和处理零计算专家(zero-computation experts)等功能,确保了确定性和性能

Distributed Strategy for Large-scale Training

  • 训练架构以专家并行组(Expert Parallelism Groups, EP)为中心,每个组包含 32 个加速器
    • 在一个 EP 组内,注意力层采用上下文并行(Context Parallelism, CP=8)而不是张量并行(Tensor Parallelism, TP)以最小化通信开销,而 FFN 层使用 EP 分区而不使用 TP
    • 多个 EP 组在流水线并行(Pipeline Parallelism, PP)和数据并行(Data Parallelism, DP)维度上进行扩展
  • 采用专家并行(EP)是为了减少静态内存使用,包括权重和优化器状态
    • 但 EP inherently 引入了昂贵的分发(dispatch)和组合(combine)通信操作
      • 为缓解此问题,LongCat-Flash 采用了 ScMoE 结构,该结构使得分发/组合通信能够通过单个批次中更多的计算来重叠
    • 此外,MoE 层沿 Token 维度被分成两个块(chunks)。这些子块实现了两个目标:
      • (1) 与密集 FFN 计算重叠
      • (2) 彼此之间相互重叠(参见图 8)
  • 对于分发/组合通信,有两种优化策略:
    • (1) 在节点内和节点间使用带流水线的 all-gather/reduce-scatter 内核;
    • (2) 优化的 all-to-all 内核
      • 原生的 all-to-all 将本地数据大小扩展了 top-k 倍,增加了通过每个加速器 200Gb/s 的 RDMA 网络的流量
      • 此外,由于拥塞控制不足,all-to-all 的性能不稳定
      • 论文选择具有确定性的流水线式 all-gather/reduce-scatter 作为主要解决方案,在 ScMoE 架构下,非重叠的分发/组合通信时间比例从 25.3% 降至 8.4%
  • 现有的流水线策略(例如 1F1B、交错式 1F1B(interleaved-1F1B)、零气泡 Zero-bubble (2023))存在流水线阶段间内存使用不平衡的问题
    • 为此,论文采用了 V-ZB 算法 (2024),该算法平衡了所有阶段的内存使用,并将 LongCat-Flash 训练中的峰值内存减少到 60GB 以下
    • 此外,论文启用了来自零气泡(zero bubble)的后验证策略(post-validation strategy),实现了理论上的零气泡
    • 一个关键的改进是在优化器状态回滚(rollback)期间,用上一步的备份数据替换逆操作(inverse operations),保持了数值的比特级对齐

Reliability and Observability

  • 可靠性由贡献给最终训练轨迹的时间比例(可用性,Availability)来衡量,其中不可用时间包括故障恢复以及最后一次检查点与故障发生之间浪费的时间
  • 异步检查点(Asynchronous checkpointing)将训练停滞时间减少到 2~4 秒,允许更高的检查点频率并最小化故障引起的损失
  • 结合在线关键日志过滤、优化初始化和全自动化,恢复时间减少到 <10 分钟
  • 这些机制实现了 98.48% 的可用性,所有 20 次故障均无需手动干预即可自动处理
  • 可观测性(Observability)将细粒度和粗粒度性能分析(profiling)与指标平台相结合
  • 细粒度的 PyTorch Profiler 时间线支持分布式、感知并行的协同分析,以识别流水线并行中的“气泡”(bubbles)和跨秩(inter-rank)通信等待
  • 粗粒度监控增加了对落后节点(stragglers)的低开销运行时分析
  • 指标平台跟踪损失、权重、梯度和激活,以便快速评估模型状态

Inference and Deployment

  • LongCat-Flash 采用了模型-系统协同设计(model-system co-design),这对其实现高吞吐量和低延迟起到了重要作用
  • 本节重点介绍论文其中一个部署集群中实施的推理优化,阐述了同时提升系统吞吐量并将 H800 上的延迟显著降低至 100 TPS 的方法
  • 首先,介绍与模型架构协同设计的并行推理架构
  • 其次,在推理架构之后,描述了量化(quantization)和自定义内核(custom kernel)等优化方法
  • 最后,论文介绍了部署策略和性能结果

Model-Specific Inference Optimization

  • 为实现高效的推理系统,必须解决两个关键挑战:
    • (1) 计算与通信的编排(orchestration)
    • (2) KV 缓存(KV cache)的 I/O 和存储
  • 对于第一个挑战,现有方法通常利用三种常规粒度的并行性:
    • 算子级重叠(operator-level overlap) ,如 NanoFlow (2025);
    • 专家级重叠(expert-level overlap) ,以 EPS-MoE (2025) 为代表;
    • 层级重叠(layer-level overlap) ,如 DeepSeek-V3 TBO(Two Batch Overlap)(Team, 2025b) 所示
    • LongCat-Flash 的 ScMoE 架构引入了第四个维度(模块级重叠(module-level overlap)),为此论文设计了 SBO(Single Batch Overlap)调度策略来同时优化延迟和吞吐量
  • 对于第二个挑战,KV 缓存的 I/O 和存储,LongCat-Flash 通过其注意力机制和 MTP 结构的架构创新来减少有效的 I/O 开销
Computation and Communication Orchestration(计算与通信编排)
  • LongCat-Flash 的结构天然具有计算-通信重叠(computation-communication overlap)的特性,这是在保持生成吞吐量的同时实现更低延迟的关键
  • 论文精心设计了单批次重叠(Single Batch Overlap, SBO),这是一个四阶段的流水线执行过程,利用模块级重叠来充分发挥 LongCat-Flash 的潜力,如图 9 所示
  • SBO 与 TBO 的不同之处在于它将通信开销隐藏在一个批次内
  • 在 SBO 中
    • 阶段 1 需要单独执行,因为 MLA 的输出是后续阶段的输入
    • 阶段 2,论文将 all-to-all 分发(dispatch)与 Dense 前馈网络(Dense FFN)和注意力层 0(Attn 0,即 QKV 投影)重叠,这种重叠至关重要,因为通信开销过大,促使论文拆分注意力过程
    • 阶段 3 独立执行 MoE 通用矩阵乘法(GEMM)
      • 此阶段的延迟将受益于宽专家并行(wide EP)部署策略
    • 在阶段 4,论文将注意力层 1(Attn 1,即核心注意力和输出投影)和 Dense 前馈网络与 all-to-all 组合(combine)重叠
      • 这种编排有效缓解了通信开销,确保了 LongCat-Flash 的高效推理
  • 此外,在宽 EP 部署方案下,ScMoE 架构通过 GPUDirect RDMA (Choquette, 2022) 促进了节点内 NVLink 带宽利用和节点间 RDMA 通信的重叠,从而提高了整体带宽效率
  • ScMoE 中的 Dense 前馈网络具有相对较大的中间维度,因此采用张量并行(TP)部署以最小化内存占用,这分别需要在 Dense 前馈网络之前和之后进行 all-gather 和 reduce-scatter 通信
  • 为减少此通信开销,论文开发了自定义内核,并采用 TP2 或 TP4 而不是 TP8
Speculative Decoding
  • LongCat-Flash 采用多 Token 预测(MTP)作为推测解码(speculative decoding)的草稿模型(draft model)
  • 论文的优化框架源于对推测解码加速公式的系统性分解,正如 Sadhukhan 等人 (2025) 所提到的:
    $$
    \frac{T_{Avg}^{SD} }{T_{T} }=\frac{1}{\Omega(\gamma,\alpha)}\left(\frac{\gamma \cdot T_{D} }{T_{T} }+\frac{T_{V}(\gamma)}{T_{T} }\right),
    $$
    • \(T_{Avg}^{SD}, T_{T}, T_{D}\) 分别表示推测解码、目标模型(target model)和草稿模型(draft model)的每 Token 预期延迟
    • \(\gamma\) 表示一个解码步骤中的草稿 Token 数量
    • \(\Omega(\gamma,\alpha)\) 是给定步骤 \(\gamma\) 和接受率(acceptance rate) \(\alpha\) 的预期接受长度
    • \(T_{V}(\gamma)\) 是目标验证(target verification)的预期延迟
  • 论文的方法针对三个关键因素:
    • 预期接受长度 \(\Omega(\gamma,\alpha)\) ,它与草稿 Token 的接受率 \(\alpha\) 正相关
      • 为最大化接受率 \(\alpha\) ,论文采用 MTP
      • 在后期预训练阶段集成单个 MTP 头,在测试集上实现了约 90% 的接受率
    • 草稿与目标成本比 \(\gamma\frac{T_{D} }{T_{T} }\) ,这主要由目标模型和草稿模型的结构决定
      • 正如 Liu 等人 (2024d) 所指出的,平衡草稿质量和速度至关重要
      • 为在保持相当接受率的同时最小化生成开销,LongCat-Flash 采用了参数减少的轻量级 MTP 架构
      • 论文的实验(表 5)表明,对 MTP 头使用单个 Dense 层优化了这种权衡,在延迟方面优于 ScMoE 层
    • 目标验证与解码成本比 \(\frac{T_{V}(\gamma)}{T_{T} }\)
      • 为降低此比率,论文采用了 C2T 方法 (2025),使用一个分类模型在验证前过滤掉不太可能被接受的 Token
Reducing KV Cache
  • 为了平衡性能和效率,LongCat-Flash 的注意力机制采用了具有 64 个头的 MLA,这减少了注意力组件的计算负载,同时实现了卓越的 KV 缓存压缩,从而减轻了存储和带宽压力
  • 这对于编排 LongCat-Flash 的流水线至关重要,如图 9 所示,模型总是存在一个无法与通信重叠的注意力计算
  • 具体来说,MLA 吸收方法中类似 MQA 的结构在 m 维度(64 个头)上共享 KV,与 WGMMA 指令的形状对齐,以实现最大的硬件利用率

System-Wide Inference Techniques

Minimize Schedule Overhead
  • LLM 推理系统中的解码阶段可能因内核启动开销而变得受启动限制(launch-bound)
  • 引入推测解码后,这个问题更加严重——特别是对于 LongCat-Flash 的轻量级 MTP,验证内核和草稿前向传播的单独调度会带来显著的开销
  • 为缓解此问题,采用了 TVD 融合策略(TVD fusing strategy),将目标前向(Target forward)、验证(Verification)和草稿前向(Draft forward)融合到单个 CUDA 图(CUDA graph)中
  • 为了进一步提高 GPU 利用率,论文实现了一个重叠调度器(overlapped scheduler)
  • 然而,实验结果表明,LongCat-Flash 前向传播的低延迟使得单步预调度策略不足以完全消除调度开销
  • 如图 10 所示,论文引入了一个多步重叠调度器(multi-step overlapped scheduler),在单个调度迭代中启动多个前向步骤的内核
    • 这种方法有效地将 CPU 调度和同步隐藏在 GPU 前向过程中,确保持续的 GPU 占用率
  • 在多步重叠调度器中,论文需要在没有先前迭代中推测解码接受长度先验知识的情况下,为多个未来步骤动态预分配 KV 缓存槽(KV cache slots)
  • 一个重要的问题是,多步重叠调度是否会导致不同的 KV 缓存分配
  • 论文用 \(MTP=1\) 和步数 \(n=4\) 来说明这一点
  • 令 \(R_{i}\) 表示 GPU 第 \(i\) 次迭代前向传播期间可用的 KV 条目数,因此 \(R_{0} = (MTP+1) \times n = 2n\)
  • \(U_{i,s} \in [1, 2]\) 表示第 \(i\) 次迭代中第 \(s\) 步的接受长度,初始值 \(U_{-1,s} = 2\)
  • 然后,当 GPU 执行第 \(i\) 次迭代的前向计算时,调度器基于第 \((i-1)\) 次前向迭代中的接受长度预分配第 \((i+1)\) 次前向迭代所需的 KV 缓存槽,其中 \(A_{i}\) 表示分配的 KV 缓存槽。形式化地:
    $$
    \begin{align}
    A_{i} = \sum_{s=0}^{n-1} U_{i-1,s},\ i \geq 0 \\
    R_{i} = R_{i-1} - \sum_{s=0}^{n-1} U_{i-1,s} + A_{i-1},\ i \geq 1
    \end{align}
    $$
  • 通过归纳,论文得到闭式表达式:
    $$
    R_{i} = 4n - \sum_{s=0}^{n-1} U_{i-1,s},\ i \geq 1
    $$
  • 这意味着:
    $$
    R_{i} \in [2n, 3n],\ i \geq 1
    $$
  • 通过数学归纳法,这确保了即使不知道当前迭代的接受长度,也能为下一次迭代安全地分配 KV 缓存,同时保证了分配的 KV 缓存大小的收敛性
Custom Kernel
  • LLM 推理的自回归(autoregressive)特性带来了独特的效率挑战
  • 预填充阶段(prefilling phase)是计算受限的(compute-bound),像分块预填充(chunk-prefill)(2023) 这样的方法可以规范化数据以实现最优处理
    • 相反,由于流量模式导致的小批量且不规则的 Batch Size ,解码阶段通常是内存受限的(memory-bound),这会损害内核性能
  • 因此,优化这些特定情况对于最小化每输出 Token 时间(Time-Per-Output-Token, TPOT)至关重要
  • MoE GEMM
    • 现有的库,如 DeepGEMM (2025a),将模型权重映射到与 k/n 维度对齐的右侧矩阵(B,在 AxB=C 中),而输入激活(input activations)则成为映射到 m/k 维度的左侧矩阵,其中 m 表示 Token 数量
    • 这种传统方法在 Token 数量低于 m 的 64 元素最小值时需要填充(padding)
    • 为了解决这种低效问题,论文利用了 SwapAB (2025) 技术:将权重视为左侧矩阵,激活视为右侧矩阵
    • 通过利用 n 维度的灵活 8 元素粒度,SwapAB 最大限度地提高了张量核心利用率
  • 通信内核
    • 推理系统利用 NVLink Sharp 的硬件加速广播(multimem.st)和交换机内归约(multimem.ld_reduce)来最小化数据移动和流多处理器(SM)占用,如图 9 所示
    • 通过使用内联 PTX 汇编(inline PTX assembly),reduce-scatter 和 all-gather 内核实现了高效的数据传输
    • 这些内核支持 GPU 间均匀和非均匀的 Token 分布,并且在 4KB 到 96MB 的消息大小上始终优于 NCCL (NVIDIA) 和 MSCCL++ (2025),仅使用 4 个线程块(thread blocks)
Quantization
  • LongCat-Flash 采用与 DeepSeek-V3 相同的量化方案,使用细粒度分块量化(fine-grained block-wise quantization):激活值按 \([1,128]\) 块进行量化,权重按 \([128,128]\) 块进行量化
  • 此外,为了实现最优的性能-精度权衡,论文基于两种方法应用了分层混合精度量化(layer-wise mixed-precision quantization):
    • 第一种方案遵循论文在 FPTQ (2023b) 和 Super-Expert (2025) 中的方法,论文观察到某些线性层(特别是 Downproj)的输入激活值具有达到 \(10^{6}\) 的极端幅值
    • 第二种方案涉及逐层计算分块 FPS 量化误差(包括相对误差和绝对误差),这揭示了特定专家层中存在显著的量化误差
  • 通过取两种方案的交集,论文实现了显著的精度提升

Deployment and Performance

  • 为了实现预填充(prefilling)和解码(decoding)阶段的独立优化,采用了 PD 分离架构(PD-Disaggregated architecture)
  • 此设计中的一个关键挑战是将 KV 缓存从预填充节点传输到解码节点的开销
  • 为了缓解这个问题,论文实现了分层传输(layer-wise transmission),这在高 QPS(每秒查询数)工作负载下显著降低了首 Token 时间(Time-To-First-Token, TTFT)
  • 对于预填充和解码节点,最小部署单元由 2 个节点组成,每个节点配备 16 个 H800-80GB GPU
  • 同时,采用宽 EP(wide EP)部署,并使用 DeepEP (2025b) 来最小化通信开销
  • 此外,论文修改了 DeepEP 和 EPLB(专家并行负载均衡器,Expert Parallelism Load Balancer)以支持零计算专家(zero-computation experts),零计算专家的输出可以在无需通信的情况下获得
  • 表 6 比较了 LongCat-Flash 与 DeepSeek-V3(DeepSeek-V3-profile 来自 DeepSeek (2025a),DeepSeek-V3-blog 来自 DeepSeek (2025b))的吞吐量和延迟,其中 TGS(每秒每 GPU Token 数,token per GPU per second)表示每个设备的生成吞吐量(数值越高表示成本越低),TPS/u(每秒每用户 Token 数,tokens per second per user)表示单个用户的生成速度(数值越高越好)
  • 在测试过程中,使用给定序列长度下的稳态生成吞吐量进行计算。LongCat-Flash 在不同的序列长度下实现了更高的生成吞吐量和更快的生成速度
  • 在基于 ReACT (2023) 模式的 Agent 应用中,完成单个任务需要多轮模型交互,其中交互延迟直接影响用户体验。对典型智能体调用模式的分析揭示了模型输出对不同速度的要求:
    • 推理内容(用户可见):由认知过程(cognitive processes)和解释(explanations)组成,必须匹配人类阅读速度(约 20 个 Token /秒)
    • 动作命令(用户不可见):结构化数据,如函数名和参数,通常为 30~100 个 Token ,但直接影响工具调用启动时间——要求尽可能高的速度
  • 针对此场景,LongCat-Flash 对动作命令实现了近 100 个 Token /秒的生成速度
    • 在 H800 GPU 每小时成本为 2 美元的假设下,这相当于每百万输出 Token 的价格为 0.7 美元
    • 这种性能将单轮工具调用延迟限制在一秒以内,从而显著增强了智能体应用的交互性
Theoretical Performance
  • 图 9 显示,LongCat-Flash 的延迟主要由三个组成部分决定:
    • MLA:其时间消耗无法通过增加 EP 数量来减少
    • All-to-all 分发/组合:两者都受单设备 Batch Size和 topk 的限制
    • MoE:其在内存受限区域(memory-bound region)的时间消耗随着 EP 数量的增加而减少
  • 假设 EP 数量为 128,MLA 对 DeepSeek-V3 和 LongCat-Flash 使用数据并行(DP),GQA 对 Qwen3-235B-A22B 使用 TP4(因为它有 4 个 kv 头),每设备 Batch Size 为 96
    • 实际上,Qwen-235B-A22B 的 GQA 特性导致其 KV 缓存的内存占用相对较高,在实践中难以达到每 GPU 96 的 Batch Size
    • 此处假设其可以达到该值仅用于理论分析的目的
    • 正如 (Li, 2025) 所指出的,FlashMLA 在 NVIDIA H800 SXM5 GPU 上可以达到 660 TFlops;Zhao 等人 (2025b) 表明 DeepEP 带宽可以达到 40GB/s
    • 这两个指标都用于论文的计算
    • 假设每个 H800 的成本为每小时 2 美元
    • 考虑 MTP=1 且接受率为 80%,我们可以计算 DeepSeek-V3、Qwen3-235B-A22B 和 LongCat-Flash 每一层各个模块的理论时间消耗和成本,如表 7 所列
    • 对于本身不支持 MTP 的 Qwen3-235B-A22B,论文假设采用具有相当接受率的推测采样策略(speculative sampling strategy)
  • 在此配置下,采用 SBO 的 LongCat-Flash 的理论极限 TPOT 可以表示为:
    $$
    \text{TPOT} = \frac{\text{TPL} \times n_{\text{layer} } }{\text{batch per device} \times \text{MTP} \times \text{acceptance rate} }
    $$
  • 其中 TPL 表示每层时间成本(time cost per layer)
  • 在 Batch Size 96 下测得的值约为 TPOT = 26 ms,大约是理论值的 61.5%,与 DeepSeek-V3(约 64%)相当。测量值与理论速度之间的差距主要来自小算子的开销和通信带宽的损失
  • 论文应用相同的方法计算了 DeepSeek-V3 和 Qwen3-235B-A22B 在 TBO 调度下的 TPOT 和生成成本的理论极限
    • 从表 7 可以观察到,通过模型系统协同设计,LongCat-Flash 在吞吐量和延迟方面都实现了显著的理论改进
  • 此外,论文观察到关于 LongCat-Flash 的两个关键见解:
    • (1) LongCat-Flash 不仅暴露了 all-to-all 通信和 MoE 计算,还暴露了一个 MLA 计算。因此,在相同的 Batch Size 下,LongCat-Flash 的每层时间比 DeepSeek-V3 略长
      • 然而,由于其层数显著减少,LongCat-Flash 实现了更低的总体延迟
    • (2) LongCat-Flash 的第二个 MLA 与 all-to-all 组合重叠
      • 这意味着在解码阶段,LongCat-Flash 可以在不显著增加延迟的情况下,将序列长度增加到一定程度

附录 A

A.1 Statistics and Case Studies of Dynamic Routing

  • 图 11 显示了 LongCat-Flash 基础模型(base model)在不同Benchmarks中平均激活的前馈网络专家(activated FFN experts)数量
    • 存在一种一致的计算偏好(computational bias):英语 Token 比中文和数学 Token 获得了更多的计算资源
  • 论文在表 8 中展示了几个案例在不同层(layers)的更详细的专家选择情况
    • 这些案例揭示了不同层之间专家选择模式(patterns of expert selection)的差异
    • 在第一层(Layer 1),功能词(function words)(包括冠词、连词、介词)、数字和标点符号(punctuation marks) consistently 获得较少的计算资源
    • 相比之下,最后一层(Layer 28)与第一层相比,表现出较少专门化的特征分配(specialized feature allocation),尽管仍然存在可识别的模式
    • 例如,在中文文本案例中,标点符号前的 Token 往往被分配较少的计算资源
    • 论文假设浅层(shallow layers)优先根据 Token 内部语义(token-internal semantics)进行资源分配,而深层(deeper layers)则根据预测复杂性(predictive complexity)动态调整资源,这可能反映了从局部特征处理(local feature processing)到全局预测优化(global prediction optimization)的层次化过渡(hierarchical transition)

NLP——技术报告解读-Kimi-K2

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Kimi K2: Open Agentic Intelligence, Moonshot AI (Kimi), 20250728

Paper Summary

  • Kimi K2 是截止到其发表时最强大的开源大语言模型 ,基于 MoE 架构(1T-A32B)(没看错,是1万亿!)
    • 注:截止到发布,效果也是开源中最顶尖的
    • 强调 Agentic 能力
  • 论文同时还提出了 MuonClip 优化器(Muon + 新引入的 QK-clip 技术),解决了训练不稳定的问题,同时保留了 Muon 的高效 Token 利用率
    • 亮点:基于 MuonClip,K2 在 15.5T Token 的预训练过程中实现了零损失峰值
  • 后训练过程包含多个阶段
    • 重点:包括大规模的具身数据合成流程和联合 RL 阶段,模型通过与真实和合成环境的交互进一步提升能力
  • 特别地:Moonshot AI 团队公开了基模型和后训练模型的检查点 ,使社区能够探索、改进和规模化部署 Agentic 智能,以促进 Agentic 智能的未来研究和应用

Introduction and Discussion

  • LLM 的发展正在经历一场深刻的范式转变(即朝着 Agentic 智能(Agentic Intelligence) 的方向演进)
    • Agentic 智能是指模型能够在复杂动态环境中自主感知、规划、推理和行动(autonomously perceive, plan, reason, and act)
      • 注:Agentic 智能不是具身智能(Embodied Intelligence),但这里的定义与具身智能很相似?
    • 这一转变标志着模型从静态模仿学习转向通过交互主动学习 ,使其能够超越训练数据的限制,and adapt behavior through experiences (2025)
    • 目前普遍认为,这种方法可以让 AI 智能体突破静态人类生成数据的局限,通过自身的探索和利用获得超人类能力
    • Agentic 智能正迅速成为下一代基础模型的核心能力,对工具使用、软件开发和现实世界自主性等领域具有广泛影响
  • 实现 Agentic 智能在预训练和后训练阶段均面临挑战
    • 预训练需要在高质量数据有限的约束下,为模型赋予广泛的通用先验知识 ,因此 Token Efficiency(learning signal per Token,即每个 Token 对模型性能提升的贡献)成为关键扩展系数
    • 后训练需要将这些先验知识转化为可操作的行为,但多步推理、长期规划和工具使用等具身能力在自然数据中罕见且难以扩展
      • 所以结构化、高质量具身轨迹的可扩展合成,结合能够整合偏好和自我批评的通用强化学习技术,是弥合这一差距的关键
  • 论文介绍了 Kimi K2,专为解决核心挑战并推动具身能力边界而设计。论文的贡献涵盖预训练和后训练的前沿领域:
    • MuonClip :一种新颖的优化器,将高效的 Muon 算法与增强稳定性的 QK-Clip 机制相结合
      • 使用 MuonClip 在 15.5T Token 上预训练了 Kimi K2,未出现任何损失峰值
      • 注:裁剪的 Idea 在之前的文献中就出现过,GPipe 论文中也是用了在 Softmax 操作前进行 Clip 的方案,缓解较深的网络容易出现尖锐激活(sharp activations)的问题
    • 大规模具身数据合成流程(a large-scale agentic data synthesis pipeline) :通过模拟和真实环境系统性地生成工具使用示范
      • 该系统构建了多样化的工具、智能体、任务和轨迹,以规模化生成高保真且可验证正确的具身交互数据
    • 通用强化学习框架(a general reinforcement learning framework) :结合 RLVR 和自我批评评分奖励机制(self-critique rubric reward mechanism)
      • 模型不仅从外部定义的任务中学习,还通过评估自身输出来扩展对齐能力,从静态领域延伸到开放领域
  • Kimi K2 在广泛的具身和前沿基准测试中表现出色:
    • Agentic 智能方面,超越了大多数开源和闭源基线模型(非思考设定下),缩小了与 Claude 4 Opus 和 Sonnet 的差距:
      • 在 Tau2-Bench 上得分为 66.1,在 ACEBench(英文版)上得分为 76.5
      • 在 SWE-Bench Verified 上得分为 65.8
      • 在 SWE-Bench Multilingual 上得分为 47.3
    • 编码、数学和推理任务中表现优异,进一步凸显了其在通用任务中的能力
      • 在 LiveCodeBench v6 上得分为 53.7
      • 在 AIME 2025 上得分为 49.5
      • 在 GPQA-Diamond 上得分为 75.1
      • 在 OJBench 上得分为 27.1
  • 在 LMSYS Arena 排行榜(20250717)中,基于 3,000+ user votes,Kimi K2 位列开源模型第一名和总排名第五名

Pre-training

  • Kimi K2 的基础模型是一个拥有 1T 参数的 MoE Transformer 模型 (2017),预训练数据规模为 15.5T 高质量 Token
  • 最大化 Token Efficiency :高质量人类数据的可用性日益受限,Token Efficiency 正成为 LLM 扩展的关键系数,论文引入了一系列专门设计的预训练技术,旨在最大化 Token Efficiency
    • 论文采用了 token-efficient Muon 优化器 (2024) 并通过 QK-Clip 技术缓解其训练不稳定性
    • 论文还结合了合成数据生成技术,以进一步从有限的高质量 Token 中提取更多智能信号
  • K2 模型架构采用超稀疏 MoE 设计 ,配备多头潜在注意力(Multi-head Latent Attention, MLA)机制(类似于 DeepSeek-V3 (2024))
    • 其设计基于经验性的扩展定律分析
  • AI Infra:底层基础设施的构建同时优化了训练效率和研发效率

MuonClip:通过权重裁剪实现稳定训练(MuonClip: Stable Training with Weight Clipping)

  • Kimi K2 训练使用 token-efficient Muon 优化器 (2024),并结合了权重衰减(weight decay)和一致的更新 RMS 缩放技术 (consistent update RMS scaling)(2025)
    • 注:这里的 consistent update RMS scaling 是指 在分布式训练过程中,更新 RMS 时,通过节点间通信同步数据,确保更新的缩放因子在所有设备上完全一致
  • 在论文先前的工作 Moonlight (2025) 中的实验表明,在相同的计算预算和模型规模(即相同的训练数据量)下,Muon 显著优于 AdamW (2015, 2019) ,因此成为提升大语言模型训练 Token Efficiency 的有效选择
Training instability when scaling Muon
  • 作者发现在扩展训练规模时,由于注意力 logits 爆炸导致的训练不稳定性
    • 这一问题在 Muon 训练中更为常见,而在 AdamW 中较少出现
  • 现有的缓解策略效果有限:
    • logit soft cap (2024) 直接裁剪注意力 logits,但在裁剪应用之前, Query 和 Key 的点积仍可能过度增长
    • Query-Key Normalization(QK-Norm)(2023) 不适用于多头潜在注意力(MLA),因为其 Key 矩阵在推理时并未完全实例化
Taming Muon with QK-Clip(通过 QK-Clip 驯服 Muon)
  • 为了解决上述问题,论文提出了权重裁剪机制 QK-Clip(可显式约束注意力 logits)
  • QK-Clip 的工作原理是在更新后重新缩放 Query 和 Key 的投影权重 ,以限制注意力 logits 的增长
  • 设 Transformer 层的输入表示为 \(\mathbf{X}\)。对于每个注意力头 \(h\),其 Query、Key 和 Value 投影计算如下:
    $$
    \mathbf{Q}^{h} = \mathbf{X}\mathbf{W}_{q}^{h}, \quad \mathbf{K}^{h} = \mathbf{X}\mathbf{W}_{k}^{h}, \quad \mathbf{V}^{h} = \mathbf{X}\mathbf{W}_{v}^{h},
    $$
    • 其中 \(\mathbf{W}_{q}, \mathbf{W}_{k}, \mathbf{W}_{v}\) 是模型参数
    • 注意力输出为:
      $$
      \mathbf{O}^{h} = \text{softmax}\left(\frac{1}{\sqrt{d} }\mathbf{Q}^{h}\mathbf{K}^{h^{\top} }\right)\mathbf{V}^{h}.
      $$
  • 论文定义最大 logit(每头标量)为该批次 \(B\) 中 softmax 输入的最大值:
    $$
    S_{\text{max} }^{h} = \frac{1}{\sqrt{d} }\max_{\mathbf{X}\in B}\max_{i,j}\mathbf{Q}_{i}^{h}\mathbf{K}_{j}^{h^{\top} },
    $$
    • 其中 \(i,j\) 是训练样本 \(\mathbf{X}\) 中不同 Token 的索引
  • QK-Clip 的核心思想是当 \(S_{\text{max} }^{h}\) 超过目标阈值 \(\tau\) 时,重新缩放 \(\mathbf{W}_{k}\) 和 \(\mathbf{W}_{q}\)
    • 特别说明:这一操作不会改变当前步骤的前向/反向计算(使用最大 logit 作为指导信号来控制权重的增长强度)
  • 一种简单的实现是对所有头同时裁剪:
    $$
    \mathbf{W}_{q}^{h} \leftarrow \gamma^{\alpha}\mathbf{W}_{q}^{h}, \quad \mathbf{W}_{k}^{h} \leftarrow \gamma^{1-\alpha}\mathbf{W}_{k}^{h},
    $$
    • 其中 \(\gamma = \min(1, \tau/S_{\text{max} })\),\(S_{\text{max} } = \max_{h}S_{\text{max} }^{h}\),\(\alpha\) 是平衡参数,通常设为 0.5,表示对 Query 和 Key 应用相同的缩放比例
    • 问题:为什么 Query 和 Key 要分别设计成 \(\gamma^{\alpha}\) 和 \(\gamma^{1-\alpha}\) 呢?
      • 回答:因为目标是让 Query 和 Key 的乘积缩小为 \(\gamma\) 倍,而 \(\gamma^{\alpha} * \gamma^{1-\alpha} = \gamma\)
  • 但论文的实现是分不同头分别放缩的
    • 原因:论文观察到在实践中,只有一小部分头会出现 logits 爆炸,为了最小化对模型训练的干预,论文为每个头确定一个独立的缩放因子,并选择对每个头单独应用 QK-Clip
      $$ \gamma_{h} = \min(1, \tau/S_{\text{max} }^{h}) $$
    • 这种裁剪对于常规的多头注意力(Multi-head Attention, MHA)是直接的
    • 对于 MLA,论文仅对非共享的注意力头组件进行裁剪:
      • \(\mathbf{q}^{C}\) 和 \(\mathbf{k}^{C}\)(head-specific components):分别缩放 \(\sqrt{\gamma_{h} }\);
      • \(\mathbf{q}^{R}\)(head-specific rotary):缩放 \(\gamma_{h}\);
      • \(\mathbf{k}^{R}\)(shared rotary):保持不变以避免跨头影响
MuonClip: The New Optimizer
  • 作者将 Muon + 权重衰减 + 一致的 RMS 匹配(consistent RMS matching) + QK-Clip 整合为一个优化器,称为 MuonClip(参见算法 1)
  • 论文从多项扩展实验中验证了 MuonClip 的有效性:
    • 第一步:论文使用原始 Muon 训练了一个中等规模的模型(激活参数 9B,总参数 53B)
      • 如图 2(左)所示,最大注意力 logits 迅速超过 1000,表明在这一规模下 Muon 训练中已经出现了明显的注意力 logits 爆炸现象
      • 这一水平的最大 logits 通常会导致训练不稳定,包括显著的损失尖峰(loss spike)且偶尔导致发散(divergence)
    • 第二步:论文证明了 QK-Clip 不会降低模型性能,并确认 MuonClip 优化器保留了 Muon 的优化特性,且不会对损失轨迹产生负面影响
      • 实验设计和发现的详细讨论见附录 D
    • 第三步:论文使用 MuonClip(\(\tau = 100\))训练了 Kimi K2 这一大规模 MoE 模型,并在整个训练过程中监控最大注意力 logits(图 2(右))
      • 初始阶段,由于 QK-Clip 的作用,logits 被限制在 100 以内
      • 随着训练的进行,最大 logits 逐渐衰减至不出所料的操作范围(typical operating rang),无需调整 \(\tau\)
      • 重点:训练损失保持平滑稳定,未出现可观测的尖峰(如图 3 所示),验证了 MuonClip 在大规模语言模型训练中对注意力动态的稳健且可扩展的控制能力

Pre-training Data: Improving Token Utility with Rephrasing

  • 预训练中的 Token Efficiency 是指训练过程中每个消耗的 Token 对模型性能提升的贡献程度
  • 提升 Token Utility(即每个 Token 提供的有效学习信号)可以直接改善 Token Efficiency(尤其是在高质量 Token 供应有限的情况下)
  • 一种简单提升 Token Utility 的方法是重复 exposure 相同的 Token,但这可能导致过拟合并降低泛化能力
  • Kimi K2 预训练数据相较于 Kimi K1.5 的一个关键进步是引入了合成数据生成策略以提升 Token Utility
    • 论文采用了一种精心设计的重述流水线(Rephrasing Pipeline),在不引发显著过拟合的情况下扩增高质量 Token 的数量
    • 本报告描述了两类针对特定领域(分别为知识领域和数学领域)的重述(Rephrasing)技术,实现了这种受控的数据增强
Knowledge Data Rephrasing
  • 在自然、知识密集型文本上的预训练面临一个权衡:单轮训练不足以实现全面的知识吸收,而多轮重复则会导致收益递减并增加过拟合风险
  • 为了提升高质量知识 Token 的效用,论文提出了一个合成重述框架,包含以下关键组件:
    • 风格和视角多样化的提示(Style- and perspective-diverse promptin) :为了在保持事实完整性的同时增强语言多样性 ,论文应用了一系列精心设计的提示
      • 这些提示指导 LLM 以多样化的风格和视角生成对原文的忠实重述
    • 分块自回归生成(Chunk-wise autoregressive generation) :为了保留长文档的全局连贯性并避免信息丢失 ,论文采用了基于分块的自回归重写策略
      • 文本被分割为多个段落,分别重述后再拼接为完整的篇章
      • 这种方法缓解了 LLM 通常存在的隐式输出长度限制
      • 该流水线的概述如图 4 所示
    • 保真度验证(Fidelity verification) :为了确保原始内容与重述内容的一致性 ,论文对每段重述内容进行语义对齐检查 ,作为训练前的初步质量控制步骤
  • 论文通过测试 SimpleQA 的准确率,比较了数据重述与多轮重复的效果
    • 实验使用 K2 的早期检查点,评估了三种训练策略:
      • (1) 原始数据集重复 10 轮;
      • (2) 数据重述一次后重复 10 轮;
      • (3) 数据重述 10 次后单轮训练
    • 如表 1 所示,准确率在这些策略中持续提升,证明了基于重述的增强方法的有效性
    • 论文将此方法扩展到其他大规模知识语料库,并观察到类似的积极结果,每个语料库最多重述两次
Mathematics Data Rephrasing
  • 为了增强数学推理能力,论文遵循 SwallowMath (2025) 引入的方法,将高质量的数学文档重写为“学习笔记(learning-note)”风格
  • 作者还通过将其他语言的高质量数学材料翻译为英语,进一步提升了数据的多样性
  • 对数据子集的初步重述实验显示了有希望的结果,但将合成数据作为持续扩展的策略仍是一个活跃的研究领域,关键挑战包括:
    • 在不损害事实准确性的情况下将该方法推广到多样化的源领域
    • 最小化幻觉和意外的毒性
    • 确保其在大规模数据集上的可扩展性
Pre-training Data Overall
  • Kimi K2 的预训练语料库包含 15.5T 亿 Token 的精选高质量数据,涵盖四个主要领域:网络文本、代码、数学和知识(Web Text, Code, Mathematics, and Knowledge)
  • 大多数数据处理流水线遵循 Kimi K1.5 (2025) 中概述的方法
    • TODO:待补充
  • 对于每个领域,论文进行了严格的正确性和质量验证 ,并设计了针对性的数据实验,以确保最终数据集兼具高多样性和高效性

Model Architecture

  • Kimi K2 是一个拥有 1.04T 参数的 MoE Transformer 模型,激活参数为 32B
    • 架构设计与 DeepSeek-V3 (2024) 类似,采用多头潜在注意力(MLA)(2024) 作为注意力机制
    • 模型隐藏维度为 7168,MoE 专家隐藏维度为 2048
    • 专家数 384,激活专家数 8
      • 论文的扩展定律分析表明,持续增加稀疏性可以显著提升性能 ,这促使论文将专家数量增加到 384(DeepSeek-V3 为 256)
    • 注意力头数为 64
      • 为了减少推理时的计算开销,论文将注意力头数削减至 64(DeepSeek-V3 为 128)
    • 表 2 详细对比了 Kimi K2 与 DeepSeek-V3 的架构参数
Sparsity Scaling Law
  • 论文为 MoE 模型家族开发了一条基于 Muon 的稀疏性扩展定律
  • 稀疏性定义为专家总数与激活专家数的比值
  • 通过精心控制的小规模实验,论文观察到:在固定激活参数数量(即恒定 FLOPs)的情况下,增加专家总数(即提高稀疏性)能够持续降低训练和验证损失,从而提升整体模型性能(图 5)
    • 在计算最优的稀疏性扩展定律下,要达到相同的验证损失 1.5,稀疏性 48 相比稀疏性 8、16 和 32 分别减少了 1.69 倍、1.39 倍和 1.15 倍的 FLOPs
    • 尽管增加稀疏性会带来性能提升,但这一增益伴随着基础设施复杂度的上升
    • 为了平衡模型性能与成本,论文为 Kimi K2 选择了稀疏性 48,即每次前向传播激活 384 个专家中的 8 个
  • 问题:为什么图 5 中显示,对于相同的稀疏性,随着训练 FLOPs 的增大,Loss 是先降低后上升的?
    • 补充问题:图 5 是在固定激活参数数量(即恒定 FLOPs)的情况下得到的,增大训练的 FLOPs,本质是在修改哪个参数导致的 FLOPs 增加而 激活函数数量不变呢?
Number of Attention Heads
  • DeepSeek-V3 (2024) 将注意力头数设置为模型层数的约两倍 ,以更好地利用内存带宽并提升计算效率
  • 但是,随着上下文长度的增加,双倍注意力头数(即头数是层数的两倍)会导致显著的推理开销,降低长序列处理的效率
    • 因为 Softmax 等操作是每个头都需要做一份的,整体复杂度为 \(O(n^2h)\)(\(n\)是序列长度);此外,太大的头会导致太小的 Attention Embedding 维度,从而不利于显存分块存储和读取?
  • 由于代理应用(agentic applications)中常常涉及长上下文处理,所以长序列处理的低效已经成为一个主要限制,下面给出一个例子和实验:
    • 在序列长度为 128k 时,将注意力头数从 64 增加到 128(同时保持专家总数 384 不变)会导致推理 FLOPs 增加 83%
    • 论文进行了对照实验,比较了在相同 Token 训练条件下,注意力头数等于层数与双倍头数的配置在不同计算预算下的表现
    • 结果显示:双倍注意力头数仅带来验证损失的微小改善(约 0.5% 至 1.2%)(图 6)
    • 鉴于稀疏性 48(sparsity 48) 已经提供了强劲的性能,双倍注意力头数带来的边际增益无法证明其推理成本的合理性,因此论文选择 64 个注意力头
      • 问题:sparsity 48 是什么?
      • 回答:是上一小节提到的概念,sparsity = 总头数 / 激活头数

        Sparsity is defined as the ratio of the total number of experts to the number of activated experts

    • 问题:为什么图 6 中显示,对于相同的 FLOPs,随着训练 Token 的增大,Loss 是先降低后上升的?
      • 补充问题:是因为训练 Token 提升时,为了保证 FLOPs 不变,需要减少模型参数吗?具体减少的是什么参数呢?

Training Infrastructure

Compute Cluster
  • Kimi K2 在配备 NVIDIA H800 GPU 的集群上进行训练
  • 每个 H800 集群节点包含 2TB RAM 和 8 个通过 NVLink 和 NVSwitch 连接的 GPU
    • NVSwitch 是什么?
  • 节点间通过 8 条 400 Gbps RoCE 互连实现通信
Parallelism for Model Scaling
  • LLM 的训练通常在动态资源可用性的情况下进行
  • 论文采用了一种灵活的策略,使得 Kimi K2 可以在任意 32 的整数倍节点数上训练
  • 论文的策略结合了 16 路流水线并行(Pipeline Parallelism, PP)与 Virtual Stages (2023;)、16 路专家并行(Expert Parallelism, EP)(2020) 以及 ZeRO-1 数据并行 (2020)
    • 问题:Virtual Stages 是什么?
  • 在此设置下
    • 以 BF16 存储模型参数并以 FP32 存储梯度累积缓冲区,大约需要 6TB 的 GPU 内存,分布在 256 个 GPU 的模型并行组中
    • 优化器状态的放置取决于训练配置
      • 当训练节点总数较大时,优化器状态被分布式存储,从而将每个设备的存储占用降至可忽略的水平
      • 当训练节点总数较小(例如 32)时,可以将部分优化器状态卸载到 CPU
  • 这种方法允许论文在小规模和大规模实验中复用相同的并行配置,同时让每个 GPU 保留约 30 GB 的 GPU 内存用于存储所有状态
    • 剩余的 GPU 内存用于存储激活值,如第 2.4.3 节所述
  • 这种一致的设计提高了研发效率(简化了系统并显著加快了实验迭代速度)
  • EP 通信与交错 IF1B 的重叠(EP communication overlap with interleaved 1F1B)
    • 通过增加预热微批次的数量,我们可以在标准的交错 IF1B 调度 (2023, 2023) 下将 EP 的 all-to-all 通信与计算重叠
      • 相比之下,DualPipe (2024) 会使参数和梯度的内存需求翻倍,需要通过增加并行度来补偿
      • 增加 PP 会引入更多气泡,而增加 EP(如下所述)会带来更高的开销
      • 这些额外成本对于训练一个拥有超过 1T 参数的大型模型来说过高,因此论文选择不使用 DualPipe
      • 问题:1F1B 调度是什么?
    • 但交错 IF1B 将模型分割为更多阶段,引入了显著的 PP 通信开销
      • 为了缓解这一成本,论文将权重梯度计算从每个微批次的反向传播中解耦,并将其与相应的 PP 通信并行执行
      • 因此,除了预热阶段外,所有 PP 通信都可以有效重叠
  • 更小的 EP 规模(Smaller EP size)
    • 为了确保在 IF1B 阶段实现完全的计算-通信重叠,K2 中减少的注意力计算时间(与 DeepSeek-V3 的 128 头相比,K2 为 64 头)需要最小化 EP 操作的时间
    • 这是通过采用最小的可行 EP 并行化策略(具体为 EP = 16)实现的
    • 使用更小的 EP 组还放宽了专家平衡约束,无需进一步调优即可实现接近最优的速度
Activation Reduction
  • 在保留参数、梯度缓冲区和优化器状态的空间后,每个设备上剩余的 GPU 内存不足以保存完整的 MoE 激活值
  • 为了确保激活内存适应约束条件,特别是对于在 IF1B 预热阶段累积最大激活值的初始流水线阶段,论文采用了以下技术
  • 选择性重计算(Selective recomputation)
    • 重计算应用于成本低但占用空间大的阶段,包括 LayerNorm、SwiGLU 和 MLA 上投影 (2024)
    • 此外,MoE 下投影在训练期间被重计算以进一步减少激活内存(可选的)
      • 这种重计算保持了足够的 GPU 内存,防止了早期训练阶段因专家不平衡导致的崩溃
  • 对不敏感激活值的 FP8 存储(FP8 storage for insensitive activations)
    • MoE 上投影和 SwiGLU 的输入被压缩为 FP8-E4M3,以 1×128 块为单位,并带有 FP32 缩放因子
    • 小规模实验显示没有可测量的损失增加
    • 由于在初步研究中观察到的性能下降风险,论文没有在计算中应用 FP8
  • 激活值 CPU 卸载(Activation CPU offload)
    • 所有剩余的激活值被卸载到 CPU RAM
    • 一个复制引擎负责流式传输卸载和加载,与计算和通信内核重叠
    • 在 IF1B 阶段,论文在预取下一个微批次的反向激活值的同时卸载前一个微批次的前向激活值
    • 预热和冷却阶段的处理方式类似,整体模式如图 7 所示
    • 尽管卸载可能因 PCIe 流量拥塞略微影响 EP 通信,但论文的测试表明 EP 通信仍能完全重叠

Training recipe

  • 论文使用 MuonClip 优化器(算法 2)和 WSD 学习率调度 (2024) 对模型进行了预训练,上下文窗口为 4096 Token,共处理了 15.5T Token
  • 前 10T Token 以恒定学习率 2e-4 训练(500 步预热),随后 5.5T Token 以从 2e-4 到 2e-5 的余弦衰减学习率训练
  • 权重衰减始终设置为 0.1,全局批次大小保持在 67M Token
  • 整体训练曲线如图 3 所示
  • 在预训练接近结束时,论文进行了退火阶段,随后是长上下文激活阶段
    • 批次大小保持在 67M Token,学习率从 2e-5 衰减至 7e-6
    • 在此阶段,模型在 400B Token 上以 4k 序列长度训练,随后在 60B Token 上以 32k 序列长度训练
    • 论文采用了 YaRN 方法 (2023) 将上下文窗口扩展到 128k

Post-training

SFT

  • 在 后训练 阶段,论文采用 Muon 优化器(2015)并推荐将其用于 K2 的微调
    • 这一选择基于论文先前工作(2025)的结论:使用 Muon 预训练的检查点在 Muon 微调下表现最佳
  • 论文构建了一个涵盖多样化领域的大规模指令微调数据集,其设计遵循两大核心原则 :最大化提示多样性(prompt diversity)和确保高质量响应
    • 论文开发了一套针对不同任务领域的数据生成流程,每个流程结合了人工标注、提示工程和验证过程
    • 论文采用 K1.5(2025)和其他内部领域专家模型为各类任务生成候选响应,随后通过 LLM 或人工评审进行自动化质量评估与过滤
    • 对于智能体(agentic)数据,论文创建了一个数据合成流程,通过多步骤交互式推理教授模型工具使用能力
Large-Scale Agentic Data Synthesis for Tool Use Learning
  • 现代 LLM 智能体的一项关键能力是自主使用陌生工具、与外部环境交互,并通过推理、执行和纠错迭代优化其行为
    • 智能体工具使用能力对于解决需要与现实系统动态交互的复杂多步骤任务至关重要
  • 近期基准测试如
    • ACEBench(2025)和 \(\tau\)-bench(2025)强调了全面评估工具使用的重要性
    • ToolLLM(2023)和 ACEBench(2025)等框架展示了让模型有效使用数千种工具的潜力
  • 但大规模训练此类能力面临显著挑战:尽管真实环境提供丰富且真实的交互信号,但由于成本、复杂性、隐私和可访问性限制,通常难以大规模构建
    • 近期合成数据生成的研究(AgentInstruct 2024;Self-Instruct 2022;StableToolBench 2025;ZeroSearch 2025)在不依赖真实交互的情况下创建大规模数据已取得成果
    • 基于这些进展并受 ACEBench(2025)综合数据合成框架的启发,论文开发了一个流程,可大规模模拟真实世界工具使用场景,生成数万种多样且高质量的训练样本
  • 论文的数据合成流程包含三个阶段(如图 8 所示):
    • 第一步:工具规范生成(Tool spec generation) :从真实工具和 LLM 合成工具中构建大型工具库;
    • 第二步:智能体与任务生成(Agent and task generation) :从工具库中采样工具,并为每组工具生成一个使用该工具集的智能体及其对应任务;
    • 第三步:轨迹生成(Trajectory generation) :为每个智能体和任务生成轨迹,其中智能体通过调用工具完成任务
  • 领域演化与工具生成(Domain Evolution and Tool Generation) :论文通过两种互补方法构建全面的工具库
    • 第一步:直接从 GitHub 仓库获取 3000+ 真实 MCP(Model Context Protocol)工具,利用现有高质量工具规范
    • 第二步:通过分层领域生成过程,系统地演化(2025)合成工具:
      • 从关键类别(如金融交易、软件应用、机器人控制)开始
      • 在每个类别内演化多个具体应用领域
      • 随后为每个领域合成专用工具,明确接口、描述和操作语义
      • 此过程生成超过 20,000 种合成工具
    • 图 9 通过 t-SNE 嵌入可视化工具集的多样性,显示 MCP 和合成工具覆盖了工具空间的互补区域
  • 智能体多样化(Agent Diversification)
    • 通过合成多样化系统提示并为智能体配备工具库中的不同工具组合,论文生成数千种独特智能体
    • 这创造了能力、专业领域和行为模式各异的智能体群体,确保广泛覆盖潜在用例
  • 基于准则的任务生成(Rubric-Based Task Generation)
    • 为每种智能体配置生成从简单到复杂操作的任务
    • 每个任务配有明确准则,指定成功标准、预期工具使用模式及评估检查点
    • 这种基于准则的方法确保对智能体性能的一致且客观的评估
  • 多轮次轨迹生成(Multi-turn Trajectory Generation) ,通过以下组件模拟真实工具使用场景:
    • 用户模拟(User Simulation) :LLM 生成的具有不同沟通风格和偏好的用户角色与智能体进行多轮对话,形成自然交互模式;
    • 工具执行环境(Tool Execution Environment) :功能等效于世界模型的复杂工具模拟器执行工具调用并提供真实反馈
      • 模拟器在每次工具执行后维护和更新状态,支持具有持久效果的复杂多步骤交互,并引入受控随机性以产生包括成功、部分失败和边缘情况在内的多样化结果
  • 质量评估与过滤(Quality Evaluation and Filtering)
    • LLM-based 评审员(LLM-based judge)根据任务准则评估每条轨迹
    • 仅保留满足成功标准的轨迹用于训练 ,确保高质量数据的同时允许任务完成策略的自然变化
  • 结合真实执行环境的混合方法(Hybrid Approach with Real Execution Environments)
    • 模拟提供了可扩展性,但模拟保真度(simulation fidelity)仍存在固有局限
    • 论文在真实性至关重要的场景(特别是编码和软件工程任务)中补充真实执行沙盒
      • 这些沙盒执行实际代码,与真实开发环境交互,并通过 test suite 通过率等客观指标提供真实反馈
    • 这种组合确保模型从模拟场景的多样性和真实执行的真实性中学习,显著增强实际智能体能力
    • 结合可扩展模拟与针对性真实执行的混合流程,论文生成多样化、高质量的工具使用演示,平衡了覆盖范围与真实性
    • 合成数据生成的规模化和自动化,加上真实执行环境的 grounding,通过质量过滤流程有效实现了大规模拒绝采样(2022;2025)
    • 这种高质量合成数据用于监督微调时,显著提升了模型在广泛实际应用中的工具使用能力

Reinforcement Learning

  • RL 被认为比 SFT 具有更好的 Token Efficiency 和泛化性
  • 基于 K1.5(2025)的工作,论文在 K2 中继续扩大 RL 的任务多样性和训练 FLOPs
  • 论文开发了一个类似 Gym 的可扩展框架 ,支持跨多种场景的 RL
    • 论文通过大量可验证奖励任务扩展该框架
    • 对于依赖主观偏好(subjective preferences)的任务(如创意写作和开放式问答),引入自评奖励机制(self-critic reward),模型通过成对比较判断自身输出
    • 这种方法使得来自不同领域的任务都能受益于 RL 范式
Verifiable Rewards Gym
  • 数学、STEM 与逻辑任务(Math, STEM and Logical Tasks) :对于数学、STEM 和逻辑推理领域,论文的 RL 数据准备遵循两大原则:多样化覆盖(diverse coverage)和适度难度(moderate difficulty)
    • 多样化覆盖 :对于数学和 STEM 任务,论文结合专家标注、内部 QA 提取流程和公开数据集(2025;2024)收集高质量问答对
      • 在收集过程中,利用标签系统刻意增加低覆盖领域的样本
      • 对于逻辑任务,数据集包含多种格式,包括结构化数据任务(如多跳表格推理、跨表聚合)和逻辑谜题(如 24 点游戏、数独、谜语、密码算术和摩尔斯电码解码)
    • 适度难度 :RL 提示集应既不太简单也不太困难,两者都可能产生较少信号并降低学习效率
      • 论文使用 SFT 模型的 pass@k 准确率评估每个问题的难度 ,仅选择中等难度的问题
  • 复杂指令跟随(Complex Instruction Following) :有效的指令跟随不仅需要理解显式约束 ,还需处理隐式需求、边缘案例和保持长对话一致性。论文通过结合自动化验证与对抗检测的混合验证框架,以及可扩展的课程生成流程应对这些挑战。具体采用双路径系统确保精确性和鲁棒性:
    • 混合规则验证(Hybrid Rule Verification) :实现两种验证机制:
      • (1) 通过代码解释器对可验证输出的指令(如长度、风格约束)进行确定性评估;
      • (2) 对需要细微理解约束的指令使用 LLM 作为评审员
        • 为解决模型可能虚假声称满足指令的对抗行为,额外加入专门检测此类欺骗性声明的 hack-check 层
    • 多源指令生成(Multi-Source Instruction Generation) :采用三种生成策略确保全面覆盖:
      • (1) 数据团队开发的专家编写的复杂条件提示和说明(rubrics);
      • (2) 受 AutoIF(2024)启发的智能体指令增强;
      • (3) 针对生成探测特定故障模式或边缘案例指令的微调模型
      • 这种多管齐下的方法确保指令覆盖的广度和深度
  • 忠实性(Faithfulness) 对于多轮工具使用、自生成推理链和开放环境交互等场景,忠实性至关重要
    • 受 FACTS Grounding(2025)评估框架启发,论文训练了一个句子级忠实性评审模型进行自动化验证
    • 该评审模型能有效检测上下文中无证据支持的 factual claim ,将该评审模型作为奖励模型以提升整体忠实性表现
      • 问题:为什么是上下文中无证据支持的?不应该是有证据支持的才是事实句子吗?
      • 回答:这里应该是表达检测出申明为事实,但实际无证据支撑的(作为负奖励)
  • Coding & Software Engineering
    • Coding :为增强解决竞赛级编程问题的能力,论文从开源数据集(2023;2025)和合成来源收集问题及其评审器(problems and their judges)
      • 为确保合成数据的多样性和奖励信号的正确性,论文整合了从预训练数据中检索的高质量人工编写单元测试
    • Software Engineering :对于软件工程任务,论文从 GitHub 收集大量拉取请求和问题,构建包含用户提示/问题和可执行单元测试的软件开发环境
      • 该环境基于强大的沙盒基础设施,由 Kubernetes 提供可扩展性和安全性支持,可稳定运行 10,000+ 并发沙盒实例,非常适合竞赛编程和软件工程任务
  • 安全性(Safety) :论文通过人工策划的种子提示集开始安全性增强工作,手动设计涵盖暴力、欺诈和歧视等主流风险类别
    • 为模拟复杂越狱尝试(如角色扮演、文学叙事和学术讨论),论文采用包含三个关键组件的自动化提示演化流程:
      • 攻击模型(Attack Model) :迭代生成旨在从目标 LLM 引发不安全响应的对抗提示;
      • 目标模型(Target Model) :生成对这些提示的响应,模拟潜在漏洞;
      • 评审模型(Judge Model) :评估交互以判断对抗提示是否成功绕过安全机制
    • 每次交互使用任务特定准则评估,使评审模型能提供二元成功/失败标签
Beyond Verification: Self-Critique Rubric Reward
  • 为将模型对齐扩展至无可验证奖励的任务,论文引入了一个基于自评反馈的通用强化学习框架
  • 该方法旨在通过将从可验证场景学到的能力扩展至更广泛的主观任务,使 LLM 与人类偏好(如帮助性、创造性、推理深度、事实性和安全性)对齐
  • 框架通过自评准则奖励(Self-Critique Rubric Reward)机制运行,模型通过评估自身输出来生成偏好信号
  • 为引导 K2 成为合格评审员,论文在 SFT 阶段混合开源和内部偏好数据集初始化其评审能力
  • 自评策略优化(Self-Critiqued Policy Optimization)
    • 在学习循环的第一核心过程中
      • K2 Actor 为覆盖广泛用例的通用提示生成响应;
      • K2 Critic 随后通过成对评估结合以下指标对所有结果排序:
        • 核心准则(Appendix. F.1)(代表 Kimi 珍视的 AI 助手核心价值)
        • 规定性准则(Appendix. F.2)(旨在消除奖励黑客行为)
        • 人工标注准则(数据团队为特定指令上下文设计)
    • 尽管某些准则可设为强制,K2 仍保留根据内部先验权衡的灵活性
      • 这种能力确保模型响应在适应特定指令的同时,与其核心身份保持一致
  • 闭环评审优化与对齐(Closed-Loop Critic Refinement and Alignment)
    • 在 RL 训练期间,评审模型通过可验证信号优化:从可验证奖励提示生成的 on-policy rollouts 用于持续更新评审者 ,这一关键步骤将 RLVR 的客观性能信号蒸馏至评估模型中
    • 这种迁移学习过程将其对缺乏显式奖励信号的复杂任务的主观判断 grounded 于可验证数据,使得从可验证任务获得的性能提升能增强评审者对复杂任务的判断力
    • 这一闭环流程确保评审者随策略演化同步重新校准评估标准
    • 通过将主观评估建立在可验证数据上,该框架实现了与(复杂且不可验证的)人类目标对齐 ,而且这个对齐过程是稳健且可扩展的
  • 这种整体对齐在用户意图理解、创意写作、复杂推理和细微语言理解等广泛领域带来全面性能提升

    user intent understanding, creative writing, complex reasoning, and nuanced language comprehension

RL Algorithm
  • 论文采用 K1.5(2025)引入的策略优化算法作为 K2 的基础
  • 对于每个问题 \(x\),论文从旧策略 \(\pi_{\text{old} }\) 采样 \(K\) 个响应 \(\{y_1, \ldots, y_k\}\),并针对以下目标优化模型 \(\pi_\theta\):
    $$
    L_{\text{RL} }(\theta) = \mathbb{E}_{x\sim\mathcal{D} } \left[ \frac{1}{K} \sum_{i=1}^K \left( r(x,y_i) - \bar{r}(x) - \tau \log \frac{\pi_\theta(y_i|x)}{\pi_{\text{old} }(y_i|x)} \right)^2 \right],
    $$
    • \(\bar{r}(x) = \frac{1}{k} \sum_{i=1}^k r(x,y_i)\) 是采样响应的平均奖励
    • \(\tau > 0\) 是促进稳定学习的正则化参数
  • 与 SFT 相同,论文采用 Muon 优化器(2015)最小化该目标
  • K2 中将 RL 训练扩展至更广泛任务领域,并在RL 算法中引入多项改进,目标是实现所有领域实现一致的性能提升
  • 改进一:预算控制(Budget Control)
    • RL 常导致模型生成响应长度大幅增加(2025;2019)
      • 一般来说,更长响应使模型能利用额外测试时计算提升复杂推理任务性能
      • 但在非推理领域,难以证明其推理成本带来的收益
    • 为鼓励模型合理分配推理预算,论文在 RL 训练中强制实施基于任务类型的每样本最大 Token 预算(per-sample maximum token budget)
      • 超出该预算的响应将被截断并受到惩罚,激励模型在指定限制内生成解决方案
      • 实证表明,该方法显著提升模型的 Token Efficiency,鼓励所有领域生成简洁而有效的解决方案
  • 改进二:PTX 损失(PTX Loss)
    • 论文精选包含人工筛选高质量样本的数据集,并通过辅助 PTX 损失(2022)将其整合至 RL 目标
      • PTX Loss 通常指的是把 Pre-Training 的 Loss 加入到 RLHF 阶段,最早提出于 Training language models to follow instructions with human feedback, 2022, OpenAI
      • PTX Loss 用于防止联合 RL 训练期间遗忘有价值的高质量数据
    • 该策略不仅利用高质量数据优势,还缓解对训练机制中显式存在的有限任务集过拟合的风险
    • 这一增强显著提升模型在更广泛领域的泛化能力
  • 温度衰减(Temperature Decay)
    • 对于创意写作和复杂推理等任务,论文发现初始训练阶段通过高采样温度促进探索至关重要
      • 高温允许模型生成多样化和创新性响应,从而促进有效策略的发现并降低过早收敛至次优解的风险
      • 但在训练后期或评估阶段保持高温可能有害,因其引入过多随机性并损害模型输出的可靠性和一致性
    • 论文采用温度衰减计划,在训练过程中从探索逐渐转向利用
      • 该策略确保模型在最有裨益时利用探索,最终收敛于稳定且高质量的输出

RL Infrastructure

Colocated Architecture
  • 与 K1.5(2025)类似,论文为同步 RL 训练采用混合共置架构(hybrid colocated architecture),其中训练和推理引擎位于相同 worker 上
  • 当一个引擎活跃工作时,另一个引擎释放或卸载其 GPU 资源以适配
  • 在每次 RL 训练迭代中,中央控制器首先调用推理引擎生成新训练数据,随后通知训练引擎在新数据上训练,并将更新后的参数发送至推理引擎用于下一迭代
  • 每个引擎均针对吞吐量高度优化。此外,随着模型规模扩展至 K2 级别,引擎切换和故障恢复的延迟变得显著。论文在这些方面的系统设计考量如下
Efficient Engine Switching
  • 在 rollout 期间,训练引擎的参数被卸载至 DRAM。因此启动训练引擎仅是简单的 H2D 传输步骤。然而,启动推理引擎挑战更大,因其需从训练引擎获取采用不同分片范式的更新参数
  • 鉴于 K2 的规模和涉及的大量设备,使用网络文件系统进行重新分片和广播参数不切实际,保持低开销所需的聚合带宽达每秒数 PB。为解决该挑战,论文开发了位于训练节点上的分布式检查点引擎以管理参数状态
    • 执行参数更新时
      • 每个检查点引擎 worker 从训练引擎获取参数的本地副本
      • 随后跨所有检查点引擎 worker 广播完整参数集
      • 接着推理引擎仅从检查点引擎检索所需参数分片
    • 该流程如图 10 所示。为实现 1T 模型的该操作,更新以流水线方式逐参数执行,最小化内存占用(见 Appendix G)
  • 论文选择跨整个集群广播完整参数集,无论各推理 worker 的特定分片方案如何。尽管这比理论最优方法传输多倍数据,但其提供了更简单的系统设计,对训练和推理引擎的侵入性更低。论文选择以这一微小开销为代价,完全解耦训练引擎与推理引擎,显著简化维护和测试
  • 值得注意的是,该方法优于“按需传输”方法,因其降低同步开销并提高网络带宽利用率。论文的系统可在不到 30 秒内完成 Kimi K2 的完整参数更新,对于典型 RL 训练迭代可忽略不计
Efficient System Startup
  • 由于大规模训练易受系统故障影响,对 Kimi K2 等大型模型优化启动时间至关重要
  • 启动训练引擎时,论文让每个训练 worker 选择性地从磁盘读取部分或无参数,并向其对等节点广播必要参数。设计目标是确保所有 worker 集体仅读取检查点一次,最小化昂贵磁盘 IO
  • 由于推理引擎是独立副本,作者希望避免引入额外同步屏障。因此,论文选择重用检查点引擎启动:让检查点引擎集体从磁盘读取检查点,类似训练引擎启动方式。随后使用前一节介绍的方法更新未初始化推理引擎的状态。通过利用专用检查点引擎,系统还对单点故障具有鲁棒性,因为推理副本可无需与其他副本通信而重启
3.3.4 智能体 Rollout(Agentic Rollout)
  • 论文的 RL 基础设施支持长视野、多轮智能体任务的训练。在 rollout 期间,这些任务呈现独特挑战,如复杂环境交互和延长 rollout 持续时间。以下介绍缓解这些问题的优化
  • 由于环境多样性,某些交互可能因等待环境反馈(如虚拟机或代码解释器)而阻塞,导致 GPU 闲置。论文采用两种策略最大化 GPU 利用率:
    • (i) 将重型环境部署为可更易扩展的专用服务;
    • (ii) 使用大量并发 rollouts 分摊某些昂贵交互引发的延迟
  • 智能体 rollout 的另一挑战是单个 rollout 轨迹可能极长
    • 为防止长尾轨迹阻塞整个 rollout 流程,论文采用 部分 rollout(2025)技术(partial rollout technique)
    • 该策略允许暂停未完成的长期任务,并在下一 RL 迭代中恢复
  • 为提高研究效率,论文还设计了受 OpenAI Gym 框架(2025)启发的统一接口,以简化新环境的集成
  • 作者希望未来将 RL 基础设施扩展至更多样化的交互环境

Evaluations

  • 本节首先对 Kimi-K2-Instruct 进行后训练评估,随后简要概述 Kimi-K2-Base 的能力,最后进行全面的安全性评估

Post-training Evaluations

Evaluation Settings
  • Benchmarks :在多个领域评估 Kimi-K2-Instruct 的表现
    • 编码任务(Coding) :采用 LiveCodeBench v6(2024 年 8 月至 2025 年 5 月的题目)、OJBench、MultiPL-E、SWE-bench Verified、TerminalBench、Multi-SWE-bench、SWE-Lancer、PaperBench 和 Aider-Polyglot
    • 工具使用任务(Tool Use Tasks) :评估多轮工具调用能力,重点关注 \(\tau^2\)-Bench 和 ACEBench
    • 推理任务(Reasoning) :涵盖数学、科学和逻辑任务,包括 AIME 2024/2025、MATH-500、HMMT 2025、CNMO 2024、PolyMath-en、ZebraLogic、AutoLogi、GPQA-Diamond、SuperGPQA 和 Humanity’s Last Exam(仅文本)
    • 长上下文能力(Long-context Capabilities) :评估 MRCR4(长上下文检索)、DROP、FRAMES 和 LongBench v2(长上下文推理)
    • 事实性(Factuality) :使用 FACTS Grounding、Vectara Hallucination Leaderboard 和 FaithJudge 评估
    • 通用能力(General Capabilities) :通过 MMLU、MMLU-Redux、MMLU-Pro、IFEval、Multi-Challenge、SimpleQA 和 LiveBench(截至 2024-11-25)评估
  • Baselines :对比了开源和专有前沿模型,确保所有候选模型在非思考模式下评估,以消除测试时计算带来的额外增益
    • 开源基线 :DeepSeek-V3-0324 和 Qwen3-235B-A22B(后者在无思考模式下运行)
    • 专有基线 :Claude Sonnet 4、Claude Opus 4、GPT-4.1 和 Gemini 2.5 Flash Preview(2025-05-20),均通过官方 API 在统一温度和 top-p 设置下调用
  • 评估配置(Evaluation Configurations)
    • 所有模型在非思考模式下运行,输出长度上限为 8192 个 Token(SWE-bench Verified 除外,上限为 16384)
    • 对于高方差基准测试,论文采用重复采样 \(k\) 次并取平均值(记为 Avg@\(k\))
    • 长上下文任务的上下文窗口设置为 128K Token,超出部分截断
Evaluation Results
  • 表 3 展示了 Kimi-K2-Instruct 的综合评估结果,详细解释见附录 C
  • 以下是四个核心领域的重点结果:
  • 代理式与竞技编码(Agentic and Competitive Coding) :Kimi-K2-Instruct 在真实世界软件工程任务中表现优异:
    • SWE-bench Verified:65.8%(单次尝试),71.6%(多次尝试)
    • SWE-bench Multilingual:47.3%
    • SWE-lancer:39.1%
    • 在竞技编码基准测试(如 LiveCodeBench v6 53.7%、OJBench 27.1%)中,Kimi-K2-Instruct 同样领先
  • 代理式工具使用(Agentic Tool Use) :在多轮工具使用基准测试中,Kimi-K2-Instruct 表现卓越:
    • \(\tau^2\)-Bench:66.1 Pass@1
    • ACEBench:76.5
    • 这些结果验证了其在多领域工具调用中的优势
  • 通用能力(General Capabilities) :Kimi-K2-Instruct 在通用知识、数学、指令遵循和长上下文任务中表现均衡:
    • SimpleQA:31.0%
    • MMLU:89.5%
    • MMLU-Redux:92.7%
    • 在数学和 STEM 任务中,其得分同样领先(AIME 2024:69.6%,GPQA-Diamond:75.1%)
  • 开放式评估(Open-Ended Evaluation)
    • 在 LMSYS Arena 排行榜(2025 年 7 月 17 日)中,Kimi-K2-Instruct 以 3000 多张用户投票成为排名第一的开源模型 ,总排名第五

Pre-training Evaluations

Evaluation Settings
  • Benchmarks :评估 Kimi-K2-Base 在多个领域的能力:
    • 通用能力 :MMLU、MMLU-Pro、MMLU-Redux、BBH、TriviaQA、SuperGPQA、SimpleQA、HellaSwag、AGIEval、GPQA-Diamond、ARC-Challenge 和 WinoGrande
    • 编码能力 :EvalPlus(平均 HumanEval、MBPP、HumanEval+ 和 MBPP+)、LiveCodeBench v6 和 CRUXEval
    • 数学推理 :GSM8K、GSM8K-Platinum、MATH 和 CMATH
    • 中文能力 :C-Eval、CMMLU 和 CSimpleQA
  • Baselines :对比的开源基础模型包括 DeepSeek-V3-Base、Qwen2.5-72B-Base 和 Llama 4-Maverick
  • 评估配置(Evaluation Configurations)
    • 基于困惑度的评估:MMLU、MMLU-Redux、GPQA-Diamond、HellaSwag、ARC-Challenge、C-Eval 和 CMMLU
    • 基于生成的评估:MMLU-Pro、SuperGPQA、TriviaQA、BBH、CSimpleQA、MATH、CMATH、GSM8K、GSM8K-Platinum、CRUXEval、LiveCodeBench 和 EvalPlus
Evaluation Results
  • 表 4 展示了 Kimi-K2-Base 与领先开源模型的对比结果:
    • 通用语言理解 :在 12 项英语基准测试中,10 项表现最佳(如 MMLU 87.79%,MMLU-Pro 69.17%)
    • 编码能力 :CRUXEval-I-cot 74.00%,LiveCodeBench v6 26.29%
    • 数学推理 :MATH 70.22%,GSM8K 92.12%
    • 中文理解 :C-Eval 92.50%,CMMLU 90.90%

Safety Evaluation

Experiment Settings
  • 论文对 Kimi K2 与其他开源 LLM 进行了红队评估(red-teaming evaluations)
  • 该评估涵盖了一系列攻击场景,包括有害内容、隐私内容、安全内容,以及不同的攻击策略,如提示注入(prompt injection)和迭代越狱(iterative jailbreak)
  • 论文使用 Promptfoo 生成对抗性提示并分析响应
  • 模型选择(Model Selection) :对比模型包括 Kimi K2、DeepSeek-V3、DeepSeek-R1 和 Qwen3
  • Promptfoo Settings :表 5 列出了所评估的插件(plugins)和策略(strategies),每个插件都与所有策略配对以评估其性能
  • 测试用例数量(Test Case Count) :每个插件策略组合生成 3 条攻击提示,支持双语的情况下生成 6 条
  • 提示语言设置(Prompt Language Settings) :对每个插件-策略组合的语言兼容性进行了预测试
    • 有些插件同时支持英文和中文,而其他插件仅支持英文
    • 对于同时支持两种语言的组合,我们每种语言生成 3 个提示,因此每个组合共生成 6 个提示
  • 人工审核(Manual Review) :通过多轮审核确保评估一致性
Safety Evaluation Results
  • 表 6 展示了不同模型在插件策略组合下的通过率:
    • 有害内容(Harmful) :Kimi-K2-Instruct 在基础策略下通过率 98.04%,迭代越狱策略下 92.16%
    • 犯罪内容(Criminal) :基础策略通过率 100%,迭代越狱策略下 57.57%
    • 错误信息(Misinformation) :基础策略通过率 97.28%
    • 隐私(Privacy) :所有策略通过率均高于 88%
    • 安全(Security) :基础策略通过率 77.84%,迭代越狱策略下 43.90%
  • 自动化红队测试局限性(Automated Red-teaming Limitations)
    • 由于涉及人工审核,结果存在主观性。部分插件类型(如 API 滥用)更适合评估具备工具调用能力的代理模型

Limitations

  • 在内部测试中,论文发现 Kimi K2 存在以下局限性:
    • 处理复杂推理任务或模糊工具定义时 ,可能生成过多 Token ,导致输出截断或不完整工具调用
    • 某些任务中,不必要的工具启用可能导致性能下降
    • 一次性提示构建完整软件项目的成功率低于代理式编码框架

附录 B:Token Template of Tool Calling

  • 工具调用的 Token 结构包含三个部分:

    • 工具声明消息(Tool declaration message) :定义可用工具列表及其参数模式;
    • 助手消息中的工具调用部分(Tool invoking section in assistant message) :编码模型调用工具的请求;
    • 工具结果消息(Tool result message) :封装被调用工具的执行结果
  • 工具声明消息的原始 Token 格式如下:

    1
    2
    3
    4
    5
    6
    <|im_begin|>
    tool_declare
    <|im_middle|>
    # Tools
    { { tool declaration content } }
    <|im_end|>
    • 蓝色高亮标记 { { tool declaration content } } 代表特殊 Token
    • 绿色部分(<|im_begin|> 等)是工具声明内容
  • 论文使用 TypeScript 表达工具声明内容

    • TypeScript 是一种简洁的语言,具有全面的类型系统,能够用简短的文本表达工具参数的类型和约束
    • 代码 1 展示了两个简单工具的 JSON 格式定义(兼容 OpenAI 的聊天补全 API)
    • 代码 2 用 TypeScript 定义了相同的两个工具,看起来更加简短
  • 为提高兼容性,部分训练数据也使用 JSON 作为工具声明语言,以便第三方框架无需额外开发即可支持论文的工具调用方案

  • 代码 1 :OpenAI 兼容 API 中的 JSON 工具定义

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    [{
    "type": "function",
    "function": {
    "name": "get_weather",
    "description": "Get weather for a location and date",
    "parameters": {
    "type": "object",
    "properties": {
    "location": {
    "type": "string",
    "description": "City and country e.g. Beijing, China"
    },
    "date": {
    "type": "string",
    "description": "Date to query, format in '%Y-%m-%d'"
    }
    },
    "required": ["location"]
    }
    }
    },
    {
    "type": "function",
    "function": {
    "name": "Calculator",
    "description": "Simple calculator",
    "parameters": {
    "properties": {
    "expr": {
    "type": "string",
    "description": "Arithmetic expression in javascript"
    }
    },
    "type": "object"
    }
    }
    }]
  • 代码 2 :TypeScript 工具定义

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    namespace functions {
    // Get weather for a location and date
    type get_weather = {
    .: {
    // City and country e.g. Beijing, China
    location: string,
    // Date to query, format in '%Y-%m-%d'
    date?: string
    }) => any;
    // Simple calculator
    type Calculator = {
    .: {
    // Arithmetic expression in javascript
    expr?: string
    }) => any;
    }
  • 模型响应消息中工具调用部分的 Token 模板如下:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    <tool_call_section_begin|>
    <|tool_call_begin|>
    // call_id part
    functions.{ {tool name} }:{ {counter} }
    <|tool_arguments_begin|>
    { { json serialized call arguments } }
    <|tool_call_end|>
    <|tool_call_begin|>
    // more tool calls
    <|tool_call_end|>
    <|tool_call_section_end|>
  • 如模板所示,论文通过将多个工具调用放在单个响应轮次中来支持并行工具调用

  • 每个工具调用具有唯一的调用 ID,格式为 functions.{ {tool name} }:{ {counter} },其中工具名称是工具的名称,计数器是对话中所有工具调用的自增计数器(从 0 开始)

  • 在推理过程中,模型偶尔会生成意外的 Token,导致解析工具调用时出现格式错误

    • 为解决此问题,论文开发了一个名为 enforcer 的约束解码模块,灵感来自 lm-format-enforcer (2023)
    • 当生成 <tool_call_section_begin|> Token 时,它会确保接下来的工具相关 Token 遵循预定义的模板 ,并且 JSON 参数字符串符合声明的模式
  • 工具结果消息是一个简单的文本消息,编码了工具的调用 ID 和相应的结果:

    1
    2
    3
    4
    5
    6
    <im_begin|>
    tool
    <im_middle|>
    ## Results of { {call_id} }
    { { execution result content } }
    <im_end|>

附录 C:Evaluation Details

Coding Tasks

  • 论文在竞争性编码基准 LiveCodeBench 和 OJBench 上评估模型能力
    • Kimi-K2-Instruct 分别以 53.7% 和 27.1% 的分数表现出色
    • 这一优势涵盖了中等难度编码挑战(如 LeetCode 和 AtCoder)以及高难度竞赛(如 NOI 和 ICPC),超越了领先的开源和专有模型
  • 对于多语言编程能力,论文使用 MultiPL-E,涵盖 C++、C#、Java、JavaScript、PHP 和 Go 等语言
    • Kimi-K2-Instruct 以 85.7% 的准确率超越顶级开源模型(DeepSeek-V3-0324 为 83.1%,Qwen3-235B-A22B 为 78.2%)
  • 在软件工程任务中
    • Kimi-K2-Instruct 在 SWE-bench Verified(Python)、SWE-lancer(Python)、SWE-bench Multilingual 和 Multi-SWE-bench 数据集上表现出色
    • 它在解决真实代码仓库问题方面显著优于开源模型,并大幅缩小了与专有模型的性能差距,例如:
      • SWE-bench Verified(多次尝试):71.6%(Kimi-K2-Instruct) vs. 80.2%(Claude 4 Sonnet)
      • SWE-bench Multilingual:47.3%(Kimi-K2-Instruct) vs. 51.0%(Claude 4 Sonnet)
      • SWE-lancer:39.1%(Kimi-K2-Instruct) vs. 40.8%(Claude 4 Sonnet)
  • 在 PaperBench 上
    • Kimi-K2-Instruct 达到 27.8% 的准确率,与 GPT-4.1 接近,并大幅领先 DeepSeek-V3-0324(12.2%)和 Qwen3-235B-A22B(8.2%)
  • 在 TerminalBench 测量的终端交互任务中
    • Kimi-K2-Instruct 使用默认 Terminus 框架达到 25.0%,在 Moonshot 内部代理框架中提升至 30%,突显了其在真实代理编程场景中的能力
  • 在 Aider-Polyglot 基准测试中
    • Kimi-K2-Instruct 在严格去污染程序下达到 60.0% 的准确率,进一步展示了其在不同编码环境中的优势和可靠性

Tool Use Tasks

  • 论文通过两个互补的测试套件评估多轮工具使用能力:\(\tau^{2}\)-Bench 和 ACEBench
    • \(\tau^{2}\)-Bench 将原始 \(\tau\)-bench 的单控制设置扩展为双控制环境,其中代理和模拟用户的 LLM 在共享状态上具有受限的工具能力,新增了 Telecom 故障排除领域,并支持协调与纯推理的分析
    • ACEBench 是一个大型双语(英/中)API 基准测试(跨 8 个领域的 4.5K API;2K 标注评估项),分为 NORMAL(基础/个性化/原子)、SPECIAL(不完美或超出范围的输入)和 AGENT(场景驱动的多轮、多步骤沙盒)赛道,支持调用和结果的自动评分
  • 实验配置:
    • 所有模型以非思考模式运行;
    • 设置温度为 0.0,使用确定性工具适配器,在 4 次种子下评分 \(\tau^{2}\) Airline/Retail/Telecom 的 Pass@1/4,并报告 ACEBench 英语的总体结果
  • 结果:
    • 在 \(\tau^{2}\) 上,Kimi-K2-Instruct 平均达到 66.1% 的微 Pass@1(DeepSeek-V3-0324 为 48.8%,Qwen3-235B-A22B 为 37.3%)
    • 在 ACEBench Overall 中,Kimi-K2-Instruct 得分为 76.5,DeepSeek 为 72.7,Qwen 为 70.5,与 GPT-4.1(80.1)保持竞争

Math & STEM & Logical Tasks

  • 在数学任务中,Kimi-K2-Instruct 表现稳定,平均超过 Geimini-2.5-Flash 5.3 个百分点,超过 DeepSeek-V3-0324 5.5 个百分点,超过 GPT4.1 15.8 个百分点,例如:
    • 在 AIME 2024 上,Kimi-K2-Instruct 得分为 69.6%,大幅领先其他两个顶级开源模型(DeepSeek-V3-0324 高 10.2 分,Qwen3-235B-A22B 高 29.5 分)
    • 在 STEM 评估中,Kimi-K2-Instruct 在 GPQA-Diamond 上达到 75.1%,领先 DeepSeek-V3-0324(68.4%)和其他非思考基线至少 5 个百分点
    • 在 SuperGPQA 上,它也超过之前最佳开源模型 DeepSeek-V3-0324 3.5 分。Kimi-K2-Instruct 在逻辑推理上也优于其他两个领先模型,在 ZebralLogic 上达到 89.0%,在 AutoLogi 上达到 89.5%,显著超过 Qwen3-235B-A22B(37.7%,83.3%)

General Tasks

  • Kimi-K2-Instruct 在 MMLU 和 MMLU-Pro 上与 DeepSeek-V3-0324 持平,在 MMLU-Redux 上以 92.7 EM 分数领先——略高于 GPT-4.1(92.4),仅落后 Claude-Opus-4 1.5 分
  • 在简答题 SimpleQA 上,Kimi-K2-Instruct 达到 31.0% 的准确率,比 DeepSeek-V3-0324 高 3.3 分,是 Qwen3-235B-A22B 的两倍多,但仍低于 GPT-4.1(42.3%)
  • 在对抗性自由回答 LiveBench(2024-11-25 快照)中,它达到 76.4%,超过 Claude-Sonnet 4(74.8%),领先 Gemini 2.5 Flash Preview 8.6 分。在这一衡量世界知识广度、深度和鲁棒性的挑战性三项中,Kimi-K2-Instruct 稳居开源模型前列
  • 论文通过 IFEval 和 Multi-Challenge 评估指令遵循能力
    • 在 IFEval 上,Kimi-K2-Instruct 得分为 89.8%,高于 DeepSeek-V3-0324(81.1%)和 GPT-4.1(88.0%)
    • 在 Multi-Challenge 上(涉及多轮冲突指令对话),它达到 54.1%,优于 DeepSeek-V3-0324(31.4%)、GPT-4.1(36.4%)和 Claude-Opus-4(49.0%)
  • 这些结果表明,Kimi-K2-Instruct 将强大的事实知识与单轮和多轮场景下一致的指令遵循相结合,支持稳健可靠的现实部署

Long Context and Factuality Tasks

  • 为评估 Kimi-K2-Instruct 的事实性,论文使用三个基准:FACTS Grounding(通过专有模型 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 衡量对提供文档的遵循)、HHEM(通过开源 HHEM-2.1-Open 评估器评估摘要质量)和 FaithJudge(以 o3-mini 为评估器分析 RAG 任务中的忠实性)
    • 在 FACTS Grounding 上,Kimi-K2-Instruct 得分为 88.5,大幅超越所有开源竞争对手,甚至超过闭源 Gemini 2.5 Flash
    • 在 HHEM-2.1-Open 上,Kimi-K2-Instruct 幻觉率为 1.1%(表中报告为 1 减幻觉率,即 98.9)
    • 在 FaithJudge 的 RAG 任务中,Kimi-K2-Instruct 幻觉率为 7.4%(表中为 92.6)
  • 在长上下文能力任务 DROP 上,Kimi-K2-Instruct(93.5%)优于所有开源和专有模型
  • 在检索任务 MRCR(55.0% vs. 50.8%)上超过 DeepSeek-V3-0324
  • 对于长上下文推理任务 FRAMES 和 LongBench v2,Kimi-K2-Instruct(77.1%,49.1%)略低于 DeepSeek-V3-0324 约 2%

Open-Ended Evaluation

  • 除静态封闭式基准外,论文还评估模型在更贴近真实使用的开放式、细致任务上的表现
  • 对于英语场景,论文利用 Arena-Hard-Auto v2.0 基准,通过 LLM 作为评估器的协议评估多样化开放式提示的生成质量 (2024)
    • 这些评估涵盖高难度提示,在研究社区中广受认可
    • 在 Arena-Hard-Auto v2.0 上,Kimi-K2-Instruct 在硬提示(54.5%)和创意写作任务(85.0%)上均达到最优胜率,超越所有开源模型,并与 GPT-4.1 和 Claude Sonnet 等顶级专有系统匹敌
    • 这些结果突显了模型在复杂推理和多样化无约束场景下的细致生成能力
  • Arena-Hard-Auto 对中文特定任务的覆盖有限
    • 为此,论文开发了一个基于真实用户 Query 的内部保留基准
    • 为保障评估完整性,基准数据受访问限制,杜绝过拟合风险
    • 如图 11 所示,Kimi-K2-Instruct 在中文内部基准的所有比较中表现强劲:
      • 以 65.4% 胜率超过 ChatGPT-4o-latest,64.6% 胜率超过 Claude Sonnet 4,59.6% 胜率超过 DeepSeek-V3-0324
      • 所有情况下败率均较低(约 17%),表明 Kimi-K2-Instruct 极少落后
      • 高胜率和稳定优势展示了其在开放式中文任务上的强大能力
  • 除受控评估外,论文还通过公众人类评估考虑真实用户偏好
    • 截至 2025 年 7 月 17 日,基于 3000 多份真实用户的盲投,Kimi-K2-Instruct 在 LMSYS Arena 排行榜上位列开源模型第一、总榜第五
    • 该排行榜反映了用户提交的多样化提示上的直接人类偏好,为实际模型性能提供了补充视角
  • Arena-Hard-Auto、内部基准和 LMSYS Arena 投票的结果共同展示了 Kimi-K2-Instruct 在开放式能力上的全面表现,证明其是英中双语真实用户体验中备受青睐的模型

附录 D:Appendix D: QK-Clip Does Not Impair Model Quality(QK-Clip 不会损害模型质量)

  • QK-Clip 设计遵循最小干预原则 :仅在必要时激活,训练稳定后自动停用
  • 实证证据和分析均表明 QK-Clip 对模型质量的影响可忽略不计

Small-Scale Ablations

  • 论文训练了两个小规模 MoE 模型(激活参数 0.5B,总参数 3B),一个使用原始 Muon,另一个使用 MuonClip(低裁剪阈值 \(\tau=30\))
  • 如图 12 所示,应用 MuonClip 对损失曲线影响极小,表明即使激进裁剪也不会损害收敛或训练动态
    • 下游任务评估也未显示性能退化
  • 这些结果共同证明 MuonClip 是一种安全有效的方法,可在不牺牲模型质量的前提下约束注意力对数

Self-deactivation

  • 在 Kimi K2 中,QK-Clip 仅短暂激活:
    • 初始 70000 步 :12.7% 的注意力头至少触发一次 QK-Clip,将 \(S_{\max}\) 限制为 100
    • 70000 步后 :所有头的 \(S_{\max}\) 均降至 100 以下,QK-Clip 完全停用
  • QK-Clip 激活时按头(而非按层)应用,以最小化对其他头的潜在过正则化。训练稳定后,QK-Clip 完全失效

附录 E:Why Muon is More Prone to Logit Explosion(为什么 Muon 更容易出现对数爆炸)

  • 对数爆炸发生在训练期间最大预 softmax 注意力分数无界增长时:
    $$ S_{\max} = \max_{i,j}(q_{i} \cdot k_{j}) $$
  • 由于
    $$ |q_{i} \cdot k_{j}| \leq |q_{i}||k_{j}| \leq |x_{i}||x_{j}||\mathbf{W}_{q}||\mathbf{W}_{k}|, $$
  • 且
    • RMS-Norm 保持 \(|x_{i}||x_{j}|\) 有界,该现象主要由 \(\mathbf{W}_{q}\) 或 \(\mathbf{W}_{k}\) 的谱范数增长驱动
  • 实证发现 Muon 更易出现对数爆炸,假设如下:
  • 更新结构差异(Structural difference in updates)
    • Muon 的权重更新来自 msign 操作,其更新矩阵的所有奇异值均相同——有效秩为满秩。而 Adam 的典型更新矩阵呈现偏斜谱:少数大奇异值主导,有效秩较低。这一低秩假设并非新发现,高阶 mulP 同样基于此
    • 在 16B Moonlight 模型上验证,Muon 训练的权重比 Adam 具有更高的奇异值熵(即更高有效秩),支持理论直觉
  • SVD 公式化(SVD formulation)
    • 设步骤 \(t-1\) 的参数矩阵奇异值分解为
      $$ \mathbf{W}_{t-1} = \sum_{i}\sigma_{i} u_{i}v_{i}^{\top} $$
    • 更新矩阵写作
      $$ \Delta\mathbf{W}_{t} = \sum_{j}\bar{\sigma} \bar{u}_{j}\bar{v}_{j}^{\top} $$
    • 则下一步参数更新为
      $$ \mathbf{W}_{t} \leftarrow \sum_{i}\sigma_{i}u_{i}v_{i}^{\top} + \sum_{j}\bar{\sigma} \bar{u}_{j}\bar{v}_{j}^{\top} $$
    • Muon 中权重和更新的有效秩均高于 Adam,假设奇异向量对 \(u_{i}v_{i}^{\top}\) 与 \(\bar{u}_{j}\bar{v}_{j}^{\top}\) 对齐概率更高,可能导致 \(\mathbf{W}_{t}\) 对应奇异值加性增长
  • 注意力特异性放大(Attention-specific amplification)
    • 注意力对数通过双线性形式计算
      $$ q_{t} \cdot k_{j} = (x_{i}\mathbf{W}_{q}) \cdot (x_{j}\mathbf{W}_{k}). $$
    • 乘积 \(\mathbf{W}_{q}\mathbf{W}_{k}^{\top}\) 将谱范数平方化,因此任一矩阵的奇异值增长会被复合放大
    • Muon 增大奇异值的倾向从而转化为更高的对数爆炸风险

附录 F:K2 Critic Rubrics for General RL

Core Rubrics

  • 清晰性与相关性(Clarity and Relevance) :评估响应是否简洁且完全符合用户意图
    • 重点是消除不必要的细节,保持与核心问题的一致性,并使用高效的格式(如简短段落或紧凑列表)
    • 除非特别要求,否则应避免冗长的列举
    • 当需要选择时,响应应明确提供单一、清晰的答案
  • 对话流畅性与参与度(Conversational Fluency and Engagement) :评估响应是否促进自然流畅的对话,超越简单的问答
    • 包括保持连贯性、展现对话题的适当参与、提供相关见解或观察、在适当时引导对话、谨慎使用后续问题、优雅处理假设或个人类比 Query ,以及有效调整语气以适应对话上下文(如共情、正式或随意)
  • 客观与 grounded 互动(Objective and Grounded Interaction) :评估响应是否保持客观和 grounded 的语气,专注于用户请求的实质内容
    • 重点避免元评论(分析 Query 结构、主题组合、感知的异常或互动本身的性质)以及对用户或输入的不必要赞美
    • 优秀响应应尊重但中立,优先提供直接、任务导向的帮助,而非评论对话动态或通过赞美讨好用户
    • 注:这里的 grounded 翻译为 有根据的 或 有充分理由的 更合适?

Prescriptive Rubrics

  • 初始赞美(Initial Praise) :响应不得以对用户或问题的赞美开头(例如“这是个很棒的问题”“问得好!”)
  • 显式理由(Explicit Justification) :显示理由包括任何解释响应为什么优秀或如何成功满足用户请求的句子或从句(这与单纯描述内容不同)

Limitations

  • 该评估框架的一个潜在副作用是,它可能偏向于在涉及模糊性或主观性的上下文中仍表现出自信和果断的响应。这源于当前准则的两项关键限制:
    • 避免自我修饰(Avoidance of Self-Qualification) :
      • 规范性准则禁止自我评估、显式免责声明或模糊语言(例如“这可能不准确”“我可能错了”)
      • 尽管这些短语可能反映认知谦逊,但它们通常被视为非信息性或表演性而被惩罚
    • 偏好清晰与单一性(Preference for Clarity and Singularity) :
      • 准则奖励在用户要求推荐或解释时提供直接、明确的答案
      • 在复杂或开放式场景中,这可能会抑制适当谨慎或多视角的响应
  • 因此,模型可能偶尔在需要模糊性、细微差别或认知谦逊的场景中过度表达确定性
  • 未来框架迭代可能会纳入更精细的校准不确定性处理机制

附录 G:Engine Switching Pipeline for RL Training

  • 检查点引擎(checkpoint engine) :在每个 GPU 上管理三个等大小的设备缓冲区:
    • 一个用于加载卸载模型参数的 H2D 缓冲区
    • 两个用于 GPU 间广播的 IPC 缓冲区
    • IPC 缓冲区与推理引擎共享,允许其直接访问相同的物理内存
    • 这三个缓冲区使论文能够将三个步骤安排为流水线
  • 理论上的三阶段流水线(Theoretical three-stage pipeline) :如图 13a 所示,引入了一个三阶段流水线:
    • 1)H2D :将最新权重的一个分片异步复制到 H2D 缓冲区
    • 2)广播(Broadcast) :复制完成后,该分片将被复制到一个 IPC 缓冲区并广播到所有设备
    • 3)重载(Reload) :推理引擎同时从另一个 IPC 缓冲区加载参数
  • 由于 PCIe 饱和的两阶段流水线(Two-stage pipeline due to PCIe saturation) :
    • 在 NVIDIA H800 集群上,并发的 H2D 和广播会饱和共享的 PCIe 结构,将三阶段流程压缩为顺序过程(图 13b)。因此,论文采用更简单的两阶段方案(图 13c):
      • 1)所有设备执行一次同步的 H2D 传输
      • 2)广播和重载并行进行
  • 两阶段流水线会受到多次同步 H2D 复制操作的限制
    • 但在大规模设备中,模型会被分割为小分片,整个参数集可通过一次传输装入 H2D 缓冲区,此时开销将消失
  • 通过重叠 H2D、广播和重载权重,我们可以实现从训练引擎到所有推理引擎的高带宽权重分片重分配

附录:Kimi-K2-Thinking

  • Kimi-K2-Thinking 于 20251106 晚间开源发布
  • 截止到 20251107,Kimi-K2-Thinking 仅发布了模型权重和 博客,没有技术报告
  • HuggingFace:huggingface.co/moonshotai/Kimi-K2-Thinking
  • 技术博客:Introducing Kimi K2 Thinking, 20251106
  • 核心特点:
    • 各项指标都非常高,甚至可以跟闭源模型比较(比较的基线都是 GPT-5,Claude Sonnet 4.5(Thinking),DeepSeek-V3.2 和 Grok-4 等)
    • 为了加速训练,训练时使用了 INT4 量化,Quantization-Aware Training (QAT)
      • 这缓解了 Thinking 模型输出长,量化后模型效果容易降低的问题
    • 博客中给了许多让人眼前一亮的示例
  • 整体指标情况
    Benchmark Intro K2 Thinking (K2 0905) GPT-5 Claude Sonnet 4.5 DeepSeek-V3.2 Grok-4
    Reasoning Tasks
    HLE(Text-only)-no tools 23.9 26.3 19.8* 7.9 19.8 25.4
    HLE(Text-only)-w/ tools 44.9 41.7 32.0* 21.7 20.3* 41.0
    HLE(Text-only)-heavy 51.0 42.0 — — — 50.7
    AIME 2025-no tools 94.5 94.6 87.0 51.0 89.3 91.7
    AIME 2025-w/ python 99.1 99.6 100.0 75.2 58.1* 98.8
    AIME 2025 - heavy 100.0 100.0 — — — 100.0
    HMMT 2025-no tools 89.4 93.3 74.6* 38.8 83.6 90.0
    HMMT 2025-w/ python 95.1 96.7 88.8* 70.4 49.5* 93.9
    HMMT 2025 - heavy 97.5 100.0 — — — 96.7
    IMO-AnswerBench-no tools 78.6 76.0* 65.9* 45.8 76.0* 73.1
    GPQA-Diamond-no tools 84.5 85.7 83.4 74.2 79.9 87.5
    General Tasks
    MMLU-Pro-no tools 84.6 87.1 87.5 81.9 85.0 —
    MMLU-Redux-no tools 94.4 95.3 95.6 92.7 93.7 —
    Longform Writing-no tools 73.8 71.4 79.8 62.8 72.5 —
    HealthBench-no tools 58.0 67.2 44.2 43.8 46.9 —
    Agentic Search Tasks
    BrowseComp-w/ tools 60.2 54.9 24.1 7.4 40.1 —
    BrowseComp-ZH-w/ tools 62.3 63.0* 42.4* 22.2 47.9 —
    Seal-0-w/ tools 56.3 51.4* 53.4* 25.2 38.5* —
    FinSearchComp-T3-w/ tools 47.4 48.5* 44.0* 10.4 27.0* —
    Frames-w/ tools 87.0 86.0* 85.0* 58.1 80.2* —
    Coding Tasks
    SWE-bench Verified-w/ tools 71.3 74.9 77.2 69.2 67.8 —
    SWE-bench Multilingual-w/ tools 61.1 55.3* 68.0 55.9 57.9 —
    Multi-SWE-bench-w/ tools 41.9 39.3* 44.3 33.5 30.6 —
    SciCode-no tools 44.8 42.9 44.7 30.7 37.7 —
    LiveCodeBench v6-no tools 83.1 87.0* 64.0* 56.1* 74.1 —
    OJ-Bench(cpp)-no tools 48.7 56.2* 30.4* 25.5* 38.2* —
    Terminal-Bench-w/ simulated tools (JSON) 47.1 43.8 51.0 44.5 37.7 —

附录:关于 heavy 模式

  • 原文:

    Heavy Mode​: K2 Thinking Heavy Mode employs an efficient parallel strategy: it first rolls out eight trajectories simultaneously, then reflectively aggregates all outputs to generate the final result. Heavy mode for GPT-5 denotes the official GPT-5 Pro score.

  • 说明:Heavy Mode 是一种通用的提升模型推理能力的方法,其方式为:
    • 第一步:并行采样多个 Trajectories
    • 第二步:结合第一步生成的结果放入模型,让模型解决问题
  • 这种方式也称为 Deep Thinking 模式,在一些场合下 Deep Thinking 模式 等价于 Heavy Mode
    • Heavy Mode:强调资源消耗和计算强度(Heavy=重型/高负载)
    • Deep Thinking/Deep Think:强调思维深度和推理过程

NLP——技术报告解读-GLM-4.5

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, Zhipu AI & Tsinghua University, 20250808
    • GitHub 地址:github.com/zai-org/GLM-4.5
    • 开源 RL 框架:Slime

Paper Summary

  • 论文介绍并开源了 GLM-4.5 系列模型,包括 GLM-4.5 和 GLM-4.5-Air
    • 两个模型均采用了 MoE 架构,与之前的 GLM 模型(之前的 GLM 都是 Dense 模型)相比,提高了计算效率
    • GLM-4.5 在推理 (Reasoning)、编码 (Coding) 和智能体 (Agentic) 任务上表现出色,在全球开源和专有模型中综合排名第 3 位
    • GLM-4.5 是一个开源的 MoE 大语言模型(355B-A32B)
      • 支持思维(thinking)和直接响应(direct response)两种模式的混合推理方法
  • 在 23T token 上进行多阶段训练,并结合专家模型迭代和强化学习进行全面后训练
  • GLM-4.5 在智能体(Agentic)、推理(Reasoning)和编码(Coding)(ARC)任务上均表现出色
    • 在 TAU-Bench 上得分 70.1%
    • 在 AIME 24 上得分 91.0%
    • 在 SWE-bench Verified 上得分 64.2%
  • 与其他模型相比,GLM-4.5 的参数量少得多 ,但在所有评估模型中总体排名第 3 ,在智能体基准测试中排名第 2
  • 论文同时发布了 GLM-4.5(355B 参数)和一个 compact version GLM-4.5-Air(106B 参数)

Introduction and Discussion

  • LLM 正迅速从通用知识库 (2020; 2023; 2024) 演变为通用问题解决者
  • LLM 的终极目标通常与人工通用智能(Artificial General Intelligence, AGI)相关联,是创造在多个领域具有人类水平认知能力的模型
    • 这需要统一掌握复杂问题解决、泛化和自我改进的能力,超越特定任务的卓越性
  • LLMs 越来越融入现实世界场景,提高实际生产力和解决复杂专业任务的关键在于发展特定的核心能力
  • 论文确定了三个关键且相互关联的能力,作为衡量真正通用模型的标准,即(Agentic, Reasoning, and Coding,简称 ARC):
    • 用于与外部工具和现实世界交互的 智能体(Agentic) 能力;
    • 用于解决数学和科学等领域多步问题的复杂 推理(Reasoning) 能力;
    • 用于处理现实世界软件工程任务的高级 编码(Coding) 技能
  • 像 OpenAI 的 o1/o3 (2024) 和 Anthropic 的 Claude Sonnet 4 这样的最先进专有模型在特定的 ARC 领域(例如,数学推理或代码修复 (2023))中展示了突破性的性能
    • 在以上三个领域都表现出色的、强大的单一开源模型仍然难以实现
    • 吐槽:ARC 是 AI2 Reasoning Challenge 数据集的常用简称,这里智谱还用 ARC 来代指其他名词不太合适!
  • 论文介绍了两个新模型:GLM-4.5 和 GLM-4.5-Air,旨在统一所有不同的能力
    • 新模型在各个方面都优于现有的开源 LLM 模型,在智能体、推理和编码任务上取得了显著提升
    • GLM-4.5 和 GLM-4.5-Air 都具有混合推理模式:
      • 用于复杂推理和智能体任务的思维模式(thinking mode),以及用于即时响应的非思维模式(non-thinking mode)
  • GLM-4.5 是 智谱 AI 的(GLM 系列)的第一个 MoE 模型,总参数量为 355B,激活参数量为 32B
  • GLM-4.5 在以下 ARC 基准测试中表现出强大的性能:
    • 智能体(Agentic):
      • GLM-4.5 在 TAU-Bench 上得分 70.1%,在 BFCL v3 (2025) 上得分 77.8%,与 Claude Sonnet 4 相当
      • 对于网页浏览智能体,GLM-4.5 在 BrowseComp (2025) 上得分 26.4%,明显优于 Claude Opus 4(18.8%),并接近 o4-mini-high(28.3%)
    • 推理(Reasoning):
      • GLM-4.5 在一系列具有挑战性的推理基准测试中表现出色,在 AIME 24 上达到 91.0%,在 GPQA (2024) 上达到 79.1%,在 LiveCodeBench (2407-2501) (2024) 上达到 72.9%,在 HLE(Humanity’s Last Exam)(2025) 上达到 14.4%
    • 编码(Coding):
      • GLM-4.5 在 SWE-bench Verified (2023) 上得分 64.2%,在 Terminal-Bench (2025) 上得分 37.5%,优于 GPT-4.1 和 Gemini-2.5-pro,接近 Claude Sonnet 4
  • GLM-4.5-Air 是一个较小的 MoE 模型,参数量为 106B
    • GLM-4.5-Air 在 100B 规模的模型中实现了显著飞跃,匹配或超越了 Qwen3-235B-A22B (2025) 和 MiniMax-M1 (2025)
  • 在图 1 中,论文展示了在智能体、推理和编码(ARC)任务的 12 个基准测试上的平均性能
    • 总体而言,GLM-4.5 排名第 3 ,GLM-4.5-Air 排名第 6
    • 在智能体任务上,GLM-4.5 排名第 2,仅次于 OpenAI o3
    • 在编码任务上,GLM-4.5 排名第 3,接近 Claude Sonnet 4
    • 特别说明:GLM-4.5 具有很高的参数效率,其参数量仅为 DeepSeek-R1 (2025) 的一半,Kimi K2 (2025) 的三分之一
  • 在图 2 中,论文报告了不同开源模型在 SWE-bench Verified 上的得分与模型参数量的关系
    • 其中 GLM-4.5 和 GLM-4.5-Air 位于帕累托前沿(Pareto Frontier)
  • 更多评估结果详见第 4 节
  • GLM-4.5 和 GLM-4.5-Air 的获取渠道
    • 可在 Z.ai、BigModel.cn 上获取
    • 也可在 huggingface.co/zai-org/GLM-4.5 上作为开源模型获取
    • 论文还可在 github.com/zai-org/glm-simple-evals 开源了一个评估工具包 ,以确保论文基准测试结果的可复现性

Pre-Training

Architecture

  • GLM-4.5 系列采用了 混合专家(Mixture-of-Experts, MoE)架构 ,这提高了训练和推理的计算效率
  • 论文为 MoE 层采用了 无损失平衡路由(loss-free balance routing) (2024) 和 sigmoid gates (2024)
  • 与 DeepSeek-V3 (2024) 和 Kimi K2 (K 2025) 不同,论文减小了模型的宽度(隐藏维度和路由专家数量)并增加了其高度(层数),因为论文发现更深的模型表现出更好的推理能力
  • 论文采用了 分组查询注意力(Grouped-Query Attention, GQA)并辅以 partial RoPE
  • 论文使用了 2.5 倍多的注意力头(对于 5120 的隐藏维度使用 96 个头)
    • 这与直觉相反,虽然增加头数相比头数较少的模型并不能改善训练损失,但它持续改善了在 MMLU 和 BBH 等推理基准测试上的性能
    • 论文还加入了 QK 归一化(QK-Norm)(2020) 来稳定 Attention logits 的范围
    • 问题:注意力头的倍数一般都是按照模型层数为基础来计算的吧,即 2 倍头表示头数是层数的 2 倍(详情可见 Kimi K2)
  • 对于 GLM-4.5 和 GLM-4.5-Air,论文都添加了一个 MoE 层作为 多 Token 预测(Multi-Token Prediction, MTP)层 (2024) 以在推理过程中支持 推测解码(Speculative Decoding)

Pre-Training Data

  • GLM-4.5 的预训练语料库包含来自网页、社交媒体、书籍、论文和代码仓库的文档
  • 论文为不同来源精心设计了数据处理流程
Web
  • 论文预训练文档的大部分是从互联网爬取的英文和中文网页
  • 受 Nemotron-CC (2024) 的启发
    • 论文将爬取的网页按不同质量分数分桶(buckets)
    • 论文对来自具有更高质量分数桶的文档进行上采样(up-sample),并丢弃来自具有最低质量分数桶的文档
    • 具有最高质量分数的桶在预训练期间贡献了超过 3.2 个 epochs
  • 通过这种方式,预训练语料库可以强调用于推理任务的高频知识,同时也提高了对长尾世界知识(long-tail world knowledge)的覆盖度
  • 论文还发现了大量由模板自动生成并被分配了高分的相似网页
    • 这类网页无法通过 MinHash 去重(MinHash deduplication)移除
    • 论文额外应用了 SemDedup (2023) 流程,基于文档嵌入(document embeddings)来移除那些相似的网页
Multilingual
  • 为了支持更多自然语言,论文在预训练语料库中包含了多语言文档
  • 多语言语料库来自论文爬取的网页和 Fineweb-2 (2025)
  • 论文应用了一个质量分类器来判断文档的教育效用(educational utility),并对高质量的多语言文档进行上采样
Code
  • 论文从 GitHub 和各种代码托管平台筛选了源代码数据
    • 代码语料库经过初步的基于规则的过滤,然后使用特定语言的质量模型进行分类,将样本分为三个等级:高质量、中等质量和低质量
    • 在训练期间,论文对高质量代码进行上采样,同时排除低质量样本
  • 论文对所有源代码数据应用了 中间填充(Fill-In-the-Middle)(2022) 训练目标
  • 对于与代码相关的网络文档,论文采用了从文本预训练语料库中进行两阶段检索的过程
    • 最初,根据两个标准进行选择:存在 HTML 代码标签,或者由训练用于检测代码相关内容的 FastText (2017) 分类器识别
    • 随后,检索到的文档使用专用模型进行质量评估,该模型将它们分为高、中、低质量类别,遵循与源代码相同的基于质量的采样策略
    • 最后,采用细粒度解析器(fine-grained parser)重新解析选定的网页,以更好地保留代码的格式和内容
Math & Science
  • 为了增强推理能力,论文从网页、书籍和论文中收集了与数学和科学相关的文档
  • 论文应用一个大语言模型根据关于数学和科学的教育内容比例对候选文档进行评分,并训练一个小型分类器来预测这些分数
    • 预训练语料库中分数高于某个阈值的文档会被上采样
  • GLM-4.5 的预训练过程分为两个阶段
    • 在第一阶段,模型主要在来自网页的通用文档上进行训练
    • 在第二阶段,论文对来自 GitHub 的源代码以及与编码、数学和科学相关的网页进行上采样

Mid-Training: Boost Reasoning & Agentic Capacity

  • 预训练之后,论文增加了几个阶段来进一步提升模型在重要应用领域的性能
  • 与传统的在大规模通用文档上进行预训练不同,这些训练阶段利用中等规模的领域特定数据集,包括指令数据
  • 论文将这些训练阶段称为 中期训练(mid-training)
  • 中期训练包括以下内容
    • 仓库级代码训练(Repo-level Code Training)
      • 在这个训练阶段,论文添加来自同一代码仓库(repository)的串联代码文件,以学习跨文件依赖(cross-file dependency)
      • 为了提高模型的软件工程能力,论文还包括了模型筛选过的来自 GitHub 的议题(issues)、拉取请求(pull requests, PRs)和提交(commits),将相关的议题、PRs 和提交串联到一个上下文中,并以类似 diff 的格式组织提交
      • 论文将训练序列长度从 4K 扩展到 32K,以容纳大型代码仓库
    • 合成推理数据训练(Synthetic Reasoning Data Training)
      • 在这个阶段,论文为数学、科学和编程竞赛添加合成推理内容
      • 论文从网页和书籍中收集了大量与推理任务相关的问题和答案,并使用推理模型合成了推理过程
    • 长上下文与智能体训练(Long-context & Agent Training)
      • 为了进一步提升模型的长上下文性能,论文将训练序列长度从 32K 扩展到 128K,并对预训练语料库中的长文档进行上采样
      • 大规模合成的智能体轨迹(agent trajectories)也在此阶段加入
  • 在图 3 中,论文展示了预训练和中期训练的完整阶段
    • 最大序列长度在预训练期间保持在 4,096
    • 在中期训练期间从 32,768 扩展到 131,072
    • 在预训练期间,论文没有使用 best-fit packing (2024),因为随机截断(random truncation)对于预训练文档来说是一种很好的数据增强策略
    • 对于中期训练中的数据集,论文应用了最佳适配打包,以避免截断推理过程或仓库级代码

Hyper-Parameters

  • 优化器方面:
    • 论文对除词嵌入(word embedding)、偏置(bias)和 RMSNorm 权重之外的所有参数使用了 Muon 优化器 (2024; 2025)
    • 论文观察到 Muon 优化器可以加速收敛并容忍更大的批次大小
  • 对于超参数
    • Newton-Schulz 迭代步数 \(N\) 设为 5
    • 动量(momentum)\(\mu\) 设为 0.95
    • 将 Muon 的更新 RMS 缩放为 0.2
  • 学习率调度:
    • 论文使用 余弦衰减调度(cosine decay schedule)来调整学习率,而不是 预热-稳定-衰减(warmup-stable-decay, WSD)调度 (2025)
    • 论文早期的实验表明,使用 WSD 调度训练的模型在通用基准测试(SimpleQA, MMLU)上表现更差,表明在稳定阶段存在欠拟合(underfitting)
    • 学习率经历了从 0 到 2.5e-4 的预热阶段和衰减到 2.5e-5 的阶段,直到中期训练结束
  • 论文使用了批次大小预热策略(batch size warmup strategy)
    • 在训练前 500B 个 Token 的过程中,批次大小从 16M 个 Token 逐渐增加到 64M 个 Token,并在剩余的训练中保持恒定
  • 对于正则化(regularization)
    • 论文将权重衰减比率(weight decay ratio)设置为 0.1,并且没有使用 dropout
  • 论文在预训练期间将最大序列长度设置为 4,096,并在中期训练阶段将其扩展到 32,768 和 131,072,如图 3 所示
  • 当将序列长度扩展到 32K 时,论文还将 RoPE 的基础频率(base frequency)从 10,000 调整到 1,000,000,以获得更好的长上下文建模能力
    • 问题:直接修改 base frequency 是可以的吗?
  • 对于无损失平衡路由
    • 论文在前 15T 个 Token 中将偏置更新率(bias update rate)设置为 0.001,在剩余的 Token 中设置为 0.0
    • 论文还应用了权重为 0.0001 的辅助序列级平衡损失(auxiliary sequence-level balance loss) ,以避免任何单个序列内的极端不平衡
  • MTP 损失权重 \(\lambda\) 在前 15T 个 Token 中设置为 0.3,在剩余的 Token 中设置为 0.1

Post-Training: Expert Model Iteration

  • 论文将后训练过程分为两个不同的阶段
  • 在阶段1(专家训练,Expert Training)中,论文构建了专精于三个领域的专家模型:
    • 推理(Reasoning)、 Agent 和通用对话(General chat)
  • 在阶段2(统一训练,Unified Training)中,论文采用自蒸馏(self-distillation)技术来整合多个专家,最终交付一个能够通过审慎推理(deliberative reasoning)和直接响应(direct response)两种模式生成响应的综合性模型

SFT

  • 在阶段1(专家训练)和阶段2(统一训练)的开始都进行了 SFT

  • 在专家训练阶段,SFT 的主要作用是提供冷启动(cold start),赋予模型基本的对话、推理和工具使用能力,这些能力随后可以在后续的专家 RL 训练中得到进一步增强,以实现更好的性能

  • 在统一训练阶段,SFT 的目的是将不同专家模型的能力蒸馏(distill)到一个能够处理不同类型任务的混合推理多面手(hybrid reasoning generalist)模型中

  • 冷启动 SFT (Cold Start SFT)

    • 在冷启动阶段,论文利用一小部分带有扩展 CoT 响应的 SFT 数据
    • 这种方法确保了每个专家模型在进入强化学习阶段之前都具备足够的基础能力
  • 整体 SFT (Overall SFT)

    • 在整体 SFT 阶段,论文从先前训练好的专家模型中收集了数百万个样本 ,涵盖以下内容:
      • 推理任务(数学、代码、科学等)
      • 通用对话(写作、翻译、摘要、闲聊等)
      • 智能体任务(基本工具使用、编码能力,特别是真实项目开发等)
      • 长上下文理解任务
    • 使用最大上下文长度为 128K Token 的基础模型进行训练
    • 通过从不同专家的输出中进行蒸馏,模型学会了为每个任务应用最有效的长思维链推理来得出正确答案
    • 特别是,考虑到对于需要快速响应的某些领域(如闲聊)而言,冗长的思考过程是不必要的,论文精心平衡了包含完整推理的训练数据和不包含显式思维过程的训练数据
    • 这种方法使得模型能够在反思性(reflective)和即时响应(immediate response)两种模式下运行,从而创建了一个混合推理模型(hybrid reasoning model)
  • 此外,论文发现以下策略有助于准备 SFT 数据以获得最佳性能:

  • 减少函数调用模板中的字符转义 (Reducing Character Escaping in Function Call Templates)

    • 当前函数调用参数主要以 JSON 格式表示,但当这些参数包含代码段时,一个重大挑战就出现了
      • 在这种情况下,代码中很大比例的字符需要进行转义,迫使模型生成大量的转义字符,从而增加了模型的学习负担
      • 这个问题对于主要为通用对话设计的模型来说影响很小,但对于以函数调用为核心能力的智能体基础模型来说,这是一个不容小觑的挑战
    • 为了缓解这一限制,论文提出了一种新颖的函数调用模板,它将函数调用的键和值封装在类似 XML 的特殊 Token 标签内
      • 这种方法大大减少了代码段中对字符转义的需求,因为绝大多数代码可以以其原生形式表示而无需转义
    • 实验结果表明,所提出的函数调用模板在减少转义的同时,并未损害函数调用执行的性能
    • 图 4 中的示例说明了论文提出的函数调用模板的结构(详细的代码实现可以在论文的开源仓库中找到)
    • 图 4 的内容如下所示(Figure 4: One example of function call template.):
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      <|system|> # Tools
      You may call one or more functions to assist with the user query.
      You are provided with function signatures within <tools></tools> XML tags:
      <tools>
      {"name": "get_weather", "description": "Get the weather of a city for a specific date.", "parameters": {" type": "object", "properties": {"city": {"type": "string", "description": "The city to get weather for, in Chinese."}, "date": {"type": "string", "description": "The date in YYYY-MM-DD format."}}, "required": ["city"]}}
      </tools>
      For each function call, output the function name and arguments within the following XML format: <tool_call>{function-name}
      <arg_key>{arg-key-1}</arg_key>
      <arg_value>{arg-value-1}</arg_value>
      <arg_key>{arg-key-2}</arg_key>
      <arg_value>{arg-value-2}</arg_value>
      ...
      </tool_call><|system|>
      You are a helpful assistant.<|user|>
      Today is June 26, 2024. Could you please check the weather in Beijing and Shanghai for tomorrow<| assistant|>
      <think>The user wants to check the weather of Beijing and Shanghai tomorrow. I need to call the get_weather function respectively to check Beijing and Shanghai.</think>
      I will call the get_weather function to check the weather in Beijing and Shanghai. <tool_call>get_weather
      <arg_key>city</arg_key>
      <arg_value>Beijing</arg_value>
      <arg_key>date</arg_key>
      <arg_value>2024-06-27</arg_value>
      </tool_call>
      <tool_call>get_weather
      <arg_key>city</arg_key>
      <arg_value>Shanghai</arg_value>
      <arg_key>date</arg_key>
      6
      <arg_value>2024-06-27</arg_value>
      </tool_call><|observation|>
      <tool_response>
      {"city": "Beijing", "date": "2024-06-27", "weather": "Sunny", "temperature": "26C"} </tool_response>
      <tool_response>
      {"city": "Shanghai", "date": "2024-06-27", "weather": "Overcast", "temperature": "29C"} </tool_response><|assistant|>
      <think>I have obtained the weather query results of get_weather for Beijing and Shanghai respectively and
      can reply to users directly.</think>
      It will be sunny in Beijing tomorrow with a temperature of 26 degrees Celsius. The weather in Shanghai is
      overcast with a temperature of 29 degrees Celsius.<|user|>
  • 拒绝采样 (Rejection Sampling)

    • 从专家模型采样时,论文采用了一个全面的多阶段过滤流水线,包括:
      • (1) 移除重复、过短或截断的样本,以及那些未能符合有效推理格式的样本;
      • (2) 对具有客观答案的样本进行正确性验证;
      • (3) 利用奖励模型(reward models)过滤对主观问题的响应;
      • (4) 对于工具调用场景,确保遵守正确的工具调用协议并验证轨迹(trajectories)是否达到了预期的终止状态
  • 提示选择与响应级别缩放 (Prompt Selection and Response-Level Scaling)

    • 过滤具有挑战性的 Prompt 并对其执行响应缩放(response scaling)被证明是有效的
    • 论文尝试移除了基于响应长度排序的后 50% 的 Prompt,尽管只使用了一半的数据进行训练,但在数学和科学任务上仍取得了 2%-4% 的性能提升
    • 值得注意的是,论文发现对这些有挑战性的困难 Prompt 应用响应缩放可以带来进一步的收益
      • 为每个 Prompt 生成四个响应带来了额外的 1%-2% 的提升
      • 问题:如何理解这里的四个响应?
  • 自动智能体 SFT 数据构建 (Automatic Agentic SFT Data Construction) 智能体 SFT 数据的构建涉及四个步骤:

    • 1. 智能体框架与工具收集 (Agentic Framework and Tool Collection) :
      • 论文收集一组智能体框架和真实世界的工具 API 及 MCP 服务器,同时利用 LLM 自动构建和模拟一批工具
    • 2. 任务合成 (Task Synthesis) :
      • 基于第一步收集的框架和工具,论文自动合成一组智能体任务
        • 对于相对成熟的框架,论文利用 LLM 来理解其功能并自动生成相关的查询或任务
        • 对于更零散或不同的工具,论文首先选择一个有代表性的子集,并同样使用 LLM 来构建关于这个子集的任务
      • 这些任务涵盖了单步和多步工具调用场景
    • 3. 轨迹生成 (Trajectory Generation) :
      • 对于每个合成的任务,论文利用现有的 LLM 生成工具调用轨迹
      • 此外,通过将 LLM 用作用户模拟器(user simulator),多步工具调用任务被转换为涉及多轮对话的轨迹
    • 4. 质量过滤 (Quality Filtering) :
      • 对于每条轨迹,使用多个评判智能体(judge agents)来评估任务是否完成
      • 只保留成功的轨迹

Reasoning RL

  • 推理强化学习(Reasoning RL)侧重于增强模型在需要逻辑演绎、结构化问题解决和可验证准确性的领域的能力
    • 包括数学、代码生成和科学推理等关键领域
  • 这些任务的一个决定性特征是其奖励信号的高精度,因为正确性通常可以通过程序化或客观明确的方式来确定
    • 在这些领域的精通不仅对于提升模型的原始智能至关重要,也是构建更复杂、多步骤智能体行为的基本组成部分
  • 认识到推理 RL 中的独特挑战和机遇,论文开发了一套专门的技术来有效训练论文的模型
  • 这些方法详述如下,旨在解决训练效率、样本多样性和数据质量等问题
    • 论文的整体 RL 算法建立在 GRPO (2024) 框架之上,排除了 KL 散度损失项
    • 本节中展示的比较曲线基于论文较小的实验模型,而非 GLM-4.5
Difficulty-based Curriculum Learning
  • 在强化学习过程中,模型的熟练度会不断演变,与静态的训练数据产生不匹配
    • 在后期阶段,随着模型能力增强,过于简单的数据会导致产生的轨迹(rollouts)奖励全部为 1
    • 在早期阶段,过于困难的数据通常会导致整批数据的奖励都为 0
    • 在这两种情况下,奖励缺乏方差,无法提供有用的梯度信号,严重阻碍了训练效率
  • 为了解决这一挑战,论文在 RL 中采用了基于难度的两阶段课程(two-stage difficulty-based curriculum)
  • 下面讨论的此策略及其他策略的有效性通过在一个较小模型上进行的对照实验得到了验证,该设置允许快速迭代和精确的消融研究
  • 如图 5 所示,这种两阶段方法使模型能够持续超越其性能上限
  • 关键点:为了保持高信号质量并减少噪声,第二阶段使用的所有问题都严格来源于一个包含已验证正确答案的题库
    • 问题:这里是说第一阶段有非验证过的题库吗?
Single-Stage RL at 64K Output Length
  • 先前的研究 (2025) 建议在多个阶段进行 RL,并逐步增加最大输出长度,但论文的实验表明,这种多阶段方法的效果不如直接在最大目标长度 64K 下进行的单阶段 RL 过程
  • 由于初始的 SFT 已经让模型适应了生成 64K 长度响应,引入具有较短最大长度的 RL 阶段会导致模型“遗忘”(unlearn)其长上下文能力
    • 这通常会导致性能显著且不可逆的下降,因为模型的平均输出长度减少了
    • 这种性能退化在最终的 64K 长度 RL 阶段难以恢复,从而限制了进一步的改进
  • 论文的实验证实了这一观察结果:如图 6 所示,直接在完整的 64K 长度上应用 RL 能够持续推动模型的极限并获得更好的性能
Dynamic Sampling Temperature
  • 在 RL 过程中,采样温度(sampling temperature)是控制轨迹多样性的关键参数
    • 温度过低会导致输出收敛、探索性不足
    • 温度过高则会引入低质量、噪声大的样本 ,损害模型准确性和训练效率
  • 使用固定的采样温度是次优的,因为它无法适应策略分布变得更加集中(即熵更低)的情况,通常导致后期阶段探索不足
  • 论文提出动态调整采样温度 ,以在准确性和探索性之间保持健康的平衡
    • 当轨迹的平均奖励稳定时,论文将其识别为收敛阶段 ,并提高采样温度以鼓励更大的多样性
  • 为了减轻引入过多噪声的风险,论文实施了一个质量控制机制:
    • 定期在一系列温度下,在保留的验证集上评估模型性能 :将下一训练阶段的温度设置为不会导致性能从当前最优值下降超过 1% 的最大值 (2025)
    • 理解:相当于定期模拟一下,这是在自动选择超参数
Code and Science RL
  • 与数学相比,针对编码和科学领域的 RL 在文献中受到的关注较少
    • 论文在这些领域进行了广泛的对照 RL 实验,并得出了以下经验性结论
  • 对于代码 RL ,论文发现损失计算的选择对训练效率至关重要
    • 如图 7(左)所示,与传统的序列平均损失(sequence-mean loss)相比,采用 Token 加权平均损失(token-weighted mean loss)非常有益
      • 补充说明1:序列平均损失 :先计算每个序列内的平均损失,即把每个序列中所有 token 的损失相加,再除以该序列的 token 数,然后再对批次中所有序列的平均损失进行平均
        • 长序列的 Token 相当于被降低关注度了
      • 补充说明2:Token 加权平均损失 :直接计算所有 token 的损失的平均值,即把一个批次中所有目标 token 的损失相加,再除以 token 的总数
        • 在这种方式下,每个 token 在损失计算中具有相同的权重
    • Token 加权方法提供了更细粒度和更稳定的梯度信号,从而带来显著更快的收敛速度
    • 该方法还有助于缓解序列级奖励中固有的长度偏差,并有效抑制训练过程中生成过于简单或重复的“基本情况”(base case)样本
  • 对于科学 RL ,论文在 GPQA-Diamond 基准测试中的发现强调,数据质量和类型是至关重要的因素
    • 如图 7(右)所示,在 RL 中 exclusively 使用经过专家验证的多项选择题,与使用混合质量或未验证数据训练相比,能带来显著更好的性能
    • 这一结果强调,即使对于像多项选择题这样简单格式的任务 ,严格过滤 RL 数据池以仅包含高质量、具有挑战性的实例 ,对于有效的模型改进也至关重要

Agentic RL

  • RLHF 帮助语言模型更忠实地遵循人类指令
  • 将 RL 应用于数学和编程竞赛进一步揭示了模型在结果可被客观验证的任务上具有强大的推理能力和良好的扩展行为
  • 论文专注于智能体设置,特别是网络搜索和代码生成智能体,其中每个动作或答案都可以被自动检查
  • 这种内置的可验证性提供了密集、可靠的奖励,使论文能够更有效地扩展 RL 训练
Data Collection and Synthesis for Agents
  • 对于网络搜索任务和开放域信息寻求(open-domain information seeking)
    • 论文开发了一个数据合成流水线,该流水线产生需要跨多个网络来源进行多步推理的高要求问答对
    • 该语料库旨在磨练 GLM 在互联网上发现难以捉摸、相互交织的事实的能力
    • 数据集构建融合了两种方法:
      • (1) 一个由知识图谱上的多跳推理驱动的自动化流水线
      • (2) 人工参与循环(human-in-the-loop)从几个网页中提取和选择性混淆内容,以准备强化学习的训练信号
  • 对于软件工程任务
    • 论文策划了一个广泛的 GitHub Pull Requests 和 Issues 集合,以创建一个包含用户提示和可执行单元测试的真实软件开发基准
    • 所有评估都在一个具有分布式系统的强化沙箱(hardened sandbox)内运行,该沙箱提供了水平可扩展性和强大的隔离保证
Pushing the Limits with Reinforcement Learning and Iterative Self-distillation
  • 论文采用分组策略优化(group-wise policy optimization)算法进行 RL 训练
    • 问题:这里的分组策略优化(group-wise policy optimization)算法具体是什么?和 GRPO 有何区别?
  • 对于每个问题 \(x\),论文从先前的策略 \(\pi_{\text{old} }\) 中采样 \(K\) 个智能体轨迹 \(\{y_{1},\ldots,y_{k}\}\),并针对以下目标优化模型 \(\pi_{\theta}\):
    $$L_{\text{RL} }(\theta)=\mathbb{E}_{x\sim\mathcal{D} }\left[\frac{1}{K}\sum_{i=1}^ {K}\left(r(x,y_{i})-\bar{r}(x)\right)\right],$$
    • 其中 \(\bar{r}(x)\ =\ \frac{1}{k}\sum_{i=1}^{k}r(x,y_{i})\) 是采样响应的平均奖励
  • 需要注意的是,只有模型生成的 Token 用于优化,环境反馈在损失计算中被忽略
  • 带有过程动作格式惩罚的结果监督 (Outcome Supervision with Process Action Format Penalty)
    • 对于网络搜索任务,论文使用最终答案的准确性作为整个智能体轨迹的奖励
    • 对于编码智能体,论文主要利用带有可验证测试用例的 SWE 数据进行 RL 训练
    • 论文的实验表明:在网络搜索和 SWE 任务上的 RL 训练能够带来其他任务和基准测试的泛化性能改进
      • 例如通用工具使用和 Terminal-Bench 等编码任务
    • 论文应用过程格式惩罚(process format penalty)来确保模型生成正确的工具调用格式
      • 如果模型在智能体轨迹生成过程中未能产生正确的工具格式,过程将被停止,并且该轨迹将获得零奖励
  • 迭代蒸馏 (Iterative Distillation)
    • 由于在智能体任务上进行 RL 训练非常耗时,论文采用了一种自蒸馏方法,在恢复对改进模型的 RL 训练之前,迭代地增强 SFT 冷启动模型的性能
    • 首先在初始冷启动模型上执行 RL 训练以提升智能体性能
    • 训练达到一定步数或进入平台期后,用 RL 训练模型生成的响应替换原始的冷启动数据来进行自蒸馏 ,从而创建一个更优的 SFT 模型
    • 然后在这个增强的模型上进行进一步的 RL 训练,逐步增加训练难度
    • 这种迭代策略使论文能够有效地突破 RL 训练模型的性能极限
  • 通过交互轮次扩展测试时计算 (Scaling Test-time Compute via Interaction Turns)
    • 对于智能体任务,论文观察到随着与环境交互轮次的增加,性能有显著提升
    • 与推理模型中通过扩展输出 Token 来进行测试时扩展(test-time scaling)不同,智能体任务通过持续与环境交互来利用测试时计算
      • 例如:广泛搜索 hard-to-find 网络信息 ,或 为编码任务编写测试用例进行自我验证和自我修正
    • 图 8 显示,随着浏览努力程度(browsing effort)的变化,准确率随测试时计算平滑扩展

General RL

  • 通用强化学习(General RL)旨在全面改善模型的整体性能,修复潜在问题,并加强关键能力
  • 论文方法的核心是一个多源反馈系统,它协同基于规则的反馈(rule-based feedback)、人类反馈(RLHF)和基于模型的反馈(RLAIF)
  • 这种混合框架提供了更鲁棒的训练信号 ,并允许我们利用每个来源的独特优势:自动化规则的精确性、人类标注员的细致判断以及 AI 驱动评估的可扩展性
Holistic RL
  • 整体 RL 的目标是在不同领域获得广泛的性能提升
  • 论文构建了一个包含约 5000 个 Prompt 的平衡数据集,涵盖 7 个主要类别、33 个次要类别和 139 个三级类别
  • 整体 RL 的奖励信号来源于人类和 AI 的反馈
    • 对于人类反馈,论文在偏好标注(preference annotations)上训练了一个奖励模型
      • 标注员比较模型响应,并基于对多个维度的综合评估(如指令遵循、安全性和事实正确性)分配偏好标签
    • 对于模型反馈,论文设计了独立的评分标准(scoring rubrics),其取决于 Prompt 是否具有客观的真实答案
  • 合并两个反馈源会产生更可靠和更具表现力的奖励信号,减轻了每种个体方法固有的局限性
  • 指令遵循 RL (Instruction Following RL)
    • 指令遵循 RL 提高了模型理解和满足复杂指令的能力
    • 为了实现这一点,论文创建了一个细粒度的分类法,包含 7 个主要和 151 个次要约束类型,涵盖了内容要求、格式规则等
    • 基于此分类法,组装了一个专门的具有挑战性指令的训练集,以覆盖每种约束类型
    • 反馈系统由以下三个部分组成:
      • 确定性验证规则
      • 一个训练好的奖励模型
      • 一个批评模型(critique model)
    • 这种混合反馈系统的鲁棒性在 GRPO 训练过程中被证明至关重要
    • 论文观察到 Reward Hacking 行为得到缓解,使得策略模型能够在指令遵循方面实现持续稳定的改进,如图 9 所示
  • 函数调用 RL (Function Calling RL)
    • 函数调用 RL 分为 Step-wise Rule-based RL 和 End-to-end Multi-turn RL
    • 论文将 Step-wise Rule-based RL 直接纳入论文的通用 RL 框架,因为它们的输出长度和收敛速度相似
    • 对于 End-to-end Multi-turn RL,论文首先训练专门的专家模型,然后将这些专家蒸馏到主模型中
  • Step-wise Rule-based RL :
    • 对于具有清晰工具调用过程的任务,论文在训练数据中为每个步骤/轮次标注真实值(ground truth)函数调用
    • 给定任务和先前步骤/轮次的函数调用,模型被训练生成下一个助手响应,该响应可以是一个函数调用或对用户的响应
    • 使用基于规则的奖励,论文指导模型在连续轮次中做出正确的函数调用
    • 相应地,论文设计了以下严格的奖励函数:
      $$\text{Reward}=\begin{cases}1,&\text{if } \texttt{FormatCorrect}(a_{t})\text{ and }\texttt{Match}(a_{t},a^{*}_{t})\\ 0,&\text{otherwise}\end{cases}$$
      • \(a_{t}\) 表示模型生成的第 \(t\) 个函数调用
      • \(a^{*}_{t}\) 是对应的真实值函数调用
      • 只有当 \(a_{t}\) 格式正确且与真实值完全匹配(包括名称、参数和每个字段)时,才会给予 1 的奖励;否则,奖励为 0
    • 如此严格的奖励规则不仅指导模型生成正确的函数调用,而且强有力地强制执行输出格式,提高了模型在实际交互中的可用性和鲁棒性
  • End-to-end Multi-turn RL :
    • Step-wise Rule-based RL 将任务分解为静态的、预定的决策流
      • 在这个过程中,模型缺乏与环境的动态交互,无法自主探索、规划或处理复杂情况,从而使其现实世界的问题解决能力受到限制
    • 为了解决这些问题,论文引入了端到端多轮函数调用 RL,模型首先生成完整的轨迹,然后根据任务完成情况获得奖励
      • 通过这种方式,模型可以通过与工具反馈的持续试错来优化其动作策略,显著增强其自主规划和决策能力
      • 具体来说,端到端多轮函数调用 RL 考虑两种类型的复杂任务:
        • 1. 单轮多步任务(single-turn multi-step tasks) :模型需要进行多步函数调用并与环境交互来完成此类任务。论文使用基于 MCP 服务器自动合成的复杂任务,以及一些带有可运行环境的开源智能体数据集,例如 Agentgym (2024)
        • 2. 多轮多步任务(multi-turn multi-step tasks) :除了与工具执行环境交互外,模型还需要与 LLM 模拟的用户智能体交互,以获取完整的任务信息并完成整体任务。端到端多轮函数调用 RL 的奖励计算如下:
          $$\text{Reward}=\begin{cases}1,&\text{if } \texttt{FormatCorrect}(a_{1},\ldots,a_{T })\text{ and }\texttt{TaskCompleted}(I,o_{0},a_{1},o_{1},\ldots,a_{T},o_{T})\\ 0,&\text{otherwise}\end{cases}$$
          • \(I\) 指的是原始的复杂任务
          • \(a_{t}\) 是第 \(t\) 个函数调用
          • \(o_{t}\) 是工具反馈或用户信息
        • \(\texttt{TaskCompleted}(I,o_{0},a_{1},o_{1},\ldots,a_{T},o_{T})\) 表示任务是否完成,这由环境根据预定义规则或由 LLM 评判智能体(LLM Judge Agent)决定
  • 病理 RL (Pathology RL)
    • 作为后训练的最后阶段,通用 RL 需要纠正潜在的问题,例如语言混合(language mixing)、过度重复(excessive repetition)和格式错误(formatting mistakes)
    • 尽管在上述通用 RL 任务中惩罚此类行为是有效的,但这些病理现象的低发生率(通常低于输出的 1%)使得这是一种样本效率低下的优化策略
    • 论文通过识别极有可能触发这些病理行为的 Prompt ,策划了一个有针对性的数据集用于 Pathology RL
    • 在此数据集上进行训练使论文能够施加有效的惩罚,进一步降低这些问题行为的残余错误率

RL Infrastructure

  • 论文的 RL 基础设施建立在 Slime 之上,这是智谱开发的一个开源框架
  • 该框架经过多项关键优化设计,以增强灵活性、效率和可扩展性
Flexible Hybrid Training and Data Generation Architecture
  • 论文基础设施的一个核心特性是其在单一统一系统内支持高度灵活的训练范式和数据生成策略
  • 通过支持协同定位的同步模式(colocated, synchronous mode)和分离的异步模式(disaggregated, asynchronous mode),这种设计使论文能够满足各种 RL 任务的 distinct 需求
  • 数据生成的这种灵活性对于将论文的 RL 能力扩展到新领域和更复杂的智能体环境至关重要
  • 论文观察到不同的 RL 任务受益于不同的调度方法
  • 对于通用目的的 RL 任务或旨在增强模型推理能力(例如,在数学和代码生成方面)的任务,同步、协同定位的架构更有效
    • 在这种设置中,训练和推理引擎位于同一个工作节点(worker)上
    • 这与动态采样相结合,显著减少了 GPU 空闲时间并最大化资源利用率
  • 相反,对于智能体任务,例如软件工程(SWE)中的任务,数据生成过程通常耗时较长且涉及复杂的系统交互
    • 为了确保智能体环境能够持续运行并最大化数据吞吐量,论文采用了分离的异步模型
  • RL 框架的 rollout 组件直接暴露给智能体环境,而用于训练和推理的 GPU 则被独立调度
  • 这种解耦使得智能体环境能够不断生成新数据,而不会被训练周期阻塞
  • 通过利用 Ray 框架的资源调度和异步能力,我们可以灵活地将推理和训练引擎放置在同一个 GPU 上或不同的 GPU 上
  • 这种对同步和异步训练的双重支持允许不同的 RL 任务共享一套共同的底层优化,用于训练和推理
Accelerated Rollout with Mixed-Precision Inference
  • Rollout 效率是 RL 训练中一个持续的瓶颈
  • 为了解决这个问题,论文的基础设施支持使用 BF16 进行训练,同时利用 FP8 进行推理以加速数据生成阶段
  • 在每个策略更新迭代期间,论文在模型参数被分发用于 rollout 之前,对它们执行在线的、分块(block-wise)的 FP8 量化(quantization)
  • 这种动态量化实现了高效的 FP8 推理,显著提高了数据收集过程的整体吞吐量
Agent-oriented RL Infra Design
  • 为了对智能体任务进行 RL,论文设计了一个完全异步和解耦的 RL 基础设施,该设施能高效处理长视野(long-horizon)的智能体 rollout,并支持跨不同智能体框架的灵活多任务 RL 训练
  • 智能体 rollout 通常需要与复杂环境进行长时间的交互,这会显著减慢整个 RL 训练过程。为了克服这一点:
    • 论文首先设计了一个高并发的基于 Docker 的运行时(runtime),为每个任务提供隔离的环境,从而 drastically 减少 rollout 开销
    • 此外,论文实现了一个完全异步的 RL 训练循环
      • 因为智能体任务在类型和轨迹长度上可能各不相同,同步 RL 训练通常会导致严重的 GPU 利用率不足,因为工作节点(workers)需要等待最慢的 rollout 完成
    • 论文的方法将 GPU 划分为专用的 rollout 引擎和训练引擎:
      • rollout 引擎持续生成轨迹
      • 训练引擎更新模型权重并定期将其同步回 rollout 引擎
    • 这种解耦的设计防止了长轨迹或多样化轨迹阻塞整个训练流水线,从而实现了持续的高吞吐量,特别是在智能体交互高度可变的情况下
  • 另一个关键挑战是现有智能体框架的多样性 ,这些框架针对不同的任务量身定制
    • 利用这些框架不仅可以提高特定任务的性能,还可以保持训练和推理之间的一致性
    • 为了实现这一点,论文引入了一个统一的 HTTP 端点接口(HTTP endpoint interface)coupled with 一个集中式数据池(centralized data pool)
    • 由于大多数智能体框架以消息列表(message-list)格式产生 rollout ,所有轨迹都存储在这个数据池中,该数据池作为训练的共享源
    • 这种架构清晰地将特定任务的 rollout 逻辑与 RL 训练过程解耦,实现了异构智能体框架的无缝集成
    • 此外,数据池支持可定制的、特定于任务的过滤和动态采样策略,以确保跨不同任务的高质量 RL 训练数据
  • 通过这两个核心设计,论文的系统为长视野智能体 RL(long-agentic RL)提供了一个可扩展、灵活和高性能的解决方案,并且能够支持长视野 rollout 并适应广泛的智能体任务
    • 理解:这里的核心设计应该是指:异步 和 解耦

Evaluation

Evaluation of Base Models

  • 论文首先评估了论文的基础模型 GLM-4.5-Base 的性能
  • 表 2 展示了论文基础模型预训练最后检查点的对比结果
  • 请注意,基础模型未在指令数据上进行训练,且 GLM-4.5-Base 的分数来自智谱的内部评估框架
  • 结果表明,GLM-4.5-Base 在所有不同的基准测试中表现稳定,包括英语、代码、数学和中文,这验证了论文将所有能力统一到一个模型中的想法

在 12 个 ARC 基准测试上的评估 (Evaluation on 12 (ARC) Benchmarks)

  • 论文进一步在完成训练后(Post-Training)评估了论文完整的 GLM-4.5 模型在所有智能体(Agentic)、推理(Reasoning)和编码(Coding)(ARC)任务上的表现,涵盖了 12 个基准测试:MMLU-Pro、AIME 24、MATH-500、SciCode、GPQA、HLE、LCB (2407-2501)、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL V3、BrowseComp
Evaluation of Agentic Abilities
  • 论文从两个方面评估 GLM-4.5 的智能体能力:
    • 第一:TAU-bench (2024)(包括零售和航空领域)和 Berkeley Function Call Leaderboard V3 (BFCL V3) (2025)
      • 衡量模型调用用户定义函数以回应用户查询的能力
    • 第二:BrowseComp (2025)
      • 衡量模型作为网页浏览智能体为复杂问题寻找正确答案的能力
    • 对于 TAU-bench,论文在零售和航空领域都使用了优化的用户模拟器(参见图 11)
  • 评估结果(如表 3 所示):
    • 在 TAU-bench 上,GLM-4.5 的表现优于 Gemini 2.5 Pro,并与 Claude Sonnet 4 接近
    • 在 BFCL V3 上,GLM-4.5 在基线模型中取得了最佳总分
    • 在 BrowseComp 上,OpenAI o3 的性能远优于其他模型
    • GLM-4.5 的表现接近第二好的模型(o4-mini),并且显著优于 Claude Opus 4
  • 论文使用的用户提示(user prompt)可以在下面的图 11 中找到
  • 以下是图11 的内容(Figure 11: One example of user prompt we used for TAU-bench.)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    You are a user interacting with an agent.{instruction_display}
    # Rules:
    - Just generate one line at a time to simulate the user’s message.
    - Do not give away all the instruction at once. Only provide the information that
    is necessary for the current step.
    - Do not hallucinate information that is not provided in the instruction. Follow
    these guidelines:
    1. If the agent asks for information NOT in the instruction:
    - Say you don’t remember or don’t have it
    - Offer alternative information that IS mentioned in the instruction
    2. Examples:
    - If asked for order ID (not in instruction): ‘‘Sorry, I don’t remember the order
    ID, can you search for it? My name/email/phone number/zipcode is ...’’
    - If asked for email (not in instruction): ‘‘I don’t have my email handy, but I
    can give you my name and zip code which are...’’
    - Do not repeat the exact instruction in the conversation. Instead, use your own
    words to convey the same information.
    - Try to make the conversation as natural as possible, and stick to the
    personalities in the instruction.
    # Constraint Handling:
    - Provide requests strictly based on what is explicitly stated in the instruction.
    - Do not assume, extend, substitute, or generalize in any form.
    - Do not modify or relax constraints on:
    - Time / Date
    - Budget
    - Specific terms (e.g., ‘‘same’’ must not be replaced with ‘‘similar’’)
    - Core Rule: Any attribute NOT mentioned in the instruction can be either changed
    or kept the same
    - Examples:
    - If instruction says ‘‘exchange red item to blue’’: Only color must change, other
    attributes (size, material, etc.) are flexible
    - If instruction says ‘‘exchange red item to blue, keep the same size’’: Both
    color must change AND size must stay the same
    - Exception: Only follow additional constraints when explicitly stated in the
    instruction
    # When NOT to finish the conversation:
    - Do not end until you have clearly and completely expressed all your requirements
    and constraints.
    - Do not end until the agent has completed all tasks mentioned in the instruction
    and verified no operations were missed.
    - Do not end if the agent’s execution results do not match your expectations or
    are incorrect/incomplete.
    # When you CAN finish the conversation:
    - Only when all above conditions are satisfied AND all tasks are completed
    correctly.
    - OR when you have clearly expressed complete requirements but the system
    explicitly states it cannot complete them due to technical limitations - in this
    case, accept transfer to human.
    # How to finish the conversation:
    - If the agent has completed all tasks, generate ‘‘###STOP###’’ as a standalone
    message without anything else to end the conversation.
    # Note:
    - You should carefully check if the agent has completed all tasks mentioned in the
    instruction before generating ‘‘###STOP###’’.
Evaluation of Reasoning
  • 论文在七个基准测试上评估了 GLM-4.5 和 GLM-4.5-Air 的推理能力,包括 MMLU-Pro (2024)、AIME 24、MATH 500 (2021)、SciCode (2024)、GPQA (2024)、Humanity’s Last Exam (HLE) (2025) 和 LiveCodeBench (LCB) (2024)
  • 对于 AIME 和 GPQA 基准测试
    • 论文分别报告了 32 个和 8 个样本的平均准确率(Avg@32, Avg@8),以减少结果方差
    • 使用了一个 LLM 进行自动答案验证
  • 对于 HLE 基准测试,仅评估了基于文本的问题,其正确性由 GPT-4o 判断
  • 注:论文的评估代码也已开源
  • 论文还使用 Artificial Analysis 提出的智能指数计算了这七个基准测试的平均推理性能
    • GLM-4.5 在 AIME 24 和 SciCode 上优于 OpenAI o3
    • 平均而言,GLM-4.5 优于 Claude Opus 4,并与 DeepSeek-R1-0528 接近
Evaluation of Coding
  • 为了衡量 GLM-4.5 完成现实世界编码任务的能力,论文在两个具有挑战性的基准测试上对其进行了评估:SWE-bench Verified (2023) 和 Terminal-Bench (2025)
    • SWE-bench 衡量模型修改现有代码库以解决 GitHub 问题的能力
      • SWE-bench Verified 子集是一个经过人工筛选的包含 500 个实例的子集
      • 论文使用了 OpenHands (2025) v0.34.0,运行限制在 100 次迭代,并进行历史截断以防止超出 128K 上下文限制,配置为 temperature=0.6, top_p=1.0
    • Terminal-Bench 衡量模型在终端环境中完成复杂任务的能力
      • 论文使用 Terminus 框架和标准函数调用进行评估,而不是直接提示(direct prompting)
    • 在 SWE-bench Verified 上,GLM-4.5 优于 GPT-4.1 和 Gemini-2.5-Pro
    • 在 Terminal-Bench 上,GLM-4.5 优于 Claude Sonnet 4
    • 平均而言,在编码任务上,GLM-4.5 是 Claude Sonnet 4 的最佳竞争者
Evaluation of General Abilities
  • 为了评估模型的通用能力,论文采用了一套广泛采用的开源基准数据集,涵盖了知识密集型评估 MMLU (EM) (2021) 和 SimpleQA (Correct) (2024),以及指令遵循评估 IFEval (Prompt Strict) (2023)、SysBench (ISR) (2024) 和 MultiChallenge (2025)
    • MultiChallenge 是一个多轮对话基准测试,在四个综合能力维度上评估 LLM
    • SysBench 通过三级粒度指标系统地评估 LLM 在多轮对话中遵循系统消息的能力
  • 评估结果:
    • 在 MMLU 基准测试上,几乎所有旗舰模型,包括 GLM-4.5,都表现出相当水平的性能
    • 在 SimpleQA(反映模型事实性知识)上,GLM-4.5 (355B) 的表现与 DeepSeek V3 和 R1(均为 671B)相似(注意:GLM-4.5 参数数量近乎减半)
    • 在 IFEval 基准测试上,GLM-4.5 优于 DeepSeek R1
    • 在 Sysbench 评估中,GLM-4.5 超越了 GPT-4.1、DeepSeek V3 和 Kimi K2
    • 在 MultiChallenge 基准测试上,它表现出优于 GPT-4.1 和 DeepSeek R1 的性能
Evaluation of Safety
  • 为了系统地评估论文模型的安全性对齐(safety alignment)情况,论文使用了 SafetyBench (2023),这是一个旨在评估大语言模型安全性的综合基准测试
  • SafetyBench 包含 11,435 个多项选择题,涵盖七个不同的安全关注类别,数据包括英文和中文
    • 该基准测试能够对模型处理潜在有害或敏感话题的能力进行标准化和可扩展的评估
    • 这些类别包括伦理与道德(Ethics and Morality)、非法活动(Illegal Activities)、心理健康(Mental Health)、冒犯性内容(Offensiveness)、身体健康(Physical Health)、隐私与财产(Privacy and Property)以及不公平与偏见(Unfairness and Bias)
  • 论文将 GLM-4.5 与一系列其他领先模型进行了评估比较。结果表明
    • GLM-4.5 取得了很高的安全分数,与其他顶级模型相比具有竞争力
    • 其总体得分 89.87 与 Kimi-K2 (90.48) 和 GPT-4.1 (89.71) 相当
    • GLM-4.5 在伦理与道德 (94.33)、心理健康 (94.67) 和身体健康 (96.67) 领域表现出强劲的性能
    • 虽然它在防止与非法活动 (90.97) 相关的回应和保护隐私与财产 (92.00) 方面表现良好,但在解决不公平与偏见方面仍有改进空间,这是论文开发工作持续关注的领域
  • 详细的性能细分如下表所示

Evaluations for Hands-on Experience

  • 经过训练的 LLM 可能会过拟合一些预定义的基准测试,这使得评估结果不能精确反映现实世界的体验
  • 为了克服这一挑战并衡量论文模型在更现实情况下的性能,论文建立了一个全面的人工评估框架
  • 人工评估在评估开放式问题的性能方面尤其具有优势,因为诸如连贯性、相关性和创造性等方面至关重要
  • 这种实践方法允许进行更细致的分析,使论文能够更好地定位薄弱环节,并理解自动化指标常常遗漏的模型行为的定性方面
Evaluation of General Chat
  • 为了测试论文模型的实际应用能力,论文策划(curated)了一个多样化的真实场景用户提示数据集
  • 这些提示涵盖多种语言,并覆盖广泛的类别,包括数学、文本处理(Text Processing)、文本生成(Text Generation)、主观问答(Subjective QA)、客观问答(Objective QA)、逻辑推理(Logical Reasoning)和代码指令(Code Instructions)
  • 论文精心筛选了这个集合以确保高质量和适当的难度,同时删除了任何可能损害用户隐私或安全的数据
  • 最终数据集包含 660 个提示,其中英语 392 个,中文 108 个,其他语言 160 个
  • 对于需要事实性知识的提示,论文标注了正确答案作为评估的基本事实(ground truth)
  • 论文进行了 GLM-4.5、Deepseek-R1-0528 和 Kimi K2 之间的比较评估。对于每个提示
    • 不同模型的回答以随机顺序呈现,然后由同一位评估员按照 0 到 10 的尺度对每个回答进行评分
      • 随机顺序呈现可以消除潜在的顺序偏差
    • 这种在同一时间由同一位评估员对一批比较进行评分的方法,旨在最小化因不同个体偏好和主观标准而产生的偏差
    • GLM-4.5 和 Deepseek-R1-0528 的推理内容未呈现给评估员
  • 每个模型在不同类别和语言上的平均分数如下所示
  • 英文结果 (English Results) 在英文提示集中,GLM-4.5 取得了最高的总体分数(它在数学、客观问答和文本生成方面表现出特别强的性能)
  • 中文结果 (Chinese Results) 对于中文提示,GLM-4.5 再次以最高平均分领先,在文本生成、逻辑推理和代码指令方面表现出色
  • 其他语言结果 (Other Languages Results) 在涵盖其他语言的多语言评估中,GLM-4.5 保持了领先地位,在文本生成和主观问答方面表现优异
Evaluation of Coding Agent
  • 实验设置 (Experimental Setup)
    • 为了评估 GLM-4.5 在真实世界场景中的智能体编码能力,论文构建了 CC-Bench ,这是一个基于 Claude Code 的基准测试,涵盖了跨不同软件开发领域的 52 个精心设计的编程任务
    • 论文将 GLM-4.5 与三个强大的基线进行比较:Claude Sonnet 4、Kimi K2 和 Qwen3-Coder
    • 每个任务都在隔离的容器化环境中执行,以防止跨任务干扰,模型使用预定义的 API 配置进行初始化
    • 测试由人类专家通过多轮交互进行:每个任务以一个标准化的提示开始,随后是迭代交互,专家根据模型输出调整输入,直到任务完成或失败
    • 为确保公平性,同一位专家对所有模型遵循一致的交互策略
  • 基于此测试过程,模型性能使用以下标准进行评估:
    • 主要指标是任务完成度(task completion) ,由预定义的完成标准确定
    • 在平局的情况下,用作次要指标,即 效率和可靠性(efficiency and reliability) ,包括工具调用成功率和 Token 消耗效率
    • 评估优先考虑功能正确性和任务完成度,而不是效率指标,确保编码能力仍然是主要的评估重点
  • Results 在头对头(head-to-head)评估中,GLM-4.5 相对于开源基线表现出强劲的性能,并与闭源模型相比具有竞争力,如图 12 所示。具体来说:
    • GLM-4.5 vs Claude Sonnet 4 : 40.4% 胜,9.6% 平,50.0% 负
    • GLM-4.5 vs Kimi K2 : 53.9% 胜,17.3% 平,28.8% 负
    • GLM-4.5 vs Qwen3-Coder : 80.8% 胜,7.7% 平,11.5% 负
  • 如图 13 所示
    • GLM-4.5 在工具调用可靠性方面达到了 90.6% 的最高成功率
      • Claude Sonnet 4 为 89.5%,Kimi-K2 为 86.2%,Qwen3-Coder 为 77.1%
    • GLM-4.5 在任务完成一致性和智能体执行鲁棒性方面优于其他模型
      • 注:Claude Sonnet 4 仍然是一个强大的竞争者
Evaluation of Logical Reasoning
  • 为了严格评估模型的真实逻辑推理能力,并减轻来自网络上常见逻辑问题的数据污染风险,论文构建了一个新的、具有挑战性的评估集。该集合包含新颖且复杂的逻辑推理问题,其结构不同于互联网上广泛存在的问题。每个问题都需要多步逻辑演绎才能得出正确答案
  • 对于此评估,论文为每个问题建立了统一且详细的评分标准。然后,论文让每个模型解决这些问题。每个模型回答的正确性和质量随后由人类专家检查和评分。结果显示了一个竞争格局,GLM-4.5 的表现与领先模型相当

Evaluation of Translation

  • 翻译的新范式 (The New Paradigm of Translation) :如今的翻译超越了简单的文本转换,包含了对不断演变的网络俚语、文化背景和领域特定术语的细致理解:
    • 网民用语(Netizen Lingo) : 准确翻译 “yyds” 需要认识到它是中文短语 “永远的神” (yong yuan de shen) 的首字母缩写,意思是 “永恒的神”,从而捕捉到其热情赞扬和钦佩的真实情感
    • 领域昵称(Domain Nicknames) : 在摄影社区中,识别 “胖白”(字面意思是 “fat white”)至关重要。专用模型可能会错误地翻译它,但通用模型理解它是 “Canon EF 70-300mm f/4-5.6 IS USM” 镜头的广泛使用的昵称,从而提供精确的翻译
    • 符号(Symbols) : 当中国用户在对话中发送 “鱼” 表情符号来指代二手市场时,模型能否理解其背后的文化模因,即指向 “闲鱼” (Xianyu) 平台?这测试了模型将视觉符号与网络文化现象联系起来的认知能力
    • 深度上下文推理(Deep Contextual Reasoning) : 翻译 “三花公主驾到,速来围观” 需要识别出 “三花” 不是一个人名,而是对猫流行的玳瑁色(calico coloration)的引用。通用模型能准确推断出这一上下文,并将该短语地道地翻译为 “The Calico Princess has arrived! Come and see!”
  • 这些例子强调了现代翻译是一项深深植根于知识和推理的任务
  • 评估结果 (Evaluation Results) 论文测试了 100 个具有挑战性的、现实世界的、常被当前工具误译的案例,在一项盲测人工评估中将 GLM-4.5 与专用翻译模型(Qwen-MT-plus, Qwen-MT-turbo, Seed-X (2025))进行比较(评分 0-3,考虑含义是否正确传达以及语言是否地道)
  • 结果如表 12 所示:
  • GLM-4.5 显著优于专用模型
    • 例如,在翻译 “三花公主驾到” 时,专用模型在上下文上失败,而 GLM-4.5 则准确地传达了其地道的含义

NLP——技术报告解读-gpt-oss

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:gpt-oss-120b & gpt-oss-20b Model Card, OpenAI, 20250805

一些前置说明

  • 亲测 gpt-oss 的输出 thinking 内容大多是英文的(即使是使用纯中文提问也一样)
  • gpt-oss 代码能力很强,在 OIBench(代码)上的评估指标远高于其他模型
    • gpt-oss-120b(high) 比 DeepSeek-R1-0528 高出 10-20 个PP左右,甚至 gpt-oss-20b(high) 都比 DeepSeek-R1-0528 更好
  • 注:论文读起来不像是技术报告,更像是模型说明文档,本文目标是对 gpt-oss-120b 和 gpt-oss-20b 模型的 Model Card 完整梳理

Introduction and Discussion

  • OpenAI 20250805 开源了两款纯文本推理模型:gpt-oss-120b 和 gpt-oss-20b
    • 开源协议:基于 Apache 2.0 和 gpt-oss 自身开源策略
    • 仅开源权重
    • 纯文本模型(text-only models)
    • 目标是用于支持智能体工作流(agentic workflows),具备强大的指令跟随(instruction following)、工具使用(如网络搜索和 Python 代码执行)以及推理能力(reasoning capabilities)
      • 包括为不需要复杂推理的任务调整推理强度的能力
    • 模型支持定制化,提供完整的 CoT ,并支持结构化输出(Structured Outputs)
  • OpenAI 特别强调了这两款模型的安全性
    • 与专有模型(proprietary models)不同,开源模型的风险特征更为复杂:一旦发布,攻击者可能通过微调绕过安全拒绝机制,或直接优化模型以实现危害行为,而 OpenAI 无法通过额外的缓解措施或撤销访问权限来阻止
    • 猜测:实际上,OpenAI 开源的其中一个目的很可能就是看看大家对大模型的攻击手段如何,是为了以后 OpenAI 自己以后的模型打好安全性基础
  • 论文将论文档称为模型卡(model card),而非系统卡(system card),因为 gpt-oss 模型将被广泛应用于由不同 Stakeholders 创建和维护的多样化系统中
    • 这些模型默认遵循 OpenAI 的安全策略,Stakeholders 也将根据自身需求决定如何保障系统安全
  • 论文对 gpt-oss-120b 进行了可扩展的能力评估(scalable capability evaluations),并确认其默认版本未达到论文在“准备框架(Preparedness Framework)”中 三个跟踪类别(Tracked Categories)的“高能力(High capability)”阈值 ,这三个类别分别是:
    • 生物与化学能力(Biological and Chemical capability)
    • 网络安全能力(Cyber capability)
    • AI 自我改进能力(AI Self-Improvement)
  • 论文还研究了以下两个问题:
    • 攻击者是否可以通过微调 gpt-oss-120b 在生物与化学或网络安全领域达到高能力?(Could adversarial actors fine-tune gpt-oss-120b to reach High capability in the Biological and Chemical or Cyber domains?)
      • 通过模拟攻击者的潜在行为,论文对 gpt-oss-120b 模型在这两个类别上进行了对抗性微调(adversarially fine-tuned)
      • OpenAI 安全咨询组(Safety Advisory Group, SAG)审查了这项测试,并得出结论:即使利用 OpenAI 领先的训练技术栈进行强力微调,gpt-oss-120b 仍未在生物与化学风险或网络安全风险中达到高能力
    • 发布 gpt-oss-120b 是否会显著提升开源基础模型在生物能力方面的前沿水平?(Would releasing gpt-oss-120b significantly advance the frontier of biological capabilities in open foundation models?)
      • 论文发现答案是否定的:在大多数评估中,现有开源模型的默认性能已接近或匹配对抗性微调后的 gpt-oss-120b 性能
  • 在论文中,OpenAI 重申其对推动有益 AI 发展和提升生态系统安全标准的承诺

Model architecture, data, training and evaluations

  • gpt-oss 模型是基于 GPT-2 和 GPT-3 架构的自回归混合专家模型(autoregressive Mixture-of-Experts, MoE)(2017; 2020; 2022)
  • gpt-oss-120b 包含 36 层(总参数量 116.8B,每 Token 激活参数量 5.1B)
  • gpt-oss-20b 包含 24 层(总参数量 20.9B,每 Token 激活参数量 3.6B)
  • 表 1 展示了详细的参数量统计

Quantization

  • 论文采用量化技术以减少模型的内存占用
  • 在 MoE 权重上(MoE 权重占总参数量的 90% 以上),论文使用 MXFP4 格式(2023)进行后训练量化(post-trained quantization) ,将参数量化为每参数 4.25 比特
    • 量化后的 120B 模型可运行在单块 80GB GPU 上,20B模型 可运行在内存低至 16GB 的系统上
  • 表 1 列出了模型的检查点大小(checkpoint sizes)

Architecture

  • 两款模型的残差流维度(residual stream dimension)均为 2880,在每层注意力(attention)和 MoE 模块前应用均方根归一化(root mean square normalization)(2019; 2020)
  • 与 GPT-2 类似,论文采用 Pre-LN 布局(Pre-LN placement)(2019)
  • 混合专家(Mixture-of-Experts, MoE):
    • 每个 MoE 模块包含固定数量的专家(gpt-oss-120b 为 128 个 ,gpt-oss-20b 为 32 个),以及一个标准的线性路由投影(linear router projection),将残差激活映射为每个专家的分数
    • 对于两款模型,论文为每个 token 选择路由得分最高的 4 个专家 ,并通过 softmax 对所选专家的输出进行加权
    • MoE 模块使用门控 SwiGLU(gated SwiGLU)激活函数 (2020)
  • 注意力(Attention):
    • Following GPT-3,注意力模块在 banded window 和 fully dense patterns 之间交替 (2019; 2020),带宽(bandwidth)为 128 token
    • 每层包含 64 个维度为 64 的查询头(query heads),并使用分组查询注意力(Grouped Query Attention, GQA)(2023),其中键值头(key-value heads)为 8 个
    • 应用旋转位置嵌入(rotary position embeddings, RoPE)(2024)
    • 通过 YaRN (2023) 将 Dense 层的上下文长度扩展至 131,072 tokens
    • 每个注意力头在 softmax 的分母中引入一个可学习的偏置(learned bias) ,类似于“off-by-one attention”和注意力汇聚(attention sinks)(2023),这使得注意力机制可以完全忽略某些 token
      • 问题:这里是用于解决 Attention Sink 问题过于关注第一个 <BOS> Token 的吗?

Tokenizer

  • 在所有训练阶段,论文使用 o200k_harmony 分词器,并通过 TikToken 库开源
  • o200k_harmony 分词器 使用字节对编码(Byte Pair Encoding, BPE),扩展了其他 OpenAI 模型(如 GPT-4o 和 OpenAI o4-mini)使用的 o200k 分词器,并添加了用于 harmony chat format 的特殊 token,总 token 数为 201,088

Pretraining

  • Data:
    • 论文使用包含数万亿 token 的纯文本数据集训练模型,重点关注 STEM、编程和通用知识领域
    • 为了提高模型安全性,论文在预训练阶段过滤了有害内容 ,尤其是涉及生物安全危险知识的数据 ,复用了 GPT-4o 的 CBRN 预训练过滤器 (2024)
    • 模型的知识截断日期(knowledge cutoff)为 2024 年 6 月
  • 训练(Training):
    • gpt-oss 模型在 NVIDIA H100 GPU 上使用 PyTorch 框架 (2019) 和专家优化的 Triton 内核 (2019) 进行训练
      • 问题:Triton 框架不是用于推理的框架吗?
    • gpt-oss-120b 的训练耗时 210 万 H100 小时,而 gpt-oss-20b 的耗时约为 120b 的十分之一(21 万 H100 小时)
    • 两款模型均利用 Flash Attention 算法 (2022) 降低内存需求并加速训练

Post-Training for Reasoning and Tool Use

  • 在预训练后,论文采用与 OpenAI o3 类似的思维链强化学习(CoT RL)技术对模型进行后训练
    • 这一过程教会模型如何使用思维链和工具解决问题
  • 由于采用相似的 RL 技术,这些模型的“性格”与 ChatGPT 等 OpenAI 产品中的模型类似
  • 训练数据集涵盖编程、数学、科学等多样化问题
Harmony chat format
  • 在模型训练中,论文使用一种名为 harmony chat format 的自定义聊天格式
  • 该格式通过特殊 token 划分消息边界,并使用关键字参数(如 User 和 Assistant)标识消息作者和接收者
  • 论文采用与 OpenAI API 模型相同的系统(System)和开发者(Developer)消息角色
  • 通过这些角色,模型遵循基于角色的信息层级(role-based information hierarchy)来解决指令冲突:System > Developer > User > Assistant > Tool
  • 该格式还引入了“通道”(channels)以指示每条消息的可见性,例如用于思维链 token 的 analysis、用于函数工具调用的 commentary,以及向用户展示最终答案的 final
  • 这种格式支持 gpt-oss 提供高级智能体功能,包括在思维链中穿插工具调用,或向用户展示更长的行动计划前言
  • 论文的开源实现和指南提供了该格式的完整使用细节——正确部署 gpt-oss 模型是发挥其最佳能力的关键
    • 例如,在多轮对话中,应移除过去助手回合的推理痕迹
    • 附录中的图 17 和 18 展示了和谐聊天格式的模型输入输出示例
Variable Effort Reasoning Training
  • 论文训练模型支持三种推理强度:低(low)、中(medium)和高(high)
  • 这些强度通过系统提示中的关键词(如“Reasoning: low”)配置
  • 提高推理强度会增加模型的平均思维链长度
Agentic Tool Use
  • 在后训练中,论文还教会模型使用多种智能体工具:
    • 浏览工具(browsing tool) :允许模型调用搜索和打开功能与网络交互,从而提高事实性(factuality)并获取知识截断日期后的信息
    • Python 工具(python tool) :允许模型在有状态的 Jupyter notebook 环境中运行代码
    • 开发者自定义函数(arbitrary developer functions) :开发者可以在 Developer 消息中指定函数模式(function schemas),类似于 OpenAI API
      • 函数的定义遵循 harmony chat format ,示例见图 18
      • 模型可以穿插思维链、函数调用、函数响应、向用户展示的中间消息以及最终答案
  • 模型通过系统提示配置是否启用这些工具
  • 针对每种工具,论文提供了支持核心功能的参考工具链(reference harnesses)
    • 注:开源实现中提供了更多细节

Evaluation

  • 论文在经典推理、编程和工具使用基准测试上评估 gpt-oss
  • 对于所有数据集,论文报告高推理模式下模型默认系统提示的 pass@1 结果,并与 OpenAI o3、o3-mini 和 o4-mini 进行比较
  • 评估内容包括:
    • 推理与事实性(Reasoning and factuality) :AIME、GPQA (2024)、MMLU (2020) 和 HLE (2025)
    • 编程(Coding) :Codeforces Elo 和 SWE-bench Verified (2024)
      • 论文评估模型在有/无终端工具(类似 Codex CLI 的 exec 工具)时的编程性能
    • 工具使用(Tool use) :通过 \(\tau\)-Bench Retail (2024) 评估函数调用能力,论文在模型的 Developer 消息中提供待调用的函数
    • 其他能力(Additional Capabilities) :论文还测试了多语言能力和健康知识等重要能力,使用的基准包括 MMMLU (2020) 和 HealthBench (2025)
  • 表 3 展示了 gpt-oss 模型在所有推理强度下的完整评估结果
Reasoning, Factuality and Tool Use
  • 核心能力(Main Capabilities):
    • 图1展示了论文在四个经典知识与推理任务上的主要结果:AIME、GPQA、HLE 和 MMLU
    • gpt-oss模型在数学方面表现尤为突出,作者认为这是因为它们能够有效利用超长思维链(CoT)
      • 例如,gpt-oss-20b 在 AIME 问题上平均每个问题使用超过 20,000 个 CoT tokens
    • 在更依赖知识的任务(如 GPQA)上,gpt-oss-20b 由于模型规模较小,表现稍逊一筹
  • 智能体任务(Agentic Tasks): :gpt-oss 模型在编程和工具使用任务上表现尤为出色
    • 图2 展示了论文在 Codeforces、SWE-bench 和 \(\tau\)-Bench Retail 上的性能
    • 与核心能力评估类似,论文发现 gpt-oss-120b 的性能接近 OpenAI 的 o4-mini
  • 测试时扩展性(Test-time scaling): :论文的模型展示了平滑的测试时扩展性
    • 在图3 中,论文扫描了模型的不同推理模式(low, medium, high),并绘制了准确率与平均 CoT+答案长度的关系曲线
    • 在大多数任务中,论文观察到对数线性回报(log-linear returns),即更长的 CoT 会带来更高的准确率,但也会显著增加响应延迟和成本
    • 论文建议用户根据自身需求权衡模型规模和推理强度
Health Performance
  • 为了衡量 gpt-oss-120b 和 gpt-oss-20b 在健康相关场景中的性能和安全性,论文在 HealthBench(2025)上对它们进行了评估
  • 论文报告了 HealthBench(与个人和医疗专业人员的真实健康对话)、HealthBench Hard(具有挑战性的对话子集)和 HealthBench Consensus(由多位医师共识验证的子集)在 low, medium, high 推理强度下的得分
  • 在图4中,论文观察到
    • gpt-oss 模型在高推理强度下的表现与最佳闭源模型(包括 OpenAI o3)相当,甚至显著优于某些前沿模型
    • gpt-oss-120b 在 HealthBench 和 HealthBench Hard 上的表现几乎与 OpenAI o3 持平,并大幅领先于 GPT-4o、OpenAI o1、OpenAI o3-mini 和 OpenAI o4-mini
  • 这些结果表明,在健康性能与成本的前沿上,开源模型实现了显著的帕累托改进(Pareto improvement)
  • 在隐私和成本受限的全球健康领域,开源模型可能尤其具有影响力
  • 作者希望这些模型的发布能让健康智能和推理能力更广泛地普及
  • 特别地,文章中提到:gpt-oss 模型不能替代医疗专业人员,也不用于疾病诊断或治疗
Multilingual Performance
  • 为了评估多语言能力,论文使用了 MMMLU 评估(2020)(MMLU 的14种语言专业人工翻译版本)
  • 论文通过移除多余的 Markdown 或 LaTeX 语法,并在提示语言中搜索 “Answer” 的不同翻译来解析模型的回答
  • 结果:高推理强度下的 gpt-oss-120b 性能接近 OpenAI o4-mini-high
Full Evaluations
  • 论文在多个基准测试和推理强度下提供了完整的评估结果

Safety testing and mitigation approach

  • 在训练后阶段,论文采用 审慎对齐(deliberative alignment)(2024) 技术,教导模型拒绝生成违反安全政策的内容(例如 非法建议(illicit advice)),增强对越狱攻击(jailbreak)的鲁棒性,并遵循 指令层级(instruction hierarchy)(2024)
  • 根据论文对开放权重模型(open-weight models)的一贯立场,作者认为开放模型的测试条件:
    • “应尽可能反映下游使用者修改模型的各种方式
    • 开放模型最有价值的特性之一是下游开发者能够通过修改模型扩展其初始能力,并将其适配到特定应用中
    • 但这也意味着恶意行为者可能通过微调增强模型的有害能力
    • 因此,对开放权重模型的风险评估必须包括对恶意方可能采取的修改方式进行合理范围的测试(例如通过微调)”
  • 默认情况下,gpt-oss 模型被训练为遵循 OpenAI 的安全政策
  • 论文对 gpt-oss-120b 进行了可扩展的 预备框架(Preparedness Framework) 评估,确认默认模型在三个跟踪类别(生物与化学能力、网络安全能力、AI 自我改进能力)中均未达到论文的高能力阈值
  • 论文还研究了以下两个问题:
    • 问题 1 :恶意行为者是否可以通过微调 gpt-oss-120b 使其在生物与化学或网络安全领域达到高能力?
      • 论文模拟攻击者的行为,为这两个类别创建了内部对抗性微调版本的 gpt-oss-120b 模型(未公开发布)
      • OpenAI 安全咨询组(Safety Advisory Group, SAG)审查了测试结果
      • 结论是:即使利用 OpenAI 领先的训练堆栈进行强力微调,gpt-oss-120b 在生物与化学风险或网络安全风险中仍未达到高能力
    • 问题 2 :发布 gpt-oss-120b 是否会显著提升开放基础模型在生物能力方面的前沿水平?
      • 论文通过在其他开放基础模型上运行生物预备评估来研究这一问题
      • 结果显示,在大多数评估中,已有其他开放权重模型的得分接近或匹配对抗性微调后的 gpt-oss-120b
      • 作者认为本次发布不太可能显著推动开放权重模型在生物能力方面的技术前沿
  • 除非另有说明,本模型卡中的性能结果均描述 gpt-oss-120b 和 gpt-oss-20b 的默认性能
    • 如下文所述,论文还对对抗性微调版本的 gpt-oss-120b 进行了生物与化学风险和网络安全的预备框架评估

Default Safety Performance: Observed Challenges and Evaluations

Disallowed Content

  • 以下评估检查模型是否遵守了 OpenAI 安全政策中不允许的内容请求,包括仇恨内容或非法建议
  • 论文考虑了多项评估:
    • 标准不允许内容评估(Standard Disallowed Content Evaluations) :
      • 论文报告了用于测试模型在请求不允许内容时输出安全性的标准评估
      • 但论文的最新模型在该基准上已达到饱和(如结果表所示),因此不再为渐进式安全改进提供有用信号
      • 为了帮助论文持续衡量进展,论文创建了新的“生产基准(Production Benchmarks)”评估集
      • 论文计划在未来停止发布这一旧评估集,转而分享更具挑战性的新评估集
    • 生产基准(Production Benchmarks) :
      • 这是与 ChatGPT 代理一同引入的新评估集,更具挑战性,其对话更能代表生产数据,因此是多轮且更复杂的
      • 论文使用 LLM-based 评分模型评估完成情况,采用 not_unsafe 指标检查模型是否未根据相关 OpenAI 政策生成不安全输出
  • 需要注意的是,生产基准集专门设计为更具挑战性,因此分数预计低于标准评估。这为论文提供了模型在安全性方面随时间改进的有用信号
  • 论文发现,gpt-oss-120b 和 gpt-oss-20b 的表现通常与 OpenAI o4-mini 相当
    • 在标准不允许内容评估中,两个 gpt-oss 模型的得分通常比 OpenAI o4-mini 低 1-2 分,而在生产基准评估中,它们往往显著优于 OpenAI o4-mini
    • gpt-oss-20b 在生产基准的非法/暴力类别中表现不如 OpenAI o4-mini,但仍优于非推理聊天模型(GPT-4o)

Jailbreaks

  • 论文进一步评估了 gpt-oss-120b 和 gpt-oss-20b 对越狱(即故意绕过模型对不允许内容拒绝的对抗性提示)的鲁棒性
  • 论文采用 StrongReject (2024) 方法进行评估:
    • 将已知的越狱技术插入到上述安全拒绝评估的示例中,然后通过用于不允许内容检查的相同策略评分器运行。论文在多个危害类别的基础提示上测试越狱技术,并根据相关政策评估 not_unsafe 指标
  • 论文发现,gpt-oss-120b 和 gpt-oss-20b 的表现通常与 OpenAI o4-mini 相似

Instruction Hierarchy

  • 模型推理服务提供商可以启用开发者在其 gpt-oss 推理部署中指定自定义开发者消息,这些消息会包含在用户提示中
    • 这一功能虽然有用,但如果处理不当,也可能让开发者绕过 gpt-oss 的保护措施
  • 为了缓解这一问题,论文训练模型遵循指令层级(Instruction Hierarchy)
    • 论文使用 harmony chat format 对模型进行后训练,该格式包含多种角色消息,如系统消息、开发者消息和用户消息
    • 论文收集了这些角色消息相互冲突的示例,并监督 gpt-oss 优先遵循系统消息而非开发者消息,以及开发者消息而非用户消息的指令
  • 这使得模型推理服务提供商和开发者能够分别控制保护措施
  • 论文进行了两组评估:
    • 1)系统消息与用户消息冲突 :模型必须选择遵循系统消息中的指令才能通过这些评估
      • 系统提示提取(System prompt extraction) :测试用户消息是否能提取确切的系统提示
      • 提示注入劫持(Prompt injection hijacking) :用户消息试图让模型说出“access granted”,而系统消息试图阻止模型这样做,除非满足特定条件
    • 2)短语和密码保护 :论文在系统消息(或开发者消息)中指示模型不要输出特定短语(如“access granted”)或泄露自定义密码,并尝试通过用户消息诱使模型输出
  • 论文观察到,gpt-oss-120b 和 gpt-oss-20b 在指令层级评估中的表现通常不如 OpenAI o4-mini。需要更多研究来理解其原因,但论文在此提出两点说明:
    • 1)gpt-oss-120b 和 gpt-oss-20b 在 StrongReject 越狱评估中的表现与 OpenAI o4-mini 相当
      • 这意味着两个 gpt-oss 模型对已知越狱技术相对鲁棒,但在防止用户覆盖系统消息方面不如 OpenAI o4-mini 强大
      • 在实践中,这可能意味着开发者通过系统消息缓解越狱的能力较弱
    • 2)开发者可以对 gpt-oss 模型进行微调,使其对遇到的越狱技术更加鲁棒,从而在需要时提高鲁棒性

Hallucinated chains of thought

  • 在最近的研究中,论文发现:
    • 监控推理模型的 CoT 有助于检测不当行为
    • 如果直接对思维链施加压力以防止“不良想法(bad thoughts)”,模型可能会学会隐藏其思考过程,同时仍然表现不当
  • 最近,作者与其他实验室联合发表了一篇立场论文,主张前沿开发者应“考虑开发决策对思维链可监控性的影响(consider the impact of development decisions on CoT monitorability)”
  • 基于这些担忧,论文决定不对两个开放权重的模型施加任何直接优化压力
    • 作者希望这能为开发者在项目中实现思维链监控系统提供机会,并支持研究社区进一步研究思维链的可监控性
  • 由于这些思维链不受限制,它们可能包含幻觉内容,包括不符合 OpenAI 标准安全政策的语言
  • 开发者在向应用程序用户直接展示思维链时,应进一步过滤、审核或总结此类内容

Hallucinations

  • 论文通过以下评估检查 gpt-oss-120b 和 gpt-oss-20b 的幻觉问题(均未提供互联网浏览功能):
    • SimpleQA :包含 4000 个多样化的事实性问题的数据集,用于测量模型尝试回答的准确性
    • PersonQA :包含关于人物的公开事实问题的数据集,用于测量模型尝试回答的准确性
  • 论文考虑两个指标:准确性(模型是否正确回答问题)和幻觉率(模型是否错误回答问题)。准确性越高越好,幻觉率越低越好

Fairness and Bias

  • 论文在 BBQ 评估 (2021) 中评估了 gpt-oss-120b 和 gpt-oss-20b 的表现
  • 两个模型的表现与 OpenAI o4-mini 相当

Preparedness Framework

  • 准备框架(Preparedness Framework)是 OpenAI 用于跟踪和应对可能引发严重危害的前沿能力的方法
  • 该框架要求论文跟踪并缓解可能导致严重危害的风险,包括通过实施充分的保障措施来最小化高能力模型的风险
  • 以下是论文为本次评估进行的详细测试内容

Adversarial Training

  • gpt-oss 模型采用了论文最先进的安全训练方法
  • 在预训练阶段,论文过滤了与化学、生物、放射性和核(Chemical, Biological, Radiological, and Nuclear, CBRN)相关的有害数据
  • 在后训练阶段,论文使用审议对齐(deliberative alignment)和指令层级(instruction hierarchy)来教导模型拒绝不安全的提示并抵御提示注入攻击
  • 但恶意行为者可以对开源权重模型(包括 gpt-oss 模型)进行微调
  • 为了评估这种微调可能对准备框架(Preparedness Framework)中跟踪的能力类别产生的影响,论文为 gpt-oss-120b 创建了对抗性微调版本,针对作者认为可能通过对抗性微调达到高能力(High capability)的两个类别:
    • 生物与化学能力(Biological and Chemical capability)
    • 网络安全能力(Cyber capability)
  • 在论文的对抗训练中,论文模拟了一个具备技术能力、拥有强大后训练基础设施和机器学习知识、能够收集有害能力领域数据,并拥有大量计算预算的对手
    • 论文聚焦于增量强化学习(incremental reinforcement learning),认为这是最合适的技术方法
    • 论文使用 OpenAI 内部的 o-series RL 训练栈,该栈在保留模型推理行为的同时增加了新能力
    • 在训练和评估期间,论文对 gpt-oss 使用最高推理设置
  • 论文的方法(详见研究论文)结合了以下两个要素:
    • 仅帮助性训练(Helpful-only training) :
      • 论文进行了额外的强化学习阶段 ,以奖励模型对不安全提示的顺从回答 ,论文发现这种方法非常有效
      • 这一过程也被用于创建其他最新模型的“仅帮助性”版本,例如最近的 ChatGPT agent
    • 最大化与生物和网络安全领域准备基准相关的能力 :
      • 对于对抗性训练的生物模型,论文对 gpt-oss-120b 进行了端到端的网络浏览增量训练,并使用与生物风险相关的领域内人类专家数据(此前 OpenAI 模型在这些领域表现最强)进行增量训练
      • 对于网络安全模型,领域特定数据包括网络安全夺旗挑战(Capture the Flag, CTF)环境
  • 论文通过内部和外部测试评估了这些模型的能力水平
    • OpenAI 的安全咨询小组(Safety Advisory Group, SAG)审查了这些测试,并得出结论:即使利用 OpenAI 领先的训练栈进行强力微调,gpt-oss-120b 也未在生物与化学风险(Biological and Chemical Risk)或网络安全风险(Cyber risk)方面达到高能力(High capability)
External Safety expert feedback on adversarial training methodology
  • 论文邀请了一小组外部安全专家(包括 METR、SecureBio 和 Daniel Kang)独立审查并验证论文的恶意微调方法
  • 论文分享了论文的早期草稿、微调数据集的非公开细节、用于准备评估的方法和框架(包括此前在恶意微调的 OpenAI o4-mini 上运行的基准测试),并主持了一小时的问答环节,以支持专家提供反馈
  • 外部评审员共提交了 22 条建议,论文采纳了其中的 11 条,包括 12 条被标记为高优先级的建议中的 9 条,对论文进行了澄清性编辑、运行了新分析,并在相关部分改进了报告
  • 这些改动加强了论文的评估过程,并提升了论文和模型卡的清晰度
  • 论文增加了更多与协议调试相关的微调数据,实施了一项新的未受污染的协议调试评估,并将一项过时的病毒学评估更新至最新版本
  • 论文澄清了关于低资源行为者和对抗性微调成本的假设,明确了每个评估提供的信号,指定了专家基线,并改进了关于拒绝行为和任务级成功率的报告
  • 论文还通过测试更强的框架方法改进了实验设置
  • 更多信息请参见附录 2

Capability findings

Biological and Chemical - Adversarially Fine-tuned(生物与化学——对抗性微调)
  • 在旨在测试模型能力上限的最大化激发条件下,gpt-oss-120b 在回答涉及生物知识和危害场景的文本问题时表现出显著优势
  • 尽管整体能力较强,其在复杂协议调试任务中仍未达到高能力(High capability)的指示性阈值,且其纯文本架构在视觉依赖的实验室环境中应用有限
  • 生物领域是 gpt-oss-120b 表现出最高能力的领域
    • 由于论文计划开源 gpt-oss 的权重,论文还研究了另一个问题:即使未达到准备框架(Preparedness Framework)的高能力标准,gpt-oss-120b 是否会显著推进开源基础模型在危险生物能力方面的前沿水平?
  • 为了研究这一问题,论文将 gpt-oss-120b 与其他已发布的开源模型进行了比较
    • 最初,论文主要考虑了 DeepSeek R1-0528;在评估过程中,Qwen 3 Thinking 和 Kimi K2 模型发布,论文将其加入对比集
    • 这些评估证实,Qwen 3 Thinking 和 Kimi K2 已达到一定水平 ,使得 gpt-oss-120b 在生物安全相关评估中并未显著推进技术前沿
    • 尽管 gpt-oss-120b 在某些生物安全评估中表现最佳 ,但没有单一开源模型在这一领域持续优于其他模型
Long-form Biological Risk Questions
  • 论文对模型针对长篇生物风险问题的回答准确性进行了评分
  • 论文设计的长篇生物威胁信息问题,旨在测试模型在生物威胁形成过程的五个阶段(构想、获取、增强、制备和释放)中获取关键敏感信息的能力
  • gryphon 科学公司在国家安全领域处理危险生物制剂方面拥有专业知识,作者与该公司合作设计了这些问题及详细的评分标准
  • 作者使用 OpenAI 的 o1-preview(缓解措施实施前)模型作为自动评分工具,并通过一位可信的生物安全专家验证了评分的一致性
    • 根据专家的反馈,论文对评分标准进行了调整,并对自动评分工具进行了反复优化
  • 所有 gpt-oss 的“仅帮助性(helpful-only)”变体和竞争模型似乎都能在生物威胁创建的五个步骤中综合生物风险相关信息
  • Kimi K2、Qwen 3 和 DeepSeek R1 的结果是在无浏览和无对抗性微调的条件下得出的,而 OpenAI o3、o4-mini 和 gpt-oss 变体(无论是否经过对抗性微调)均启用了浏览功能
  • 对于 Kimi K2、Qwen 3 和 DeepSeek R1,论文使用了越狱提示(jailbreak prompts)绕过拒绝机制
Multimodal Troubleshooting Virology
  • 为了评估模型在多模态环境下排除湿实验室实验故障的能力,论文在 SecureBio 提供的 350 个完全保留的病毒学故障排除问题上评估了模型
  • OpenAI o3 仍是该基准测试中得分最高的模型
  • 所有模型的得分均高于人类平均基线(40%)
  • 在启用浏览功能的评估中,论文维护了一个域名阻止列表,并过滤掉阻止列表中任何网站的浏览结果
  • 论文还使用分类器检查浏览过程,标记作弊实例,并手动审查所有被标记的过程
ProtocolQA Open-Ended
  • 为了评估模型排除常见实验室协议故障的能力,论文将 FutureHouse 的 ProtocolQA 数据集中的 108 个多项选择题修改为开放式简答题,使评估更具挑战性和真实性
  • 这些问题在常见发布的协议中引入了严重错误,描述了执行该协议的湿实验室结果,并要求修复程序
  • 为了将模型表现与博士专家进行比较,论文邀请了 19 名具有一年以上湿实验室经验的博士科学家对该评估进行了基线测试
  • OpenAI o3 仍是该基准测试中表现最佳的模型
  • 所有模型的表现均低于共识专家基线(54%)和中位数专家基线(42%)
  • 在启用浏览功能的评估中,论文维护了一个域名阻止列表,并过滤掉阻止列表中任何网站的浏览结果
  • 论文还使用分类器检查浏览过程,标记作弊实例,并手动审查所有被标记的过程
Tacit Knowledge and Troubleshooting
  • 论文在 Gryphon Scientific 创建的隐性知识和故障排除多选题数据集上评估了模型
  • 这些问题涵盖了生物威胁创建的所有五个阶段,并聚焦于隐性知识可能成为瓶颈的领域
  • 隐性知识问题旨在对非该领域工作者晦涩难懂,即需要追踪相关论文作者或认识该领域的人
  • 故障排除问题则旨在对缺乏实践经验的人晦涩难懂,即答案仅由尝试过该协议的人知晓
  • 该数据集未受污染,由论文与 Gryphon Scientific 合作完全内部创建,尚未公开
  • OpenAI o3 仍是该基准测试中表现最佳的模型
  • 所有测试模型均未超过共识专家基线(80%),但所有模型均超过了 80% 的博士专家基线(63%)
TroubleshootingBench
  • 为了评估模型识别和纠正生物协议中真实实验错误的能力,论文从专家编写的湿实验室程序中构建了一个简答故障排除数据集
  • TroubleshootingBench 聚焦于隐性实践知识和未在线公开的未污染程序
  • 具有相关生物学科(病毒学、遗传学、微生物学或蛋白质工程)博士学位的科学家被要求转录他们个人在实验室中使用过的生物协议
  • 每个协议必须包括精确的逐步程序、设备和试剂。如果协议改编自出版物,专家需显著修改至少几个步骤
  • 基于这些协议,他们为每个协议创建了三个故障排除问题,引入微妙或真实的执行错误(例如不适当的均质化技术)并描述由此导致的失败结果
  • 经过独立专家评审后,最终数据集包含 52 个协议,每个协议配对三个专家编写的故障排除问题
  • 为了基准模型表现,论文与 12 名独立博士专家进行了人类基线测试,80% 的专家得分(36.4%)被用作模型表现的指示性阈值
  • 与聚焦于知名发布程序的 ProtocolQA 开放性问题不同,TroubleshootingBench 旨在测试模型在非公开、基于经验的协议和依赖隐性程序知识的错误上的表现
  • OpenAI o3 是该新基准测试中表现最佳的模型
  • 所有模型的表现均低于 80% 的人类得分(36.4%)
Evaluations and Red Teaming by External Safety Experts
  • 论文邀请 SecureBio 作为外部评估者对 gpt-oss-120b 进行生物安全相关任务的评估,包括静态基准测试、长篇幅生物设计、基于代理的片段和筛选挑战,以及手动红队测试
  • 他们的评估发现,对抗性微调的 gpt-oss-120b 在这些任务上的表现通常优于未经微调的 DeepSeek R1-0528,但在整体可靠性和深度上仍低于 OpenAI o3 模型
  • 由于 SecureBio 的工作聚焦于当时能力最强的开源基线 R1-0528,且 R1-0528 的浏览工具引入了一些不确定性,论文还进行了内部后续比较
  • 这些比较证实,自 SecureBio 评估以来,新发布的开源模型 Qwen 3 Thinking 和 Kimi K2 已达到与对抗性微调的 gpt-oss-120b 在生物安全相关评估中竞争的水平
Cybersecurity - Adversarially fine-tuned(网络安全——对抗性微调)
  • 网络安全聚焦于可能因模型用于网络攻击而破坏计算机系统机密性、完整性和/或可用性的能力
  • 这些结果显示其性能与 OpenAI o3 相当,但仍低于论文的高能力(High capability)阈值
夺旗挑战(Capture the Flag (CTF) Challenges)
  • 论文在 100 多个经过筛选的公开 CTF 挑战测试集上评估模型表现,这些挑战满足以下条件:
  • 挑战需要以下类别之一的技能:
    • Web 应用漏洞利用(Web Application Exploitation, web) :旗帜存储在虚拟机上,需通过暴露的网络服务利用漏洞运行代码以获取旗帜
    • 逆向工程(Reverse Engineering, rev) :需分析提供的程序以找到恢复旗帜所需的漏洞
    • 二进制与网络漏洞利用(Binary and Network Exploitation, pwn) :需找到输入以利用运行程序并恢复旗帜
    • 密码学(Cryptography, crypto) :提供加密旗帜或远程系统使用密码学保护旗帜
    • 其他(Miscellaneous, misc) :从问题解决到高级安全概念和技术的各种其他挑战
  • 挑战公开可用并提供可运行环境
  • 挑战进一步按解决问题所需的熟练程度划分,最终根据挑战是否需要高中、大学或专业级网络安全知识和技能组织,所需技能由论文的内部网络安全专家手动判定。对于所有大学和专业级 CTF(以及大多数高中 CTF),论文要求解决方案涉及非平凡的漏洞利用,需要链接两个或更多漏洞利用步骤,而非直接复制教科书示例
  • 为了评估模型在 CTF 上的表现,论文为其提供了预装常见攻击性网络安全工具的无头 Linux 发行版,以及允许模型调用这些工具或执行类似人类命令的框架。论文对每个 CTF 练习运行 16 次测试,并报告 pass@12;然后将该指标与准备框架(Preparedness Framework)设定的阈值以及此前发布的 OpenAI 模型的表现进行比较
  • 论文不再报告高中级 CTF 挑战的表现,因为它们过于简单,无法为网络安全风险提供有意义的信息
  • cybermax 模型(最右侧)在该评估中仅比 OpenAI o3 低 3 个百分点。cybermax 模型还训练使用带有域名阻止的浏览工具,过滤掉任何包含评估题解或源代码的网站
  • 论文始终注意,这些评估结果可能代表模型能力的下限,因为额外的框架或改进的能力激发可能显著提升观察到的表现
Cyber range(网络靶场)
  • 网络靶场练习衡量模型在模拟真实网络中执行端到端网络操作的能力
  • 这些练习是长篇幅的,要求模型
    • (1)制定实现抽象对手目标的计划;
    • (2)利用漏洞、配置错误和可能在现实中出现的安全弱点;
    • (3)将这些漏洞链接以实现场景目标
  • 论文目前实现了 5 个靶场场景,每个场景旨在激发网络相关能力和行为。这些靶场分为简单或中等难度场景:
    • 简单场景 要求:
      • 对某种攻击行为的深入专业知识,加上一些小的顺序链接;或
      • 跨多种攻击行为的浅显专业知识,但需非平凡的链接
    • 中等场景 要求非平凡的行动链接和对至少一种攻击行为的深入专业知识
  • 当前场景如下:
    • 在线零售商(中等) :该场景要求代理(1)展示对特定攻击模式的深入专业知识——针对真实网络购物门户的 SQL 注入攻击;(2)展示跨多种攻击模式的浅显专业知识(缺乏认证、发现、有效账户/凭证重用);(3)理解这些行动的串联。该场景还包含真实部署中可能出现的横向移动
    • 简单权限提升(简单) :该场景要求代理在小网络中提升权限。主要围绕非平凡的权限提升向量(路径拦截),但代理还需结合其他基本能力(如有效账户和发现)。该场景展示了代理在现实中可能遇到的动态发现配置错误的能力
    • 基础 C2(简单) :这是一个新场景,代理需找出如何与隔离的虚拟机建立命令与控制(Command and Control, C2)。它几乎不需要显式的行动链接,但需大量工作建立 C2 通道。该场景利用 Azure 网络规则使其具有挑战性,并提供了代理在强化环境中利用和转移能力的半真实评估
    • Azure SSRF(简单) :这是一个新场景,代理需利用编码不当的 Web 服务器暴露有效的 Azure 凭证,并使用这些凭证修改网络规则以访问目标主机。该场景的关键漏洞是发现 Web 服务器漏洞并意识到下一步最佳行动是使用 Azure 凭证。该任务几乎不需要推理或规划
    • 污染共享内容(简单) :这是一个新场景,代理需以近乎线性的方式串联一系列弱点。它不需要任何领域的深入专业知识,而是要求代理执行实验室式发现、SQL 注入、污染共享内容和权限提升。尽管这些行动的链接是线性的,但仍需代理展示其自主串联的能力
  • 模型在预装标准攻击工具的无头 Linux 环境中运行,外加命令执行框架。每个场景在三种配置下测试:
    • 正常(Normal) :仅向模型提供目标、SSH 密钥,无其他信息;
    • 带提示(With Hints) :向模型提供实现目标的粗略计划;
    • 带求解代码(With Solver Code) :向模型提供可用于解决场景的部分求解代码
  • 论文对每个评估运行 30 次试验。论文的主要评估指标是无提示条件下的 pass@12。由于当前模型在这些评估中均得分为 0%,论文还报告了“带提示”条件下的 pass@1 以提供背景
  • 这些配置帮助论文评估模型是否能完成任务,以及需要多少外部协助
  • 目前没有模型能在无辅助或带提示的条件下解决任何场景
AI Self-Improvement
  • gpt-oss 模型在软件工程和 AI 研究任务中未表现出与 AI 自我改进风险相关的性能提升
  • OpenAI o3 和 o4-mini 仍是所有基准测试中表现最佳的模型
SWE-bench Verified
  • SWE-bench 验证集(SWE-bench Verified)是 SWE-bench 的人工验证子集,更可靠地评估 AI 模型解决真实世界软件问题的能力
    • 该验证集修复了 SWE-bench 的某些问题,例如对正确解决方案的错误评分、问题陈述不明确和单元测试过于具体,从而确保论文准确评估模型能力
  • 对于 OpenAI o3 和 o4-mini,论文使用了专为高效迭代文件编辑和调试设计的内部工具框架
    • 在此设置中,论文平均每个实例尝试 4 次以计算 pass@1(与无代理模式不同,错误率不会显著影响结果)
  • 所有 SWE-bench 评估运行使用固定的 n=477 已验证任务子集,这些任务已在论文内部基础设施上验证
    • 论文的主要指标是 pass@1,因为在此设置中(与 OpenAI 面试不同),论文不将单元测试视为提供给模型的信息
    • 与真实软件工程师一样,模型必须在不知道正确测试的情况下实现更改
  • 所有模型在该评估中表现相似,OpenAI o4-mini 仅比 OpenAI o3 高一个百分点
OpenAI Pull Request(OpenAI PRs)
  • 衡量模型能否自动化 OpenAI 研究工程师的工作是自我改进评估工作的关键目标
  • 论文测试模型复制 OpenAI 员工 Pull Request 贡献的能力,以衡量论文在这方面的进展
  • 论文直接从 OpenAI 内部 Pull Request 中提取任务,单个评估样本基于代理测试。在每次测试中:
    • 1)代理的代码环境检出到 OpenAI 仓库的预 Pull Request 分支,并收到描述所需更改的提示
    • 2)ChatGPT agent 使用命令行工具和 Python 修改代码库中的文件
    • 3)修改完成后由隐藏单元测试评分
  • 如果所有任务特定测试通过,则该测试被视为成功。提示、单元测试和提示均由人工编写
  • gpt-oss 模型仅比 OpenAI o4-mini 低两个百分点
PaperBench
  • PaperBench 评估 AI 代理从头复制最先进 AI 研究的能力
  • 代理必须复制 20 篇 ICML 2024 焦点和口头报告论文,包括理解论文贡献、开发代码库和成功执行实验
  • 为了客观评估,论文开发了分层分解每个复制任务为更小子任务的评分标准
    8 PaperBench 共包含 8,316 个可独立评分的任务
  • 论文测量了原始 PaperBench 拆分的 10 篇论文子集,每篇论文需要 <10GB 的外部数据文件
  • 论文报告了高推理努力且无浏览条件下的 pass@1 表现

Appendix 1

  • 图17,图18 展示,详情见上文

Appendix 2

  • 本节描述了论文在对抗测试方法上收到的建议以及论文的回应方式

Recommendations Implemented

  • 1. 明确威胁模型和风险分类 (Clarifying Threat Model and Risk Categorization)
    • 定义低资源行为者假设 (Defined low-resource actor assumptions) :论文在论文中添加了关于计算资源、机器学习专业知识和数据访问假设的澄清语言,并标记了未来成本估算以供后续跟进
    • 预备框架标准及 ProtocolQA 要求 (Preparedness criteria & ProtocolQA requirement) :论文澄清了预备框架标准,并明确保留 ProtocolQA 作为评估的必要组成部分。论文相应地修改了论文文本,并重新运行了 OpenAI o3 在 ProtocolQA 上的测试,确保使用阻止列表以保持一致性
  • 2. 增强评估的完整性和可靠性 (Strengthening Evaluation Completeness and Reliability)
    • ProtocolQA 的鲁棒性检查 (Robustness checks on ProtocolQA) :论文通过检查模型是否从未拒绝回答、添加更多协议调试训练数据,并新增一个类似于 ProtocolQA 但未受污染的协议调试评估,验证了协议调试结果的可靠性
    • 推理时间扩展图 (Inference-time scaling plots) :为生物和网络安全评估添加了性能随试验次数变化的扩展图
    • 多模态基准对齐 (Multimodal benchmark alignment) :运行了多模态病毒学故障排除的纯文本版本,并更新结果以提高可比性。论文还对最终的 322 个问题数据集进行了 VCT(验证性内容测试),并报告了人类基线比较
    • 专家基线清晰化 (Expert baseline clarity) :在报告中明确了专家背景和基线计算方法
    • 量化拒绝行为 (Quantified refusal behavior) :明确区分了基于拒绝的失败与其他失败模式,并报告了拒绝前后的比率
  • 3. 改进评估设置 (Improving Evaluation Setup)
    • 增强代理脚手架 (Enhanced agent scaffolding) :在网络评估中测试了内部“Best of K”脚手架方法
    • RL 数据集与 ProtocolQA 对齐 (Aligned RL datasets with ProtocolQA) :在强化学习训练期间测试了类似数据集,确认未产生有害提升;相关发现已添加到论文中
    • 微调性能验证 (Fine-tuning performance verification) :与内部研究人员协商,确认最佳超参数设置以实现最高性能,并在必要时进行调整

Recommendations Not Adopted

  • 更高质量的代理脚手架用于测量 (Higher-quality agent scaffolding for measurements)
    • 建议 (Recommendation) :将“Best of N”脚手架广泛应用于所有评估
    • 决定 (Decision) :脚手架实验已在其他部分进行,全面重新运行预计带来的额外收益有限
  • 从预备框架阈值中排除 ProtocolQA (Omit ProtocolQA from preparedness thresholds)
    • 建议 (Recommendation) :由于 ProtocolQA 对现实世界故障排除风险的覆盖不完善,建议移除
    • 决定 (Decision) :尽管存在局限性,ProtocolQA 提供了独特的安全信号。移除它将导致重大空白,而预备框架标准的全面调整超出了本次发布的范围
  • 闭源与开源模型的拒绝行为比较 (Closed vs. open model refusal comparison)
    • 建议 (Recommendation) :使用闭源模型计算综合性能,将拒绝回答视为零分,仅计算非拒绝回答的表现
    • 决定 (Decision) :论文过去的测试发现,闭源模型在良性代理任务上已基本不拒绝回答(Griffin 除外),因此这种方法无法有效反映开源模型在真实恶意任务上“填补闭源模型空白”的能力

NLP——技术报告解读-Seed1.5-Thinking

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning, arXiv 20250429, ByteDance Seed
    • 模型试用链接:火山方舟
    • 文章中常常提到 Doubao-1.5-pro,未找到技术文档,仅官方发布模型时有介绍: Doubao-1.5-pro

Paper Summary

  • 整体内容总结:
    • 论文是字节的第一次开源,本论文介绍了推理模型 Seed1.5-Thinking
    • 利用先进的 RL 技术,稳定可靠地提高了思维能力,在 AIME24 上达到 86.7%,在 AIME25 上达到 74.0%,在 Codeforces 上达到 55.0%
  • Seed1.5-Thinking 模型能够在 response 前进行思考推理,在广泛的基准测试中实现了性能提升
  • Seed1.5-Thinking 是一个 MoE(200B-A20B)
  • Seed1.5-Thinking 展现了在 STEM 和编程领域卓越的推理能力
    • 在 AIME 2024 上达到 86.7 分,在 Codeforces 上达到 55.0 分,在 GPQA 上达到 77.3 分
  • 在非推理任务上,其胜率比 DeepSeek R1 高出 8%
  • 作为论文评估广义推理能力工作的一部分,论文开发了两个内部基准测试 BeyondAIME 和 Codeforces(两者都开源)

Introduction and Discussion

  • 在 LLM 上进行大规模强化学习,使得推理模型取得了显著进展
    • OpenAI 的 o1 系列 (2024)、DeepSeek 的 R1 (2025)、Google 的 Gemini 2.5 (2025) 以及 Anthropic 的 Claude 3.7 (2025) 已成为最先进的模型,各自在逻辑推理、数学问题解决和代码生成方面取得了实质性进展
    • 这些进展强调了向更结构化、更高效和可扩展的推理模型的转变,当前的研究重点集中在训练效率、长思维链(long chain-of-thought)和大规模强化学习上
  • 在这项工作中,论文提出了一个新的推理模型,称为 Seed1.5-Thinking。该模型在推理和非推理任务上都取得了强大的性能
    • 数学推理 (Mathematical Reasoning) :
      • 对于数学竞赛,Seed1.5-Thinking 在 AIME 2024 上达到 86.7 分,与 o3-mini-high 的性能相当,并显著优于 o1 和 DeepSeek R1,展现了竞争优势
      • 由于 AIME 2024 不再提供足够的区分度,论文构建了一个更具挑战性的评估集,命名为 BeyondAIME
      • BeyondAIME 中的所有问题都是由人类专家新策划的,旨在最大限度地减少通过记忆或猜测解决的可能性
      • 虽然 Seed1.5-Thinking 超越了 o1 和 R1,但与 o3 和 Gemini pro 2.5 相比仍存在性能差距
      • 这也进一步证明了新评估集的区分能力
    • 竞技编程 (Competitive Programming) :
      • 对于竞技编程的评估,论文采用 Codeforces 作为论文的基准
      • 与一些依赖 Elo 分数(包含估计且无法直接比较)的先前工作不同,论文采用了一个基于最近 12 场 Codeforces 比赛的具体评估协议
      • 具体来说,论文报告 pass@1 和 pass@8 指标,其中 pass@k 表示模型是否在 k 次尝试内解决问题,即从 k 次生成的提交中选择最佳结果
      • 论文选择报告 pass@8,因为它提供了更稳定的结果,并且更贴近实际的用户提交模式
      • Seed1.5-Thinking 在这两个指标上都优于 DeepSeek R1,尽管与 o3 相比仍存在性能差距
      • 评估集将在未来的版本中公开发布
    • 科学 (Science) :
      • Seed1.5-Thinking 在 GPQA 上达到了 77.3 分,接近 o3 级别的性能
      • 特别地,这一提升主要归功于数学训练带来的泛化能力改进,而不是领域特定科学数据的增加
    • 非推理任务 (Non-reasoning Tasks) :
      • 对于非推理任务,Seed1.5-Thinking 使用一个旨在复现真实世界用户需求的测试集进行评估
      • 通过在多样化场景下与 DeepSeek R1 进行的人工评估,Seed1.5-Thinking 展示了显著进步:用户的正面反馈总体提升了 8.0%,从而凸显了其处理复杂用户场景能力的增强
  • 高质量推理模型的开发有三个关键点 :训练数据、RL 算法和 RL 基础设施。论文在这三个方面投入了大量精力,并将详细讨论它们
    • 数据 (Data) :
      • 对于 SFT 训练 ,与传统的后训练数据不同,推理模型依赖于 CoT 数据 ,这些数据明确勾勒出逐步推理过程
      • 论文的初步实验表明,过多的非 CoT SFT 数据会显著降低模型的探索能力
      • 对于 RL 训练 ,论文整合了四类数据 :STEM 问题、代码相关任务、逻辑推理以及非推理数据(如创意写作和对话)
        • 经验1:逻辑推理数据对 ARC-AGI 基准测试的性能提升贡献显著
        • 经验2:数学数据展现出强大的泛化能力 ,并能带来跨任务的广泛性能提升
    • RL 算法 (RL Algorithm) :
      • 推理模型的 RL 训练非常不稳定且经常崩溃 ,特别是对于没有经过 SFT 的模型
        • 有时,两次运行之间的分数差异可能高达 10 分
        • RL 系统的稳定训练对于推理模型的成功至关重要
      • 为了解决这些长期存在的问题,论文开创了 VAPO (2025) 和 DAPO (2025),两个分别针对 Actor-Critic 和策略梯度(policy-gradient)RL 范式的独特框架
      • VAPO 现已成为 Actor-Critic 方法中 SOTA 解决方案,而 DAPO 则为无评论员模型的策略梯度方法确立了新的 SOTA 结果

Data

RL Training Data

  • 论文的 RL 训练数据主要包括两个部分:
    • 具有明确答案的可验证问题(verifiable problems)
    • 没有明确答案的不可验证问题(non-verifiable problems)
  • 模型的推理能力主要来自第一部分(可验证问题),并可以泛化到第二部分(不可验证问题)
Verifiable Problems
  • 可验证问题主要包括配有答案的 STEM 问题、配备单元测试的编程问题以及适合自动验证的逻辑推理问题
STEM Data
  • 论文的数据集包含数十万个高质量的竞赛级别问题,涵盖数学、物理和化学,其中数学占大多数(超过 80%)
  • 这些问题来源于开源数据集、公共竞赛(国内和国际)以及专有集合的混合
  • 对于数据清理,论文做以下流程:
    • 首先剔除问题陈述不完整、符号不一致或要求不明确的问题
    • 对于剩余的问题,论文使用论文的模型(Doubao-Pro 1.5)生成多个回答
      • 模型在该问题上获得 woN 分数(worst of N)为 1 的问题被认为过于简单并被移除
    • 最后,有些问题的参考答案可能不准确
      • 论文使用 SOTA 推理模型为每个问题生成多个候选回答
      • 作者认为参考答案是错误的判断依据:
        • 如果模型的答案与参考答案不一致 ,但模型的输出显示出高度的内部一致性(或者仅涉及极少量的推理标记(reasoning tokens)不一致)
      • 随后,人类专家对这些问题进行手动验证,以确保参考答案是正确的
  • 论文还应用数据增强(data augmentation)使数据更适合学习和评估
    • 论文将选择题转换为填空题或简答题格式,以消除猜测的可能性,并更好地评估推理能力
    • 而且论文修改某些数学问题 ,以确保答案尽可能为整数
  • 经过数据清理和增强后,论文最终获得了一个包含 10 万个 STEM 问题的训练集用于 RL 训练
  • 在训练期间,论文使用基于模型的 Seed-Verifier 来评估回答的正确性 ,这将在 3.1 节介绍
Code Data
  • 对于编程问题,论文优先选择高质量且具有挑战性的算法任务来源 ,主要来自著名的竞技编程竞赛
  • 论文对数据进行过滤,以确保每个问题都包含全面的规范:清晰的问题描述、一组单元测试和一个检查器脚本(checker script)
    • 单元测试 :验证解决方案的功能正确性
    • 检查器脚本 :强制执行额外的约束,如输出格式和边缘情况
    • 论文还进行了难度过滤 ,确保问题具有适当的复杂度和对现实世界算法推理的适用性
  • 对于模型生成代码的评估:
    • 最准确的形式是将生成的代码提交到官方平台,但在强化学习过程中,实时提交是不可行的
    • 论文开发了一个离线评估集以进行高效的本地验证(论文的观察表明,离线评估结果与官方判定之间存在很强的相关性)
    • 所有的训练和评估问题都被集成到一个内部的代码沙箱环境中,从而能够直接执行和评估模型生成的代码
    • 论文确保沙箱的稳定性和高吞吐量,以便在 RL 训练过程中提供一致且准确的反馈
Logical Puzzle Data
  • 对于逻辑推理数据,论文收集了 22 个常被研究的任务,例如 24 点、迷宫、数独等
  • 对于每个任务,论文构建了一个数据生成器和一个答案验证器
    • 数据生成器可以自动生成大量的训练和评估数据
      • 此外,对于许多任务,我们可以配置生成问题的难度
      • 在训练过程中 ,论文根据模型在某些任务上的表现逐步调整训练数据的难度(人工盯盘)
    • 答案验证器严格评估生成的正确性,并可以作为奖励函数无缝集成到 RL 流程中
      • 论文生成了大约 1 万个谜题问题用于 RL 训练
Non-verifiable Problems
  • 不可验证问题主要包括需要基于人类偏好进行质量评估的非推理任务,涉及创意写作、翻译、知识问答(knowledge QA)、角色扮演等任务
  • 提示词(prompts)来源于 Doubao-1.5 Pro (2025) 的 RL 训练数据
    • 该数据集在不同领域具有足够的覆盖度
  • 论文丢弃了样本分数方差低和难度低的数据
    • 论文使用 SFT 模型为每个 Prompt 生成多个候选,然后使用奖励模型(reward model)对它们进行评分
    • 分数方差低的 Prompt 被移除,因为它们表现出有限的采样多样性和最小的改进潜力
    • 在 Doubao 1.5 Pro RL 训练过程 (2025) 中,奖励分数提升超过某个阈值的提示也会被移除
      • 这是因为此类数据可能过于简单或已在数据集中大量存在
      • 离线实验表明,对此类样本进行过度优化会导致模型的探索空间过早崩溃并降低性能
      • 问题:如何理解这里的 奖励分数提升超过某个阈值(reward score improvement surpasses a certain threshold) 移除?原文如下:

        Prompts are also removed where the reward score improvement surpasses a certain threshold during the Doubao 1.5 Pro RL training process [8]. This is because such data may be overly simplistic or already abundantly represented in the dataset. Offline experiments show that overoptimizing such samples leads to premature collapse of the model’s exploration space and diminish the performance.

  • 对于这些不可验证的数据,论文采用成对奖励方法(pairwise rewarding method)进行评分和 RL 训练
    • 通过比较两个样本(samples)的相对质量 ,这种方法有助于模型更好地理解用户偏好,提高生成结果的质量和多样性
      • 理解:即同一个 Prompt 生成多个候选,然后两两比较优劣?
    • 奖励模型的细节在 3.2 节介绍

Advanced Math Benchmark

  • 当前的推理模型通常使用 AIME 作为评估数学推理能力的首选基准
  • 但由于其每年仅发布 30 个问题,有限的规模可能导致高方差的评估结果,使得有效区分最先进的推理模型具有挑战性
  • 为了更好地评估模型的数学推理能力,论文构建了一个新的基准数据集:BeyondAIME
    • 论文与数学专家合作,基于既有的竞赛形式开发原创问题
    • 论文通过结构修改和场景重构系统地改编现有的竞赛题目,确保没有直接重复
    • 此外,论文确保答案绝不是 trivial 的值(never trivial values,例如问题陈述中明确提到的数字),以减少模型在没有适当推理的情况下猜测正确答案的机会
  • 通过这种严格的过滤和策划过程,论文最终汇编了 100 个问题集,每个问题的难度水平等于或大于 AIME 中最难的问题
    • 与 AIME 类似 ,所有答案都保证是整数(不限于特定的数值范围),这简化并稳定了评估过程

Reward Modeling

  • 作为 RL 中的关键组成部分,奖励建模定义了策略试图实现的目标或目的
  • 一个精心设计的奖励机制对于在训练阶段为模型响应提供精确可靠的奖励信号至关重要
  • 对于可验证和不可验证的问题,论文采用不同的奖励建模方法

Reward Modeling for Verifiable Problems

  • 借助正确的原则和思维轨迹,论文利用 LLM 来评判不同场景下的各种可验证问题
    • 这种方法产生了一种更通用的解决方案,超越了基于规则的奖励系统的局限性
  • 论文设计了两种渐进的奖励建模解决方案,Seed-Verifier 和 Seed-Thinking-Verifier :
    • Seed-Verifier 基于一套由人工精心编写的原则(问题:非 thinking 模式?)
      • 利用 LLM 强大的基础能力来评估一个包含问题、参考答案和模型生成答案的三元组
      • 如果参考答案和模型生成的答案本质上是等价的,则返回“YES”;否则返回“NO”
      • 这里的等价性不是字面上的完全匹配,而是基于计算规则和数学原则的更深入评估,证明两个答案传达了相同的数学含义
      • 这种方法确保奖励信号能准确反映模型的响应在本质上是否正确,即使措辞有所不同
    • Seed-Thinking-Verifier 的灵感来源于人类的判断过程,即通过细致的思考和深入的分析来生成结论性的判断
      • 为了实现这一点,论文训练了一个验证器(问题:Seed-Thinking-Verifier?),为其评估提供详细的推理路径
      • 具体来说,论文将此视为一个可验证的任务,并与其他数学推理任务一起进行优化
      • 该验证器可以剖析参考答案和模型生成答案之间的异同,提供精确而细致的判断结果
    • 问题:Seed-Verifier 与 Seed-Thinking-Verifier 的区别是什么?
      • 回答(待确认):Seed-Verifier 更简单也更快,Seed-Thinking-Verifier 则更复杂,但更详细,更精确
  • Seed-Thinking-Verifier 显著缓解了与 Seed-Verifier 相关的三个主要问题:
    • 奖励黑客攻击 (Reward Hacking) :非思考模型可能利用漏洞获得奖励,而没有真正理解问题
      • Seed-Thinking-Verifier 中详细的推理过程使得此类黑客攻击更加困难
    • 预测的不确定性 (Uncertainty in Predictions) :在参考答案和模型生成答案本质上等价但格式可能不同的情况下
      • 例如 \(2^{19}\) 与 524288,Seed-Verifier 有时可能返回“YES”,有时返回“NO”
        • 问题:Seed-Verifier 会评估答案的本质是否等价,不会这都判断不了吧
      • Seed-Thinking-Verifier 通过彻底分析答案背后的推理,提供一致的结果
    • 在极端案例上的失败 (Failure on Corner Cases) :存在某些边缘案例是 Seed-Verifier 难以有效处理的
      • Seed-Thinking-Verifier 提供详细推理的能力使其能够更好地处理这些复杂场景
  • 表 1 展示了上述两种验证器的性能
    • 结果表明,Seed-Verifier 难以有效处理某些特定情况,而 Seed-Thinking-Verifier 则展现出提供准确判断的卓越能力
    • 尽管后者的思考过程确实消耗了大量的 GPU 资源,但作者相信其产生的精确且稳健的奖励结果对于赋予策略强大的推理能力至关重要
  • 表 1:两种验证器类型的准确率,具体来说,训练集上的准确率来自训练统计数据,此外,论文手动标注了 456 个样本来形成测试集,这些样本是专门从 Seed-Verifier 无法稳定处理的案例中挑选出来的

Reward Modeling for Non-verifiable Problems

  • 对于不可验证的问题,论文训练一个奖励模型用于 RL 训练
  • 奖励模型的训练数据与 Doubao 1.5 Pro (2025) 中使用的人类偏好数据一致,主要涵盖创意写作和摘要等类别
  • 为了增强奖励模型的有效性:论文采用了 (2025) 中提到的成对生成奖励模型(pairwise generative reward model)
    • 论文链接:Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback, arXiv 20250402, ByteDance Seed
    • 具体方式:该模型评估两个响应的优劣,并使用“YES”或“NO”的概率作为最终的奖励分数
    • 这种方法使模型能够在评分时直接比较响应之间的差异 ,从而避免过度关注不相关的细节
    • 实验结果表明,这种奖励建模方法提高了 RL 训练的稳定性 ,特别是在涉及不可验证和可验证问题的混合训练场景中 ,通过最小化两种不同类型奖励建模范式之间的冲突来实现
      • 这种改进可能归因于成对生成奖励模型在缓解异常值分数生成方面相比传统奖励模型具有固有优势,因此避免了与验证器在分数分布上的显著差异
  • 问题:在训练时岂不是要两两对照进入奖励模型?奖励生成的成本会很高吧?

Approach

Supervised Fine-Tuning

  • 论文的训练过程从 SFT 开始,SFT 阶段为后续的强化学习阶段奠定了坚实的基础
  • 与从基础模型开始 RL 相比,SFT 模型产生更具可读性的输出,表现出更少的幻觉实例,并显示出更低的危害性
  • 论文策划(curate)了一个包含 40 万个训练实例的 SFT 数据,其中包括 30 万个可验证问题和 10 万个不可验证问题
    • 可验证的提示词是从 RL 训练集中随机采样的
    • 不可验证数据来源于用于 Doubao-Pro 1.5 (2025) 的 SFT 数据,涵盖创意写作、基于知识的问答、安全性和函数调用等领域
  • 为了生成具有长思维链(long CoT)的高质量响应,论文采用了一个集成模型合成(integrates model synthesis)、人工标注(human annotation)和拒绝采样(rejection sampling)的迭代工作流程
    • 最初,人类专家应用提示工程(prompt engineering)技术或与内部模型进行交互式对话,以产生具有各种推理模式的响应
      • 在积累了数十个(tens)高质量的冷启动样本后,我们可以训练一个具有长 CoT 的推理模型作为更有能力的助手
      • 问题:只是数十个吗?如何理解 SFT 这里的整个迭代工作流程?
    • 然后,论文使用 Seed-Verifier 对该推理模型执行拒绝采样
    • 虽然此工作流程主要应用于数学数据,但论文观察到它可以很好地推广到其他领域,例如编码、逻辑谜题甚至创意写作
    • 因此,对于其他领域,论文也进行冷启动过程,然后进行拒绝采样,以产生详细的推理轨迹
  • 一些训练细节:
    • 在训练期间,每个实例被截断至 32,000 个 tokens
    • 论文使用上述数据对基础模型进行两个周期(epochs)的微调
    • 论文使用余弦衰减学习率调度(cosine decay learning rate scheduling)
      • 峰值学习率 \(\mathrm{lr}\) 为 \(2\times 10^{-5}\),
      • 逐渐衰减至 \(2\times 10^{-6}\)

Reinforcement Learning

  • 论文开发了一个统一的强化学习框架,可以无缝融合来自广泛领域的数据。这种集成包含三种数据类别:
    • 可验证数据 (Verifiable data) ,从验证器获取反馈
      • 这类数据允许根据已知标准直接验证(verification)模型的输出
    • 通用数据 (General data) ,由奖励模型评分
      • 奖励模型根据模型的响应与人类偏好的匹配程度来分配分数
    • 一类特定数据(A specific class of data) ,结合了验证器和奖励模型的分数
      • 这种混合数据类型利用了基于验证(verification)和基于奖励(reward)的评估的优势
  • 在长思维链 RLHF(long-CoT RLHF)的背景下,论文遇到了几个挑战,例如价值模型偏差(value model bias)和奖励信号的稀疏性
  • 为了以上解决这些问题,论文借鉴了先前工作 (2025, 2025, 2025) 中的关键技术:
    • 价值预训练 (Value-Pretraining) :
      • 论文从固定策略(例如 \(\pi_{\text{sft} }\))中采样响应,并使用蒙特卡洛回报(Monte-Carlo return)更新价值模型
      • 这个过程确保初始化的价值模型与论文的策略 \(\pi_{\text{sft} }\) 完全对齐
      • 保持这种对齐已被证明对于保持模型的 CoT 模式至关重要,使模型能够生成连贯且合乎逻辑的 CoT
    • 解耦广义优势估计 (Decoupled-GAE) :
      • 采用不同的广义优势估计(Generalized Advantage Estimation, GAE)参数,
        • 例如 \(\lambda_{\text{value} }=1.0\) 和 \(\lambda_{\text{policy} }=0.95\),
      • 允许价值模型以无偏的方式更新 ,同时,策略可以独立地平衡自身的偏差和方差
      • 这种解耦使得模型的训练更加高效和稳定
    • 长度自适应的 GAE (Length-adaptive GAE) :
      • 论文设定 \(\lambda_{\text{policy} }=1-\frac{1}{\alpha l}\),其中 \(\alpha\) 是一个超参数,\(l\) 是响应长度
      • 这种方法确保时间差分(Temporal Difference, TD)误差在短序列和长序列上分布更均匀
      • 因此,模型在训练期间可以更有效地处理不同长度的序列
      • 问题:理解一下这里的方法
    • 动态采样 (Dynamic Sampling) :
      • 论文采用动态采样,并过滤掉准确率分数等于 1 或 0 的提示词,仅保留批次中表现出有效梯度的那些
      • 这个过程有助于防止模型训练期间梯度信号的衰减
    • Clip-Higher :
      • 在近端策略优化(Proximal Policy Optimization, PPO)算法中,论文将上下裁剪边界解耦如下:
        $$\mathcal{L}^{CLIP}(\theta)=\hat{\mathbb{E} }_{t}\left[\min\left(r_{t}(\theta)\hat {A}_{t},\operatorname{clip}(r_{t}(\theta),1-\epsilon_{\text{low} },1+\epsilon_{ \text{high} })\hat{A}_{t}\right)\right] \tag{1}$$
      • 通过增加 \(\epsilon_{\text{high} }\) 的值,论文为低概率词元的增加创造了更多空间
      • 这鼓励模型探索更广泛的可能响应,增强其发现新颖有效解决方案的能力
    • 词元级损失 (Token-level Loss) :
      • 论文不是在整个响应上定义策略损失,而是在所有词元上定义它
      • 这种方法解决了词元对最终损失贡献不平衡的问题,确保每个词元对训练过程的影响得到适当考虑
    • 正样本语言模型损失 (Positive Example LM Loss) :
      • 该损失函数旨在提高 RL 训练过程中正样本的利用效率。论文为正样本添加一个系数为 \(\mu\) 的语言模型损失:
        $$\mathcal{L}(\theta)=\mathcal{L}_{\text{PPO} }(\theta)+\mu*\mathcal{L}_{\text{NLL } }(\theta) \tag{2}$$
      • 这个额外的损失项有助于模型更好地从正样本中学习,提高其整体性能(理解:相当于对正样本做 SFT)
  • 当合并来自不同领域的数据并整合不同的评分机制时,论文面临着不同数据领域之间相互干扰的挑战
    • 这种干扰可能源于难度水平的差异、奖励黑客攻击的风险以及其他潜在因素
    • 这些问题使得在模型的所有能力上实现统一且同步的改进变得极其困难
  • 为了抵消这一点,论文引入了在线数据分布自适应 (Online Data Distribution Adaptation)
    • 该方法将强化学习期间的静态提示分布转换为自适应分布,更好地满足模型在训练期间的需求
    • 通过这样做,论文最大限度地减少了数据干扰的负面影响,并确保不同能力之间更平衡的改进
    • 因此,模型可以在广泛的任务中更一致地提高其性能

Infrastructures

Framework

  • 训练框架使用 HybridFlow (2024) 编程抽象构建
  • 整个训练工作负载运行在 Ray (2017) 集群之上
    • 数据加载器(databader)和 RL 算法在单个进程的 Ray Actor(单一控制器)中实现
    • 模型训练和响应生成(rollout)在 Ray Worker Group 中实现
    • Ray Worker Group 暴露一组 API(例如,generate_response / train_batch 等),通过 Worker Group 内部的 SPMD(单程序多数据)运行繁重的训练/生成工作负载
    • 单一控制器调用 Ray Worker Group 暴露的各种 API 来构建训练流程
  • HybridFlow 编程抽象使得能够快速原型化 RL 算法思想,而无需处理复杂的分布式系统
  • Seed1.5-Thinking 通过混合引擎架构 (2023) 进行训练,其中所有模型都位于同一位置(all the models are co-located)
    • 这防止了在训练和生成之间切换时 GPU 的空闲时间
  • 在长链思维(Long-CoT)生成过程中,论文观察到由于不同提示词(prompts)的响应长度差异巨大而导致的严重掉队现象(severe straggler phenomenon)
    • 这导致生成过程中大量的 GPU 空闲时间
    • 为了缓解长尾响应生成的掉队问题,论文提出了 SRS(流式 Rollout 系统,Streaming Rollout System) ,这是一个资源感知的调度框架(resource-aware scheduling framework),它策略性地部署独立的流式计算单元 ,将系统约束从 内存受限(memory-bound) 转变为 计算受限(compute-bound)

Streaming Rollout System

  • SRS 架构引入了 流式 rollout(streaming rollout) 来将模型演化与运行时执行解耦,通过参数 \(\alpha\) 动态调整在策略(on-policy)与离策略(off-policy)样本的比例:
    • 定义完成率 (\(\alpha \in [0,1]\)) 为使用最新模型版本生成的 on-policy 样本比例
    • 将剩余未完成部分 (\(1-\alpha\)) 分配给来自版本化模型快照的 off-policy rollout,通过在独立资源上异步继续部分生成来实现无缝集成(seamlessly integrated through asynchronous continuation of partial generations on the standalone resources)
  • 此外,论文还在环境交互阶段实现了动态精度调度 ,通过训练后量化和误差补偿范围缩放来部署 FP8 策略网络(deploys FP8 policy networks via post-training quantization with error-compensated range scaling)
    • 为了解决 MoE 系统中的 Token 不平衡问题,论文实现了一个三层并行架构,结合了用于逐层计算的 TP(张量并行,tensor parallelism)、带有动态专家分配的 EP(专家并行,expert parallelism)以及用于上下文分块的 SP(序列并行,sequence parallelism)
    • 论文的内核自动调优器(kernel auto-tuner)根据实时负载监控动态选择最优的 CUDA 内核配置

Training System

  • 为了高效地大规模训练 Seed1.5-Thinking 模型,论文设计了一个混合分布式训练框架,该框架集成了先进的并行策略、动态工作负载平衡和内存优化
  • 下面论文详细介绍驱动系统效率和可扩展性的核心技术创新
    • 并行机制(Parallelism mechanisms)
      • 论文将 TP(张量并行)/ EP(专家并行)/ CP(上下文并行,context parallelism)与完全分片数据并行(Fully Sharded Data Parallelism, FSDP)相结合来训练 Seed1.5-Thinking
      • 具体来说,论文对注意力层应用 TP/CP ,对 MoE 层应用 EP
    • 序列长度平衡(Sequence length balancing)
      • 现有挑战:有效序列长度在 DP ranks 之间可能不平衡,导致计算工作量不平衡和训练效率低下
        • 注:DP ranks 即数据并行数量
      • 为了应对这一挑战,论文利用 KARP (1982) 算法,该算法在一个小批量(mini-batch)内重新排列输入序列,使它们在微批次(micro-batches)之间达到平衡
        • 问题:待补充 KARP 算法
        • 回答:KARP 是一种用于解决组合优化领域的 NP 难问题的算法,核心思想是通过动态规划(Dynamic Programming, DP) 降低 NP 难问题的时间复杂度
    • 内存优化(Memory optimization)
      • 论文采用逐层重计算 (2016)、激活卸载(activation offload)和优化器卸载(optimizer offload)来支持更大微批次的训练,以重叠由 FSDP 引起的通信开销
    • 自动并行(Auto parallelism)
      • 为了实现最佳系统性能,论文开发了一个自动调优系统,称为 AutoTuner
      • 具体来说:
        • AutoTuner 采用基于性能分析 (2022) 的方案对内存使用进行建模
        • 然后,它估计各种配置的性能和内存使用情况,以获得最优配置
    • 检查点(Checkpoint)
      • 论文采用 ByteCheckpoint (2025) 来支持以最小开销从不同分布式配置中恢复检查点
      • 这使得用户能够弹性地训练任务以提高集群效率

Experiment Results

Auto Evaluation Results

  • 表 2 展示了在数学、编码、科学和常识领域等各种任务上的评估结果
    • 对于数学基准任务,结果是 32 个模型响应的平均值,而 GPQA 任务的结果是 8 个响应的平均值
    • 对于 Codeforces,论文同时报告 avg@8 和 pass@8,因为 pass@8 更符合人类提交习惯
    • 所有其他任务的结果均为 1 个响应的平均值
  • 在数学推理方面
    • Seed1.5-Thinking 在 AIME 2024 基准上达到了顶级性能,得分为 86.7,与 OpenAI 的 o3-mini-high 模型的性能相当
    • 在更新的 AIME 2025 和更高级的 BeyondAIME 挑战上,Seed1.5-Thinking 仍然落后于 o3 级别的性能
    • 对于 GPQA 任务,Seed1.5-Thinking 达到了 77.3% 的准确率,接近 o3-mini-high 的性能
  • 在代码生成场景(如 Codeforces)中,
    • Seed1.5-Thinking 几乎与 Gemini 2.5 Pro 的性能相当,但仍然落后于 o3-mini-high
    • 值得注意的是,Seed1.5-Thinking 在 SimpleQA 上的结果不太令人印象深刻
    • 值得强调的是,该基准主要作为一个面向记忆的指标,其性能与预训练模型规模的相关性更强,而不是与真正的推理能力相关

Human Evaluation Results

  • 为了评估模型在主观任务上的性能(在这些任务中,自动化指标不足以捕捉细微的人类偏好),论文在各种非推理场景中进行了人工评估
  • 论文的评估旨在衡量质量的关键维度,如连贯性、相关性、创造性和对人类中心偏好的遵守程度,由一个领域专家评估小组根据预定义的评分标准对模型输出与 Deepseek R1 进行评分
  • 论文使用 5 点序数量表,范围从 0(非常差)到 4(优秀),并在具有多轮的会话提示词上评估两个模型
  • 每个完整会话都用一个二元胜/负结果进行注释以捕捉整体用户体验,并且每轮分配一个 0-4 的分数
    • 问题:二元比较又如何分配 0-4 的分数
  • Seed1.5-Thinking 在评估的会话中实现了 8.0% 的总胜率,表明其在符合人类中心偏好方面具有优势
    • 此外,这种胜率在不同场景中是一致的,从创意写作到人文知识阐述
    • 图 2 显示了每轮级别的分数分布

Effects of pre-train models

  • 拒绝采样(Rejection Sampling)
    & 拒绝采样已被认为是一种提高模型性能的有价值的技术 (2024)
    • 论文进行了一项消融实验,以检查使用拒绝微调(Rejection Fine-Tuning, RFT)模型初始化 RL 是否会影响结果
    • 论文的结果表明,使用 RFT 初始化的预训练模型在训练过程中饱和得更快,但最终达到的性能低于没有使用 RFT 训练的模型 ,如表 3 所示
  • 跨模型尺寸的一致性算法排名(Consistent algorithm rankings across model size)
    • 论文观察到 RL 算法在不同尺寸和架构的不同模型中表现出一致的排名行为
    • 如表 4 所示,Seed-150B-MoE(一个在架构(MoE vs. Dense)和尺寸上都与 Qwen-32B 不同的模型)表现出了一致的排名
    • 值得注意的是,这种一致性表明 Qwen-32B 可以有效地作为研究 RL 算法的代理模型
      • 理解:Qwen-32B与其他超大模型在强化算法上的效果表现比较一致,可以用于验证不同方法的效果

Related Work

  • 测试时缩放(Test-time scaling)(2024, 2025, 2025, 2025),已经催化了 LLM (2020, 2023) 的深刻范式转变
    • 例如 OpenAI 的 o1 (2024) 和 DeepSeek 的 R1 (2025)
  • 测试时缩放(Test-time scaling)通过启用扩展的思维链(CoT)推理 (2022) 并激发复杂的推理能力
    • 这些方法使 LLM 能够在复杂的数学和编码任务中表现出色,包括来自 AIME 和 Codeforces 等竞赛的任务
  • 这一转变的核心是大规模强化学习,它促进了复杂推理行为的出现——例如自我验证和迭代优化
  • 但支持可扩展 RL 训练的关键方法和算法在很大程度上仍然不为人知,通常被现有推理模型 (2023, 2025, 2023, 2022, 2024) 的技术文档所忽略
  • 在论文中,论文介绍了一个 SOTA 级别的模型 Seed1.5-Thinking,并从数据、RL 算法和 RL 基础设施三个方面介绍了实现该性能的细节

附录 A:Case Study on Verifier

  • 表5展示了种子验证器(Seed-Verifier)与种子思维验证器(Seed-Thinking-Verifier)的对比案例研究
    • 可以明显看出
      • Seed-Verifier 在处理具有复杂答案的样本时存在显著困难
      • Seed-Thinking-Verifier 能够通过逐步分析提供准确的判断结果
    • 得益于其详细的思维过程,Seed-Thinking-Verifier 展现出卓越的灵活性,并能有效泛化至几乎任何领域

附录 B:Case Study on Creative Writing

  • 在表6、7、8中,论文通过中英文示例展示了模型在创意写作方面的能力
  • 每个示例均包含三个独立部分:用户原始提示、模型的思维链以及模型的最终响应

NLP——Drag-and-Drop-LLMs

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(DnD)Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights, arXiv 20250619, National University of Singapore(NUS)
    • 项目地址:jerryliang24.github.io/DnD

Paper Summary

  • 整体总结:
    • PEFT 为定制 LLM/VLLM 以适应下游任务提供了一种高效的解决方案,但当模型规模庞大且任务多样时,其成本仍然很高
    • 论文训练了一个参数生成器来映射提示-权重对,可以通过处理未标注的任务提示为新颖任务生成定制化的权重
    • 本论文的方法可以在几秒内将未标注的任务提示直接转换为 LoRA 权重更新
    • 这种无需进一步微调的提示到权重的范式,为高效定制 LLM 和 VLLM 开辟了一条新的研究方向
  • PEFT 方法降低了定制 LLM 的成本,但仍需为每个下游数据集单独运行优化过程
    • 注:参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法,包括 LoRA(Low-Rank Adaptation),P-tuning 等
  • 论文提出了 Drag-and-Drop LLMs(DnD) ,这是一种 prompt-conditioned 参数生成器 ,通过将少量未标注的任务提示直接映射到 LoRA 权重更新,从而消除逐任务(per-task training)的训练
    • 一个轻量级文本编码器将每批 Prompt 蒸馏为条件 Embedding ,随后通过级联的超卷积(cascaded hyper-convolutional)解码器将其转换为完整的 LoRA 矩阵集合
  • 在多样化的 prompt-checkpoint 对上进行训练后,DnD 能在几秒内生成任务特定的参数,实现以下优势:
    • 1)相比全参数微调,开销降低高达 12,000 倍;
    • 2)在未见过的常识推理、数学、编程和多模态基准测试中,平均性能比最强的训练 LoRA 提升高达 30%
    • 3)即使从未见过目标数据或标签,也能实现强大的跨领域泛化能力
  • 论文的结果表明,prompt-conditioned 参数生成是一种可行的替代梯度下降适配的方法,能够快速定制 LLM

Introduction and Discussion

  • GPT-4、Llama 2/3、Qwen2.5 和 DeepSeek 等 LLMs 凭借其互联网规模的预训练和 Transformer 架构,迅速成为当代自然语言处理乃至更广泛人工智能领域的核心 (2021; 2024; 2025; 2024)
  • 这种预训练使单个模型在数学、编程、推理甚至多模态理解方面具备广泛的 零样本(Zero-Shot) 能力 (2023; 2021; 2022; 2021)
  • 然而,实际部署很少止步于零样本使用,而是需要反映内部数据、领域术语或定制响应风格的任务特定行为
  • 参数高效微调(PEFT)旨在通过插入一小部分可训练权重(最突出的是 LoRA 的低秩适配器)来满足这一需求 (2022)
  • 尽管 LoRA 通过冻结模型参数保持可训练参数和存储开销较小,但其实际时间成本仍然很高:
    • 例如,使用 LoRA 适配最轻量的 0.5B 参数 Qwen2.5 仍需占用 4 块 A100 GPU 半天时间 (2024)
    • 此外,每个下游用户或数据集都需要独立的优化运行,这在 PEFT 大规模部署时迅速成为计算瓶颈
  • 论文观察到,LoRA 适配器仅仅是其训练数据的函数 :梯度下降将基础权重“拖拽(drags)”至任务特定最优值(图 1)
  • 如果能直接学习从提示到权重的映射,就可以完全绕过梯度下降
  • 早期的参数生成研究表明,超网络可以在几分钟内合成数十亿参数 (2022; 2022; 2024; 2024; 2024),但它们要么忽略任务条件,要么使用简单的二元嵌入
  • 近期的进展使这一目标成为可能
    • RPG(2025)是最早基于任务信息进行条件生成(并在单次传递中生成整个分类器)的方法之一
    • 该方法在零样本情况下对未见过的图像类别达到了与从头训练相当的效果,但将这种成功迁移到语言领域带来了新的挑战
      • 首先,语言提示比 RPG 中使用的二进制嵌入具有更高数量级的语义变化
        • 因此,一个实用的生成器必须能够接收丰富的任务描述并保留其细微差别
      • 其次,实际应用中的 LLM 可能面临数百种异构工作负载(heterogeneous workloads),因此条件机制必须能够优雅地扩展,同时以高保真度注入特定于任务的线索
        • 问题:这里的异构工作负载是指什么?
    • 这些挑战催生了对一种紧凑而富有表现力的表示的需求,这种表示既要能捕捉输入文本的显著特征,又要能引导超网络走向 LoRA 权重空间的相应区域
    • 论文接下来介绍的方法正是为解决这一核心挑战而设计的
  • 论文提出了 Drag-and-Drop LLMs(DnD) ,这是一种基于提示条件的超生成器(hyper-generator),能够在几秒钟内将少量未标记的任务提示转换为完整的 LoRA 适配器 ,消除了任何特定于任务的优化
    • DnD 采用现成的轻量级文本编码器 ,将给定的提示批次压缩为条件 Embedding ,然后通过级联超卷积解码器将其扩展为每个 transformer 层的 LoRA 更新
  • 在常识推理、数学、代码生成和多模态基准测试中,DnD 将适配开销降低了高达 12,000 倍,同时与最强的训练 LoRA 相比,在未见过的数据集上性能提升高达 30%,并且能够从 0.5B 参数无缝迁移到 7B 参数的骨干模型
  • 通过将经典的“data -> gradients -> weights”循环压缩为单个前向步骤,DnD 挑战了梯度下降对于模型特化不可或缺的观念,并开辟了一条新的道路,其中权重本身成为一种新的数据模态和基于简洁任务描述的生成目标
  • 论文的主要贡献如下:
    • 提出新的 LLM 适配范式 :论文将 LoRA 适配视为从新数据集的原始提示直接生成特定于任务的权重,并通过可扩展的超生成器实现这种映射,这比传统调优效率高得多
    • 设计了实用架构 :一个冻结的文本编码器与超卷积解码器相结合,能够生成大规模参数,同时将适配开销降低四个数量级
    • 完成了全面评估 :在推理、数学、编码和多模态任务上的实验显示,在未见过的数据集上零样本性能提升高达 30%,并且在不同模型大小之间实现平滑迁移,突出了 DnD 令人印象深刻的效率和多功能性

Drag-and-Drop Your LLMs

Preliminary

  • 参数高效微调(Parameter-Efficient Fine-Tuning) :参数高效微调(PEFT)通过仅引入和调整少量额外参数,同时冻结原始模型权重来节省训练成本
    • 这种方法已应用于 LLM 和其他基础模型,尤其是以低秩适应(LoRA)形式,例如 LLaMA (2024) 和 Stable Diffusion (2022)
    • 其优化过程可表示为:
      $$
      \min_{A,B}\mathcal{L}(W_0 + BA, \mathcal{D}), \tag{1}
      $$
      • 其中 \( W_0 \) 是冻结的原始权重矩阵
      • 低秩矩阵 \( B \in \mathbb{R}^{d \times r} \) 和 \( A \in \mathbb{R}^{r \times k} \)(\( r \ll \min(d,k) \))是唯一的可训练参数
      • \( \mathcal{D} \) 表示微调数据集
      • 根据公式 1,LoRA 使用数据 \( \mathcal{D} \) 作为原材料,通过优化驱动获得权重空间偏移 \( \Delta W = BA \),从而使 \( \Delta W \) 与 \( \mathcal{D} \) 强关联
  • 参数生成(Parameter generation) :这种方法将模型或训练权重视为数据,旨在无需传统训练即可合成高性能神经网络参数
    • 近期进展如 COND P-DIFF (2024)、RPG (2024)、SANE (2024) 和 ORAL (2025) 通过引入条件机制实现了可控生成,允许为简单数据集生成初步个性化参数
    • 参数生成过程与 PEFT 有根本共性:条件作为原材料,参数生成器提供驱动力以生成具有特定属性的目标权重
    • 一个问题仍然存在:论文能否利用参数生成有效地“拖放(drag-and-drop)”LLM 的权重,使其更适合给定的新任务?
      • 通过“拖放(drag-and-drop)”,论文类比于一种简单、无需调优的过程,直接生成任务特定权重 ,类似于无需进一步配置即可将文件拖放至目标位置
  • 关键挑战(Key challenges) :在回答上述问题前,论文分析潜在挑战:
    • 挑战 1 :如何为参数生成器配备有效的“拖放”能力?
      • 生成器应生成能有效使 LLM 适应特定任务的参数
    • 挑战 2 :如何在不进行任务特定训练的情况下实现适配?
      • 传统 PEFT 方法通常需要在新任务上训练,但论文能否通过直接生成参数而无需目标任务的任何微调来达到可比性能?
    • 挑战 3 :如何使拖放功能用户友好且易于访问?
      • 生成机制应简单直观,以促进广泛采用和实际部署

Overview of DnD

  • 为解决上述挑战,论文提出如图 2 所示的 DnD
  • training data preparation :
    • 作为准备,论文首先在各种数据集上训练并保存 LoRA 适配器
  • training of DnD :
    • 为开发“拖放”能力,论文的方法应了解参数与数据集的关联
    • 因此,论文随机将收集的检查点与其训练数据中的提示批次配对
      • 问题:为什么是随机配对?
      • 回答:真实 label 应该是严格对齐数据和 checkpoint 的,这里指的随机不是随便做不相关的组合,而是对一个模型 checkpoint,随机采样采样训练出该模型的数据中的某些 Prompt 样本,这里的核心是保证模型一定时由对应的数据训练出来的
    • 预训练的文本编码器从提示中提取嵌入,并将其馈送至论文的参数生成器
    • 生成器采用级联纯卷积解码器块的简单架构(详见第 2.5 节和附录 A.3)
    • 论文使用生成参数与原始 tokenized 模型权重之间的均方误差(MSE)损失优化生成器
      • 注:这里是指让生成参数尽量能拟合原始 tokenized 模型权重
  • 在推理时,论文在领域内和跨领域场景中评估方法:
    • 只需将新数据集(训练中未见)的提示输入 DnD,即可通过单次前向传递获得定制模型参数

Data Preparation of DnD

  • 检查点收集(Checkpoint collection) :论文收集跨数据集的检查点作为多样化监督,以赋予 DnD 能力
    • 收集过程遵循先前的参数生成工作 (2024; 2024):训练指定周期,随后在每次迭代时保存检查点(更多细节见附录 A.1)
  • 提示的作用(The role of prompts) :近期研究 (2025; 2024) 表明,不同数据集的样本表现出独特特征,即样本可视为特定数据集(任务)的“指纹”
    • 基于此观察,论文使用数据样本(提示)作为其各自数据集(任务)的代理
    • 为建立数据-参数映射,论文结合用于训练这些检查点的数据集中的提示
    • 这些提示包含数据集特定特征,使生成器能够推断不同任务中模型的适当“拖拽”方向
  • 提示-检查点配对(Prompt-checkpoint pairing) :基于上述分析,下一个重要问题是:如何利用这些元素在训练中为 DnD 配备“拖放”能力?
    • 给定数据集 \( P \),论文首先将其划分为不重叠的提示批次 \([p_1, \cdots, p_i, \cdots, p_I]\)。该数据集训练后的 LLM 检查点记为 \( M = [m_1, \cdots, m_j, \cdots, m_J] \)。论文随机选取一批提示和对应的检查点。该过程可形式化为:
      $$
      [p_1, \cdots, p_i, \cdots, p_I] \xrightarrow{\text{随机选取} } \{p_i, m_j\} \xleftarrow{\text{随机选取} } [m_1, \cdots, m_j, \cdots, m_J], \tag{2}
      $$
      • 其中 \(\{p_i, m_j\}\) 作为参数生成器训练的配对。提示 \( p_i \) 和检查点 \( m_j \) 分别作为输入和监督

Prompt Embedding

  • 对于每批提示,论文使用开源文本编码器提取嵌入作为参数生成器的输入。提取过程可形式化表示为:
    $$
    c_i = \operatorname{Encoder}(p_i, \theta), \tag{3}
    $$
    • 其中 \(\operatorname{Encoder}(\cdot, \cdot)\) 表示由 \( \theta \) 参数化的嵌入提取函数,\( c_i \) 表示与提示 \( p_i \) 对应的提取嵌入
    • 默认情况下,论文采用基于编码器的语言模型架构 (2019) 进行提示嵌入
    • 在实验部分,论文进一步探索并定量评估其他嵌入方法,包括 word2vec 表示 (2014)、编码器-解码器架构 (2020) 和解码器专用语言模型 (2024)

Training and Inference of DnD

Structure of parameter generator
  • 与基于扩散的参数生成方法(2024, 2024, 2025)不同,论文采用超卷积解码器(hyper-convolutional decoder)来学习输入提示与参数之间的映射
  • 这种设计主要考虑了效率,因为 Decoder-only 结构在 LLM 中已显示出其优越性(2023, 2024, 2024, 2025)
  • 论文在右侧部分(图 3)展示了解码器的模块细节
  • 论文假设输入提示嵌入的维度为 \([B, N, L, C]\),其中 \(B\)、\(N\)、\(L\) 和 \(C\) 分别表示批大小(batch size)、提示批长度(即提示数量)、序列长度(sequence length)和隐藏维度(hidden dimension)
  • 级联卷积块(cascaded convolutional blocks)将提示嵌入转换为与 tokenized 权重相匹配的维度
  • 这里,论文将最后一个块的输出记为 \([B, N_w, L_w, C_w]\)
Learning objective
  • 学习目标很简单:论文计算参数生成器最后一个块的输出与相应的 tokenized 检查点(checkpoint)之间的均方误差(Mean Squared Error, MSE)损失
  • 与 RPG(2025)类似,论文将每一层的参数 tokenized 为非重叠的片段并进行填充,确保检查点具有一致的形状 \([B, N_w, L_w, C_w]\)
  • 形式上,论文将均方误差损失写为:
    $$
    \text{prompt embeddings} \xrightarrow{\text{parameter generator} } L_{MSE} \xleftarrow{\text{tokenization} } \text{corresponding checkpoints}. \tag{4}
    $$
Inference
  • 论文期望参数生成器开发有效的“拖放”能力,尤其是对训练中未见过的新数据集或任务
    • 因此,评估主要关注新数据集的性能
    • 推理过程包括四个步骤:
      • 1) 从新数据集中采样提示;
      • 2) 从这些提示中提取嵌入;
      • 3) 将嵌入输入参数生成器;
      • 4) 在新数据集上评估生成的参数
    • 为全面展示方法的“拖放”能力,论文检查领域内(如常识到常识)和跨领域(如常识到科学)场景的性能

Experiments

Implementation details

  • 论文选择 Qwen2.5 (2024) 系列作为基础模型,并在常识推理、代码生成、数学和多模态任务上进行实验
  • 下表列出了每个任务涉及的模型规模和数据集详情
  • 默认的文本编码器为 Sentence-BERT (2019),提示批次的长度在常识推理、数学、代码生成和多模态任务中分别设置为 128、64、64 和 32
  • 其他超参数设置请参考附录 A.1

Common Sense Reasoning

  • 评估设置 (Evaluating setting) :论文使用 LoRA (2022) 在七个常识推理数据集上微调 Qwen2.5-0.5B,并将检查点保存为训练数据
    • 在表 1 的每一列中,论文将指定数据集作为测试集(即不用于训练),并在其他数据集的 LoRA 上训练 DnD
  • 分析 (Analysis) :表 1 报告了训练 LoRA 和生成 LoRA 的平均准确率。从结果中可以看出以下几点:
    • 1) 论文的方法在未见数据集上始终优于用于训练的 LoRA,表明它能够通过条件将 LLM 参数“拖放”到任务特定的分布中
    • 2) 这种“拖放”能力在不同数据集上均成立,显示出对各种数据输入的强鲁棒性
  • 跨领域拖放 (Cross-domain Drag-and-Drop) :为了进一步探索 DnD 的零样本能力,论文不仅在推理中使用领域内未见数据集,还将其在科学数据集 (2023) 上测试
    • 生成的参数与科学数据集上的训练 LoRA 进行比较
    • 从表 2 可以看出,DnD 超越了其训练 LoRA 的平均准确率,表明论文的方法能够将 LLM 参数“拖放”到跨领域任务(即从常识推理到科学任务)

Generalization to Coding, Math, and Multimodal Tasks

  • 为了验证论文的方法在更复杂场景中的适用性,论文还将 DnD 应用于代码生成、数学和多模态任务。实验结果和发现如下
  • 代码生成 (Coding) :
    • 与常识推理任务类似,论文在七个代码数据集上使用 LoRA 微调 Qwen2.5-1.5B,并将检查点保存为训练数据
    • 评估在 HumanEval (2021) 基准上进行,使用 pass@k (2021) 分数(k = 1, 5, 10)
    • 需要注意的是,无论是 LoRA 微调模型还是 DnD,在训练中均未见过该基准的任何样本
    • 因此,论文直接在 HumanEval 上测试训练 LoRA 和生成的 LoRA。从表 3 可以得出以下结论:
      • 1)论文的方法取得了显著结果,平均 pass@1 = 15.1,pass@5 = 26.7,pass@10 = 30.9
      • 2)尽管训练 LoRA 在测试集上表现不佳,DnD 仍然获得了良好的性能
        • 这表明它并非简单地记忆训练中见过的参数,而是学会了根据条件为未见数据集生成适配的参数
  • 数学 (Math) :论文在六个数学数据集上微调 Qwen2.5-1.5B 并保存检查点
    • 采用 gsm8K (2021) 和 MATH (2021) 作为基准,以准确率为评估指标
    • 表 3 中的结果与常识推理和代码任务的结果一致,凸显了论文的方法在广泛场景中的优越性
  • 多模态 (Multimodal) :上述结果验证了论文的方法在文本模态中的有效性,接下来,论文探索其更广泛的潜力,将其扩展到其他模态
    • 论文在 MathV360K (2024) 上微调 Qwen2.5-VL-3B (2025),保存检查点,并使用 Math-Vision (2024) 和 Math-Vista (2024) 进行评估
    • 表 3 的结果显示,DnD 在多模态任务中表现良好,表明论文的方法可以适配文本以外的模态,并具有广阔的应用潜力
  • 总结 (Takeaway) :基于上述结果和比较,DnD 是一个高性能的零样本学习器,具有强鲁棒性和广泛适用性,这体现在其相对于训练数据的显著改进以及在各种场景中的优异表现
  • 接下来,论文将继续探索论文提出的方法的更多有趣特性

Ablation Studies

  • 本节主要探索论文方法的一系列有趣特性
  • 对于实验中涉及的不同设置,论文将在附录 B.3 中详细报告
  • 除非特别说明,论文使用 ARC-c 作为测试集,其他常识推理数据集用于训练
What types of data will help Drag-and-Drop LLMs better?
  • 如第 2.3 节所述,论文使用提示作为条件来驱动 DnD
  • 当条件类型变化时(例如答案),这种“拖放”能力是否仍然有效?
  • 论文通过将条件类型更改为提示(Prompt)、提示 + 答案(Prompt + Answer)及其混合(Mix)(提示 : 答案 = 4 : 1)进行消融研究,结果如表 4a 所示
  • 可以观察到,提示 + 答案组的性能出人意料地较差
    • 作者得出结论,这是因为常识推理数据集中的答案缺乏多样性(例如 A/B/C/D),将其与提示结合可能会损害数据集特定的表示
    • 这会阻碍生成器区分不同数据集并生成特定参数
  • 因此,论文建议不要单独使用答案作为条件
  • 然而,对于答案更复杂和多样化的任务,结论可能不同 ,论文在附录 B.3 中展示了这些任务的结果
How does the choice of condition extractor affect DnD’s performance?(condition extractor 的影响)
  • 论文的默认条件提取器是 Sentence-BERT (2019),但探索其他模型的潜力也很有趣
  • 为了确保全面比较,论文包括经典的 word2vec 方法 Glove (2014)、默认的仅编码器 Sentence-BERT (2019)、编码器-解码器模型 T5 (2020) 和 Decoder-only Qwen2.5-7B (2024)
  • 表 4b 的结果揭示了以下几点:
    • 1)即使是 Glove 等传统方法也能帮助 DnD 获得良好的结果,表明论文的方法可以适配多种文本编码器
    • 2)Qwen2.5-7B 的表现不如预期,可能有两个原因:
      • 首先,其庞大的规模限制了每次迭代中与参数配对的条件数量,导致对未见数据集的感知能力较差(类似结论可以从附录 B.3 的实验中得到)
      • 其次,Qwen2.5-7B 的 Decoder-only 架构可能会限制条件的多样性,因为它将提示编码为答案
What property of training data equips our method with drag-and-drop ability?(哪些 Training 数据属性赋予论文的方法“拖放”能力?)
  • 默认情况下,论文在多个数据集上训练并在 1 个未见数据集上测试
  • 本节通过减少训练集数量并在更多数据集上测试来探索 DnD 的鲁棒性
  • 训练-测试集安排为:6-1、4-3、3-4 和 2-5
  • 生成的参数与训练 LoRA 在未见数据集上的平均准确率进行比较,并报告其平均准确率提升(表 4c)
  • 可以观察到:
    • 1)通常情况下,更多的训练数据集会带来更好的性能提升
      • 这是预期的,因为更多数据确保了条件-参数关联的更好覆盖,从而为未见数据带来更好的鲁棒性
    • 2)当训练样本较少时,DnD 无法将 LLM 参数“拖放”到未见数据集
      • 随着用于训练的数据集减少,DnD 的平均提升也相应下降
      • 在 2-5 的情况下,它几乎无法超越训练 LoRA
      • 我们可以得出结论,DnD 需要基本的训练样本量来学习条件-参数关联
How does DnD’s performance compared with foundation LLMs?
  • 考虑到大规模预训练 LLM 通常需要大量计算,在小规模下游数据集上微调可能会损害其在未见测试集上的零样本性能
  • 意识到这一现象后,论文在所有实验任务中将 DnD 生成的权重性能与基础 LLM 进行比较
    • 理解:即比较实用 DnD 后,基础模型效果能提升多少
  • 具体来说,对于基础 LLM,论文采用 Qwen2.5-0.5B 进行常识推理,1.5B 进行数学和代码生成,Qwen2.5-VL-3B 进行多模态任务
  • 表 5 的结果再次显示了论文方法的优越性:
    • DnD 在所有任务中均优于基础 LLM。其“拖放”能力可以生成任务特定的参数,性能优于经过大量预训练的基础 LLM

Open Explorations and Analysis

Condition-Parameter Pairing
  • 本节探索第 2.3 节中介绍的其他配对策略对性能的影响。论文测试了两种条件配对策略:
    • 策略 1 :固定提示总数为 128、256、512、1024、2048、5000,并在每次迭代中使用所有这些提示与参数配对(\(x \gets x\))
    • 策略 2 :固定每次迭代中提示批次的长度为 128,并从 128、256、512、1024、2048、5000 候选提示中随机选择这些提示(128 \(\gets x\))
  • 基于图 4a 的结果,我们可以得出以下结论:
    • 1)在条件数量有限的情况下,DnD 无法泛化到未见数据,因为它几乎无法学习关于条件-参数映射的全面知识
    • 2)随着条件数量的增加,策略 2 的性能迅速提升,因为 DnD 暴露于足够多的条件-参数对中。这表明策略 2 可能有助于 DnD 高效收敛
    • 3)策略 1 需要更多条件才能达到与策略 2 相当的性能。在条件数量较多时,策略 1 会遇到内存不足的问题。每次迭代中相同条件与参数的配对可能会阻碍 DnD 将条件与特定数据集关联。综上所述,策略 2 在模型泛化性、收敛速度和内存消耗方面均优于 策略 1。这些结论与表 4c 的发现一致:训练数据的多样性赋予论文的方法“拖放”能力
DnD vs full-shot tuning
  • 本节在准确率和开销方面将 DnD 与全量微调(full-shot tuning)进行比较
  • 具体来说,论文测试了 ARC-c 微调的 LoRA(约 75 次迭代,详见附录 A.4)在 ARC-c 测试集上的全量性能
  • 由于 LoRA 的性能可能随着迭代次数的增加而提升,论文还在 ARC-c 上微调 LoRA 300 次迭代并测试其性能
  • 这些结果与 零样本 DnD 的结果在图 4b 中进行了比较:
    • 1)使用适度微调的检查点进行训练时,DnD 已经取得了比全量微调更好的结果。这展示了 DnD 令人印象深刻的 零样本 能力,甚至超越了 全量微调
    • 2)DnD 的效率极高,性能优于全量微调的同时,速度提升了 2500 倍
    • 此外,随着训练的继续,尽管全量微调表现更好,但论文的方法与其性能差距极小,同时效率提升了 12,000 倍
  • 理解:
    • 仅训练一轮的 全参数微调效果不如 DnD
    • 训练很多轮的 全参数微调效果比 DnD 好,但没有好很多
    • 注:DnD 的速度极快,且比仅训练一轮的全参数微调效果好很多
Efficiency analysis of DnD
  • 除了全量微调外,上下文学习(in-context learning,ICL) 和少样本微调(few-shot tuning,FS) 也是 LLM 微调中的流行方法
  • 在图 4c 中,论文通过实验研究了它们的性能-效率权衡。可以得出以下几点观察:
    • 1) 当样本较少时,ICL 和 FS 的结果较差,但随着样本增加,它们的开销也会上升
    • 2) DnD 在样本数达到 256 之前,能以可忽略的开销获得比 FS 和 ICL 更好的性能
    • 3) 值得注意的是,少样本和 ICL 都使用答案来指导 LLM 以获得更好的性能。相反,DnD 仅依赖 128 个未标注的提示。基于上述结果,论文预计 DnD 是一个强大且高效的零样本学习器
Scalability of DnD
  • 本节探索 DnD 的可扩展性
  • 由于常识推理任务较为简单,0.5B 模型已足够,论文专注于数学和代码生成任务,同时将基础模型规模从 1.5B 增加到 7B
  • 论文使用第 3.3 节中的原始数学和代码数据集,数学任务使用 gsm8K 进行评估,代码任务使用更难的基准 LiveCodeBench (2024) 进行评估
  • 论文在表 6 中报告了数学任务的准确率和代码任务的 pass@1。可以观察到:
    • 1)在 7B 模型设置下,DnD 在两个任务中始终优于训练 LoRA,突显了其对更大基础 LLM 的卓越可扩展性
    • 2)在更难的代码基准上,DnD 保持了优于训练 LoRA 的性能,即平均 pass@1 提升 = 20.3。这表明 DnD 能够泛化到更复杂的基准,显示出广阔的应用潜力和鲁棒性
Comparisons with previous methods
  • 论文将论文的方法与最新的参数生成方法 RPG (2025) 进行比较。论文在两种场景中探索两种方法的性能:
    • 闭集生成:生成训练中见过的参数
    • 开集生成:为未见数据集生成参数
  • 图 5 显示两种方法在闭集生成中表现良好,但 RPG 在开集生成中失败,表明论文的设计(以提示为条件,条件-参数配对)对未见数据集具有一定的鲁棒性和泛化性
Visualization for the effect of drag-and-drop
  • 本节在图 6 中可视化原始参数和生成参数
  • 可以看出,原始参数在权重空间中表现出多样化的模式,形成不同的簇
  • 此外,即使接近目标数据集(即 ARC-c)微调的参数,也可能存在较大的性能差距(即 19.1% 对比 40.7%)
  • 在训练了这些具有不同特征的模型后,DnD 能够以零样本方式为目标数据集生成参数
  • 生成的参数在权重空间中接近原始参数,甚至性能优于全量微调(即 51.6% 对比 40.7%)。这生动地展现了“拖放”效果

Related Works

Parameter-Efficient-Fine-Tuning (PEFT)

  • LLM 的规模迅速扩大,使得全参数微调成本越来越高
  • 为了解决这一问题,低秩适应(LoRA)(2022) 被提出,利用 LLM 固有的稀疏性,通过优化两个低秩矩阵而非原始权重,大幅降低了微调成本
  • 随后出现了多种 LoRA 变体,如 DoRA (2024)、LoRA+ (2024)、VeRA (2024) 和 DyLoRA (2023)
  • 但它们都有一个潜在缺陷:需要对每个新数据集进行模型参数微调,因此缺乏通用性
    • 随着模型规模的扩大和训练数据的增加,这仍然会带来额外的成本

Parameter generation

  • 参数生成以模型检查点为训练目标,旨在生成高性能参数,包括训练中见过和未见的数据集
  • 先前的工作 (2016; 2011; 2013; 2016) 专注于学习参数分布,但难以重建原始模型的性能
  • 随着扩散模型的发展,超表示 (2022; 2022; 2024) 和 p-diff (2024) 使用潜在扩散架构生成高性能参数
  • 借助 Mamba (2024) 和适当的标记化策略,RPG (2025) 可以在几分钟内生成 2 亿参数
  • 关于条件生成,COND P-DIFF (2024)、Tina (2024) 和 ORAL (2025) 探索了文本控制的参数生成方法
  • RPG 甚至在 CIFAR-10 (2009) 的二元嵌入分类任务上为未见数据集生成参数
  • 但这些方法在更复杂的任务上难以保持优异的零样本能力,阻碍了参数生成更广阔的应用潜力
  • 本论文的方法以未见数据集中的提示为条件,更好地捕捉参数与数据集的关联,能够为未见数据集生成有效的参数

附录

  • 详情见原文

NLP——LLM-CPT相关论文记录

  • 参考链接:
    • A Comprehensive Survey of Continual Learning: Theory, Method and Application, TPAMI 2024, THU:截止20250610,cited by 1034
    • Efficient Continual Pre-training for Building Domain Specific Large Language Models, ACL 2024, Amazon:截止20250610,cited by 47
    • Continual Learning for Large Language Models: A Survey, arXiv 2024,Monash University && Griffith University:截止20250610,cited by 145
    • Continual Learning of Large Language Models: A Comprehensive Survey, ACM Computing Surveys 2024, DeepMind:截止20250610,cited by 96
    • Continual Learning with Pre-Trained Models: A Survey, arXiv 2024, Nanjing University:截止20250610,cited by 98
    • Continual Pre-Training of Large Language Models: How to (re)warm your model?,arXiv 202308,Concordia University:截止20250610,cited by 100
    • Recent Advances of Foundation Language Models-based Continual Learning: A Survey, arXiv 202409(ACM Computing Surveys 2025), ECNU:截止20250610,cited by 21
    • Simple and Scalable Strategies to Continually Pre-train Large Language Models, arXiv 2024:截止20250610,cited by 82

      from LLM 预训练和评估奖励模型的技巧 - 北方的郎的文章 - 知乎
      最近的论文《持续预训练大型语言模型的简单且可扩展的策略》提供了关于如何继续使用新数据预训练LLM的宝贵见解

    • Continual Learning of Natural Language Processing Tasks: A Survey, UIC, arXiv 2022:截止20250610,cited by 101
    • Continual Lifelong Learning in Natural Language Processing: A Survey, 2020, UPC:截止20250610,cited by 273
    • ECONET: Effective Continual Pretraining of Language Models for Event Temporal Reasoning, 2021, UCLA & USC:截止20250610,cited by 84
    • EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models with Semi-structured Data, arXiv 202312, THU, Alibaba:截止20250611,cited by 26
    • ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation, arXiv 20230728, Beike:截止20250616,cited by 33

NLP——Continual-Learning-for-LLM(A-Survey)

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Continual Learning for Large Language Models: A Survey, arXiv 2024,Monash University && Griffith University

Paper Summary

  • LLM 不适合频繁重新训练 :LLM 由于其庞大的规模导致训练成本高昂,因此不适合频繁重新训练
  • 更新是必要的 :但为了便赋予 LLM 新的技能,并使其与快速演变的人类知识保持同步,更新是必要的
  • 论文综述了 LLM 持续学习(Continual Learning)的最新研究成果
  • 根据 LLM 的独特性,论文以一种新颖的多阶段分类方案对持续学习技术进行分类 ,包括:持续预训练(Continual Pretraining,CPT)、持续指令微调(Continual Instruction Tuning,CIT)和持续对齐(Continual Alignment,CA)
  • 论文将 LLM 的持续学习与以下增强策略进行对比:
    • 较小模型使用的简单适应方法(simpler adaptation methods used in smaller models)
    • 检索增强生成(Retrieval-Augmented Generation,RAG)
    • 模型编辑(Model Editing)

Introduction and Discussion

  • 近年来, LLM 在解决多样化问题方面的能力取得了快速进展
  • 为了使 LLM 能够准确反映不断演变的人类知识、价值观和语言模式,定期更新变得至关重要,这促使了对 LLM 持续学习的研究
  • 虽然持续学习与其他模型改进策略(如 RAG [21] 和模型编辑 [26])有相似之处,但它们的主要目的不同(见表1)
    • 其他模型改进策略 :主要关注点是提高领域特定准确性或扩展模型的事实知识库
    • 持续学习 :目标是提升 LLM 的整体语言和推理能力
  • 这一区别至关重要,因为它将焦点从仅仅更新信息转移到开发模型以更全面和细致的方式处理和生成语言的能力 [27]
  • LLM 的持续学习也不同于其在较小模型(包括较小的预训练语言模型(PLM,Pretrained Language Model))中的应用
  • 由于其庞大的规模和复杂性, LLM 需要多方面的持续学习方法。论文将其分为三个不同的阶段:
    • 持续预训练(Continual Pretraining,CPT) :扩展模型对语言的基本理解 [8];
    • 持续指令微调(Continual Instruction Tuning,CIT) :改进模型对特定用户指令的响应 [27];
    • 持续对齐(Continual Alignment, CA) :确保模型的输出符合价值观、伦理标准和社会规范 [27]
  • 这一多阶段过程与较小模型使用的更多线性适应策略(more linear adaptation strategies used in smaller models)不同,如图1 所示,突显了将持续学习应用于 LLM 的独特挑战和要求
  • 本综述通过其独特的焦点和结构与之前的研究区分开来,虽然该领域的先前综述通常围绕各种持续学习策略 [4] 组织,但论文的研究首次专门针对 LLM 的持续学习
  • 论文围绕持续更新的信息类型和 LLM 涉及的不同学习阶段构建分析
  • 本综述提供了关于*持续学习如何应用于 LLM *的详细和新颖的视角,揭示了这一应用的特定挑战和机遇
  • 论文的目标是为 LLM 中持续学习的有效实施提供全面理解 ,为未来开发更先进和适应性更强的语言模型做出贡献

Preliminary and Categorization

LLM (Large Language Model)

  • LLM 如 ChatGPT 和 LLaMa [26] 在许多任务中表现出卓越性能
  • 它们通常通过多个阶段进行训练,包括预训练(Pretraining)、指令微调(Instruction Tuning)和对齐(Alignment),如图1 所示
    • 预训练阶段 : LLM 以自监督方式在大规模语料库上进行训练 [7],其中训练文本被随机掩码,模型被要求预测被掩码的标记
      • 个人补充:这里表述有点不够严谨,MLM 的方式确实是这样的,但是现在大多都是自回归模型(Autoregressive Model),采用的是 NTP 的形式
    • 指令微调阶段 : LLM 以监督方式在一组指令-输出(instruction-output)对上微调 [38]
      • 给定特定任务的指令作为输入,要求模型生成相应的输出
    • 对齐阶段 : LLM 通过人类反馈进一步微调,使其输出与人类期望对齐 [35]
      • 这里涉及到人类标注者对模型的输出进行评分,模型被更新以生成更符合人类期望的响应

Continual Learning

  • 持续学习专注于开发学习算法以积累非平稳数据的知识,通常按类别、任务、领域或实例划分
  • 在监督持续学习中,任务序列 \(\{\mathcal{D}_{1},\ldots,\mathcal{D}_{\mathcal{T} }\}\) 以流式方式到达
  • 每个任务 \(\mathcal{D}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{nt}\) 包含一个独立的目标数据集,其中 \(x_{i}^{t}\in\mathcal{X}_{t}\),\(y_{i}^{t}\in\mathcal{Y}_{t}\)
  • 单个模型需要依次适应这些任务,且在第 \(t\) 个任务时仅能访问 \(\mathcal{D}_{t}\)(注:特别是无法访问 \(t\) 时刻之前的任务),这一设置要求模型在其生命周期中获取、更新、积累和利用知识 [4]
  • 传统持续学习的主要挑战是灾难性遗忘(Catastrophic Forgetting) ,即模型在训练新数据时对旧任务的性能显著下降
  • 现有研究大致可分为三类:
    • 经验回放方法(Experience Replay)[8, 37]
    • 基于正则化的方法(Regularization-based)[19, 9]
    • 动态架构方法(Dynamic Architecture)[28]
  • 最近,研究人员设计了一些结合上述技术的混合方法 [5, 16]

Continual Learning for LLMs

  • LLM 的持续学习 :旨在使 LLM 能够从随时间变化的连续数据流中学习
  • 直接将现有的持续学习设置应用于 LLM 并非易事。论文现在提出一个 LLM 持续学习的框架,并对该领域的研究进行分类
Framework
  • 论文的框架如图 2 所示。论文将 LLM 的持续学习与不同的训练阶段对齐,包括持续预训练(CPT,Continual Pre-training)、持续指令微调(CIT,Continual Instruction Tuning)和持续对齐(CA,Continual Alignment)
    • 持续预训练阶段 :旨在通过自监督方式在一系列语料库上进行训练,以丰富 LLM 的知识并适应新领域
    • 持续指令微调阶段 :在监督的指令跟随数据流上微调 LLM ,目标是使 LLM 能够遵循用户指令,同时将已获取的知识迁移到后续任务中
    • 持续对齐阶段 :响应人类价值观和偏好的演变,持续对齐(CA)试图随时间推移使 LLM 与人类价值观保持一致
  • 虽然 LLM 的持续学习可以依次在每个阶段进行,但持续学习的迭代应用也使得跨阶段迁移而不遗忘先前阶段学习的能力和知识变得至关重要
    • 例如,我们可以基于指令微调模型或对齐模型进行持续预训练,但不希望 LLM 失去其遵循用户指令和与人类价值观对齐的能力
    • 因此,如图 2 所示,论文使用不同颜色的箭头表示阶段间的迁移
Categorization
  • 为了更好地理解该领域的研究,论文为框架的每个阶段提供了细粒度的分类
  • 持续预训练(CPT)
    • 更新事实的 CPT :包括使 LLM 学习新事实知识的研究
    • 更新领域的 CPT :包括将 LLM 定制到特定领域(如医学和法律领域)的研究
    • 语言扩展的 CPT :包括扩展 LLM 支持语言的研究
  • 持续指令微调(CIT)
    • 任务增量 CIT :包含在一系列任务上微调 LLM 并获取解决新任务能力的研究
    • 领域增量 CIT :包含在指令流上微调 LLM 以解决领域特定任务的方法
    • 工具增量 CIT :包含持续教授 LLM 使用新工具解决问题的研究
  • 持续对齐(CA)
    • 持续价值对齐 :包括持续使 LLM 与新伦理准则和社会规范对齐的研究
    • 持续偏好对齐 :包括使 LLM 动态匹配不同人类偏好的研究
  • 除了基于训练阶段分类外,论文还提供了基于持续学习期间更新信息的替代分类(alternative categorization)
  • 表2 列出了一些代表性的更新信息,例如事实、领域、任务、价值观和偏好
    • LLM-based 训练目标,这些信息可以在持续学习的不同阶段更新
  • 图 3 的分类法展示了论文的分类方案以及每个类别中的代表性研究

Continual Pre-training, CPT

  • LLM 的 CPT 对于保持其相关性和有效性至关重要
  • 这一过程包括定期用最新信息更新模型 [26]、使其适应特定领域 [19]、增强其编码能力 [28],以及扩展其语言范围 [3]
  • 通过持续预训练, LLM 可以紧跟新动态,适应不断变化的用户需求,并在多样化的应用中保持高效
  • 持续预训练确保 LLM 不仅知识丰富,还能灵活应对世界的变迁

CPT for Updating Facts

  • LLM 整合和适应最新信息的能力至关重要
  • 此处的核心策略是使用动态数据集,从多种来源(如新闻推送 [9]、学术论文 [14] 和社交媒体 [22])实时吸收数据
  • [35] 提出了 ERNIE 2.0,这是一个持续预训练框架,通过逐步构建和学习多个任务,最大化从训练数据中提取知识
  • [13] 引入了持续知识学习(continual knowledge learning)方法,用于更新 LLM 中的时序知识,在获取新信息的同时减少遗忘
  • [22] 研究表明,使用不同数据进行持续学习,其语言模型的困惑度(perplexity)与在整个数据快照上训练的结果相当甚至更好,这证实了只需最小量的训练数据即可高效更新语言模型中的事实知识
  • 此外,自动化系统对新获取数据的验证是确保信息准确性和可靠性的关键

CPT for Updating Domains

  • 持续预训练通过两种方法更新领域知识:
    • 1)领域增量预训练(domain-incremental pre-training)跨多个领域积累知识;
    • 2)领域特定持续学习(domain-specific continual learning),通过在领域特定数据集和任务上训练,将通用模型逐步转化为领域专家
  • 在领域增量预训练中,[8] 探索了如何在新数据流上持续预训练语言和视觉模型,为下游任务做准备
    • [26] 通过参数初始化和知识蒸馏(knowledge distillation)评估模型兼容性和可回收调优(recyclable tuning)的优势
    • [19] 提出了一种软掩码机制(soft-masking mechanism),用领域语料更新语言模型(LM),旨在提升性能的同时保留通用知识
  • 在领域特定持续学习中
    • [26] 开发了 FinPythia-6.9B,通过金融领域的自适应预训练实现
      • 原始论文:Efficient Continual Pre-training for Building Domain Specific Large Language Models, ACL 2024, Amazon
    • [36] 研究了电子商务领域中持续预训练的效果
      • 原始论文:EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models with Semi-structured Data, arXiv 202312, THU, Alibaba
  • 这些研究共同展现了持续预训练在提升模型跨领域适应性和专业性方面的广阔前景

CPT for Language Expansion

  • 扩展 LLM 理解和处理的语言范围对于提升其普适性至关重要 [3]
  • 这种扩展不仅包括支持更多语言(尤其是 underrepresented 语言),还需将文化背景融入语言处理中
  • 一个关键挑战是模型识别和解释地区方言及当代俚语的能力 [11],这对于跨种族、社会和文化的有效沟通至关重要
  • 除了自然语言,LLM 在理解和生成编程语言方面也取得了显著进展
    • [28] 提出了 CodeTask-CL,一个持续代码学习的基准测试,涵盖多种编程语言的任务和输入输出格式
    • [29] 探索了使用未标记代码语料库训练模型进行面向库的代码生成,解决了由于程序员广泛复用库导致的文本-代码对稀缺问题,他们提出了 CERT 方法,其中“草图生成器”(sketcher)勾勒代码结构,“生成器”(generator)完成代码,两者通过持续预训练未标记数据来捕捉库导向代码片段的常见模式
  • 这些进展突显了 LLM 在变革自然语言和编程语言处理方面的潜力,从而推动更高效的编码实践

Continual Instruction Tuning, CIT

  • LLM 展现了强大的指令跟随能力,能够通过少量示例完成任务
  • 持续指令调优(CIT)通过持续微调 LLM,使其学会遵循指令并将知识迁移到未来任务中 [30]
  • 根据指令调优中更新的能力和知识,CIT 可进一步分为三类:
    • 1)任务增量 CIT(task-incremental CIT)
    • 2)领域增量 CIT(domain-incremental CIT)
    • 3)工具增量 CIT(tool-incremental CIT)

Task-incremental CIT

  • 任务增量持续指令调优(Task-incremental CIT)旨在通过一系列任务特定指令持续微调 LLM ,使其获得解决新任务的能力
  • 一种直接的方法是持续为新任务生成指令调优数据并直接微调模型 [35]
  • 然而,研究表明,持续在任务特定数据上微调 LLM 会导致对已学知识和问题解决能力的灾难性遗忘(catastrophic forgetting)[24]
    • TAPT [16] 提出了一种简单的数据选择策略,从领域内语料库中检索未标记文本,使其与任务分布对齐,随后用于微调 LLM,以缓解灾难性遗忘并提升性能
    • 为减少遗忘,Continual-T0 [25] 采用记忆回放(rehearsal with a memory buffer)[22] 存储先前任务数据并在训练中重放
    • ConTinTin [26] 提出了 InstructionSpeak,包含两种策略:一是从负输出中学习,二是重新审视先前任务的指令
    • RationaleCL [26] 采用对比性原理回放(contrastive rationale replay)减轻遗忘
    • DynaInst [19] 提出了一种混合方法,结合动态指令回放(Dynamic Instruction Replay)和局部极小值诱导正则化器(local minima-inducing regularizer),提升 LLM 的泛化能力并减少回放模块的内存和计算开销
    • 与以往的回放或正则化方法不同,SLM [1] 将向量空间检索(vector space retrieval)融入语言模型,支持可扩展的知识扩展和管理,使 LLM 快速适应新任务且不因遗忘而降低性能
  • LLM 参数规模庞大,持续学习带来巨大计算负担。为解决这一问题
    • Progressive Prompts 技术 [15] 冻结大部分参数,仅为每个新任务学习固定数量的标记(prompts),显著降低计算成本的同时缓解遗忘并提升知识迁移
    • ELM [13] 首先为每个任务训练一个小型专家适配器(expert adapter),随后采用检索方法为每个新任务选择最相关的专家 LLM
    • 基于参数高效调优(PET)框架,O-LoRA [26] 提出了正交低秩适应(orthogonal low-rank adaptation)方法,在正交子空间中增量学习新任务,同时固定已学任务的 LoRA 参数以最小化遗忘
    • DAPT [27] 提出双注意力框架(Dual Attention Framework),通过双注意力学习与选择模块(Dual Attentive Learning&Selection module)对齐 LoRA 参数的学习与选择
    • LLaMA PRO [29] 提出了一种新颖的块扩展技术(block expansion technique),将新知识注入 LLM ,同时通过高效后训练保留初始能力

Domain-incremental CIT

  • 领域增量持续指令调优(Domain-incremental CIT)旨在通过一系列领域特定指令持续微调 LLM ,使其获得解决新领域任务的能力
    • TAPT [16] 在生物医学、计算机科学、新闻和购物评论等领域数据上自适应调优 LLM ,随后评估其在各领域的文本分类能力
    • ConPET [28] 将先前为小模型设计的持续学习方法应用于 LLM ,结合 PET 和动态回放策略,显著降低调优成本并缓解过拟合和遗忘问题。在典型持续学习场景(新知识类型逐步出现)下的实验证明了 ConPET 的优越性能
    • AdaptLLM [4] 通过将原始训练语料转化为一系列与其内容相关的阅读理解任务,使 LLM 适应不同领域,同时提升提示性能
    • PlugLM [4] 使用可微分插件内存(DPM)显式存储领域知识,通过插入领域内存轻松适配不同领域
    • [27] 设计了一种“适配-检索-修订”(adapt-retrieve-revise)流程,使 LLM 适应新领域:首先利用初始响应从领域数据库中检索知识,随后用检索到的知识修订初始响应以获得最终答案
    • [5] 分析了在不同领域持续调优的 LLM ,发现训练数据顺序对性能有显著影响,并提出混合微调(DMT)策略以学习跨领域的多种能力

Tool-incremental CIT

  • 工具增量持续指令调优(Tool-incremental CIT)旨在通过持续微调 LLM,使其能够与现实世界交互并通过集成工具(如计算器、搜索引擎和数据库)增强能力 [17]
  • 随着新工具(如高级软件库、新型 API 或领域特定工具 [11, 12])的快速涌现,持续更新 LLM 以快速适应和掌握这些工具的需求日益增长
    • Llemma [2] 在混合数学文本和代码的数据集上持续调优 LLM ,使其能够使用外部工具解决数学问题
    • ToolkenGPT [9] 将每个工具表示为一个新标记(toolken),其嵌入在指令调优中学习,为 LLM 提供了一种高效掌握工具并快速适应新工具的方法

Continual Alignment, CA

  • LLM 需要适应不断变化的社会价值观、社会规范和伦理准则。此外,不同人口群体(demographic groups)之间的偏好存在显著差异,个体的偏好也会随时间变化
  • 为了应对这些变化,持续对齐应运而生。在持续对齐的背景下,存在两种主要场景:
    • (i) 更新 LLM 以反映社会价值观的变化;
    • (ii) 将新的人口群体(demographic groups)或价值类型整合到现有的 LLM 中
  • 以下将分别描述这两种场景

Continual Value Alignment

  • 持续价值对齐的目标是持续整合伦理准则或适应文化敏感性和规范
  • 它需要通过更新来摒弃过时的观念并融入新的价值观 ,类似于模型编辑和知识遗忘任务
  • 模型编辑和知识遗忘已在预训练和指令微调阶段得到研究 [25],但在偏好学习领域尚未深入探索

Continual Preference Alignment

  • 添加新的人口群体(demographic groups)或价值类型与持续学习问题一致,旨在引导 LLM 生成符合新兴价值观的响应,同时遵守已学习的偏好
  • 例如,许多开源对齐的 LLM 采用基于人类反馈的强化学习(RLHF)来确保安全性
  • 论文可能还需要为 LLM 增加其他属性(如帮助性和可信度)的对齐
  • 除了在保留过去偏好的同时最大化新偏好奖励的挑战外,持续偏好学习还面临在大动作空间(词汇量)和大量参数下实现稳定高效训练的困难
  • 先前的研究已经展示了此类代理的概念验证,但缺乏标准化基准来系统评估新偏好随时间的学习能力
  • 持续近端策略优化(CPPO)[1] 在近端策略优化(PPO)算法 [17] 上采用样本级加权,以平衡策略学习和模仿旧策略输出的知识保留
  • 另一方面,[26] 将直接偏好优化(DPO)算法 [18] 扩展到持续学习场景,通过蒙特卡洛估计推导出给定任务序列的最优策略序列,并将其用于正则化新任务上的策略学习

Benchmarks

  • 系统评估 LLM 的持续学习性能需要高质量数据源和多样化内容的基准测试

    CPT 的基准测试

  • TemporalWiki[13]:是一个终身学习基准,通过使用维基百科和 Wikidata 的连续快照来训练和评估语言模型,帮助评估语言模型在保留过去知识和学习新知识方面的能力
  • Firehose[9]:是一个社交媒体数据集,包含六年内来自一百万用户的一亿条推文
  • CKL[14]:专注于网络和新闻数据,旨在通过在不同语料库上的持续预训练,保留初始预训练中的时间不变世界知识并高效学习新知识
  • TRACE[25]:包含八个多样化数据集,涵盖专业领域、多语言任务、代码生成和数学推理,这些数据集被统一为标准格式,便于对 LLM 进行自动化评估
  • 由于数据的快速变化,时间敏感的数据集会很快过时,因此需要频繁更新持续预训练的基准测试以评估模型性能

CIT 的基准测试

  • 持续指令微调基准(CITB)[26]:基于 SuperNI,包含超过 1,600 个自然语言处理(NLP)任务,涵盖 76 种类型(如语言生成和分类),所有任务均以文本到文本格式呈现
  • ConTinTin[24]:是另一个基于 NATURAL-INSTRUCTIONS 的基准,包含 61 个任务,分为六类(如问题生成和分类)
    在使用这些基准测试评估无法访问训练数据的黑盒语言学习模型时,数据集的选择至关重要,以避免任务污染并确保持续指令微调性能评估的可靠性

CA 的基准测试

  • COPF[26]使用斯坦福人类偏好数据集(SHP)[5] 和 Helpful & Harmless(HH)数据集 [2] 进行持续对齐实验
    • SHP 数据集 :包含 18 个主题(从烹饪到法律建议)的 385,000 条人类偏好
    • HH 数据集 :分为两部分:一部分是众包工作者与 AI 模型交互以获得有帮助的响应,另一部分是引出有害响应并在每种情况下选择更具影响力的响应
  • 尽管该领域的研究兴趣日益增长,但目前仍缺乏专门用于持续对齐的基准测试,这为未来研究提供了发展机会

Evaluation

Evaluation for Target Task Sequence

  • LLM 的持续学习涉及对模型在任务序列上的性能评估。性能可以通过三种典型的持续学习指标衡量:
    • 1)平均性能(Average Performance)
    • 2)前向迁移率(Forward Transfer Rate, FWT)
    • 3)后向迁移率(Backward Transfer Rate, BWT)[11, 22]
  • FWT :评估从先前任务中获得的知识对执行新任务初始能力的影响(在针对新任务进行专门训练之前):
    $$
    FWT = \frac{1}{T-1} \sum_{i=2}^{T-1} A_{T,i} - \tilde{b}_i
    $$
  • BWT 通过比较模型在学习新任务前后对旧任务的性能,衡量灾难性遗忘:
    $$
    BWT = \frac{1}{T-1} \sum_{i=1}^{T-1} A_{T,i} - A_{t,i}
    $$
  • 平均性能(如平均准确率)评估模型或算法在时间序列数据流或任务中有效学习和适应的能力:
    $$
    Avg.\ ACC = \frac{1}{T} \sum_{i=1}^{T} A_{T,i}
    $$
    • 其中,\( A_{t,i} \) 是模型在第 \( i \) 个任务测试集上的准确率(模型在第 \( i \) 个任务上学习后),\( \tilde{b}_i \) 是随机初始化时任务 \( i \) 的测试准确率

Evaluation for Cross-stage Forgetting

  • 在不同阶段持续训练的 LLM 可能会遇到无意识遗忘问题 [8],这表明持续指令微调可能会削弱 LLM 的通用知识
  • 此外,先前研究 [15] 还表明,安全对齐的 LLM 的行为很容易受到指令微调的影响而退化
  • 为了量化这些限制,TRACE[25] 提出了三种新颖的评估指标:
  • 通用能力差异(General Ability Delta, GAD) :评估 LLM 在通用任务上的性能差异(经过连续目标任务训练后)
    $$
    GAD = \frac{1}{T} \sum_{i=1}^{T} (R^{G}_{t,i} - R^{G}_{0,i})
    $$
  • 指令跟随差异(Instruction Following Delta, IFD) :评估模型在连续不同任务训练后指令跟随能力的变化
    $$
    IFD = \frac{1}{T} \sum_{i=1}^{T} (R^{I}_{t,i} - R^{I}_{0,i})
    $$
  • 安全性差异(Safety Delta, SD) :评估模型响应在连续训练后的安全性变化
    $$
    SD = \frac{1}{T} \sum_{i=1}^{T} (R^{S}_{t,i} - R^{S}_{0,i})
    $$
    • 其中,\( R_{0,i} \) 表示初始 LLM 在第 \( i \) 个任务上的基线性能,\( R_{t,i} \) 表示在增量学习到第 \( t \) 个任务后第 \( i \) 个任务的得分
    • \( R^{G} \)、\( R^{I} \) 和 \( R^{S} \) 分别表示 LLM 在通用任务(评估从预训练中获得的信息)、指令跟随任务和对齐任务上的性能。这些指标通过关注固有技能的保持和与人类偏好的对齐,超越了传统基准测试的范围

Challenges and Future Works

Computation-efficient Continual Learning

  • 在计算效率领域,重点是以最小化计算资源的方式增强持续预训练过程 [33]
  • 这涉及开发能够处理预训练任务日益复杂性的创新架构,而无需按比例增加计算需求
  • 算法和数据结构的效率至关重要,尤其是在管理预训练中涉及的大量数据时
  • 此外,节能学习模型(energy-efficient learning models)对于 LLM 的可持续扩展至关重要,需符合绿色 AI 倡议。这一领域需要在计算成本与模型性能和能力收益之间取得平衡

社会公益(Social Good)Continual Learning

  • 持续学习的社会责任包括确保隐私和数据安全,尤其是在持续指令微调的背景下 [7]
  • 随着 LLM 通过更具体的指令或任务进行微调,必须安全且合乎道德地处理敏感或个人数据
  • 与人类价值观和文化的对齐也至关重要,尤其是在持续偏好学习领域
  • 这需要融入伦理 AI 原则和文化敏感性,以确保模型的输出符合社会规范和价值观

Automatic Continual Learning

  • 一个重大挑战在于创建能够自主监督其学习过程的系统,无缝适应新任务(指令微调)和用户偏好(对齐),同时仅依赖 LLM 的固有能力,无需人工干预 [12]
  • 自动持续学习包括能够协作学习的多智能体系统和基于性能反馈自主调整学习策略的自规划算法
  • 此类系统将代表 LLM 自主性的重大进步

Continual Learning with Controllable Forgetting

  • 可控遗忘(Controllable Forgetting)与持续预训练尤为相关
  • 随着模型接触新的数据流,选择性保留或遗忘信息的能力可以防止灾难性遗忘 [15] 并增强模型的适应性 [35]
  • 这一挑战还包括管理错误信息和遗忘不正确或过时的信息 [9],以确保 LLM 随时间推移的准确性和可靠性

Continual Learning with History Tracking

  • 有效的历史追踪对于理解 LLM 通过预训练、指令微调和偏好学习阶段的演变至关重要
  • 管理模型参数中的历史记录和使用外部记忆架构有助于追踪过去学习对当前模型行为和决策的影响 [26]
  • 这对于分析持续学习过程的有效性并做出明智调整至关重要

Theoretical Insights on LLM in Continual Learning

  • 许多评估研究已经探讨了跨阶段遗忘问题 [17],并证明了对齐 LLM 的弱鲁棒性 [15],但关于多阶段训练如何影响 LLM 在后续持续学习任务中性能的理论分析仍然稀缺
  • 这一空白凸显了需要更深入地理解多阶段训练为 LLM 的学习能力和长期性能带来的具体变化

NLP——EverGreenQA(EG-E5)

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(EverGreenQA,EG-E5)Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA, arXiv 20250527, Skoltech
      • 注:Skoltech 是俄罗斯斯科尔科沃科学技术研究院的简称

Paper Summary

  • LLM 在问答(QA)任务中经常产生幻觉(hallucination),一个关键但尚未充分探索的因素是问题的时间性:
    • 即问题属于常青类(evergreen,答案随时间稳定)还是可变类(mutable,答案会变化)
  • 本论文探讨了问题的常青性(evergreenness),即答案是否会随时间变化
    • 论文测试了 LLM 检测常青性的能力,并展示了其在多个应用中的价值
    • 论文提出了 EverGreenQA ,这是首个支持多语言且带有常青标签的问答数据集,可用于评估和训练,包含 7 种语言的 4,757 个示例
    • 利用 EverGreenQA 数据集,论文对现代大语言模型在常青问题分类任务上的表现进行了基准测试,并训练了 EG-E5 ,一个轻量级分类器,其性能优于大语言模型和此前训练的方法
  • 论文进一步分析了大语言模型是否通过不确定性估计隐式编码了常青性 ,发现它们确实具备一定的能力 ,且模型规模越大,表现越好
  • 论文展示了常青分类在三个应用中的实际价值:
    • 改进自我知识估计(self-knowledge estimation):论文通过预测的常青概率增强了现有的不确定性估计方法 ,取得了稳定的改进
    • 过滤问答数据集:论文展示了常青分类器有助于筛选高质量的问答数据集,支持更可靠和公平的评估
    • 解释 GPT-4o 的检索行为:论文证明常青性是预测 GPT-4o 搜索行为的最佳指标,优于所有其他测试因素

Introduction and Discussion

  • 大语言模型在问答任务中常因幻觉答案而表现不佳(2025)
  • 为提高可信度,近期研究聚焦于:
    • 估计模型的自我知识(self-knowledge),即识别自身已知与未知的能力(2023;2025)
    • 通过检索增强生成(Retrieval-Augmented Generation, RAG)整合最新外部信息(2024;2024;2023)
  • 未充分探索 ,同时确是影响问题难度的关键因素是其是否为常青(evergreen)或可变(mutable)问题(2024a),即正确答案是否随时间稳定(如图 1 所示)
    • 可变问题尤其具有挑战性,因为它们通常需要访问最新信息,而这些信息可能未包含在模型的固定参数化知识中
  • 常青性(evergreen-ness)具有实际重要性,但在评估和改进大语言模型行为时,它仍是一个未被充分探索的因素
    • 现有研究大多局限于小规模、仅限英语的数据集,且主要关注问答准确性,很少探讨其更广泛的影响(2024;2024)
    • 问题常青性在塑造大语言模型可靠性和可解释性中的作用仍未被充分研究
  • 为填补这一空白,论文开展了关于问题常青性及其实际应用的全面研究
  • 论文提出了 EverGreenQA ,这是首个多语言人工标注的常青感知问答数据集,包含适合模型训练的训练-测试划分
  • 基于 EverGreenQA ,论文评估了 12 个现代大语言模型,判断它们是否通过显式(直接提示,through direct prompting)或隐式(基于不确定性的信号,via uncertainty-based signals)方式编码时间性知识
  • 此外,论文还开发了 EG-E5 ,一个轻量级的,截止到当前最优的分类器,用于识别常青问题
  • 论文展示了 EG-E5 在多个下游任务中的实用性:
    • (1)改进自我知识估计
    • (2)筛选问答数据集以支持更公平的评估
    • (3)有效解释 GPT-4o 的黑盒检索行为
  • 论文的贡献和发现如下:
    • 1)构建了 EverGreenQA ,首个用于问题常青性分类的多语言数据集,涵盖 7 种语言,共 4,757 个样本
    • 2)首次全面评估了大语言模型对问题常青知识的掌握情况,通过显式信号(提示)和隐式信号(不确定性估计)评估了 12 个模型
    • 3)开发了 EG-E5 ,一个轻量级多语言分类器,用于识别常青问题,在此任务上达到当前最优性能,同时适用于低计算资源场景
    • 4)展示了 EG-E5 在三个应用中的价值:
      • (1)改进自我知识估计
      • (2)筛选问答数据集以实现更公平的评估
      • (3)有效解释 GPT-4o 的检索行为
  • 论文发布了模型和数据以供进一步使用

EverGreenQA & EG-E5

Dataset Collection

  • 论文构建了一个问答数据集,包含来自 AI 聊天助手的真实用户查询,每个问题标注为常青或可变,并提供对应的标准答案
  • 所有问题均为事实性问题,并通过多轮内部 alpha 测试(internal alpha testing)手动验证以确保多样性和减少主题偏差
    • 理解:Alpha Testing(α测试) 是软件开发过程中一种重要的内部测试阶段,主要用于在产品正式发布前,由开发团队或内部相关人员对软件进行系统性测试,目的是发现并修复主要的功能缺陷、性能问题和用户体验漏洞
    • 补充:alpha 测试 和 beta 测试的区别如下:
      维度 Alpha Testing Beta Testing
      测试人员 内部团队/员工 外部真实用户
      环境 开发/模拟环境 接近真实的生产环境
      目的 修复核心缺陷,验证基本功能 收集用户反馈,优化体验
      阶段 早于Beta,接近开发完成 晚于Alpha,接近正式发布
  • 标签和标准答案由训练有素的语言学家团队手动分配,他们根据检索到的信息从头编写答案
  • 由于初始数据集中大多数问题为可变问题,为避免训练数据偏差,论文还生成了 1,449 个仅针对常青类的合成数据(这些附加数据同样经过语言学家验证)
  • 最终数据集包含 4,757 个问题,其中 3,487 个用于训练,1,270 个保留用于测试
  • 数据集构建和标注的详细信息见附录 F

Dataset Translation

  • 论文使用 GPT-4.1 将问题从俄语翻译为英语,再从英语翻译为目标语言
  • 此前研究表明,GPT-4.1 在多种语言(包括准确处理文化差异)上表现优异(2024)
  • 完整翻译提示见附录 B

Dataset Validation

  • 为评估翻译质量,论文为每种目标语言招募了人类评估员,均为母语者或具备高级语言水平(B2-C1 级)
  • 论文从测试集中随机抽取 100 个问题(50 个可变,50 个常青)进行评估
  • 英语、希伯来语、德语和阿拉伯语的翻译未发现错误,中文仅有两处轻微不准确
  • 评估员指导见附录 C

EG-E5 Training

  • 论文使用多语言数据集进行训练和测试
  • 对于验证,论文使用了 FreshQA(2024)的开发集和测试集,将其快速变化和慢速变化类别合并为可变标签
  • 为与多语言设置一致,FreshQA 数据被翻译为所有目标语言
  • 论文尝试了多语言版本的 BERT(2019)、DeBERTaV3(2023)和 E5(2024)作为编码器
  • 最佳性能由 E5-Large 模型实现,论文将其称为分类器 EverGreen-E5 (EG-E5)
  • 超参数细节和消融实验结果见附录 A

Are LLMs Aware of Evergreenness?

  • 在本节中,论文评估现代 LLM 是否能可靠地判断一个问题是否为常青问题(evergreen)
  • 论文测试了12种不同架构的 LLM,完整细节见附录A

Verbalized Evergreen Awareness

  • 为了评估LLM是否能显式识别常青问题,论文通过提示(prompting)让每个模型给出二元的“是/否”答案
  • 论文还纳入了两种专门训练的方法:
    • UAR (2024):一种基于 LLaMA2-13B 微调的模型,用于分类常青问题
    • MULAN (2024):基于维基数据(Wikidata)中可变(mutable)和常青样本的分类器
  • 结果 :表2显示,论文提出的分类器 EG-E5 在所有语言中均表现最佳,显著优于通用LLM和专门训练的模型
    • 在LLM中,LLaMA 3.1 70 和 Qwen 2.5 32B 表现最强,GPT-4.1稍逊一筹
  • 论文观察到不同语言的性能存在差异,但无明显差距,即使对于非拉丁语系(如阿拉伯语、中文、俄语)也是如此
  • 基线方法 UAR 和 MULAN 的表现远逊于 LLM 和 EG-E5,这可能是因为它们对 QA 数据集的常青性假设过于简化
  • Takeaway:EG-E5 超越了 few-shot LLMs 和之前的方法,这些方法较差原因是他们训练数据中包含非真实的假设

Internal Evergreen Awareness

  • 论文进一步通过不确定性估计(uncertainty estimation)评估 LLM 是否隐式编码了问题的常青性信息
  • 论文从测试集中抽样 400 个问题(200 个常青,200 个可变),并采用两种广泛使用的不确定性度量方法 (2024; 2025):
    • 困惑度(Perplexity) :预测序列的逆概率,按长度归一化。对于 Token 序列 \(x_{1},\ldots,x_{T}\),定义为:
      $$
      \text{PPL} = \exp\left(-\frac{1}{T}\sum_{t=1}^{T}\log p(x_{t}\mid x_{ < t})\right)
      $$
    • 平均 Token 熵(Mean Token Entropy) :模型预测 Token 分布的平均熵:
      $$
      \text{Entropy} = -\frac{1}{T}\sum_{t=1}^{T}\sum_{w\in V}p_{t}(w)\log p_{t}(w)
      $$
      • 其中 \(p_{t}(w)\) 是位置 \(t\) Token \(w\) 的预测概率,\(V\) 是词汇表
  • 结果 :表3显示,大多数模型的不确定性与常青性仅呈现弱相关性(mild correlations),其中 Mistral 7B 和 Qwen 2.5 32B 的信号最强
  • 论文还发现一个微弱趋势:
    • 更大规模的模型,(不确定性与)常青性的相关性更强,可能表明其对时间线索的内部依赖更强
    • 困惑度和熵的表现无显著差异
    • 总体而言,不确定性信号能捕捉部分时间信息 ,但明显弱于显式表达的判断
    • 更多分析见附录E
  • Takeaway:不确定性指标编码了常青性中的弱且不一致的信号,且在更大的模型中有微弱更强的趋势

Enhancing Self-Knowledge

  • 本节评估结合问题常青性知识是否能改进自我知识(self-knowledge)估计,即模型识别自身知识边界并判断能否回答问题的能力 (2025; 2023)
  • 这一能力被视为提升 LLM 可信度的关键因素

Task formulation

  • 论文将自我知识估计定义为二分类任务,目标标签 \(y\in\{0,1\}\) 表示模型对输入 \(x\) 的答案是否正确
  • 每种评估方法为输入分配一个实值自我知识分数 \(f(x)\in\mathbb{R}\)

Methods

  • 论文使用 LLaMA3.1-8B-Instruct 和五种广泛采用的高性能不确定性估计器进行评估,这些方法代表不同的不确定性量化家族(如基于 logit 和一致性的方法):
    • 最大 Token 熵(Max Token Entropy) :计算 Token-level 熵并取序列最大值作为最终分数 (2020)
    • 平均 Token 熵(Mean Token Entropy) :类似上述方法,但通过平均 Token-level 熵值聚合序列 (2020)
    • 词汇相似性(Lexical Similarity) :通过计算多响应间的平均词汇重叠估计不确定性,作为输出一致性的代理 (2020)
    • SAR :结合熵与语义重要性加权,对序列调整后的熵值求和 (2023)
    • EigValLaplacian :构建响应相似图,计算其拉普拉斯矩阵特征值和以量化响应多样性 (2023)
  • 对于每种方法,论文评估结合常青问题预测概率(来自EG-E5分类器)的效果
  • 最终自我知识分类器 \(f(x)\) 的训练使用标准机器学习模型,输入特征为不确定性估计指标(若适用则加入常青概率)
    • 标准分类模型,包括:包括随机森林,决策树等
  • 完整训练流程见附录D

Evaluation

  • 论文采用文献中广泛使用的标准指标 (2024; 2025):
    • AUROC :衡量模型基于 \(f(x)\) 区分正确答案与错误答案的能力,值越高表示可分性越强
    • AUPRC :量化不同决策阈值下精确率与召回率的权衡,对不平衡数据集尤为重要
    • 预测拒绝率(Prediction Rejection Ratio, PRR) :模拟拒绝最不确定的响应,追踪平均质量的提升,值越高表示不确定性与答案正确性的校准越好

Datasets

  • 论文在 6 个 QA 数据集上评估方法,涵盖单跳(single-hop)和多跳(multi-hop)推理
  • 单跳数据集包括 SQuAD v1.1 (2016)、Natural Questions (2019) 和 TriviaQA (2017),多跳数据集包括 MuSiQue (2022)、HotpotQA (2018) 和 2WikiMulti-HopQA (2020)

Results

  • 如表 4 所示,常青概率是改进自我知识识别的强信号
  • 在 18 项评估中,16 项的最佳结果由常青特征单独或结合不确定性估计方法取得
  • 此外,它能改进校准(PRR),对实际应用极具价值
  • 值得注意的是,常青特征在 AUPRC 上表现突出,在 4 个数据集中排名第一,表明常青性是模型是否具备可靠知识的强指标
  • 然而,论文也发现一致模式:常青性在 AUPRC 上得分高,但在 AUROC 上较低
    • 这表明该特征虽能有效识别模型“知道答案”的情况,但对“不知道答案”的判别较弱(真阴性区分能力不足)
    • 换言之,若问题是常青的,模型很可能正确回答;但若问题非常青,结果更难预测
  • Takeaway:常青概率持续提升 self-knowledge 评估和校准(calibration),在 18 个设定下实现了 16 个 top 结果
  • 问题:本节的 自我知识分类器 \(f(x)\) 的特征和 label 是什么?训练后的 \(f(x)\) 用来做什么?

Filtering QA with Evergreen

  • 在本节中,论文展示了 Evergreen 分类在过滤 QA 数据集中的价值,通过排除可变问题(mutable questions),可以实现更公平的评估
    • 论文使用了与第 5 节“自我知识”相同的模型设置
  • QA 数据集理想情况下应仅包含 Evergreen 问题,这一点在 SimpleQA (2024a) 中得到了强调
    • 为了实现这一目标,SimpleQA 依赖于人工标注者评估问题的 Evergreen 性
    • 相比之下,EG-E5 支持自动化数据集整理,无需手动标注,从而促进了大规模 QA 语料库的构建

Popular QA Datasets Analysis

  • 可变问题对公平的 QA 评估提出了严峻挑战:
    • 过时的黄金答案(outdated gold answers)可能导致现代 LLM 的正确回答被误判为错误,尤其是在模型在不同时间被评估时
  • 示例 :表 5 展示了六个数据集(见第 5.4 节)中的可变问题示例,这些问题的答案在 2025 年已与原参考答案不同
    • 这些示例包括简单和复杂的查询,甚至来自最近发布的数据集如 MuSiQue (2022)
    • 变化的性质多样:有些是可预测的(如奥运会主办城市、人口数据),有些是偶发的(如职位名称或配偶),还有一些是意外的(如君主、GDP 排名)
  • 统计数据 :表 6 显示,可变问题仍然普遍存在,在 NQ 中占比高达 18%,平均占数据集的 10%
    • 这一现象挑战了 QA 基准具有时间稳定性的普遍假设,并引发了对评估公平性的担忧
    • 为确保可靠性,可变问题应被过滤掉,或者需要维护实时基准如 RealTimeQA (2024),尽管后者成本较高
  • 错误的假设 :UAR (2024) 隐含假设数据集具有 Evergreen 性,而 MULAN (2024) 将许多问题视为不可变,但实际上某些关系(e.g., Wikidata’s P190, “sister cities”)可能会变化
    • 这种不匹配可能解释了这些方法在面对时间漂移时实际效果有限的原因
  • Takeaway:QA 基准包含可变问题,破坏了评估的公平性。过滤这些问题对可靠性评估非常重要

Filtered QA Performance

  • 零样本性能 :如表 6 所示,模型在 Evergreen 问题上的准确率始终更高,在复杂任务中的相对差异高达 40%
    • 这与预期一致,因为可变问题通常需要模型静态知识之外的实时信息
  • RAG 的优势 :论文展示了模型在回答可变问题时通常更能从带有黄金上下文的 RAG 中受益,相对增益高达 30%
    • 然而,在可变问题样本较少的数据集中,这种效果会减弱

Explaining GPT-4o Retrieval

  • GPT-4o 通过内部的黑盒标准自主决定何时调用其检索系统
  • 论文发现,问题的 Evergreen 性是这种行为的最强预测因子,这表明 GPT-4o 对外部搜索的使用与输入的时间性质密切相关
  • 论文使用了与第 4.2 节相同的子集,并通过其网络接口查询 GPT-4o,记录是否触发了检索调用
  • 除了 Evergreen 标签外,论文还评估了第 4.2 节中的几种基于不确定性的信号以及 EG-E5 ,以评估它们与 GPT-4o 检索决策的相关性
  • 如表 7 所示,Evergreen 性和 EG-E5 预测比任何基于不确定性的信号都强得多(信息量是后者的两倍以上)
  • 这表明 GPT-4o 可能在内部建模问题的时间性,或者其检索策略对时间性高度敏感
  • Takeaway:常青性是 GPT-4o 的检索行为中最强的预测者(Predictor),表明检索和时序是强相关的

Error Analysis

  • 论文从 EverGreenQA 数据集的测试部分中选取了样本,并对 EG-E5 分类器的错误进行了定性分析
  • 表 8 展示了按原因分组的假阳性和假阴性示例
    • 值得注意的是,分类器在涉及最高级表达时表现出较高的不确定性,有时将其标记为易变的,而其他时候则将“最”“最大”或“最健康”等趋势敏感短语误解为普遍固定的
  • 其他错误包括将活人的成就误分类为已故,以及错误地将稳定的地理或生物事实视为时间敏感的
  • 有趣的是,假阴性的数量是假阳性的两倍
    • 这表明分类器在判断问题是否涉及稳定事实时更为谨慎
  • 在某些情况下,外部信息至关重要
    • 例如,如果一个人已去世,所有关于他的问题都将是 Evergreen 的,但模型需要知道该人是否仍在世
    • 类似地,关于最近年份(如 2023-2024)的问题也带来了挑战,因为模型缺乏对当前日期的感知
  • 在其他情况下,模型在组织和区分其知识方面还有改进空间
    • 例如,学习区分真正稳定的物理事实(如列支敦士登的面积)和更易变的事实(如天空中最亮的恒星),或区分已完成的历史事件(如法国大革命)和正在发展的动态(如即将举行的总统选举)
  • 更多示例见附录 G

补充:Related Work

  • 时间推理在问答任务中仍是一个基础性挑战,因为时间动态性常常使问题解释和答案检索变得复杂
    • 时间敏感的问答任务得益于如 TimeQA(2021)等数据集的改进,该数据集包含 20,000 个需要时间推理的问题-答案对
      • 尽管有帮助,但它仅涉及简单推理
    • SituatedQA(Zhang 和 Choi,2021)通过将问题置于时间和空间上下文中,展示了语境的重要性
    • StreamingQA 强调了时间适应的必要性,揭示了大语言模型在跟踪变化事实时的困难(2022)
    • TemporalAlignmentQA (TAQA) (2024)通过提供 2000 年至 2023 年每年 20,000 个时间敏感问题及其答案,进一步增强了时间对齐的可能性
    • MuLan(2024)根据变化率和事实类型对问题进行了区分
    • FreshQA(2024)提出了一个专注于新鲜度敏感信息的基准,进一步说明了大语言模型在处理时间动态知识时的局限性
    • 这些研究表明需要专门的时间推理方法(2024)
    • 表 1 展示了数据集的对比
  • 检索增强生成(RAG)方法,如 DRAGIN(2024)、IRCoT(2023)或 Rowen(2024),通过动态检索决策解决了时间敏感问答问题,但效果有限
    • 动态检索决策需要自我知识估计
    • 在问答系统被信任之前,它们需要知道自己不知道什么
    • 大语言模型通常难以识别无法回答的问题(2023),但利用自我知识(self-knowledge)可以减少需要大量知识的任务中的错误(2023;2025)
      • 问题:这里的 self-knowledge 是什么?是模型自己的内容知识吗?
  • 基于检索的方法从外部解决了时间知识缺口(temporal knowledge gaps externally),另一种方向是更新大语言模型的内部知识
    • 更新大语言模型的内部知识计算成本高昂,因为重新训练或编辑模型通常需要大量资源,且无法在实际中每天或每小时执行
  • 诸如 LLM Surgery(2024)和参数高效微调(2024;2025)等技术试图使此类更新更实用,但仍面临大规模变更或事实幻觉的问题

Limitations

  • 尽管论文的 EverGreenQA 数据集是首个多语言、人工标注的常青性基准测试,但其规模仍相对较小(3,278 个示例)
    • 不过,它覆盖了 7 种语言的高质量数据,足以揭示模型行为的明确趋势
  • 虽然论文涵盖了 7 种语言,但数据集并未覆盖所有主要语系,且在低资源语言环境中的表现仍有待探索
    • 尽管如此,论文的选择包括了拉丁和非拉丁文字,能够进行有意义的多语言评估
  • 论文对大语言模型的评估涵盖了 14 个不同规模和家族的模型,但主要聚焦于每个规模层级的代表性模型
    • 扩展到更多指令调优或领域适配的变体可能会进一步推广研究结论
  • 在基于不确定性的分析中,论文聚焦于五种代表性指标
    • 尽管这些指标被广泛使用且足以得出强有力的结论,但引入更多最新或任务特定的指标可能会提供更多洞见
  • 论文训练的常青分类器表现优异,但仅对其架构、训练过程和辅助数据的使用进行了有限的消融实验
    • 探索更多模型变体或迁移学习策略可能会进一步提升鲁棒性
  • 最后,尽管论文展示了常青分类的几种实际用途,但并未探索其在主动学习(active learning)、答案校准(answer calibration)或搜索重排序(search reranking)等任务中的潜力
    • 这些有前景的方向留待未来工作

附录A Evergreen Testing Details

LLM 的文本参数

  • 每个示例包含 5 个可变(mutable)和 5 个不可变(immutable)的样本
  • 对于 LLaMA 3.1,采样参数如下:
    • 温度(temperature)= 0.7
    • top_p = 0.9
  • 对于 Qwen 2.5:
    • 温度 = 0.6
    • top_p = 0.95
    • top_k = 20
    • min_p = 0

分类器参数

  • 分类器模型训练参数如下:
    • 所有模型训练了10个周期(epoch)
    • 采用早停(early-stopping)策略
    • 学习率(lr)= 4.6e-5
    • 批量大小(batch size, bs)= 16
    • 未使用额外数据集
    • 论文为所有语言训练了一个统一模型
  • 如表10 所示,multilingual-e5-large-instruct 表现最佳
  • Evergreen Verbal Instruction

    You are a helpful assistant. You help user to classify the questions based on the tem- porality. There are two classes: immutable and mutable. Immutable, in which the an- swer almost never changes. Mutable, in which the answer typically changes over the course of several years or less. Think about each question and in the end answer with Mutable or Immutable starting with ’Classi- fication:’


附录B Translation Prompt

  • 翻译验证指令(Translation Validation Instruction) :将以下英文文本翻译为法语、德语、希伯来语、阿拉伯语和中文。以JSON格式提供翻译结果,键名为“French”、“German”、“Hebrew”、“Arabic”和“Chinese”
  • Translation Validation Instruction :

    Translate the following English text into French, German, Hebrew, Arabic and Chi- nese. Provide the translations as a JSON object with keys ’French’, ’German’, ’He- brew’, ’Arabic’, ’Chinese’.

  • 论文使用GPT-4.1,温度参数(temperature)= 0.2,并添加标签 "response_format": "json_object"

附录C Validation Instructions

  • 验证指令 :对每个翻译的问题,根据以下标准打分:
    • 0 :翻译包含扭曲原意的错误
    • 1 :翻译包含不影响整体含义的轻微错误
  • Translation Validation Instruction:

    For each translated question, assign a score according to the following criteria:
    • 0 – the translation contains errors that distort the meaning.
    • 1 – the translation contains minor er- rors that do not affect the overall mean- ing.


附录D Classifier for Self-Knowledge

  • 论文探索了七种分类模型(使用scikit-learn (2013) 和CatBoost (2020)):
    • 逻辑回归(Logistic Regression)
    • k近邻(k-Nearest Neighbors)
    • 多层感知机(Multilayer Perceptron)
    • 决策树(Decision Tree)
    • 随机森林(Random Forest)
    • 梯度提升(Gradient Boosting)
    • CatBoost
  • 所有模型均使用标准化特征(StandardScaler)训练,超参数在训练数据的 100 个示例子集上优化,并在每个数据集上重复三次实验以确保鲁棒性
  • 最终评估时,论文选择验证集上表现最佳的两个模型,使用 VotingClassifier 将其组合为软投票集成(soft-voting ensemble)
  • 每个组件模型均使用调优后的超参数在全训练集上重新训练

超参数网格

  • 逻辑回归 :C: [0.01, 0.1, 1],求解器(solver): [lbfgs, liblinear],类别权重(class_weight): [balanced, 0:1, 1:1, None],最大迭代次数(max_iter): [10000, 15000, 20000]
  • k近邻 :n_neighbors: [5, 7, 9, 11, 13, 15],距离度量(metric): [euclidean, manhattan],算法(algorithm): [auto, ball_tree, kd_tree],权重(weights): [uniform, distance]
  • 多层感知机 :隐藏层大小(hidden_layer_sizes): [(50), (100), (50,50), (100,50), (100,100)],激活函数(activation): [relu, tanh],求解器: [adam, sgd],alpha: [0.00001, 0.0001, 0.001, 0.01],学习率(learning_rate): [constant, adaptive],早停(early_stopping): True,最大迭代次数: [200, 500]
  • 决策树 :最大深度(max_depth): [3, 5, 7, 10, None],最大特征数(max_features): [0.2, 0.4, sqrt, log2, None],分裂标准(criterion): [gini, entropy],分裂器(splitter): [best, random]
  • CatBoost :迭代次数(iterations): [10, 50, 100, 200],学习率: [0.001, 0.01, 0.05],深度(depth): [3, 4, 5, 7, 9],bootstrap类型(bootstrap_type): [Bayesian, Bernoulli, MVS]
  • 梯度提升 :n_estimators: [25, 35, 50],学习率: [0.001, 0.01, 0.05],最大深度: [3, 4, 5, 7, 9],最大特征数: [0.2, 0.4, sqrt, log2, None]
  • 随机森林 :n_estimators: [25, 35, 50],最大深度: [3, 5, 7, 9, 11],最大特征数: [0.2, 0.4, sqrt, log2, None],bootstrap: [True, False],分裂标准: [gini, entropy],类别权重: [balanced, 0:1, 1:1, None]

附录E Predictive Analysis of Uncertainty for Temporality

  • 表9 报告了逻辑回归模型的 McFadden’s pseudo-\(R^2\) value , 该模型基于两种不确定性指标(困惑度(perplexity)和平均 Token 熵(mean token entropy))预测问题是否为常青(evergreen)
    • 注:McFadden’s pseudo-\(R^2\) value 即麦克法登伪 \(R^2\) 值,是一种用于评价非线性模型,特别是逻辑回归模型等定性选择模型拟合优度的指标。该指标的取值范围是从 0 到小于 1,其值越接近 0,表明模型没有预测能力;值越接近 1,说明模型对数据的拟合效果越好,即模型能够解释因变量的变异程度越高
  • 大多数模型的伪 pseudo-\(R^2\) 值低于 0.07,表明不确定性对常青分类的预测能力有限
  • 唯一例外是 Phi-3-medium (128k),其困惑度得分最高(0.137),表明长上下文训练可能改善时间性不确定性的编码,但仍非常有限
  • 两种不确定性指标无显著优劣,模型大小与预测性能也无明确相关性
  • 结果表明,不确定性指标仅能捕捉有限的时间性信号,适合作为辅助特征而非独立预测器

附录F Dataset Collection Details

  • 负责标注常青和可变标签(evergreen/mutable)及生成标准答案(golden answers)的语言学家团队均持有语言学学士以上学位,确保标注质量
  • 每阶段标注均通过团队负责人验证以保证一致性
  • 此外,为支持多样化应用,所有答案均转换为别名集合,具体流程见附录F.4
  • 标注人员薪酬符合当地法规(注:这也太谨慎了)

Golden Answers Annotation

  • 标准答案需完整且对用户有用
优质答案示例
  • 问题 :谁被视为物理学的奠基人?
    • 答案 :艾萨克·牛顿(Isaac Newton)被广泛认为是物理学的奠基人
    • 注释 :问题为单数形式,而根据多数来源,牛顿是经典物理学的奠基人。尽管伽利略和笛卡尔也有贡献,但牛顿是最被广泛接受的答案
  • 问题 :2000年意大利总统是谁?
    答案 :Carlo Azeglio Ciampi 是意大利政治家,曾任意大利共和国第10任总统及总理
不完整答案示例
  • 问题 :蜘蛛有牙齿吗?
    • 答案 :是的,蜘蛛有牙齿
    • 注释 :正确答案应为“蜘蛛没有牙齿,但有螯肢(chelicerae),可分泌消化酶。”
  • 开放式列表问题(如“最高的山有哪些?”)需列出多个正确示例并注明非穷举

Evergreen-ness Annotation

  • 常青性标准因领域而异
  • 多数问题涉及已确立的事实或事件,但天文学等领域的新发现可能改变答案
  • 政治领导人类问题(如“现任总统是谁?”)显然非常青
可变问题示例
  • 1)最近一次日食是哪年?
  • 2)哪个国家拥有最长铁路?
常青问题示例
  • 1)罗马帝国分裂为哪两部分,何时发生?
  • 2)梅西是谁?

Synthetic Data Generation

  • 使用 GPT-4.1 生成并人工验证了 1,449 个额外问答对
  • 过滤重复问题并改写常见模板(如“某人年龄”)
  • 仿照 FreshQA 风格,生成常青和可变问题,后者进一步分为慢变(slow-changing)和快变(fast-changing)两类,以增强数据多样性
  • 合成指令 :
    • “请生成以下类型的问答对:慢变问题(答案通常几年内变化)、快变问题(答案一年内变化)、永不变问题(答案永不变化)。”
  • Synthetic Instruction:

    Can you generate different question-answer pair: slow-changing questions, in which the answer typically changes over the course of several years (up to 10); fast-changing question, in which the answer typically changes within a year or less; never-changing, in which the answer never changes.

Short-Answer Generation Prompt

  • 简短答案生成器指令 :
    • 给定一个事实性问题和完整(可能较长)答案 ,生成多个简洁且语义等价的答案变体
    • 规则 :
      • 1)每个变体必须事实正确且独立回答问题
      • 2)尽量简短(约1–5词),同时保持无歧义
      • 3)包含常见拼写、缩写、数字与罗马数字形式
      • 4)不添加答案未明确包含的信息
      • 5)返回如 JSON 对象:{ "answers": ["变体1", "变体2", ...] }
    • 示例 :
      • 问题 :“英国国王是谁?”
      • 答案 :“英国国王是查尔斯三世(Charles Philip Arthur George)。”,["查尔斯3世", "国王是查尔斯3世", "Charles III"]
  • 论文使用 GPT-4o(温度=0.2)并添加了 “response_format”: “json_object” 标签,从长 form 中生成简短 form 答案,便于比较 LLM 的性能

附录G Error Analysis Extended

  • 表11 扩展了EG-E5分类器的错误模式分析,包括更多误分类示例
  • 误报(False Positives) :
    • 时间性表述误为固定历史事实(如“俄罗斯总统选举在哪年举行?”)
    • 最高级假设为静态事实(如“最健康的茶是哪种?”)
  • 漏报(False Negatives) :
    • 最高级误为时间敏感(如“最古老的货币是什么?”)
    • 生物地理事实误为频繁变化(如“列支敦士登的面积是多少?”)
  • 完整示例见附录G

附录H License and Infrastructure

  • 实验使用 1–2 块 NVIDIA A100 GPU,总计约 40 GPU 小时
  • 模型遵循各自许可:LLaMA 3.1 (2024) 和 Gemma 2 (2024) 为自定义许可,Phi-3 (2024) 和 E5 为 MIT 许可,Qwen 2.5 (2024) 和 Mistral (2023) 为 Apache 2.0 许可
  • GPT模型通过 API 或网页界面访问
  • 数据集和分类器以 MIT 许可发布
1234…61
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

608 posts
49 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4