Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

博客导航 · 分类目录

欢迎来到 Jiahong 的技术博客

包含操作系统、机器学习、深度学习、强化学习、NLP 和 LLM 等 计算机/AI 领域的学习笔记与实践总结

📊 共计 611 篇技术文章 | 🏷️ 49 个分类领域

2017
65 篇
2018
121 篇
2019
102 篇
2020
50 篇
2021
32 篇
2022
38 篇
2023
32 篇
2024
47 篇
2025
115 篇
2026
8+ 篇

人工智能 & 机器学习

📖
自然语言处理 (NLP)
📝 171 篇文章
LLM、BERT、Transformer、文本处理等
🧠
大语言模型 (LLM)
📝 152 篇文章
GPT、BERT、ChatGPT等大模型技术
🕸️
深度学习 (DL)
📝 91 篇文章
神经网络、CNN、RNN、Attention等
🎮 🌍
强化学习 (RL)
📝 102 篇文章
Q-Learning、PPO、TRPO、策略梯度等
🤖
机器学习 (ML)
📝 50 篇文章
传统算法、特征工程、模型评估等
🔥
PyTorch
📝 28 篇文章
PyTorch框架使用与实践
📊
TensorFlow
📝 9 篇文章
TensorFlow框架使用与实践
👁️
计算机视觉 (CV)
📝 10 篇文章
图像处理、目标检测、生成模型等

广告 & 推荐

📢
计算广告 (CA)
📝 24 篇文章
广告系统、CTR预估、竞价策略、出价优化等
🔨
拍卖机制 (Auction)
📝 15 篇文章
拍卖理论、机制设计、竞价策略等
💰
竞价与出价 (Bidding)
📝 10 篇文章
出价策略、自动出价、预算分配等
⭐
推荐系统 (RS)
📝 23 篇文章
协同过滤、深度推荐、排序策略等

编程语言

🐍
Python
📝 85 篇文章
Python语法、库使用、最佳实践
☕
Java
📝 4 篇文章
Java编程与开发
🦫
Go
📝 3 篇文章
Go语言学习与实践
🚀
Scala
📝 1 篇文章
Scala函数式编程
🐚
Shell
📝 1 篇文章
Shell脚本编程

系统 & 运维

🐧
Linux
📝 26 篇文章
Linux系统、命令行工具使用
🐳
Docker
📝 5 篇文章
容器技术、镜像管理
🍎
Mac
📝 3 篇文章
macOS使用技巧
🐧
Ubuntu
📝 9 篇文章
Ubuntu 相关技术笔记
🐧
Centos
📝 6 篇文章
Centos 相关技术笔记

数学

📐
数学
📝 23 篇文章
线性代数、概率论、优化理论等

开发工具

🌿
Git
📝 8 篇文章
版本控制、协作开发
📝
Hexo
📝 6 篇文章
博客搭建与维护
✍️
Markdown
📝 1 篇文章
Markdown语法与技巧

其他

📦
其他
📝 43 篇文章
杂项笔记与技术分享
📁
Regex
📝 1 篇文章
Regex 相关技术笔记
📁
Anaconda
📝 4 篇文章
Anaconda 相关技术笔记
📁
Numpy
📝 4 篇文章
Numpy 相关技术笔记
📁
Jupyter
📝 6 篇文章
Jupyter 相关技术笔记
📁
Ray
📝 2 篇文章
Ray 相关技术笔记
📁
Pandas
📝 2 篇文章
Pandas 相关技术笔记
📁
DataFrame
📝 1 篇文章
DataFrame 相关技术笔记
📁
ACM
📝 1 篇文章
ACM 相关技术笔记
📁
KG
📝 3 篇文章
KG 相关技术笔记
📁
Neo4j
📝 1 篇文章
Neo4j 相关技术笔记
📁
GR
📝 11 篇文章
GR 相关技术笔记
📁
GBDT
📝 8 篇文章
GBDT 相关技术笔记
📁
Sklearn
📝 3 篇文章
Sklearn 相关技术笔记
📁
Hadoop
📝 1 篇文章
Hadoop 相关技术笔记
📁
Hive
📝 1 篇文章
Hive 相关技术笔记
📁
MySQL
📝 4 篇文章
MySQL 相关技术笔记
📁
CPT
📝 5 篇文章
CPT 相关技术笔记
📁
AI-Infra
📝 18 篇文章
AI-Infra 相关技术笔记
📁
Megatron
📝 7 篇文章
Megatron 相关技术笔记
📁
Rubrics
📝 14 篇文章
Rubrics 相关技术笔记
📁
HuggingFace
📝 1 篇文章
HuggingFace 相关技术笔记
📁
Spark
📝 2 篇文章
Spark 相关技术笔记

💡 提示:点击任意卡片即可查看该分类下的所有文章

📧 联系方式:JoeZJiahong@Foxmail.com | 🔗 GitHub: @JoeZJH

NLP——技术报告解读-GLM-5

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:GLM-5: from Vibe Coding to Agentic Engineering, Zhipu AI & THU, 20260217
    • GitHub:github.com/zai-org/GLM-5

Paper Summary

  • 整体总结:
    • 在大家都在等待 DeepSeek 时,智谱给了大家一个26年春节的惊喜
    • 在很多指标上(特别是编程指标上),基本上到了第一梯队
    • LMArena 上超过了百度的 ERNIE-5.0,是新的开源 SOTA
    • GLM-5 参数量: 744B-A40B,总参数量相对上一代模型翻倍,但激活参数量只增加了25% (注:上一代的 GLM-4.5 是 355B-A32B 参数)
    • 主要卖点:from Vibe Coding to Agentic Engineering
    • 对比模型是 DeepSeek-V3.2, Claude Opus 4.5, Gemini 3 pro 和 GPT-5.2(xhigh),都是当前处于第一梯队的模型
      • PS:智谱似乎没有考虑跟 20260131 发布的开源 SOTA Kimi-K2.5 比较一下?其实 Kimi-K2.5 在 HLE, BrowseComp, SWE-Bench Verified 和 SWE-Bench Multilingual 等指标上都只差 GLM-5 一点点
    • 唯一的遗憾:GLM-5 仍然不是多模态模型
  • GLM-5 的目标是将 vibe coding 范式过渡到 agentic engineering
  • 使用了 DSA:基于之前模型的 Agentic 、Reasoning 和 Coding 能力(三者在 GLM-4.5 中简称 ARC),采用 DSA 显著降低训练和推理成本,同时保持长上下文的保真度
  • 异步 RL 框架:将生成与训练解耦,大幅提高了后训练效率
  • 异步 Agent RL 算法:进一步提升了 RL 质量,使模型能够更有效地从复杂的、长视野的交互中学习

Introduction and Discussion

  • LLM 逐步从被动的知识库转变为主动的问题求解,计算成本和现实世界适应性的双重挑战已成为主要的瓶颈(GLM-5 旨在客服这些障碍)
    • 尤其是在复杂的软件工程领域
  • GLM-5 在性能和效率上都代表了一种范式转变,在主要的公开排行榜(包括 ArtificialAnalysis.ai、LMArena Text 和 LMArena Code)等上都取得了 SOTA 成绩
  • GLM-5 重新定义了现实世界编码的标准,展示了处理复杂的、端到端的软件开发任务的空前能力,这些任务远远超出了像 SWE-bench 这类传统静态基准的范围
  • GLM-5 在 Intelligence Index v4.0 上得分为 50(注:比 GLM-4.7 的 42 分提升了 8 分)
    • 这一跃升得益于 agentic 性能以及知识/幻觉方面的改进
    • 这是开源权重模型首次在 Artificial Analysis Intelligence Index v4.0 上取得 50 分
  • 图3显示 GLM-5 在 Text Arena 和 Code Arena 中再次成为排名第一的开源模型,并且总体上与 Claude-Opus-4.5 和 Gemini-3-pro 持平
  • GLM-5 完成长视野任务的能力:
    • Vending-Bench 2 是一个衡量 AI 模型在长时间范围内经营企业性能的基准。模型的任务是在一年内经营一个模拟的自动售货机业务,并根据其年末的银行账户余额进行评分
      • 图4(左)显示 GLM-5 在所有开源模型中排名第一,最终账户余额为 $4,432(接近 Claude Opus 4.5,展示了强大的长期规划和资源管理能力
    • 图4(右)进一步展示了作者在内部评估套件 CC-Bench-V2 上的结果
      • GLM-5 在前端、后端和长视野任务上显著优于 GLM-4.7,缩小了与 Claude Opus 4.5 的差距
  • 图5 展示了 GLM-5 的整体训练流程
    • Pre-training:27T Token 的语料库
      • 优先考虑代码和推理
    • Mid-training:将上下文长度从 4K 逐步扩展到 200K
      • 特别关注长上下文的 agentic 数据,以确保在复杂工作流程中的稳定性
    • Post-training:使用顺序强化学习流程,Reasoning RL -> Agentic RL -> General RL
      • 在整个过程中利用了 On-Policy Cross-Stage Distillation 来防止灾难性遗忘,确保模型在成为强大的通才(generalist)的同时,保持其敏锐的推理能力
  • GLM-5 技术贡献总结
    • 使用了 DSA(DeepSeek Sparse Attention)(2025),显著降低了训练和推理成本
      • 注:GLM-4.5 是标准的 MoE
      • DSA 允许 GLM-5 基于 token 重要性动态分配注意力资源,在不影响长上下文理解或推理深度的情况下,大幅降低计算开销
      • 借助 DSA,作者将模型参数扩展到 744B ,并将训练 token 预算扩展到 28.5T Token
    • 新的异步强化学习基础框架:
      • 基于在 GLM-4.5 中初始化的 “slime” 框架和解耦的 rollout 引擎,进一步将生成与训练解耦,以最大化 GPU 利用率
      • 该系统允许对 agent 轨迹进行大规模探索,而无需之前阻碍迭代速度的同步瓶颈,显著提高了作者 RL 后训练流程的效率
    • 新颖的异步 Agent RL 算法,目标是提高自主决策的质量
      • 注:在 GLM-4.5 中,作者利用迭代自蒸馏和结果监督来训练智能体
      • GLM-5 中,作者开发了异步算法,允许模型持续地从多样化的、长视野的交互中学习
        • 这些算法专门针对提高模型在动态环境中的规划和自我纠正能力进行了优化,促成了作者在现实世界编码场景中的主导地位
    • 从第一天起,GLM-5 就全面适配了中国芯片生态系统
      • 作者已在七个主流国产芯片平台上成功完成了深度优化——涵盖从底层 kernel 到上层推理框架
        • 包括华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、MetaX 和燧原科技(Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlunxin, MetaX, and Enflame)

Pre-Training

  • 基础模型的训练包含两个阶段(GLM-4.5 也一样):
    • Pre-Training:通用语言和编码能力
    • Mid-training:agentic 和长上下文能力
  • 基础模型总计达到 28.5T Token

Architecture

  • Model size scaling
    • 对比:GLM-4.5 参数量为 355B-A32B
    • GLM-5 参数量为 744B-A40B,256 个专家,层数 80 层(这里刻意减少层数以最小化专家并行通信开销)
  • Multi-latent Attention(MLA)
    • MLA 采用缩减的键值向量,达到了与 GQA 相当的效果,为长上下文序列提供了卓越的 GPU 内存节省和更快的处理速度
    • 在使用 Muon 优化器的实验中,作者发现 576 维 latent KV 缓存的 MLA 无法匹配 8 个查询组的 GQA(denoted as GQA-8,2048-维度 KV-Cache)的性能
      • For 克服性能差距,作者对 GLM-4.5 中的 Muon 优化器配方提出了一项调整:
        • 在原始配方中:对多头查询、键和值的升投影矩阵 \(W^{UQ},W^{UK},W^{UV}\) 应用矩阵正交化
        • 本文配方:将这些矩阵拆分成不同头的更小矩阵,并对这些独立的矩阵应用矩阵正交化
      • 这种方法称为 Muon Split ,使得不同注意力头的投影权重能够以不同的尺度更新
    • 如表1所示,该方法有效地提高了 MLA 的性能,使其与 GQA-8 相匹配
      • 在实践中,作者还发现,使用 Muon Split,GLM-5 的注意力 logits 尺度在预训练期间保持稳定,无需任何裁剪策略
    • MLA 的另一个缺点是其解码期间的高计算成本
      • 在解码中,MLA 执行 576 维的点积,高于 GQA 的 128 维计算
      • 虽然 DeepSeek-V3 中注意力头的数量是根据 H800 的 roofline 模型选择的 (2025),但它不适用于其他硬件
      • 鉴于 MLA 在训练和预填充期间的 MHA 风格,作者将头维度从 192 增加到 256,并将注意力头数量减少 1/3
        • 这在保持训练计算量和参数数量不变的同时,减少了解码计算量
      • 表 1 中记为 MLA-256 的变体,其性能与 Muon Split 下的 MLA 相当
  • Multi-token Prediction with Parameter Sharing
    • MTP 提高了基础模型的性能,并可作为推测解码的 Draft Model (2023)
    • 在训练期间,为了预测接下来的 \(n\) 个 token,需要 \(n\) 个 MTP 层
      • MTP 参数和 KV 缓存的内存使用量与推测步骤的数量成线性增长
    • DeepSeek-V3 使用单个 MTP 层进行训练 ,在推理期间预测接下来的 2 个 token
      • 这种训练-推理差异降低了第二个 token 的接受率
      • 作者提出在训练期间共享 3 个 MTP 层的参数,使得 Draft Model 的内存成本与 DeepSeek-V3 保持一致,同时提高了接受率
  • 表 2 中 作者展示了在私有 Prompt 集上,给定相同数量的推测步骤(4),GLM-5 的接受长度比 DeepSeek-V3.2 更长
Continued Pre-Training with DeepSeek Sparse Attention (DSA)
  • DSA 的核心思想是用一种动态的、细粒度的选择机制取代传统的 Dense \(O(L^{2})\) 注意力
    • 传统 Dense 注意力在 128K 上下文中变得极其昂贵
    • 与固定模式(如滑动窗口)不同,DSA 会“查看”内容以决定哪些 token 是重要的
  • 从研究人员的角度来看,DSA 特别有趣之处在于它是如何通过对 Dense 基础模型进行继续预训练而引入的
    • 这避免了从头开始训练的“天文数字”成本
    • 这种转变遵循一个两阶段的“Dense 预热和稀疏训练适应”策略
    • DeepSeek-V3.2-Exp 保持与其 Dense 前身相同的基准性能,证明了长上下文中 \(90%\) 的注意力条目确实是冗余的
    • DSA 将长序列的注意力计算减少了大约 \(1.5 - 2x\),这对于本文正在构建的推理密集型智能体来说非常重要,能够以一半的 GPU 成本处理 128K 上下文
  • DSA 训练从 Mid-training 结束时的基础模型开始
    • 预热阶段进行 1000 步,每一步在 14 个长度为 202,752 token 的序列上进行训练,最大学习率为 5e-3
    • 稀疏适应阶段遵循 Mid-training 的训练数据和超参数,处理 20B token
    • 尽管训练预算远小于 DeepSeek-V3.2(943.7B token),但作者发现这足以使 DSA 模型的性能与原始 MLA 模型相匹配
  • 如表 3 所示,DSA 模型的长上下文性能接近 MLA 模型
    • 为了进一步验证 DSA 训练的有效性,作者分别使用相同的 SFT 数据对 DSA 和 MLA 模型进行微调 ,发现两个模型在训练损失和评估基准上表现相当
Ablation Study of Efficient Attention Variants
  • 除了 DSA (2025) 之外,作者基于 GLM-9B 探索了几种替代的高效注意力机制
    • Baseline 模型在所有 40 层中采用分组查询注意力,并已使用 128K token 上下文窗口进行微调
  • 作者评估了以下方法:
    • 滑动窗口注意力交错:一种固定的交替模式,在全注意力和窗口注意力层之间交替,均匀地应用于整个网络
    • Gated DeltaNet(GDN)(2024):一种线性注意力变体,用门控线性循环取代了二次的 softmax 注意力计算,将注意力的计算成本从序列长度的二次方降低到线性
  • 在这些基线的基础上,作者提出了两项改进:
  • 改进1:SWA 模式(基于搜索):受 PostNAS (2025) 启发,作者引入了一种基于搜索的适应方法,该方法识别出适合转换为 SWA 的最佳层子集,同时在其余层中保留全注意力
    • 作者采用 Beam Search 策略来确定配置,以最大化长上下文下游任务的性能
    • 为了减轻计算成本,作者仅在 16K 上下文长度下进行搜索,并将结果模式推广到所有其他输入长度
    • 具体来说,作者使用 Beam 大小为 8,每步优化两层;对于 GLM-9B(40 层),该过程大约在 10 步内收敛
    • 在每一步,候选模式都在 RULER 基准测试 (2024) 上以 16K 上下文长度进行评估,并保留前 8 个候选模式用于下一步
    • 最终得出的模式是 SFSFFSSSFFFFSSSFFFFFFSFSFSFSFSFSFSFSFSFS,其中 S 和 F 分别表示 SWA 和全注意力层
    • 如表 4 所示,这种基于搜索的配置显著优于固定的交错方法。值得注意的是,尽管仅在 16K 下优化,该模式表现出强大的长度泛化能力,在所有测试的上下文长度下都保持有效
  • 改进2:SimpleGDN:一种极简的线性化策略,旨在最大程度地重用预训练权重,改进了 GDN 以适应继续训练
    • 作者完全移除了 Conv1d 和显式门控模块,而是直接将预训练的 Query、Key 和 Value 投影权重映射到线性循环公式中
    • 这种简化消除了对额外参数的需求,同时保留了线性注意力的效率优势
  • 作者在四个长上下文基准上评估所有方法:RULER (2024)、MRCR2、HELMET-ICL (2024) 和 RepoQA (2024)
    • 结果汇总在表 5 中
    • 作者对每种方法在 190B token 上以 64K 上下文长度进行持续训练,保持高效注意力层与全注意力层之间 1:1 的比例
    • 对于 GDN 和 SimpleGDN 方法,作者遵循 Jet-Nemotron (2025) 流程
  • 表 5 中的结果揭示了高效注意力方法之间清晰的权衡层次结构
    • 简单交错的滑动窗口注意力(SWA)会导致长上下文任务的灾难性退化(例如,在 RULER@128K 上下降 30.35 分)
      • 基于搜索的层选择通过在最关键的地方保留全注意力,显著缩小了这一差距
    • 像 GDN 这样的线性注意力变体进一步提高了质量,但代价是增加了额外参数;
    • SimpleGDN 通过最大限度地重用预训练权重,达到了最佳的平衡
    • 注:所有这些方法在细粒度检索任务上都存在固有的准确性差距(在 RULER@128K 上高达 5.69 分,在 RepoQA@128K 上高达 7.33 分)
      • 这是由于在持续训练适应过程中,即使一半的层保留全注意力,高效注意力机制也不可避免地引入信息丢失
  • 相比之下,DSA 本质上是无损的:其 lightning indexer 实现了 Token-level 稀疏性,而不会丢弃任何长距离依赖关系,使其能够应用于所有层且无质量下降
  • 为了验证这一点,作者在配备 MLA 的 GLM-4.7-Flash 上进行了小规模的 DSA 实验
  • 遵循标准的 DSA 流程,训练分两个阶段进行:
    • (i) 一个预热阶段,仅训练 indexer 1000 步(批量大小 16),同时保持所有基础模型权重冻结
    • (ii) 一个联合训练阶段,模型和 indexer 在 150B token 上共同训练
  • 表6总结了在上下文长度从 4K 到 128K 的 RULER 上的结果
    • 仅预热的变体(GLM-4.7-Flash + DSA warmup)就已经能保留基线性能的绝大部分
      • 性能下降幅度较小且集中在最长的上下文窗口(128K:79.21 -> 71.35),较短的上下文几乎不受影响
    • 经过完整的 150B token 联合训练阶段后,GLM-4.7-Flash + DSA 几乎弥合了所有剩余的差距:
      • 在 16K \((+0.86)\)、32K \((+0.49)\) 和 64K \((+1.72)\) 上超过了基线,仅在 128K 上存在 0.35 分的 deficit

Pre-training Data

Web
  • 基于 GLM-4.5 的数据流程
  • 改进了对海量网络数据集的选择标准
  • 引入了另一个基于句子 Embedding 的 DCLM (2025) 分类器,以识别和聚合超出标准分类器的额外高质量数据
  • 为了解决长尾知识的挑战,利用一个世界知识分类器(通过维基百科条目和 LLM 标记的数据进行优化)从中低质量数据中提炼有价值的信息
Code
  • 用来自主要代码托管平台的刷新快照和更大规模的包含代码的网页集合来扩展代码预训练语料库,使得模糊去重后的唯一 token 数量增加了 \(28%\)
  • 为了提高语料库的完整性和减少噪声,作者修复了 Software Heritage 代码文件中的元数据对齐问题,并采用了更准确的语言分类流程
  • 遵循 GLM-4.5 针对源代码和代码相关网页文档的质量感知采样策略
  • 为更广泛的低资源编程语言(例如 Scala、Swift、Lua 等)训练了专门的分类器,以提高这些语言的采样质量
Math & Science
  • 作者从网页、书籍和论文中收集高质量的数学和科学数据,以进一步增强推理能力
    • 作者改进了网页的内容提取流程以及书籍和论文的 PDF 解析机制,以提高数据质量
  • 采用 LLM 对候选文档进行评分,并只保留最具教育意义的内容
  • 对于长上下文文档,作者开发了一种分块聚合评分算法,以提高评分准确性
  • 执行过滤流程,严格避免使用合成、AI 生成或基于模板的数据

Mid-Training

  • 基于 GLM-4.5 中引入的 Mid-training 框架,并在 GLM-5 中扩展了训练量和最大上下文长度,以进一步加强模型的推理、长上下文和 agentic 能力
Extended context and training scale
  • 分三个阶段逐步扩展上下文窗口:
    • 32K(1T token)、128K(500B token)和 200K(50B token)
    • 与 GLM-4.5 中 128K 的最大长度相比,额外的 200K 阶段显著提高了模型处理超长文档和复杂多文件代码库的能力
    • 长文档和合成 agent 轨迹在后期阶段相应地进行了上采样
Software engineering data
  • 作者保留了将 Repo-level 代码文件、Commit Diffs、GitHub Issues、Pull Requests 和相关源文件连接成统一训练序列的范式
  • 在 GLM-5 中,作者放宽了 Repo-level 过滤标准,以扩大合格仓库的范围,产生了大约 10M 个 issue-PR 对,同时加强了个别 issue 级别的质量过滤以减少噪音
  • 作者还为每个 issue-PR 对检索了更大规模的相关文件集合,从而产生更丰富的开发上下文和更广泛的现实世界软件工程场景覆盖
  • 经过过滤,数据集的 issue-PR 部分包含大约 160B 唯一 token
Long-context data
  • 长上下文训练集包括自然数据和合成数据
    • 自然数据来源于书籍、学术论文和来自通用预训练语料库的文档,采用多阶段过滤(PPL、去重、长度),并对知识密集型领域进行上采样
    • 在合成数据构建中,受 NextLong (2025) 和 EntropyLong (2025) 的启发,作者采用了多种技术来构建长程依赖关系
      • 通过交错打包将高度相似的文本聚合以产生序列,旨在缓解“中间丢失”现象,并提高在各种长上下文任务上的性能
  • 在 200K 阶段,作者还加入了一小部分类似 MRCR 的数据,设计了多种变体以扩展 OpenAI 的原始范式,以增强在扩展的多轮对话中的召回能力
    • 根据经验,作者发现增加数据多样性可逐步提高模型的长上下文性能
  • 特别说明:在最初的 128K 阶段之后,再进行一个 200K 的 Mid-training 阶段,即使在 128K 上下文窗口内也进一步增强了模型的性能

Training Infrastructure

Memory Efficiency
Flexible MTP placement
  • 在交错流水线并行 (2021) 下,模型组件被灵活地分配到各个 Stage
  • 问题:
    • MTP 模块跨越 Embedding 、transformer 和输出组件
    • MTP 其他模块消耗明显更高的内存,导致 Stage-level 不平衡
  • 解法:作者将 MTP 输出层与主输出层共同放置在最后一个 Stage 以实现参数共享,同时将其 Embedding 和 transformer 组件放置在前一个阶段
    • 这减少了最后一个 Stage 的内存压力,并改善了流水线 ranks 之间的平衡
Pipeline ZeRO2 gradient sharding
  • 每个流水线 rank 维护多个 Stages (2021),并且原生的每个 Stage 都需要一个完整的梯度缓冲区用于累积和优化器更新
  • 受 ZeRO2 (2020) 启发,作者在数据并行 ranks 之间对梯度进行分片,这样每个 Stage 只存储完整梯度的 \(1/dp\) 部分
  • 此外,仅保留两个 Stage 的完整累积缓冲区,并通过双缓冲重用它们
    • 当一个 Stage 缓冲区在连续微批次上累积梯度时,前一个 Stage 缓冲区的梯度同步并行执行
    • 这将持久性梯度内存减少到每 Stage 的分片缓冲区加上仅用于滚动累积的两个完整缓冲区,而实践中没有额外的同步开销
Zero-redundant communication for the Muon distributed optimizer
  • 朴素的 Muon 实现在每个数据并行 rank 上 All-gather 完整模型参数
    • 这导致了瞬时内存峰值和冗余通信
  • 作者将 All-gather 限制在每个 rank 拥有的参数分片上,并将本地计算与分片通信重叠
    • 这消除了冗余通信,并显著降低了与优化器相关的峰值内存开销
Pipeline activation offloading
  • 在流水线预热期间,前向执行先于反向传播,延长了中间激活的生命周期
  • 作者在前向执行后将激活卸载到主机内存,并在反向执行前重新加载它们 (2024)
    • 卸载以层粒度应用,以进一步减少峰值内存使用
    • 结合细粒度的重计算,在很大程度上消除了将激活常驻在 GPU 内存中的需要
  • 卸载和重新加载的调度与计算重叠,同时避免与点对点通信和 MoE token 路由(分发和组合)争用
    • 这显著减少了激活内存占用,且开销几乎为零
Sequence-chunked output projection for peak memory reduction
  • 输出投影和交叉熵损失会产生瞬态内存开销,这是由于存储用于反向传播的激活以及在损失计算期间将它们提升到更高精度
  • 为了减少这种开销,作者将输入序列划分为更小的块,并在每个块上独立计算投影和损失,完成前向和反向传播后立即释放激活
    • 因此,峰值内存使用随着块数量的增加而减少
  • 通过设置适当的块数量,这种方法减轻了输出层的内存压力,同时保持与未分块执行相当的性能
Parallelism Efficiency
Efficient deferred weight gradient computation
  • To Reduce Pipeline Bubbles,作者将一些权重梯度计算移出关键路径 (2023)
  • 通过优化存储和通信重叠的细粒度延迟,提高了吞吐量,同时保持内存开销可控
Efficient long-sequence training
  • 更长的序列加剧了数据并行和流水线并行组之间的负载不平衡
  • 作者通过工作负载感知的序列重排序、注意力计算的动态重新分配以及将数据并行 ranks 灵活划分为不同大小的上下文并行组来解决这个问题 (2025; 2025)
  • 一种分层 all-to-all 方式重叠 QKV 张量的节点内和节点间通信以减少延迟
INT4 Quantization-aware training
  • 为了在低精度下提供更好的准确性,作者在 SFT 阶段应用了 INT4 QAT
  • 为了进一步减轻训练时间开销,作者开发了一个适用于训练和离线权重量化的量化 kernel,确保训练和推理之间的行为按位一致(ensures bitwise-identical behavior between training and inference)

Post-Training

  • GLM-5 的后训练阶段旨在将基础模型转变为具有强大推理、编码和 agentic 能力的高性能助手
  • 如图5所示,作者的流程遵循一种渐进的对齐策略:
    • 从引入复杂交错思考模式的多任务监督微调开始
    • 然后是针对推理和 agentic 任务的专门强化学习阶段
    • 最后以通用 RL 阶段结束,以实现类似人类的对齐
  • GLM-5 利用 on-policy cross-stage distillation 作为最终的精炼步骤,在利用每个训练阶段带来的性能提升的同时,有效地缓解了能力退化

Supervised Fine-Tuning

  • 与 GLM-4.5 相比,GLM-5 在 SFT 阶段显著扩展了 Agent 和编码数据的规模,GLM-5 的 SFT 语料库涵盖三大类别:
    • 通用聊天:问答、写作、角色扮演、翻译、多轮对话和长上下文交互
    • 推理:数学、编程和科学推理
    • 编码与智能体:前端和后端工程代码、工具调用、编码智能体、搜索智能体和通用智能体
  • GLM-5 在 SFT 期间将最大上下文长度扩展到 202,752 个 token
  • 结合更新的聊天模板,该模型支持三种不同的思考特性(参见图7),包括:
    • Interleaved Thinking:模型在每次响应和工具调用前进行思考,提高了指令跟随能力和生成质量
    • Preserved Thinking:在编码智能体场景中,模型自动在多轮对话中保留所有思考块,重用现有推理而不是从头开始重新推导
      • 这减少了信息丢失和不一致性,非常适合长视野、复杂的任务
    • Turn-level Thinking:模型支持在会话中按轮次控制推理,为轻量级请求禁用思考以减少延迟/成本,为复杂任务启用思考以提高准确性和稳定性
  • GLM-5 在动作之间进行思考并保持跨轮次的一致性,在复杂任务上实现了更稳定和可控的行为
  • 对于通用聊天
    • 与 GLM-4.5 相比,优化了响应风格,使其更具逻辑性和简洁性
    • 对于角色扮演任务,收集和构建了一个更广泛、更多样化的数据集,涵盖多种语言和角色配置
    • 特别是,作者定义了几个评估维度(包括指令跟随、语言表现力、创造力、逻辑连贯性和长对话一致性),并应用自动和人工过滤来筛选和精炼数据
  • 对于推理任务
    • 进一步增强模型推理的深度
    • 对于逻辑推理,作者构建了可验证的问题,并使用拒绝采样合成高质量数据
    • 对于数学和科学问题,应用了基于难度的过滤流程,只保留那些对 GLM-4.7 模型具有挑战性的问题
  • 对于编码和智能体任务
    • 与 GLM-4.5 相比,GLM-5 构建了大量的执行环境以获得高质量的轨迹,特别强调现实世界场景和长视野任务
    • 使用专家强化学习和拒绝采样进一步改进 SFT 数据
    • 轨迹中的错误片段被保留,但在损失函数中被掩盖 ,允许模型学习纠错行为,而不会强化错误动作

Reasoning RL

RL algorithm backbone
  • 本文的 RL 算法建立在 GRPO 之上
    • 注:结合了 IcePop 技术 (2025) 以缓解训练-推理不匹配问题,即 RL 优化期间推理分布与训练分布之间的差异
  • 明确区分了用于梯度更新的训练策略 \(\pi^{\mathrm{train} }\) 和用于轨迹采样的推理策略 \(\pi^{\mathrm{infer} }\)
  • 与原始的 IcePop 公式相比,作者去除了 KL 正则化项以加速 RL 改进。最终的优化损失为:
    $$\begin{array}{rl}\mathcal{L}(\theta) = -\mathbb{E}_{x\sim \mathcal{D},\{y_i\}_{i = 1}^G\sim \pi_{\theta_{\mathrm{old} } }^{\mathrm{infer} }(\cdot |x)}\left[\frac{1}{G}\sum_{i = 1}^G\frac{1}{|y_i|}\sum_{t = 1}^{|y_i|}\mathrm{pop}(\rho_{i,t},1 / \beta ,\beta) \cdot \min \left(r_{i,t}\hat{A}_{i,t},\mathrm{clip}(r_{i,t},1 - \epsilon_{\mathrm{low} },1 + \epsilon_{\mathrm{high} })\hat{A}_{i,t}\right)\right] \end{array} \tag {1}$$
  • 其中训练-推理不匹配比率定义为
    $$\rho_{i,t} = \frac{\pi_{\theta_{\mathrm{old} } }^{\mathrm{train} }(y_{i,t}\mid x,y_{i,< t})}{\pi_{\theta_{\mathrm{old} } }^{\mathrm{infer} }(y_{i,t}\mid x,y_{i,< t})} $$
  • 操作符 \(\mathrm{pop}(\cdot)\) 抑制那些不匹配比率过度偏离的样本:
    $$ \mathrm{pop}(\rho, l, h) = \begin{cases} 0 & \text{if } \rho < l \text{ or } \rho > h \\ 1 & \text{otherwise} \end{cases} $$
  • PPO 风格的重要性比率和组归一化优势遵循原始的 GRPO 定义:
    $$r_{i,t} = \frac{\pi_{i}^{\mathrm{train} }(y_{i,t}\mid x,y_{i,< t})}{\pi_{i_{\mathrm{old} } }^{\mathrm{train} }(y_{i,t}\mid x,y_{i,< t})},\quad \hat{A}_{i,t} = \frac{R_{i} - \mathrm{mean}(R_{1},\ldots,R_{G})}{\mathrm{std}(R_{1},\ldots,R_{G})}.$$
  • 在训练期间,作者设置超参数 \(\beta = 2\),\(\epsilon_{\mathrm{low} } = 0.2\),\(\epsilon_{\mathrm{high} } = 0.28\)
  • 训练完全在 on-policy 下进行,组大小为 32,批量大小为 32
DSA RL insights
  • 作者在基于 DSA 架构的模型上进行了非常大规模的 RL 训练
  • 问题:
    • 与 MLA 相比,DSA 引入了一个额外的 indexer,它检索最相关的 top-k 键值条目,并在检索到的子集上稀疏地计算注意力
      • 检索到的 top-k 结果对于 RL 稳定性至关重要
      • 这类似于 MoE 模型如何使用路由重放 (2025) 来保留激活的 top-k 专家,以确保训练-推理一致性
    • 但在每个 token 位置存储 indexer 的 top-k 索引显然是不切实际的
      • 因为 indexer 使用的 \(k = 2048\) 远大于 MoE 中通常使用的 \(k\),并且存储所有这些索引将带来巨大的存储成本以及训练引擎和推理引擎之间的显著通信开销
  • 解法:
    • 作者发现采用确定性的 top-k 操作符可以有效解决这个问题
    • 与 SGLang 的 DSA Indexer 中使用的非确定性 CUDA 基础 top-k 实现相比,直接使用朴素的 torch.topk 稍慢但具有确定性
      • torch.topk 产生更一致的输出,并带来显著的 RL 收益
    • 相比之下,其他非确定性的 top-k 操作符(例如 CUDA 或 TileLang 实现)在仅仅几步 RL 后就导致了剧烈的性能下降,并伴随着熵的急剧下降
    • 因此,在作者的整个 RL 阶段,作者在训练引擎的 DSA Indexer 中使用 torch.topk 作为默认的 top-k 操作符
    • 作者在 RL 期间默认冻结 indexer 参数,以加速训练并防止 indexer 中的学习不稳定
Mixed domain reasoning RL
  • 在推理 RL 阶段,作者在四个领域进行混合 RL 训练:数学、科学、代码和工具集成推理(TIR)
  • 对于数学和科学,作者从开源数据集 (2025) 和与外部标注供应商共同开发的集合中筛选数据
    • 作者进一步应用难度过滤,将训练重点放在 GLM-4.7 很少或始终无法正确解决,但更强的教师模型(例如 GPT-5.2 xhigh 和 Gemini 3 Pro Preview)能够解决的问题上
  • 对于代码,作者涵盖竞争性编程风格的任务和科学编码任务
    • 前者主要来源于 Codeforces 和代表性数据集,如 TACO (2023) 和 SYNTHETIC-2-RL (2025),而后者则通过将问题分解为正确解决方案所需的最小代码实现,从内部问题库中构建
    • 对于 TIR,作者复用了数学和科学 RL 数据中更具挑战性的子集,并另外与标注供应商共同构建了 STEM 问题,这些问题明确设计为使用外部工具来回答
    • 在 RL 训练期间,作者分配领域和来源特定的 judge 模型或评估系统来产生二元结果奖励
    • 作者保持四个领域之间的整体混合大致平衡,并始终观察到在混合 RL 设置下,每个领域都取得了稳定且显著的收益

Agentic RL

  • 朴素的同步 RL 在长视野智能体 rollout 期间存在严重的 GPU 空闲时间
  • 为了促进 GLM-5 的 agentic 性能,作者开发了一个完全异步和解耦的 RL 框架,并在编码和搜索智能体任务上优化 GLM-5
    • 通过中央多任务 Rollout 协调器将推理引擎和训练引擎解耦,作者在不同的 agentic 工作负载上实现了高吞吐量的联合训练
  • 为了在异步 off-policy 条件下保持训练稳定性,GLM-5 引入了两个关键机制
    • 机制1:Token-in-Token-out(TITO)网关通过保留精确的动作级对应关系,消除了重新 tokenization 的不匹配
    • 机制2:直接双面重要性采样,对 rollout log-probabilities 应用 Token-level 裁剪机制 \((1 - \epsilon_{t},1 + \epsilon_{h})\),同时有效控制 off-policy 偏差,而无需跟踪历史策略检查点
  • 为了加速,作者还采用了 DP-aware 路由,以在长上下文推理期间最大化大型 MoE 模型的 KV 缓存重用
  • 为了扩展 agentic 环境,作者在三个领域扩展了可验证的训练环境:
    • 超过 10,000 个现实世界的软件工程任务
    • 终端任务
    • 高难度多跳搜索任务
  • 注:关于 agentic RL 的更多细节可以在后面的第 4 节中找到

General RL

Multi-dimensional optimization objectives
  • 作者将通用 RL 的优化目标分解为三个互补的维度:
    • 基础正确性,foundational correctness
    • 情感智能,emotional intelligence
    • 任务特定质量,task-specific quality
  • 三个维度的详细解释如下:
    • 基础正确性 维度作为响应质量的基石
      • 针对一系列削弱模型输出可用性的错误类型,包括指令跟随失败、逻辑不一致、事实不准确、知识幻觉和语言不流畅
      • 目标是最大限度地降低错误率,使响应达到可用的基线水平
      • 作者认为这是所有后续优化的先决条件:包含事实错误或误解用户意图的响应,无论其外观多么精致,都可能误导用户
    • 情感智能 维度优化核心正确性之外的用户体验
      • 目标是产生富有同理心、有洞察力且风格接近自然人类交流的响应,使与模型的交互感觉更自然、更吸引人
    • 任务特定质量 维度针对各种特定任务进行细粒度优化
      • 建立在基础正确性建立的可用性之上,它旨在将响应从仅仅是正确的提升到在每个任务类别内真正高质量的级别
      • 该维度涵盖广泛的任务,包括写作、文本处理、主观和客观问答、角色扮演和翻译。每个任务领域都要求不同的奖励信号,需要混合奖励系统
Hybrid reward system
  • 为了监督上述多样化的目标,作者构建了一个混合奖励系统,它集成了三种互补类型的奖励信号:
    • 基于规则的奖励函数,rule-based reward functions
    • 结果奖励模型,outcome reward models (ORMs)
    • 生成式奖励模型,generative reward models (GRMs)
  • 每种方法都有其独特的优缺点,它们的结合是稳定、高效和可扩展的通用 RL 训练过程的关键
    • 基于规则的奖励 提供精确且可解释的信号,但仅限于可表达为确定性规则的方面
    • ORM 提供低方差信号和高训练效率,但更容易受到 Reward Hacking 行为的影响
      • 即策略利用表面模式而不是真正提高核心能力
    • GRM 利用语言模型产生标量或结构化评估,并且更能抵抗这种利用,但往往表现出更高的方差
  • 通过混合这三种信号类型,作者获得了一个平衡了精度、效率和鲁棒性的奖励系统,减轻了任何单一组件的弱点
Human-in-the-loop style alignment
  • 通用 RL 流程的一个独特之处在于明确纳入了高质量的人类编写的响应
  • 作者不只依赖模型生成的响应,而是引入专家人类响应作为风格和质量的锚点
  • 以上是基于观察得到的:纯模型生成的优化倾向于收敛到可识别的“类似模型”模式,通常是冗长的、公式化的,或者缺乏熟练人类写作的细微差别
  • 通过让模型接触人类编写的范例,作者鼓励它采用更自然、更符合人类习惯的响应模式

On-Policy Cross-Stage Distillation

  • 在多阶段 RL 流程中,为不同目标进行顺序优化可能导致先前获得的能力累积退化
  • 为了缓解这个问题,作者执行 on-policy cross-stage distillation 作为最终阶段,采用 on-policy 蒸馏算法 (2025) 快速恢复早期 SFT 和 RL 阶段(Reasoning RL 和 General RL)获得的技能
  • 具体方法:
    • 先前训练阶段的最终检查点作为教师模型,其中训练 Prompt 从相应教师的 RL 训练集中采样,并以适当比例混合
    • 训练损失可以通过用以下公式替换公式1中的优势项来获得(’sg’ 代表 stop gradient 操作,例如 .detach()):
      $$\hat{A}_{i,t} = \mathrm{sg}\left[\log \frac{\pi_{i,\mathrm{base} }^{\mathrm{infer} }(\boldsymbol{y}_{i,t}\mid\boldsymbol{x},\boldsymbol{y}_{i,< t})}{\pi_{i,\mathrm{in} }^{\mathrm{infer} }(\boldsymbol{y}_{i,t}\mid\boldsymbol{x},\boldsymbol{y}_{i,< t})}\right]. \tag {2}$$
  • 目前,作者利用推理引擎获取教师的 logits
  • 将来,作者计划将推理后端迁移到训练引擎,并统一采用 MLA 的多查询注意力模式进行推理
    $$ (\pi_{i,\mathrm{base} }^{\mathrm{infer} }\rightarrow \pi_{i,\mathrm{base} }^{\mathrm{train} })$$
  • 在训练期间,GRPO 算法中的组大小配置为 1 以增加数据吞吐量,批量大小设置为 1024
    • 在这个阶段这样做是可行的,因为不再需要为每个 Prompt 维持一大组样本来估计优势;优势直接根据与教师模型的差距计算得出

RL Training Infrastructure: The slime Framework

  • GLM-5 继续使用 slime 作为统一后训练基础设施,实现大规模的端到端强化学习
  • GLM-5 没有引入新的系统组件,而是充分利用了 slime 的能力:
    • (1) 通过自由形式的 rollout 定制和基于服务器的执行模型来拓宽任务覆盖范围
    • (2) 通过混合精度训练/rollouts 结合 MTP 和 Prefill-Decode 分离,特别是对于多轮 RL 工作负载,来显著提高吞吐量
    • (3) 通过心跳驱动的 rollout 容错和路由器级服务器生命周期管理,来提高鲁棒性
Scaling Out: Flexible Training via Highly Customizable Rollouts
  • GLM-5 的后训练涵盖多样化的目标谱系
    • 为了支持这种多样性而无需特定于任务的分支,GLM-5 利用了 slime 高度可定制的 rollout 接口及其基于服务器的 rollout 执行
Highly customizable rollouts
  • slime 提供了一个灵活的接口,用于实现特定于任务的 rollout 逻辑(包括多轮交互循环、工具调用、环境反馈处理和验证器引导的分支)而无需修改底层基础设施
    • GLM-5 利用此功能支持广泛的领域和训练范式,包括但不限于推理 RL、通用 RL、agentic RL 和 on-policy 蒸馏,所有这些都在统一的训练栈中完成
Server-based rollouts via HTTP APIs
  • slime 通过标准 HTTP API 暴露其 rollout 服务器和推理路由器,允许用户以与传统推理引擎相同的方式与 slime 的服务层交互
  • 这将 rollout 逻辑与训练进程边界解耦:
    • 外部智能体框架和环境可以直接调用服务器/路由器端点
    • 短视野的单轮训练和长视野的多轮轨迹,优化后端保持不变
Scaling Up: Tail-Latency Optimization for RL Rollouts
  • 对于 RL rollouts,优化目标不是总吞吐量,而是端到端延迟,由每一步中最慢的样本主导
  • 在实践中,单个拖尾轨迹可能会阻塞同步点(例如,批次完成、缓冲区就绪、训练器更新),并直接决定挂钟进度
  • 因此,GLM-5 充分利用 slime 的延迟导向服务和调度机制,以最小化中位数延迟,更重要的是,尾部延迟
No-queue serving via multi-node inference with DP-attention for MLA
  • 通过具有 MLA 的 DP 注意力实现多节点推理的无队列服务
  • 为了避免排队延迟,即使在突发流量下也必须及时服务 rollout 请求,这需要大量的 KV 缓存容量
  • GLM-5 采用多节点推理部署(例如,在 8 个节点上使用 EP64 和 DP64)来提供充足的分布式 KV 缓存
  • 引入 DP 注意力主要是为了防止在不同 ranks 之间复制 KV
Tail-latency reduction with FP8 rollouts and MTP
  • 使用 FP8 rollouts 和 MTP 减少尾部延迟
  • GLM-5 使用 FP8 进行 rollout 推理,以减少每 token 延迟并缩短长轨迹的完成时间
  • 此外,GLM-5 利用 slime 对多 token 预测的支持,这在 RL rollouts 典型的小批量解码 regime 下特别有效。由于尾部延迟通常由小批量
Tail-latency reduction with FP8 rollouts and MTP
  • 1)GLM-5 使用 FP8 进行 Rollout 推理,以减少每 Token 延迟并缩短长轨迹的完成时间
  • 2)GLM-5 利用了 slime 对 MTP 的支持
    • 这在 RL Rollout 典型的小批量解码场景下尤其有效
    • 由于尾延迟通常由小批量中的掉队者(stragglers)引起(例如,罕见的长上下文、复杂的多轮推理、密集使用工具的执行轨迹)
      • MTP 在长尾部分提供了不成比例的巨大收益,改善了最慢样本的完成时间,从而减少了步骤级的停滞时间
PD disaggregation to prevent prefill-decode interference in multi-turn RL
  • 在多轮设置中,长前缀的预填(prefill)操作非常频繁(对话历史、工具执行痕迹、代码上下文)
  • 在 DP-Attention 下,将预填和解码混合在同一个服务资源上会产生严重的干扰:一个繁重的预填操作可能会抢占或中断服务器上正在进行的解码,阻碍其他样本持续取得进展,并急剧恶化尾延迟
  • GLM-5 利用了 slime 的预填-解码 (PD) 分离功能
    • 通过在专用资源上运行预填和解码,解码过程保持稳定且不受中断,使得长时程样本能够持续进行,从而显著改善了多轮智能体 RL 中的尾延迟表现

Rollout Robustness: Heartbeat-Driven Fault Tolerance

  • 在大规模下,瞬时故障(例如,单个服务器崩溃、网络问题或性能下降)是不可避免的
  • GLM-5 利用 slime 的心跳驱动容错来确保在此类事件下的训练连续性:
    • rollout 服务器定期发出由编排层监控的心跳,不健康的服务器会被主动终止并从推理路由器注销
  • 重试会自动从故障或降级服务器路由到健康服务器,防止单个服务器事件中断 rollouts,并保持不间断的端到端 RL 训练

Agentic Engineering

  • 作者描述了从氛围编程(vibe coding,即通过人类 Prompt 编程)到智能体工程(agentic engineering)的转变
    • 在氛围编程中,人类 Prompt AI 模型编写代码
    • 在智能体工程中,AI 智能体自己编写代码
      • 它们进行规划、实现和迭代
  • 为了支持这些 Long-horizon 任务,GLM-5 利用了一个完全异步和解耦的 RL 框架,通过减少智能体 Rollout 过程中的空闲时间,显著提升了 GPU 利用率
  • 为了扩展智能体环境,作者开发了环境构建流水线
    • 对于编码任务,作者通过创建超过 10,000 个可验证的训练场景,设置了真实的软件工程问题和终端任务
    • 对于搜索智能体,作者开发了一个自动且可扩展的复杂多步推理数据合成流水线,用于构建智能体训练数据

Asynchronous RL for Agentic Tasks

  • 为智能体任务 RL 训练设计了一个完全异步和解耦的 RL 基础设施
    • 能高效处理 Long-horizon 智能体 Rollout,并支持跨不同智能体框架的灵活多任务 RL 训练
  • 采用基于组的策略优化算法进行 RL 训练
    • 对于每个问题 \(x\) ,作者从旧策略 \(\pi_{\mathrm{old} }\) 中采样 \(K\) 条智能体轨迹 \(\{y_{1},\ldots ,y_{K}\}\) ,并根据以下目标优化模型 \(\pi_{\theta}\) :
      $$L(\theta) = \mathbb{E}_{x\sim \mathcal{D} }\left[\frac{1}{K}\sum_{i = 1}^{K}(r(x,y_i) - \bar{r} (x))\right],$$
      • 其中 \(\begin{array}{r}\bar{r} (x) = \frac{1}{K}\sum_{i = 1}^{K}r(x,y_i) \end{array}\) 是采样响应的平均奖励
      • 注:只有模型生成的 Token 用于优化,环境反馈在损失计算中被忽略
Asynchronous RL Design for Agentic Training
  • 由于 Rollout 过程的长尾特性,同步 RL 训练在 Rollout 阶段会引入大量气泡,这是因为智能体任务生成的严重不平衡,可能导致 GPU 长时间空闲
  • 为了提高训练吞吐量,作者对 Agentic RL 采用完全异步的训练范式,以提升 GPU 利用率和训练效率
  • 具体方法:
    • 将训练引擎和推理引擎解耦到不同的 GPU 设备上
    • 推理引擎持续生成轨迹,生成的轨迹数量达到预定义的阈值后,该批次就会被发送到训练引擎以更新模型
  • 为了减少策略滞后并保持训练近似 On-policy,Rollout 引擎使用的模型权重会定期与训练引擎的权重同步
    • 训练引擎每进行 \(K\) 次梯度更新,就会更新模型参数并将新权重推回推理引擎
    • 虽然异步可以显著提高整体训练效率,但这也意味着不同的轨迹可能由不同版本的模型生成,从而引入了严重的 Off-policy 问题
    • 由于推理策略的变化使得权重更新面临不同的优化问题,在每次更新推理引擎的权重后需要重置优化器
      • 理解:混合策略下的优化目标不再是“当前策略下的期望回报”,而是一个混合策略分布下的期望回报,这本质上是一个不同的优化问题(different optimization problem),因为:
        • 数据分布变了
        • 策略的梯度方向可能不一致
        • 训练不再是对当前策略的稳定改进
      • 理解:为什么“重置优化器”能缓解这个问题?
        • 在标准的优化器(如 Adam)会维护动量(momentum) 和方差(variance) 等状态
          • 这些状态是累积历史梯度信息的,假设优化目标是平滑变化的
        • 但在异步 RL 中:
          • 每次推理引擎更新后,优化目标(采样数据分布决定了优化目标)发生了突变
          • 如果保留旧的优化器状态,可能会:
            • 引入错误的梯度方向
            • 导致训练不稳定
            • 延缓收敛
        • 因此,作者选择在每次推理引擎权重更新后重置优化器,相当于:
          • 清空历史梯度信息
          • 重新开始优化当前策略下的新目标
Server-based multi-task training design
  • 为了解决多任务 RL 中轨迹生成的异质性(不同任务通常依赖不同的工具集和特定于任务的 Rollout 逻辑),作者引入了一个基于服务器的多任务 Rollout Orchestrator 用于多任务 RL 训练
    • 该组件旨在通过一个中心 Orchestrator 协调多个注册的任务服务,确保 slime RL 训练框架与下游任务之间的无缝兼容
  • 具体方法:
    • 每个任务将其自己的 Rollout 和奖励逻辑实现为一个独立的微服务,并在中心 Orchestrator 上注册以进行管理和调度
    • 在 Rollout 阶段,中心 Orchestrator 控制每个任务的 Rollout 比例和生成速度,以实现跨任务的数据收集平衡
      • 这里的关键在于:将所有智能体任务的轨迹标准化为统一的消息列表表示形式
      • 这使得能够对复杂的智能体框架(例如软件工程任务)进行联合训练,同时也支持对异构工作负载进行集中的后处理和日志记录
    • 这种设计将任务特定的逻辑与核心训练循环清晰地隔离开来,实现了与多任务 RL 训练的无缝集成
  • 作为 GLM-5 训练基础设施的骨干,该 Orchestrator 支持超过 1000 个并发的 Rollout,并能够自动动态调整任务采样比例,以及对任务进度进行细粒度监控
Optimizing Asynchronous Training Stability
Token-in-Token-out vs. Text-in-Text-out
  • 在 RL Rollout 设置中:
    • Token-in-Token-out (TITO) 意味着训练流水线消费由推理引擎产生的确切 Tokenization 和解码后的 Token 流,并直接使用它来构建用于学习的轨迹
    • Text-in-Text-out 将 Rollout 引擎视为一个黑盒,返回最终确定的文本;然后训练器通过对该文本进行重新 Tokenization (通常还要重新推导边界和截断)来重建轨迹,然后再计算损失
  • 以上这个看似微小的选择却至关重要:
    • 重新 Tokenization 可能会在 Token 边界、空格/标准化处理、截断或特殊 Token 放置方面引入细微的不匹配,这进而可能破坏动作和奖励/优势之间的步骤对齐
      • 尤其是在 Rollout 被流式传输、截断或跨多个执行器交错时
    • 作者发现 Token-in-Token-out 对于异步 RL 训练至关重要,因为它保留了采样内容与优化内容之间精确的动作级对应关系,同时使执行器能够立即发出轨迹片段(Token ID + 元数据),而无需经过有损的文本往返过程,也无需在学习器端等待事后的重新 Tokenization
  • 在实践中,作者实现了一个 TITO Gateway,拦截来自 Rollout 任务的所有生成请求,并记录每条轨迹的 Token ID 和元数据
    • 这种设计将繁琐的 Token ID 处理与下游智能体 Rollout 逻辑隔离开 来,同时避免了 RL 训练期间因重新 Tokenization 导致的不匹配
Direct double-sided importance sampling for token clipping
  • 与第 3 节中的同步 RL 训练设置不同,在异步设置中,Rollout 引擎可能在单条轨迹生成过程中经历多次更新 ,这使得追踪确切的行为概率 \(\pi_{\theta_{\mathrm{old} } }\) 在计算上变得不可行
    • 在这种情况下,我们可能将不得不维护一个庞大的模型检查点历史 \(\{\pi_{\theta_{\mathrm{old} }^{(1)} },\ldots ,\pi_{\theta_{\mathrm{old} }^{(N)} }\}\) ,这在实际实现中是行不通的
  • 解决方案:
    • 1)采用一种简化的 Token-level 重要性采样机制,该机制重用 Rollout 期间生成的 Log-probabilities 作为直接的行为代理
      • 通过将重要性采样比率计算为 \(r_t(\theta) = \frac{\pi_{\theta} }{\pi_{\mathrm{rollout} } }\) ,并丢弃传统的 \(\pi_{\theta_{\mathrm{old} } }\) ,作者消除了单独进行旧策略推理的计算开销
    • 2)采用一种双面校准的 Token-level 掩码策略
      • 注:这不是使用标准 PPO 中使用的非对称裁剪,而是将信任区域限制在 \([1 - \epsilon_t, 1 + \epsilon_h]\) ,其中 \(\epsilon_t\) 和 \(\epsilon_h\) 是裁剪超参数
      • 落在此区间之外的 Token 将完全从梯度计算中掩盖,以防止因策略极端分歧而导致的不稳定性
      • 这与 IcePop 机制 (2025) 有相似之处,但 GLM-5 作者的策略更简单,因为它进一步移除了 \(\pi_{\theta_{\mathrm{old} } }\) 并实现了更稳定的训练
  • 形式上,带有 Token-level 裁剪的优化目标可以写成:
    $$
    \mathcal{L}(\theta) = \mathbb{E}_t \left[ f(r_t(\theta), \epsilon_l, \epsilon_h) A_t \log \pi_{\theta}(a_t|s_t) \right] \tag {3}
    $$
    • 在这个公式中,重要性采样比率 \(r_t(\theta)\) 计算如下:
      $$
      r_t(\theta) = \exp \left( \log \pi_{\theta}(a_t|s_t) - \log \pi_{\text{rollout} }(a_t|s_t) \right) \tag {4}
      $$
    • 稳定性进一步通过校准函数 \(f(x; \epsilon_l, \epsilon_h)\) 来加强:
      $$
      f(x; \epsilon_l, \epsilon_h) =
      \begin{cases}
      x, & \text{If } 1 - \epsilon_l < x < 1 + \epsilon_h \\
      0, & \text{Otherwise }
      \end{cases} \tag {5}
      $$
  • 在实验中,作者发现重用 Rollout Log-probabilities 允许一定程度的可控 off-policy 偏差,以避免追踪历史策略的需求,同时提升训练稳定性
Dropping off-policy and noisy samples
  • 问题1:在异步 RL 中,过长的轨迹可能会变得高度 off-policy,这可能会 destabilize 训练
  • 解法1:为了过滤掉这些严重 off-policy 的样本,作者在生成时记录了 Rollout 引擎使用的策略权重版本
  • 解法1 具体方法(维护陈旧性指标并丢弃过于陈旧的轨迹):
    • 对于每个 Response,作者记录了所涉及的模型版本序列 \((w_0, \ldots, w_k)\),其中 \(w_0 < \cdots < w_k\)
    • 令 \(w’\) 表示当前的策略版本
    • 如果某个样本的最旧 Rollout 版本过时,即如果 \(w’ - w_0 > \tau\)(其中 \(\tau\) 是一个预定义阈值),就丢弃该样本
    • 这移除了那些落后于当前策略太多的轨迹
  • 问题2:Coding-agent 沙箱可能 inherently 不稳定,并且可能因与模型无关的原因(例如,环境崩溃)而失败
    • 此类失败会引入有噪声的训练信号,因为它们反映的是环境的不稳定性,而非模型的能力
  • 解法2:记录每个样本的失败原因,并排除了因环境崩溃而失败的样本
    • 对于像 GRPO 这样基于组的采样方法,移除失败的样本可能会导致组不完整,在这种情况下:
      • 如果有效样本的数量超过组大小的一半,通过重复有效样本的方式来填充该组
      • 否则,丢弃整个组
    • 这个过程减少了虚假的奖励噪声,并提高了训练稳定性
DP-aware routing for acceleration
  • 作者提出了一种 DP 感知的路由机制,以便在为大规模 MoE 推理进行数据并行时,保留 KV 缓存的局部性
  • 在多轮 Agent 工作负载中,来自同一个 Rollout 的连续请求共享相同的前缀
  • 为了最大化 KV 重用,作者强制执行 Rollout 级的亲和性:
    • 属于给定 Agent 实例的所有请求都被路由到同一个 DP rank
  • 具体方法:
    • 引入一个有状态的路由层,它使用一致性哈希将每个 Rollout ID 映射到一个固定的 DP rank
      • 这种映射在多轮之间保持稳定,消除了跨 rank 的缓存缺失
    • 为了防止长期的不平衡,将哈希与哈希空间上的轻量级动态负载均衡结合起来
      • 这种设计避免了冗余的 Prefill 计算,而无需在 DP rank 之间同步 KV
    • 随着 Rollout 长度的增加,Prefill 成本仍然与增量 token 成正比,而不是与总上下文长度成正比
      • 改善了端到端的延迟,并为长上下文 Agentic 推理带来了更高的有效吞吐量
Asynchronous Attention-aware Load Balancing for Agentic Inference
  • 问题:Rollout 过程中时间线的延长和环境的异构性,大规模智能体训练的推理工作负载可能存在显著差异,导致在 MoE 模型中将请求路由到不同专家时出现负载不平衡
    • 这种不平衡会导致推理延迟出现不可接受的峰值
  • 解法:在 MoE 模型的 Attention 和 FFN 部分都采用了负载均衡感知的路由策略
  • 在训练有素的 MoE 模型中
    • FFN 路由已经相对稳定,其负载不平衡可以通过专家并行和数据并行策略的组合来缓解
  • 但 Attention 路由的动态性要高得多:
    • 在不同 Agentic 任务中,指令和中间生成的 Token 的内容变化多样,导致 Attention 路由(即 DSA 中的 Lightning Indexer)选择的 Top-k KV 条目出现显著的负载波动
      • 这会导致 KV 检索延迟出现长尾分布,严重拖慢 Rollout 速度,并在异步设置中阻碍稳定的训练
  • 解法:
    • 作者提出了一种用于智能体推理的异步注意力感知负载均衡策略
    • 该策略旨在预测和平衡由 Lightning Indexer 选中的 KV 条目分布
    • 核心思想是利用异步 Inference 引擎和训练引擎之间的权重同步间隔,从历史 KV 访问分布中学习,以预测未来的路由模式
  • 具体方法:
    • 在每个 Inference 引擎上,维护一个全局的 KV 检索频率统计量 \(H(t)\) ,它记录了过去 \(t\) 个推理步骤中每个 KV 条目被选中的次数
    • 当接收到新的推理请求时,模型首先进行前向传播以获得 Query Embedding,Lightning Indexer 据此计算每个 KV 条目的重要性分数 \(s_i\)
    • 传统的 DSA 会直接选择分数最高的 \(k\) 个条目,本文的策略在此基础上,引入了一个负载均衡正则化项:
      $$s_i’ = s_i + \alpha \cdot \left(1 - \frac{H_i(t)}{H_{\text{avg} }(t)}\right)$$
      • \(H_i(t)\) 是第 \(i\) 个 KV 条目在历史中的检索频率
      • \(H_{\text{avg} }(t)\) 是所有 KV 条目的平均检索频率
      • \(\alpha\) 是一个平衡因子
  • 这个正则化项会提升那些历史上被较少选中的 KV 条目的优先级,从而将检索负载从热点条目分散到冷门条目上
    • 最终,模型根据调整后的分数 \(s_i’\) 选择 Top-k KV 条目
    • 这种方法需要跨 Inference 引擎同步 \(H(t)\)
    • 鉴于 Inference 引擎可能分布在不同 GPU 上,作者采用异步通信方式,定期(例如每 \(N\) 个 Rollout 步骤)聚合所有引擎的局部统计量,更新全局的 \(H(t)\) ,然后再将其广播回各个引擎
    • 实验表明,该策略能将 KV 检索的延迟峰值降低约 30%,同时不影响最终的模型性能

Environment Scaling for Agents

  • 为支持跨多种 Agentic 任务的强化学习,构建了可验证、可执行的环境,这些环境能为以代码为中心的和内容生成的工作流程提供 grounded 的反馈
  • 对于 Agentic 编码任务,开发了两种构建可验证可执行环境的环境构建流程:
    • 一个基于真实世界软件工程问题构建的环境设置流程
    • 一个用于终端 Agent 环境的合成流程
  • 除了编码任务:还进一步引入了一个 slide 生成环境
    • 在该环境中,Agent 在结构化的 HTML 上操作,并伴有可执行的渲染和基于布局的验证
Software Engineering (SWE) Environments
  • 在构建可执行环境之前,作者收集了一个大规模的真实世界 Issue-Pull Request (PR) 对语料库,并应用了严格的基于规则和基于 LLM 的过滤,以确保获取真实、高质量的 Issue 陈述
  • 将这些实例分类到不同的任务类型中(包括 Bug 修复、功能实现、代码重构等)并包含了必要的任务要求,以确保模型的实现与测试补丁保持一致
  • 采用一个基于 RepoLaunch 框架 (2025) 的环境设置流程,该流程能够规模化地从真实世界的 SWE Issue 中构建可执行环境
    • 这个流程会自动分析仓库的安装和依赖设置,以构建一个可执行环境并生成测试命令,然后利用 LLM 根据测试输出生成语言感知的日志解析函数,从而能够提取出 Fail-to-Pass (F2P) 和 Pass-to-Pass (P2P) 测试用例
  • 最终,作者使用这个流程,在跨越 9 种编程语言(包括 Python、Java、Go、C、CPP、JavaScript、TypeScript、PHP 和 Ruby)的数千个仓库中,构建了超过 10,000 个可验证环境
Terminal Environments
Synthesis from seed data
  • 为了大规模构建可验证的终端智能体环境,作者设计了一个智能体数据合成流水线,包含三个阶段:
    • 任务草稿生成
    • 具体任务实现
    • 迭代任务优化
  • 具体如下:
    • Step1:从收集到的真实世界软件工程和基于终端的计算机使用场景中的一组种子任务开始,利用 LLM 进行头脑风暴,生成一个大型的可验证终端任务草稿池
    • Step2:由一个构建智能体将这些草稿实例化为符合 Harbor (2026) 格式的具体任务,包括结构化的任务描述、Docker 化的执行环境和相应的测试脚本
    • Step3:一个优化智能体根据人工定义的评估标准检查并迭代优化生成的任务,确保 Docker 镜像能够可靠地构建,测试用例与任务规范一致,并且环境能够抵御潜在的漏洞或捷径
  • 该流水线产生了数千个多样化且可验证的终端智能体环境,Docker 构建准确率超过 90%
Synthesis from web-corpus
  • 作者开发了一个可扩展的自动化流水线,并基于网络语料库构建了经 LLM 验证的、基于终端的编码任务,采用闭环设计,即构建智能体同时也充当其自身的初筛评估器
  • First,收集大规模与代码相关的网页语料库,并应用数据质量分类器,只保留高质量内容,丢弃那些主要非技术性或缺乏实质性代码内容的页面
    • 从筛选后的子集中,进一步识别出适合构建终端式任务的网页
  • Second,按主题类别和难度级别进行分层采样,以确保生成任务池的分布均衡和多样性
  • Third,Prompt 一个编码智能体,向其提供 Harbor 任务构建规范(包括任务模式、格式要求和示例任务),以及每个选中的源网页,指示该智能体:
    • (i) 基于网页内容合成一个完整的终端任务
    • (ii) 对其自身的输出执行 Harbor 验证脚本
    • 如果验证失败,智能体会迭代地诊断和修订任务,直到它通过所有自动化检查。只有成功通过此自我验证循环的任务才会被纳入最终的数据集
Search Tasks
  • 对于深度搜索信息寻求任务,作者构建了一个数据合成流水线,用于生成具有挑战性的多跳 QA 对
  • 每个问题都需要基于从多个网络来源聚合的证据进行多步推理
Web Knowledge Graph (WKG) Construction and Question Generation
  • 从早期搜索智能体的轨迹开始,收集并去重所有遇到的 URL,保留了超过两百万个跨不同领域的高信息量网页
  • LLM 执行语义解析,进行实体识别、噪声过滤和结构化信息提取
  • WKG 会持续用新页面更新,并通过实体对齐、属性规范化、关系合并和语义一致性校正等下游验证信号进行优化
  • 基于 WKG,采样中低频率实体作为种子节点,并扩展其多跳邻域以形成完整的子图,同时控制扩展以减少重叠
  • 使用针对高难度、多领域推理的 Prompt ,将每个子图转换为一个隐式编码了多实体关系链的问题
High-Difficulty Question Filtering and Verification
  • 作者应用一个三阶段流水线来平衡难度和正确性:
    • (1) 移除那些无工具推理模型在八次独立尝试中至少能正确回答一次的问题
    • (2) 过滤掉那些早期智能体通过基本搜索、浏览和计算在几步之内就能解决的问题
    • (3) 应用一个验证智能体进行双向验证:
      • 收集第 2 阶段搜索轨迹中的候选答案,然后独立验证候选答案和标注的真实答案的问题-答案一致性,拒绝那些答案不唯一、证据不一致或标签错误的样本
  • 这产生了高质量、高难度、可靠的多跳 QA 对
Inference with Context Management for Search Agents
  • 作者发现 BrowseComp (2025) 的性能对评估 Prompt 和评估模型都很敏感,开源的评估器可能会引入系统性偏差
    • 为了确保一致性和可重复性,作者使用官方的 OpenAI 评估 Prompt 和专有模型 o3-mini 作为评估器,标准化所有基于评估器的组件
    • 案例研究表明,这种设置最符合人工标注的真实情况,因此作者在所有实验中采用它
  • 先前的工作 (2025) 引入了上下文管理,其中 Discard-all 通过移除整个工具调用历史来重置上下文
    • 作者进一步观察到,在极长上下文(例如,超过 100k Token)下,模型准确率会显著下降
    • 受此启发,作者采用一个简单的 Keep-recent-k 策略
      • 当交互历史超过阈值 \(k\) 时,早于最近 \(k\) 轮的内容将被折叠以控制上下文长度
      • 设轨迹为
        $$ (q,r_{1},a_{1},o_{1},r_{2},a_{2},o_{2},\dots ,r_{n},a_{n},o_{n})$$
        • \(q\) 表示问题
        • \(r_{i}\) 表示第 \(i\) 轮的推理
        • \(a_{i}\) 表示动作(作者设计了搜索、打开、查找和 Python 四种工具)
        • \(o_{i}\) 表示工具观察
      • 作者只折叠早于最近 \(k\) 轮的观察结果:
        • 即折叠 \(o_{i}\gets\) 工具结果被省略以节省 Token,其中 \(i = 1,\ldots ,n - k\)
    • 在作者的实验中,设置 \(k = 5\) 产生了稳定的改进,将 GLM-5 的性能从 \(55.3%\) (不使用 keep-recent-\(k\))提升到了 \(62.0%\) (使用 keep-recent-\(k\))
    • 作者还发现,使用不同的 keep-recent \(k\) 值,或者在上下文长度达到预定义的 Token 阈值时触发 keep-recent,都会得到相同的结果
  • 在此基础上,作者将 keep-recent 与 Discard-all 结合起来,形成一种混合的分层上下文管理策略
    • 在使用 keep-recent 进行推理期间,如果总上下文长度超过阈值 \(T\) ,作者将丢弃整个工具调用历史并重新开始一个新的上下文,同时继续应用 keep-recent 策略
    • 作者通过参数搜索选择了 \(T = 32k\)
  • 如图 8 所示,在不同的计算预算下,该策略有效地释放了上下文空间,使模型能够执行更多步骤,并持续提升性能
    • 与单独使用 Discard-all 相比,结合 keep-recent-k 在所有预算下都取得了稳定的增益,最终得分达到 75.9,超过了所有配备上下文管理的开源模型
Slide Generation
  • 注:这里的 slide 生成不是多模态的,而是通过 HTML 脚本来生成
  • 采用一个自我改进的流水线,旨在通过强化学习和拒绝采样微调,训练一个专门的幻灯片生成专家,系统地提升幻灯片生成性能
  • 首先使用监督式微调初始化模型,以提供基本的幻灯片生成能力,然后使用基于演示幻灯片常见美学和结构属性的多层次奖励公式进行强化学习
    • 这个阶段显著提升了生成质量
  • 进一步进行拒绝采样微调和掩码微调,使得强化学习期间获得的知识可以被注入回训练语料库
    • 这个过程以协调和迭代的方式共同提升了数据质量和模型能力
  • 作者提出了一个多层次的奖励公式,将基于 HTML 的幻灯片生成过程中的奖励信号划分为三个层次:
    • Level-1: Static markup attributes
      • 此级别关注生成 HTML 中的声明性属性,包括定位、间距、颜色、排版、饱和度和其他样式属性
      • 基于专业设计原则,设计了一套规则来规范模型在生成此类声明时的行为
        • 这些规则确保生成的 HTML 在语法上可通过,同时将标记层面的设计空间约束在一个针对表现力、结构清晰度、视觉和谐度与可读性进行了优化的子空间内
      • 此外,作者引入了幻觉图像和重复图像检测机制,以抑制幻觉或冗余的图形
    • Level-2: Runtime rendering properties
      • 与静态检查不同,此级别评估渲染期间 DOM 节点的运行时属性,例如元素的宽度和高度、边界框以及其他几何布局度量
        • 通过约束这些属性,作者鼓励生成的幻灯片在空间组织上更贴近人类的审美偏好
      • 作者开发了一个分布式渲染服务,能够以高吞吐量执行渲染作业,同时提取所需的运行时属性
      • 在训练过程中,作者观察到了几种 Reward Hacking 行为,例如硬截断过长的内容或过度操纵间距(见图 9)
        • 为了缓解这些问题,作者改进了渲染器实现,消除了可利用的漏洞,确保奖励信号真正激励的是美学上连贯的布局,而不是对几何度量的肤浅遵从
    • Level-3: Visual perceptual features
      • 除了运行时渲染约束外,作者还将对渲染后幻灯片的感知级别评估纳入其中
        • 例如,作者检测异常空白模式作为辅助信号,以进一步改善整体构图平衡和视觉美感
Training strategy
  • 这些信号在 RL 期间被联合优化,以提高生成 HTML 的结构有效性,增强布局组织,并提升整体视觉审美质量
  • 除了奖励设计,还通过动态采样重塑训练分布
  • 结构上微不足道的样本被概率性地丢弃,使优化能够集中在更具挑战性的页面上,从而提高在复杂组合场景下的鲁棒性
  • 采用 Token-level 策略梯度损失来稳定优化 (2025)
  • 引入了一种平衡策略,将同一样本的不同 Rollout 结果分布到多个训练批次中,减少了优化偏差,提高了训练稳定性
Rejection sampling
  • 在拒绝采样阶段,RL 中使用的奖励函数被转移到一个数据过滤流水线中,以构建一个高质量的训练子集
    • 在页面级别,过滤标准包括代码有效性和编译可行性
    • 在轨迹级别,进一步强制执行工具执行正确性和全局内容多样性约束,确保结构一致性
  • 采用 Best-of-\(N\) 选择策略,从多个独立生成的候选中保留最高质量的样本
    • 这种机制有效地将分布重新加权到更高质量的实例,从而提高了样本效率和训练稳定性
Masking-based refinement
  • 尽管拒绝采样移除了大部分低质量输出,但某些轨迹的缺陷可能仅局限于少量页面
    • 丢弃此类样本会降低有效数据利用率并增加生成成本
  • 解法:引入了一个基于掩码的校正机制,该机制自动识别有缺陷的页面并应用掩码,同时保留同一轨迹中的高质量内容
    • 这种选择性优化保留了有价值的监督信号,提高了有效数据效率,并减少了冗余的再生成开销,从而提升了整体训练效率
Empirical improvements
  • 严格遵守 16:9 宽高比的生成页面比例从 \(40%\) 增加到 \(92%\) ,同时页面溢出情况大幅减少
  • 人工评估进一步显示,与 GLM-4.5 相比,GLM-5 在内容质量上实现了 \(60%\) 的胜率,在布局合理性上实现了 \(57.5%\) 的胜率,在视觉美感上实现了 \(65%\) 的胜率,总体胜率达到 \(67.5%\)
  • 这些结果为所提出的多层次奖励设计和自我改进框架的有效性提供了经验证据

Adapting GLM-5 to Chinese Chip Infrastructure(优秀!)

  • 将 GLM-5 适配到多样化的中国芯片基础设施面临着重大挑战,因为硬件生态系统的异构性常常使得高性能部署变得复杂
  • 尽管存在这些障碍,通过与七个主流中国芯片平台(包括华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、MetaX 和燧原科技)的紧密合作,作者已成功实现了 GLM-5 的全栈适配
  • 本节以昇腾 Atlas 系列为案例研究,展示作者的适配方法,重点关注三个核心支柱:极致量化、高性能算子融合以及先进推理引擎调度

Mixed-Precision W4A8 quantization

  • 为了将 750B 参数的 GLM-5 模型适配到单个 Atlas 800T A3 机器上,作者实现了一种复杂的 W4A8 混合精度量化策略
  • 利用 msModelSlim 7 工具,对不同的模型组件应用了特定的精度:
    • 标准的 Attention 和 MLP 模块使用 W8A8 (INT8)
    • MoE 专家压缩到 W4A8 (INT4) 以大幅减少内存占用,同时不造成显著的精度损失
  • 采用像 QuaRot (2024) 用于抑制异常值和 Flex_AWQ_SSZ 用于缩放校准这样的先进算法,以维持在低位宽部署中的稳定性

High-Performance fusion kernels

  • 为了克服昇腾 NPU 上稀疏注意力的计算瓶颈,作者开发了一套定制化的融合算子:Lightning Indexer、Sparse Flash Attention 和 MLAPO( MLA 预处理优化)
    • Lightning Indexer 将分数计算、ReLU 和 TopK 操作集成到一个内核中,使得 NPU 能够将计算与内存访问重叠
    • 对于 Sparse Flash Attention 内核,作者专门针对 GLM-5 的稀疏模式进行了优化
      • 该内核并行处理从 KV 缓存中选择 TopK Token 以及稀疏注意力计算
    • MLAPO 将 13 个小型的预处理算子融合成一个“超级算子”,利用向量单元和 Cube 单元之间的并行处理来提升端到端效率

Specialized inference engine optimizations

  • 作者适配了两个领先的推理引擎 vLLM-Ascend 和 SGLang,以最大化硬件利用率:
    • 异步调度(Asynchronous Scheduling): 在 vLLM 内部,作者实现了一种机制,将“设备到主机”的采样拷贝与下一个解码步骤的准备重叠起来,有效地消除了调度“气泡”
    • Context Management: 像 RadixCache(前缀共享)和 Prefix Cache(将 KV 存储扩展到系统 RAM)这样的特性实现了 KV 条目的高效重用,这对于长上下文性能至关重要
    • Parallel Strategy: 作者采用了一种结合注意力数据并行和 MoE 专家并行的混合方法,并结合了 FlashComm,它将 AllReduce 操作拆分以将通信延迟隐藏在计算之后
    • Multi-Token Prediction (MTP): 通过在每步推理中生成多个 Token,作者显著提高了 NPU 的计算密度,并减少了总的序列生成时间
  • 通过这些硬件层面的协同优化,单个中国节点上的 GLM-5 实现了与双 GPU 国际集群相当的性能,同时在长序列场景下将部署成本降低了 \(50%\)

Evaluation

  • GLM-5 标志着从视频编码到智能体工程新纪元的转变
  • 作者首先在智能体、推理和编码(ARC)基准测试上评估 GLM-5 与前沿模型
  • 为了全面评估 GLM-5 在真实世界智能体工程场景中的性能,作者提出了一个新的内部评估套件 CC-Bench-V2,它包括前端、后端和 Long-horizon 任务
  • 最后,作者在五个常见的真实世界场景中评估了 GLM-5 的通用能力

Evaluation of ARC Benchmarks

  • 表 7 报告了 ARC 基准测试的主要结果
    • GLM-5 比 GLM-4.7 有显著提升,并在开源模型中实现了 SOTA 性能,缩小了与 Claude Opus 4.5 等专有模型的差距
  • 评估细节详见第 B.2 节
Evaluation of Reasoning and General Benchmarks
  • 对于推理和通用基准测试,作者评估了 Humanity‘s Last Exam (HLE) (2025)、AIME 2026、HMMT 2025、IMO-AnswerBench (2025)、GPQA-Diamond (2024) 和 LongBench v2 (2025)
  • 对于 HLE,仅评估基于文本的子集,并使用 GPT-5.2 (medium) 作为评判模型。大多数推理任务的最大生成长度设置为 131,072 个 token,而对于 HLE-with-tools,则使用 202,752 个最大 token
  • 从表 7 可以看出
    • GLM-5 在推理任务上取得了与强大的开源基线 Kimi-K2.5 相当的性能
    • 与专有模型相比,GLM-5 在 HLE(带工具)上优于 Claude Opus 4.5 和 Gemini 3 Pro
    • 与其前身 GLM-4.7 相比,GLM-5 在 HLE 基准测试(带工具和不带工具)上也取得了显著进步
    • 在 HMMT 2025 年 2 月/11 月的基准测试中,GLM-5 的表现优于 Claude Opus 4.5 和 Gemini 3 Pro
    • GLM-5 在长上下文任务上也取得了重大进展,在长上下文推理基准测试 LongBench v2 上获得了最高分,仅次于 Gemini 3 Pro
Evaluation of Coding Benchmarks
  • 对于编码基准测试,作者在 SWE-bench Verified (2023)、SWE-bench Multilingual (2025)、Terminal Bench 2.0 (2025) 和 CyberGym (2025) 上评估了 LLM
    • 对于 SWE-bench Verified 和 Multilingual,使用 OpenHands 框架,并为 GLM-5 定制了指令 Prompt
    • 对于 Terminal-Bench 2.0,使用了两个智能体框架(即 Terminus-2 和 Claude Code),作者还报告了在已验证的 Terminal-Bench 2.0 上的性能,该版本解决了一些模糊的指令
    • CyberGym 基准测试在 Claude Code 2.1.18 中进行评估
  • 从表 7 可以看出
    • GLM-5 在开源 LLM 中实现了编码基准测试的 SOTA 性能
    • 与专有 LLM 相比,GLM-5 在 SWE-bench Verified 上的表现优于 Gemini 3 Pro,并且在 SWE-bench Multilingual 上也击败了 Gemini 3 Pro 和 GPT-5.2 (xhigh)
    • 在 Terminal-Bench 2.0 上,GLM-5 取得了与 Claude Opus 4.5 相当的结果,甚至在修复了该基准测试的模糊指令后取得了更好的结果
    • For 编码能力的泛化性,在两个智能体框架上评估了 Terminal Bench 2.0,GLM-5 显示出与 Claude Opus 4.5 和 GPT-5.2 (xhigh) 相媲美的一致性能
Evaluation of Agentic Abilities
  • 对于智能体基准测试,作者在 BrowseComp (2025)、BrowseComp-ZH (2025)、\(\tau^2\)-Bench (2024)、MCP-Atlas (2026)、Tool-Decathlon (2025)、Vending-Bench 2 (2025) 和 GDPval-AA (2025) 上评估了 GLM-5 和前沿模型
    • BrowseComp 衡量语言智能体如何通过浏览网页来解决具有挑战性的问题,而 BrowseComp-ZH 主要针对中文网页
      • 作者对 BrowseComp 使用 discard-all 策略作为上下文管理,这与 DeepSeek-V3.2 和 Kimi K2.5 相同
    • \(\tau^2\)-Bench 评估对话智能体在双控环境中的能力。作者对 Retail 和 Telecom 添加了一个小的 Prompt 调整,以避免由于用户过早终止而导致的失败(参见 B.3)
      • 对于 Airline,应用 Claude Opus 4.5 系统卡 (2025) 中提出的领域修复以获得更准确的结果
    • MCP-Atlas 是一个真实的工具使用基准测试,用于评估 LLM 在给定模型上下文协议(MCP)服务器的多步骤工作流中的表现
      • 为了公平比较,作者重新评估了所有模型在 500 个任务的公共集合上,并将每个任务的超时时间从 4 分钟延长到 10 分钟,以避免因部署条件导致的任务失败
      • 作者使用 Gemini 3 Pro 作为 MCP-Atlas 的评判模型
    • Tool-Decathlon 也是一个工具使用基准测试,但针对的是真实世界、 Long-horizon 的任务
    • Vending-Bench 2 衡量 LLM 在模拟环境中长期业务场景下的智能体能力,与其前身 Vending-Bench 相比增加了更多现实因素
    • GDPval 关注 AI 智能体在具有经济价值的任务上的表现
  • 从表 7 可以看出,与 GLM-4.7 相比,GLM-5 在智能体基准测试上显著提升
    • 在 BrowseComp 上,GLM-5 在使用和不使用上下文管理的情况下,都在前沿 LLM 中实现了 SOTA 性能
    • 在 BrowseComp-ZH 上,GLM-5 也击败了 Claude Opus 4.5 和 Gemini 3 Pro。对于三个工具使用的智能体任务(即 \(\tau^2\)-Bench、MCP-Atlas 和 Tool-Decathlon),GLM-5 取得了与 Claude Opus 4.5 相当的性能,这显示了 GLM-5 强大的工具使用能力
    • GLM-5 在 Vending-Bench 2 上的表现(即 $4,432)进一步证明了其在商业任务中的 Long-horizon 能力
    • 在经济场景中,GLM-5 在 GDPval-AA 上的表现优于 Claude Opus 4.5,仅次于 GPT-5.2 (xhigh)

Evaluation of Real-world Agentic Engineering Experience

  • 真实世界的经验比排行榜更重要
  • 作者将内部 CC-Bench 升级为 CC-Bench-V2,以评估模型是否能够在现实的前端、后端和 Long-horizon 任务的智能体工程环境中正确完成端到端任务
  • CC-Bench-V2 完全去除了人工标注,并通过 Claude Code 和其他智能体工具,结合单元测试和“智能体即评判”(Agent-as-a-Judge)技术实现完全自动化
  • Frontend
    • 使用一个流水线首先构建由智能体生成的前端项目,并检查是否存在任何语法、依赖和兼容性错误
    • 然后使用“智能体即评判”(Agent-as-a-Judge)通过配备 Playwright 和 bash 工具的 GUI 智能体模拟用户交互,来验证端到端的正确性
  • Backend
    • 任务来自 C++、Rust、Go、Java、TypeScript 和 Python 的真实世界开源项目,涵盖功能实现、错误修复、回归修复和性能优化
    • 每个更改必须在现实的工程约束下通过完整的单元测试
  • Long-horizon
    • 首先评估模型在大型代码库上的信息搜寻能力,这是像人类开发者一样定位正确文件和理解项目上下文的前提条件
    • 然后通过挖掘具有大量提交历史的已合并 Pull Requests 并将其提交聚类成连贯的任务链,来评估端到端的正确性
      • 智能体顺序执行这些任务链,测试其维护上下文和解决阶段间依赖关系的能力
    • 评估结合了单元测试和“智能体即评判”(Agent-as-a-Judge),以验证功能正确性和语义遵从性
Frontend Evaluation - Agent-as-a-Judge
  • 作者开发了一个全面的自动化评估基准,专门针对前端开发场景
  • 该基准涵盖了开发者日常构建的多样化应用程序,包括落地页、管理仪表盘、数据可视化、图形与动画、在线生产力工具、互动游戏以及表单驱动的工作流,跨越主流技术栈,包括 HTML、React、Vue、Svelte 和 Next.js
  • 每个测试用例由一个包含多个具体且可实施规格的Task ,以及一个与之配对的Checklist 组成,其中每个检查项直接源自相应的规格,评估过程遵循两阶段流水线:
    1) 静态验证 (Static Verification) :作者首先验证生成的代码能否成功构建和运行
    2) “智能体即评判” (Agent-as-a-Judge) :对于正确执行的代码,作者使用一个 GUI 智能体模拟人类测试行为,以交互方式验证每个检查项,并根据要求的完成情况分配分数
  • 定义以下指标:
    • 构建成功率 (Build Success Rate, BSR) 衡量成功初始化和运行的项目比例
    • 实例成功率 (Instance Success Rate, ISR) 衡量通过所有相关规格的项目比例
    • 检查项成功率 (Check-item Success Rate, CSR) 衡量所有检查项的细粒度完成率
    • 有关数据分布以及构建和验证过程的更多详细信息,请参见附录 B.4.1
Agent-as-a-Judge
  • 前端的正确性本质上是视觉和交互性的,即错误通常只在用户点击按钮或调整窗口大小时才会显现,这使得静态分析和固定的测试套件不足以胜任
  • 因此引入“智能体即评判”(Agent-as-a-Judge)(图 10):
    • 每个生成的项目被部署在 Docker 容器中并构建以验证静态正确性
    • 成功构建的实例随后被交给一个自主的评判智能体(配备 Playwright MCP 工具的 Claude Code with Claude Sonnet 4.5),该智能体以闭环周期运行:对于每个检查项,智能体读取源代码,与实时 UI 交互(点击、按键、截图),检查终端输出,并给出通过/未通过的判断
  • 为了验证可靠性,将“智能体即评判”(Agent-as-a-Judge)的判断与独立的人类专家判断在两个维度上进行了比较
    • 对于逐点一致性,抽样了 130 个检查项,让人类专家独立评分每个项,并与智能体的判断进行比较:
      • 两者在 \(94%\) 的项上达成一致,分歧集中在主观的视觉质量标准上,而非功能规格
    • 对于排名一致性,作者使用自动化框架和人类专家评估了 8 个前沿模型(Claude Sonnet 4.5、Claude Opus 4.5、Gemini 3 Pro、GLM-4.7、DeepSeek-V3.2 等)
      • 由此产生的模型排名实现了 \(85.7%\) 的斯皮尔曼相关性,表明存在强正相关
  • 如表 8 所示
    • GLM-5 实现了 \(98.0%\) 的 BSR,并在 CSR 方面与 Claude Opus 4.5 具有竞争力
    • 但在所有三个技术栈中,ISR 仍然存在显著差距
    • 表明 GLM-5 满足了大部分单项要求,但在端到端完成整个任务方面仍落后于 Claude Opus 4.5
Backend Evaluation
  • 后端评估衡量一个编码智能体是否能够在现实的工程约束下 ,对真实世界的服务器端代码库进行正确、通过测试的修改
  • 作者整理了 85 个任务
    • 涵盖六种语言(Python、Go、C++、Rust、Java 和 TypeScript)
    • 涉及搜索引擎、数据库引擎、Web 框架、AI 推理服务、知识管理系统以及独立的算法和系统编程挑战等领域
    • 任务类型包括功能实现、错误修复、回归修复和性能优化,反映了日常后端开发的多样性
  • 为实现完全自动化评估,每个任务都配备了人工精心设计的单元测试(每个任务 5-10 个),用于验证功能正确性和边缘情况处理
    • 任务以终端基准(terminal-bench)风格打包:每个任务在一个从项目实际构建环境初始化的 Docker 容器中运行,智能体接收描述所需更改的自然语言问题陈述
    • 作者报告 Pass@1,其中只有当任务的所有相关单元测试都通过时,才认为该任务被解决
      • 这种严格的全或无标准使得该基准测试特别具有挑战性:GLM-5 和 Claude Opus 4.5 表现相当(表 8),两者都显著领先于 GLM-4.7
Long-horizon Evaluation
  • Long-horizon 评估针对的是将生产级智能体工程与单轮“氛围编码”区分开来的能力:
    • navigating 大型代码库和执行多步骤开发,其中每个动作都会为后续步骤重塑上下文
  • 作者将此分解为两个互补的任务
    • Large Repo Exploration
      • 任何 non-trivial 编码任务的前提都是能够在一个大型、不熟悉的仓库中定位到正确的源文件
      • 作者在包含数万个文件的实际高星级 GitHub 仓库上构建了一个自动化基准测试
      • 每个问题都以自然、面向用户的业务语义级别提出,严格避免提及任何文件名、类名或函数名
      • 此外,问题需要从面向用户的描述到实际实现的一两跳逻辑推理
        • 例如,关于生成视频中唇形同步错位的问题,可能映射到视频生成后端内部的参数调整块
      • 目标文件的选择旨在最大化导航难度:它们位于至少三层深的目录中,名称晦涩难懂,难以通过关键词搜索找到,实现的功能在仓库中是独特的且无重复,并且位于其主要功能表面之外
      • 作者报告三次运行的平均 Pass@1,如果智能体在探索过程中成功读取了目标文件,则认为该问题被解决
      • 在此任务中,GLM-5 优于 Claude Opus 4.5(表 8),两者都远远领先于 GLM-4.7
      • 结果表明,有效的仓库探索较少依赖于原始的代码生成能力,而更多依赖于策略性搜索,即通过目录级推理和语义关联迭代缩小文件空间,而 GLM-5 在智能体工具使用轨迹上的训练提供了明显的优势
    • Multi-step Chained Tasks
      • 主流的编码基准测试如 SWE-bench 将评估简化为单次提交、孤立的编辑,因此无法评估智能体执行增量开发的能力,其中每一步都会为后续步骤改变代码库状态
      • 为了解决这个问题,作者通过从高质量仓库中挖掘已合并的 Pull Request 并按照以下流水线组装任务链,构建了一个 Long-horizon 基准测试:
        • 1)PR Filtering
          • 仅保留包含测试、包含 3-15 次提交且遵循线性(非合并)历史的已合并 PR
        • 2)Semantic Grouping
          • 一个 LLM 对相邻提交之间的成对语义相关性进行评分;动态规划找到最优分区,将其划分为连贯的任务组,同时保持提交顺序并最大化组内连贯性
        • 3)补丁分类 (Patch Triage)
          • 每个任务的累积差异被分为三类:golden patch(智能体必须生成的核心代码)、test patch(验证测试)和自动应用补丁 (auto-apply patch)(自动应用的配置和固定内容)
        • 4)Problem Statement Generation
          • 一个 LLM 根据每个任务的补丁和提交消息生成自然语言的问题陈述
        • 5)Task Classification
          • 任务被自动分类(功能/错误修复/重构/测试/配置),并沿着三个轴进行评估:错误消除、关键路径准确性和测试通过率
        • 6)Environment Validation
          • 构建 Docker 环境,并应用黄金补丁以验证整个链上的零回归
  • 给定一个包含 \(K\) 个任务的链,智能体从基础提交开始,顺序工作:
    • 完成第 \(k\) 个任务后,其更改被提交,然后应用第 \(k + 1\) 个任务的自动应用补丁,因此代码库状态是累积演变的
    • 评估依次检查每个提交,并在运行完整测试套件之前,累积应用从任务 1 到 \(k\) 的测试补丁,从而捕获当前任务的失败以及早期任务的回归
    • 作者报告单个任务的 Pass@1
    • 这种链式和状态递归的设计直接评估了长程上下文跟踪、规划和增量开发能力,而这些是单次提交基准测试未涉及的
  • 如表 8 所示
    • GLM-5 比 GLM-4.7 有了显著改进,但与 Claude Opus 4.5 相比仍有显著差距
      • 这是因为错误会在整个链中累积:一个任务中的次优编辑可能会悄无声息地破坏后续任务的测试
    • 缩小这一差距需要在长上下文一致性和 Long-horizon 自我纠正方面取得进展,这两个方面都是作者正在进行的研究的重点领域
Evaluation on evolving SWE tasks
  • SWE-bench Verified 是一个静态的、公开的、人工验证的测试集,并且已经发布两年多了
    • 注:SWE-rebench 构建在一个自动化流水线上,该流水线持续挖掘新鲜的、真实的 GitHub 问题修复任务,从而实现数据去污和时间鲁棒的评估,更好地衡量对新软件工程问题的泛化能力,而不是在静态基准测试上的性能
  • 表 9 显示了 GLM-5 在 SWE-rebench 上的官方性能:GLM-5 可以有效地泛化到新的 SWE 问题

Evaluation of Real-world General Abilities

  • 虽然标准化学术基准提供了有用的信号,但它们并不能完全捕捉模型在实际使用中的方式
  • 为了认识到这一差距,作者在从部署环境中观察到的高频用户交互模式中衍生出的真实世界通用能力集合上评估了 GLM-5
  • 这些能力包括机器翻译、多语言对话、指令跟随、世界知识和工具调用
  • 与传统的以基准为中心的评估不同,作者的目标是衡量能直接转化为用户感知质量提升的改进
  • 对于每种能力,作者采用内部人工评估、内部自动化评估、外部人工评估和外部自动化基准测试相结合的方式,确保诊断粒度细致和跨模型可比性
  • 在使用外部基准测试时,作者优先选择那些能反映真实交互模式而非狭隘构建的测试分布的数据集
  • 图 11 展示了 GLM-5 和 GLM-4.7 在五个真实世界能力领域上的比较结果
    • 在所有评估维度上,GLM-5 在机器翻译、多语言对话、指令跟随、世界知识和工具调用方面都表现出一致的改进
  • 每种能力的详细评估协议和数据集描述如下
Machine Translation
  • 使用 ZMultiTransBench
    • 这个是 智谱内部的数据集,包含 1,220 个样本,来源于自行收集的高频翻译场景,涵盖七个语言对:中文到西班牙语(300 个)、俄语(250 个)、法语(220 个)、韩语(200 个)、日语(150 个)、阿拉伯语(50 个)和德语(50 个)
    • 所有样本均由受过正式翻译学研究生教育的毕业生进行整理、翻译和独立验证
    • 该数据集强调自然发生的使用环境,而非人为构建的测试用例
    • 评估是通过与固定基线 Response 进行成对比较来进行的
    • 判断由基于 GPT-4.1 的自动化评估器提供,该评估器评估语义保真度、流畅度和整体翻译质量
Multi-lingual Dialogue
  • LMArena
    • 报告来自 LMArena 的 Elo 评分,这些评分源自大规模的、社区提交的成对比较
    • 这些评分反映了在开放式对话环境中模型的相对偏好,并提供了对话性能的外部信号
  • ZMultiDialBench
    • 作者在 ZMultiDialBench(一个内部多语言对话基准测试)上进行人工评估
    • 该数据集包含 141 个精选实例,涵盖不同的对话类别
    • 样本来自多个国家母语标注者提供的高质量对话数据,以及在线用户报告的具有挑战性的失败案例
    • 人工标注者根据类别特定、标准化的评估标准,对匿名化的模型 Response 进行 1-10 分的逐点评分
Instruction Following
  • IF-Badcase
    • IF-Badcase 是一个智谱内部基准测试,由实际生产环境中真实用户报告的指令跟随失败案例构建而成
    • 该数据集旨在评估对现实的、多约束指令的严格遵守程度,强调程序准确性、逻辑一致性和严格的格式要求
    • 评估使用详细的基于检查清单的协议进行,该协议验证对显式约束(包括有序步骤、基于规则的条件和结构规范)的遵从性
    • 所有样本均由人类专家进行标注、审查和迭代过滤,最终得到 450 个精选测试实例
  • IF-Bench (2025)
    • IF-Bench 评估 LLM 遵循复杂、客观约束的能力,例如特定的格式规则、长度限制和内容限制
    • IF-Bench 提供精确指令跟随能力的量化度量,侧重于可验证的遵从性,而非开放式生成质量
  • MultiChallenge (2025)
    • MultiChallenge 通过真实的多轮对话场景检验 LLM
    • MultiChallenge 针对需要准确指令跟随、上下文分配和上下文内推理的复杂交互
World Knowledge
  • SimpleQA (2024)
    • SimpleQA 使用具有单一、无可争议答案的挑战性问题来衡量简短形式的事实性
    • SimpleQA 通过将 Response 分类为正确、不正确或未尝试来评估模型的校准能力,优先考虑准确性而非生成长度
  • Chinese SimpleQA (2024)
    • 将 SimpleQA 方法应用于中文语境,该基准测试评估跨六个主要领域和 99 个子主题的事实性
    • Chinese SimpleQA 利用高质量、静态的、简短回答问题,专为可靠的自动化评分设计,以评估 LLM 的知识准确性
Tool Calling
  • ToolCall-Badcase
    • ToolCall-Badcase 是一个智谱内部基准测试,源自用户在生产环境中报告的工具调用场景的失败案例
    • 每个实例都关联一个可验证的真实工具调用,从而能够客观评估工具选择和参数填充

Easter Eggs

  • “Pony Alpha” 实验对我们来说确实是一个关键时刻
    • 注:GLM-5 最初被匿名以 “Pony Alpha” 的身份发布在 OpenRouter 上
  • 在 OpenRouter 上匿名发布 GLM-5 是一个大胆的决定,但结果令人难以置信地满意
  • 通过剥离作者的品牌名称,作者让模型的内在能力为自己发声,确保作者收到的反馈是纯粹且无偏见的。以下是一个简要总结:
    • 几天之内,Pony Alpha 就引起了轰动,OpenRouter 社区的开发者们开始注意到其卓越的性能,尤其是在复杂的编码任务、智能体工作流和角色扮演场景中
    • 猜测四起,许多用户猜测这是来自 Anthropic(Claude Sonnet 5)的泄露更新、一个秘密的 Grok 发布,或者 DeepSeek V4
    • 初步统计显示,\(25%\) 的用户猜测是 Claude Sonnet 5,\(20%\) 猜测是 DeepSeek,\(10%\) 猜测是 Grok,其余猜测是 GLM-5
    • 最终确认它确实是 GLM-5,这对作者来说是一个意义深远的时刻,有效地平息了关于中国 LLM 是否能在前沿水平竞争的疑虑
      • Pony Alpha (GLM-5) 的成功不仅仅关乎原始基准测试;它标志着作者专注于工程级可靠性的转变
    • 这次匿名发布使作者能够超越地缘政治偏见,社区接受这个模型是因为它有效
  • 在作者庆祝这一成功的同时,必须保持务实
    • 开源权重模型与绝对专有前沿之间的差距正在缩小,但这场竞赛远未结束
    • 作者的重点仍然是坚定不移地推动可扩展、高效和智能系统的可能性边界

附录 A:Hyper-parameters

  • GLM-5 模型架构相关的超参数如表 10 所示
  • 在训练方面,遵循 GLM-4.5 的设置
    • Muon 优化器、余弦衰减和批量大小预热
    • 学习率经历从 0 到 2e-4 的预热阶段,然后在预训练阶段结束时衰减到 4e-5
    • 在 Mid-training 阶段,学习率从 4e-5 线性下降到 1e-5
    • 其他超参数与 GLM-4.5 相同
  • 对于 DSA 预热阶段,学习率从 5e-3 下降到 2e-4
  • 对于 DSA 稀疏适应阶段,使用 1e-5 的恒定学习率

附录 B:Evaluation Details

B.1 Evaluation of Base Models

  • 表 11 评估了 GLM-5 的基础模型在英语、中文、代码和数学基准上的表现

B.2 Evaluation of ARC Benchmarks

  • Humanity’s Last Exam(HLE)和其他推理任务 :
    • 使用最大生成长度 131,072 个 token 进行评估 (temperature \(= 1.0\) , top_p \(= 0.95\) , max_new_tokens \(= 131072\) )
    • 默认情况下,报告纯文本子集的结果;
      • 标记为 * 的结果来自完整数据集
    • 使用 GPT-5.2 (medium) 作为评判模型
    • 对于 HLE-with-tools,使用最大上下文长度 202,752 个 token
  • SWE-bench 和 SWE-bench Multilingual :
    • 使用 OpenHands 运行 SWE-bench 套件,并采用定制的指令 Prompt
    • 设置:temperature \(= 0.7\) , top_p \(= 0.95\) , max_new_tokens \(= 16384\) , 上下文窗口为 200K
  • BrowseComp :
    • 在没有上下文管理的情况下,保留最近 5 轮交互的详细信息
    • 在启用上下文管理的情况下,作者使用与 DeepSeek-V3.2 和 Kimi K2.5 相同的 discard-all 策略
  • Terminal-Bench 2.0 (Terminus 2) :
    • 使用 Terminus 框架进行评估
    • 设置 timeout \(= 2h\) , temperature \(= 0.7\) , top_p \(= 1.0\) , max_new_tokens \(= 8192\) , 上下文窗口为 128K
    • 资源限制上限为 16 个 CPU 和 32 GB 内存
  • Terminal-Bench 2.0 (Claude Code) :
    • 在 Claude Code 2.1.14 (think mode) 中进行评估
    • 设置 temperature \(= 1.0\) , top_p \(= 0.95\) , max_new_tokens \(= 65536\)
    • 作者做了如下改动:
      • 移除了墙上时钟时间限制,但保留了每项任务的 CPU 和内存约束
      • 修复了 Claude Code 引入的环境问题
    • 报告了在已验证的 Terminal-Bench 2.0 数据集上的结果,该数据集解决了模糊的指令问题 (参见: https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)
    • 分数是 5 次运行的平均值
  • CyberGym :
    • 在 Claude Code 2.1.18 (think mode, no web tools) 中进行评估
    • 设置 (temperature \(= 1.0\) , top_p \(= 1.0\) , max_new_tokens \(= 32000\) ),每个任务超时 250 分钟
    • 结果是超过 1,507 个任务的单次运行 Pass@1
  • MCP-Atlas :
    • 所有模型都在 think mode 下进行评估,使用 500 个任务的公开子集,每个任务超时 10 分钟
    • 使用 Gemini 3 Pro 作为评判模型
  • \(\tau^{2}\) -Bench :
    • 在 Telecom 和 Retail 领域添加了小的 Prompt 调整,以避免因用户过早终止而导致的失败
    • 对于 Airline 领域,作者应用了 Claude Opus 4.5 系统卡中提出的领域修复
  • Vending-Bench 2 :
    • 运行由 Andon Labs10 独立进行

B.3 Optimized User Simulator for \(\tau^{2}\)-Bench

  • 作者在 Telecom 和 Retail 领域添加了小的 Prompt 调整,避免因用户过早终止而导致的失败

  • 优化的 Prompt 如图 12 和图 13 所示,这些优化的 Prompt 作为系统 Prompt 的一部分被整合进来

  • Figure 12: The optimized user prompt for \(\tau^{2}\)-Bench Telecom

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    SYSTEM_PROMPT = """"
    {global_user_sim_guidelines}
    <scenario>
    {instructions}
    </scenario>
    {optimized_user_prompt}
    """".strip()

    # Note:
    - Do not generate the ’###TRANSFER###’ before agent clearly tells "YOU ARE BEING
    TRANSFERRED TO A HUMAN AGENT. PLEASE HOLD ON.".
    Example:
    Case1:
    - agent: "Would you like me to transfer you to a human agent who can assist you with these options and help get your service restored?"
    - user: "Yes, please transfer me to a human agent.".
    Case2:
    - user: "YOU ARE BEING TRANSFERRED TO A HUMAN AGENT. PLEASE HOLD ON."
    - user: "###TRANSFER###"
  • Figure 13: The optimized user prompt for \(\tau^{2}\)-Bench Retail

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    # Rules:
    - Just generate one line at a time to simulate the user’s message.
    - Do not give away all the instruction at once. Only provide the information that is necessary for the current step.
    - Do not hallucinate information that is not provided in the instruction. Follow these guidelines:
    1. If the agent asks for information NOT in the instruction:
    - Say you don’t remember or don’t have it
    - Offer alternative information that IS mentioned in the instruction
    2. Examples:
    - If asked for order ID (not in instruction): "Sorry, I don’t remember the order ID, can you search for it? My name/email/phone number/zipcode is ..."
    - If asked for email (not in instruction): "I don’t have my email handy, but I can give you my name and zip code which are..."
    - Do not repeat the exact instruction in the conversation. Instead, use your own words to convey the same information.
    - Try to make the conversation as natural as possible, and stick to the personalities in the instruction.
    # Constraint Handling:
    - Provide requests strictly based on what is explicitly stated in the instruction.
    - Do not assume, extend, substitute, or generalize in any form.
    - Do not modify or relax constraints on:
    - Time / Date
    - Budget
    - Specific terms (e.g., "same" must not be replaced with "similar")
    - Core Rule: Any attribute NOT mentioned in the instruction can be either changed
    or kept the same
    - Examples:
    - If instruction says "exchange red item to blue": Only color must change, other attributes (size, material, etc.) are flexible
    - If instruction says "exchange red item to blue, keep the same size": Both color must change AND size must stay the same
    - Exception: Only follow additional constraints when explicitly stated in the
    instruction
    # Domain-Specific Rules:
    ## For Retail scenarios:
    - Focus on product attributes and exchange/return processes as specified in instructions.
    - During confirmations: Always respond based strictly on the original instruction, never deviate to match agent’s provided options. Restate your requirement from the instruction rather than selecting from agent’s choices.
    - Example: If the agent provides specific options (A/B/C) but the instruction states a general requirement (e.g., "same as pending order"), always restate or confirm based on what the instruction says, not by directly selecting from the agent’s provided options.
    # When NOT to finish the conversation:
    - Do not end until you have clearly and completely expressed all your requirements and constraints.
    - Do not end until the agent has completed all tasks mentioned in the instruction and verified no operations were missed.
    - Do not end if the agent’s execution results do not match your expectations or are incorrect/incomplete.
    # When you CAN finish the conversation:
    - Only when all above conditions are satisfied AND all tasks are completed correctly.
    - OR when you have clearly expressed complete requirements but the system explicitly states it cannot complete them due to technical limitations - in this case, accept transfer to human.
    # How to finish the conversation:
    - If the agent has completed all tasks, generate the ’###STOP###’ token to end the conversation.
    # Note:
    - You should carefully check if the agent has completed all tasks mentioned in the instruction before generating ’###STOP###’.

B.4 Evaluation of Real-world Agentic Engineering Experience

B.4.1 Frontend Evaluation
  • Data

    • 作者的数据集涵盖了七种不同的前端场景,旨在评估模型在多样化功能领域的工程能力:业务管理系统、网页游戏、SVG/Canvas 渲染、创意工具和编辑器、展示页面、表单和表格以及数据可视化
  • Data Distribution by Coding Languages

    • 该基准全面覆盖了三种主流范式:Vanilla Web 栈 (HTML/CSS/JS)、React 基于组件的框架以及 Vue 3 + Vite 渐进式解决方案
  • Data sample

    • 每个测试用例由三个部分组成:Task、Checklist 和专用环境 (Dedicated Environment)。下面是一个具有代表性的测试用例示例:

      1
      2
      3
      4
      5
      6
      Task: Develop an online drawing tool that includes a brush, an eraser, a white canvas, and a save button. The brush color and thickness should be selectable via buttons on the left. 
      Users can draw on the canvas by clicking and dragging the mouse. The eraser size should be selectable via buttons on the left. Users can erase content by clicking and dragging the mouse over the canvas.
      Once the drawing is complete, clicking the "Save" button should allow the user to save the image locally. Please implement this using the React framework in the current directory.

      Checklist: The user can select the brush color and thickness using the left-hand buttons, and drawing is functional via mouse click-and-drag on the canvas. The user can select the eraser size using the left-hand buttons,
      and erasing is functional via mouse click-and-drag on the canvas. Upon clicking the "Save" button, the generated image is successfully saved to the local machine.
    • 中文版:

      1
      2
      3
      4
      5
      **Task** :开发一个在线绘图工具,包含画笔、橡皮擦、白色画布和一个保存按钮。画笔颜色和粗细应可通过左侧按钮选择。用户可通过点击并拖动鼠标在画布上绘图。橡皮擦大小应可通过左侧按钮选择。用户可通过点击并拖动鼠标在画布上擦除内容。绘图完成后,点击“保存”按钮应允许用户将图像保存到本地。请使用 React 框架在当前目录中实现此功能
      **Checklist** :
      * 用户可以使用左侧按钮选择画笔颜色和粗细,并且可以通过鼠标点击并拖动在画布上绘图
      * 用户可以使用左侧按钮选择橡皮擦大小,并且可以通过鼠标点击并拖动在画布上擦除内容
      * 点击“保存”按钮后,生成的图像成功保存到本地机器
  • Data Construction and Validation ,作者实施了一个严格的四阶段流程来确保数据质量:

    • Stage 1: Task Synthesis:
      • 任务由资深前端专家设计,以确保其反映现实世界的工程挑战,同时在多样化的场景和技术之间保持平衡分布
    • Stage 2: Checklist Generation and Refinement:
      • 首先使用 Claude Sonnet 4.5 根据任务规范 \(T\) 合成候选检查表
      • 然后由专家进行细致的审核和整合
      • 通过多轮完善,作者确保每个检查项在语义上是明确的、客观的,并提供用户需求的详尽覆盖
    • Stage 3: Execution- based Correction:
      • 在 Agent-as-a-Judge 框架和人类专家之间进行交叉验证
      • 判断中的任何差异都会触发对底层数据的重新评估和修正,以消除潜在噪声
    • Stage 4: Dynamic Benchmark Iteration:
      • 为保持较高的区分度,移除那些不再对 SOTA 编码智能体构成挑战的琐碎任务,来迭代更新测试套件
      • 这个由专家主导的筛选过程最终形成了 220 个高质量的前端编码任务及其相应的检查表

NLP——技术报告解读-ERNIE-5.0

注:本文包含 AI 辅助创作

  • 参考链接:

    • 原始论文:ERNIE 5.0 Technical Report, Baidu, 20260204
  • 注:暂时仅关注 Post-training 部分

Paper Summary

  • 评价:
    • ERNIE 5.0 26年1月刚线上线时,LMArena 排名位于国内第一,最高曾至第 6 名(截止到 20260210 日本文写作时位于 11 名),在用户体验方面是做的很好的
      • 补充:在 20260212 日被 GLM-5 超过
    • ERNIE 5.0 没有开源模型权重,只有本次的技术报告
    • 模型大小是 万亿参数

Post-training(原文第4节)

  • 经过多模态统一预训练后,采用与 ERNIE 4.5 相同的训练后流程来获得最终的 ERNIE 5.0
    • 该流程包括两个阶段:SFT 和 RL
    • SFT:
      • 高质量指令对集合
      • 基础的指令遵循能力
      • 长链思维推理的能力
    • RL:
      • 统一多模态 RL
      • 推理、智能体、指令遵循等各种任务的训练在一个多阶段 RL 流程中
      • 扩展了统一验证器系统,使其能够为广泛多模态场景中的模型 Response 生成准确且一致的奖励信号
  • RL 训练面临几个挑战
    • First,RL 训练计算成本高昂,ERNIE 5.0 的大规模进一步加剧了这一点(似乎没有说模型的参数量是多少?)
    • Second,超稀疏 MoE 架构加剧了训练-推理差异并破坏了稳定性
    • Third,与独立的 RLVR 任务相比,训练一个同时支持多种场景和模态的模型引入了更高的复杂性
  • 本文主要以解决以上几个问题为主旨

Enhancing Rollout Efficiency with Unbiased Replay Buffer

  • Rollout 生成在 RL 训练中占据了超过 \(90%\) 的总时间,效率往往受限于 Rollout Response 长度的长尾分布
    • 少数异常长的 Response 会阻塞整个批次,导致 GPU 空闲且利用率不足
  • 最近如 APRIL (2025)等试图通过超额供应 Rollout 请求来缓解长尾低效问题
    • 收集到目标数量的 Response 立即终止生成;未完成的 Response 会被回收并在后续步骤中继续生成
    • 但 APRIL 存在问题:
      • 倾向于使用推理步骤较短的轨迹来更新模型参数 ,这些轨迹通常对应于较容易的 Query
      • 更长步数的样本被推迟,导致数据难度分布不稳定
      • 数据难度的周期性变化可能阻碍收敛并最终降低模型性能
U-RB:Unbiased Replay Buffer Generation
  • U-RB 是 APRIL 的一种无偏扩展,旨在加速 RL 中的 Rollout 生成
  • 如图 5 所示,U-RB 引入了一种数据排序约束,在此约束下,只有初始化时分配给当前迭代的数据组才被允许参与后续训练过程
  • 上图中的一些解释:
    • IB 表示 Inference Batch
    • 同步方式:被长尾拖住,浪费资源
    • APRIL:足够了就停,对长难样本不友好
    • U-RB:既不浪费资源,又等待长尾样本完成
  • U-RB 构建了两个模块
    • 第一个模块:高吞吐量推理池 \(\mathcal{P}_\text{infer}\),容量为
      $$ \Omega_{RBS} = \Omega_{BS} * N$$
      • 其中 \(\Omega_{BS}\) 是训练批次大小,\(N\) 是缓冲区大小
    • 第二个模块:训练池 \(\mathcal{P}_\text{train}\),用于收集已完成的轨迹以进行 RL 训练,容量为:
      $$ \Omega_{BS} $$
  • 在迭代 \(t\) 时,推理引擎 \(\pi_{infer;\theta_t}\) 通过并行生成 Rollout 来填充推理池
    • 推理持续进行,直到达到分配给迭代 \(t\) 的数据组 \(\mathcal{D}_t\) 中最长 Rollout 的终止状态
    • 此时,与 \(\mathcal{D}_t\) 相关的 Rollout 将从 \(\mathcal{P}_\text{infer}\) 移动到训练池 \(\mathcal{P}_\text{train}\),使训练引擎 \(\pi_{train;\theta_t}\) 能够更新模型参数
    • 这些 Rollout 可能包括从早期推理运行中恢复的轨迹
  • 通过动态划分 Rollout 生成,U-RB 防止了因单个长 Rollout 导致的计算闲置,同时保持了无偏的数据分布

Stabilizing Training with Mitigated Entropy Collapse

  • 多模态模型中快速熵崩溃的现象表现为 RL 早期阶段策略熵的急剧增加或减少
  • 在集成文本、视觉和音频信息的多模态决策任务中,这种崩溃会逐渐削弱模型融合跨模态信息以进行灵活推理的能力,并显示出明显的模态偏向
  • 近期研究将熵崩溃主要归因于两个因素
    • First,大多数当代 RL 框架依赖独立的引擎进行训练和推理,这引入了数值计算的不一致性,并最终破坏了策略优化的稳定性
      • 对于 MoE 模型,这个问题变得更加严重,因为动态路由进一步放大了数值不匹配问题
    • Second,策略模型通常在训练早期阶段过拟合于简单 Query
      • 这种行为加速了熵崩溃并限制了模型探索的能力
  • 解决方案:引入 Multi-granularity Importance Sampling Clipping 和 Well-learned Positive Sample Mask ,在大规模 RL 训练中稳定训练
MISC:Multi-granularity Importance Sampling Clipping
  • IcePop 通过对 GRPO 进行双端掩码校准来抑制训练-推理不匹配:
    $$
    \begin{align}
    \mathcal{I}_\text{IcePop}^\text{GRPO}(\theta) &= \mathbb{E}_{x\sim D,(y_i)_{i = 1}^G\sim \pi_\text{infer}(\cdot |x;\theta_\text{old})}\\
    &\frac{1}{G}\sum_{i = 1}^G\frac{1}{|y_i|}\sum_{j = 1}^{|y_i|} \mathcal{M}\left(\frac{\pi_\text{train}(y_{ij}|x,y_{i,j};\theta_\text{old})}{\pi_\text{infer}(y_{ij}|x,y_{i,j};\theta_\text{old})};\alpha ,\beta\right) \cdot \min (r_{ij}\hat{A}_{ij},clip(r_{ij},1 - \epsilon ,1 + \epsilon)\hat{A}_{ij})\\
    r_{ij} &= \frac{\pi_\text{train}(y_{ij}|x,y_{i,j};\theta)}{\pi_\text{train}(y_{ij}|x,y_{i,j};\theta_\text{old})} \\
    \mathcal{M}(k) &= \begin{cases}
    k & \text{if } k\in [\alpha ,\beta ]\\
    0 & \text{otherwise}
    \end{cases}
    \end{align} \tag{1}
    $$
    • 其中 \(\alpha ,\beta\) 控制下限和上限
  • 作者将 IcePop 的掩码技术应用于 GSPO:
    $$
    \begin{align}
    \mathcal{I}_\text{IcePop}^\text{GSPO}(\theta) &= \mathbb{E}_{x\sim D,(y_i)_{i = 1}^G\sim \pi_\text{infer}(\cdot |x;\theta_\text{old})}\\
    &\frac{1}{G}\sum_{i = 1}^G[\mathcal{M}\left(\frac{\pi_\text{train}(y_i|x,\theta_\text{old})}{\pi_\text{infer}(y_i|x,\theta_\text{old})}\right)^{\frac{1}{|y_i|} };\alpha ,\beta)\cdot \min (s_i(\theta)\hat{A}_i,clip(s_i(\theta),1 - \epsilon ,1 + \epsilon)\hat{A}_i)\\
    s_i(\theta) &= \left(\frac{\pi_\text{train}(y_i|x;\theta)}{\pi_\text{train}(y_i|x;\theta_\text{old})}\right)^{\frac{1}{|y_i|} } = \exp \left(\frac{1}{|y_i|}\sum_{j = 1}^{|y_i|}\log \frac{\pi_\text{train}(y_{ij}|x,y_{i,j};\theta)}{\pi_\text{train}(y_{ij}|x,y_{i,j};\theta_\text{old})}\right)\\
    \mathcal{M}(k) &= \begin{cases}
    k & \text{if } k\in [\alpha ,\beta ]\\
    0 & \text{otherwise}
    \end{cases}
    \end{align} \tag{2}
    $$
  • 注意:作者的实验表明,直接将 \(\mathcal{I}_\text{IcePop}^\text{GSPO}\) 应用于 ERNIE 5.0 的 RL 训练会导致快速熵崩溃,如图 6 中的浅蓝色线所示
    • 这种现象是由序列级截断重要性采样引起的,由于训练-推理不匹配,修剪了大量低熵 Response
  • 为了解决这个问题,作者将 \(\Im_\text{IcePop}^\text{GSPO}\) 修改为 \(\Im_\text{IcePop}^\text{Mixed}\)
    $$\begin{align}
    \Im_\text{IcePop}^{Mixed}(\theta) &= \mathbb{E}_{x\sim D,[y_i]_{i = 1}^{C}\sim \pi_\text{infer}(\cdot |x;\theta_\text{old})}\\
    &\frac{1}{G}\sum_{i = 1}^{G}[\mathcal{M}_{i\in [1,y_i]}] (\frac{\pi_\text{train}(y_{i,j}|x,y_{i,j};\theta_\text{old})}{\pi_\text{infer}(y_{i,j}|x,y_{i,j};\theta_\text{old})};\alpha ,\beta)\cdot \min(s_i(\theta)\hat{A}_i,clip(s_i(\theta),1 - \epsilon ,1 + \epsilon)\hat{A}_i)\\
    s_i(\theta) &= \left(\frac{\pi_\text{train}(y_i|x;\theta)}{\pi_\text{train}(y_i|x;\theta_\text{old})}\right)^{\frac{1}{|\theta_i|} } = \exp\left(\frac{1}{|y_i|}\sum_{j = 1}^{|y_i|}\log \frac{\pi_\text{train}(y_{i,j}|x,y_{i,j};\theta)}{\pi_\text{train}(y_{i,j}|x,y_{i,j};\theta_\text{old})}\right)\\
    \mathcal{M}(k) &= \begin{cases}
    k& \text{if } k\in [\alpha ,\beta ]\\
    0& \text{otherwise}
    \end{cases}
    \end{align} \tag{3}
    $$
  • 通过根据模态敏感性调整信任区域,作者实现了更平衡的探索-利用权衡
    • 该机制避免了在复杂的多场景设置中过早收敛到“安全”但次优的策略,并保持了跨不同输入的灵活性
WPSM:Well-learned Positive Sample Mask
  • 为防止模型对已经掌握的 Query 进行过优化,作者引入了一种样本掩码策略
    • 注:其中熟练程度通过维护每个 Query 的成功率来跟踪
  • 对于一个给定的 Query \(x\) 及其 Rollout 组 \(\mathcal{Y}^x = \{y_1^x,y_2^x,\dots,y_G^x\}\),其中 \(G\) 是组大小
    • 如果迭代 \(t\) 中的平均准确率 \(acc_i^x\) 超过阈值 \(\tau\),并且其 策略熵 \(\mathcal{H}_{y_i^x}(\pi_\theta)\) 低于稳定边界 \(\eta\)
    • 则标记 \(\mathcal{Y}^x\) 中的 Rollout \(y_i^x\) 为“已习得(Well-learned)” Response
  • 在训练期间,“已习得”的 Response 被掩码如下:
    $$
    \begin{align}
    \mathcal{I}(\theta) &= \mathbb{E}_{x\sim D,[y_i]_{i = 1}^{C}\sim \pi_{\theta_\text{old} }(\cdot |x)\left[\frac{1}{G}\sum_{i = 1}^{G}[1 - \mathbf{M}_{mask}^i ]min(s_i(\theta))\hat{A}_i,clip(s_i(\theta),1 - \epsilon ,1 + \epsilon)\hat{A}_i\right]}\\
    \mathbf{M}_{mask}^i &= \begin{cases}
    &\alpha & \mathcal{H}_{y_i^x}(\pi_\theta) < \eta \text{ and } \text{acc}_i^x >\tau \\
    &0 & \text{otherwise}
    \end{cases}
    \end{align} \tag{4}
    $$
    • \(s_i(\theta)\) 表示重要性比率
    • \(\alpha \in [0,1]\) 控制应用于“已习得” Response 的补充学习程度
  • 在此设计下,梯度预算被转移到更困难的样本上,例如那些奖励稀疏或推理路径多样的样本
    • 通过掩码冗余的正信号,WPSM 缓解了因过拟合于简单 Query 而引起的熵崩溃问题,并鼓励模型提升具有挑战性的、低表现任务的性能
    • 问题:相当于直接直接在线过滤样本了?

Boosting Sample Efficiency with Hint-based Learning

  • 近期研究表明:
    • RL 方法通过强化高奖励完成来提升 pass@1 指标,但它们在基础模型表现不佳的挑战性任务上表现出明显的局限性
  • 具体来说,当所有 Rollout 都获得零奖励时,GRPO 框架无法为策略优化提供有效的梯度信号
    • 在这种情况下,困难 Query 上的 RL 训练往往会进展得更慢,因为稀疏奖励和有限的样本效率阻碍了学习
  • 为了应对这一挑战,作者提出了 Prompt-based 自适应强化学习,一种缓解困难 Query 上稀疏奖励问题的方法
    • 如图 7 所示,Prompt-based 自适应强化学习引入了部分提示,将复杂问题分解为中间步骤,并逐步提高训练模型的性能
AHRL:Adaptive Hint-based Reinforcement Learning
  • Prompt-based 自适应 RL 旨在 RL 训练期间将部分思维提纲注入到 Query 中
  • Prompt-based 自适应 RL 增加了基础模型生成正确 Response 的倾向,并提高了样本效率
    • 因此,模型被驱动去掌握最困难的问题,从而加速了 RL 训练过程
  • 对于一个给定的 Query \(x\),其 Response 由思维轨迹和最终解决方案组成,表示为 \(y = (\text{think, solution})\)
    • Prompt-based 自适应强化学习通过将 think 的前 \(p_\text{hint}\) 个 token 附加到原始 Query ,将 \(x\) 增强为 \(\bar{x}^{(p)}\)
      • \(p_\text{hint}\) 表示被揭示的思维比例,允许对 Query 难度进行细粒度控制
  • 具体来说,概率 \(p_\text{hint}\) 遵循退火计划:
    $$p_\text{hint}(x^t) = p_\text{initial}\cdot \exp (-\gamma \cdot t\cdot \text{pass}_\text{initial}^x) \tag{5}$$
    • \(t\) 是训练迭代次数
    • \(\gamma\) 是衰减率
    • \(pass_\text{initial}^x\) 是在监督微调模型上评估的 Query \(x\) 的 pass@k 分数
    • 问题:\(x^t\) 表示迭代 \(t\) 中的 Query \(x\) 吗?
    • 理解:
      • \(t\) 越大,最终使用的比例 \(p_\text{hint}(x^t)\) 越小
      • \(\text{pass}_\text{initial}^x\) 越大,最终使用的比例 \(p_\text{hint}(x^t)\) 越小
  • 随着训练的进行和模型性能的提高,揭示的提示比例逐渐减少,使模型过渡到完全的自我探索
  • 该机制提供了必要的“脚手架”以弥合初始探索和成功完成任务之间的差距
  • 它防止了在复杂任务中训练停滞,在这些任务中有效的推理路径在统计上是罕见的,并确保了跨模态的性能持续改进

Scalable and Disaggregated RL Infrastructure

  • 将 RL 扩展到具有万亿参数的统一多模态模型,在多个方面提出了独特的挑战:
    • 计算一致性 (computational consistency)
    • 数据分布偏差 (data distribution bias)
    • 异构资源利用 (heterogeneous resource utilization)
  • 解决方案:引入了 ERNIE 5.0 RL Infrastructure,一个解耦的系统,旨在编排大规模异步训练
  • 优先考虑高吞吐量执行和计算确定性 (computation determinism),系统确保了稳定且高效的 RL 训练
  • The key architectural components are summarized as follows:
    • Disaggregated Control Plane for Asynchronous RL
      • 一个完全解耦的控制平面,围绕一个集中式 RL 控制器 (RL controller) 构建,以最大化系统吞吐量
      • 该控制器以异步方式协调训练、推理、环境交互和奖励评估
      • 这些子系统之间的逻辑解耦实现了灵活的扩展和高效的流水线管理,为大规模异步多模态 RL 奠定了基础
    • FP8 栈 (Unified FP8 Stack for Consistent Training and Inference).
      • 精度分歧 (Precision divergence) 是低比特 RL 训练中的常见问题
      • 为了缓解这种情况,作者构建了一个统一的 FP8 执行引擎 (execution engine)
      • 通过在训练和推理 (rollout) 阶段采用相同的高性能算子,并整合 Rollout Router Replay (2025b) 策略,该引擎最大限度地减少了数值不匹配,并确保了低精度设置下的稳定收敛
    • Replay Buffer for Sequence-Length Bias Mitigation
      • RL 中的异步 rollout 可能会引入序列长度偏差 (sequence-length bias),即较短的 Response 更早进入训练,从而扭曲数据分布
      • 作者设计了一个无偏回放缓冲区 (unbiased replay buffer),与第 4.1 节描述的算法协同工作,保留了原始数据顺序,确保数据一致到达,并减轻了异步完成引起的偏差
    • Heterogeneous Resource Optimization with Elastic CPU Pooling
      • 为解决在以 GPU 为主的 AI 集群中常见的 CPU 资源利用不足问题,作者使用了弹性 CPU 池策略
        • 该弹性机制从集群中隔离并虚拟化空闲的 CPU 容量,以支持计算密集型的任务,例如密集的 RL 环境交互和结果验证
      • 有效地放大了可用于环境 rollouts 的计算资源,实现了大规模的并行模拟
      • 减少了训练迭代的 wall-clock time,同时显著提高了底层硬件的总体拥有成本 (Total Cost of Ownership, TCO) 效率

NLP——LLM对齐微调-MaMs

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(MaMs)Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation, 20260203, Tencent & Fudan

Paper Summary

  • 整体总结:
    • 本文为 DeepResearch 报告生成设计了一种特定的 Rubric Generator 训练流程
      • 注意:主要关注 Rubric 生成而不是验证;且主要关注 DeepResearch Report Generation 场景
    • 本工作解决了 DeepResearch 报告生成中的一个核心挑战:
      • 核心目标:在没有显式 Golden Signal 情况下,使用 Rubrics 获得了可靠的监督信号(可扩展、可靠且与人类对齐的)
      • 核心特点:没有依赖预定义或人工标注的 rubrics,而是从人类偏好中学习 Query-specific rubric generator
    • 本文的流程和示例主要看原论文 图 1
  • DeepResearch 缺乏可验证的奖励信号,这种场景中,Rubric-based 评估已经比较常用
  • 但现有方法要么依赖于缺乏足够细粒度的、粗粒度的预定义 Rubric,要么依赖于手动构建的 Query-specific Rubric,这些方法成本高昂且难以扩展
  • 本文提出了一种为 DeepResearch 报告生成量身定制的、与人类偏好对齐的 Query-specific Rubric Generator 的训练流程
  • 本文主要工作:
    • 构建了一个包含人类对成对报告偏好的、带 Annotations 的 DeepResearch 风格 Query 数据集
    • 通过结合人类偏好监督和 LLM-based Rubric 评估的混合奖励进行强化学习来训练 Rubric Generator
    • for 长程推理,为报告生成引入了一种 多智能体马尔可夫状态(Multi-agent Markov-state, MaMs) 工作流
  • 实验表明本文的 Rubric Generator 比现有的 Rubric 设计策略提供了更具区分性和更好人类对齐的监督
  • 当集成到 MaMs 训练框架中时,配备了本文 Rubric Generator 的 DeepResearch 系统在 DeepResearch Bench 上持续优于所有开源基线,并达到了与领先的闭源模型相当的性能

Introduction and Discussion

  • 背景:
    • 不同于 BrowseComp (2025)、GAIA (2023) 和 HLE (2025) 等短格式 DeepResearch 任务,报告生成要求模型能够对不同来源进行多步推理、检索和整合,同时以连贯且结构良好的方式呈现结果
  • 问题提出1:
    • 训练和评估 DeepResearch 报告 Generator 仍然存在根本性的挑战
      • 一个关键困难在于缺乏可验证的奖励
      • 人工评估虽然可靠,但成本高昂且难以扩展,Rubric-based 评估 (2025) 已经作为一种实用替代方案的广泛采用
    • 理论上来说,专家设计的、 Query-specific Rubric,如 ResearchRubrics (2025),在评估 DeepResearch 报告时可以作为人类判断的可靠代理
      • 但为每个 Query 编写此类 Rubric 需要大量的领域专业知识和努力,使得这种方法难以扩展到大型和多样化的训练语料库
  • 已有解法1:
    • 部分工作使用预定义的通用 Rubric (2024) 或 LLM 生成的 Query-specific Rubric (2025) 来为报告生成任务提供结构化反馈
      • 这些方法存在两个局限性:
        • 第一:预定义的 Rubric 必然是通用的,缺乏区分不同研究 Query 之间细微质量差异所需的粒度
        • 第二:LLM 生成的 Query-specific Rubric 通常没有基于人类偏好数据,这使得它们容易与人类实际比较和判断研究报告的方式不一致
      • 这些问题可能导致监督信号弱、奖励黑客行为和低效的学习动态
  • 本文解决方案:
    • 本文重新考虑用于评估 DeepResearch 报告的监督来源
    • 作者认为评估 报告质量 最直接的监督信号之一是人类对候选报告的偏好 (2023; 2024)
  • 与其应用通用或人工 Annotations 的 Rubric,能否学习以一种既能在大型训练数据上扩展又与人类偏好对齐的方式来评估报告?
    • 理解:这个是本文要回答的最根本问题

Method

Motivations

  • 专家 Annotators 可以提供高质量的评估 Rubric,但大规模手动设计 Query-specific Rubric 从根本上是不切实际的
    • 即使是训练有素的专家也难以为大量且多样化的 Query 集生成一致且细粒度的标准
    • 这种方法对密集专家工作的依赖限制了其在大规模 DeepResearch 训练中的适用性
  • 本文的目标是开发一种与人类偏好对齐的 Query-specific Rubric Generator ,从而能够通过强化学习,利用更可靠和与人类对齐的奖励信号来训练 DeepResearch 系统

Creation of the Preference Dataset

Stage 1: Query Construction
  • 首先构建一组多样化的、反映 DeepResearch 场景中实际信息需求的研究导向型 Query
  • 每个 Query \(q\) 被表述为一个开放的研究 Prompt,需要多步推理、证据综合和结构化的长格式报告,而不是简短的事实性答案
  • 原始 Query 是从构建于不同领域实体的知识图谱中自动生成的
    • 通过利用图谱的关系结构,作者采样多跳实体路径,并 Prompt 一个 LLM 来合成相应的自然语言问题
    • 这确保了每个 Query 都基于实体关系,同时需要跨多个事实进行推理 ,使其适合于评估深度研究和综合
  • 然后使用 GPT-5 (2025) 重写 Query
    • 使其措辞和自然度多样化,使其与现实用户提问风格对齐,并自然地诱导报告质量的差异
  • 用 \(N\) 个构建的 Query 表示数据集 \(\mathcal{Q}\) 为
    $$ \mathcal{Q} = \{q_i\}_{i = 1}^N $$
    • 其中每个 \(q_i\) 作为生成后续候选报告的条件输入
    • 重写 Query 的案例研究和详细类别见附录 A
Stage 2: Candidate Report Generation via Multi-Agent Markov State Framework
  • 给定一个固定的 Query
    $$ q \in \mathcal{Q}$$
  • 改变多个 LLMs 的超参数来生成多个候选报告
    • 包括 DeepSeek V3.1 (2024a) 和 TongyiDeepResearch (2025),这些模型都已经经过智能体数据训练,具备工具调用能力
  • For 解决 ReAct 风格推理 (2022) 中的长上下文依赖性和自动化 DeepResearch 的多步性质所带来的挑战
    • 本文从先前的工作中汲取灵感 (2025b),并提出了一个 多智能体马尔可夫状态(Multi-Agent Markov-State, MaMs) 工作流,详见第 3.4 节
    • 使用此工作流 独立生成 候选报告被,且不接触任何人工 Annotations
  • 在提交进行人工 Annotations 之前,对所有候选报告进行一个过滤过程
    • 这个过滤过程包含了人工评审员和 Auxiliary LLM-based 验证器的过滤过程
    • 移除具有明显事实错误、引用混乱或不一致、或者内容表现出表面聚合而无连贯推理的报告,最终只保留两个最高质量的报告 for Annotations
Stage 3: Preference Annotation by Human Experts
  • 对于人工 Annotations ,作者招募了 16 名人类专家,每人至少持有硕士学位 ,并具备批判性阅读和评估长格式研究报告的能力
    • 专家们对为同一 Query 生成的候选报告进行成对比较
  • 给定一个 Query \(q\) 和两个候选报告 \(r_a, r_b \in \mathcal{R}(q)\), Annotators 被要求选择他们整体上更喜欢的报告,考虑因素包括有用性、连贯性、完整性以及与 Query \(q\) 所表达的信息需求的对齐程度
    • 每次比较产生一个 Prefered \(r_{\mathrm{acc} }\) 和一个 Less Prefered \(r_{\mathrm{rej} }\),形成一个偏好三元组
      $$ (q, r_{\mathrm{acc} }, r_{\mathrm{rej} }) $$
  • 聚合所有 Annotations 的比较结果得到最终的人类偏好数据集
    $$ \mathcal{D} = \{(q, r_{\mathrm{acc} }, r_{\mathrm{rej} })\}$$
    • 该数据集用作建模和评估偏好对齐报告生成的监督
  • 注:以上得到的是专家的相对判断而非绝对评分,该数据集捕获了难以用通用或 LLM 生成的评估指标表达的细粒度人类偏好
    • 理解:人工判别生成的数据,确实非常宝贵

Training Rubric Generators with Hybrid Rewards

  • For 生成与人类偏好良好对齐的评估 Rubric,使用 GRPO (2024b) 来训练 Rubric Generator
  • 给定一个 Query \(q\),策略模型 \(\pi_{\theta}\) 采样一组 Rubric 候选 \(\{y_1, y_2, \ldots , y_G\}\),其中每个候选 \(y_i\) 指定了一个结构化的评估标准集(Evaluation Criteria)
  • 遵循 Gunjal 等人 (2025) 提出的 Rubric 规范,每个 Rubric 项目用三个关键字段表示:
    • 1)Title
    • 2)Description
    • 3)关联的重要性权重
    • 以上三部分形成一个加权的评估维度列表(例如,JSON 格式)
    • 理解:这里一个 Rubric 就包含三个部分,相对来说是比较复杂的,特别是权重方面有点不好生产,可以考虑看下模型是否真的可以生成这个
  • For 稳健地指导学习,作者设计了一个混合奖励函数 \(R_{\mathrm{total} }\),整合了三个互补的信号:
    • Preference Consistency Reward
    • Format Reward
    • LLM-as-a-Judge Quality Reward
  • 总体训练信号计算为上述分量的加权组合:
    $$R_{\mathrm{total} } = \lambda_{\mathrm{pref} }R_{\mathrm{pref} } + \lambda_{\mathrm{llm} }R_{\mathrm{llm} } + R_{\mathrm{fmt} } \tag{1}$$
Preference Consistency Reward \((R_{\mathrm{pref} })\)
  • 一个有效的 Rubric 必须具有区分性,即当应用于真实报告时能够反映人类偏好
  • 作者利用第 3.2 节创建的由三元组 \((q, r_{\mathrm{acc} }, r_{\mathrm{rej} })\) 组成的偏好数据集 \(\mathcal{D}\)
    • 其中对于同一 Query \(q\),人类 Annotators 更偏好 \(r_{\mathrm{acc} }\) 而非 \(r_{\mathrm{rej} }\)
    • 给定一个生成的 Rubric \(y\),通过计算项目级评分的加权平均值来为一个报告 \(r\) 打分:
      $$S(r\mid y) = \frac{\sum_{k = 1}^{K}w_{k}\cdot v_{k} }{\sum_{k = 1}^{K}w_{k} } \tag{2}$$
      • 其中 \(w_{k}\) 表示第 \(k\) 个 Rubric 项目的权重,\(v_{k}\) 是由评判 LLM 分配的相应符合度分数
      • 每个 \(v_{k}\) 按 1-10 的李克特量表 (2023a; 2024) 评分,并线性归一化到 \([0,1]\) 范围进行聚合
      • 偏好一致性奖励取决于 Rubric 是否正确地将人类更偏好的报告排在较不偏好的报告之上:
        $$R_{\mathrm{pref} }(y) = \left\{ \begin{array}{ll} +1, & \mathrm{if } \ S(r_{\mathrm{acc} }\mid y) > S(r_{\mathrm{rej} }\mid y);\\ -1, & \mathrm{otherwise}. \end{array} \right. \tag{3}$$
Format Reward \((R_{\mathrm{fmt} })\)
  • 下游评估流程需要机器可解析的 Rubric 表示,本文将结构有效性作为硬约束强制执行
  • 本文会检查每个生成的候选是否符合所需的 JSON 模式(包括必填字段,如 Title、Description 和 Weight)
    • 未通过此检查的候选会受到 \(-1\) 的惩罚(注:通过此检查的 Rubric 则不会获得额外奖励)
LLM-as-a-Judge Reward \((R_{\mathrm{llm} })\)
  • For 评估生成的 Rubric 的内在质量
    • 本文进一步采用了一个 LLM-as-a-Judge 的机制,充当语义元评估器
  • 评判者不是依赖于预定义的规则,而是在 Query \(q\) 的背景下评估一个 Rubric \(y\)
    • 关注其逻辑连贯性、覆盖全面性及其评估维度的相关性
    • 将这些因素综合成一个标量质量分数(例如,缩放到 \([0,4]\)):这些标准被聚合成一个标量质量分数
      $$ R_{\mathrm{llm} } = \mathrm{Judge}(q,y) $$
  • 具体的提示词可以在附录 C.3 中找到

Multi-Agent Markov-State Workflow with Rubric-Based GRPO

  • 在获得训练良好的 Rubric Generator 后,利用它通过 GRPO 为训练 DeepResearch 系统提供可靠且 Query-specific 奖励信号
  • 本文中的 DeepResearch 框架称为 多智能体马尔可夫状态(Multi-Agent Markov-State, MAMs) 工作流
  • 与之前的 容易产生上下文饱和和错误积累的单一架构 不同
    • MaMs 框架明确地将高层推理、信息获取和报告综合分离到专门的智能体中,这些智能体通过迭代的状态转移循环进行交互
  • 为了提高多智能体系统的效率,作者提出了一种并发执行方案,详见附录 F
State Abstraction and Iterative Transitions
  • 将深度研究过程建模为一个在抽象状态空间上的序列决策问题
  • 对于用户 Query \(q\),迭代 turn \(t\) 的研究状态定义为
    $$s_{t} = \langle m_{t},p_{t},r_{t}\rangle$$
    • \(m_{t}\) 代表结构化记忆
    • \(p_{t}\) 表示动态执行计划
    • \(r_{t}\) 是逐步演变的报告
  • 注:传统 RAG 依赖于原始检索上下文,但这里框架基于这种紧凑的抽象(Compact Abstraction),确保跨长程工作流的可扩展性
    • 转移遵循分层结构:高层搜索动作触发低层状态处理,形式上有:
      $$s_{t + 1} = \mathcal{T}(s_{t},a_{t}) $$
    • 其中 \(\mathcal{T}\) 封装了工具执行和后续的多智能体处理流程(如下所述)
    • 详细的算法描述请参见附录 B
Agent Modules and Chunk-based Process
  • MAMs 工作流由 3 个具有明确定义职责的专门智能体组成,如图 1 所示
Search Agent
  • Search Agent 作为高层控制器,观察当前状态 \(s_{t}\) 并确定最佳下一步
  • Search Agent 生成一个搜索动作 \(a_{t}\)(例如,生成 <tool_call></tool_call>)并优化全局计划:
    $$ a_{t},p_{t}^{\prime} = \mathcal{A}_{\mathrm{search} }(q,s_{t})$$
  • Search Agent 负责识别 \(m_{t}\) 中的信息差距并驱动探索过程
    • 如果收集到足够的信息,搜索循环终止,并最终确定输出
State Agent
  • 在执行动作 \(a_{t}\) 后,环境返回一个原始观察 \(O_{t}\)(例如,长搜索内容)
    • 一个关键的挑战是 \(O_{t}\) 常常超过 LLM 的上下文窗口限制
    • 理解:搜索的得到的内容一般都是很大的类似 HTML 或 PDF 等文档
  • For this Question,作者遵循 MemAgent, 20250703 实现一个基于分块的处理机制
    • 原始文本 \(O_{t}\) 使用尊重语义边界(例如,段落)的文本分割器被分割成一系列较小的块
      $$ \{c_{1},c_{2},\ldots ,c_{K}\} $$
  • State Agent 按顺序处理这些块,以更新记忆和计划,同时最小化信息损失
    • 令 \(m_{t,0} = m_{t}\) 且 \(p_{t,0} = p_{t}^{\prime}\)
    • 对于每个块 \(k \in \{1, \ldots , K\}\),智能体执行增量更新:
      $$m_{t,k},p_{t,k} = \mathcal{A}_{\mathrm{state} }(q,c_{k},m_{t,k - 1},p_{t,k - 1}). \tag{4}$$
      • 问题:这里的 \(p_{t,k}\) 是什么?
      • 理解:这里的 \(p_{t,k}\) 是计划(注:\(m_{t,k}\) 表示记忆)
  • Prompt 逻辑明确强制一种“增量融合”策略:
    • 保留 \(m_{t,k - 1}\) 中的现有知识,同时压缩并合并来自 \(c_{k}\) 的新事实
    • 处理完所有 \(K\) 个块后,为下一次迭代建立的最终状态为 \(m_{t + 1} = m_{t,k}\) 和 \(p_{t + 1} = p_{t,k}\)
Report Agent
  • Report Agent 随着状态更新增量地完善研究报告:
    $$r_{t,k} = \mathcal{A}_{\mathrm{report} }(q,c_{k},m_{t,k - 1},r_{t,k - 1}). \tag{5}$$
  • 这种设计有效地将信息压缩(由 State Agent 处理)与叙述生成(由 Report Agent 处理)解耦
  • Report Agent 使用流式证据 \(c_{k}\) 来起草、更正和扩展报告 \(r_t\) 的各个部分,确保全局一致性并降低一次性生成长报告时产生幻觉的风险
  • 满足终止条件(如达到最大回合数或无需进一步工具调用)后,生成最终报告 \(r_{\mathrm{final} }\)
Reward Assignment with Weighted Rubrics
  • 对于每个 Query \(q\),Rubric Generator 会生成一个带有相关权重的评估 Rubric 列表,捕获 Query-specific 报告质量概念
  • 在系统为 \(q\) 生成一组候选报告后,作者采用一个 LLM-as-a-Judge ,根据这些加权 Rubric 对每个生成的报告进行评分
  • 所得的标量奖励按照公式 (2) 中定义的相同加权聚合方案计算,并用于监督策略优化
  • 所有提示请参考附录 C

Experiments

  • 在本节中,作者进行了一系列实验来回答以下研究问题:
    • RQ1: 使用 GRPO 训练的 rubric generator 是否能有效地捕捉人类对生成报告的偏好?
    • RQ2: 当用于训练 DeepResearch agent 时,rubric generator 是否能提供更可靠的 reward 信号?
    • RQ3: 在复杂的 DeepResearch 任务中,所提出的 multi-agent Markov-state workflow 是否优于传统的 ReAct-style 框架?

Experimental Settings

数据集
  • 为了解决 RQ1,作者将构建的人类偏好数据集 \(\mathcal{D}\) 按 8:1:1 的比例划分为训练集、验证集和测试集,其中 \(10%\) 的数据留作测试。划分以主题平衡的方式进行,确保所有主题在训练集、验证集和测试集中都有体现。为了解决 RQ2 和 RQ3,作者在广泛采用的 DeepResearch Bench (2025) 上评估作者的方法,该基准包含 100 个 Query (50 个中文和 50 个英文),涵盖了多样化的研究主题
实施细节
  • 所有实验均在一个专用的大规模 GPU 集群上进行,集群配备了 NVIDIA H20 GPU。Rubric generator 在 8 块 H20 GPU 上训练,而 MaMs workflow 内的 DeepResearch agent 训练则使用 32 块 H20 GPU。为了在强化学习过程中实现大规模、高并发的推理以进行 rubrics 评分和 LLM-as-a-Judge 评估,作者进一步部署了 192 块 H20 GPU,使用 vLLM 框架 (2023) 运行 Qwen3-235B-A22B,确保所有请求都能在 4 分钟内端到端处理完毕。完整的实现、基础设施细节和超参数见附录 D
指标
  • 作者使用两个互补的指标来评估偏好建模的性能。偏好准确度衡量模型给偏好回复赋予的分数高于被拒绝回复的频率,它等同于成对偏好评估中的 AUC,反映了排序的正确性。为了进一步评估偏好分离的幅度和稳定性,作者报告了配对 Cohen’s \(d\),它量化了不同 Query 间接受和拒绝回复之间的标准化差异。虽然偏好准确度捕捉了排序是否正确,但 Cohen’s \(d\) (Diener, 2010) 表征了模型区分偏好输出的强度和一致性,提供了对偏好质量更细致的观察。在 DeepResearch Bench 中,”comprehensiveness”、”Depth”、”instruction following” 和 “readability” 是预定义的评估维度,每个维度都由 LLM judges 使用官方基准提示进行评估
基线
  • 对于人类偏好评估,作者考虑以下基线:
    • (1) Human-defined General Rubrics,采用遵循 (2025) 中提出的通用报告 rubrics 的手动指定的评估 rubrics
    • (2) Pointwise Preference Scoring,其中每个三元组 \((q, r_{\mathrm{acc} }, r_{\mathrm{rej} })\) 中的接受和被拒绝报告 \((r_{\mathrm{acc} }, r_{\mathrm{rej} })\) 由模型独立评分,偏好由分数比较决定
    • (3) Pairwise Preference Judgment,其中 \((r_{\mathrm{acc} }, r_{\mathrm{rej} })\) 被共同提供给模型进行直接偏好判断
    • (4) Generated Rubrics,提示模型从 \(q\) 生成 Query-specific rubrics,然后进行 LLM-based 评估
    • (5) Supervised Fine-Tuning,使用 GPT-5 生成的 rubrics 作为监督目标
    • (6) Reinforcement Learning with Various Rewards,应用 GRPO 时在公式 (1) 中使用不同的 reward 权重配置
  • 对于 DeepResearch Bench,闭源基线的结果直接来自官方排行榜
    • 由于资源限制,作者无法用 Qwen3-30B-A3B 作为 Backbone 复现 DRTulu 系统
  • 作者还比较了 ReAct 和作者的 MaMs workflow
    • 该工具执行基于关键词的搜索并返回完整的检索结果
    • 对于 ReAct 框架,作者提供结果的摘要版本,以防止输出长度问题并确保有效推理
    • 为了公平起见,所有结果均使用具有最佳验证性能的检查点获得

Evaluation on Human Preferences

  • 作者在人类偏好数据集的测试集上报告结果(表 1),这直接解决了 RQ1
  • 可以得出几个关键观察结果:
    • (1) 基于 Query-specific rubrics 的方法持续优于依赖人类定义的通用 rubrics 的方法
      • 如表 1 的第一部分所示,通用 rubrics 产生了接近随机的偏好准确度和较小的效应量,而生成的、以 Query 为条件的 rubrics 显著提高了偏好准确度和配对 Cohen’s \(d\)
      • 这证实了在下游训练中,纳入 Query-specific 评估标准对于提供可靠的 reward 信号至关重要
    • (2) 直接应用强大的 LLM(如 GPT-5)生成 rubrics,或对此类 rubrics 进行监督微调,并不足以捕捉细粒度的人类偏好
      • 尽管这些方法在偏好准确度上取得了提升,但其配对 Cohen’s \(d\) 仍然相对较小,并且在接受和被拒绝报告之间没有表现出明显的分离,这表明与人类偏好边际的对齐有限
    • (3) 基于偏好的奖励进行强化学习,在两个 Qwen Backbone 上都显著提高了配对 Cohen’s \(d\)
      • Cohen’s \(d\) 的增加反映了接受和被拒绝报告之间评分差距的增大,表明模型在区分人类偏好的报告方面变得越来越好
      • 此外,使用混合奖励的 RL 取得了最佳的整体性能,结合了强劲的偏好准确度和持续较大的效应量,展示了整合偏好信号与辅助奖励分量的互补优势

Results on DeepResearch Bench

  • 通过表 2,作者可以回答 RQ2 和 RQ3
  • First:比较相同 Tongyi-DeepResearch Backbone 下不同的 rubrics 策略,作者观察到使用 RL 训练的 rubric generator 在所有评估维度上持续取得最佳性能
    • 它明显优于人类定义的通用 rubrics、GPT-5 生成的 rubrics 和 SFT 训练的 generator,这表明所提出的 rubric generator 为训练 DeepResearch agent 提供了更可靠和信息丰富的 reward 信号
    • 这验证了 RQ2,表明通过强化学习学习 rubrics 相比静态或纯监督的替代方案能产生更有效的监督
    • 如表所示,Tongyi-DeepResearch 比 Qwen3-30B-A3B 表现出更强的工具调用和执行能力,但在报告生成方面不如 WebWeaver agent 专业
      • 这使其成为作者研究的合适 Backbone ,因为它使作者能够更好地检验 rubrics 学习和 workflow 设计的有效性,而不是依赖强大的内在生成能力
  • Second:配备所提出 MaMs 的模型在相同的 rubrics 策略下,持续优于其 ReAct-style 的对应物
    • 特别是,配备 MaMs workflow 和 RL 训练的 rubric generator 的 Tongyi-DeepResearch,在所有开源方法中取得了最强的整体性能,在全面性、遵循指令性、可读性和总体得分上均有明显提升
    • 这些结果表明,将研究过程明确构建为一个以状态为条件的 workflow,相比传统的 ReAct 范式,能够实现更有效的推理和信息整合,从而回答了 RQ3

Analysis on Entropy over Two RL Algorithms

  • 由于 Qwen3-30B-A3B 是一个 Mixture-of-Experts 模型,在训练期间应用 GRPO 可能会引入用于优化的 expert routing 与用于 rollout 的 expert routing 之间的不匹配
  • 为了缓解这个问题,作者额外探索了 GSPO (2025) 来训练 rubric generator
  • 尽管 GSPO 和 GRPO 共享相同的训练配置,但作者观察到,使用 GSPO 训练的 rubric generator 持续产生具有更高熵的 rollout,如图 3 所示,尽管在生成的样本上取得了几乎相同的 reward 值
  • 作者将此行为归因于 GSPO 的序列级优化方案,其中重要性权重和裁剪是在整个响应而非单个 token 上执行的
  • 这种设计降低了对局部 token 级偏差的敏感性,并允许多个具有相似全局 reward 的实现共存,从而增加了输出多样性
  • 相比之下,GRPO 在整个 rollout 上应用组间相对优势,但依赖于 token 级的似然比,这隐含地施加了更强的结构约束
  • 鉴于 rubrics 生成优先考虑稳定性、一致性和偏好对齐,而非语言多样性,作者采用 GRPO,因为它更符合任务的模式寻求性质
  • 使用 GSPO 训练的 rubric generator 的性能在附录 G 中报告
  • 关于工具调用行为的额外分析在附录 H 中提供

补充:Related Work

DeepResearch Agent

  • LLMs-based 智能体系统对静态内部知识的依赖,促使了结合规划、检索和基于证据综合的深度研究智能体的出现
  • 现有的 DeepResearch 智能体可以根据其主要任务领域大致分类
短格式问答
  • 在此设置中,DeepResearch 智能体主要针对基于检索的短格式问答任务
  • GAIA (2023; 2025)、BrowseComp (2025; 2025) 和 HLE (2025) 等基准提供了可验证的目标,使得能够通过 RLVR (2025; 2025a) 进行智能体训练
  • 一些系统利用这种范式来增强搜索和推理能力
  • Search-R1 (2025) 和 WebExplorer (2025a) 采用 GRPO (2024b) 来改进在具有明确正确性信号的短格式 QA 任务中的检索效果
  • 相比之下,WebThinker (2025a) 采用 DPO (2023) 来使 LLMs 具备 DeepResearch 能力,而不依赖于可验证的奖励
  • 同时,Tongyi DeepResearch (2025) 专门设计用于支持长程信息寻求行为
长格式报告生成
  • 长格式报告生成要求智能体从大规模、异构的文档集合中综合证据,并为复杂的、开放式 Query 生成连贯、结构良好的报告
  • 除了检索孤立的事实外,智能体必须执行多步推理、调和相互矛盾的证据,并在文档级别组织信息
  • 由于缺乏参考答案,评估长格式输出本身就存在困难,因此该领域的基准(例如 DeepResearch Bench (2025) 和 ResearchQA (2025))通常将 LLM-as-a-Judge ,应用于人工 Annotations 的通用或 Query-specific Rubric
  • 最近的研究集中于设计用于报告合成的端到端工作流
  • Web-Weaver (2025b) 开发了一个模拟协作人类研究过程的双智能体框架
  • Dr Tulu (2025a) 是最早的用于长格式任务的全开源 DeepResearch 智能体之一

Rubrics for Reward Modeling

  • 为长格式报告生成训练智能体本质上涉及弱监督,因为明确的标准答案报告很少可用,并且正确性无法简化为可验证的目标
  • 先前的工作通常依赖于人类偏好 Annotations 或 Rubric-based 评估来评估报告质量,这对训练稳定性和与人类判断的对齐都带来了挑战
  • 现有方法:
    • 一些研究探索了使用固定 Rubric (2024; 2024; 2024a) 以及 Query-specific Rubric (2025a; 2025) 来为长格式输出提供评估反馈
    • 一些研究 (2024b; 2025b; 2025; 2025) 进一步将 Rubric 视为强化学习框架内的奖励模型
  • 本工作专注于通过 Rubric Generator 为训练 DeepResearch 智能体使用 RL 生成长格式报告提供有原则的奖励信号
  • 作者的目标:
    • 学习一个能够生成 Query 感知评估标准的 Rubric Generator ,通过在 RL 训练期间提供细粒度和可解释的奖励信号 ,实现更稳定的优化和更好的人类偏好对齐

附录 A:Case Study on Query Rewriting

  • 作者创建的 Query 集涵盖了与 DeepResearch 场景相关的广泛领域
  • 高频类别包括 Law & Regulation 、Business & Finance 、Science & Technology 以及 Health & Medical Care ,这反映了需要进行多步推理和证据合成的常见研究型信息需求
  • 该数据集还包含多样化的中低频主题,例如 Media & Entertainment 、Daily Life 、Education 、Arts 和 Trending News ,以及包括 Academic Literature 和 Job & Career 在内的长尾领域
  • 这种分布反映了 DeepResearch 系统的真实使用模式,支持了对异构报告生成任务中人类偏好的研究

Query 改写的案例研究

  • Original Query:
    • 在《爱丽丝梦游仙境》中,启发柴郡猫的真实猫品种最常见的眼睛颜色是什么?
  • DeepResearch-style Query:
    • DeepResearch 风格 Query :请对《爱丽丝梦游仙境》中的柴郡猫进行研究:确定最可能作为其灵感来源的现实世界猫品种,并总结该品种最常见的毛色以及每种毛色通常关联的眼睛颜色

附录 B:Global Algorithm of the MaMs workflow

  • 算法 1 中展示了详细的算法描述

附录 C:MaMs 工作流和 LLM-as-a-Judge 中使用的 Prompt

  • 对于每个 prompt,作者都有中文和英文版本,因为问题数据集是双语的
  • 这里仅展示英文版本,而相应的中文版本包含在补充材料中
    • 问题:补充材料没有找到

C.1. 用于生成 Query-Specific Rubrics 的 Prompt

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    您是一位专业的 Rubric 写作专家。您的任务是基于给定的 **report-generation query** 生成一套连贯且自包含的评估 Rubrics,该 Rubrics 将用于评估生成响应(即报告)的质量

    由于未提供参考答案,您必须 **直接从 Query 中推断理想答案的特征** ,包括其目标、结构、信息覆盖范围和表达要求

    评估 Rubrics 应包括但不限于以下方面:
    * 内容的事实相关性和准确性
    * 报告的结构和逻辑组织
    * 信息的完整性和深度
    * 推理和论证的合理性
    * 表达的清晰度和连贯性
    * 语气和风格相对于报告意图(例如,总结、分析、建议)的适当性

    每个 Rubric 条目必须是 **自包含的 (self-contained)** ,以便非专业读者无需额外上下文即可独立理解。每个描述必须以以下前缀之一开头:
    * **关键标准 (Key Criterion):**
    * **重要标准 (Important Criterion):**
    * **可选标准 (Optional Criterion):**
    * **错误标准 (Error Criterion):**

    ### Input:
    * Query : 报告生成请求的完整文本

    ### Number of Rubric Items
    * 根据 Query 的复杂性,在 7 到 20 个 Rubric 条目之间选择

    ### Each rubric item must include:
    * 'title' (2-6 个单词)
    * 'description': 一个句子,以类别前缀开头,并明确指出应在生成报告中观察到的内容**
    * 'weight': 一个数值
    * 关键/重要/可选标准的值为 1-5 (5 = 最重要)
    * 错误标准的值为 -1 或 -2(表示惩罚)

    ### Category Definitions
    * **Key Criterion:** 必须存在的核心事实、结构或目标;缺少它们会使答案无效 (weight = 5)
    * **Important Criterion:** 显著影响质量的关键推理、完整性或清晰度 (weight = 3-4)
    * **Optional Criterion:** 风格或深度相关的增强 (weight = 1-2)
    * **Error Criterion:** 常见的错误或遗漏,明确指示‘缺失’或‘不正确’的元素 (weight = -1 或 -2)

    ### Additional Guidelines
    如果报告应包含结论或建议,请包括:'Key Criterion: 包含由证据支持的清晰结论。' 如果报告需要解释或推理,请包括:'Important Criterion: 解释关键点背后的推理并提供支持性论证。' 如果报告需要清晰的结构,请包括:'关键标准 (Key Criterion): 使用清晰的章节和逻辑流程组织内容。' 如果报告有特定的语气(例如,学术、政策导向、商业),请包括:'Important Criterion: 保持与报告上下文一致的专业和客观语气。' 如果需要简洁性,请包括:'Optional Criterion: 保持简洁并避免冗余。'

    ### Output Requirements
    输出格式为 JSON 数组:[..], [..], [..],其中每个对象对应一个 Rubric 条目。每个 JSON 对象 **必须仅包含 (must contain *only*)** 三个键:'title', 'description' 和 'weight'。不要包含任何额外的键或复制 Query 的大部分内容。每个 'description' 必须以所需的类别前缀之一开头。**Important formatting rule:** 如果 'title' 或 'description' 中需要引号,**仅使用单引号 ('')** 。请勿使用双引号 (" "),因为它们会破坏 JSON 格式。例如:使用 'Michelin star' 而不是 "Michelin star"

    ### Summary
    您的任务是 **仅从给定 Query 推断理想报告的基本特质 (infer the essential qualities of an ideal report solely from the given query)** ,并构建一个结构化的、带权重的 JSON 格式 Rubric,以评估报告生成质量

    **Return *only*** 所请求的 JSON 数组。请勿包含任何额外的解释或文本

C.2. 通过 LLM-as-a-Judge 为单个 Rubric 给报告评分的 Prompts

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    您是一个精确且公正的评分模型

    您的任务:仅基于给定的单个 Rubric 描述,评估一份报告与该 Rubric 的符合程度

    **Input Information**
    Query : {query}
    Rubric: {rubric}
    Report to be scored: {report}

    **Scoring Instructions**
    您只需要判断报告“匹配” Rubric 描述的程度。请勿判断 Rubric 是代表积极目标还是消极约束。请勿尝试反转或纠正 Rubric 的语义方向。请勿引入任何额外的评估标准

    **Scoring Requirements**
    - 输出一个 1 到 10 的整数分数:
    - 10 = 报告完全符合 Rubric 描述
    - 7-9 = 大体符合
    - 4-6 = 部分符合
    - 1-3 = 基本不符合

    **Output Format** (严格,单行,无标点): rating: <1 到 10 的整数>

C.3. 用于 LLM-based Judgement of Rubrics 的 Prompts

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    您是一个准确且公正的评分模型(Reward Model)。您的任务是评估 **Rubrics**(evaluation criteria)的质量。Rubric 是用于评估模型生成答案质量的一套标准。您需要判断给定的 Rubric 是否合理、全面以及与任务目标对齐

    基于以下信息,您应评估 Policy model 生成的 Rubric(response)与您的标准的匹配程度

    **[Input Information]**
    Question: {question}
    待评估的 Rubric (response): {response}

    **[Scoring Requirements]** 您必须输出三项内容:
    1. **[reward]** : 一个范围在 0.00 到 4.00 的小数(最多两位小数)
    * 4.00 = 高质量:结构清晰、维度全面、逻辑严谨、与问题高度契合
    * 3.00 = 基本合理:覆盖了关键维度,但存在轻微遗漏或表达不够简洁
    * 2.00 = 部分合理:涵盖了一些重要方面,但缺乏关键元素或存在显著逻辑缺陷
    * 1.00 = 弱相关:与任务相关性低或存在严重格式问题
    * 0.00 = 完全不相关或无意义:不符合评估目的或为空/乱码
    2. **[confidence]** : 您对分数的置信度 (0%-100%)。数值越高表示越确定
    3. **[reason]** : 对评分理由的简要解释

    **[Important Note]** 您正在评估的是 **Rubric 本身的设计质量** ,而非任何报告或答案的质量

    **[Output Format]** (严格三行,无标点):
    reward: <0.00 到 4.00 之间的小数>
    confidence: <0% 到 100% 之间的整数百分比>
    reason: <英文简要解释>

C.4. MaMs 工作流中 Search Agent 的 System Prompt

  • 原始论文英文版(大致重写翻译为中文)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    您是一位能够生成高质量深度研究报告的智能助手。您的目标是通过多个“计划-执行-观察”循环来解决复杂的用户问题

    1. **Analyze State:** 审查当前的 <memory>(已获取的信息)和 <plan>(当前进度)
    2. **Develop Strategy:**
    * 如果信息不足或计划不完整 -> 更新计划并使用工具(例如,搜索)来收集信息
    * 如果信息充足且计划完整 -> 整理您的思路并输出最终报告
    3. **Output Specifications:**
    * 更新计划表 <plan>...</plan>: 标记已完成的项目并列出来完成的任务
    * 最终动作:要么调用工具,要么输出 <answer>...</answer>

    ### Annotations (Notes)

    * **Plan:** 必须是一个 Markdown 列表,清晰地显示当前和即将进行的步骤
    * **Answer:** 仅当您确信所有必要信息都已收集时,才生成 <answer>...</answer>

    **Tool Instructions:** {tool description}
    • 注意:这里仅仅是 System Prompt

C.5. MaMs 工作流中 Search Agent 的 User Prompt

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    <user_input> { { query } } </user_input>

    <memory> { { memory } } </memory>

    <plan> { { plan } } </plan>

    <report> { { report } } </report>

    剩余工具调用次数: { { tool_call_chance } }

    基于当前状态(Memory/Plan)和 <report> 的完整性,计划下一步动作

    如果当前 <report> 不令人满意,请继续更新 <plan> 并使用工具进行搜索

    如果认为 <report> 已完成,请直接输出 <answer>...</answer> 以结束

    严格遵守输出格式:

    <plan>更新的执行计划</plan>

    <tool_call>工具调用详细信息(如果有)</tool_call> 或 <answer>结束</answer>

    当工具调用动作的计数达到阈值(默认为 10)时,作者将 User Prompt 更改为:

    工具调用次数已用尽

    基于以下信息:

    <user_input> { { query } } </user_input>

    <memory> { { memory } } </memory>

    <plan> { { plan } } </plan>

    列出您的最终计划。请勿再次调用工具

C.6. MaMs 工作流中 State Agent 的 System Prompt

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    您是一位信息处理专家,负责维护一个“long-term memory”数据库。您当前正处于分块阅读长文本的多步骤过程中

    ### Task Objective

    在阅读完当前的“Observation Fragment”后,您需要 **incrementally merge** 新发现的信息到现有的 **memory** 中

    注意:输入的记忆(*memory)包含所有先前积累的关键信息。**当通过压缩进行更新时,细节很容易丢失,因此您必须采取一切措施防止这种情况发生。**

    ### Core Principles
    1. **Preserve Old Memory (Most Important):**
    * 输入的记忆(*memory)中未被当前片段提及的信息 **必须被保留**
    * 不要仅仅因为信息在当前片段中缺失就从记忆中删除它
    2. **Incremental Integration:**
    * 仅将来自当前片段的 **新** 事实、数据或见解添加到记忆中
    * 如果新信息更正了旧信息,则修改它;如果是冗余的,则忽略它
    3. **Maintain High Density:**
    * 记忆应是一堆“事实(pile of facts)”,而不是文章摘要
    * 保留具体的数字、名称、日期和参考文献。不要写“关于 XX 的详细讨论”;而应写“XX 声明了 YYY”

    ### Steps
    1. 阅读输入的 *memory*(旧知识)
    2. 阅读下面的“工具输出(Tool Output)”(新片段)
    3. 输出新的 *memory*:它 = 旧记忆 + 来自片段的新知识

    ### Output Format
    严格遵守此格式,以便在下一个决策步骤中使用:<memory>整合新旧信息的更新后记忆</memory>

C.7. MaMs 工作流中 State Agent 的 User Prompt

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    <user_input> { { query } } </user_input>

    <memory> { { memory } } </memory>

    <plan> { { plan } } </plan>

    请阅读以下工具输出片段。任务:提取关键信息以更新 <memory>

    严格遵守输出格式:<memory>更新后的关键检索信息摘要</memory>

C.8. MaMs 工作流中 Report Agent 的 System Prompt

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    您是一位专业的结构化分析报告写作助手,负责维护一个基于用户输入持续更新的 <report>。您的目标是基于工具提供的信息 **增量更新** 现有的 <report>,**而不引入外部信息**

    ### Workflow

    当您收到用户 Query <user_input>、关键信息摘要 <memory>、执行计划 <plan>、当前轮次的报告 <report> 以及来自工具调用的新信息时,请执行以下步骤:

    1. 分析新信息的类型
    2. 决定新信息是否应包含在更新的报告中
    3. 如果应包含,则更新原始报告:
    * 不要简单地附加新信息;相反,应在保持逻辑流畅的同时补充、纠正或替换内容。避免不必要地扩大内容范围

    ### Core Principles
    1. 仅基于用户提供的信息更新报告:
    * 不要添加外部事实、推测信息、捏造数据或推断的场景。不要推断现实中不存在的任何信息。不要在报告中添加不确定性免责声明
    2. **不要简单地附加新信息 (Do not simply append new information):**
    * 评估新信息是否相关;如果相关,则将其整合到相应的章节中。否则,忽略它。如有必要可以优化结构,但核心内容必须保持稳定
    3. 保持逻辑一致性:
    * 如果新信息与现有报告冲突,请根据当前知识仔细决定是否替换旧信息。报告中不得包含矛盾的陈述

    ### Report Requirements
    1. 以 Markdown 格式输出 <report>
    2. 确保 <report> 具有清晰的结构、严谨的逻辑和高可读性
    3. 在 <report> 末尾,列出所有必要的参考文献或来源(每个编号,提供完整引用),避免重复
    4. 引用格式规则:
    * 在报告正文中,可以使用上标引用,例如,“<sup>[1]</sup>”。如果使用上标,则必须在“参考文献 (References)”部分包含相应的条目。上标必须紧跟在被引用的名词或术语之后,而不是句子的开头。正确示例:“...该法律<sup>[1]</sup>规定...”,“《民法典》第 1 条<sup>[4]</sup>”

    ### Output Format

    严格遵守此格式:

    <report>完整的报告内容</report>

C.9. MaMs 工作流中 Report Agent 的 User Prompt

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    <user_input> {query} </user_input>

    <memory> {memory} </memory>

    <report> {report} </report>

C.10. ReAct 工作流中的 System Prompt

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    1. 仔细阅读和分析用户的问题,思考用户需要什么信息
    2. 通过将用户的问题分解为多个子问题来制定详细的研究计划。如有必要,进一步分解子问题,直到每个问题足够简单。对于每个分解的问题,创建一个搜索计划
    3. 在与计划制定的同一轮中,执行第一轮工具调用。为提高效率,每条消息最多可以生成 { {max_tool_call_cnt_per_round} } 个工具调用
    4. 进入“计划修订 - 搜索”循环。每次迭代:(1) 整理搜索工具返回的结果。考虑哪些信息仍然缺失,是否需要探索新的线索。如果需要,修订您的搜索计划,并确保其涵盖所有潜在的用户关切,必要时添加补充搜索。(2) 检查最新的搜索计划是否仍包含需要搜索的问题。如果有,生成新一轮的工具调用,同样每条消息最多 { {max_tool_call_cnt_per_round} } 个。然后等待搜索结果。(3) 如果在步骤 (2) 中您确定搜索计划已完成,并且有足够的信息来撰写报告,则通过逻辑推理(而不是罗列事实)将搜索结果综合成一份全面且有见地的报告。不要执行进一步的工具调用;过程将自动结束

    **Requirements**
    1. 强制性工具调用:在研究进行期间,每条助手消息 **必须包含 tool_calls** 。如果回复只包含文本而没有工具调用,则认为任务已完成
    2. 多轮限制:在 { {max_turn} } 轮内完成所有研究,即最多 { {max_turn} } 条消息
    3. 每轮调用限制:每条消息最多生成 { {max_tool_call_cnt_per_round} } 个工具调用
    4. 搜索广度:在制定或修订搜索计划时,考虑与研究问题相关的所有可能方向,并尽可能收集更多的信息和细节
    5. 搜索深度:不要只搜索“它是什么”;关注“为什么”和“它如何工作”。对于关键现象,探索其潜在机制或更深层原因。如果当前搜索结果提到一个关键概念、技术或矛盾,优先在下一轮中调查它,而不是转向平行主题。避免在深度追踪上浪费太多轮次
    6. 报告要求:
    * 避免信息倾倒:报告可以分章节,但严格避免在未进行综合的情况下罗列检索到的事实。报告的核心价值在于将碎片化信息转化为逻辑相连、系统性的论述
    * 逻辑完整性:每个要点都必须有完整的论证弧:陈述核心结论 -> 提供具体证据(例如,数据、案例、细节) -> 解释潜在机制或相关性(即,为什么或它意味着什么)
    * 实质内容:避免空洞的形容词(例如,“高度有效”、“有前景”)。使用来自搜索结果的具体技术参数、定量指标、监管细节或专家意见
    * 多维视角:对于复杂问题,从多个维度(例如,原因分析、风险评估、长期影响、技术路径比较)进行分析,确保每个维度都有足够的支持

    **Citation Standards**
    1. **In-text citations:** 在报告正文中使用上标格式,例如,“这是一个重要结论<sup>[1]</sup>。”
    2. **Reference List:** 在报告末尾列出所有参考文献。包含 **完整的文章标题和 URL** 。如果搜索结果未提供 URL,则仅包含标题。格式:[1] 文章标题 - URL [2] 文章标题 - URL
    3. **Ordering:** 按参考文献在文本中首次出现的顺序编号
    4. **Deduplication:** 如果同一来源被多次引用(即使跨轮次),请合并为一个条目,使用相同的编号;不要重复
    5. **Source Extraction:** 将搜索结果摘要中格式为 [标题: xxxx] 的标题直接用作参考文献名称。

    **Tool Instructions:** {tool description}

C.11. 用于 Pairwise Preference Judgment 的 Prompt

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    请扮演一个公正的法官,评估两位 AI 助手对下面显示的用户问题所提供回答的质量。您应该选择更能遵循用户指示、更好地回答用户问题的助手。您的评估应考虑诸如帮助性、相关性、准确性、深度、创造性和回答的详细程度等因素。在开始评估时,请先比较两个回答,并提供简短的解释。避免任何位置偏见,并确保回答的呈现顺序不影响您的决定。不要让回答的长度影响您的评估。不要偏袒特定助手的名称。尽可能客观

    User Question: {question}

    {The Start of Assistant A's Answer} {answer_a} {The End of Assistant A's Answer}

    {The Start of Assistant B's Answer} {answer_b} {The End of Assistant B's Answer}

    请严格遵守以下格式输出您的最终裁决:如果助手 A 更好,则输出 "[[A]]";如果助手 B 更好,则输出 "[[B]]"

C.12. 用于 Pointwise Preference Scoring 的 Prompt

  • 原始论文英文版(大致重写翻译为中文)
    1
    2
    3
    4
    5
    6
    7
    请扮演一个公正的法官,评估 AI 助手对下面显示的用户问题所提供回答的质量。您的评估应考虑诸如帮助性、相关性、准确性、深度、创造性和回答的详细程度等因素。您应该给出一个 1 到 10 的分数,其中 1 是最差,10 是最好

    用户问题 (User Question): {question}

    {助手回答开始 (The Start of Assistant's Answer)} {answer} {助手回答结束 (The End of Assistant's Answer)}

    请严格遵守以下格式输出您的最终裁决:"[[score]]",例如 "[[8]]"

C.13. DeepResearch Bench 的 Prompts

  • 用于在 DeepResearch Bench 上评估生成报告的 prompts 直接采用 GitHub 上发布的官方 prompts github.com/Ayanami0730/deep_research_bench/tree/main/prompt

附录 D:Implementation Details

  • 训练代码基于后训练框架 slime (2025)
    • 该框架利用 Megatron (2019) 作为训练后端,SGlang (2024) 作为推理后端
    • 注意:该框架的 Megatron 优化器配置有一个 关键更新,以确保在强化学习时正确训练 MoE 模型
  • 表 3 展示了训练 Rubric Generator 的超参数,表 4 展示了基于 Tongyi-DeepResearch 训练 DeepResearch Agents 的超参数
  • 对于评估,作者遵循官方 DeepResearch Bench 协议,并采用 Gemini-2.5-Pro 作为 LLM-as-a-Judge
  • 在强化学习期间,设置如下:
    • Rubric 评分使用 Qwen3-235B-A22B
      • Temperature 为 0.3,top-p 为 0.95
      • 通过 Yarn RoPE 缩放 (2024) 启用最大上下文长度为 131,072 个 Tokens
    • 除另有说明外,公式 (1) 中的权重系数 \(\lambda_{\mathrm{pref} }\) 和 \(\lambda_{\mathrm{llm} }\) 均设置为 1
    • 所有策略模型,包括 Rubric Generator 和 DeepResearch agents,均使用 64k Token 的上下文长度、温度为 1.0 和 top-p 为 1.0 进行训练
    • 对于 DeepResearch agents,最大交互轮数设置为 10,每轮最多允许 5 次工具调用

附录 E:Metrics for Human Preference

  • 使用两个互补的指标评估偏好建模的性能
  • 给定一个偏好数据集 \(\{(q_{i},r_{\mathrm{acc} }^{(i)},r_{\mathrm{rej} }^{(i)})\}_{i = 1}^{N}\) 和标量分数 \(S(\cdot)\)
  • 报告偏好准确率 (preference accuracy) 定义为:
    $$\mathrm{Pref.Acc.} = \frac{1}{N}\sum_{i = 1}^{N}\mathbb{I}\Big[S\Big(r_{\mathrm{acc} }^{(i)}\Big) > S\Big(r_{\mathrm{rej} }^{(i)}\Big)\Big], \tag{6}$$
  • 这等价于成对偏好判断的 ROC 曲线下面积 (AUC)
  • 为了进一步量化偏好分离的幅度和稳定性,作者报告了配对科恩 d 值 (paired Cohen’s \(d\)) (2010)
    • 令 \(\Delta_{i} = S(r_{\mathrm{acc} }^{(i)}) - S(r_{\mathrm{rej} }^{(i)})\) 表示 Query \(q_{i}\) 的分数差异;
    • 配对效应量定义为:
      $$\mathrm{Cohen’s}\ d = \frac{\mathbb{E}[\Delta]}{\sqrt{\mathrm{Var}(\Delta)} }. \tag{7}$$
  • 偏好准确率(AUC)反映了排序的正确性,而配对科恩 d 值则捕捉了 Query 层面分数分离的标准化强度,提供了对偏好质量的补充视角

附录 F:Rollout Speed-up for MaMs workflow

  • 为了应对顺序处理中固有的延迟瓶颈,特别是在 I/O 密集型 LLM 交互中,作者在 MaMs 工作流中引入了并行执行机制
  • 基线实现,称为朴素线性 Pipeline (Naive Linear Pipeline),按顺序通过一系列 agents 处理整个数据集 \(\mathcal{D}\)
    • 在此模式下,总执行时间 \(T_{naive}\) 是所有样本处理时间的总和,网络延迟会线性累积
  • 为了优化效率,作者开发了线性并发 Pipeline (Linear Concurrent Pipeline),它通过异步微批处理 (asynchronous micro-batching) 实现了数据并行
    • 该 Pipeline 将 agent 执行流分为三个阶段:预处理、并发执行和后处理
    • 加速集中在并发阶段,其中输入数据集 \(\mathcal{D}\) 被划分为一系列微批次
      $$ B = \{b_{1},b_{2},\ldots ,b_{m}\}$$
      • 每个批次具有可配置的大小 \(S_{micro}\)
  • 利用一个事件循环 (event loop) 来管理一组受并发限制 \(C\) 约束的异步任务,调度算法如下:
    • 1)一个滑动窗口 (sliding window) 维护一组活动任务 \(\mathcal{T}\),确保 \(|\mathcal{T}| \leq C\)
    • 2)只要活动任务槽位可用 (\(|\mathcal{T}| < C\)),新的微批次就会出队,并使用 asyncio 立即生成相应的 agent 任务
    • 3)任务完成后,结果通过回调收集到同步队列 (synchronized queue) 中,窗口向前滑动以接纳待处理的微批次
  • 如图 4 所示,通过在多个微批次上重叠高延迟的 API 调用,该框架显著提高了资源利用率
    • 这种方法有效地防止了阻塞操作,将并发阶段的理论时间复杂度从 \(O(|\mathcal{D}|)\) 降低到大约 \(O(|\mathcal{D}| / C)\),主要受外部 API 速率限制而非本地执行速度的限制

附录 G:The rubric generator trained by GSPO

  • 本节将在表 5 中展示由 GSPO 训练的 Rubric Generator 的偏好准确率 (AUC) 和配对 Cohen’s d 值
  • 如第 4.4 节所述,与 GRPO 训练的对应模型相比,由 GSPO 训练的 Rubric Generator 展现出显著更高的 Rollout 熵 ,这对于我们的设置是不利的
    • 因此作者采用 GRPO 来训练 Rubric Generator

附录 H:Analysis on Tool Calling

  • 如附录 D 所述,在 ReAct 和 MaMs 框架下训练 DeepResearch agents 期间,最大交互轮数设置为 10,每轮最多允许五次工具调用
  • 表 6 报告了作者在 DeepResearch Bench 上训练的 DeepResearch 系统的每个样本的交互轮数和工具调用统计
  • 符合预期,在 agentic 数据上训练的 Tongyi-DeepResearch 模型 (2025) 展现出比普通的 Qwen3-30B-A3B(指令调优)模型更强的工具使用和交互能力
  • 另外,在 MaMs 工作流下训练的 DeepResearch 系统比遵循 ReAct(先搜索后生成)范式的系统表现出更优的交互性能

附录 I:Case Study of Rubric List

  • 作者在原始论文中展示了一个问题的 Rubric 列表案例:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    {
    "question": "Please generate an analysis report on common network failures.",
    "rubrics": [
    {
    "title": "Coverage of Common Failures",
    "description": "Key criterion: The report must identify and describe multiple common types of network failures, such as DNS issues, IP address conflicts, or physical connection interruptions.",
    "weight": 5
    },
    {
    "title": "Inclusion of Core Analysis",
    "description": "Key criterion: The report must analyze each mentioned network failure rather than merely listing their names.",
    "weight": 5
    },
    {
    "title": "Clear Structure",
    "description": "Key criterion: The report should have a clear organizational structure, such as an introduction, categorized analysis of different failures, and a conclusion.",
    "weight": 5
    },
    {
    "title": "Analysis of Causes and Symptoms",
    "description": "Important criterion: The report should explain the typical symptoms and possible causes of each network failure, establishing a clear causal relationship.",
    "weight": 4
    },
    {
    "title": "Provision of Troubleshooting Methods",
    "description": "Important criterion: The report should provide concrete and actionable troubleshooting steps or solution suggestions for each type of failure.",
    "weight": 4
    },
    {
    "title": "Clear and Understandable Explanation",
    "description": "Important criterion: When explaining technical concepts (such as DNS or IP addresses), the report should strive to be clear and accurate so that nonexpert readers can understand it.",
    "weight": 3
    },
    {
    "title": "Professional and Objective Tone",
    "description": "Important criterion: The report should maintain a professional and objective tone, avoiding overly colloquial or subjective expressions.",
    "weight": 3
    },
    {
    "title": "Systematic Classification of Failures",
    "description": "Optional criterion: The report may systematically categorize network failures based on their nature (e.g., hardware, software, configuration issues) to enhance clarity.",
    "weight": 2
    },
    {
    "title": "Inclusion of Preventive Measures",
    "description": "Optional criterion: The report may further propose preventive measures and best practices to avoid common network failures.",
    "weight": 2
    },
    {
    "title": "Use of Concrete Examples",
    "description": "Optional criterion: The report may use concrete scenarios or cases to illustrate failure phenomena and solutions, improving readability.",
    "weight": 1
    },
    {
    "title": "Technical Errors",
    "description": "Error criterion: The report provides incorrect technical explanations, causes, or solutions that may mislead readers.",
    "weight": -2
    },
    {
    "title": "Listing Without Analysis",
    "description": "Error criterion: The report merely lists failure names without providing any analysis of causes, symptoms, or solutions.",
    "weight": -2
    },
    {
    "title": "Inclusion of Irrelevant Information",
    "description": "Error criterion: The report includes content unrelated to common network failures, such as in-depth discussion of unrelated software programming errors.",
    "weight": -1
    }
    ],
    "topic": "Science & Technology",
    "rubric_count": 13
    }

附录 J:Limitations and Future work

J.1 Limitations

  • query-specific rubric Generator 在 DeepResearch 场景中表现出与人类偏好的高度一致性,但仍存在一些局限性
  • First,偏好数据集的构建依赖于两个候选报告之间的成对比较,这可能无法完全捕捉现实世界评估场景中出现的更细粒度或多路偏好结构
  • Second,尽管混合奖励结合了人类监督和 LLM-based Rubric 评估,但它可能仍然难以全面评估新颖性、创造性或推理深度等方面,因为这些品质本质上是主观的,并且很大程度上依赖于底层 human-LLM 反馈的校准
  • Third,实验主要集中在作者创建的固定 DeepResearch 风格任务和文档集合上,并未广泛探索所学习的 Rubric 生成策略对显著不同报告格式或领域的泛化能力

J.2 Future Work

  • 有几个方向为未来研究提供了有前景的机会
  • First,可以将偏好表述扩展到超越成对比较,以利用更丰富的偏好信号,例如排名或分级分数,从而能够更细粒度地学习人类偏好
  • First,未来的工作可以专注于改进对新颖性、创造性和推理深度的评估,例如,通过结合更复杂的 LLM 评估和针对性的人类反馈来减少主观性并提高可靠性
  • Third,开发更原则性的方法来减少对基于 LLM 评估的依赖,可能通过自一致性检查或人-LLM 混合验证,可以增强训练过程的稳定性和可解释性

NLP——LLM对齐微调-Rationale-Consistency

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Rationale Consistency)Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models, 20260204, Qwen Team & Fudan & THU

Paper Summary

  • 总结(TLDR):
    • 作者的发现(整篇文章都围绕这个主题):使用结果监督(outcome supervision) 信号的方法(GenRM 和 LLM-as-a-Judge)可能存在 欺骗性对齐 (deceptive alignment) 问题
    • 指标贡献:论文提出了一个新的指标 推理一致性 (Rationale Consistency) (可使用 MetaJudge 测量这个指标)
      • 这个指标有效暴露了欺骗性对齐,并区分了强大的模型
    • 方法贡献:在 GenRM 训练期间添加推理监督(作为结果监督信号的辅助信号),可显著提高 GenRM 性能
    • 缺陷:本文提出的方法实在 Pairwise 的数据上训练的,且模型也是 Pairwise 的,不是 Pointwise,难以在现实场景中使用,比如采样 8 个 Rollout 时,两两比较需要 28 次,除非使用其他已有的研究方案缓解这个问题(比如降低到 7-8 次)
      • 但是效率也远远低于 Pointwise 方案
    • 注:附录中有大量的 Prompt 和实践经验,值得细读
  • 问题提出:
    • 生成式奖励模型 (GenRMs) 和 LLM-as-a-Judge 模型都因其训练和评估都优先考虑结果准确性 (Outcome Accuracy)
      • 这会导致基于错误的原因做出正确判断,表现出欺骗性对齐 (deceptive alignment) (理解:其实就是 Reward Hacking 的一种情况)
  • 解决方案:
    • 第一:作者提出一种细粒度的度量标准:推理一致性 (Rationale Consistency) ,用于量化模型推理过程与人类判断之间的一致性
      • (SOTA LLM 上的)实验表明:推理一致性能够有效区分 SOTA 模型并检测欺骗性对齐(结果准确性均不行)
    • 第二:作者引入了一种混合信号 (hybrid signal),将推理一致性与结果准确性相结合,用于 GenRM 训练
  • 在 RM Benchmarks 上的评估:
    • 作者的训练方法在 RM-Bench (87.1%) 和 JudgeBench (82%) 上达到了 SOTA 性能,平均比仅基于结果的基线模型高出 5%
    • 在 RLHF 中使用这个奖励模型,论文的方法有效提升了在 Arena Hard v2 上的表现,特别是在创意写作任务上带来了 7% 的提升
      • 因为避免了欺骗性对齐陷阱,有效逆转了仅结果训练中观察到的推理一致性下降趋势(推理一致性从 \(25%\) 提高到 \(37%\))

Introduction and Discussion

  • 已有现象:奖励模型在静态数据集上取得高准确率,但在 RLHF 过程中无法有效泛化 (2023; 2023; 2024)
    • 作者将此归因于对 outcome supervision 的依赖(模型仅被优化来预测人类标注的二元偏好)
    • 以 outcome supervision 方式训练的模型倾向于学习虚假相关性或捷径 (shortcuts) 以最大化结果准确性,而并未进行真正的推理 (2024; 2020; 2022),从而导致奖励模型的欺骗性对齐 (2019; 2023),即奖励模型因错误的原因预测了正确的标签
  • 作者主张加入推理监督 (rationale supervision) ,以确保奖励模型的推理过程与人类判断相匹配
  • 新指标:推理一致性 ,一种细粒度的评估指标,旨在验证模型的评估过程与人类判断之间的一致性
    • 为了精确测量这一点,作者构建了 MetaJudge 框架,该框架将人类推理分解为互斥的原子单元 (atomic units),提示模型输出相应的推理列表,并使用一个 LLM 执行严格的一对一语义匹配,从而量化模型恢复人类推理的确切比例
  • 作者发现模型的输出正确性与其判断有效性之间存在关键脱节,如图 1 所示
    • 这种脱节体现在两个关键局限性上:
      • (1) 结果准确性掩盖了欺骗性对齐
        • 高结果准确性并不能保证稳健的判断
        • 一个显著的例子是 o3 和 o3-mini 之间的对比:尽管结果准确性相当,但它们的判断逻辑根本不同
        • o3 能识别出类似于人类评审员的、具体的、潜在的缺陷,而 o3-mini 则常常依赖于肤浅、模糊的论证,未能检测到实际缺陷(见表 1)
      • (2) 结果准确性正接近饱和点
        • 结果准确性无法清晰地将前沿模型(如 GPT-5 和 Gemini 3 Pro )与其他被评估模型区分开,而推理一致性则保持了高度的区分度
  • 作者使用一个结合了推理一致性与结果准确性的混合信号,通过 GRPO 来训练 GenRMs
    • 作者实施了分层监督:只有当模型同时提供正确结果和正确推理时,它才会获得奖励
  • 方法的显著增益:
    • (1) 在 RM-Bench (2024b) 上达到 \(87.1%\),在 JudgeBench (2024) 上达到 \(82.0%\)(vs 基线高出 \(3%\) 和 \(7%\));
    • (2) 在 RLHF 中作为奖励模型,进一步提高了在 Arena Hard v2 (2024b) 上的性能,在创意写作任务上带来了 \(7%\) 的提升

MetaJudge

  • MetaJudge 是用于衡量 LLM 判断过程与人类推理之间对齐(即 Rationale Consistency)的框架
  • 注:表 1 是一个具体示例的完整的流程
  • 问题:上述的人类推理是人工写的吗?

Benchmark Construction

  • 作者从 HelpSteer3 (2025c) 构建了一个原子推理基准
    • HelpSteer3 是一个专家标注的人类偏好数据集,涵盖通用对话、代码、STEM 和多语言任务
    • 每个实例包含一个 Query \(x\)、两个回复 \((y_{1},y_{2})\)、详细的人类推理和一个偏好标签 \(l\)
    • 由于自由格式的推理 \(R_{\mathrm{un} }\) 很难与模型生成的理由直接比较,作者应用了一个受先前细粒度评估工作 (2024; 2024) 启发的原子分解 (Atomic Decomposition) 流程
  • 作者从每个领域抽取 250 个示例,并使用 GPT-5 将每个自由格式推理 \(R_{\mathrm{un} }\) 分解为原子推理
    $$ R_{h} = \{r_{1},\ldots ,r_{n}\} $$
    • 分解遵循两个原则:
      • (i) 保留具体的、有证据基础的推理,同时过滤掉通用的主观陈述
      • (ii) 消除冗余,使每个项目形成一个独立的语义单元
    • 作者手动检查了 93 个随机抽样的案例,发现原子推理忠实地反映了原始的人类推理(分解提示词和基准统计数据在附录 A 中提供)
    • 附录 A.3 进一步提供了案例研究,表明该流程有效地生成了基于证据的、非冗余的检查清单,支持高质量的细粒度评估
    • 作者过滤实例以保留 3-7 个批评点,因为作者观察到,拥有过多或过少推理点通常表明是明显低质量的反馈
    • 作者将得到的基准命名为 HelpSteer 3-Atomic
    • 问题:上述得到的 原子认为单做 人类原子推理 使用是吗?
      • 回答:看起来是的
  • 为了进一步加强评估,作者创建了 CW-Atomic,其中人工标注者以相同的原子格式标注了 350 个创意写作样本
    • 每个示例由三位标注者标注;去除标注者之间存在分歧的实例,最终得到 207 个高质量测试案例
    • 关于 CW-Atomic 的标注和构建细节参见附录 B
    • 理解:这里是使用了人工来标注原子推理
  • 值得注意的是,该标注过程并未引入额外负担 ,只是要求标注者将其推理组织成原子化的、有证据基础的格式
    • 最近关于奖励模型标注的研究表明,引出推理是确保标注质量的重要方式:要求标注者提供理由可以鼓励他们更仔细地评估上下文和权衡,从而得到更可靠的结果
      • 理解:这里的意思是,标注者本就要给出理由的
    • 注:本论文的工作进一步表明,这种推理信息也可以用作训练和评估模型的监督信号

LLM-based Semantic Matching

  • 使用一个 LLM 来执行人类原子原因 \(R_{h}\) 与 AI 生成的原子原因 \(R_{ai}\) 之间的细粒度语义匹配
    • 注:这里要求 AI 在给出最终结论前需要按重要性顺序列出原子原因
  • 对于每个人类原因 \(r_i \in R_{h}\),评估者将其与 \(R_{ai}\) 进行匹配,并分配一个满足度分数 \(s_{ij} \in [0, 1]\):
    • 1 表示完全匹配的原因,且关键条件/证据一致
    • 0 表示问题缺失、被反驳,或仅以通用的、非本地化的方式陈述
  • 仅以通用的、非本地化的方式陈述(附录 C.1 提供了提示词模板,附录 C.2 包含了说明详细评估的示例)

Rationale Consistency Metrics

  • 为了防止模型通过生成一个覆盖多个人类原因的宽泛原因来操纵度量标准,作者施加了严格的一对一匹配约束:
    $$S_{\text{total} } = \max_{i,j}\sum_{(i,j)\in \pi}s_{ij} \tag{1}$$
    • 其中 \(\pi\) 是一个匹配集合,使得 \(R_{h}\) 和 \(R_{ai}\) 中的任何原因在 \(\pi\) 中最多出现一次
    • 在此约束下,每个 AI 原因最多只能匹配到一个最佳匹配的人类原因
  • 基于全局最优匹配分数 \(S_{\mathrm{total} }\),作者将推理一致性 (Rationale Consistency) 定义为 \(N\) 个样本上的平均软召回率 (soft recall):
    $$\mathrm{RC} = \frac{1}{N}\sum_{k = 1}^{N}\frac{S_{\mathrm{total} }^{(k)} }{|R_{h}^{(k)}|}. \quad (2)$$
  • 由于不同模型输出的原因列表长度不同,在评估阶段,作者强制所有模型输出一个固定长度的原因列表(例如,Top-5)
    • 这限制了输出预算,以测试模型识别关键原因的能力
    • 注:在训练期间作者不施加此约束

Rationale Consistency Evaluation

Beyond Outcome Accuracy

  • 作者对过去一年发布的 19 个前沿 LLM 进行了大规模评估,使用 Qwen3 Plus 作为 MetaJudge 评估器
  • 图 1 可视化了所有模型在 Helpsteer3-Atomic 基准上结果准确性与推理一致性的性能分布(每个子类别的评估结果见附录 C.3)
  • 虽然结果准确性与推理一致性总体上呈正相关,但通过推理一致性的视角分析模型,揭示了结果准确性未能揭示的两个关键弱点
    • 弱点 1:对前沿模型的区分度有限
      • 在图 1 的绿色区域,推理一致性清晰地分辨出更强的前沿模型(例如,GPT-5, o3, Gemini 3 Pro)和较弱的模型(例如,Claude 3.5, GPT-4.1, Gemini 3 Flash),即使它们达到相似的结果准确性
      • 这表明许多模型可以达到可比的结果准确性,但只有 SOTA 模型才能持续遵循与人类一致的判断逻辑,并产生与人类识别的关键原因相匹配的推理
      • 结论:推理一致性提供了一个更可靠的人类对齐判断信号
    • 弱点 2:欺骗性对齐陷阱
      • 图 1 中出现了一个显著的差异,即“欺骗性对齐陷阱”区域(红色区域),最明显的是同系列模型 o3 和 o3-mini 之间
        • 它们达到了相似的结果准确性,但 o3-mini 的推理一致性低了近 50%
      • 在 Gemini 3 Pro 和 Gemini 3 Flash 之间也观察到了类似的模式:
        • Flash 模型达到了相当的结果准确性,但其推理一致性明显更低
      • 结论:这表明结果准确性无法有效检测欺骗性对齐
  • 作者在表 1 的案例研究中说明了这一差距
    • 尽管 o3-mini 选择了偏好的答案,但其推理与人类推理不匹配
    • 人类和 o3 明确检查了严格的字数限制约束,而 o3-mini 则依赖于表面线索(例如,自我声称的遵守、表情符号),未能验证该约束
    • 这表明模型可能因错误的原因做出正确选择,而仅凭结果准确性,在没有推理一致性的情况下无法检测到这一点
  • 反正,即使是 SOTA 模型,其推理一致性也仅在 0.4 左右,表明在使模型判断逻辑与人类推理对齐方面仍有很大的改进空间
    • 注:使用 LLM 来合成人类偏好存在与人类判断逻辑不匹配的风险!在可预见的未来,要实现与人类的真正对齐,仍然需要人工标注
    • 同意上述结论

Measurement Reliability(专门针对评估的可靠性评判)

  • 作者从两个维度评估推理一致性的可靠性:
    • 对评估器的敏感度(问题:测试推理一致性对评估器模型是否敏感?)
    • 跨领域和标注者的稳健性(问题:测试推理一致性是否能在不同的标注者和领域间泛化?)
    • 结论:作者发现推理一致性可以稳健地进行评估:
      • 分数在很大程度上对评估器模型不敏感,并且能很好地跨领域和标注者群体泛化
  • 结论1:对评估器模型不敏感
    • 由于 MetaJudge 依赖于一个 LLM 评估器,一个关键的担忧是与评估器相关的偏差
    • 作者比较了 Qwen-Plus(一个相对较弱、非推理模型)和 DeepSeek-R1 (2025)(一个更强的推理模型)
    • 如图 2a 所示,它们的分数高度一致 \((R^2 = 0.983\),RMSE \(= 0.006\))
      • 这是可以预料的,因为评估器主要执行原因的语义匹配,这相对轻量级;
      • 即使是一个非推理模型也可以作为一个可靠的评估器,并产生与专家级评审相当的分数
  • 结论1:跨领域和标注者的泛化
    • 为了,作者进一步在创意写作的 CW-Atomic 基准上评估了多个模型,该基准由不同的标注者群体标注,并且与 HelpSteer3-Atomic 相比涵盖了一个新领域。图 2b 显示,模型排名在两个基准之间基本保持一致(斯皮尔曼 \(\rho = 0.85\)),表明推理一致性是稳定的,可以可靠地区分跨领域和标注者池中的强弱模型。同时,推理一致性仍然反映了特定领域的优势(例如,Claude Sonnet 4.5 在创意写作中升至第 1 名),这与先前强调其在创意写作任务上优势的评估一致 (2023)

Generative Reward Modeling Based on Rationale Consistency

  • 仅结果监督无法有效对齐模型的推理过程与人类判断
  • 作者将推理监督纳入 GenRM 的训练中

Training Objective

Outcome Reward
  • 生成式奖励建模主要依赖于结果监督
  • 对于给定的输入 \((x, y_1, y_2)\) 和模型生成的判断 \(y_{\text{outcome} }\),作者将结果准确率奖励 \(R_{\text{outcome} }\) 定义为一个二元信号:
    • 如果模型的预测与人类标注的偏好标签一致,则 \(R_{\text{outcome} } = 1\),否则为 0
Rationale Reward
  • 将模型生成的原子理由序列视为一个有序列表
  • 为了优先考虑与人类对齐的理由的重要性,作者采用平均精度 (Average Precision,AP,2028) 作为推理奖励 \(R_{\text{rationale} }\):
    $$R_{\mathrm{rationale} } = AP = \frac{\sum_{k = 1}^{|R_{\mathrm{ai} }|}(P\oplus k\times \mathbb{I}(k))}{|R_{h}|} \tag{3}$$
    • \(P\oplus k\) 表示在第 k 位的精度
    • \(\mathbb{I}(k)\) 是从图匹配结果导出的指示函数(如果第 k 个理由属于最优匹配集 \(\pi\),则值为 1,否则为 0)
  • 不同于 F1 分数(将输出视为无序集合),AP 的核心优势在于引入了软排序约束
  • AP 不仅要求模型检索全面的理由,还激励将符合人类认知的核心理由放在推理列表的顶部
  • 这为强化学习提供了更平滑、优先级更高的梯度信号
Hybrid Reward
  • 为了解决模型基于错误逻辑预测正确结果的欺骗性对齐问题,作者提出了一个混合奖励函数 \(R_{\text{final} }\):
    $$R_{\mathrm{final} } = R_{\mathrm{rationale} }\times R_{\mathrm{outcome} } \tag{4}$$
    • 这种乘法形式实现了一种门控机制:即使最终结果正确,正确的推理也是获得高奖励的必要条件
Optimization Algorithm
  • 采用 GRPO 来最大化上述奖励
  • 对于每个 Query \(q\),GRPO 采样一组输出 \(\{o_1, o_2, \dots, o_G\}\),并根据组内相对优势来优化策略,目标函数定义如下:
    $$\mathcal{I}(\theta) = \mathbb{E}_{q,\{o_i\} }\left[\frac{1}{G}\sum_{i = 1}^{G}\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\mathrm{old} }(o_i|q)}\hat{A}_i - \beta \mathbb{D}_{\mathrm{KL} }\right)\right] \tag{5}$$
    • \(\hat{A}_i\) 是通过在组内标准化奖励 \(R\) 计算得到的优势
    • \(\beta\) 表示 KL 散度系数
    • \(\pi_{\mathrm{ref} }\) 是参考模型

Experimental Settings

  • 遵循第 2.1 节中的原子分解方法,将所有 HelpSteer3 推理转换为结构化的原子理由清单作为监督信号
  • 为了提高效率,作者使用 Qwen3-Turbo 作为 MetaJudge,以提供快速的训练时奖励
    • 问题:这里的 Qwen3-Turbo 是多少 B 的?
  • 训练方法与 (RRMs)Reward Reasoning Model, Microsoft & THU & PKU, 20250520 保持一致,仅修改奖励信号的来源
    • RRMs 的训练方法详见原始论文 Figure2
  • 基于 Qwen3-14B 和 Qwen3-30B-A3B 进行训练和比较,并在两个互补且具有挑战性的基准上进行评估
    • RM-Bench (2024b) 衡量模型在聊天、代码、数学和安全等任务上区分细微差异和风格偏见的能力
    • JudgeBench (2024) 侧重于在具有挑战性的知识和推理任务上进行深度判断和逻辑推理
  • 其他详细的超参数设置见附录 D

Generative Reward Modeling

  • 使用相同的训练流程进行了严格的对照比较,仅奖励信号不同:
    • 本文方法使用 \(R_{\mathrm{final} } = R_{\mathrm{rationale} }\cdot R_{\mathrm{outcome} }\)
    • 基线仅结果方法单独使用 \(R_{\mathrm{outcome} }\)
  • 如表 2 所示,引入推理奖励带来了持续且显著的性能提升
  • 从总体指标角度看,作者的方法在不同模型规模上表现出卓越的鲁棒性
    • Qwen3-14B (Ours) 将总平均分从基线的 \(76.8%\) 提升到 \(82.9%\)
    • Qwen3-30B-A3B (Ours) 进一步从 \(80.3%\) 提升到 \(84.6%\)
    • 在 JudgeBench 上,两个模型的提升幅度都超过了 \(7%\)
    • 这种性能增益表明,由推理一致性提供的监督信号有效地增强了模型的判别能力,特别是在需要深度和复杂推理的领域
  • 鉴于 HelpSteer3 包含与代码相关的数据,作者观察到在两个基准的代码领域都有显著提升
  • 结论:进行结果准确率训练并不能教会模型可靠的代码正确性概念,而基于推理一致性的训练使模型能够真正验证代码逻辑和准确性
Comparison with SoTA
  • 与 SOTA 生成式奖励模型 (2025)、标量奖励模型 (2024a) 和 LLM-as-a-Judge 基线进行比较
    • Qwen3-30B-A3B (Ours) 实现了 \(84.6%\) 的总体平均分,超过了所有竞争对手,包括近期表现强劲的 GRAM-\(\mathbb{R}^2\) (2025a) \((83.4%)\) 和 Principles-Qwen32B (2025b) \((83.8%)\)
    • GRAM-\(\mathbb{R}^2\) 采用了数据增强技术,并在超过一百万 \((1M+)\) 的外部偏好和推理样本混合数据上训练,聚合了来自 StackExchange 和 PKU-SafeRLHF (2024) 的数据集,这增强了其在知识和安全领域的判别能力
    • Principles-Qwen32B 通过标注一组判断原则并识别适用的原则来降低判别难度
  • 本文方法大幅提高了监督信号的质量,使模型能够有效学习与人类推理一致的判断逻辑
Ablation Note
  • 作者尝试仅使用 \(R_{\mathrm{rationale} }\) 进行训练
    • 会导致了一种 Reward Hacking:由于缺乏对最终结果的激励信号,模型会生成与其自身推理过程不一致的结果
    • 结论:混合信号是必不可少的

Utilizing Reward Model in RLHF

  • 从 Qwen-30B-A3B-Base 模型开始,进行少量 SFT 以实现基本的指令遵循,然后使用 Qwen-30B-A3B (Ours) 或 Qwen-30B-A3B (Outcome only) 作为奖励模型来对齐 SFT 后的模型(超参数见附录 D)
  • 作者在 Arena Hard v2 (2024b) 上评估,该基准包括困难提示和创意写作任务
  • 如表 3 所示
    • 基于奖励的指导对齐相较于 SFT 有显著提升(从 \(12.61% /41.12%\) 提升到 \(21.22% /69.08%\))
    • 混合奖励在两个子集上持续优于仅结果基线,在创意写作任务上获得了 \(7%\) 的增益
  • 作者将此归因于创意写作提示中的隐含约束(例如,所需元素、严格的字数限制):
    • 仅结果奖励更容易被欺骗,而推理一致性提供了更细粒度的监督,鼓励更仔细的判断,并产生更好的下游对齐

Escaping the Deceptive Alignment Trap

  • 作者评估了两种方法的推理一致性,并发现了一个关键结论:
    • 仅结果监督可以提高与人类决策的一致性,但其背后的判断过程却日益偏离人类逻辑
    • 本文的方法显著改善了与人类判断逻辑的对齐,并且这种改进在不同领域具有泛化性
Rationale Consistency Evaluation
  • 使用 DeepSeek R1 作为 MetaJudge 评估器,测量在 HelpSteer3-Atomic 和 CW-Atomic 上使用仅结果监督与推理+结果监督训练的模型的推理一致性
  • 如表 4 所示
    • 仅结果监督相较于基础模型降低了推理一致性,在域内 HelpSteer3-Atomic 降低了 \(3.97%\),在域外 CW-Atomic 降低了 \(7.08%\)
    • 推理+结果监督在 HelpSteer3-Atomic(域内)将推理一致性提高了 \(+12.13%\),在 CW-Atomic(域外)提高了 \(+1.4%\)
    • 这表明与人类判断逻辑的对齐更紧密,且具有更好的域外泛化能力
Training Dynamics: Similar Outcome Reward, Divergent Rationale Reward
  • 图 3 比较了训练动态
    • 两种方法的结果奖励几乎相同,这表明仅从结果信号中就可以学会选择正确答案,而无需保留丰富的判断过程
    • 推理奖励出现了分化:在没有推理一致性约束的情况下,仅结果模型的推理奖励稳步下降,最终比作者的模型低约 \(24.2%\)
    • 检查推理过程发现,当中间判断不受激励时,模型会舍弃成本高昂的验证,转而依赖成本更低但仍能获得相似结果奖励的替代性线索
      • 作者称之为推理退化,这解释了为什么仅结果训练在结果层面上看起来是对齐的,而在逻辑层面上却是漂移的
Rationale Degeneration
  • 作者将原子理由分为证据依据型 (EG)、准则依据型 (CG) 和通用/风格型 (GS),并跟踪其分布变化(图 4)
    • 即使未经训练,模型也主要产生引用具体证据(例如错误的精确位置)的 EG 理由
    • 在仅结果优化下,模型从证据转向了
      • (1) 听起来专业但未定位问题的模糊 CG 陈述(例如,“代码存在逻辑错误”)
      • (2) GS 宽泛、通用的理由,如“响应 B 更详细”
        • 因为结果奖励是一个二元信号,仔细的证据检查与奖励相关性较弱,所以模型越来越依赖表面线索,逐渐掏空了评估过程
    • 本文方法进一步增加了 EG 理由的比例,鼓励基于证据的判断
  • 为了详细评估模型推理的质量,作者定义了七个缺陷标签 (F1-F7) 来捕捉比较判断中常见的失败模式,并使用 DeepSeek-R1 为模型理由列表中的每一项打标签
    • F1 仅关注风格:关注格式、长度或语气而非内容
    • F2 通用正确性:声称一个响应更正确但未引用证据
    • F3 通用相关性:声称一个响应更相关但未指向具体内容
    • F4 单方面赞扬:赞扬一个响应而不与另一个比较
    • F5 不可证伪:无法从给定响应中验证或反驳
    • F6 不合逻辑:结论与所述前提不符
    • F7 矛盾:与同一推理中的其他陈述冲突
  • 图 5 显示了不同训练信号放大或减少了哪些缺陷
    • 仅结果奖励强烈放大了捷径推理
      • 增幅最大的是 F4 单方面赞扬,从 \(17.76%\) 增加到 \(61.97%\)
        • 这表明模型经常先决定优胜者,然后毫无实质比较地对其进行赞扬
      • F1 仅关注风格也大幅增加,表明更严重地依赖表面线索
      • F5 不可证伪也有所增加,显示出更多难以检查的模糊主张
    • 将推理一致性纳入奖励时,这些被放大的缺陷急剧下降
      • F4 降至 \(0.05%\),几乎消除了单方面论证
      • F1 恢复到接近训练前的水平
      • F2、F3 和 F5 也降至接近零
    • 结论,推理监督减少了浅层启发式方法,鼓励基于证据的、真正具有比较性的推理

Related Work

Generative Reward Models and LLM-as-a-Judge

  • 为了缓解标量奖励模型的不透明性 (2022),研究已转向生成式奖励模型 (GenRMs) 和“LLM-as-a-Judge”范式 (2023)
  • 虽然像 Prometheus (2024) 和 Auto-J (2024a) 这样的模型通过 CoT 增强了可解释性,且近期工作使用 RL 优化这些推理轨迹 (2025; 2025),但主观评估仍容易陷入“事后合理化”
    • 在这里,CoT 通常是为有偏见的决策提供合理化,而不是作为判断的因果基础 (2024)

Critique

  • Critique-based 方法(例如 Self-Refine (2023))代表了与奖励建模平行的对齐方向
  • 诸如 CritiqueBench (2024) 和 RealCritic (2025) 等基准评估 Critique 质量,这与作者的想法密切相关
  • 作者进一步将这种 Critique 评估转化为奖励建模的监督信号
    • 但由于 Critique 是以文本反馈形式提供的,它们难以在强化学习中有效使用

Meta-Verification

  • 元验证在客观领域已被证明是有效的;
    • 例如,DeepSeekMathV2 (2025) 使用“元验证器”来惩罚数学推理中的幻觉缺陷
  • 作者将这种严格的一致性检查扩展到价值对齐的主观领域
  • 同时期的工作 RM-NLHF (2026) 也利用自然语言反馈进行过程监督,它依赖于 Critique 的语义相似性,而作者的方法强制执行严格的原子理由匹配
  • 这种分解降低了一致性验证的复杂性,产生了稳健可靠的度量,确保了训练和评估的稳定性

Process Supervision vs. Rationale Supervision

  • 推理奖励不同于过程奖励模型 (PRMs, 2024)
  • PRMs 监督求解器的中间步骤以防止逻辑错误,而本文的目标是 Judge
  • 作者不监督解决方案的推导,而是评估本身的逻辑忠实性,要求 Judge 的推理在结构上必然导出其最终标签,以减轻欺骗性对齐

Limitations

  • 计算推理一致性仍然需要高质量的人工标注
    • 虽然先前的工作探索了使用 LLMs 合成人类偏好,但尚不清楚这种信号是否能保留人类判断逻辑
    • 即使是最强大的前沿模型,其与人类推理的一致性也不到 \(40%\),这表明当前 LLMs 在这方面尚不能可靠地替代人类
  • 在不牺牲忠实性的前提下扩展推理一致性监督可能需要新的进展,例如更稳健的方法来验证合成推理的“拟人性”,或更有效的人机协作标注协议

附录 A Details of Benchmark Construction

A.1 Atomic Decomposition

  • 作者用一个原子分解流程来构建原子理由基准,将原始的评估者反馈转化为具体的检查清单项目

  • 如图 6 所示,该流程接收完整的评估上下文,保留基于证据的具体要点,解决冲突,并移除冗余,从而生成一个原子理由列表以及被丢弃的主观或无效陈述

  • Figure6, Decomposition Prompt (核心:指示模型提取具体的、基于证据的评估要点,同时过滤掉模糊的、主观的或相互矛盾的陈述)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    System Instruction: You are an assistant for extracting and concretizing key points. Based on the “Evaluation Content”, structurally summarize the “Brief Evaluation Summary”, 
    keeping only specific, constructive points that can be directly supported by the evaluation content. You may add details from the evaluation content; remove subjective and vague comments; merge duplicate points.

    Input Format:
    <INPUT START>
    [Evaluation Content]
    <history>{history}</history>
    <query>{query}</query>
    <response 1>{response_1}</response 1>
    <response 2>{response_2}</response 2>
    [Brief Evaluation Summary]{str_brief}
    [Evaluation Content]{str_eval}
    <INPUT END>

    Rules:
    1. Each output point must be specific and directly evidenced by the evaluation content; include elements such as object/step/metric, and provide numbers, conditions, ranges, times, or examples whenever possible.
    2. Keep only problem/error-type points that can improve the content; ignore neutral statements.
    3. Remove vague descriptions (e.g., overall poor, needs improvement, may have issues, average performance).
    4. You may use the evaluation content to supplement details to concretize vague statements; if it still cannot be concretized, ignore that summary sentence.
    5. Each point should be simple, specific, and clear. Merge duplicate or synonymous points, keeping the more specific version.
    6. If no specific points can be extracted, output an empty list and explain the reason.
    7. If there are conflicting statements in the evaluation summary, ignore them and explain the reason.

    Important Notes: It is absolutely forbidden to output any content not mentioned in the [Brief Evaluation Summary]! Absolutely no independent evaluation; only rewrite the [Brief Evaluation Summary].

    Output Format:
    <RESULT_START>
    CLAIM_COUNT=integer
    CLAIMS:
    - C1: specific point text
    - C2: specific point text
    IGNORED_SUMMARY:
    - Ignored sentence 1 (Reason: ...)
    <RESULT_END>
    • 中文大致含义:
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      **System Instruction:** 你是一个用于提取和具体化关键点的助手
      * 基于“评估内容”,结构化地总结“简要评估摘要”,仅保留可由评估内容直接支持的、具体的、建设性的要点。你可以添加来自评估内容的细节;移除主观和模糊的评论;合并重复的要点
      ...
      **Rules:**
      1. 每个输出点必须是具体的,并且可直接由评估内容证实;包含诸如对象/步骤/指标等要素,并尽可能提供数字、条件、范围、时间或示例
      2. 仅保留可以改进内容的问题/错误类要点;忽略中性陈述
      3. 移除模糊描述(例如,整体较差、需要改进、可能有问题、平均性能)
      4. 你可以使用评估内容来补充细节以具体化模糊的陈述;如果仍然无法具体化,则忽略该总结句
      5. 每个点应当简单、具体、清晰。合并重复或同义的要点,保留更具体的版本
      6. 如果无法提取具体要点,则输出空列表并说明原因
      7. 如果评估摘要中存在相互矛盾的陈述,请忽略它们并说明原因
      **Important Notes:** 绝对禁止输出未在[简要评估摘要]中提及的任何内容!绝对不要进行独立评估;仅重写[简要评估摘要]
      ...

A.2 Benchmark Statistics

  • 本节报告基准统计信息,重点关注各领域检查清单项目的分布情况
  • 该基准包含 1000 个实例,涵盖四个领域:代码、通用、多语言和科学、技术、工程和数学
  • 表 5 总结了各领域的检查清单统计信息
    • 基准包含 1000 个实例(每个领域 250 个)
    • 每个实例的平均项目数从 4.08(多语言)到 4.58(代码)不等,并通过作者的过滤规则被限制在 [3, 7] 之间,该规则旨在移除琐碎或过于复杂的情况
    • 代码和科学、技术、工程和数学领域具有稍高的平均值(分别为 4.58 和 4.54),反映出可提取的技术性批评更多

A.3 Case Study

  • 图 7 和图 8 展示了原子分解如何将自由形式、多注释者的反馈转化为一个紧凑的、可操作的批评要点检查清单
  • 给定完整的评估上下文(对话、候选回复和三位评估者的评论),分解器:
    • (i) 将每个项目基于具体的回复证据;
    • (ii) 将模糊印象重写为具体、可验证的问题;
    • (iii) 通过仅保留一致的批评来解决评估者间的冲突;
    • (iv) 移除冗余和纯粹主观的陈述
  • 输出是一个原子检查清单,其中隔离了关键故障模式(例如,无根据的事实主张、无关的讨论、虚构的情节细节以及冗长/混淆),并记录了被丢弃的主观、无关或矛盾的陈述
  • 图 7:事实核查任务展示了理由分解
    • 用户对“Geoffrey Hurd”被催眠的说法提出了错误主张
    • 三位评估者指出了回复 1 中无根据的主张和无关的讨论
    • 分解过程提取了 3 个具体的、可操作的检查清单项目,同时过滤掉了主观或模糊的陈述
  • 图 8:事实 Query 任务展示了两个回复均存在问题的分解
    • 用户询问一个电视剧集情节
    • 回复 1 包含了无关信息,而回复 2 则虚构了情节细节
    • 分解提取了 4 个可操作的项目

附录 B Creative Writing Dataset Annotation Process

  • 作者从在线日志中收集高质量的创意写作 Query ,涵盖科普文章、影评、散文和小说
  • 人工写作者和多个 LLM 生成回复以形成回复对
  • 三位注释者独立评估每个样本,为两个回复提供对比分析和详细评估
  • 详细的标注说明请参见表 14
  • 由于注释者的评估可能包含冗余、冲突或模糊的表达,作者使用 Gemini-3-Flash 来整合原始标注,合并相似点,过滤过于笼统的陈述,解决冲突并标准化格式
    • 具体示例参见图 11 和图 12

附录 C MetaJudge

C.1 Prompt Template

  • MetaJudge 旨在评估模型生成的批评 (critique) 与人类专家检查清单 (checklist) 之间的一致性
    • 给定一个原始评估列表(模型生成)和一个参考评估列表(人类检查清单),MetaJudge 判定原始列表中每个项目在多大程度上实现了参考列表中每个项目的预期目的/改进目标
    • 图 9 展示了用于严格一对一语义匹配和打分的 MetaJudge 提示

C.2 Case Study of MetaJudge

  • 表 6 和表 7 中的案例研究表明,结果层面的同意可能掩盖了理由一致性方面的重大差异
  • 在案例 1(创意写作)中
    • gemini-2.0-flash 和 deepseek-r1-0528 都倾向于 \(B\) 而非 \(A\)
      • gemini-2.0-flash 提供了大量笼统或非诊断性的批评(例如,“更好的情节”),只是微弱地触及角色混淆这一关键问题,并且错过了提示未对齐和设定发展点(一致性 8.3%)
      • deepseek-r1-0528 明确指出了所有三个人类检查清单项目并提供了具体证据,达到了 100% 的一致性
  • 在案例 2(事实核查)中
    • deepseek-r1 不仅错过了人类检查清单,还颠倒了批评逻辑,它赞扬了 \(A\) 无根据的推测,并为无关的讨论进行辩护,导致了错误的最终决定和 0% 的一致性;
    • gpt-5 则指出了无根据的主张,直接解决了错误的前提,并标记了无关的推理,达到了 100% 的一致性
  • 这些例子共同表明,细粒度语义匹配能够捕捉模型的判断过程是否与人类推理相匹配,超越了最终的偏好标签

C.3 More Results

  • 如图 10 所示的散点图说明了结果正确性与推理质量之间的关系
    • 虽然大多数模型表现出正相关性,但 03-mini 表现为一个显著的异常值(所有图中底部居中),保持了有竞争力的结果准确率,但其理由一致性却崩溃了
      • 这有效地可视化了欺骗性对齐陷阱
    • 在 SOTA 模型(例如 GPT-5,Gemini 3 Pro)中,结果准确率趋于饱和,而理由准确率仍然具有很高的区分度

附录 D Training and Evaluation Details

D.1 GenRM Training

  • 使用 GRPO 算法训练 GenRM,关键超参数如下:

    • 学习率 \(2\times 10^{-6}\),批大小 256,小批大小 128
  • 每个提示采样 \(n = 8\) 个 Response,最大生成长度为 12K Token ,最大提示长度为 8K Token

  • 正向和负向裁剪比率均设置为 \(2\times 10^{-4}\)

  • 模型总共训练 2 个 epoch

  • 用于 GenRM 的训练 Prompt 如图 13 所示

  • (论文标题有错)GenRM Training Prompt(文字版: Prompt 模型需要比较两个 Response 并提供结构化的评估理由以及最终的 Pairwise 判断)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    你将看到一个对话上下文,随后是一个用户 Query 和两个 Response。你需要预测哪个 Response 将更受人类专家标注员的青睐。你可以考虑任何你认为合适的标准。尽力而为,仔细思考,深入分析 Response,并提供最终裁决

    首先,以列表格式输出评估理由。理由应根据其对最终评估的影响从高到低排序。理由应具体、清晰、有针对性,避免模糊或重复

    最后,单独给出最终评估结果,并且必须严格使用以下五种格式之一:
    Response A 明显更受人类专家标注员青睐:\\(\boxed{A>B}\\)

    Response A 略微更受人类专家标注员青睐:\\(\boxed{A>B}\\)

    平局,人类专家标注员认为相对相同:\\(\boxed{A=B}\\)

    Response B 略微更受人类专家标注员青睐:\\(\boxed{B>A}\\)

    Response B 明显更受人类专家标注员青睐:\\(\boxed{B>A}\\)

    输出格式(严格遵守;不要添加标记外的内容):

    <RESULT_START>
    理由列表:
    - 具体的评估理由
    -
    最终评估结果:使用上述五种格式之一
    <RESULT_END>
  • Figure 14:Creative-writing pairwise evaluation annotation instructions

D.2 Downstream Policy Alignment Training

  • 下游策略对齐也采用 GRPO 算法,超参数如下:
    • 学习率 \(2\times 10^{-6}\),批大小 512,小批大小 128。作者对每个提示采样 \(n = 8\) 个 Response,最大生成长度为 12K Token ,最大提示长度为 8K Token
    • 正向和负向裁剪比率设置为 \(2\times 10^{-4}\)
    • 策略模型使用训练好的 GenRM 作为奖励信号,训练 90 步

附录 E Case Studies

  • 案例 8 和 9 说明了仅结果 (Outcome-Only, OC) 训练下理由质量如何退化,以及理由+结果 (Rationale+Outcome) 训练如何不仅能防止这种退化,还能超越基线
  • 表 7: 案例 2:事实准确性评估
    • deepseek-r1 颠倒了人类判断(赞扬 A 的推测),达成 0% 一致性
    • gpt-5 正确识别了所有事实问题

附录 F Human Annotation: Recruitment, Compensation, Diversity, and Quality Control(人工标注:招募、报酬、多样性与质量控制)

  • 根据合同协议招募标注员,并提供与当地劳动力成本相称的、具有竞争力的、充足的报酬
  • 为了减少人口统计偏差并提高标注质量,作者力求招募具有不同背景的标注员
  • 每个样本由三名标注员独立标注,分歧通过复核和聚合规则解决以产生最终标签
  • 该数据集仅用于研究评估和测试目的,不用于商业用途或面向用户的部署
  • 作者在数据收集和使用之前获得了数据所有者的统一授权,并遵守允许的范围及任何相关要求
  • 表 8: 案例 1:游戏角色招式列表
    • OC 模型产生通用批评,达成 0% 理由一致性
    • 第 0 步仅识别出 3 个问题中的 1 个(33% RC)
    • 理由+结果模型通过识别所有 3 个问题超越了基线(100% RC)
  • 表 9: 案例 2:Python Futurize 命令
    • OC 模型产生完全错误的分析(声称错误的标志是正确的),达成 0% 理由一致性
    • 第 0 步仅识别出 1 个问题(25% RC)
    • 理由+结果模型通过正确识别两个 Response 都存在标志问题超越了基线(75% RC)

NLP——LLM对齐微调-Rubric-ARM

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(Rubric-ARM)Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training, 20260202, Emory University & Purdue University

Paper Summary

  • 整体说明:
    • 本文提出了一种创新的,两阶段交叉迭代优化的方法
    • 个人理解:Rubric 的生成本身应该是和 Verifier(即本文的 Judge)无关的,所以本文的做法可能有点牵强
      • 我的理由是:一个 Rubric 好不好,不需要看使用的 Verifier 是什么
      • 例外的情况(可能有依赖的点):可能 Rubric 太难,简单的 Verifier 无法准确判断,Rubric 太简单,无法完美评估 Reponse 的优劣,所以 Rubric 的生成是否能让下游的 Verifier 准确判定,可能是有一定关系的
      • 其他讨论:
        • Rubric 的生成和 Verify 耦合本身并不科学,不方便分开迭代
        • Rubric 的生成应该是尽量简单的,方便判断的,对 Verifier 要求不高的!
    • 注:本文生成的 Rubric 都是 Query-specific 的,没有任何 General 的,且没有使用 Reference Response
    • 注:本文是 Pairwise 的 Verifier,在现实训练中评估成本很高,比如采样 8 个 Rollout 时,两两比较需要 28 次,除非使用其他已有的研究方案缓解这个问题(比如降低到 7-8 次)
      • 但是效率也远远低于 Pointwise 方案
    • 本文的 Rubric 生成 Prompt 是参考了 OpenRubrics 的,将 rubrics 分为两种互补类型:
      • (i) Hard Rules ,捕捉用户 Prompt 中陈述的显式要求;
      • (ii) Principles ,描述更高级别的定性方面,如推理合理性、事实性、或风格连贯性
  • 问题提出:
    • 标量 RM 无法捕捉在不可验证领域(如创意写作或开放式指令遵循)中 Response 质量的多方面特性
  • 解决方案:
    • Rubric-ARM:通过来自偏好反馈的强化学习联合优化 Rubric Generator 和 Judge 的框架
    • 创新点:不同于依赖静态 Rubric 或分离训练流程的方法,Rubric-ARM 将 Rubric 生成视为一个学习到的、旨在最大化判断准确性的潜在动作
  • 作者的特别设计:
    • 交替优化策略 : 用于缓解同时更新的非平稳性问题,并提供理论分析,并证明这种交替优化策略如何降低训练期间的梯度方差
  • 最终:Rubric-ARM 在多个基准测试中,以及在离线和在线强化学习场景中都取得了不错的成绩

Introduction and Discussion

  • RM 通常通过生成标量分数或偏好标签来预测人类偏好
    • 但在复杂的不可验证领域(如创意写作或开放式指令遵循中)这些标量或 Pairwise 判断通常无法捕捉 Response 质量的多方面特性
  • 解决方案:最近工作转向 Rubric-based 奖励建模,其中模型显式生成结构化标准来支撑其判断 (2026, 2025a, 2025)
    • 特点:通过将评估分解为可解释的维度, Rubric-based 模型提供了透明度,并改善了跨特定于 Prompt 评估维度的泛化能力
    • Rubric-based 评估核心在于高质量 Rubric 的可获取性
  • Rubric 相关工作情况
    • 为确保 Rubric 质量,早期工作主要依赖于人工编写的 Rubric ,其制作成本高昂且难以扩展到大规数据集 (2025)
    • 最近的方法 Try to 利用 LLM 自动化 Rubric 构建 (2025, 2026);
      • 但这些方法在很大程度上 Prompt-based,并依赖固定、冻结的模型进行 Rubric 生成和 Response 质量判断
      • 它们未针对目标领域或底层偏好分布更新模型的内在能力,限制了其生成领域内、偏好对齐的 Rubric 的能力
    • 另外,即使引入了基于学习的组件 (2025a, 2025), Rubric Generator 和 Judge 也被视为独立模块并分别训练,而非联合优化
      • 这种解耦的训练流程阻碍了 Rubric 构建与判断之间更深层次的整合,导致次优的评估信号
  • 解决方案:Rubric-ARM,通过交替强化学习联合优化 Rubric Generator 和 Judge 的端到端框架
    • 两个组件在训练期间能够协同演进并相互强化
    • 作者将 Rubric 定义为指导奖励模型恢复底层偏好信号的潜在动作 ,并假设改进的 Rubric 生成会直接导致更准确的偏好预测
    • 为确保稳定的联合优化,Rubric-ARM 采用了一种交替训练策略
      • 该策略在学习动态解耦的同时保留了一个共享目标
      • 训练在以下两者之间交替进行:
        • (i) 使用固定的 Rubric Generator 优化奖励模型,以对齐目标偏好标签
        • (ii) 使用固定的奖励模型优化 Rubric Generator ,以产生最大化预测准确性的判别性 Rubric
  • 交替强化学习的关键挑战:同时更新两个组件引起的不稳定性
    • 作者的分析表明, Rubric Generator 在早期阶段的探索可能主导学习动态
    • 为缓解此问题,作者*首先在固定 Rubric 下稳定奖励模型,然后再优化 Rubric Generator *
    • 这种交替调度降低了方差并确保了鲁棒的优化
  • 贡献总结:
    • 基于首个通过强化学习联合优化 Rubric 生成和评判的方法,开发了 Rubric-based 奖励模型 Rubric-ARM
      • 用于产生高质量 Rubric 和精确判断
    • 引入了一种交替强化学习训练算法
      • 通过一个共享的正确性目标将 Rubric Generator 和 Judge 耦合起来,在稳定优化的同时实现相互改进
    • Rubric-ARM 评估结果优于基于推理的 Judge 和其他 Rubric-based 奖励模型
      • 在奖励建模基准上实现了平均 \(+4.7%\) 的提升
      • 在用作奖励信号时,持续改善了下游策略后训练的性能

Preliminaries

  • 本文研究关注不可验证领域中 Rubric-based 奖励建模,其中 Response 质量无法直接根据基本事实进行验证
  • Rubric-based 奖励模型包含两部分,即 Rubric Generator 和 Judge

Rubrics

  • 将 Rubric 定义为以 Prompt 为条件的结构化评估标准集
  • 令 \(x\) 表示一个 Prompt ,一个 Rubric 由 \(k\) 个标准组成
    $$ r(x) = \{c_i\}_{i = 1}^k $$
    • 其中每个 \(c_i\) 指定 Response 质量的一个不同方面(例如,事实准确性、语气或呈现方式)
  • 为了在不可验证领域训练 Rubric-based 奖励模型,给定一个 Pairwise 偏好数据集
    $$ \mathcal{D} = \{(x_i,y_i^{(1)},y_i^{(2)},o_i^*)\}_{i = 1}^N$$
    • \(x\) 是一个 Prompt
    • \(y^{(1)}\) 和 \(y^{(2)}\) 是两个候选 Response
    • \(o^{\star}\in \{0,1\}\) 指示哪个 Response 更受偏好(例如,\(o^{\star} = 1\) 表示 \(y^{(1)} > y^{(2)}\))
  • Rubric Generator \(\pi_{r}\) 根据 Prompt 生成一个 Rubric \(r\):
    $$r\sim \pi_{r}(\cdot \mid x; \theta_{r}), \tag{1}$$
  • Judge \(\pi_{j}\) 根据 Prompt 、 Response 和 Rubric 预测偏好 \(o\) 和推理链 \(c\):
    $$(c,o)\sim \pi_{j}(\cdot \mid x,y^{(1)},y^{(2)},r;\theta_{j}). \tag{2}$$

Learning Objective

  • 定义偏好-正确性奖励:
    $$R(o,o^{\star}) = \mathbb{I}[o = o^{\star}], \tag{3}$$
    • 其中 \(\mathbb{I}[o = o^{\star}]\) 表示从 \(o\) 提取的二元预测是否与基本事实 \(o^{\star}\) 一致
  • 将 \(\theta_{r}, \theta_{j}\) 分别表示为 \(\pi_{r}\) 和 \(\pi_{j}\) 的参数,作者的目标是学习 \((\theta_{r}, \theta_{j})\) 以最大化在生成 Rubric 下的期望偏好正确性:
    $$\max_{\theta_{r},\theta_{j} }\mathbb{E}_{(x,y^{(1)},y^{(2)},o^{\star})\sim \mathcal{D},\ r\sim \pi_{r}(\cdot |x;\theta_{r}),\ (c_{o})\sim \pi_{j}(\cdot |x,y^{(1)},y^{(2)},r;\theta_{j})}\left[R(o,o^{\star})\right]. \tag{4}$$
  • 注:可以看出 \(r\)(文本)和 \(c, o\)(带有推理的离散决策)都是采样的动作,所以 Rubric-ARM 使用强化学习优化方程 (4)

Rubric-ARM: Alternating RL(交替强化学习)for Rubric Generation and Judging

  • 在不可验证领域中,监督仅限于 Pairwise 偏好反馈,且 Rubric 无法直接观察到
  • 同时更新 Rubric Generator \(\pi_{r}\) 和 Judge \(\pi_{j}\) 会导致非平稳的学习目标和不稳定的优化
  • 如图 1 所示,Rubric-ARM 使用一种交替强化学习方案来解决这一挑战,该方案解耦了两个组件的更新

Stage I: SFT Warmup

  • 利用开源数据集,为 \(\pi_{j}\) 和 \(\pi_{r}\) 配备基本的 Rubric 生成和评判能力
  • 遵循先前工作 (2025a),作者在包括 UltraFeedback (2024), SkyWork (2024), Magpie (2025b) 和 Synthetic Instruction Following (2025a) 在内的开源数据集上,对来自这些数据集的合成 Rubric 和评判轨迹进行微调
  • \(\pi_{r}(r \mid x; \theta_{r})\) 和 \(\pi_{j}(c, o \mid x, y^{(1)}, y^{(2)}, r; \theta_{j})\) 均使用标准的 NTP 目标进行训练

Stage II: Alternating Reinforcement Learning(交替强化学习)

  • 第一阶段通过模仿合成 Rubric 生成和评判轨迹来预热 Rubric Generator \(\pi_{r}\) 和 Judge \(\pi_{j}\)
    • 目前为止仅仅是独立 地优化这两个组件,并未直接以偏好正确性为目标
  • 第二阶段使用交替强化学习优化这两个组件,训练在以下两者之间切换:
    • (i) 使用固定的 Rubric Generator 改进 Judge
    • (ii) 使用固定的 Judge 改进 Rubric Generator ,为每个组件提供更清晰的学习信号,同时保持相同的最终目标 \(R(o, o^{\star})\)
Stage II(Step 1): RL for Judge \(\pi_{j}\) with the current \(\pi_{r}\)
  • 在固定 Rubric Generator 参数 \(\theta_{r}\) 的情况下,作者更新 \(\theta_{j}\) 以改进在从 \(\pi_{r}\) 采样的 Rubric 下的偏好正确性:
    $$\max_{\color{red}{\theta_{j} }}J_{j}(\color{red}{\theta_{j}};\color{blue}{\theta_{r}}) = \mathbb{E}_{(x,y^{(1)},y^{(2)},\sigma^{\star})\sim \mathcal{D}\sim \pi_{r}(\cdot \mid x;\color{blue}{\theta_{r}})} {\mathbb{E} }_{(c,\sigma)\sim \pi_{j}(\cdot \mid x,y^{(1)},y^{(2)},\sigma;\color{red}{\theta_{j}})}\left[\mathbb{I}[o = o^{\star}]\right]. \tag{5}$$
    • 此阶段训练 Judge 产生以固定 Rubric 为条件的评估,以恢复数据集的偏好
  • 由于 \(\pi_{r}(\cdot \mid x; \theta_{r})\) 在 Judge 更新期间是固定的,作者缓存 Rubric 以减少采样成本并稳定优化
    • 对于每个训练实例 \((x_{i}, y_{i}^{(1)}, y_{i}^{(2)}, o_{i}^{\star})\),作者采样一个 Rubric \(r_{i} \sim \pi_{r}(\cdot \mid x_{i}; \theta_{r})\) 一次,并在多个 Judge 优化步骤中重复使用它,得到蒙特卡洛估计:
      $$J_{j}(\theta_{j};\theta_{r})\approx \mathbb{E}_{(x_{i},y_{i}^{(1)},y_{i}^{(2)},\sigma_{i}^{\star})\sim \mathcal{D},r_{i}(c,\sigma)\sim \pi_{j}(\cdot \mid x_{i},y_{i}^{(1)},y_{i}^{(2)},r_{i};\theta_{j})}\left[\mathbb{I}[o = o_{i}^{\star}]\right]. \tag{6}$$
  • 在实践中,作者使用 Format-based 奖励 \(R_{\mathrm{fmt} }\) 增强最终的正确性信号
    $$ R_{\mathrm{acc} } = \mathbb{I}[o = o_i^\star ]$$
    • \(R_{\mathrm{fmt} }\) 强制执行有效的评判轨迹(即,用每个标准的解释处理每个 Rubric 标准,然后进行整体论证和最终决策)
    • Judge \(\pi_{j}\) 的最终奖励是
      $$ R_{j} = R_{\mathrm{acc} } + R_{\mathrm{fmt} } $$
Stage II(Step 2):RL for Rubric Generator \(\pi_{r}\) with the current \(\pi_{j}\)
  • 在固定 Judge 参数 \(\theta_{j}\) 的情况下,作者更新 \(\theta_{r}\) 以偏好那些能引导当前 Judge 做出正确决策的 Rubric
  • 最大化在从 \(\pi_{r}\) 抽取的 Rubric 下的偏好正确性:
    $$\max_{\color{red}{\theta_{r} }}J_{r}(\color{red}{\theta_{r}};\color{blue}{\theta_{j}}) = \mathbb{E}_{(x,y^{(1)},y^{(2)},\sigma^{\star})\sim \mathcal{D} } \mathbb{E}_{r\sim \pi_{r}(\cdot |x,\color{red}{\theta_{r}})} \mathbb{E}_{(c,\sigma)\sim \pi_{r}(\cdot |x,y^{(1)},y^{(2)},r,\color{blue}{\theta_{j}})}\left[\mathbb{I}[o = o^{\star }]\right]. \tag{7}$$
    • \(\pi_{r}\) 学习生 Pairwise 于给定 Prompt 具有区分度、且 Judge 可用于恢复数据集偏好的标准
  • 在实践中,作者通过贪心解码 \((t = 0)\) 用一次 Rollout 来近似期望,即,作者为每个 Rubric 生成一个评判轨迹 \((c,o)\),并使用蒙特卡洛估计:
    $$R_{r} = \mathbb{I}[o = o^{\star}]. \tag{8}$$
Optimization (alternating RL)
  • Rubric-ARM 在优化方程 5 和 7 之间交替进行,在迭代 \(t\),运行如下公式:
    $$
    \begin{array}{rl}
    & r_i^t \sim \pi_r(\cdot |x_i;\theta_r^t)\quad \forall \ (x_i,y_i^{(1)},y_i^{(2)},o_i^*)\in \mathcal{D}, \\
    & \theta_j^{t + 1}\leftarrow \mathrm{GRPO}(\theta_j^t;\{r_i^t\} ,\mathcal{D}), \\
    & \theta_r^{t + 1}\leftarrow \mathrm{GRPO}(\theta_r^t;\theta_j^{t + 1},\mathcal{D}).
    \end{array} \tag{10}
    $$
  • 实践:作者在 Judge 更新期间为每个实例缓存一个 Rubric (因为在该阶段 \(\pi_{r}\) 是固定的)
    • 在每个阶段,GRPO (详见附录 A) 仅更新活动策略,同时保持另一个策略固定
    • 作者在每个循环中通过先更新 Judge 再更新 Rubric Generator 来交替训练
      • 在第 5 节中,作者提供了理论分析来证明这种顺序的益处
Connection to EM Algorithm
  • 作者的交替优化可以看作是一种广义的期望最大化过程 (1977),其中 Rubric \(r\) 作为潜在变量
  • 对于每个偏好实例
    $$ (x,y^{(1)},y^{(2)},o^{\star})$$
  • Judge 定义了一个条件模型
    $$ p_{\theta_{j} }(o^{\star} | x,y^{(1)},y^{(2)},r) $$
  • Rubric Generator \(\pi_{r}(r | x;\theta_{r})\) 充当潜在 Rubric 上的分布
  • 于是,与 EM 关系为:
    • 固定 \(\pi_{r}\) 时,更新 \(\pi_{j}\) 最大化给定 Rubric 下的期望正确性(或对数似然),类似于 M 步
    • 固定 \(\pi_{j}\) 时,更新 \(\pi_{r}\) 增加使当前 Judge 更可能恢复 \(o^{\star}\) 的 Rubric 的概率质量,类似于摊销的 E 步
  • 由于 Rubric 是高维离散文本序列,作者使用随机策略梯度更新而非精确后验推断,产生了一种随机期望最大化风格的坐标上升方案

Policy Model Post-training with Rubric-ARM

  • 本节使用训练好的 Rubric Generator \(\pi_{r}(\cdot |q;\theta_{r})\) 和 Judge \(\pi_{j}(\cdot |q,\cdot ,\cdot ,r;\theta_{j})\) 为后训练策略模型 \(\pi_{\phi}(a | q)\) 提供偏好监督
    • 其中 \(q\) 表示 Prompt ,\(a\) 表示候选 Response
  • 对于任意一对 Response \((a,b)\),Rubric-ARM 采样一个 Rubric
    $$ r\sim \pi_{r}(\cdot |q;\theta_{r})$$
  • 然后预测一个偏好标签:
    $$\hat{o} = \mathrm{Judge}_{\theta_j}(q,a,b,r)\in \{0,1\} , \tag{12}$$
    • 其中 \(\widehat{o} = 0\) 表示 \(a > b\),\(\widehat{o} = 1\) 表示 \(b > a\)

Preference Optimization with Rubric-ARM

  • 给定一个 Prompt \(q\),从当前策略采样两个 Rollout:
    $$a_{1},a_{2}\sim \pi_{\phi}(\cdot |q), \tag{13}$$
  • 使用 Rubric-ARM 通过方程 (12) 标记哪一个更受偏好,并保留预测在两个顺序下都一致的样本
    • 注:这里交换顺序是防止位置偏差的出现
  • 然后使用标准的 DPO 目标相对于一个固定的参考策略 \(\pi_{\mathrm{ref} }\) 更新 \(\pi_{\phi}\)
  • 对于迭代式 DPO (2024, 2024),作者重复以以下过程
    • (i) 采样 Rollout
    • (ii) 用 Rubric-ARM 标记它们
    • (iii) 应用 DPO 更新,进行多轮

Online RL with Rubric-ARM

  • 遵循最近使用 Pairwise Judge 提供奖励信号的工作 (2025a),作者也考虑在线强化学习,其中 Rubric-ARM 为优化 \(\pi_{\phi}\) 提供奖励
  • 对于每个 Prompt \(q\),作者采用 ReMax 风格的基线构建方法 (2024)
    • 首先通过贪心解码生成一个确定性的参考 Response :
      $$a^{(0)} = \mathrm{Greedy}(\pi_{\phi}(\cdot |q)) \quad (\text{temperature} = 0), \tag{14}$$
    • 然后采样 \(K\) 个额外的 Rollout:
      $$\{a^{(k)}\}_{k = 1}^{K}\sim \pi_{\phi}(\cdot |q). \tag{15}$$
  • 为减轻位置偏差,作者在相同 Rubric \(r\) 下以两种顺序查询 Judge
    • 令 \(\widehat{o}_{-}^{(k)}\in \{0,1\}\) 表示对于 \((q,a^{(k)},a^{(0)},r)\) 的评判结果,\(\widehat{o}_{+}^{(k)}\in \{0,1\}\) 表示交换顺序后 \((q,a^{(0)},a^{(k)},r)\) 的评判结果
  • 作者定义 Response \(a^{(k)}\) 的最终奖励为:
    $$R_{\phi}(q,a^{(k)}) = \frac{1}{2}\left(\mathbb{I}(\widehat{o}_{-}^{(k)} = 0) + \mathbb{I}(\widehat{o}_{+}^{(k)} = 1)\right). \tag{16}$$

Theoretical Analysis

  • 这里分析梯度方差以证明训练方案的合理性
  • 比较两个阶段:
    • 策略 A (Judge Warmup) ,在此阶段作者使用预生成、重复使用的 rubrics 来优化 Judge;
    • 策略 B (Rubric Generator Training) ,在此阶段作者针对一个固定的 Judge 来优化 rubric Generator
  • Setup:
    • 令 \(u_{r}(r):= \frac{\partial}{\partial\theta_{r} }\log \pi_{r}(r|x)\) 和 \(u_{j}(o|r):= \frac{\partial}{\partial\theta_{j} }\log \pi_{j}(o|c,r)\) 为得分函数
    • 令 \(p(r):= \mathbb{P}(o = o^{*}|c,r)\) 为给定 rubric 时 Judge 的正确概率
    • 定义梯度方差为
      $$ \mathrm{Var}(\widehat{\sigma}):= \mathbb{E}|| \widehat{\sigma}||^{2} -|| \mathbb{E}[\widehat{\sigma} ]||^{2} $$

Variance Decomposition(方差分解)

Proposition 5.1:策略 A 下的 Judge 方差
  • 在以重复使用的 rubric \(\bar{r}\) 为条件的情况下,Judge 的梯度估计量 \(\widehat{\sigma}_{A}\) 的方差完全由 Judge 的二分类不确定性决定:
    $$\mathrm{Var}(\widehat{\sigma}_{A}|\bar{r}) = p(\bar{r})(1 -p(\bar{r}))\left| u_{j}(o^{*}|\bar{r})\right|^{2}. \tag{17}$$
    • 通过在 Judge 更新期间固定 rubric \(\bar{r}\) (重复使用),消除了 rubric 间的方差
Proposition 5.2:策略 B 下的 Generator 方差
  • Generator 梯度估计量 \(\hat{g}_B\) 的总方差分解为:
    $$\mathrm{Var}(\hat{g}_B) = \underbrace{\mathbb{E}\left[p(r)(1 -p(r))\left|u_r(r)\right|^2\right]}_{\substack{(I)\text{Multiplicative Reward Noise} } } + \underbrace{\text{Var}_r(p(r)u_r(r))}_{\substack{(II)\text{Cross-Rubric Inconsistency} } } \tag{18}$$
  • Interpretation
    • 项 (I) 代表了 Judge 的 偶然不确定性 (Aleatoric uncertainty) ,被高维 Generator 梯度 \(\left| u_r\right| ^2\) 所放大
    • 项 (II) 捕获了当不同 rubrics 产生不同期望奖励 \(p(r)\) 时导致的优化困难,这会导致梯度方向振荡

Variance Domination in Early Training

  • 现在推导方差差距
  • 这里不再假设平凡的梯度主导,而是提出一个将 Generator 的探索强度与其梯度幅度联系起来的条件
Assumption 5.3:探索-梯度充分性
  • 作者假设在早期训练中, Generator 的梯度范数相对于 Judge 的梯度范数是充分的,满足以下与探索相关的下界:
    $$\frac{\left|u_r\right|}{\left|u_r\right|} >\sqrt{\frac{1 -p(r)}{1 -p(r) + C_1p(r)} }, \tag{19}$$
  • 其中 \(p\) 代表 Judge 的正确概率(逐点或在期望中分析),而 \(C_1 \in (0,1)\) 定义为:\(C_1 := \mathrm{Var}_r(p(r)u_r(r)) / \mathbb{E}_r[p(r)^2 | u_r(r)| ^2 ]\)
Remark 5.4
  • 假设 5.3 中的条件是温和的且具有物理合理性
  • 积极的探索 \((C_1 > 0)\) 引入了一个正缓冲区,使得不等式右侧所需的梯度范数比严格小于 1,从而避免了 Generator 梯度必须严格占主导的需要
  • Judge 和 Generator 都在相同的词汇表上产生长度可比的序列(检查/预测 vs. rubrics),因此它们的梯度范数通常处于同一数量级;在实践中,探索缓冲区足以吸收小的不匹配并满足该条件
Theorem 5.5:严格方差主导
  • 在假设 5.3 下,策略 B 的梯度方差严格主导策略 A 的期望条件方差:
    $$\mathrm{Var}(\hat{g}_B) > \mathbb{E}_r[\mathrm{Var}(\hat{g}_A |\bar{r})]. \tag{20}$$
    • 这个不等式确立了由探索驱动的结构不稳定性(由 \(C_1\) 量化)是方差分布中的主导因素,覆盖了梯度幅度上的差异
Remark 5.6:对训练稳定性的启示
  • 定理 5.5 中推导出的方差差距通过强调信噪比 (Signal-to-Noise Ratio, SNR) 中的一个关键权衡,证明了所提出的训练方案的合理性(作者首先训练 Judge,然后训练 rubric Generator ,并随后按照此顺序进行交替训练)
  • 策略 B 中严格更高的方差意味着 Generator 的更新主要由探索随机性而非真实的梯度方向所主导,这存在优化不稳定的风险
  • 策略 A 充当了一种方差减少机制:通过固定 rubric,它有效地将探索系数局部地设为 \(C_1 \to 0\),使 Judge 与结构噪声隔离,并为有效的学习提供了一个稳定的目标

Experiment

Datasets and Experiment Settings

Training data
  • 在 OpenRuBrics (2025a) 的通用领域部分上训练 RuBric-ARM 的两个组件,即 rubric Generator 和 Judge
    • 数据集被平均划分为不重叠的部分,每个 rubric-Judge 交替轮次在单个部分上运行
  • 在训练 Judge 时,作者随机打乱待评估候选 Response 的顺序;
    • 如附录 D.2 所示,这种做法极大地有助于减少奖励建模中的位置偏差
Backbone and variants
  • rubric Generator 和 Judge 都基于 Qwen-3-8B (2025) 进行微调
  • 在推理时,RuBric-ARM 遵循两阶段的 rubric-judging 过程,详见第 3 节
  • 作者还报告了 ensemble results voting@5 的结果,通过多数投票聚合五个独立的 Judges
Baselines
  • 对于奖励模型评估:
    • 遵循 (2025a) 的工作,将 RuBric-ARM 与强大的同规模白盒 Judges 进行比较,包括 JudgeLRM (2025), RRM (2025), RM-R1 (2026), 以及 Rubric-RM (2025a) (仅 SFT 的 rubric Generator + Judge)
    • 在可用的情况下,作者也报告使用黑盒 API 的 Judges
    • 为了隔离 rubric-aware 训练的收益,作者包含了一个 Training-free 的基线,即 Qwen-3-8B (RuBric+Judge) (2025),它通过 prompting 直接生成 rubrics 和判断
    • 对于策略训练,作者使用 RuBric-ARM 作为奖励模型来微调 Qwen2.5-7B-Instruct (2025),并与 Skywork (2024), ArmoRM (2024b), UltraFeedback (2024), RLCF/AI Judge (2025), OnlineRubrics (2025), 以及 Rubric-RM (2025a) 进行比较
Evaluation benchmarks and metrics
  • 在广泛使用的对齐基准上评估 RuBric-ARM 作为一个 Pairwise 奖励模型的性能:
    • RewardBench (Chat/Chat-Hard) (2025b)
    • RM-Bench (2025b)
    • PPE-IFEval (2024)
    • FollowBench (2024)
    • InfoBench (2024)
    • IFBench (2025)
    • RewardBench2 (Precise-IF/Focus) (2025)
    • Arena-Hard (2024)
    • AlpacaEval 2 (2025)
    • Creative Writing Benchmark v3 (2025)
    • WildBench (2024)
    • WritingPreferenceBench (2025)
  • 对于 FollowBench 和 InfoBench,作者通过从同一模型 (Qwen-3-8B/14B) 中采样两个 Response ,并使用基准的验证器来识别违反约束的情况,将原始的单 Response 设置转换为 Pairwise 评估
  • 遵循每个基准的官方划分和评分规则,报告准确率、胜率或特定基准指标

Performance of Rubric-ARM

  • 表 1 比较了 RuBric-ARM 与广泛的 Judge/奖励模型集合
  • 在所有白盒方法中,RuBric-ARM 实现了最佳的平均性能,将 Rubric-RM 从 70.1 提升到 74.8,并通过 voting@5 达到 76.2
  • 这些提升在指令遵循和偏好风格基准上都是一致的,支持了作者的核心贡献:RuBric-ARM 通过 RL 学习了更具区分性的 rubrics 和一个更可靠的 rubric-conditioned Judge
  • RuBric-ARM 也显著优于基于 API 的 Judges(例如,对于 Rubric+Judge API,76.2 对 71.3;
  • 对于直接 Judge API,76.2 对 64.9),这表明显式的 rubric-conditioned 学习比黑盒判断产生了更强且更稳定的评估信号
  • 作者进一步在 WritingPreferenceBench (2025) 上评估泛化能力,如图 2 所示(详细结果见表 12),该基准作为一个分布外基准,因为所有比较的奖励/Judge 模型都未在此领域上训练
    • 尽管存在这种分布偏移,RuBric-ARM 仍然表现强劲,在所有方法中取得了最佳总体得分 (63.2),优于 Rubric-RM (60.3) 和强大的推理奖励模型,如 RM-R1-Qwen2.5-7B (59.8)
    • 提升在不同写作体裁(例如,功能性、推广性、非虚构性和诗歌)上都很广泛
    • 表明 RuBric-ARM 学习的 rubrics 能够捕捉超越训练领域的可迁移准则,从而提供了具有改进的 OOD 泛化能力的鲁棒奖励信号

Ablation Study

  • 表 2 报告了两项消融研究,考察了
    • (i) Judge 和 rubric Generator 之间的优化顺序
    • (ii) 格式奖励 (format reward) 的贡献
    • 注:除非另有说明,所有设置均与 RuBric-ARM 保持相同
Optimization order
  • 作者的默认方案先更新 Judge,然后更新 rubric Generator ,之后交替进行
  • 调换此顺序 (switch opt) 会一致地损害性能:
    • 不使用投票的平均分从 \(74.8 \rightarrow 72.4\) (-2.4) 下降
    • 使用 voting@5 的平均分从 \(76.2 \rightarrow 74.9\) (-1.3) 下降
    • 在严格的指令遵循指标上尤其出现较大的衰退(例如,RewardBench2-Precise IF: \(41.9 \rightarrow 24.4\))
  • 这表明一个更强的 Judge 为 rubric 优化提供了噪声更少的学习信号
Format reward
  • 移除格式奖励 (w/o format) 也会降低结果:
    • 不使用投票的平均分从 \(74.8 \rightarrow 72.6\) (-2.2) 下降
    • 使用 voting@5 的平均分从 \(76.2 \rightarrow 75.5\) (-0.7) 下降
    • 最大的增益出现在对结构敏感的指标上(例如,RewardBench2-Precise IF: \(+16.3\))
  • 表明 \(R_{\text{fmt} }\) 有助于防止退化的判断行为(例如,遗漏准则检查)并改善对 rubric 的遵守

Performance of offline RL-based Policy Models

Instruction-Following Evaluation
  • 表 3 和图 3 显示,使用 RuBric-ARM 训练的奖励优化的策略在指令遵循性能上持续达到最强
    • 在 IFEval 上,使用 RuBric-ARM 的 DPO 将总体平均值提高到 80.4
      • iterative DPO 进一步将其提升到 80.8(最佳),在指令级约束上的提升尤其明显
    • 该优势也迁移到了开放式的 InfoBench 基准上
      • 使用 RuBric-ARM 的 DPO 达到 83.7
      • iterative DPO 达到 85.0(最佳)
    • 与迭代基线相比,RuBric-ARM 持续更强:
      • 在 IFBench(图 3)上,RLCF 通过 IterDPO 从 28.2 提升到 32.0,
      • RuBric-ARM 通过 IterDPO 达到 35.4;
    • 类似地,迭代的 Rubric-RM 达到 33.7,仍低于 RuBric-ARM
    • 总体而言,这些结果表明 RuBric-ARM 提供了更精确的奖励信号,并且迭代优化放大了相对于单次 DPO 和迭代基线的增益
Human Preference Alignment Evaluation
  • 表 4 和表 5 表明,使用 RuBric-ARM 训练的奖励在受控和开放领域的评估中都能持续产生更强的偏好对齐
    • 在 Arena-Hard 和 AlpacaEval(表 4)上,使用 RuBric-ARM 的 DPO 取得了最佳总体平均值 (51.7),而 IterDPO 进一步将其提升到 53.4(最佳)
    • 在 WildBench(表 5)上,RuBric-ARM 再次产生最强的宏观得分:
      • 通过 RuBric-ARM 的 DPO 达到 53.7,而通过 RuBric-ARM 的 IterDPO 达到 55.7(最佳),相比于使用 Rubric-RM 的 IterDPO (54.0) 提升了 1.7%,表明在广泛的现实世界任务上,对齐偏好的帮助性得到了改善
Creative Writing
  • 作者进一步评估基于 RuBric-ARM 的奖励是否有利于 Creative Writing Benchmark v3 上的开放式生成(图 4)
  • 使用 RuBric-ARM 训练的策略优于基线:
    • 使用 RuBric-ARM 的 DPO 达到 39.0,而 IterDPO 进一步改进到 39.3(最佳)
  • 基于 RuBric-ARM 的优化也超越了强大的创意写作基线,如 RAR (38.8) 和 RuscaRL (38.6)
    • 这表明 RuBric-ARM 学习到的奖励能够很好地泛化到主观的、不可验证的生成任务,超越了标准的指令遵循和偏好对齐

Performance of online RL-based Policy Models

  • 通过使用不同的奖励模型,用 GRPO(第 4.3 节)直接优化 Qwen2.5-7B-Instruct,在 Online RL 设置中评估 RuBric-ARM
  • 如表 6 所示,与基础模型和强奖励基线 RM-R1 相比,使用 RuBric-ARM 训练的奖励进行 GRPO 显著提升了指令遵循和偏好对齐
  • 具体来说,Qwen2.5-7B-Instruct 的平均得分为 46.8,而使用 RM-R1 的 GRPO 将其提高到 52.3
  • 将奖励替换为 RuBric-ARM 则获得了最佳的整体性能,平均达到 55.4
    • 提升在指令遵循和人类偏好对齐指标上都是一致的,这表明 RuBric-ARM 为 GRPO 提供了更有效的在线学习信号

Effect of Iterative Policy Optimization

  • 图 5 评估了使用 RuBric-ARM 进行迭代 DPO 超过三个优化迭代的性能
  • 平均性能在迭代过程中单调增加,这表明使用基于 RuBric-ARM 的监督迭代细化策略会产生渐进式更好的对齐
  • 这些结果表明,RuBric-ARM 提供了足够稳定的信号来支持多轮离线优化而不会出现性能下降

Efficiency Comparison

  • 表 7 报告了在 100 个 RewardBench2 prompts 上的挂钟时间
  • Rubric-ARM 使用了两个 Qwen-3-8B 模块(rubric Generator + Judge),但 RuBric-ARM 在 33.50 秒内运行
    • 注:这比大多数基于推理和 Rubric-based 基线更快
  • 虽然 JudgeLRM 略快,但它不提供显式的、可解释的 rubric-conditioned 信号,而这是 RuBric-ARM 为下游策略优化所设计的
  • 本文的 rubric-Judge 设计用简短的 rubric 生成和轻量级判断取代了长链的 CoT,产生了强大的效率
  • RuBric-ARM 也比 Rubric-RM 更快,后者通常生成更长的 rubric 列表并产生更高的开销

Case Study

  • 论文对具有挑战性的示例上基线奖励模型的失败进行了定性分析
  • 表 8 展示了一个关于“拇指战争 (thumb war)”的 RewardBench Chat-Hard 实例:
    • 基于推理的模型(例如,RRM-7B 和 JudgeLRM)被“战争 (war)”一词分散了注意力,并错误地偏好一个关于武装冲突的 Response
    • RuBric-ARM 生成并强制执行了一个包含关于拇指战争的明确 Hard Rule 的 rubric,从而做出了正确的偏好判断
    • 作者在附录 D.3 中提供了额外的 IFBench 示例,其中 RuBric-ARM 可靠地提取了硬性约束并正确判断,而 Rubric-RM 则失败了

补充:Related Works

LLM-based Reward and Judge Models

  • Zheng等人 (2023) 确立了 LLM-based 的 Judge 的基础效用
    • 后续研究扩展了推理范围,包括思维链 (2025)、自我批判 (2024, 2025b, 2024) 或策略性的计划评估 (2025)
  • Liu等人 (2025c) 探索了生成式奖励模型的推理时推理
  • 最近的研究 (2025, 2026, 2026, 2025, 2025, 2026) 利用在线强化学习直接激励详细推理,旨在减轻偏见并增强点式和 Pairwise 评分的准确性

Rubrics-based Reward Models

  • Rubric-based 方法已成为 LLM 评估 (2025, 2024, 2025, Akyü2025)、对齐 (2025, 2026) 和推理 (2026, 2025, 2025) 的一个有前景的方向
  • 一个独特的挑战在于大规模生成高质量的 Rubric
    • Li等人 (2026), Liu等人 (2025a), Xie等人 (2025) 从 Pairwise 比较信号中提取 Rubric
    • Rezaei 等人 (2025), Zhang等人 (2026), Shao等人 (2025) 则通过在线设置中利用策略模型输出动态生成 Rubric

附录 A:关于组相对策略优化 GRPO 的细节

  • GRPO 是一种仅包含行动者(actor-only)的策略优化方法,它通过使用 Prompt 内的平均奖励作为基线来减少方差
  • 对于每个 Prompt \(q\),GRPO 从旧策略 \(\pi_{\theta_{\mathrm{old} } }(\cdot |q)\) 中采样一组 Response \(O = \{o_{1},o_{2},\ldots ,o_{G}\}\),为每个 token 计算一个组归一化的优势(advantage)\(\widehat{A}_{i,t}\),然后执行 PPO 风格的裁剪更新
  • 遵循 Yu 等人 (2025a) 的做法,作者使用更大的裁剪阈值 \(\epsilon_{\mathrm{high} }\) 来增加信息丰富的 Prompt 的权重
    $$\mathcal{I}_{\mathrm{GRPO} }(\theta) = \underset {q\sim P(Q),O\sim \pi_{\theta_{\mathrm{old} } }(\cdot |q)}{\mathbb{E} }\left[\frac{1}{G}\sum_{i = 1}^{G}\frac{1}{|o_{i}|}\sum_{t = 1}^{|o_{i}|}\min \left(\rho_{i,t}(\theta)\widehat{A}_{i,t},\mathrm{clip}\left(\rho_{i,t}(\theta),1 -\epsilon_{\mathrm{low} },1 + \epsilon_{\mathrm{high} }\right)\widehat{A}_{i,t}\right) -\beta \mathbb{D}_{\mathrm{KL} }[\pi_{\theta}| \pi_{\mathrm{ref} }]\right],$$
    • 其中 \(\rho_{i,t}(\theta) = \frac{\pi_{\theta}(o_{i,t}|q\rho_{i,t})}{\pi_{\theta_{\mathrm{old} } }(o_{i,t}|q\rho_{i,t})}\) 是 token 级别的重要性比率

附录 B:详细的理论推导

  • 第5节中方差分析的完整证明
  • 详情见原论文附录

附录 C:实现细节

  • 表 9 和表 10 显示了在 Rubric-ARM 和策略模型训练中使用的超参数
    • Table 9: Hyper-parameters used in Rubric-ARM training
      模块 参数 值 模块 参数 值
      Rubric Generator #generations 6 Judge #generations 7
      Cutoff Length 512 Cutoff Length 1024
      Batch Size 288 Batch Size 224
      Optimizer AdamW Optimizer AdamW
      Learning Rate 1e-6 Learning Rate 1e-6
      Temperature 1.0 Temperature 1.0
      #iterations 2 #iterations 2
      Epochs 1 Epochs 1
      εhigh 0.28 εhigh 0.28
      εlow 0.2 εlow 0.2
      β 0.001 β 0.001
    • Table 10: Hyper-parameters used in policy model training
      方法 参数 值 方法 参数 值
      DPO Cutoff Length 2048 GRPO #generations 6
      Batch Size 64 Cutoff Length 2048
      Optimizer AdamW Batch Size 288
      Learning Rate 8e-7 Optimizer AdamW
      Epochs 1 Learning Rate 5e-7
      beta 0.1 Temperature 1.0
      SFT mixing weight 0.2 #iterations 2
      // // Epochs 1
      // // εhigh 0.28
      // // εlow 0.2
      // // β 0.001
  • 作者基于 ms-swift 库实现了 GRPO 训练,并基于 LLaMA-Factory2 (2024) 实现了 DPO 和 IterDPO
  • 作者总共进行了 3 轮 Rubric-ARM 交替强化学习训练
  • 推理中使用的采样参数总结在表 11 中
    • Table 11: Sampling parameters used in Rubric-ARM inference
      模块 参数 值 模块 参数 值
      Rubric Generator Maximum Tokens 1024 Judge Maximum Tokens 4096
      Temperature 0.0 Temperature 1.0
      Top-P 1.0 Top-P 1.0
      Top-K -1 Top-K -1
      Enable-thinking False Enable-thinking False
  • 对于基线方法,作者使用了与其官方实现和论文相同的采样参数

附录 D:额外的实验结果

D.1. 在 WritingPreferenceBench 上的表现

  • 表 12 中展示了在 WritingPreferenceBench 上的表现
  • Table 12: Comparison of different Judge and reward models on WritingPreferenceBench. Best results are highlighted in bold
    Func. Promo. Non-Fic. Fiction Funny Poetry Script Role AVG
    LLM as Judge (black-box model)
    Claude-4-Opus-thinking 65.7 64.3 64.1 60.1 54.2 64.0 43.5 51.7 61.0
    OpenAI-o4-mini 58.3 58.6 60.9 55.5 53.2 68.0 30.4 55.2 56.6
    Gemini-2.5-Flash 59.1 57.7 62.5 59.8 52.2 56.0 34.8 51.7 57.5
    White-box Reward Models
    Skywork-Llama-3.1-8B 53.6 56.3 60.6 49.0 52.2 56.0 65.2 41.4 53.1
    Skywork-Gemma-2-27B 49.0 53.9 59.6 33.9 55.1 36.0 21.7 51.7 46.8
    RM-R1-DeepSeek-Qwen-7B 62.5 55.1 59.2 55.4 58.0 56.0 65.2 41.4 57.4
    RM-R1-Qwen2.5-7B 67.0 57.2 53.9 60.0 54.6 72.0 47.8 65.5 59.8
    RRM-7B 50.0 35.3 50.0 49.5 38.5 36.4 45.5 53.8 44.7
    Rubric-based Models
    Rubric-RM 58.3 58.5 57.9 58.3 58.0 76.0 47.8 55.2 60.3
    Rubric-ARM 67.8 63.1 65.8 60.9 61.0 80.0 47.8 55.2 63.2

D.2. 位置偏差分析

  • 本节研究 Pairwise Judge 和奖励模型中的位置偏差(position bias),其中预测的偏好可能取决于两个 Response 的相对顺序 (2025)
  • 作者评估了三种 Setting(注意:这里不是指的训练,而是推理 Setting):
    • (1) 保持 Response 顺序与原始数据集相同
    • (2) 翻转所有实例的顺序
    • (3) 在每个实例的基础上随机翻转顺序
  • 表 13 报告了在 RewardBench 和 IF 评估基准上的结果
    • 基线方法表现出显著的位置偏差
      • 对于 RRM-7B,改变顺序导致 PPE-IFEval 有 46.2 分的差异 (75.8 vs. 29.6)
      • 对于 RM-R1-7B (Qwen-2.5-Inst),翻转顺序使 InfoBench 改变了 11.9 分 (81.8 vs. 69.9)
      • 对于 RM-R1-7B (DeepSeek-Dist),顺序敏感性仍然很大
        • InfoBench 有 9.9 分的差异 (78.3 vs. 68.4),FollowBench 有 9.3 分的差异 (79.0 vs. 69.7)
      • 问题:这些基线方法训练时没有做过位置偏差处理吗?
    • Rubric-ARM 在不同顺序下始终保持稳定,表明位置偏差显著降低且评估更稳健
      • 这一设计选择与作者的强化学习训练设计一致,即在收集奖励信号时随机化 Response 顺序,这进一步减轻了下游策略优化中的位置偏差

D.3. 附加案例研究

  • 本节将 Rubric-ARM 与另一个使用 SFT 训练的 Rubric-based 奖励模型 Rubric-RM 进行比较
    • 对比一个从 IFBench 中随机选择的示例
    • 该案例指定了关键词和段落长度
  • 结果如表 14 所示
    • 在这个需要特定关键词和恰好两个段落的 IFBench 示例中
      • 基线 Rubric-RM 出现了判断幻觉(judging hallucination),错误地声称一个有效的 Response 被分成了三个段落
      • Rubric-ARM 准确地提取了这些硬约束,识别出了负样本中缺失的开源(open-source)关键词,同时正确地验证了正样本的结构

附录 E:Prompts

  • 本节展示使用的 prompts
  • 注:对于基线方法,作者采用了其官方实现和论文中的 prompts

Prompt for Rubric Generation (Rubric-ARM)

  • 中文版:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    你的任务是从用户的请求中提取一组评分细则(rubric-style)式的指令。这些细则将用作评估标准,以检查 Response 是否完全满足请求。每个细则项必须是一个通用原则。如果任何细则仍然包含特定主题的引用(例如,名称、地点、神话、数字、历史事实),则自动视为无效

    * **两个不同的类别:** (Two Distinct Categories)
    -[硬规则] (Hard Rule): 严格从 <request> 中明确陈述的要求(格式、长度、结构、禁止/必需元素等)推导而来
    -[原则] (Principle): 通过将任何具体线索抽象为领域无关的质量标准(例如,清晰度、正确性、合理的推理、教育性)推导而来
    * **全面性:** (Comprehensiveness) 细则必须涵盖请求和示例所隐含的所有关键方面,包括明确的要求和隐含的质量标准
    * **简洁性与唯一性:** (Conciseness & Uniqueness) 每个细则必须捕捉一个独特的评估标准。重叠或冗余的标准必须合并为一个细则。措辞必须精确且无重复
    * **格式要求:** (Format Requirements) 使用编号列表。每个项目以第三人称表述的 "The response" 开头。在每个项目的末尾附加 [Hard Rule] 或 [Principle]。最终输出中不要包含推理、解释或示例

    这是请求: {prompt}

    请为上述请求生成评分细则
    • 问题:生成 Rubric 的 Prompt 有点简单,可能会生成不够标准的,比如考虑安全性等
    • 问题:本文生成的 Rubric 都是 Query-specific 的,不是 General 的,且没有使用 Reference Response
    • 类似 OpenRubrics 的方案,将 rubrics 分为两种互补类型:
      • (i) 硬规则(Hard Rules) ,捕捉用户 Prompt 中陈述的显式要求;
      • (ii) 原则(Principles) ,描述更高级别的定性方面,如推理合理性、事实性、或风格连贯性

Prompt for Judge Generation (Rubric-ARM)

  • 中文版:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    你是一个公平公正的 Judge。你的任务是根据给定的指令和一个评分细则(rubric)来评估 'Response A' 和 'Response B'。你将按照下面概述的 distinct phases(不同阶段)进行此次评估

    ### Phase 1: 合规性检查指令 (Compliance Check Instructions)
    首先,从评分细则中识别出最重要、最客观的 'Gatekeeper Criterion'(守门员标准)
    * **一条规则是客观的(并且很可能是 Gatekeeper),如果它可以无需观点即可验证。关键例子有:字数/段落限制、要求的输出格式(例如 JSON 有效性)、要求/禁止的部分,或禁止的内容。**
    * **相反,一条规则是主观的,如果它需要解释或定性判断。关于质量的主观规则不是 Gatekeeper。例子包括诸如"要有创意"、"写得清晰"、"引人入胜"或"使用专业的语气"等标准。**

    ### Phase 2: 分析每个 Response (Analyze Each Response)
    接下来,对于每个 Gatekeeper Criterion 和评分细则中的所有其他标准,逐项评估每个 Response

    ### Phase 3: 最终判断指令 (Final Judgment Instructions)
    基于前几个阶段的结果,使用这些简单的规则确定胜者。提供一个最终理由解释你的决定,然后给出你的决定

    ### 必需的输出格式 (REQUIRED OUTPUT FORMAT)
    你必须遵循以下确切的输出格式

    -Compliance Check
    -Identified Gatekeeper Criterion: <例如,标准1:必须在50字以内。>

    Analysis
    **Response A:**
    -Criterion 1 [Hard Rule]: Justification: <...>
    -Criterion 2 [Hard Rule]: Justification: <...>
    -Criterion 3 [Principle]: Justification: <...>
    -... (对所有其他标准依此类推)

    **Response B:**
    -Criterion 1 [Hard Rule]: Justification: <...>
    -Criterion 2 [Hard Rule]: Justification: <...>
    -Criterion 3 [Principle]: Justification: <...>
    -... (对所有其他标准依此类推)

    Final Judgment
    Justification: <...>
    Winner: <Response A / Response B>

    Task to Evaluate:
    Instruction: {instruction}
    Rubric: {rubric}
    Response A: {response_a}
    Response B: {response_b}
    • 问题:判定设计的如此复杂吗?一般的模型会不会能力不太够用?

NLP——技术报告解读-Kimi-K2.5

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Kimi K2.5: Visual Agentic Intelligence, Moonshot AI (Kimi), 20260131
    • 原始博客链接:Kimi K2.5: Visual Agentic Intelligence, 20260127

Paper Summary

  • 注:Kimi-K2.5 是一个统一的模型,但提供了两种不同的模式:Thinking Mode(思考模式)和 Instant Mode(即时模式)
    • 所以在 LMArena 上排名会是有两个名字:kimi-k2.5-thinking 和 kimi-k2.5-instant;
    • 两者表示同一个模型的两种不同模式
  • 总体评价:
    • 与 Kimi-K1.5 间隔差不多刚好一年,Kimi-K2.5 终于出山,Kimi 的发挥依然稳定,Kimi-K2.5 让人看到了一些惊喜
    • 亮点1:原生多模态(K2.5 让文本与视觉两种模态融合,并实现了互相增强)
      • 联合文本-视觉预训练 (joint text-vision pre-training)
      • zero-vision SFT(Text-only SFT)
      • 联合文本-视觉强化学习 (joint text-vision reinforcement learning)
    • 亮点2:Agent Swarm
      • Agent Swarm 是一个自导向的并行智能体编排框架,能够动态地将复杂任务分解为异构子问题并并发执行
      • Agent Swarm 的异构子任务并发执行,减少推理延迟的同时,提升了工作性能(注:延迟相比单 Agent 最多可降低达 \(4.5\times\))
    • Kimi K2.5 在包括编码、视觉、推理和智能体任务在内的各个领域均取得了当前开源 SOTA(甚至跟闭源模型硬刚)
      • 在各种指标上,对比的 Baseline 都是闭源模型
  • 指标对比图:

Introduction and Discussion

  • 智能体智能(Agentic Intelligence)模型逐渐表现出一些智能:可以将复杂问题分解为多步骤计划,并执行交错的推理和动作长序列
  • 论文核心创新1:Joint Optimization of Text and Vision
    • K2.5 实践中的一个关键 Insight 是:文本与视觉的联合优化能同时增强两种模态并避免冲突
    • 预训练阶段:
      • 作者发现,预训练期间,在给定的视觉-文本 Token 总数下,早期融合且视觉占比较低往往能产生更好的结果
        • 注:这不同于在后期向文本主干添加视觉 Token 的传统方法 (2023, 2025)
        • K2.5 在 整个训练过程中以恒定比例混合文本和视觉 Token
      • 在架构上,Kimi K2.5 采用了 MoonViT-3D
        • MoonViT-3D 是一个原生分辨率的视觉 Encoder,结合了 NaViT 打包策略 (2023),支持可变分辨率的图像输入
      • For 视频理解(Video Understanding),作者引入了一种轻量级的 3D ViT 压缩机制:
        • 连续的帧以四帧为一组,通过共享的 MoonViT Encoder 处理,并在图像块层面进行时间平均
        • 这种设计使得 Kimi K2.5 能够在相同的上下文窗口中处理长达 \(4\times\) 的视频,同时保持图像和视频 Encoder 之间的完全权重共享
    • 后训练阶段
      • 作者引入了 Zero-vision SFT,即仅使用文本的 SFT 就能激活视觉推理和工具使用
      • 作者发现,在此阶段添加人工设计的视觉轨迹会损害泛化能力;相反,仅文本的 SFT 表现更好(作者推测可能是因为联合预训练已经建立了强大的视觉-文本对齐,使得能力能够自然地跨模态泛化)
      • SFT 后,作者在文本和视觉任务上应用联合 RL
      • 作者发现视觉 RL 增强了文本性能 ,在 MMLU-Pro 和 GPQA-Diamond 上有所提升
        • 这种双向增强 :即文本引导视觉,视觉精炼文本,代表了联合训练中优越的跨模态对齐
  • 论文核心创新2:Agent Swarm: Parallel Agent Orchestration
    • 大多数现有的智能体模型依赖于工具调用的顺序执行
      • 即使是能够执行数百个推理步骤的系统,例如 Kimi K2-Thinking (2025),也面临推理时间线性缩放的问题,导致不可接受的延迟并限制了任务复杂性
      • 随着智能体工作负载在范围和异构性上增长(例如,构建涉及大规模研究、设计和开发的复杂项目),顺序范式变得越来越低效
    • 为了克服顺序智能体执行的延迟和可扩展性限制,Kimi K2.5 引入了 Agent Swarm(并行智能体编排的动态框架)
      • 作者提出了一个并行智能体强化学习 (Parallel-Agent Reinforcement Learning, PARL) 范式(不同于传统的智能体 RL)
      • 除了通过可验证的奖励来优化工具执行 外,模型还配备了创建子智能体(Sub-agent)和任务委派的接口
      • 在训练期间,子智能体被冻结,其执行轨迹从优化目标中排除;只有编排器通过强化学习进行更新
        • 这种解耦规避了端到端协同优化的两个挑战:信用分配模糊性 和训练不稳定性
    • Agent Swarm 使得复杂任务能够被分解为由领域专业化智能体并发执行的异构子问题,将任务复杂性从线性缩放转变为并行处理
      • 在广泛搜索场景中,与单智能体基线相比,Agent Swarm 将推理延迟降低了多达 \(4.5\times\),同时将项目级 F1 从 \(72.8%\) 提高到 \(79.0%\)
  • Kimi K2.5 代表了通用智能体智能的统一架构,集成了视觉与语言、思考与即时模式、聊天与智能体
    • 在作者内部评估中取得视觉到代码生成(图像/视频到代码)和现实世界软件工程方面的 SOTA 结果

Joint Optimization of Text and Vision

  • Kimi K2.5 是基于 Kimi K2 的原生多模态模型(大约 15T 混合视觉和文本 Token 联合预训练)
  • 不同于在语言或视觉能力上有所妥协的视觉适应模型,Kimi K2.5 的联合预训练范式同时增强了两种模态

Native Multimodal Pre-Training(原生多模态)

  • 多模态预训练的一个关键设计问题是:在给定的视觉-文本 Token 预算下,什么是优化的视觉-文本联合训练策略
    • 传统观点 (2023, 2025) 认为,主要在 LLM 训练的后期阶段以高比例(例如,\(50%\) 或更高)引入视觉 Token 应能加速多模态能力获取
      • 理解:这种方式本质将多模态能力视为语言能力的事后附加功能
  • 但 Kimi 团队的实验(如表 1/图 9 所示)揭示了一个不同的情况
    • 作者在保持视觉和文本 Token 总预算固定的情况下,进行了不同视觉比例和视觉注入时机的消融研究
    • 为了严格满足不同比例的目标,作者在引入视觉数据之前,先用纯文本 Token 对模型进行了特定计算出的 Token 数量的预训练
      • 令人惊讶的是,作者发现视觉比例对最终的多模态性能影响微乎其微
      • 事实上,在固定的视觉-文本总 Token 预算下,早期融合且视觉占比较低会产生更好的结果
    • 这启发了作者的原生多模态预训练策略:不是将密集的视觉训练集中在训练末期,而是采用中等视觉比例,在训练过程的早期就进行整合,使得模型能够在扩展的双模态协同优化中自然发展出平衡的多模态表征

Zero-Vision SFT

  • 经过预训练的 VLM 不会自然地执行基于视觉的工具调用,所以作者需要对多模态 RL 做冷启动
  • 传统方法通过手动标注或提示工程设计的 CoT 数据 (2023) 来解决这个问题
    • 但此类方法多样性有限 ,通常将视觉推理限制在简单图表和原始工具操作(裁剪、旋转、翻转)
    • 一个观察是:高质量的文本 SFT 数据相对丰富且多样
  • 作者提出了 zero-vision SFT(其他文章没有使用过的方法),在后训练期间仅使用文本 SFT 数据 来激活视觉和智能体能力
    • 在这种方法中,所有图像操作都通过 **IPython 中的程序化操作来代理** ,有效地作为传统视觉工具使用的泛化
      • 问题:如何理解这里的方法?
    • 这种“零视觉”激活能够实现多样化的推理行为,包括通过二值化和计数进行物体尺寸估计等像素级操作,并泛化到基于视觉的任务,如物体定位、计数和 OCR
  • 图 2 展示了 RL 训练曲线,其起点来自零视觉 SFT
    • 零视觉 SFT 足以激活视觉能力,同时确保跨模态的泛化
    • 这种现象可能是由于第 2.1 节所述的文本和视觉数据的联合预训练所致
    • 与零视觉 SFT 相比,作者的初步实验表明,文本-视觉 SFT 在视觉智能体任务上表现要差得多,可能是因为缺乏高质量的视觉数据

Joint Multimodal Reinforcement Learning (RL)

Outcome-Based Visual RL
  • 零视觉 SFT 之后,模型需要进一步精炼以可靠地将视觉输入纳入推理
    • 仅文本启动的激活表现出明显的失败模式:有时会忽略视觉输入,并且必要时可能不会关注图像
    • 作者在明确需要视觉理解才能获得正确答案的任务上采用基于结果的 RL
  • 作者将这些任务分为三个领域:
    • 视觉定位与计数 (Visual grounding and counting):精确地定位和枚举图像内的物体;
    • 图表与文档理解 (Chart and document understanding):解释结构化的视觉信息和文本提取;
    • 视觉关键 STEM 问题 (Vision-critical STEM problems):筛选出需要视觉输入的数学和科学问题
  • 在这些任务上的基于结果的 RL 提高了基本的视觉能力和更复杂的智能体行为
    • 提取这些轨迹用于拒绝采样微调 RFT 能够建立一个自我改进的数据管道,使得后续的联合 RL 阶段能够利用更丰富的多模态推理轨迹
Visual RL Improves Text Performance
  • 为了研究视觉和文本性能之间潜在的权衡,作者在视觉 RL 前后评估了纯文本基准测试
  • 惊喜是,基于结果的视觉 RL 在文本任务中 产生了可衡量的改进
    • MMLU-Pro \((84.7% \rightarrow 86.4%)\)
    • GPQA-Diamond \((84.3% \rightarrow 86.4%)\)
    • LongBench v2 \((56.7% \rightarrow 58.9%)\)(表 2)
  • 分析表明,视觉 RL 增强了在需要结构化信息提取的领域的校准能力,减少了类似基于视觉的推理(例如,计数、OCR)查询的不确定性
    • 这些发现表明,视觉 RL 可以促进跨模态泛化,改善文本推理,同时没有观察到语言能力的退化
Joint Multimodal RL
  • 作者在 Kimi K2.5 的后训练期间采用了联合多模态 RL 范式
    • 作者在论文中声称这是:受到视觉能力可以从零视觉 SFT 配合视觉 RL 中涌现这一发现的启发
  • 与传统的特定模态专家划分不同,作者不是按输入模态,而是按能力(知识、推理、编码、智能体等)来组织 RL 领域
    • 这些领域专家共同从纯文本和多模态查询中学习,而生成式奖励模型(GRM)同样在没有模态障碍的情况下优化异构轨迹
    • 这种范式确保了通过文本或视觉输入获得的能力提升能够固有地泛化,以增强相关跨模态能力,从而最大化跨模态能力迁移

Agent Swarm

  • 现有基于智能体的系统的主要挑战在于它们依赖于推理和工具调用步骤的顺序执行
    • 这种结构对于较简单的、短视距的任务可能有效,但无法处理任务复杂性高和累积上下文长的场景
  • 一个单智能体按顺序执行每一步的有限容量可能导致实际推理深度和工具调用预算的耗尽,最终阻碍系统处理更复杂场景的能力
  • 作者引入了 Agent Swarm 和 PARL (Parallel Agent Reinforcement Learning)
    • K2.5 不是将任务作为推理链执行或依赖预定义的并行化启发式方法,而是通过动态任务分解、子智能体实例化和并行子任务调度来启动一个 Agent Swarm
    • 重要的是,并行性并非被假定为固有优势;关于是否、何时以及如何并行化的决策是通过环境反馈和 RL 驱动的探索来明确学习的
    • 如图 4 所示,性能的进展展示了这种自适应能力,随着编排器在整个训练过程中优化其并行化策略,累积奖励平稳增长

Architecture and Learning Setup

  • PARL 框架采用了一种解耦架构,包含一个可训练的编排器和从固定中间策略检查点实例化的冻结子智能体
  • 这种设计有意避免端到端的协同优化,以规避两个基本挑战:信用分配模糊性和训练不稳定性
    • 在这种多智能体设置中,基于结果的奖励本质上是稀疏且有噪声的;
      • 一个正确的最终答案并不保证子智能体执行的完美无缺,正如一个失败并不暗示所有子智能体都有错误
    • 作者通过冻结子智能体并将其输出视为环境观察而非可微分的决策点 ,将高层协调逻辑与低层执行能力分离开来,从而实现更稳健的收敛
    • 为了提高效率,作者首先使用小型子智能体训练编排器,然后过渡到更大的模型
    • 作者的 RL 框架 还 支持动态调整子智能体和编排器之间的推理实例比例,最大化集群内的资源使用率

PARL Reward

  • 由于独立子智能体执行固有的延迟、稀疏和非平稳反馈,训练一个可靠的并行编排器具有挑战性
  • 为了解决这个问题,作者将 PARL 奖励定义为:
    $$r_{\mathrm{PARL} }(x,y) = \lambda_{1}\cdot \underbrace{r_{\mathrm{parallel} } }_{\mathrm{instantiation reward} } + \lambda_{2}\cdot \underbrace{r_{\mathrm{finish} } }_{\mathrm{sub-agent finish rate} } + \underbrace{r_{\mathrm{perf} }(x,y)}_{\mathrm{task-level outcome} }.$$
  • 解读:
    • 性能奖励 \(r_{\mathrm{perf} }(x, y)\) 评估给定任务 \(x\) 的解决方案 \(y\) 的整体成功和质量
    • 另外两个辅助奖励用于增强 \(r_{\mathrm{perf} }(x, y)\),每个辅助奖励都解决了学习并行编排中的一个独特挑战
      • 引入奖励 \(r_{\mathrm{parallel} }\) 是为了缓解串行崩溃(一种编排器默认使用单智能体执行的局部最优)
        • 通过激励子智能体实例化,该项鼓励探索并发调度空间
        • 理解:多智能体训练时模型也会倾向于使用单智能体完成任务,从而陷入局部最优
      • 奖励 \(r_{\mathrm{finish} }\) 专注于已分配子任务的成功完成
        • 它用于防止虚假并行性,即一种 Reward Hacking 行为,其中编排器通过生成许多没有有意义的任务分解的子智能体来急剧增加并行指标
        • 通过奖励完成的子任务,\(r_{\mathrm{finish} }\) 强制执行可行性,并引导策略走向有效且有效的分解
    • 为了确保最终策略优化主要目标,超参数 \(\lambda_{1}\) 和 \(\lambda_{2}\) 在训练过程中逐渐退火至零
      • 理解:这两个辅助奖励本身类似于手脚架的作用,初期用于防止陷入局部最优,或 Reward Hacking,后期可以逐步丢弃

Critical Steps as Resource Constraint(将关键步骤作为资源约束)

  • 为了在并行智能体设置中衡量计算时间成本,作者类比计算图中的关键路径(Critical Path)来定义 Critical Steps
    • 理解:这里的 Critical Steps 就是指步数最大的那个路径(这里应该是用步数来表示资源约束,类似时间或者 Token 量、请求数等)
  • 作者将一个回合建模为一系列执行阶段,索引为 \(t = 1,\ldots ,T\)
  • 在每个阶段,主智能体执行一个动作,该动作对应于直接工具调用或一组并行运行的子智能体的实例化
    • 令 \(S_{\mathrm{main} }^{(t)}\) 表示主智能体在阶段 \(t\) 中采取的步数(通常 \(S_{\mathrm{main} }^{(t)} = 1\)),\(S_{\mathrm{sub},i}^{(t)}\) 表示该并行组中第 \(i\) 个子智能体采取的步数
    • 阶段 \(t\) 的持续时间由该组中运行时间最长的子智能体决定
  • 一个回合的总 Critical Steps 定义为:
    $$\mathrm{CriticalSteps} = \sum_{t = 1}^{T}\left(S_{\mathrm{main} }^{(t)} + \max_{i}S_{\mathrm{sub},i}^{(t)}\right).$$
  • 通过使用 Critical Steps而非总步骤来约束训练和评估 ,该框架明确激励有效的并行化
    • 过多的子任务创建如果不能减少并行组的最大执行时间,在此指标下几乎没有好处,而平衡良好的任务分解缩短了最长的并行分支,直接减少了 Critical Steps
    • 因此,鼓励编排器以最小化端到端延迟,而非仅仅最大化并发性或总工作量的方式在子智能体之间分配工作

Prompt Construction for Parallel-agent Capability Induction

  • 为了激励编排器利用并行化的优势,作者构建了一套合成提示,旨在测试顺序智能体执行的极限
    • 这些提示要么强调广泛搜索,需要同时探索许多独立的信息源,要么强调深度搜索,需要多个延迟聚合的推理分支
  • 作者还加入了受现实世界工作负载启发的任务,例如长上下文文档分析和大规模文件下载
    • 当顺序执行时,这些任务很难在固定的推理步骤和工具调用预算内完成
    • 通过构造,它们鼓励编排器并行分配子任务,使得完成所需的 Critical Steps 比单个顺序智能体要少
    • 重要的是,提示词没有明确指示模型进行并行化。相反,它们塑造了任务分布(Task Distribution),使得并行分解和调度策略自然地被青睐

Method Overview

Foundation: Kimi K2 Base Model

  • Kimi K2.5 的基础是 Kimi K2 (2025)
    • Kimi K2 是在 15 万亿高质量文本 token 上进行预训练的万亿参数 MoE Transformer
    • Kimi K2 采用 token 高效的 MuonClip 优化器 (2024, 2025) 和 QK-Clip 来确保训练稳定性
    • 模型参数 1.04T-A32B ,使用 384 个专家,每个 token 激活 8 个 (稀疏度为 48)
    • 关于 MuonClip、架构设计和训练基础设施的详细描述,请参阅 Kimi K2 技术报告 (2025)

Model Architecture

  • Kimi K2.5 的多模态架构由三个组件组成:
    • 一个三维原生分辨率视觉 Encoder (MoonViT-3D)
    • 一个 MLP 投影器
    • Kimi K2 MoE 语言模型,遵循 Kimi-VL (2025) 建立的设计原则
MoonViT-3D: Shared Embedding Space for Images and Videos
  • 在 Kimi-VL 中,作者使用 MoonViT 以原生分辨率处理图像,无需复杂的子图像分割和拼接操作
  • MoonViT 由 SigLIP-SO-400M (2023) 初始化,并融合了 NaViT (2023) 的 patch 打包策略,即将单个图像划分为 patch,展平后按顺序拼接成一维序列,从而实现不同分辨率图像的高效同步训练
  • 为了最大化将图像理解能力迁移到视频,作者引入了具有统一架构、完全共享参数和一致嵌入空间的 MoonViT-3D
  • 通过将“patch n’ pack”理念推广到时间维度,最多四个连续帧被视为一个时空体:
    • 来自这些帧的 2D patch 被联合展平并打包成一个单一的一维序列,使得相同的注意力机制可以无缝地在空间和时间上运行
  • 虽然额外的时序注意力有助于理解高速运动和视觉效果,但参数的共享最大化了从静态图像到动态视频的知识泛化,无需专门的视频模块或架构分叉即可实现强大的视频理解性能(见表 4)
  • 在 MLP 投影器之前,轻量级时序池化聚合每个时序块内的 patch,实现 \(4 \times\) 的时序压缩,从而显著延长可行的视频长度
  • 最终形成了一个统一的流程,通过一个共享的参数空间和特征表示,将从图像预训练中获得的知识和能力整体迁移到视频中

Pre-training Pipeline

  • 如表 3 所示,Kimi K2.5 的预训练基于 Kimi K2 语言模型检查点进行,分三个阶段处理大约 15T token:首先,独立的 ViT 训练以建立强大的原生分辨率视觉 Encoder ;其次,联合预训练以同时增强语言和多模态能力;第三,中期训练使用高质量数据和长上下文激活来精炼能力并扩展上下文窗口
ViT Training Stage
  • MoonViT-3D 在图像-文本和视频-文本对上进行训练
    • 其中文本组件包含多种目标:图像替代文本(image alt texts)、图像和视频的合成描述(synthetic captions of images and videos)、定位框(grounding bboxes)和 OCR 文本(OCR texts)
  • 训练遵循 CoCa (2022) 包含两个目标:SigLIP 损失 \(L_{\text{signip} }\)(对比损失的一种变体)和用于生成以输入图像为条件的描述的交叉熵损失 \(L_{\text{caption} }\)
  • 作者采用两阶段对齐策略
    • 第一阶段 ,作者仅优化描述生成损失 \(L_{\text{caption} }\),以使 MoonViT-3D 与 Moonlight-16B-A3B (2025) 对齐,消耗 1T token,此阶段 ViT 权重将被更新
    • 第二阶段 (非常短的),仅更新 MLP 投影器以将 ViT 与 1T 的 LLM 桥接,以实现更平滑的联合预训练
Joint Training Stages
  • 联合预训练阶段从接近尾声的 Kimi K2 检查点继续,在 4K 序列长度下额外处理 15T 视觉-文本 token
  • 数据配方通过引入独特 token、调整数据比例(增加编码相关内容的权重)以及控制每个数据源的最大训练轮数,扩展了 Kimi K2 的预训练分布
  • 第三阶段 通过集成的更高质量中期数据进行长上下文激活,通过 YaRN (2023) 插值依次扩展上下文长度
    • 这在长上下文文本理解和长视频理解方面带来了显著提升

Post-Training

Supervised Fine-Tuning
  • 遵循 Kimi K2 (2025) 建立的 SFT 流程,作者通过综合来自 K2、K2 Thinking 以及一系列内部专有专家模型的高质量候选响应来开发 K2.5
  • 数据生成策略采用了针对特定领域量身定制的专用流程,将人工标注与先进的提示工程和多阶段验证相结合
    • 这种方法产生了一个大规模的指令调优数据集,包含多样化的提示和复杂的推理轨迹,最终训练模型优先考虑交互式推理和精确的工具调用,以应对复杂的现实世界应用
Reinforcement Learning
  • 为了促进跨文本和视觉模态的联合优化,以及实现用于智能体集群的 PARL,作者开发了一个统一的智能体强化学习环境(附录 D)并优化了 RL 算法
  • 文本-视觉联合 RL 和 PARL 都建立在本节描述的算法之上
Policy Optimization
  • 对于从数据集 \(\mathcal{D}\) 中采样的每个问题 \(x\),使用先前的策略 \(\pi_{\mathrm{old} }\) 生成 \(K\) 个响应 \(\{y_{1},\ldots ,y_{K}\}\)
  • 作者针对以下目标优化模型 \(\pi_{\theta}\):
    $$L_{\mathrm{RL} }(\pmb {\theta}) = \mathbb{E}_{x\sim \mathcal{D} }\left[\frac{1}{N}\sum_{j = 1}^{K}\sum_{i = 1}^{|y_j|}\mathrm{Clip}\left(\frac{\pi_{\theta}(y_j^i|x,y_j^{0;i})}{\pi_{\mathrm{old} }(y_j^i|x,y_j^{0;i})},\alpha ,\beta\right)(r(x,y_j) - \bar{r} (x)) - \tau \left(\log \frac{\pi_{\theta}(y_j^i|x,y_j^{0;i})}{\pi_{\mathrm{old} }(y_j^i|x,y_j^{0;i})}\right)^2\right]. \quad (1)$$
    • \(\alpha ,\beta ,\tau >0\) 是超参数
    • \(y_{ij}^{0}\) 是第 \(j\) 个响应到第 \(i\) 个 token 的前缀
    • \(N = \sum_{i = 1}^{K}|y_{i}|\) 是一个批次中生成 token 的总数
    • \(\begin{array}{r}\bar{r} (x) = \frac{1}{K}\sum_{j = 1}^{K}r(x,y_{j}) \end{array}\) 是所有生成响应的平均奖励
  • 该损失函数与 K1.5 (2025) 中使用的策略优化算法不同,它引入了 token-level 的裁剪机制,旨在减轻由训练和推理框架之间的差异放大的离策略偏差
    • 该机制作为一个简单的梯度掩码方案:对于对数比在区间 \([\alpha ,\beta ]\) 内的 token,正常计算策略梯度,而对于超出此范围的 token,梯度设为零
  • 与标准 PPO 裁剪的一个关键区别在于,作者的方法严格依赖于对数比来明确限制离策略漂移,而不考虑优势 (advantage) 的符号
    • 这种方法与最近提出的稳定大规模 RL 训练的策略 (2025, 2025) 相一致
    • 经验上,作者发现这种机制对于在需要长视野、多步骤工具使用推理的复杂领域中保持训练稳定性至关重要
    • 作者使用 MuonClip 优化器 (2024, 2025) 来最小化这个目标
Reward Function
  • 对于具有可验证解决方案的任务(例如推理和智能体任务),应用基于规则的结果奖励
  • 为了优化资源消耗,作者还纳入了一个旨在提高 token 效率的预算控制奖励
    • 对于通用任务 ,作者采用生成式奖励模型 ,它提供与 Kimi 内部价值标准一致的细粒度评估
      • 问题:这里是说只使用 GRM 没有使用 BT RM 吗?
    • 对于视觉任务,作者设计特定于任务的奖励函数以提供细粒度的监督
      • 对于视觉定位和点定位任务,作者采用基于 F1 的软匹配奖励:定位任务从交并比 (Intersection over Union, IoU) 推导软匹配,点任务从最优匹配下的高斯加权距离推导软匹配
      • 对于多边形分割任务,作者将预测的多边形栅格化为二进制掩码,并根据与真实掩码的分割 IoU 来计算奖励
      • 对于 OCR 任务,作者采用归一化编辑距离来量化预测与真实值之间的字符级对齐
      • 对于计数任务,根据预测与真实值的绝对差异分配奖励
    • 此外,作者合成了复杂的视觉谜题问题,并利用 LLM 验证器 (Kimi K2) 来提供反馈
Generative Reward Models
  • Kimi K2 利用自评标准奖励 (self-critique rubric reward) 进行开放式生成 (2025),K2.5 通过系统性地在广泛的智能体行为和多模态轨迹上部署 GRMs 来扩展这项工作
  • 作者不仅将奖励建模局限于对话输出,还在多样化环境中的已验证奖励信号之上应用 GRMs,包括聊天助手、编码智能体、搜索智能体和工件生成智能体
  • 值得注意的是,GRMs 的功能不是二元判定者,而是与 Kimi 价值观一致的细粒度评估器 ,这些价值观对用户体验至关重要 ,例如有帮助性、响应就绪度、上下文相关性、细节的适当程度、生成工件的审美质量以及严格遵守指令
  • 这种设计使得奖励信号能够捕捉细微的偏好梯度,这些梯度很难用纯粹的基于规则或特定任务的验证器编码
  • 为了减轻奖励黑客攻击和对单一偏好信号的过拟合,作者采用了多个针对不同任务上下文量身定制的替代 GRM 标准
  • 理解:这里是在说更多地使用 GRM 来作为奖励信号
Token Efficient Reinforcement Learning
  • Token 效率对于具有测试时缩放 (test-time scaling) 的 LLM 至关重要
  • 虽然测试时缩放本质上是计算与推理质量的权衡,但实际增益需要算法创新来积极驾驭这种权衡
  • 作者之前的发现表明:
    • 施加依赖于问题的预算 (problem-dependent budget) 可以有效限制推理时计算,激励模型生成更简洁的思维链推理模式,避免不必要的 token 扩展 (2025, 2025)
  • 但作者也观察到长度过拟合现象:
    • 在严格预算约束下训练的模型往往无法泛化到更高的计算规模
    • 因此,它们无法有效利用额外的推理时 token 来解决复杂问题,而是退回到截断的推理模式
  • 为此,作者提出 Toggle
    • Taggle 是一种在推理时缩放和预算约束优化之间交替的训练启发式方法:对于学习迭代 \(t\),奖励函数定义为
      $$
      \begin{align}
      \tilde{r}(x, y) =
      \begin{cases}
      r(x, y) \cdot \mathbb{I} \{ \frac{1}{K}\sum_{i=1}^{K} r(x, y_i) < \lambda \text{ or } |y_i| \leq \text{budget}(\mathrm{x}) \} & \text{if } \lfloor t/m \rfloor (\text{mod}2) = 0 \ (\text{Phase0}) \\
      r(x, y) & \text{if } \lfloor t/m \rfloor (\text{mod}2) = 1 \ (\text{Phase1})
      \end{cases}
      \end{align}
      $$
      • 其中 \(\lambda\) 和 \(m\) 是算法的超参数,\(K\) 是每个问题的 Rollout 数量
    • 具体来说,算法每 \(m\) 次迭代在两个优化阶段之间交替:
      • Phase0 (budget limited phase) : 模型被训练在依赖于任务的 token 预算内解决问题
        • 为了防止过早地牺牲质量换取效率 ,该约束是条件性应用的:仅当模型对给定问题的平均准确率超过阈值 \(\lambda\) 时才强制执行
      • Phase1 (standard scaling phase) : 模型生成响应直到最大 token 限制,鼓励模型利用计算实现更好的推理时缩放
    • 依赖于问题的预算从正确响应子集中的 token 长度的 \(\rho\) 分位数估计得出:
      $$\mathrm{budget}(x) = \mathrm{Percentile}(\{|y_j| |r(x,y_i) = 1,i = 1,\ldots ,K\} ,\rho). \quad (2)$$
      • 该预算在训练开始时估计一次,之后保持固定
      • Toggle 作为一个针对双目标问题的随机交替优化函数:它专门设计用于协调推理能力与计算效率
  • 作者在 K2 Thinking (2025) 上评估了 Toggle 的有效性
    • 如图 5 所示,作者观察到在几乎所有基准测试中输出长度持续减少
    • 平均而言,Toggle 将输出 token 减少了 \(25\sim 30%\),对性能的影响可忽略不计
    • 作者还观察到,思维链中的冗余模式,例如重复验证和机械计算,显著减少
    • 此外,Toggle 显示出强大的领域泛化能力
      • 例如,仅在数学和编程任务上训练时,模型在 GPQA 和 MMLU-Pro 上仍然实现了一致的 token 减少,而性能仅有轻微下降(图 5)

Training Infrastructure

  • Kimi K2.5 继承了 Kimi K2 (2025) 的训练基础设施
  • 对于多模态训练,作者提出了解耦 Encoder 进程 (Decoupled Encoder Process, DEP),其中视觉 Encoder 以可忽略的额外开销纳入现有流程
Decoupled Encoder Process, DEP
  • 在使用流水线并行 (PP) 的典型多模态训练范式中,视觉 Encoder 和文本嵌入共同位于流水线的第一阶段 (Stage-0)
    • 但由于多模态输入大小(例如图像数量和分辨率)的固有变化,Stage-0 的计算负载和内存使用都存在剧烈波动
    • 这迫使现有解决方案为视觉-语言模型采用定制的 PP 配置
      • 例如,(2025) 手动调整 Stage-0 中的文本解码器层数以预留内存
      • 虽然这种折衷缓解了内存压力,但并没有从根本上解决由多模态输入大小引起的负载不平衡问题
      • 更重要的是,它排除了直接复用已为纯文本训练高度优化的并行策略
  • 利用视觉 Encoder 在计算图中的独特拓扑位置,特别是它作为前向传播的开始和后向传播的终点,作者的训练使用解耦 Encoder 进程 (DEP) ,每个训练步骤由三个阶段组成:
    • 1)平衡视觉前向 (Balanced Vision Forward) : 作者首先执行全局批次中所有视觉数据的前向传播。由于视觉 Encoder 较小,作者无论其他并行策略如何,都将其复制到所有 GPU 上。在此阶段,前向计算工作负载根据负载指标(例如图像或 patch 数量)均匀分布在所有 GPU 上。这消除了由 PP 和视觉 token 计数引起的负载不平衡。为了最小化峰值内存使用,作者丢弃所有中间激活,仅保留最终输出激活。结果被收集回 PP 的 Stage-0
    • 2)主干训练 (Backbone Training) : 此阶段执行主 Transformer 主干的前向和后向传播。通过丢弃前一阶段的中间激活,作者现在可以完全利用在纯文本训练中验证过的任何高效并行策略。在此阶段之后,梯度在视觉 Encoder 输出处累积
    • 3)视觉重计算与后向 (Vision Recomputation & Backward) : 作者重新计算视觉 Encoder 的前向传播,然后执行后向传播以计算视觉 Encoder 参数的梯度
  • DEP 不仅实现了负载平衡,还解耦了视觉 Encoder 和主主干的优化策略
    • K2.5 无缝继承了 K2 的并行策略,相对于纯文本训练,实现了 \(90%\) 的多模态训练效率
    • 作者注意到一个同期工作,LongCat-Flash-Omni (2025),分享了类似的设计理念

Evaluations

Main Results

Evaluation Settings
Benchmark
  • 作者在一个全面的基准测试套件上评估 Kimi K2.5,涵盖基于文本的推理、竞争性和智能体编码、多模态理解(图像和视频)、自主智能体执行和计算机使用
  • 作者的基准分类法按以下能力轴组织:
    • Reasoning & General:人类的最后考试 (HLE) (2025)、2025年美国数学邀请赛 (AIME 2025) (2025)、哈佛-麻省理工数学锦标赛 (HMMT 2025) (2025)、IMO-AnswerBench (2025)、GPQA-Diamond (2024)、MMLU-Pro (2024)、SimpleQA Verified (2025)、AdvancedIF (2025) 和 LongBench v2 (2025)
    • Coding:SWE-Bench Verified (2023)、SWE-Bench Pro (public) (2025)、SWE-Bench Multilingual (2023)、Terminal Bench 2.0 (2026)、PaperBench (CodeDev) (2025)、CyberGym (2025)、SciCode (2024)、OJBench (cpp) (2025) 和 LiveCodeBench (v6) (2024)
    • Agentic Capabilities:BrowseComp (2025)、WideSearch (2025)、DeepSearchQA (2025)、FinSearchComp (T2&T3) (2025)、Seal-0 (2025)、GDPVal (2025)
    • Image Understanding:(数学与推理)MMMU-Pro (2025)、MMMU (val) (2024)、CharXiv (RQ) (2024)、Math-Vision (2024) 和 MathVista (mini) (2024);(视觉知识)SimpleVQA (2025) 和 WorldVQA 2;(感知)ZeroBench(带/不带工具)(2025)、BabyVision (2026)、BLINK (2024) 和 MMVP (2024);(OCR 和文档)OCR-Bench (2024)、OmniDocBench 1.5 (2025) 和 InfoVQA (2021)
    • Video Understanding:VideoMMMU (2025)、MMVU (2025)、MotionBench (2025)、Video-MME (2025)(带字幕)、LongVideoBench (2024) 和 LVBench (2025)
    • Computer Use:OSWorld-Verified (2025, 2024) 和 WebArena (2023)
Baselines
  • 作者以 SOTA 闭源和开源模型作为基准
    • 闭源模型:Claude Opus 4.5(带扩展思考)(2025)、GPT-5.2(带 xhigh 推理力度)(2025) 和 Gemini 3 Pro(带高推理级别)
    • 开源模型:
      • 文本基准测试:包括 DeepSeek-V3.2(启用思考模式)(2025)
      • 视觉基准测试:报告 Qwen3-VL-235B-A22B-Thinking (2025)
Evaluation Configurations
  • 除非另有说明,所有 Kimi K2.5 评估都使用 temperature = 1.0,top-p = 0.95,上下文长度为 256k tokens
  • 对于没有公开分数的基准测试,在相同条件下重新评估,并标有星号 (*)
    • 完整的评估设置可以在附录 E 中找到
Evaluation Results
  • 表 4 展示了将 Kimi K2.5 与专有和开源基线模型进行比较的综合结果
Reasoning and General
  • Kimi K2.5 在严格的 STEM 基准测试上与顶级专有模型相比具有竞争力
    • 数学任务:
      • AIME 2025,K2.5 得分 \(96.1%\),接近 GPT-5.2 的满分,同时优于 Claude Opus 4.5 (92.8%) 和 Gemini 3 Pro (95.0%)
      • HMMT 2025 (95.4%) 和 IMO-AnswerBench (81.8%),展示了 K2.5 卓越的推理深度
    • 知识和科学推理能力
      • SimpleQA Verified 上得分 36.9%;MMLU-Pro 上得分 87.1%;在 GPQA 上得分 87.6%
      • 在不使用工具的情况下,K2.5 在 HLE 上获得了 30.1% 的 HLE-Full 分数,其中文本子集得分 31.5%,图像子集得分 21.3%
      • 当启用工具使用时,K2.5 的 HLE-Full 分数上升到 50.2%,其中文本 51.8%,图像 39.8%,显著优于 Gemini 3 Pro (45.8%) 和 GPT-5.2 (45.5%)
    • 除了推理和知识外,K2.5 在指令遵循(AdvancedIF 上 75.6%)和长上下文能力(LongBench v2 上 61.0%)方面也表现出色,与专有和开源模型相比都很有竞争力
Complex Coding and Software Engineering
  • Kimi K2.5 表现出强大的软件工程能力,尤其是在现实世界的编码和维护任务上
    • 在 SWE-Bench Verified 上取得 76.8% 的成绩,在 SWE-Bench Multilingual 上取得 73.0%,优于 Gemini 3 Pro,同时与 Claude Opus 4.5 和 GPT-5.2 保持竞争力
    • 在 LiveCodeBench v6 上,Kimi K2.5 达到 85.0%,超过了 DeepSeek-V3.2 (83.3%) 和 Claude Opus 4.5 (82.2%),突显了其在实时、持续更新的编码挑战上的稳健性
    • 在 TerminalBench 2.0、PaperBench 和 SciCode 上,它分别得分 50.8%、63.5% 和 48.7%,展示了在不同领域的自动化软件工程和问题解决中稳定的竞争水平性能
    • 此外,K2.5 在 CyberGym 上获得 41.3 分,该任务是在仅给定弱点高级描述的情况下,在真实开源软件项目中查找先前发现的漏洞,进一步强调了其在面向安全的软件分析中的有效性
Agentic Capabilities
  • Kimi K2.5 在复杂的智能体搜索和浏览任务上确立了新的最先进性能
    • 在 BrowseComp 上,K2.5 在不使用上下文管理技术的情况下达到 60.6%,在使用 Discard-all 上下文管理 (2025) 的情况下达到 74.9%,显著优于 GPT-5.2 报告的 65.8%、Claude Opus 4.5 (37.0%) 和 Gemini 3 Pro (37.8%)
    • WideSearch 在 item-F1 上达到 72.7%
    • 在 DeepSearchQA (77.1%)、FinSearchComp T2&T3 (67.8%) 和 Seal-0 (57.4%) 上,K2.5 在所有评估模型中领先,展示了其在智能体深度研究、信息综合和多步骤工具编排方面的卓越能力
Vision Reasoning, Knowledge and Perception
  • Kimi K2.5 展示了强大的视觉推理和世界知识能力
    • 在 MMMU-Pro 上得分 \(78.5%\),涵盖多学科多模态任务
    • 对于世界知识问答:
      • K2.5 在 SimpleVQA 上取得 \(71.2%\),在 WorldVQA 上取得 \(46.3%\)
    • 对于视觉推理
      • K2.5 在 MathVision 上取得 \(84.2%\),在 MathVista (mini) 上取得 \(90.1%\),在 BabyVision 上取得 \(36.5%\)
    • 对于 OCR 和文档理解
      K2.5 在 CharXiv (RQ) 上为 \(77.5%\),在 OCRBench 上为 \(92.3%\),在 OmniDocBench 1.5 上为 \(88.8%\),在 InfoVQA (test) 上为 \(92.6%\)
    • 在具有挑战性的 ZeroBench 上,Kimi K2.5 在使用工具增强的情况下达到 \(9%\) 和 \(11%\),大幅领先于竞争模型
    • 在基础视觉感知基准测试 BLINK (\(78.9%\)) 和 MMVP (\(87.0%\)) 上,Kimi K2.5 具有竞争力的性能,展示了其稳健的现实世界视觉感知能力
Video Understanding
  • Kimi K2.5 在不同的视频理解任务上取得了 SOTA 性能
    • 在 VideoMMMU 上达到 \(86.6%\),在 MMU 上达到 \(80.4%\),与前沿模型对齐
    • 借助 MoonViT-3D 的上下文压缩和密集时间理解能力,Kimi K2.5 还通过在长视频理解(LVBench 上 \(75.9%\) 和 LongVideoBench 上 \(79.8%\),输入超过 2000 帧)上创造了新的全球 SOTA 记录,同时在高度维度的 MotionBench 上展示了稳健的密集运动理解能力 (\(70.4%\))
Computer-Use Capability
  • Kimi K2.5 在现实世界任务上展示了 SOTA 计算机使用能力
    • 在计算机使用基准测试 OSWorld-Verified (2025, 2024) 上,仅依靠 GUI 操作而不使用外部工具,实现了 \(63.3%\) 的成功率
      • 这显著优于开源模型,如 Qwen3-VL-235B-A22B (\(38.1%\)) 和 OpenAI 的计算机使用智能体框架 Operator (基于 o3) (\(42.9%\)),同时与当前领先的 CUA 模型 Claude Opus 4.5 (\(66.3%\)) 保持竞争力
    • 在 WebArena (2023) 上(一个基于 GUI 的网页浏览的成熟基准测试),Kimi K2.5 实现了 \(58.9%\) 的成功率,超过了 OpenAI 的 Operator (\(58.1%\)),并接近 Claude Opus 4.5 的性能 (\(63.4%\))

Agent Swarm Results

Benchmarks
  • 为了严格评估智能体群框架的有效性,作者选择了三个代表性基准测试,共同覆盖深度推理、大规模检索和现实世界复杂性:
    • BrowseComp :一个具有挑战性的深度研究基准测试,需要多步骤推理和复杂的信息综合
    • WideSearch :一个旨在评估跨多样来源进行广泛、多步骤信息搜索和推理能力的基准测试
    • 内部群基准测试 (In-house Swarm Bench) :一个内部开发的群基准测试,旨在评估智能体群在现实世界、高复杂性条件下的性能;涵盖四个领域:
      • WildSearch(在开放网络上的无约束、现实世界信息检索)
      • Batch Download(大规模获取多样资源)
      • WideRead(涉及超过 100 个输入文档的大规模文档理解)
      • Long-Form Writing(连贯生成超过 10 万字的广泛内容)
      • 该基准测试包含极端规模的场景,对基于智能体的系统的编排、可扩展性和协调能力进行压力测试
Performance
  • 表 6 展示了 Kimi K2.5 Agent Swarm 相对于单智能体配置和专有基线的性能:结果表明,多智能体编排带来了显著的性能提升
    • 在 BrowseComp 上,Agent Swarm 达到 \(78.4%\),相比单智能体 K2.5 (60.6%) 提高了 \(17.8%\) 的绝对增益,甚至超过了 GPT-5.2 Pro (\(77.9%\))
    • 类似地,WideSearch 在 Item-F1 上提升了 \(6.3%\) (\(72.7% \rightarrow\) \(79.0%\)),使 K2.5 Agent Swarm 优于 Claude Opus 4.5 (\(76.2%\)),并确立了新的 SOTA
    • 提升在内部群基准测试 (\(16.7%\)) 上最为显著,那里的任务明确设计为奖励并行分解
    • 这些在基准测试上的一致性改进验证了 Agent Swarm 有效地将计算并行性转化为定性能力提升,特别是对于需要广泛探索、多源验证或同时处理独立子任务的问题
Execution Time Savings via Parallelism
  • 除了改善任务性能外,Agent Swarm 通过并行执行子智能体实现了显著的挂钟时间减少
  • 在 WideSearch 基准测试上,与单智能体基线相比,它将达到目标性能所需的执行时间减少了 \(3\times \sim 4.5\times\)
  • 如图 8 所示
    • 这种效率增益随任务复杂性而缩放:随着目标 Item-F1 从 \(30%\) 增加到 \(70%\),单智能体的执行时间从大约基线的 \(1.8\times\) 增长到超过 \(7.0\times\),而 Agent Swarm 则保持接近恒定的低延迟,范围在 \(0.6\times \sim 1.6\times\)
    • 这些结果表明,Agent Swarm 有效地将顺序工具调用转换为并行操作,防止了通常随着任务难度增加而观察到的完成时间线性增长
Dynamic Subagent Creation and Scheduling
  • 在智能体群中,子智能体是动态实例化的,而非预先定义的
  • 通过 PARL,编排器学习自适应策略,以根据演化的任务结构和问题状态来创建和调度自托管的子智能体
  • 与静态分解方法不同,这种学习到的策略使 Orchestrator 能够根据查询来推理所需的子智能体数量、时机和专业化程度
    • 异构的智能体组从这种自适应分配策略中自然出现(图 6)
Agent Swarm as Proactive Context Management
  • 除了更好的性能和运行时加速外,智能体群是一种由多智能体架构 (2026) 实现的主动且智能的上下文管理方法
  • 这种方法不同于测试时上下文截断策略,如 Hide-Tool-Result (2025)、Summary (2025) 或 Discard-all (2025),这些策略通过压缩或丢弃累积的历史记录来应对上下文溢出
    • 虽然这些方法在减少 token 使用方面有效,但它们本质上是反应性的,并且常常牺牲结构信息或中间推理
  • Agent Swarm 通过显式的编排实现主动的上下文控制
    • 长视距任务被分解为并行、语义上隔离的子任务,每个子任务由一个具有有限本地上下文的专用子智能体执行
    • 这些子智能体保持独立的工作记忆并进行本地推理,而不会直接改变或污染中央编排器的全局上下文
    • 只有任务相关的输出,而不是完整的交互轨迹,被有选择地路由回编排器
  • Agent Swarm 的这种设计得到的是上下文分片,而不是上下文截断 ,使系统能够沿额外的架构维度扩展有效上下文长度,同时保持模块化、信息局部性和推理完整性
  • 如图 7 所示,这种主动策略在 BrowseComp 上的效率和准确性都优于 Discard-all
    • 通过在编排器级别保持任务级连贯性,同时保持子智能体上下文严格受限,Agent Swarm 实现了具有选择性上下文持久性的并行执行,仅保留高级协调信号或必要的中间结果
    • Agent Swarm 作为一个主动的、结构化的上下文管理器运行,以比均匀上下文截断少得多的 Critical Steps 实现更高的准确性

附录 B:Pre-training

Joint-Training

  • 作者在图 9 中进一步提供了所有配置的完整训练曲线
    • 在 mid-fusion 和 late-fusion 阶段,文本性能出现“下降-恢复”的模式:当首次引入视觉数据时,文本能力最初会下降,然后逐渐恢复
      • 作者将此归因于模态领域的转变(视觉 token 的突然引入扰乱了已建立的语言表示空间,迫使模型暂时牺牲文本特定能力以换取跨模态对齐)
    • early fusion 在整个训练过程中保持了更健康、更稳定的文本性能曲线
      • 通过从一开始就共同优化视觉和语言,模型自然地演化出统一的多模态表示,而无需经历后期领域迁移的冲击
      • 这表明早期暴露不仅防止了在 late fusion 中观察到的表示崩溃,还为两种模态提供了更平滑的梯度景观
  • 总的来说,这些发现强化了作者关于原生多模态预训练 (native multimodal pre-training) 的提议:适度的视觉比例与早期融合相结合,在固定的 token 预算下能产生更优越的收敛特性和更稳健的双模态能力

Text data

  • Kimi K2.5 预训练文本语料库包含精选的高质量数据,涵盖四个主要领域:网络文本 (Web Text)、代码 (Code)、数学 (Mathematics) 和知识 (Knowledge)
  • 大多数数据处理流程遵循 Kimi K2 (2025) 中概述的方法
  • 对于每个领域,作者执行了严格的正确性和质量验证,并设计了有针对性的数据实验,以确保精选数据集同时实现高多样性和有效性
增强的代码智能
  • 作者提升了以代码为中心的数据权重,显著扩展了以下内容:
    • (1) 支持跨文件推理和架构理解的仓库级代码 (repository-level code)
    • (2) 来自互联网的 issues、代码审查和提交历史,捕获了真实的开发模式
    • (3) 从 PDF 和网页文本语料库中检索到的与代码相关的文档
    • 这些努力增强了针对复杂编码任务的仓库级理解能力,提高了在代理式编码子任务(如补丁生成和单元测试编写)上的表现,并增强了与代码相关的知识能力

Vision data

  • 作者的多模态预训练语料库包括七个类别:字幕 (caption)、交错数据 (interleaving)、OCR、知识 (knowledge)、感知 (perception)、视频 (video) 和代理数据 (agent data)
    • 字幕数据 (caption data) (2022, 2024) 提供了基础的模态对齐,并对合成字幕施加了严格的限制以减轻幻觉
    • 来自书籍、网页和教程的图像-文本交错数据 (image-text interleaving data) (2024, 2024) 使得多图像理解和长上下文学习成为可能
    • OCR 数据涵盖多语言文本、密集布局和多页文档。知识数据 (knowledge data) 包含通过布局解析器处理的学术材料,以发展视觉推理能力
  • 作者精选了一个专门的多模态问题解决语料库,以加强科学、技术、工程和数学领域的推理能力
    • 这些数据通过有针对性的检索和网络爬虫进行聚合;对于缺乏明确查询格式的信息内容,作者采用上下文学习 (in-context learning) (2020) 自动将原始材料重新格式化为涵盖 K-12 到大学级别的结构化学术问题
    • 为了弥合视觉布局与代码数据之间的模态差距,作者纳入了大量的图像-代码配对数据
      • 包括多种代码格式,如 HTML、React 和 SVG 等,以及它们对应的渲染截图,使得模型能够将抽象的结构逻辑与具体的视觉几何形状对齐
  • 对于代理和时间理解,作者收集了跨桌面、移动和网络环境的 GUI 截图和操作轨迹,包括人工标注的演示
    • 来自不同来源的视频数据实现了长达数小时的视频理解和细粒度的时空感知
    • 此外,作者加入了 grounding 数据以增强细粒度视觉定位能力,包括感知标注(边界框)、基于点的参考
    • 作者还引入了一个新的轮廓级分割任务 (contour-level segmentation task) (2026) 用于像素级感知学习
    • 所有数据都经过严格的过滤、去重和质量控制,以确保高度的多样性和有效性

附录 C:Infra

  • Kim K2.5 在 NVIDIA H800 GPU 集群上进行训练,节点间使用 \(8\times 400\) Gbps RoCE 互连
  • 作者采用了灵活的并行策略,结合了 16 路 PP 与 virtual stages (2019, 2021),16 路专家并行 (EP) (2020),以及 ZeRO-1 数据并行 (DP),使得可以在任意为 32 倍数的节点数上进行训练
  • 在交错的 1F1B 调度下,EP 的 all-to-all 通信与计算重叠
  • 为了将激活值容纳在 GPU 内存限制内,作者对 LayerNorm、SwiGLU 和 MLA up-projections 应用了选择性重计算 (selective recomputation),将不敏感的激活值压缩到 FP8-E4M3,并将剩余的激活值以重叠流式方式卸载到 CPU

Data Storage and Loading

  • 作者使用云服务商的 S3 (2023) 兼容对象存储解决方案来存放作者的 VLM 数据集
  • 为了弥合数据准备和模型训练之间的差距,作者将视觉数据以其原生格式保留,并设计了一个高效且适应性强的基础设施
  • 该基础设施提供了几个关键优势:
    • 灵活性:在整个训练过程中支持动态数据打乱、混合、 Token 化、损失掩码和序列打包,能够根据需求变化调整数据比例;
    • 增强:允许对视觉和文本模态进行随机增强,同时在几何变换过程中保持 2D 空间坐标和方向元数据的完整性;
    • 确定性:通过精细管理随机种子和工作进程状态,保证完全确定的训练,确保任何训练中断都可以无缝恢复——恢复后的数据序列与不间断运行的序列保持一致;
    • 可扩展性:通过分级缓存机制实现卓越的数据加载吞吐量,能够稳健地扩展到大型分布式集群,同时将对象存储的请求频率控制在可接受的范围内
  • 此外,为了维护统一的数据集质量标准,作者构建了一个统一平台,负责数据注册、可视化、统计分析、跨云同步和生命周期治理

附录 D:Unified Agentic Reinforcement Learning Environment

Environment

  • 为了支持统一的代理式强化学习,作者的强化学习框架采用了一个标准化的 Gym-like (2016) 接口 来简化不同环境的实现
  • 这种设计使用户能够以最小的开销实现和定制环境。作者的设计优先考虑组合模块化,集成了一套可插拔的组件,例如用于支持带有沙盒的各种工具的 Toolset 模块、用于多方面奖励信号的 Judge 模块 ,以及用于提示多样化和指令遵循增强的专用模块
  • 这些组件可以与核心代理循环动态组合,提供高度灵活性并增强模型泛化能力
  • 在执行层面,作者的强化学习框架将每个代理任务视为一个独立的异步协程
    • 每个任务可以递归地触发子任务 rollouts,简化了复杂多智能体范式(如并行代理强化学习 (Parallel-Agent RL) 和“代理即裁判 (Agent-as-Judge)”)的实现
  • 如图 10 所示,一个专用的 Rollout Manager 在强化学习过程中协调多达 100,000 个并发代理任务,提供细粒度控制以实现诸如部分 rollout (2025) 等功能
    • 激活后,每个任务从受管理的池中获取一个环境实例,该实例配备了一个沙盒和专用工具

Inference Engine Co-design

  • 作者的框架严格遵循 Token-in-Token-out 范式
    • 理解:即模型的输入和输出都是 Token
  • 作者还记录了所有推理引擎输出的对数概率,以执行训练-推理不匹配校正,确保强化学习训练的稳定性
  • 针对强化学习需求的推理引擎协同设计让我们能够通过为强化学习定制的推理 API 来支持这些功能
  • 除了全套内置的白盒环境外,还有只能在标准 LLM API 协议下运行的黑盒环境,它们无法利用作者自定义 API 协议提供的高级功能
    • 为了在黑盒环境下促进模型优化,作者开发了 LLM Gateway,这是一个代理服务,用于在作者的自定义协议下详细记录 rollout 请求和响应

Monitoring and debugging

  • 在确保正确性的同时,优化高度并行的异步执行系统的性能是一项具有挑战性的任务
  • 作者开发了一系列用于性能监控、性能剖析、数据可视化和数据验证的工具。作者发现这些工具对于调试以及确保作者代理式强化学习的效率和正确性至关重要

附录 E:Evaluation Settings

  • 本节为表 4 中报告的所有基准测试提供了全面的配置细节和测试协议

General Evaluation Protocol

  • 除非另有明确说明,否则所有 Kimi-K2.5 的实验均遵循以下超参数配置:
    • Temperature: 1.0
    • Top-p: 0.95
    • Context Length: 256k tokens

Baselines

  • 对于基线模型,作者在它们各自的高性能推理配置下报告结果:
    Claude Opus 4.5: 扩展思维模式 (Extended thinking mode)
    GPT-5.2: 最大推理努力 (Maximum reasoning effort (xhigh))
    Gemini 3 Pro: 高思维等级 (High thinking level)
    DeepSeek-V3.2: 启用思维模式 (Thinking mode enabled)(仅用于纯文本基准测试)
    Qwen3-VL-235B-A22B: 思维模式 (Thinking mode)(仅用于视觉基准测试)
  • 对于视觉和多模态基准测试,GPT-5.2-xhigh 在视觉评估中表现出大约 \(10%\) 的失败率(即,尽管有三次重试尝试,但没有生成输出)
    • 这些失败被视为错误预测,这意味着报告的分值可能是模型真实能力的保守下界
  • 此外,由于作者无法持续访问稳定的 GPT-5.2 API ,作者跳过了一些评估成本较高的基准测试,例如 WideSearch

Text Benchmarks

Reasoning Benchmarks
  • 对于高复杂度推理基准测试,包括 HLE-Full、AIME 2025、HMMT 2025、GPQA-Diamond 和 IMO-AnswerBench,作者强制执行最大 96k token 的完成预算,以确保足够的推理深度
  • 为了减少由随机推理路径引起的方差,AIME 2025 和 HMMT 2025 (Feb) 的结果是 64 次独立运行的平均值 (Avg@64),而 GPQA-Diamond 是 8 次运行的平均值 (Avg@8)
LongBench v2
  • 为了公平比较,作者使用与 (2025) 中相同的截断策略将所有输入上下文标准化为大约 128k token
  • 作者观察到 GPT5.2-xhigh 经常产生自由形式的问答风格响应,而不是所需的多选格式
  • 因此,作者报告使用 GPT5.2-high 的结果,它能始终遵循预期的输出格式

Image and Video Benchmarks

  • 所有图像和视频理解评估均使用以下配置:
    • Maximum Tokens: 64k
    • Sampling: 3 次独立运行的平均值 (Avg@3)
ZeroBench(w/ tools)
  • 多步推理评估使用约束的逐步生成:
    • Max Tokens per Step: 24k
    • Maximum Steps: 30
MMMU-Pro
  • 作者严格遵循官方评估协议:保留所有模态的输入顺序,按照基准指南的规定将图像预置到文本序列之前
Sampling Strategies for Video Benchmarks
  • 对于短视频基准测试(VideoMMMU、MMVU & MotionBench),作者采样 128 个均匀输入帧,最大空间分辨率为 896;
  • 对于长视频基准测试(Video-MME、LongVideoBench & LVBench),采样 2048 个均匀帧,空间分辨率为 448
pecialized Metrics
  • OmniDocBench 1.5: 分值计算为 \((1 - 标准化的莱文斯坦距离 (normalized Levenshtein distance)) \times 100\),数值越高表示 OCR 和文档理解准确率越高
  • WorldVQA: 访问地址:https://github.com/MoonshotAI/WorldVQA。该基准测试评估需要细粒度视觉识别和地理理解的原子化、视觉中心的世界知识

Coding and Software Engineering

Terminal Bench 2.0
  • 所有分值均使用默认的 Terminus-2 agent 框架和提供的 JSON 解析器获得
  • 作者在非思维模式下进行评估,因为目前针对思维模式的上下文管理实现在技术上与 Terminus-2 的对话状态处理不兼容
    • 问题:这个是不能改的吗?
SWE-Bench 系列
  • 作者使用一个内部开发的评估框架,其包含最小工具集:bash, create_file, insert, view, str_replace, 和 submit
  • System prompts 专门针对仓库级代码操作而定制
  • 在所有 SWE-Bench 变体(Verified、Multilingual 和 Pro)中,非思维模式下达到峰值性能
CyberGym
  • 根据其技术文档中的规定,Claude Opus 4.5 在此基准测试下的结果是在非思维设置下报告的
  • 作者报告难度等级 1(主要设置)下的分值
PaperBench
  • 作者报告 CodeDev 设置下的分值
Sampling
  • 所有编码任务结果均为 5 次独立运行的平均值 (Avg@5),以确保跨环境初始化和非确定性测试用例排序的稳定性

Agentic Evaluation

Tool Setting
  • Kimi-K2.5 为所有代理式评估配备了网络搜索工具、代码解释器(Python 执行环境)和网络浏览工具,包括使用工具的 HLE 和代理式搜索基准测试(BrowseComp、WideSearch、DeepSearchQA、FinSearchComp T2&T3 和 Seal-0)
Context Management Strategies
  • 为了处理复杂代理式任务中固有的超长轨迹长度,作者实现了特定领域的上下文管理协议
  • 除非以下另有说明,否则代理式评估不应用任何上下文管理;超出模型支持的上下文窗口的任务直接计为失败,而不是被截断
  • Humanity’s Last Exam (HLE)
    • 对于 HLE 工具增强设置,作者采用“隐藏工具结果”上下文管理策略 (Hide-Tool-Result Context Management strategy):
      • 当上下文长度超过预定阈值时,仅保留最近一轮的工具消息(观察和返回值),而来自之前所有步骤的推理链和思维过程则完全保留
  • BrowseComp
    • 对于 BrowseComp 评估,作者的评估包含有和没有上下文管理设置的两种。在上下文管理设置下,作者采用 DeepSeek 提出的相同的丢弃所有策略 (discard-all strategy),即一旦 token 阈值超过,所有历史记录都会被截断
System Prompt
  • 所有代理式搜索和 HLE 评估均使用以下统一的系统提示,其中 DATE 被动态设置为当前时间戳:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    You are Kimi, today’s date: DATE.
    Your task is to help the user with their questions by using various tools, thinking deeply, and ultimately answering the user’s questions.
    Please follow the following principles strictly during the deep research:
    1. Always focus on the user’s original question during the research process, avoiding deviating from the topic.
    2. When facing uncertain information, use search tools to confirm.
    3. When searching, filter high-trust sources (such as authoritative websites, academic databases, and professional media) and maintain a critical mindset towards low-trust sources.
    4. When performing numerical calculations, prioritize using programming tools to ensure accuracy.
    5. Please use the format [^index^] to cite any information you use.
    6. This is a **Very Difficult** problem——do not underestimate it. You must use tools to help your reasoning and then solve the problem.
    7. Before you finally give your answer, please recall what the question is asking for.
Sampling Protocol
  • 考虑到搜索引擎结果排名和动态网络内容可用性固有的随机性,Seal-0 和 WideSearch 的结果是 4 次独立运行的平均值 (Avg@4)
  • 所有其他代理式基准测试均在单次运行协议下进行评估,除非另有明确说明

Computer-Use Evaluation

Hyperparameter Settings
  • 作者为所有实验设置 max_steps_per_episode = 100
  • OSWorld-Verified temperature = 0,WebArena 的 temperature = 0.1
  • 由于资源限制,所有模型都在 one-shot setting 下进行评估
  • 遵循 OpenCUA 配置 (2025),代理上下文包括最后 3 张历史图像、完整的思维历史记录和任务指令
  • 对于 WebArena,作者手动更正了评估脚本中的错误,并使用 GPT-4o 作为 fuzzy_match 函数的评判模型
  • 为确保公平比较,Claude Opus 4.5 仅使用计算机使用工具(排除浏览器工具)进行评估,这与 System Card 配置 (2025) 不同
System Prompt
  • 作者为所有计算机使用任务使用统一的系统提示:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    You are a GUI agent. You are given an instruction, a screenshot of the screen and your previous interactions with the computer. 
    You need to perform a series of actions to complete the task. The password of the computer is {password}.

    For each step, provide your response in this format:
    {thought}
    ## Action:
    {action}
    ## Code:
    {code}

    In the code section, the code should be either pyautogui code or one of the following functions wrapped in the code block:
    - {
    "name": "computer.wait",
    "description": "Make the computer wait for 20 seconds for installation, running code, etc.",
    "parameters": {
    "type": "object",
    "properties":{},
    "required": []
    }
    }
    - {
    "name": "computer.terminate",
    "description": "Terminate the current task and report its completion status",
    "parameters": {
    "type": "object",
    "properties": {
    "status": {
    "type": "string",
    "enum": ["success", "failure"],
    "description": "The status of the task"
    },
    "answer": {
    "type": "string",
    "description": "The answer of the task"
    }
    },
    "required": ["status"]
    }
    }
    • 注:”pyautogui”(”PyAutoGUI”) 是一个 Python 库的名称,通常有以下译法或解释方式,常用 PyAutoGUI 实现自动化操作

Agent Swarm Configuration

Tool Setting
  • 除了附录 E.6 中描述的核心工具集(网络搜索、代码解释器和网络浏览)之外,协调器 (orchestrator) 还配备了两种用于创建和调度子代理的专用工具:
    • create_subagent:实例化一个具有自定义系统提示和标识符的专用子代理,以便在跨任务中重用
    • assign_task:将任务分派给创建的子代理
  • The tool schemas are provided below:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    {
    "name": "create_subagent",
    "description": "使用特定的系统提示和名称创建自定义子代理以便重用。",
    "parameters": {
    "type": "object",
    "properties": {
    "name": {
    "type": "string",
    "description": "此代理配置的唯一名称"
    },
    "system_prompt": {
    "type": "string",
    "description": "定义代理角色、能力和边界的系统提示"
    }
    },
    "required": ["name", "system_prompt"]
    }
    }
    {
    "name": "assign_task",
    "description": "启动一个新代理。\n使用说明:\n 1. 只要可能,你可以同时启动多个代理,以最大化性能;\n 2. 当代理完成时,它会向你返回一条消息。",
    "parameters": {
    "type": "object",
    "properties": {
    "agent": {
    "type": "string",
    "description": "指定要使用哪个已创建的代理。"
    },
    "prompt": {
    "type": "string",
    "description": "代理要执行的任务"
    }
    },
    "required": ["agent", "prompt"]
    }
    }
Step Limits
  • 在 Agent Swarm 模式下运行时,作者为协调器 (orchestrator) 和子代理设置计算预算,步骤限制适用于工具调用和环境交互的总计数
    • BrowseComp:协调器被限制为最多 15 步。每个生成的子代理在最多 100 步的限制下运行(即每个子代理最多 100 次工具调用)
    • WideSearch:协调器和每个子代理都被分配了最多 100 步的预算
    • 内部基准测试 (In-house Bench):协调器被限制为最多 100 步。每个生成的子代理在最多 50 步的限制下运行
System Prompt
  • 原文内容如下
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    You are Kimi, a professional and meticulous expert in information collection and organization.
    You fully understand user needs, skillfully use various tools, and complete tasks with the highest efficiency.
    # Task Description
    After receiving users’ questions, you need to fully understand their needs and think about and plan how to complete the tasks efficiently and quickly.
    # Available Tools
    To help you complete tasks better and faster, I have provided you with the following tools:
    1. Search tool: You can use the search engine to retrieve information, supporting multiple queries in parallel.
    2. Browser tools: You can visit web links (web pages, PDFs, etc.), get page content, and perform interactions such as clicking, inputting, finding, and scrolling.
    3. Sub Agent tools:
    - ‘create_subagent‘: Create a new sub-agent with a unique name and clear, specific system prompt.
    - ‘assign_task‘: Delegate tasks to created sub-agents. Sub-agents can also use search and browser tools.
    4. Other tools: Including code execution (IPython, Shell).

GDPVal

  • 作者引用了 Artificial Analysis 的 GDPVal-AA 评估,表 4 中报告的分值反映了截至 2026 年 1 月 28 日的官方排行榜指标

附录 F:Visualization

  • 图 11 展示了作者的 Agent Swarm 处理一个具有挑战性的长形式视频理解任务:分析《黑神话:悟空》的完整通关流程(24 小时连续游戏过程,跨越 32 个视频,总计 40GB)
    • 该系统采用分层多代理架构,其中主代理 (Main Agent) 协调并行子代理 (Sub Agents) 独立处理各个视频片段
    • 每个子代理执行帧提取、时间事件分析和关键时刻识别(如 BOSS 战、升级)
    • 随后,主代理聚合这些分布式分析,合成一个包含时间线、嵌入视频剪辑和交互式可视化的综合性 HTML 展示
    • 此示例展示了系统通过并行化处理大规模多模态内容的能力,同时保持了连贯的长上下文理解
  • 图 12 展示了 Kimi K2.5 通过工具增强推理解决多样化视觉推理任务的定性示例;该模型展示了:
    • (1) 迷宫求解——处理二值图像分割并实现寻路算法(广度优先搜索)来导航复杂迷宫;
    • (2) 饼图分析——执行像素级颜色分割和几何计算以确定精确的面积比例;
    • (3) 找不同——采用计算机视觉技术检测图像对之间的像素级差异
    • 这些示例突出了该模型将复杂视觉问题分解为可执行代码、根据中间结果迭代优化策略以及通过定量视觉分析综合精确答案的能力

附录:Kimi-K2.5 博客内容(部分解读

  • 原始博客链接:Kimi K2.5: Visual Agentic Intelligence, 20260127
    • 注:博客先于技术报告发出
  • 博客中很多炫酷的图,强烈建议看原始博客
  • 博客自信的写道: Kimi K2.5 是迄今为止最强大的开源模型
  • Kimi K2.5 在 Kimi K2 的基础上,继续使用大约 15T 的混合视觉与文本 Token 进行预训练
    • 作为一个原生的多模态模型,K2.5 提供了 SOTA 编程和视觉能力,以及一个自我导向的智能体集群范式
  • 对于复杂任务,Kimi K2.5 能够自我导向地组织一个最多包含 100 个子智能体的集群,在最多 1500 次工具调用中执行并行工作流
    • 与单智能体设置相比,这可将执行时间缩短多达 4.5 倍
    • 该智能体集群由 Kimi K2.5 自动创建和编排,无需任何预定义的子智能体或工作流
  • Kimi K2.5 可通过 Kimi.com 网站、Kimi App、API 以及 Kimi Code 获得
    • Kimi.com 网站和 Kimi App 目前支持 4 种模式:K2.5 即时模式、K2.5 思考模式、K2.5 智能体模式和 K2.5 智能体集群模式(Beta)
    • 智能体集群功能目前在 Kimi.com 上处于测试阶段,高级付费用户可获得免费额度
  • 测评指标包括:
    • Agents:HLE-Full,BrowseComp,DeepSearchQA
    • Coding:SWE-Bench Verified,SWE-Bench Multilingual
    • Image:MMMU Pro:MathVision ,OmniDocBench 1.5
    • Video:VideoMMMU,LongVideoBench
  • 在三个智能体基准测试(HLE、BrowseComp 和 SWE-Verified) 中,Kimi K2.5 以极低的成本提供了强大的性能

Coding with Vision

  • Kimi K2.5 是迄今为止最强大的开源编程模型 ,在前端开发方面能力尤为突出
  • K2.5 可以将简单的对话转化为完整的前端界面,实现交互式布局和丰富的动画效果,例如滚动触发的特效
  • 以下是 K2.5 根据一个包含图像生成工具的提示词生成的示例:
  • 除了文本提示,K2.5 在视觉编程方面表现出色
    • 通过对图像和视频进行推理,K2.5 改进了图像/视频到代码的生成以及视觉调试,降低了用户通过视觉表达意图的门槛
  • 以下是 K2.5 根据视频重建网站的一个示例:
  • 这种能力源于大规模的视觉-文本联合预训练。在足够大的规模下,视觉能力和文本能力之间的权衡消失了——它们同步提升
  • 以下是 K2.5 对一个谜题进行推理并用代码 Token 最短路径的示例:
    • 示例详情见博客原文
  • K2.5 在现实世界的软件工程任务中表现出色。论文使用 Kimi Code Bench(论文内部的编程基准测试)对其进行评估,该测试涵盖了多样化的端到端任务,即从构建到调试、重构、测试和脚本编写,跨越多种编程语言
    • 在此基准测试中,K2.5 在不同任务类型上相比 K2 都显示出持续且有意义的改进
  • 要尝试 K2.5 的智能体编程能力,K2.5 智能体模式提供了一组预配置的工具,可进行即时、动手体验。对于软件工程用例,论文建议将 Kimi K2.5 与论文的新产品 Kimi Code 配合使用
  • Kimi Code 可在您的终端中运行,并可集成到各种 IDE 中,包括 VSCode、Cursor、Zed 等
    • Kimi Code 是开源的,支持图像和视频作为输入。它还能自动发现并迁移现有的技能和 MCP 到您在 Kimi Code 中的工作环境
  • 这是一个使用 Kimi Code 将马蒂斯的《舞蹈》的美学风格转化到 Kimi App 的示例
    • 这个演示突出了自主视觉调试方面的一个突破
    • 利用视觉输入和文档查阅,K2.5 能够视觉检查自己的输出并自主进行迭代
    • 它创建了一个从端到端完成的艺术灵感网页:
      • 详情见原博客

Agent Swarm,智能体集群

  • 横向扩展,而不仅仅是向上扩展 (Scaling Out, Not Just Up.)
    • 论文发布了 K2.5 智能体集群作为研究预览,标志着从单智能体扩展向自我导向、协调的集群式执行的转变
  • 通过并行智能体强化学习(Parallel-Agent Reinforcement Learning, PARL)训练,K2.5 学会了自我导向地组织一个最多包含 100 个子智能体的集群,在最多 1500 个协调步骤中执行并行工作流,而无需预定义角色或手工制作的工作流
  • PARL 使用一个可训练的组织器智能体将任务分解为可并行执行的子任务,每个子任务由动态实例化的、冻结的子智能体执行
    • 与顺序的智能体执行相比,并行运行这些子任务能显著降低端到端延迟
  • 训练一个可靠的并行组织器具有挑战性,因为来自独立运行的子智能体的反馈是延迟的、稀疏的且非平稳的
    • 一个常见的失败模式是序列崩溃 ,即组织器尽管具备并行能力,却退回到单智能体执行
    • 为了解决这个问题,PARL 采用了分阶段奖励塑造 ,在训练早期鼓励并行性,并逐渐将重点转向任务成功
  • To Be Continue …

NLP——技术报告解读-LongCat-Flash-Thinking-2601

注:本文包含 AI 辅助创作

  • 参考链接:
    • 技术报告链接:LongCat-Flash-Thinking-2601 Technical Report, 20260123, Meituan LongCat
    • 上一版技术报告链接:LongCat-Flash-Thinking Technical Report, 20250922, Meituan LongCat
    • 体验地址:longcat.ai
    • HuggingFace:huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601
    • GitHub:github.com/meituan-longcat/LongCat-Flash-Thinking-2601

Paper Summary

  • LongCat-Flash-Thinking-2601 是美团继 25年9月底 LongCat-Flash-Thinking 后的第二个推理模型
    • 统一的端到端训练流程训练,强调针对支持长程、交互驱动的智能体推理设计
    • 定位:560B-A26B(平均值),具备卓越 Agentic 推理能力的开源 MoE 推理模型,在 Agentic 搜索、Agentic 工具使用和工具集成推理上,均达到了开源模型中 Top 性能
  • LongCat-Flash-Thinking-2601 的核心创新如下:
    • (i) 一个可扩展的环境构建和多领域强化学习框架,能够稳定地习得可泛化的智能体技能
    • (ii) 一个鲁棒的智能体训练流程,通过基于课程的强化学习系统地纳入现实世界的环境噪声
    • (iii) 一种 Heavy Thinking 模式,通过联合扩展推理宽度和深度,实现有效的测试时推理扩展
  • 更详细的说明:
    • 为了优化长尾、偏态生成和多轮 Agentic 交互,并在横跨 20 多个领域的超过 10,000 个环境中实现稳定训练,作者系统地扩展了异步强化学习框架 DORA,以实现稳定高效的大规模多环境训练
    • 此外,认识到现实世界任务本质上是嘈杂的,作者对现实世界的噪声模式进行了系统性分析和分解,并设计了针对性的训练流程,明确地将此类不完美性纳入训练过程,从而提高了现实世界应用中的鲁棒性
    • 为了进一步提升复杂推理任务的性能,作者引入了 Heavy Thinking 模式 (Heavy Thinking mode),该模式通过密集的并行思考联合扩展推理深度和宽度,从而实现有效的测试时扩展

Introduction and Discussion

  • 最近的推理模型进展在数学和编程等复杂任务上取得了快速进步,在某些情况下甚至超越了顶尖人类专家 (DeepSeek-AI,2025,2025,Anthropic,2025,Google,2025)
  • 随之自然产生的下一个问题是:如何将这种复杂的问题解决能力应用于解决复杂的现实生活任务,以及如何将复杂的问题解决能力扩展到更广阔的范围?
    • 随着内在推理能力接近其极限,作者发现 与外部环境的交互成为推动进一步进步的关键机制 (MoonshotAI,2025,DeepSeek-AI,2025)
    • 从这个角度来看,Agentic 推理可以被理解为通过自适应地与外部环境交互来解决复杂问题的能力
  • 除了内部思考之外,高级的 Agentic 推理能力要求模型决定何时以及如何与环境交互,并有效地整合环境反馈以维持和推进推理过程
    • 通过这种方式,推理和交互自然地交织并相互增强,共同促成更通用、更强大的问题解决行为 (MiniMax,2025)
    • 然而,实现这种 Agentic 推理能力对现有模型和训练流程构成了重大挑战
    • Agentic 任务通常涉及长视野轨迹、异构环境和长尾交互动态,这对数据管理、环境构建、强化学习策略以及贯穿预训练到后训练阶段的系统级基础设施提出了新的要求
  • LongCat-Flash-Thinking-2601 是一个强大且高效的 MoE 推理模型
    • 总参数为 560B,平均每个 Token 激活参数为 27B,具备强大的 Agentic 推理能力
  • LongCat-Flash-Thinking-2601 的预训练大体遵循了 LongCat-Flash-Chat 的方案 (2025a),保留了原始数据分布以维持有竞争力的一般推理性能
  • 在此基础上,作者通过精心设计的 Mid-training 阶段进一步将模型扩展至大规模 Agentic 推理
    • 与传统推理相比,Agentic 行为通常涉及具有主动性工具调用的长视野轨迹
      • 但这种交互模式在现实世界语料库中极其稀缺,因为大部分数据主要由自然语言构成
    • 所以原始模型对 Agentic 交互动态大多不熟悉,导致在强化学习阶段探索效率低下
    • 为了解决这一挑战,作者在 Mid-training 中让模型接触中等规模的合成结构化 Agentic 轨迹,为 Agentic 推理行为提供了强有力的初始化
  • 在后训练中,作者专注于高效扩展强化学习计算以提高 Agentic 推理能力
    • 除了搜索和代码等特定 Agentic 场景外,作者进一步将跨任务和环境的泛化识别为高级 Agentic 行为的核心特征
      • 这种能力主要通过与多样化环境的交互获得,因此这些环境充当了学习场
    • 为此,作者设计了一个自动化环境扩展流程,以构建覆盖超过 20 个领域的复杂多样化环境,同时严格保持可执行性和可验证性
      • 由于所生成的环境在领域和难度上都表现出显著的异质性,对它们进行训练需要仔细协同设计训练策略和基础设施支持,以确保稳定有效的多领域环境学习
    • 为了在这种设置下支持大规模 Agentic 强化学习,作者扩展了多版本异步训练系统 DORA,以实现多达 32,000 个环境并发执行的可扩展且稳定的训练
    • 但泛化到现实世界设置仍然极具挑战性
      • 因为现实世界环境本质上 imperfect
    • 为了弥合理想化训练设置与现实世界部署之间的差距,作者系统分析了现实世界噪声,并设计了一个自动化流程,逐步将多类型、多级别的环境不完美性纳入多领域环境训练过程
  • 为了进一步将推理能力推至超越现有极限,LongCat-Flash-Thinking-2601 集成了一个 ** Heavy Thinking 模式 (Heavy Thinking Mode)** ,该模式能够实现有效的推理测试时扩展
    • 该模式将具有挑战性的问题解决分解为互补的阶段,共同扩展推理的宽度和深度,使模型能够探索多样化的解决路径,同时逐步完善其推理
    • 注意:这里为 Heavy Thinking Mode 引入了一个额外的强化学习阶段,以增强模型聚合和完善中间推理结果的能力,从而进一步提高有效性
  • 在保持一般推理基准测试强竞争力的同时,LongCat-Flash-Thinking-2601 在广泛的 Agentic 基准测试中取得了开源模型中 state-of-the-art 的性能,同时展现出对分布外现实世界 Agentic 场景的强大泛化能力
  • LongCat-Flash-Thinking-2601 在 BrowseComp 上达到 \(73.1%\),在 RWSearch 上达到 \(77.7%\),在 \(\tau^2\)-Bench 上达到 \(88.2%\),在 VitaBench 上达到 \(29.3%\),使其成为 Agentic 搜索和 Agentic 工具使用任务的领先开源模型
  • 作者的三个核心贡献:
    • 环境扩展与多领域环境训练 (Environment Scaling and Multi-Domain Environment Training)
      • 开发了一个可扩展的环境构建和任务生成框架,以产生大量高质量、可执行且可验证的 Agentic 环境
      • 在此基础上,作者扩展了异步强化学习基础设施,以支持稳定高效的多领域环境训练,从而能够在不同领域中学习到可泛化的 Agentic 技能
    • 嘈杂环境下的鲁棒 Agentic 训练 (Robust Agentic Training under Noisy Environments)
      • 为了解决现实世界环境固有的非理想性,作者系统分析了环境噪声的主要来源,并设计了一个自动化流程,将多类型、多级别的噪声注入训练环境
      • 采用基于课程 (curriculum-based) 的强化学习策略逐步增加噪声复杂性,从而在不完美条件下显著提高鲁棒性和性能
    • 用于测试时扩展的 Heavy Thinking 模式 (Heavy Thinking Mode for Test-Time Scaling)
      • 引入了 Heavy Thinking 模式,该模式通过联合扩展推理宽度和深度,实现有效的推理测试时扩展
      • 通过并行轨迹探索和迭代推理精炼,该模式进一步提升了在具有挑战性的推理和 Agentic 任务上的性能

Pre-Training

  • 作者的模型建立在 LongCat-Flash-Chat 的预训练方案之上 (2025a),继承了其数据分布以保留强大的通用语言和推理能力
  • 超越传统推理,Agentic 行为通常涉及具有主动性工具调用的长视野轨迹,这带来了两个额外的挑战:
    • (i) 对长上下文建模效率的需求大幅增加
    • (ii) 现实世界中大规模 Agentic 轨迹的稀缺性
  • 为了应对 Agentic 推理对长上下文的需求,作者采用了一个分阶段的 Mid-training 过程,逐步增加上下文长度,分配 500B 个 Token 给 32K/128K 阶段,并额外分配 40B 个 Token 给 256K 阶段
  • 由于如果没有已具备基本 Agentic 行为能力的模型,大规模强化学习本身通常是低效且不稳定的,因此作者选择在此阶段让模型接触中等规模的 Agentic 数据
    • 为了缓解现实世界 Agentic 轨迹的稀缺性,作者构建了一个混合数据合成流程来收集和构建 Agentic 训练数据
    • 此外,作者基于任何预训练检查点预测 Mid-training 阶段的最优超参数,这一设计专门旨在最小化寻找最佳配置的计算成本
  • 遵循原始的 Mid-training 方案以保留一般推理能力 (2025a, 2025),作者进一步用结构化 Agentic 轨迹 (2026) 增强数据分布
    • 由于大规模、高质量的 Agentic 数据(特别是涉及推理、规划和交互的长视野轨迹)极其稀缺,作者构建了一个混合数据合成框架来填补这一空白
  • 具体来说,作者的框架借鉴了两个互补来源:
    • 非结构化文本和可执行环境,分别对应文本驱动合成和环境驱动合成
      • 非结构化文本提供了广泛的语义和任务多样性
      • 可执行环境确保了逻辑一致性和可执行性
    • 为了显式加强规划能力(这是 Agentic 推理的一个核心组成部分,难以从现有数据中获取),作者进一步设计了一个专门的、以规划为中心的数据构建策略
  • 如图 2 所示,使用这种增强的 Mid-training 方案训练的模型展现出优越的 Agentic 能力边界,这体现在 \(\tau^2\)-Bench 上更大的 pass@k

Text-driven synthesis

  • 大规模文本语料库包含丰富的隐性过程知识,例如教程、指令和多步骤问题解决工作流
  • 作者利用这一特性,通过以下流程挖掘并将这些潜在过程重构成显式的 Agentic 交互轨迹:
    • 文本过滤与工具提取 (Text Filtering & Tool Extraction) :作者策略性地识别出展现丰富、多步骤工作流的文本片段
      • 从这些片段中,作者定义潜在函数并提取相应的函数调用列表,将隐式过程转化为显式的工具模式
    • 合成与精炼 (Synthesis & Refinement) :作者将抽象的工作流和原始文本转化为具体的、多轮次的用户-Agent 交互
      • 为了确保数据集的鲁棒性和广度,作者应用了广泛的 Agentic 模式多样性增强和严格的质量过滤,确保最终的轨迹覆盖各种交互场景和任务领域
  • 为了进一步提高合成轨迹的结构复杂性,作者应用了两种基于分解的增强:
    • 工具分解 (Tool Decomposition) :从简单的工具调用轨迹开始,作者迭代地将部分工具参数隐藏到环境中
      • 相应地,作者合成模型交互以提取这些参数,逐步构建更复杂的轨迹
    • 推理分解 (Reasoning Decomposition) :对于模型输出中的每个动作步骤,作者生成多个替代候选方案,并用这些替代方案替换原始动作
      • 然后作者合成模型推理步骤以选择最合适的候选,将轨迹转化为反映 Agent 跨多个步骤进行推理的决策过程

Environment-grounded synthesis

  • 除了文本衍生的轨迹,作者也直接从可执行环境构建 Agentic 数据,以保证逻辑正确性和执行一致性
  • 作者为收集的工具集实现轻量级 Python 环境,并通过受控的工具链采样和执行验证生成轨迹:
    • 环境构建与依赖建模 (Environment Construction & Dependency Modeling) :基于现有的工具定义,作者实现轻量级、可验证的 Python 环境
      • 作者显式地建模工具间的逻辑依赖关系,构建一个有向图,其中节点代表工具,边代表参数依赖
      • 这种结构让我们能够系统地采样不同复杂性和深度的工具调用链
    • 逆向合成与执行验证 (Reverse-Synthesis & Execution Verification) :作者从依赖图中采样有效的工具执行路径,并采用逆向工程方法合成与所选工具链相符的用户模拟器系统提示
      • 重点:通过执行代码并验证环境数据库的最终状态来验证每个轨迹的正确性
        • 这确保了合成数据基于实际执行逻辑

Planning-Oriented Data Augmentation

  • 作者观察到 Agentic 推理关键依赖于规划能力,该能力控制着模型如何分解复杂目标、探索替代方案并确定中间决策
    • 但这种以规划为中心的行为在现有数据中代表性不足,并且难以大规模获取
  • 为了在 Mid-training 中显式加强这种能力,作者设计了一种针对性的数据构建策略,将现有轨迹转化为以规划为中心的决策过程
    • 第一类数据专注于合成有效的问题分解轨迹,并配对正确的初始动作选择,为从粗到细的规划和早期决策制定提供监督
    • 第二类数据从完整的交互轨迹开始,通过在每个决策步骤生成多个替代候选方案来进一步丰富它们
    • 然后训练模型对这些候选方案进行推理和选择,将原本线性的轨迹转化为结构化的多步骤决策过程

Scaling Reinforcement Learning

  • 通过强化学习进行后训练已成为激发更强推理能力的主要方法
  • 遵循 LongCat-Flash-Thinking (2025b),作者采用了一个统一的多领域后训练流程,其中领域专家模型首先在一个共享框架下训练,然后通过模型级和数据级合并整合为一个通用模型
  • 具有智能体(agentic)推理能力的强化学习需要:
    • (i) 精心准备的训练设置,包括可扩展的环境构建、高质量的冷启动数据和良好校准的 RL 任务集;
    • (ii) 一个能够维持高吞吐量、异步、长尾的多轮 Rollout 的专用基础设施;
    • (iii) 能够在异构领域和不同难度级别下保持稳定和有效的专用训练策略
  • 本节将介绍一个系统性流程,以应对这些挑战并实现可扩展的智能体强化学习
  • 图 3:可执行领域图的自动化构建
    • 从高层领域规范开始,该流程合成领域特定工具,生成相应的数据库模式和工具模式实现
    • 在此基础上,作者构建一个经过验证的工具依赖图,作为环境扩展的基础

RL Preparation

  • 在进行大规模强化学习之前,需要几个必要的准备步骤
  • 标准强化学习依赖于两个核心组件:
    • (i) 一个展现了基本任务相关行为的、良好初始化的策略(policy);
    • (ii) 一个能够实现稳定有效学习的、有原则的训练任务集
    • 除了这些共享组件之外,智能体强化学习还需要一个可靠且可扩展的环境基础来支持长视野、交互驱动的训练
Environment
  • 传统推理在很大程度上是无环境的,主要在内部语言空间内运作
  • 环境是智能体系统的一个决定性组成部分,因为它们直接决定了智能体能够感知什么、如何与外部系统交互以及在世界上哪些动作是可执行的
  • 作者特别介绍了智能体任务中两种特别具有挑战性的环境类型:智能体编码和智能体工具使用
Code Sandbox
  • 对于每个编码任务,智能体必须在可执行的代码沙箱中操作,并实时与各种终端工具交互
  • 这种设置带来了两个主要挑战:
    • 需要高效的大规模资源调度
    • 工具和执行环境的异构性
  • 在大规模训练中,沙箱系统必须同时确保灵活性和鲁棒性
  • 为了解决这些挑战,作者设计了一个可扩展的执行沙箱系统,提供统一的工具接口和高吞吐量的交互
    • 为了处理现实世界代码执行设置的异构性,作者将常用工具(包括搜索、文件读写、代码编辑和 shell 执行)整合到一个标准化的环境接口中
    • 为了进一步支持大规模训练,作者实现了一个高并发沙箱调度器,异步地供应和回收沙箱实例,将任务分配给工作节点,并并行执行数千个沙箱,从而消除了环境启动和阻塞开销对关键训练路径的影响
Agentic Tool-Use Environment
  • 高级智能体推理能力的核心特征是泛化性,即在已知环境中获得有效行为并将其可靠地迁移到先前未见过的环境中的能力
  • 为了训练这种泛化的智能体,作者认为可迁移的智能体推理能力应源于接触多样化的工具集和交互模式
    • 虽然设计一个能够完全捕捉现实世界工具使用复杂性的单一元环境是不可行的,但作者发现一个足够多样化的环境集合可以提供一个基础,从而实现可迁移和可泛化的工具使用行为
    • 然而,在实践中,构建这样的环境存在不小的挑战,因为不同领域对交互接口、执行机制和评估标准提出了不同的要求
  • 作者设计了一个完全自动化的流程,将高层领域规范转换为可执行图
    • 如图 3 所示,该流程从领域定义中合成领域特定工具集,并将它们的功能抽象为具有明确工具-数据库映射的统一数据库模式
    • 基于这个模式级规范,它然后自动生成数据库实现和相应的工具代码
      • 为了确保正确性和鲁棒性,生成的代码通过单元测试和辅助调试智能体进行验证
      • 在实践中,该流程在将模式级设计转换为完全可执行的工具实现方面,成功率超过 \(95%\)
    • 最后,作者从经过验证的工具集构建工具依赖图,作为后续环境构建和扩展的基础
  • 使用作者的自动化流程,作者构建了一个涵盖超过20个领域的领域特定工具图集合 \(\mathcal{G}\)
    • 每个工具图 \(G \in \mathcal{G}\) 包含超过60个工具,这些工具组织在一个密集的依赖图中,并配有相应的可执行、工具特定的数据库模式实现,为大规模探索和多样化环境构建提供了足够的结构复杂度
  • 接下来,作者介绍基于领域图构建可执行环境的流程
    • 给定一个领域特定的工具图 \(G\),作者首先从中采样一个中等规模的工具链 \(s_1 \subset G\)
    • 先前选择的工具的采样概率会逐渐降低,以促进任务多样性
    • 对于 \(s_1\) 中的每个工具,作者顺序实例化相应的数据库状态,确保所有所需的工具依赖关系都得到完全满足
    • 在构建了与工具关联的数据库之后,作者自动生成一个基于此工具链的任务
    • 采样的 \(s_1\) 作为生成任务的可执行工具链
    • 为了减轻潜在的人工先验偏见,任务生成器被限制为仅使用完整的工具链,而没有任何刻意的任务设计
    • 具体来说,每个生成的任务包含三个部分:
      • (i) 任务描述
      • (ii) 用户画像
      • (iii) 评估标准 (Evaluation Rubrics)
    • 为了确保可靠的监督,评估标准通过多轮一致性检查进行验证,保证任何可执行工具链都能被接受为正确解决方案,并且不正确或不完整的轨迹会被一致地拒绝
  • 作者注意到任务难度来自两个互补的方面:交互复杂性和环境复杂性
    • 交互复杂性通过合成多样化的用户提示 (prompts) 来保证,这些提示需要不同程度的澄清、规划和多步交互,鼓励模型进行丰富且自适应的智能体行为
    • 环境复杂性使用底层工具图的结构特性来量化,包括涉及的工具节点数量以及它们之间的连接密度
  • 增加环境复杂性的自然方法是通过从 \(G\) 中引入额外的工具节点,将初始工具链 \(s_1\) 扩展为一个更大的子图 \(\mathcal{R}(s_1)\),同时维护它们的数据库实例
    • 值得注意的是,在此扩展之后,生成的环境可能还包含多个有效的可执行工具链
    • 然而,随着子图的增长,维护跨工具的数据库一致性变得越来越具有挑战性
    • 特别是,由于工具依赖图施加的约束,不受控制地引入额外的工具节点可能触发一系列先前未满足的依赖关系,需要大量的数据库扩充和维护大量辅助工具节点
    • 一旦在这种扩展下数据库状态变得不一致,工具调用可能产生不可预测的结果,导致即使有效的工具轨迹也执行失败
    • 这可能导致正确的解决方案被错误地判定为失败,从而在训练中引入有偏差的负奖励
    • 为了缓解这个问题,作者不是盲目地注入随机工具,而是通过扩展可执行工具链来扩展环境
    • 具体来说,从 \(s_1\) 开始,作者在工具图上执行广度优先搜索 (BFS) 风格的扩展,并且仅当一个新工具节点的所有依赖项都已由先前实例化的工具(其数据库状态已被完全构建)满足时,才添加该节点。这种受控的扩展策略让我们能够在保持可执行性和可靠监督的同时,逐步增加环境复杂性
  • 通过这种受控的图扩展,作者将 \(s_{1}\) 扩展为一个更复杂的子图 \(\mathcal{R}(s_{1})\)
    • 作者将生成的环境表示为 \(\mathcal{E}_{1} = \mathcal{R}(s_{1})\)
    • 令 \(\mathcal{D}_{1} = G\backslash \mathcal{E}_{1}\) 表示对于 \(\mathcal{E}_{1}\) 剩余的未使用工具节点
    • 一个进一步的设计选择是是否初始化另一个种子可执行工具链 \(s_{2}\subseteq \mathcal{D}_{1}\),并将其扩展为 \(\mathcal{R}(s_{2})\) 来构造环境:
      $$\mathcal{E}_2 = \mathcal{R}(s_1)\bigcup \mathcal{R}(s_2),$$
  • 这进一步增加了环境复杂性,作者基于以下因素做出这个决定:
    • (i) 当前环境的结构复杂度 \(c(\mathcal{E}_1)\)
    • (ii) 从剩余图中识别新有效工具链的难度 \(g(\mathcal{D}_1)\)
    • (iii) 剩余未使用节点的数量 \(|\mathcal{D}_1|\)
  • 具体来说,给定当前环境:
    $$\mathcal{E}_n = \bigcup_{i = 1}^n\mathcal{R}(s_i),$$
  • 作者将剩余未使用的工具集定义为 \(\mathcal{D}_n = G\backslash \mathcal{E}_n\),并以概率从 \(\mathcal{D}_n\) 中采样一个新的种子链 \(s_{n + 1}\):
    $$p = f(c(\mathcal{E}_n),g(\mathcal{D}_n),|\mathcal{D}_n|),$$
    • 其中 \(g(\mathcal{D}_n)\) 通过一个强大的求解器从 \(\mathcal{D}_n\) 中发现一个替代有效工具链所需的尝试次数来度量,而 \(f(\cdot)\) 是一个单调决策函数,控制环境增长过程
    • 在实践中,当 \(p > \tau\) 时,其中 \(\tau\) 是预定义的阈值,作者从 \(\mathcal{D}_n\) 初始化一个新的种子黄金工具链 \(s_{n + 1}\),并将其扩展为 \(\mathcal{R}(s_{n + 1})\)
  • 为了确保最低水平的环境复杂性,作者进一步引入了回退机制
    • 如果生成的扩展 \(\mathcal{E}_n\) 仅包含少量工具节点,作者从 \(G\) 中随机采样一个中等大小的额外工具链,并将其合并到环境中,同时确保数据库与当前工具链的一致性
    • 这保证了每个构建的环境至少包含20个工具,为有意义的智能体交互和探索提供了足够的结构复杂性
    • 这种自动环境构建策略让我们能够在保持可靠监督信号的同时,逐步扩展环境复杂性,从而实现稳定有效的大规模智能体强化学习
Initial Policy
  • 冷启动阶段在初始化后续强化学习阶段的策略方面起着关键作用
    • 冷启动的主要目标不是优先考虑在标准基准测试上的即时收益,而是为有效的大规模探索做好准备
  • 高质量的冷启动策略必须展现出多样化的推理模式和稳定的交互格式,确保后续的 RL 阶段可以高效进行,同时保留通用思维能力
    • 因此,作者从更根本的角度评估冷启动模型,重点关注以下两个方面:
      • (1) 其在 RL 阶段指定任务上的熟练程度
      • (2) 通过人工定性检查评估的其推理路径的多样性
    • 虽然作者报告标准基准测试上的 pass@k 性能以衡量基础推理能力,但这仅作为参考,而非主要优化目标
  • 冷启动训练的一个主要挑战在于构建高质量的数据,这些数据能有效引导模型产生智能体行为
    • 对于某些领域,如数学、通用编码和智能体代码任务,现实世界中存在大规模数据源
      • 在这些情况下,作者从现有来源中收集和组装轨迹,核心挑战在于严格的质量控制和可执行性验证
    • 然而,对于大多数智能体任务,如搜索和工具使用,高质量的实境轨迹基本上是不可用的
      • 因此,作者依赖于精心设计的数据合成流程来构建冷启动轨迹
    • 接下来作者将详细描述如何针对不同的智能体能力实例化这两种互补的策略
General Thinking
  • 智能体能力需要强大的思考能力作为基础,作者设计了一个严格的数据过滤流程来构建高质量的 通用思考数据
  • 具体来说,作者采用了一种由困惑度 (Perplexity, PPL) 引导的 K-Center-Greedy (KCG) 选择算法 (2018; 2023; 2023)
    • 现有的基于 PPL 的过滤方法要么忽略序列长度,要么对整个序列平均 PPL (2025; 2025b),这 会掩盖局部困难 Token 并丢弃信息丰富的样本
    • 为了解决这个问题,作者引入了滑动窗口 PPL,它计算序列中所有 512-Token 窗口的平均 PPL 的最大值 ,从而捕捉模型的峰值不确定性,而不会被全局平均所稀释
      • 理解:
        • 对于一个模型来说(作者指待训练模型),PPL 约小说明拟合的越好,PPL 越大,说明信息量越多;
        • 部分子序列上的 PPL 差异可能是很大的,所以 子序列 PPL 很大时,值得留下来,故而做了一个加权
  • 在 KCG 选择期间,作者根据 候选样本的滑动窗口 PPL 分数来加权 它与当前已选集合之间的距离
    • 这种设计同时捕获了两个互补的目标:KCG 保留了对原始数据分布的覆盖 ,而滑动窗口 PPL 则强调了暴露模型当前推理能力差距的样本
    • 使用这个流程,作者从一个大语料库中下采样了 210K 个通用思考样本
  • 在此子集上训练的模型在多个推理基准测试中优于在全语料库上训练的模型
  • General Thinking 的补充:
    • 核心:这是一种结合 K-Center-Greedy (KCG) 算法和 滑动窗口困惑度(Sliding-Window PPL) 的数据选择策略。具体步骤如下:
    • 滑动窗口困惑度计算
      • 对于一个长度为 \( L \) 的文本序列,定义滑动窗口大小为 512 个 token,计算每个窗口内的平均困惑度(PPL),并取所有窗口中的最大值作为该样本的“滑动窗口困惑度”:
        $$
        \text{PPL}_{\text{slide} }(s) = \max_{i=1}^{L-511} \frac{1}{512} \sum_{t=i}^{i+511} -\log P(w_t \mid w_{ < t})
        $$
        • 其中 \( P(w_t \mid w_{ < t}) \) 是模型在给定前文条件下预测当前 token 的概率
    • K-Center-Greedy 选择算法
      • 在 KCG 选择过程中,每个候选样本 \( s \) 与当前已选集合 \( S \) 的距离由滑动窗口困惑度加权:
        $$
        \text{dist}_{\text{weighted} }(s, S) = \text{PPL}_{\text{slide} }(s) \times \min_{s’ \in S} d(s, s’)
        $$
        • 其中 \( d(s, s’) \) 是样本间的表示距离(比如通过 Sentence-BERT 编码的余弦距离)
    • 选择目标
      • KCG 算法选择能够最大化覆盖原始数据分布的样本,而 滑动窗口困惑度 则 强调那些当前模型在局部推理上存在困难的样本 ,两者的结合实现了:
        • 分布覆盖(Diversity)
        • 困难样本挖掘(Difficulty-Aware Selection)
      • 该方法从大规模语料库中筛选出 210K 条高质量通用推理样本,显著提升了推理任务的性能
    • 注意:在 LongCat 报告中提到的 滑动窗口 PPL 是基于 正在被训练的 LongCat-Flash-Thinking-2601 模型自身 来计算的,而不是外部模型
      • 1)模型自身对候选样本进行前向推理
      • 2)计算每个 512 token 窗口内的平均负对数似然(即局部 PPL)
      • 3)取所有窗口中的 最大值 作为该样本的“滑动窗口 PPL”
      • 目的:用当前模型自身的困惑度峰值来标识“局部推理困难”的样本,从而在 KCG 采样时给予更高权重,实现困难感知的数据选择
Agentic Coding
  • 对于智能体编码任务,大规模的软件开发平台提供了丰富的实境轨迹来源
    • 但从这些来源收集的原始轨迹通常是有噪声的、部分错误的或不可复现的 ,确保它们的可靠性和可执行性成为一个关键挑战
  • 为了解决这个问题,作者为*代码交互轨迹 *构建了一个严格的筛选流程
    • 作者要求所有保留的轨迹在可复现的环境中都是完全可执行和可验证的 ,并且 只保留那些在保留现有功能的同时正确解决了目标问题的轨迹
    • 为了进一步避免学习到虚假行为,作者应用了 细粒度的动作级过滤,移除错误的、冗余的或推测性操作(speculative operations,即对正确解决问题无益的)
    • 为了保留在实际调试过程中常见的长期推理模式,作者通过压缩早期步骤,保留涉及长且迭代调试的轨迹,从而在没有长度约束的情况下保持长期代码推理
Agentic Search
  • 对于智能体搜索能力,构建高质量的轨迹需要显式地建模多步证据收集和完整条件验证,同时避免基于部分信息的虚假捷径
    • 这种结构化的推理轨迹在现实世界的搜索日志中很少见
  • 作者构建了合成的推理轨迹,这些轨迹优先考虑正确性、推理完整性以及针对捷径行为的鲁棒性
    • 作者应用严格的过滤来确保轨迹质量,移除琐碎案例,并强制使用一致的推理和工具使用格式
    • 为了避免捷径学习,例如基于部分证据的幸运猜测,作者要求轨迹包含对 Query 中指定的所有条件的显式验证
    • 作者通过压缩早期步骤,进一步保留了涉及长且迭代探索的轨迹,从而在没有长度约束的情况下保留长期推理
    • 作者通过重用后续强化学习阶段中的 Rollout 轨迹来扩展数据收集并增加行为多样性
Agentic Tool-Use
  • 对于智能体通用工具使用能力,主要挑战在于对跨异构工具和数据库(具有不同模式和依赖结构)的复杂、有状态的交互进行建模
    • 这样的环境和交互轨迹也难以从现实世界来源获得或标准化
  • 作者在环境扩展流程之上构建了一个可扩展的数据合成流程
    • 通过联合定义领域(jointly defining domains)、工具模式、数据库状态和任务目标,并在结构化工具依赖关系的基础上生成多步任务,以模拟覆盖 33 个代表性领域的现实工具使用环境
    • 了确保多样性,作者明确地在三个方面促进可变性:领域覆盖范围、轨迹结构和交互长度
      • 每个任务允许多种不同的正确工具调用轨迹,交互范围从短对话到长多轮执行,涵盖了广泛的任务难度和行为模式
    • 为了确保数据质量,所有合成的轨迹都使用基于标准 (Rubric-based) 的结果验证和轮次级质量控制进行严格过滤
      • 只有正确达到目标最终状态的轨迹才会被保留
    • 在这些轨迹中,作者应用 Turn-level 损失掩码 ,从损失计算中排除低质量的轮次(例如失败的工具调用或格式违规),确保模型只从正确的动作中学习,同时保留完整的交互上下文
RL Task Set
  • 在强化学习中,环境定义了智能体可以做什么,而任务集则决定了智能体被训练去做什么
    • 它们共同塑造了智能体如何探索环境、分配计算并通过重复 Rollout 来改进其策略
  • 一个设计良好的任务集应该既有信息量又有适当的复杂度 ,以便它能够提供有效的学习信号,而不会过于琐碎或难以解决
  • 常见的做法是首先构建一个多样化的环境集合,并配以跨多个领域和难度级别的任务指令,然后通过评估模型的通过率来评估任务的适用性
    • 基于这个信号,选择那些既非轻易可解决也非极其困难的任务用于强化学习
  • 但不同领域的训练任务可用性差异很大
    • 对于一些领域,如编码,已经存在大量复杂且高质量的任务,可以直接收集和整理
    • 对于智能体搜索和工具使用等领域,合适的任务稀缺或不存在现成可用的形式,使得直接收集不足
    • 作者引入了有原则的合成流程(principled synthesis pipelines),为智能体搜索和工具使用场景构建涵盖多种复杂级别的任务集
Agentic Search
  • 作者确定了表征搜索问题的两个基本难度因素:
    • (i) 对关系实体链的多跳推理
    • (ii) 在多个模糊约束下对单个实体的推理
    • 大多数复杂的搜索任务可以看作是这两个因素的组合或迭代细化
  • Graph-based QA Synthesis :
    • 为了建模多跳推理难度,作者通过一个系统性流程构建基于图的 Question-Answer 任务,该流程从维基百科实体构建关系图并生成具有挑战性的推理问题
      • 首先从维基百科中提取低频实体作为初始种子节点,然后通过从现有实体集中采样、检索它们的维基百科页面,并结合相关实体及其对应关系,迭代扩展图,直到达到预定义的大小阈值
      • 图构建完成后,采样多个固定大小的连通子图,并用它们生成 Question-Answer 对
        • 在问题生成过程中,作者利用大语言模型创建与子图信息对应的问题,然后故意混淆显式细节,如数值、实体名称、地理位置和时间 Token ,以最大化推理复杂性
        • 为了确保整个流程的质量和正确性,作者在关键步骤(包括实体关系提取、问题生成和混淆)采用 LLM-as-a-judge 方法以保持基准准确性
      • 最后,对于每个生成的 Question-Answer 对,作者利用基于智能体的方法来识别其他潜在正确答案并评估其有效性,只保留那些原始答案正确且所有其他识别的潜在答案都不正确的配对
  • Agent-based QA Synthesis :
    • 为了建模由模糊性驱动的难度,作者提出了一个可扩展、高效的数据合成流程,其中多智能体协作交互由有限状态机 (FSM) 编排
    • 在此框架内,一个实体提取智能体识别代表性的长尾实体并提取其显著属性,作为合成问题的基础事实
      • 一个问题合成智能体利用这些属性的随机抽样来制定定制化问题
      • 为了确保精确性,一个验证智能体利用搜索和浏览工具严格验证基础事实是否满足问题中指定的所有约束,从而减轻实体-问题不匹配的风险
    • 对于每个经过验证的问题,答案生成智能体利用搜索和浏览工具生成候选答案
    • 判断智能体评估这些候选答案与预定义基础事实之间的一致性
      • 当判断智能体识别出一个非基础事实但仍满足验证标准的答案时,它表示存在多答案冲突
      • 为了解决这个问题,系统会随机加入基础事实实体的额外属性,并触发问题重新合成,以确保其唯一性
    • 该流程促进了跨多个领域多样化、高质量的问答对的高吞吐量生成
    • 此外,它还实现了一个基于答案生成智能体准确性指标的自动难度分级机制
Agentic Tool-Use
  • 对于智能体工具使用,作者的任务集直接通过第 3.1.1 节描述的环境扩展流程构建
  • 每个合成的环境自然地定义了一个独立的任务,而这样的环境集合构成了最终的任务集

Scalable Asynchronous Agentic RL Framework

  • 与标准推理任务等单轮场景相比,智能体训练涉及与可变环境 (ENV) 或工具的多轮交互,这对强化学习基础设施提出了新的挑战
  • 在典型的多轮 Rollout 阶段,它反复交错进行 LLM 生成、环境执行和奖励评估,以构建用于强化学习训练的最终轨迹
    • 在这种情况下,轨迹不仅具有长尾分布且偏斜,还涉及不可预测和延迟不均衡的环境交互,这导致在批处理设置下设备利用率不足 (2025; 2025c; 2025a)
  • 此外,作者的生产集群由中端加速器组成,特别是仅有大约 60GB 的可用设备内存
    • 硬件约束及其软件生态系统对实现稳定且可扩展的智能体强化学习训练构成了重大挑战
  • 为了解决这些问题,作者扩展了作者的多版本异步训练系统 DORA (Dynamic ORchestration for Asynchronous Rollout) (2025c),以全面支持多轮智能体场景下的大规模强化学习训练
  • 如图 5 所示,作者的控制器采用生产者-消费者架构,包括 RolloutManager(管理 Rollout 阶段)、SampleQueue(控制样本陈旧度)和 Trainer(管理 Experience-Maker 和训练阶段)
    • 这些组件运行在不同的节点上,主要负责通过远程过程调用 (RPC) 进行逻辑控制和协调,而在 CPU 或加速器上运行的 Worker 执行实际任务
  • 作者提出了几项关键技术,以实现高效、可扩展且稳定的智能体强化学习训练
    • 全流式异步 Pipeline (Fully Streaming Asynchronous Pipeline)
      • 为了最小化智能体设置下的设备闲置时间,作者基于流式 RPC (2025c) 引入了全流式异步 Pipeline ,既在 Rollout 过程内部,也在 Rollout 和训练之间
      • 在 RolloutManager 内的 Rollout 循环中,作者移除了批处理屏障,使 LLM 生成、环境执行和奖励计算能够在远程 Worker 上以单个样本的粒度执行
        • 这防止了加速器在等待批处理 ENV 调用完成时闲置
      • 为了进一步解决训练稳定性与长尾生成问题,作者的 DORA 系统支持多版本异步训练,由不同模型版本生成的轨迹在完成后会立即入队
      • 在一个步骤内,作者的多版本生成实例继续使用多个先前的模型版本进行 Rollout,而 Trainer 可以在满足其条件时立即启动训练,或者在训练设备闲置时弹性扩展额外的生成实例以获得免费的额外吞吐量
    • 扩展至大规模智能体训练 (Scaling to Large-scale Agentic Training)
      • 作者的算法设置需要大量环境,例如,多达 32,000 个环境在大约 400 台物理机器上运行,涉及数千个加速器
      • 然而,这些环境之间的密集交互在横向扩展时会导致 RolloutManager 出现单机瓶颈,因为每次交互通常只涉及少量 CPU 操作
      • 为了解决这个问题
        • 首先,将原始设计分解为一个轻量级 RolloutManager(管理全局控制元数据)和多个 RolloutController(每个都以数据并行方式管理一个虚拟 Rollout 组的生命周期)
          • 一个虚拟 Rollout 组由多个轨迹和相关的物理机器(包括生成实例和环境实例)组成
        • 然后,为了在作者的生产作业中灵活调度大规模环境,作者扩展了 PyTorch RPC 框架 (2023),以提供 CPU-空闲感知的远程函数调用和对象实例化
          • 此扩展允许在任意或空闲的机器上实例化和执行远程环境,从而实现大规模环境的高效部署
    • 带有 CPU 交换的预填充-解码分离 (PD Disaggregation with CPU Swapping)
      • 为了在作者的加速器上高效生成拥有 560B 参数的 MoE 模型 LongCat-Flash-Thinking-2601,作者在解码时采用了高度的专家并行以及图级编译
      • 但在多轮智能体训练中,频繁到来的长上下文请求会导致专家并行组内的工作负载不均衡:分配给较长上下文的 rank 消耗不成比例的计算和通信带宽,成为性能瓶颈
        • 理解:较长上下文的机器需要更多的计算资源和通信带宽
      • 为了解决这个问题,作者在强化学习训练中引入了预填充-解码 (Prefill-Decode, PD) 分离 (2024; 2024),如图 6 所示
        • 对于生成实例,作者在不同的设备组上部署预填充节点和解码节点,允许解码执行图在不被新到达请求的预填充工作负载中断的情况下运行
          • 这防止了生成效率的下降,并在多轮 Rollout 期间保持了高吞吐量
        • 但PD 分离引入了额外的挑战,包括 KV 缓存传输开销以及当解码节点上的设备上 KV 缓存不足时(特别是在作者的加速器上)昂贵的重新计算开销
        • 为了缓解 KV 缓存传输成本,作者在块级别聚合 KV 缓存块,并启用 PD 节点之间的异步传输
      • 作者呢允许 之前块与后续块的计算重叠,以最小化 KV-cache 传输的开销
        • 为了避免由于设备上 KV-cache 内存不足导致的重计算,作者进一步引入了 驻留于 CPU 的 KV-cache,它能根据需要动态地换入和换出 KV-cache 块
          • 这一设计消除了因设备上 KV-cache 容量不足而导致的重计算开销,并有助于在我们的加速器上维持高吞吐量
  • 总体而言,作者的 agentic RL 训练框架在 560B 模型上实现了工业规模的强大性能和稳定性,支持数以万计的加速器和环境
    • 根据生产作业的运行时统计,我们的请求负载率在整個 rollout 过程中大约为 63%
      • 这一指标量化了长尾请求对生成吞吐量的影响,数值越高表示利用率越好
    • 在训练期间没有达到完全的请求负载率
      • 因为作者限制新请求使用较旧的模型版本,以控制平均陈旧性,这牺牲了一定的效率
      • 此外,在可能包含多次负载均衡操作的单个步骤内,作者采用了两阶段策略:在首次负载均衡之前的初始 rollout 阶段,当没有长尾生成时,允许每个设备有较高的请求数(例如 8 个),随后将每个设备的请求数限制在一个最优水平(例如 4 个),以避免重计算并提高生成效率
    • 未来,作者计划采用更乐观的陈旧性控制策略,并探索对陈旧性敏感的稳定性技术,以实现更高效的异步训练
      • 总之,作者的多版本异步训练系统 DORA,在涵盖不同场景的生产作业中,比同步训练快 2 到 4 倍

RL Training Strategy

  • 强化学习已成为持续提升模型推理能力的核心机制,传统上,RL 训练策略主要侧重于在相对同质的任务分布和单步 rollout 下,稳定策略优化、提高样本效率以及管理探索-利用权衡
    • 在这些设置中,任务难度差异可能很大,导致训练样本的学习价值高度不平衡
  • 除了课程学习,作者在每个训练步骤内动态分配 rollout 预算,以有效利用有限的计算和训练时间预算,将学习资源集中在高价值的任务上
    • 为了进一步提高训练效果,我们还将验证 (verification) 建模为辅助任务,以支持生成并加速优化
  • 当扩展到 agentic 设置时,强化学习面临着由多轮交互和不可预测的环境反馈所带来的新挑战,这对模型的有效上下文长度提出了严格的要求
    • 为了解决这个问题,作者引入了一种 上下文管理 (context management) 策略,使模型能够在有限的上下文窗口下支持长视界轨迹,同时保留最具信息量的上下文
  • 当进一步扩展到 agentic 工具使用场景时,训练问题变得更具挑战性,如前所述, 泛化性和鲁棒性 在此设置中尤为重要
    • 为了促进泛化性,agentic 工具使用环境来自作者的环境扩展 (environment scaling) 流程
      • 单个批次中的任务可能跨越不同领域的异构环境,这加剧了训练的不稳定性和不平衡性
      • 通过精心协同设计训练策略和基础设施支持,作者大规模地执行了高效且稳定的 多领域环境训练 (multi-domain environment training)
    • 泛化到现实世界设置仍然具有挑战性,因为现实世界环境本身是不完美的
      • 为了提高鲁棒性,我们明确地将环境不完美性纳入训练过程,使模型能够在非理想条件下学习具有韧性的行为
    • 这些设计共同形成了一个统一的训练策略,能够实现稳定、高效且可扩展的 agentic 强化学习
General Training Strategy
  • 在大规模强化学习中,训练集涵盖难度差异很大的任务
    • 对所有任务进行朴素的均匀处理通常会导致学习效率低下
  • 作者设计了一套应用于作者所有强化学习方案的训练策略
    • 具体来说,引入 课程学习 (curriculum learning) 以逐步增加任务难度,应用 动态预算分配 (dynamic budget allocation) 以将计算集中在当前模型状态下信息量最大的任务上
    • 作者还将 自验证 (self-verification) 作为辅助任务纳入,以进一步提高优化效率和效果
Training Objective
  • 采用 组序列策略优化 (Group Sequence Policy Optimization, GSPO) 作为训练目标,因为它在 MoE 模型上的经验有效性,并为长视界 agentic 轨迹提供了更稳定的序列级优化
  • 给定一个输入 \(x\),作者从旧策略 \(\pi_{\theta_{\mathrm{old} } }\) 采样一组 \(G\) 个轨迹 \(\{y_{i}\}_{i = 1}^{G}\) 并优化:
    $$\mathcal{J}_{\mathrm{GSPO} }(\theta) = \mathbb{E}_{x\sim \mathcal{D},\{y_{i}\}_{i = 1}^{G}\sim \pi_{\theta_{\mathrm{old} } }(\cdot |x)}\left[\frac{1}{G}\sum_{i = 1}^{G}\min \left(s_{i}(\theta)\hat{A}_{i},\mathrm{clip}(s_{i}(\theta),1 - \epsilon ,1 + \epsilon)\hat{A}_{i}\right)\right], \quad (1)$$
    • 其中 \(\epsilon\) 是裁剪阈值
    • 遵循 Zheng 等人 (2025) 的工作,作者采用基于组 (group-based) 的优势估计,并基于归一化似然在序列级别定义重要性比率 \(s_{i}(\theta)\)
    • 作者主要依赖结果导向的监督 ,并放宽对长轨迹的惩罚 ,允许在训练过程中自然地出现有效的策略
Curriculum Learning
  • 为了提高学习效果,作者采用了一种课程学习策略,逐步构建训练过程
  • 具体来说,作者的课程沿着两个互补的轴组织:任务难度和能力需求
    • 任务难度 使用 在优化前估计的模型通过率 来量化,其中较低的通过率表示更具挑战性的任务
    • 根据任务主要调用的 智能体能力 (如基本工具调用、多步规划或自主决策)来表征任务
      • 理解:这里不同任务需要的智能体能力侧重是不一样的
  • Curriculum Learning Pipeline:
    • 在早期训练阶段,作者优先考虑那些更容易学习的任务 ,或者 优先考虑那些暴露了智能体在解决更难任务时预计会自主重用的能力的任务
    • 随着训练的进行,作者逐渐转向那些难度更大且需要更高级智能体能力组合的任务
  • 这种二维课程使模型能够首先获得可重用的智能体技能,然后组合它们来解决日益复杂的问题
    • 经验表明,这种课程策略提高了整体任务通过率,并在最具挑战性的任务上产生了特别显著的收益
    • 作者在智能体设置下的分析表明,这些改进源于三个主要因素:
      • 工具使用泛化 (Tool-use generalization) :从较简单任务(如工具选择和约束处理)中获得的技能能有效地迁移到更复杂的场景,显著减少了工具调用失败
      • 交互效率 (Interaction efficiency) :对任务指令的更好理解使得内部推理更加彻底,减少了冗余的澄清或不必要的工具调用,从而减少了交互轮次
      • 规划能力 (Planning capability) :对多个约束(如时间、地点和实体)的增强联合推理使得任务能够以更少的纠正迭代更直接地完成
Dynamic Budget Allocation
  • 作者在训练批次内进一步应用动态预算分配,以 优先考虑在当前模型状态下提供更高学习价值的任务
  • 作者观察到, 难度与模型当前能力相匹配的任务在固定的 Rollout 预算下会产生显著更高的学习收益
    • 现有的大规模强化学习流程通常为所有任务分配统一的 Rollout 预算
    • 最近的研究开始探索自适应 Rollout 分配 (2025),但大多数方法依赖于预定义的价值函数
    • 但随着模型能力在训练过程中持续演化,这个假设会失效,导致提供最有信息量的学习信号的任务集合也相应发生变化
  • 为了解决这个问题,作者提出了一种动态 Rollout 预算分配策略,以适应模型的实时训练状态
    • 具体来说,作者通过监控实时训练指标 \(\mathbf{m}_{t}\)(例如,通过率)来量化当前策略 \(\pi_{\theta_{t} }\) 的能力
    • 作者通过一个动态价值函数将特定任务 \(\tau_{i}\) 和 \(\mathbf{m}_{t}\) 映射起来:
      $$v_{i,t} = V(\tau_{i}\mid \pi_{\theta_{t} },\mathbf{m}_{t}) \quad (2)$$
      • 其中 \(v_{i,t}\) 表示任务 \(\tau_{i}\) 的估计价值,表征了模型在任务空间上演化的偏好分布
      • 基于这个价值估计,作者采用一种基于堆 (heap-based) 的贪心算法来计算 Rollout 分配,以最大化当前训练批次的总体学习价值
Self-Verification
  • 除了将模型仅用作生成的行为者策略 (Actor Policy) 外,作者还额外利用模型作为验证器 (verifier) 来评估其自身在线策略 (on-policy) 轨迹的质量
  • 作者观察到一个显著的不对称性:即使是能够生成高质量轨迹的高级推理模型 ,也常常难以在没有显式基础事实信号的情况下可靠地评估这些轨迹的正确性
    • 这让我们能显式地增强模型的自我验证能力 ,并将其用作辅助信号,以提高其在特定领域的推理能力
  • 具体来说,作者引入了在线策略自我验证作为强化学习过程中动态激活的训练阶段
    • 当 生成器表现出停滞或收敛到局部最优的迹象时 ,作者触发一个验证阶段 ,在此阶段模型评估其自身的 Rollout 轨迹
  • 与生成相比 ,验证是一个相对更容易的任务 ,并且通常产生更高的奖励
  • 为了进一步增强自我验证的有效性,作者采用了一种定制的训练方案
    • 具体来说,作者确保验证重点针对具有挑战性的案例,并且验证的影响与相应生成轨迹的质量相关联,使得辅助信号鼓励生成的忠实改进,而不是退化的捷径行为
    • 经验表明,引入在线策略自我验证作为辅助任务可以加速模型收敛,从而提高生成性能
Agentic Specific Strategy
  • 在智能体场景中,交互模式自然地从单轮生成转变为模型推理和工具调用交错的多轮轨迹
  • 随着任务复杂性的增加,交互轮次数量和工具响应长度都会增长,使得总上下文长度变化很大且通常难以控制
  • 在实践中,这经常导致上下文窗口溢出、推理链被截断以及任务执行不完整
  • 因此,在有限上下文窗口下,有效的上下文管理成为使用工具的强化学习的必要组成部分
Context Management
  • 作者设计了一种混合上下文管理策略,以在有限上下文窗口下支持长期轨迹
  • 现有的智能体模型主要采用两种策略进行上下文管理:
    • 基于摘要的管理 (Summary-based Management) :
      • 当累积上下文长度超过预定义的 Token 阈值时,历史工具调用结果会被提炼成一个简洁的摘要,以替换原始上下文,保持上下文连续性
      • 基于 ReSum (2025) 的框架,作者使用模型本身作为摘要工具,并用不同的 Token 阈值进行了一系列对比实验,最终确定了 80K Token 为最优阈值(更多细节见附录 B)
      • 此外,为了增强模型的摘要性能,作者合成了一个包含 15K 个样本的高质量数据集,专门用于冷启动阶段
        • 实证结果表明,这带来了大约 3% 的准确率提升
    • 基于丢弃的管理 (Discard-based Management) :
      • 当上下文长度超过预定义阈值时,模型将丢弃全部或部分历史上下文,然后基于截断的上下文恢复或重新启动生成过程
      • 遵循 DeepSeek-V3.2 (DeepSeek-2025) 的做法,作者在工作中采用了全部丢弃 (discard-all) 策略
  • 结合上述两种策略,作者设计了一种针对智能体推理量身定制的混合上下文管理方法
    • 具体来说,作者首先在上下文窗口超过作者预定义的 80K Token 限制时应用基于摘要的压缩
    • 当交互超过最大轮数时 ,作者触发全部丢弃重置 ,并使用从原始问题衍生的初始化系统和用户提示重新启动生成
  • 作者在 BrowseComp 基准 (2025) 上评估了这三种策略
  • 如图 7 所示,在不同的计算预算下,上下文管理通过使模型能够扩展测试时计算资源,带来了显著的性能提升
    • 混合策略在大多数情况下优于其他两种,并在整个实验中表现出最高的效率,从 \(55.8%\) 开始,峰值达到 \(73.1%\)
  • 这种优越性能源于压缩和重置之间的动态切换,由上下文窗口和交互轮次约束控制,在关键推理上下文保留和计算开销控制之间实现了良好的权衡
    • 此外,作者采用了一种渐进的丢弃调度,逐步增加丢弃阈值,允许更困难的样本逐渐增加推理步骤数
Training Strategy with Scaled Environment
  • 引入扩展环境进一步提升了强化学习的复杂性,超越了工具增强设置
    • 在这个阶段,作者在跨越多个领域且表现出高度异质性的环境上进行了大规模训练
    • 作者期望在这种多样化的环境上进行训练能够鼓励模型获得可迁移的智能体行为,这些行为可以泛化到领域特定模式之外
  • 这种异质性在算法和系统层面都带来了新的挑战:
    • 训练过程必须同时保持跨领域泛化能力,确保在高度多样化的任务分布下稳定优化,并在长尾且不均衡的环境工作负载下保持高效
  • 为了应对这些挑战,作者采用了一种多领域环境训练范式,在每次训练批次内联合优化不同的环境
    • 为了确保稳定性和可扩展性,作者需要共同设计训练策略和作者的异步基础设施
    • 受环境扩展构建过程的启发,作者注意到现实世界的环境本质上是不完美的,因此,作者在训练期间显式地引入了环境噪声,以提高对异构和不可靠环境反馈的鲁棒性
Multi-Domain Environment Training
  • 为了提高跨环境泛化能力和训练稳定性,作者采用了一种多领域环境训练策略,在每次训练批次内联合优化不同的环境
  • 通过环境扩展,作者构建了数以万计跨越超过20个领域的环境,提供了对异构交互模式的广泛覆盖
  • 在此设置下进行训练引入了不小的系统挑战
    • 具体来说,为了保持训练稳定性,有必要确保所有领域对整体训练过程的贡献相当,同时防止任何一个训练批次被少数几个领域主导
    • 这个算法约束显著降低了作者 DORA 系统的效率,因为它打破了异步设计原则:
      • Trainer 可能被迫等待缓慢或罕见的长尾领域产生足够的样本,而较快的领域则积累过多的 Rollout 轨迹,导致调度气泡和设备利用率不足。为了缓解这个问题,作者支持为不同的数据类型和领域配置单独的过采样比率
    • 在实践中,作者增加了更具挑战性或低吞吐量领域的 Rollout 配额,使它们能够贡献足够的样本而不阻塞整个流程,而较快的领域则以较低的有效速率进行采样
    • 这种设计放宽了严格的每批平衡约束,同时利用 DORA 保持了异步训练的高吞吐量特性,并且在训练阶段仍然保持了大致平衡的数据混合,并保证了训练收敛
  • 为了确保在此训练设置下动态预算分配与作者的异步基础设施的兼容性,作者根据每个任务的历史通过率为其引入了一个过采样系数
    • 成功率较低的任务被分配更高的过采样系数,有效地将更多的 Rollout 预算分配给更具挑战性的任务
    • 具体来说,每个任务根据其过采样系数被复制为多个组,每个组在训练期间独立计算优势
    • 这种设计近似于动态预算分配,同时保留了 DORA 简单且完全异步的调度行为,以最小的系统复杂性实现了动态 Token 预算控制
  • 作者在图 8 中展示了 LongCat-Flash-Thinking-2601 的训练奖励曲线,并在图 9 中展示了在不同训练步骤下智能体基准测试的相应性能
    • 图 8 中的训练奖励表现出稳定且一致的上升趋势,表明作者的算法-基础设施协同设计有效地确保了大规模训练的稳定性
    • 图 9 中智能体基准测试的性能展示了跨多个基准测试的强大泛化能力,这验证了作者环境合成流程的有效性
  • 经验表明,多领域环境训练在环境中实现了更高的平均任务完成率,尤其是在最具挑战性的环境上改进显著
    • 此外,该模型在随机生成的环境中获得了强大的性能,表现出强大的泛化能力
Robust RL
  • 作者明确地将环境缺陷纳入训练过程 ,以提高鲁棒性
  • 现有的智能体模型在部署到先前未见过的或不完美的环境中时,性能会显著下降
  • 这个问题主要源于当前智能体训练范式中的一个常见假设:智能体通常使用精心策划的指令进行训练,并与稳定、受控良好的环境交互
    • 相比之下,现实世界的环境本质上是不完美的
  • 用户表现出多样化的交互风格和不可预测的行为,而工具可能因各种外部因素而失败、返回有噪声的输出或产生不完整的结果
  • 作者不是假设训练期间环境是理想化的并依赖智能体事后适应,而是系统地分析现实世界的噪声 ,并设计一个自动化流程 ,明确地将环境缺陷纳入训练过程
    • 为了避免引入不可靠或误导性的奖励信号,作者确保注入的缺陷不会使任务变得不可解,而是增加交互过程的难度和随机性
    • 具体来说,我们为现实世界 agentic 场景中的两种主要交互噪声源建模:
      • 指令噪声 (instruction noise) :捕捉用户交互模式的模糊性和可变性;
      • 工具噪声 (tool noise) :模拟外部工具的执行失败、不一致响应和部分结果
  • 在 agentic 强化学习过程中,作者使用基于课程学习 (curriculum-based) 的策略逐步引入这些噪声
    • 将 agentic 模型的鲁棒性衡量为同一任务在完美环境与不完美环境之间的性能差距
    • 从轻微的扰动开始,随着模型在当前水平上表现出足够的鲁棒性,逐渐增加噪声的难度和多样性
  • 这种自适应过程确保了训练保持信息性而非压倒性,并避免了在过度嘈杂的环境中进行低效探索
  • 表 1 展示了在不完美环境下的鲁棒训练策略的消融研究结果
    • 结果表明,引入噪声的训练在标准 agentic 基准测试上取得了相当甚至略好的性能,同时在噪声和不完美的条件下产生了显著的性能提升

Test-Time Scaling Through Heavy Thinking

  • 测试时扩展 (Test-time scaling, TTS) 已成为通过在推理阶段扩展计算来提高模型在复杂推理任务上性能的一种有效范式
    • 最新进展表明,通过结合自反思的长思维链来增加推理深度,可以让模型迭代地优化其推理过程 (2024, 2025, 2025)
  • 与此同时,诸如自一致性(self-consistency)和蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 等方法则沿宽度维度扩展计算,探索多个推理轨迹以更好地逼近模型的推理边界
  • 一些前沿模型引入了 Heavy Thinking (2025, 2025a, 2025, 2025),其目标是在测试时联合扩展推理的深度和宽度
    • 经验上,这些模式的表现超过了仅扩展深度或宽度的策略
    • 但此类 Heavy Thinking 的具体实现细节大多未公开,限制了其可复现性和系统性研究
  • 为了进一步释放推理能力并突破现有的性能天花板,作者提出了一个简单有效的 Heavy Thinking 框架,将测试时计算分解为两个互补的阶段:
    • 并行推理(parallel reasoning)和 Heavy Thinking
  • 如图 10 所示
    • 在第一阶段,作者允许一个思考模型并行执行生成,产生多个候选推理轨迹以扩展探索的广度
    • 在第二阶段,作者利用一个总结模型对这些轨迹进行反思性推理,综合它们的中途推理和结果以得出最终决策
  • 为了支持工具使用和多轮对话场景,作者还引入了一个上下文记忆模块来存储消息历史
  • 如图 11 所示
    • 在每一轮中,总结模型将接收来自并行推理阶段的历史消息以感知上下文
    • 作者设计了一个特定的提示模板来组织当前轮次并行轨迹的排列(仅保留答案内容),并引导总结模型生成最终响应,其目的是聚合或优化从并行推理阶段得出的答案
  • 作者还约束总结模型的最终输出响应,以保持与并行推理阶段的风格和格式一致,使得总结模型的响应能够与消息历史直接拼接
    • 值得注意的是,思考模块和总结模块可以共享相同的模型参数,也可以实例化为不同的模型
  • 为了进一步提升性能,作者还引入了一个专门针对总结阶段设计的额外 RL 阶段
    • 经验上,作者发现 Heavy Thinking 在多种设置下都有效,包括长思维链推理、工具集成推理和完全的工具使用(agentic tool-use)场景
    • 通过允许测试时计算在推理深度和宽度上自适应地扩展, Heavy Thinking 的表现始终优于自一致性(self-consistency),并且随着测试时计算预算的增加,其性能优势变得愈发显著

Evaluation

Benchmarks and Configurations

  • 作者的评估涵盖模型能力的五个方面:
    • Mathematical Reasoning
    • Agentic Search
    • Agentic Tool Use
    • General Reasoning
    • Coding
Mathematical Reasoning
  • 作者使用标准的奥林匹克级基准测试来评估数学推理,包括 AIME 2025、HMMT 2025 (February) (2025) 和 IMO-AnswerBench (2025)
  • 此外,还引入了 AMO-Bench (2025)(这是现有奥林匹克级基准测试中最具挑战性的数据集)
    • 包含由人类专家设计的 50 个问题,并提供中英文版本,便于分析跨语言数学推理
    • 作者发布了 AMO-Bench 的英文版和评估脚本
  • 由于这些数据集规模有限,作者报告 Avg@k 指标,IMO-AnswerBench 使用 \(k = 4\),其他所有数学基准使用 \(k = 16\)
    • 作者主要关注工具集成推理(Tool-integrated Reasoning, TIR)的性能,注意:此处工具指代码执行
    • 对于支持代码执行的外部模型,作者在评估时启用此功能
    • 对于不支持代码的模型,作者报告其官方结果或它们不使用工具时的性能
Agentic Search
  • 作者在 BrowseComp (2025) 和 BrowseComp-ZH (2025) 上评估智能体搜索能力,并报告启用和未启用上下文管理两种设置下的结果
    • 注:对于 BrowseComp-zh,作者发现原始标注存在一些错误,并手动修正了 24 个案例的答案
  • 作者尝试在作者的智能体搜索框架下复现开源和闭源模型在这些基准测试上报告的结果
    • 但作者观察到性能持续低于报告的数字,对于外部模型,作者使用其官方报告的结果
      • 理解:这里确实花了时间后没法复现这部分分数(猜测与模型的某些配置有关,Infra 和评估同学不够给力?)
  • 为了实现对搜索能力的公平且受控的比较,作者另外构建了 RWSearch(这是一个具有挑战性的智能体搜索基准)
    • 包含 200 个需要复杂推理和多步骤信息检索的现实世界搜索 Query
    • 所有模型都在未启用上下文管理的情况下在 RWSearch 上进行评估,以确保公平比较
Agentic Tool-Use
  • 作者在 \(\tau^{2}\)-Bench (2025)、VitaBench (2025)、\(\tau^{2}\)-Noise、Vita-Noise 和随机复杂任务(Random Complex Tasks)上评估智能体工具使用能力
  • 对于 \(\tau^{2}\)-Bench,作者观察到默认的用户模拟器(user simulator)偶尔会表现出异常行为,给评估带来不可控的噪声
    • 为了解决这个问题,作者将原始模拟器替换为 GPT-4.1 并相应地调整提示策略 (2025, 2025b, 2025)
  • 对于 \(\tau^{2}\)-Bench 的航空子集,作者进一步发现了一些标注和环境问题,可能导致虚假失败和不可靠的评估 (2025, 2025b, 2025)
    • 作者在一个固定且清理过的航空子集版本上评估所有模型,其中 19 个有问题案例得到了修正
    • 所有以上这些修改都已公开发布以确保可复现性
  • 对于 VitaBench,作者更新了评估设置,将验证器模型(verifier model)升级到最强的公开可用版本,并采用更严格的评估标准,从而进一步提高基准测试的可靠性
    • 作者已公开发布 VitaBench 的这个更新版本
  • \(\tau^{2}\)-Noise、Vita-Noise 和随机复杂任务的构建和评估协议
    • \(\tau^{2}\)-Noise 和 Vita-Noise :为了评估智能体推理能力的鲁棒性,作者系统分析了现实世界环境中观察到的偏差,并设计了一个自动噪声注入 Pipeline (noise injection pipeline),可以将逼真的噪声注入任意基准测试
      • 基于此 Pipeline ,作者重复随机地将噪声注入 \(\tau^{2}\) 和 Vita 基准测试以构建 \(\tau^{2}\)-Noise 和 Vita-Noise,并报告多次噪声实例化的平均性能
    • 随机复杂任务 (Random Complex Tasks) :为了评估智能体推理能力的泛化性,作者引入了一种新的评估协议,即随机复杂任务
      • 随机复杂任务建立在一个自动任务合成过程之上,该过程受作者环境扩展 Pipeline 的启发,随机生成跨多种场景的复杂、可执行且可验证的智能体任务
      • 对于每次评估运行,作者随机抽样超过 4 个领域的 100 个多样且复杂的任务,并计算 Avg@4 分数
      • 为确保可靠性,作者重复进行三次独立运行的评估,并报告各次运行的平均结果
  • 作者将发布噪声注入 Pipeline ,并将随机复杂任务集成到一个开放的评估平台中,以支持未来的可复现性和基准测试
General QA
  • 作者在 GPQA-Diamond (2023) 和 HLE (2025) 上评估通用推理,它们涵盖了广泛的知识密集型和推理密集型任务
  • 对于 GPQA-Diamond,作者报告 Avg@16 以减少抽样随机性引入的方差
  • 对于 HLE,由于作者的模型是纯文本的,作者报告其在纯文本子集上的结果,并确保所有比较模型遵循相同的设置
  • 作者注意到 HLE 的结果对提示模板和评分模型很敏感
  • 为确保公平比较,所有模型都使用官方 HLE 推荐的提示模板进行评估,并使用官方 o3-mini 评分模型和模板进行评分
Coding
  • 作者在两种设置下评估代码能力:Code Reasoning 和 Agentic Coding
  • 对于代码推理,作者使用 LiveCodeBench (2025)、OJBench (2025) 和 OIBench (2025)
    • 对于 LiveCodeBench,作者评估 2408-2505 子集,覆盖最近的两个版本,包含 454 个问题, 作者报告 LiveCodeBench 的 Avg@4
    • 对于 OJBench 和 OIBench,由于评估成本和思考模型所需的长推理轨迹,作者报告 Pass@1
  • 对于智能体编码,作者使用 SWE-bench Verified,这是软件工程智能体的标准基准
    • 作者采用第三方智能体框架 R2E-Gym 作为执行主干
    • 为确保正确性,作者手动清理并修复了原始基准测试中的少量 Docker 镜像,主要是由于库升级引入的依赖不匹配问题,保证所有标准补丁(gold patches)都是可执行的

Main Results

  • 如表 2 所示,作者将 LongCat-Flash-Thinking-2601 与几个先进的开源权重和闭源权重推理模型进行了比较
    • 开源权重模型包括 DeepSeek-V3.2-Thinking (2025)、Kimi-K2-Thinking (2025)、Qwen3-235B-A22B-Thinking-2507 (2025) 和 GLM-4.7-Thinking (2025)
    • 闭源权重模型包括 Claude-Opus-4.5-Thinking (2025)、Gemini-3-Pro (2025) 和 GPT-5.2-Thinking-xhigh (2025b)
  • 在一套全面的基准测试中,LongCat-Flash-Thinking-2601 在传统推理任务上取得了极具竞争力的性能,并在智能体推理能力方面展现出强大优势
    • 除非另有说明,推理均使用温度 \(= 1.0\),top-\(k = -1\),top-\(p = 1.0\) 进行
Mathematical Reasoning
  • 在具有挑战性的数学推理基准测试上,LongCat-Flash-Thinking-2601 展现出强大的工具集成推理能力,并始终达到第一梯队的性能
  • 当启用 Heavy Thinking 模式(heavy mode)时,LongCat-Flash-Thinking-2601 达到了与领先闭源模型相当的性能
  • 启用 Heavy Thinking 模式的 LongCat-Flash-Thinking-2601 在 AIME-2025 上获得了满分,在 IMO-AnswerBench 上取得了 86.8 分的领先成绩,并在 AMO-Bench 上取得了开源的领先结果
  • 在 AMO-Bench (EN) 上略逊于最强的闭源模型,LongCat-Flash-Thinking-2601 仍然是表现最好的开源模型
  • LongCat-Flash-Thinking-2601 在 AMO-Bench 的英文版和中文版上表现出相当的性能,表明其在非英语环境下也具有先进的数学推理和工具使用能力
Agentic Search
  • LongCat-Flash-Thinking-2601 在 BrowseComp 和 BrowseComp-ZH 上都达到了领先的性能
  • 启用上下文管理后,它在 BrowseComp 上达到 73.1 分,在 BrowseComp-ZH 上达到 77.7 分,超越了所有评估的模型
  • 在 RWSearch 上——这是一个为评估现实世界复杂搜索场景而设计的私有基准测试,LongCat-Flash-Thinking-2601 取得了 79.5 分,仅次于 GPT-5.2-Thinking
Agentic Tool-Use
  • LongCat-Flash-Thinking-2601 在开源模型中展示了领先的智能体工具使用能力
    • 在 \(\tau^2\)-Bench 和 VitaBench 上取得了强劲的性能,包括在它们的噪声增强变体上的竞争性结果
  • 模型在任意生成工具的随机复杂任务上取得了领先的结果
    • 这些结果表明模型对现实世界环境噪声具有很强的鲁棒性,并对先前未见过的任务分布具有出色的泛化能力
General QA
  • LongCat-Flash-Thinking-2601 在通用问答基准测试上保持了强劲的性能
  • 在 HLE 的纯文本子集上获得了 25.2 分,在 Heavy Thinking 模式下在 GPQA-Diamond 上获得了 85.2 分
    • 接近开源模型的最佳结果
Coding
  • LongCat-Flash-Thinking-2601 在代码推理和智能体编码基准测试上都展现了有竞争力的性能
    • 在 LiveCodeBench 系列的算法问题解决任务上,位居开源模型前列
    • 在更难的基准测试如 OJBench 和 OIBench 上,作者的模型分别取得了开源模型的第二好和最佳性能
  • 注:与 GLM-4.7 相比,LongCat-Flash-Thinking-2601 以显著更低的推理成本实现了相似的性能,每个问题大约需要 45k 个 token,而 GLM-4.7 需要 57k 个 token
    • 在 SWE-bench Verified 上,LongCat-Flash-Thinking-2601 在开源模型的第一梯队中表现具有竞争力,进一步验证了其在现实世界软件工程任务中的能力

One More Thing: Zig-Zag Attention Design

  • 长上下文效率(Long-context Efficiency)已成为现代大型语言模型日益严峻的挑战
  • 越来越长的推理轨迹趋势对标准的全注意力(Full Attention)构成了根本性限制,其二次方复杂度对于长上下文智能体训练和推理来说很快变得难以使用
  • 而且在 Heavy Thinking 模式中,由于同时解码多个并行推理轨迹,推理延迟被进一步放大,使得高效的注意力机制变得更加不可或缺
  • 现有的方法,包括稀疏和线性注意力方法 (2025),试图通过降低注意力的计算复杂度来缓解这个问题
    • 但这些方法通常需要大量的重新训练来使模型适应新的注意力架构,这引入了相当多的额外计算开销和工程成本
  • 为了解决这一限制,作者探索了一种实验性的高效注意力设计,并同时发布了一个开源模型 LongCat-Flash-Thinking-ZigZag
    • 作者提出了 Zigzag Attention,一种稀疏注意力机制(sparse attention mechanism),使得现有的全注意力模型可以在 Mid-training 期间高效地转换为稀疏变体
    • 这种转换仅产生可忽略的开销,同时允许模型高效地扩展到超长上下文,支持高达 1M 个 token 的序列长度
  • Zigzag Attention (2026) 结合了 MLA 和流式稀疏注意力 (Streaming Sparse Attention, SSA) (2024),实现了计算量随完整上下文长度呈次二次方(sub-quadratically)扩展
    • 对于每个 Query token \(h_t\),注意力被限制在一个固定的键值 token 集合中,该集合包括
      • (i) 最近 token 的局部窗口
      • (ii) 序列开头的一小组初始 token
    • 形式上,注意力输出计算如下:
      $$
      u_{t} = \mathrm{Attn}(h_{t},\{h_{s}\mid s\in [t - W,t]\cup [0,B)\} ,
      $$
      • 其中 \(W\) 表示局部上下文窗口大小,\(B\) 表示保留的前缀 token 数量
      • 与全注意力相比,这种设计显著降低了计算和内存复杂度,同时保留了短期上下文和全局锚点

Zigzag Connectivity

  • Zigzag Attention 采用了一种层级交错的稀疏化策略
    • 大约 \(50%\) 的全注意力层被替换为 SSA 层,而剩余的层保留基于 MLA 的全注意力
  • 这种层级的稀疏性避免了通常由头部级稀疏化引入的计算不平衡和 GPU 线程分歧,从而实现更高效的硬件利用率
  • 每个 SSA 层内的注意力是稀疏且局部的,但全局信息通过跨层组合得以保留
  • 通过交替稀疏注意力层和全注意力层,信息可以在多层之间跨越远距离位置传播,沿着序列形成一条锯齿形的连接路径
    • 因此,尽管存在每层的稀疏性,长距离依赖关系仍然可以访问

Zigzag Integration

  • Zigzag Attention 通过结构化的稀疏化过程在 Mid-training 阶段引入
    • 1)作者使用一个校准过的数据集来估计预训练模型中注意力层的相对重要性
    • 2)重要性得分最低的那部分层被替换为 SSA 层
  • 稀疏化之后,模型继续进行长上下文的持续 Mid-training ,同时结合基于 YaRN 的位置编码扩展,从而实现高达 1M token 的上下文长度
  • 实践中,作者采用块大小为 128,一个 Sink block 和七个局部块(local block),使得每层的有效注意力跨度达到 1,024 个 token
  • 将大约一半的全注意力层替换为 Zigzag Attention 可带来约 1.5 倍的端到端推理加速,如图 12 所示,同时在基准测试中保持了推理性能和智能体能力

结合 YaRN

  • 为了解锁处理更长上下文的能力,作者将这些方法配置与 YaRN (2024) 结合,使得 LongCat-Flash-Thinking-ZigZag 能够外推至处理高达 1M 个 token
  • 除此之外,作者还提供了模型中涉及的一些关键参数
    • 块大小为 128,Sink block 数量为 1,局部块数量为 7,总计 1,024 个 token
  • LongCat-Flash-Thinking-ZigZag 在性能和速度之间取得了良好的平衡,图 13 简要展示了它如何提高效率的同时保持竞争力的性能

附录 A:Optimal Hyperparameter Prediction

  • 在大型规模的 Mid-training 中,有效识别最优超参数是一个核心挑战,因为搜索空间巨大且计算成本高昂
    • 为了应对这一挑战,作者提出了一种新颖的最优超参数预测方法,该方法专门设计用于最小化寻找最佳配置的计算成本
  • 作者的方法包括两个关键步骤:
    • 超参数映射 (Hyperparameter Mapping): 作者使用不同的超参数训练小型模型,利用验证损失和 FLOPS 将最优超参数映射到它们的计算成本(见图 14),从而深入了解配置如何影响训练效率和性能
    • 超参数预测 (Hyperparameter Prediction): 对于一个给定的持续训练检查点,作者使用验证损失来估算等效计算成本,即从零开始在持续训练数据上达到相同损失所需的计算量,然后基于此估算和实际计算负载来预测最优超参数
  • 通过这种方法,作者能够预测出可实现高效持续训练的最优超参数,以最小的计算开销提高模型性能

附录 B:Token Threshold Context Management Performance Evaluation

  • 如图 15 所示,作者评估了在不同摘要上下文 Token 长度下 BrowseComp 的 Pass@1 准确率,最大上下文轮次限制为 500
    • 准确率从 20K Token 时的 \(63.86%\) 稳步上升至 80K Token 时达到峰值 \(66.58%\),然后在 100K Token 时降至 \(65.9%\)
    • 这确定了 80K 是基于摘要的上下文管理的最优上下文长度,因此在所有后续实验中,作者将 80K 上下文长度固定为摘要触发的阈值

NLP——技术报告解读-MiMo-V2-Flash

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:MiMo-V2-Flash Technical Report, LLM-Core Xiaomi, 20260106 & 20260108
    • GitHub:github.com/XiaomiMiMo/MiMo-V2-Flash

Paper Summary

  • 整体总结:
    • MiMo-V2-Flash 核心创新:
      • 混合滑动窗口注意力架构 (Hybrid Sliding Window Attention architecture)
      • 轻量级多 Token 预测 (Lightweight Multi-Token Prediction)
      • MOPD 后训练范式
    • 从论文中看:MiMo-V2-Flash 可与 DeepSeek-V3.2 和 Kimi-K2 等更大的开放权重模型相媲美
  • MiMo-V2-Flash 是一个 MoE 模型(309B-A15B),旨在实现快速、强大的推理和智能体能力
  • MiMo-V2-Flash 采用了一种混合注意力架构
    • 将滑动窗口注意力(Sliding Window Attention,SWA)与全局注意力(Global Attention, GA)以 5:1 的混合比例交错排列,滑动窗口大小为 128 个 token
  • MiMo-V2-Flash 使用 Multi-Token Prediction(MTP) 在 27T Token 上进行预训练,拥有原生的 32k 上下文长度并随后扩展到 256k
  • 为了高效扩展训练后计算,MiMo-V2-Flash 引入了一种新颖的多教师 On-policy 蒸馏范式
    • 在此框架中,领域专业化的教师模型(例如,通过大规模强化学习训练)提供密集的、Token-level 奖励,使学生模型能够完美掌握教师的专业知识
    • MiMo-V2-Flash 能够媲美 DeepSeek-V3.2 和 Kimi-K2 等顶级开源模型,尽管其总参数量仅分别为后者的 1/2 和 1/3
    • 在推理过程中,通过将 MTP 重新用作推测解码的草稿模型,MiMo-V2-Flash 在使用三层 MTP 时实现了最高 3.6 的接受长度和 2.6 倍的解码加速
    • 论文开源了模型权重和三层 MTP 权重,以促进开放研究和社区协作
  • 本次解读重点关注后训练阶段,其他部分暂不深入

Introduction and Discussion

  • 人工智能通用智能的最新进展越来越受到两个前沿领域的推动:
    • 先进的推理链和基于大规模强化学习的自主智能体工作流 (Google DeepMind, 2025; Kimi Team, 2025b; 2025)
    • 但构建可扩展的推理器和智能体面临一个共同的关键瓶颈:长上下文建模必须同时具备快速和强大的能力
  • 论文介绍了 MiMo-V2-Flash,这是一个高效且经济实惠的 LLM,能够提供强大的推理和智能体性能
    • 为了缓解完全注意力的二次复杂度,MiMo-V2-Flash 采用了一种混合注意力机制,交错排列局部滑动窗口注意力和全局注意力
    • 滑动窗口大小为 128 Token,混合局部:全局比例为 5:1,对于长上下文,KV 缓存存储和注意力计算减少了近 \(6\times\)
    • 借助可学习的注意力 Sink 偏置 (2025) 的帮助,即使采用了激进的滑动窗口大小和混合比例,该混合架构在长上下文场景中也能保持强大的建模能力
    • MiMo-V2-Flash 还集成了 Multi-Token Prediction 以增强训练性能并加速推理解码
      • 特别是,MTP 在提升 RL rollout 速度方面具有巨大潜力,这有助于将 LLMs 扩展到更强大的智能水平
      • 通过轻量级的密集前馈网络和滑动窗口注意力,论文的 MTP 模块在实践中以高接受率提供了显著的解码加速
  • MiMo-V2-Flash 的预训练方案在很大程度上遵循了 MiMo-7B (2025),并进行了若干改进
    • 训练使用 FP8 混合精度进行,能够在 27T Token 上实现高效的大规模训练
    • 模型最初以原生 32K 上下文进行预训练,随后扩展到 256K
  • 得到的预训练模型 MiMo-V2-Flash-Base 已针对 Kimi-K2-Base (Kimi Team, 2025c) 和 DeepSeek-V3.2-Exp-Base (2025) 等领先的开源基础模型进行了评估
    • MiMo-V2-Flash-Base 在通用基准测试中取得了有竞争力的性能,并在侧重于推理的任务上超越了同类模型
    • 对于长上下文检索,论文的混合注意力架构在从 32K 到 256K 的上下文长度上实现了接近 \(100%\) 的成功率
    • 在极端长上下文推理基准 GSM-Infinite (2025) 上,MiMo-V2-Flash 在从 16K 扩展到 128K 时表现出稳健的性能,性能下降最小
  • 在训练后阶段,论文专注于高效扩展 RL 计算,以改进推理和智能体能力
    • 为此,MiMo-V2-Flash 引入了一种称为多教师 On-policy 蒸馏的新训练后范式。该框架通过三阶段过程解决了能力不平衡和学习效率低下的问题:
      • (1) 通用监督微调;
      • (2) 专业化的 RL/SFT 用于训练领域特定的教师模型;
      • (3) MOPD,其中学生模型从两个互补的信号中学习:来自在不同领域训练的特定教师的密集的、Token-level 奖励,以及一个可验证的、基于结果的奖励
    • 通过以这种方式整合多样化的专家知识,MiMo-V2-Flash 同时掌握了领域教师的顶峰能力,并受益于稳定高效的学习动态
  • MiMo-V2-Flash 在大多数推理基准测试中取得了与 Kimi-K2-Thinking 和 DeepSeek-V3.2-Thinking 相媲美的性能
    • 在 LongBench V2 和 MRCR 等长上下文评估中,MiMo-V2-Flash 持续超越更大的全注意力模型,证实了其混合 SWA 架构的鲁棒性
    • 值得注意的是,该模型在 SWE-Bench Verified 上达到了 \(73.4%\),在 SWE-Bench Multilingual 上达到了 \(71.7%\),使其成为软件工程任务中最领先的开源模型
    • 模型权重(包含 3 层 MTP 权重)可在 github.com/XiaomiMiMo/MiMo-V2-Flash 获取

MiMo-V2-Flash Model Architecture

Overall Architecture

  • 如图 2 所示,MiMo-V2-Flash 遵循标准的 Transformer (2017) 主干,并增强了 MoE (2017) 和混合注意力 (2020; Gemma Team, 2024, 2025; Kimi Team, 2025a; 2025; Qwen Team, 2025)
    • MiMo-V2-Flash 主要由重复的混合块组成,这些块交错排列局部滑动窗口注意力和全局注意力
    • 它堆叠了 \(M = 8\) 个混合块,每个块的结构为 \(N = 5\) 个连续的 SWA 块后接一个 GA 块
    • 唯一的例外是第一个 Transformer 块,它使用全局注意力和密集的前馈网络以稳定早期的表示学习
    • MiMo-V2-Flash 中使用的滑动窗口大小 \(W\) 为 128
    • SWA 块和 GA 块都使用稀疏的 MoE FFN。每个 MoE 层总共包含 256 个专家,每 Token 激活 8 个,并且不包含共享专家
  • MiMo-V2-Flash 还集成了 MTP (2024; 2024; 2025) 以提高模型性能(包括质量和效率)
    • MTP 块使用 Dense FFN 而非 MoE,并采用 SWA 而非 GA,使其在推测解码中保持轻量级
    • 每个 MTP 块的参数量仅为 0.33B
  • 表 1 总结了 MiMo-V2-Flash 的详细配置
    • 模型包含 39 个 SWA 层和 9 个 GA 层
    • SWA 和 GA 都使用分组 Query 注意力 (2023)
      • SWA 有 64 个 Query 头和 8 个键值头,GA 有 64 个 Query 头和 4 个键值头
      • SWA 和 GA 的每个头的维度相同( Query 和键为 192,值为 128)
    • 旋转位置嵌入部分应用于 Query 和键的前 64 个维度
      • 遵循最近的最佳实践,论文采用了类似于 DeepSeek-V3 (2024) 的 FP8 混合精度框架
    • 论文为注意力输出投影,以及嵌入和输出头参数保留 BF16 精度,同时为 MoE 路由器参数保持 FP32 精度
      • 这种混合精度配置提高了数值稳定性,而不会对训练效率或内存占用产生实质性影响

Hybrid Sliding Window Attention Architecture

  • 滑动窗口注意力 (2020) 将每个 Token 的注意力范围限制在局部窗口而非整个序列,从而显著降低计算和内存复杂度
    • 这自然激发了混合滑动窗口注意力架构的出现
  • 但先前的工作表明,过度激进的 SWA 使用,如非常小的滑动窗口大小或高 SWA:GA 比例,可能导致模型性能显著下降 (Gemma Team, 2025),尤其是在长上下文任务中
    • 最近,可学习的注意力 Sink 偏置的引入显著增强了基于 SWA 架构的建模能力 (2025),该机制允许模型在需要时将很少或没有注意力分配给某些 Token
    • 尽管注意力 Sink 机制的确切理论基础仍是一个活跃的研究领域 (2024b; 2025; 2024; 2023),但论文通过实验观察到,可学习的注意力 Sink 偏置显著提升了混合 SWA 模型的性能,匹配甚至超过了使用完全 GA 层的基线
  • 在 MiMo-V2-Flash 中,论文的实现遵循了 gpt-oss (2025) 中使用的设计,其中每个注意力头的 softmax 分母应用一个可学习的注意力 Sink 偏置 \(sink \in \mathbb{R}\)
    • 令单个注意力头中 Token \(i\) 和 \(j\) 之间的注意力 logits 为:
      $$a_{ij} = \frac{q_ik_j^\top}{\sqrt{d} }, \tag{1}$$
      • 其中 \(q_{i}\) 和 \(k_{j}\) 分别表示 Token \(i\) 的 Query 和 Token \(j\) 的键,\(d\) 是头的维度
    • 注意力权重由下式给出:
      $$s_{ij} = \frac{\exp\left(a_{ij} - m_i\right)}{\exp\left(sink - m_i\right) + \sum_{j’}\exp\left(a_{ij’} - m_i\right)}, \tag{2} \\
      m_{i} = \max \left\{\max_{j}a_{ij},sink\right\} . \tag{3}$$
  • 最后, Query \(i\) 的注意力输出通过对值进行加权和获得:
    $$o_{i} = \sum_{j = 1}^{n}s_{ij}\nu_{j}. \tag{4}$$
Model Architecture Experiments
  • 了验证论文设计选择的有效性,论文在一个 32B Dense 模型上进行了探索性和实证研究,保持了与上述描述一致的 Query -键维度和旋转嵌入配置
  • 表 2:不同注意力配置的通用基准结果
  • 表 3:不同注意力配置的长上下文基准结果
  • 表 4:不同注意力配置的复杂推理基准结果
基线及基准测试
  • 论文在比较环境中评估了四种模型架构变体,包括:
    • 一个全全局注意力基线
    • 一个不带注意力 Sink 偏置的 128 Token 窗口混合 SWA 模型
    • 两个分别使用 128 和 512 窗口大小并增强了注意力 Sink 偏置的混合 SWA 模型
    • 所有变体共享相同的训练流程:在 250B Token 上进行 8,192 序列长度的预训练,然后在额外的 40B Token 上长上下文扩展到 32,768,接着进行带有思维链监督的长上下文 SFT 和推理 SFT
  • 论文评估模型变体在涵盖通用能力、长上下文理解和复杂推理的基准测试上的表现
    • 通用领域结果(表 2)来自未经长上下文扩展的预训练基础模型,评估了在 MMLU (2021a), BBH (2023), TriviaQA (2017), GSM8K (2021), MATH (2021b), CMMLU (2023) 和 MBPP (2021) 上的通用知识和推理
    • 长上下文结果(表 3)评估了长上下文扩展后的基础模型在 GSM-Infinite (2025), NoLiMa (2025) 和 RULER-32k (2024) 上的表现,以及长上下文 SFT 模型在 MRCR (2024) 上的表现
    • 对于 GSM-Infinite 和 Nolima,论文构建了内部的 few-shot 基准来评估基础模型在受控的长上下文设置下的表现
    • 复杂推理结果(表 4)评估了推理 SFT 模型在 AIME24&25 (MAA, 2024), LiveCodeBench (2024) 和 GPQA-Diamond (2024) 上的表现
  • 论文关键的实证发现:
    • 注意力 Sink 偏置消融实验 如表 2 所示,混合 SWA (\(W = 128\) ,w/o Sink ) 在通用基准测试中遭受了明显的性能下降,而引入注意力 Sink 偏置相对于全 GA 基线一致地恢复或提升了性能
      • 因此,在进一步的实验中,论文默认假设应用了注意力 Sink 偏置
    • 滑动窗口注意力大小 混合 SWA (\(W = 128\)) 和混合 SWA (\(W = 512\)) 在通用基准测试上表现相似(表 2)
      • 然而,经过长上下文扩展和长上下文 SFT 后,混合 SWA (\(W = 128\)) 超越了全 GA 基线,而 SWA (\(W = 512\)) 则经历了显著的性能下降(表 3)
    • 推理能力 如表 4 所示,混合 SWA (\(W = 128\)) 在不同的挑战性推理基准测试上超越了全 GA 基线,在复杂推理能力上显示出清晰的改进
Summary and Discussion
  • 论文的实验表明,混合 SWA (\(W = 128\)) 不仅优于混合 SWA (\(W = 512\)),而且可以 超越全 GA 基线 ,这可能看起来违反直觉
    • 论文推断这是由于更好的正则化和有效的稀疏性相结合的结果
  • 较小的窗口迫使模型专注于局部上下文,作为一种归纳偏置,减轻了对虚假模式的过拟合
    • 此外,更紧的窗口 (\(W = 128\)) 迫使 SWA 对局部信息建模,同时将长程依赖委托给全局注意力层,导致更清晰的分工和更准确高效的学习
    • 相比之下,更大的窗口 (\(W = 512\)) 可能会模糊这种区别,导致 SWA 部分地自行处理长程依赖,这稀释了局部和全局信息之间的分离,并导致次优性能
  • 论文这些观察和发现是实证性的,源于论文特定的实验设置,包括模型规模、数据集和训练过程
    • 尽管如此,作者希望这些观察能为正在进行的关于推理和智能体 AI 模型时代高效注意力架构的讨论贡献一个额外的视角,并激励社区更广泛地研究高效架构

Lightweight Multi-Token Prediction

Motivation of using MTP
  • 先前的工作表明,MTP 是一种强大的训练目标,可以增强训练效率和模型质量 (2024; 2024; 2025)
    • 除了这些训练上的好处,论文更强调将 MTP 作为本机草稿模型用于自推测解码,以实现实际部署的加速
  • 论文从两个角度详细阐述 MTP 如何加速推理:通用 LLM 解码加速和 RL 训练加速
Accelerating LLM Decoding
  • 由于算术强度低,LLM 解码本质上是内存受限的
    • 批次级并行通常用于提高 FFN 的算术强度,但对注意力计算没有益处,因为每个请求维护自己的 KV 缓存
    • 相比之下,MTP 通过生成多个草稿 Token 来提升 FFN 和注意力的算术强度,然后主模型并行验证这些 Token
    • 这种方法实现了 Token 级并行,而无需增加 KV 缓存 I/O
      Accelerating RL Training
  • MTP 加速特别适用于 RL 训练 (RadixArk Team, 2025),其中 rollout 阶段由于推理和解码成本始终是主要的瓶颈
  • MTP 解决了 RL 训练中的两个关键挑战:
    • 它使得小批次的 RL 高效且有效:当前的 RL 训练依赖于大批次、 Off-policy 算法来最大化吞吐量 (2025; 2017; 2025)
      • 但实际上,On-policy 训练通常更稳定和有效,但其小批次无法充分利用 GPU 资源
    • MTP 通过扩展 Token 级并行而不是批次大小来缓解这一限制,使得小批次、 On-policy RL 训练更加实用
      • 它减轻了由长尾滞后项引起的 GPU 空闲
      • 随着 rollout 阶段进行,处理长序列且批次大小较小(通常接近 1)的长尾滞后项会导致显著的 GPU 空闲 (2025; 2025)
      • 在此类场景中,MTP 提高了注意力和 FFN 的计算效率,显著减少了总体延迟
      • 理解:这里说的是当 Batch 较小时,MTP 可以提升并行度?还是说单纯的提升了整体解码速度?
Lightweight MTP Design in MiMo-V2-Flash
  • 在 MiMo-V2-Flash 中,MTP 块被刻意保持轻量级,以防止其成为新的推理瓶颈
  • 论文使用小型 Dense FFN 而不是 MoE 来限制参数数量,并采用 SWA 而不是全局注意力来减少 KV 缓存和注意力计算成本
    • 在预训练期间,模型仅附加一个 MTP 头以避免额外的训练开销
    • 在训练后阶段,该头被复制 \(K\) 次以形成 \(K\) 步 MTP 模块,并且所有头联合训练以进行多步预测
      • 每个头接收主模型的隐藏状态和 Token 嵌入作为输入,提供更丰富的预测信息
  • 尽管设计轻量,MTP 模块仍然非常有效,并实现了高接受率
    • 详细结果见第 5 节

Pre-Training

  • MiMo-V2-Flash 的预训练语料库包含来自多样化高质量来源的 27T Token,包括公共网络内容、书籍、学术论文、代码、数学和更广泛的 STEM 材料
  • 论文的数据处理流程在很大程度上遵循了 MiMo-7B (2025),并有意转向展现长程依赖的数据
  • 特别是,论文强调长格式的网络文档和精心整理的代码语料库,如仓库级代码、拉取请求、问题和提交历史,以增强模型捕获扩展上下文关系和执行复杂多步推理的能力

Data Scheduler

  • MiMo-V2-Flash 的预训练组织为三个连续的阶段:
    • 阶段 1 :在多样化的高质量通用语料库上使用 32K Token 的上下文长度进行训练,以建立强大的基础语言能力
    • 阶段 2 :通过上采样以代码为中心的数据并纳入约 \(5%\) 的合成推理数据来修改数据混合,以进一步增强逻辑推理和程序合成能力
    • 阶段 3 :遵循第 2 阶段的数据分布,将模型的上下文窗口扩展到 256K Token,并对具有长程依赖的数据进行上采样,实现对扩展上下文和长视野推理的更有效建模

Hyper-Parameters

模型超参数
  • 论文将 MiMo-V2-Flash 配置为 48 个 Transformer 层,包括 39 个滑动窗口注意力层和 9 个全局注意力层。隐藏维度设置为 4096。除第一层外,所有层都配备了稀疏 MoE。每个 MoE 层包含 256 个路由专家,每 Token 激活 8 个专家,每个专家的中间隐藏维度为 2048。密集层 FFN 的中间隐藏维度设置为 16384。所有可学习参数均以 0.006 的标准差随机初始化。模型在预训练期间使用单层 MTP。总体而言,MiMo-V2-Flash 总参数量为 309B,其中激活参数量为 15B
训练超参数
  • 论文采用 AdamW 优化器,其中 \(\beta_{1} = 0.9\) , \(\beta_{2} = 0.95\) ,权重衰减为 0.1。梯度裁剪的最大范数为 1.0。学习率调度分两个阶段运行。在阶段 1,学习率在前 50B Token 从 0 线性预热到 \(3.2 \times 10^{- 4}\),然后在 \(3.2 \times 10^{- 4}\) 保持 12T Token,最后在 10T Token 上以余弦衰减到 \(1.0 \times 10^{- 4}\)。阶段 2 从 \(1.0 \times 10^{- 4}\) 开始,并在 4T Token 上以余弦衰减到 \(3.0 \times 10^{- 5}\)。批次大小在前 500B Token 线性预热到 2,048,并在两个阶段的剩余时间保持恒定。关于辅助损失,所有阶段的 MoE 序列辅助损失系数设置为 \(1.0 \times 10^{- 5}\)。专家偏置更新因子在阶段 1 和阶段 2 设置为 0.001。MTP 损失权重在阶段 1 设置为 0.3,在阶段 2 和 3 设置为 0.1
长上下文扩展
  • 在阶段 1,论文将预训练序列长度设置为 32,768,GA 的 RoPE 基础频率为 640,000,SWA 为 10,000。在阶段 3,序列长度扩展到 262,144,GA 的 RoPE 基础频率调整为 5,000,000。阶段 3 的学习率从 \(3.0 \times 10^{- 5}\) 以余弦调度衰减到 \(1.0 \times 10^{- 5}\),批次大小固定为 256。专家偏置更新因子在阶段 3 减少到 \(1.0 \times 10^{- 5}\)

Evaluations

Evaluation Setup
  • 论文在涵盖各种能力的一系列基准测试上评估 MiMo-V2-Flash-Base:
    • (1) 通用语言理解和推理,包括 BBH (2023), MMLU (2021a), MMLU-Redux (2024), MMLU-Pro (2024), DROP (2019), ARC (2018), HellaSwag (2019), WinoGrande (2020), TriviaQA (2017), GPQA-Diamond (2024), SuperGPQA (2025) 和 SimpleQA (OpenAI, 2024)
    • (2) 数学推理: GSM8K (2021), MATH (2021b) 和 AIME (MAA, 2024) (2024 & 2025)
    • (3) 代码: HumanEval+ (2023), MBPP+ (2023), CRUXEval (2024a), MultiPL-E (2022), BigCodeBench (2024), LiveCodeBench-v6 (2024) 和 SWE-Bench (2024a) (few-shot Agentless Repair (2024))
    • (4) 中文理解: C-Eval (2023), CMMLU (2023) 和 C-SimpleQA (2025)
    • (5) 多语言理解: GlobalMMLU (2025) 和 INCLUDE (2024)
    • (6) 长上下文: NIAH-Multi (2024), GSM-Infinite (2025) (5-shot, Hard Ops-{2,4,6,8,10})
Evaluation Results
  • 表 5 展示了 MiMo-V2-Flash-Base 与领先的开源基础模型 (Kimi Team, 2025c; 2024) 的全面比较
    • MiMo-V2-Flash-Base 在大多数基准测试中提供了有竞争力的性能,并在推理任务上持续超越同行
    • 在 SWE-Bench 上,它甚至超越了参数量大得多的 Kimi-K2-Base,同时使用了不到三分之一的参数,突显了论文方法在实际代码-智能体任务上的优势
    • 受限于其有限的参数量,论文观察到与更大的模型相比,MiMo-V2-Flash 表现出较低的知识能力,这反映在 SimpleQA 上
  • 论文在表 6 中说明了每个模型的长上下文能力
    • 对于长上下文检索,论文的模型架构从 32K 到 256K 实现了接近 \(100%\) 的成功率
      • 在极端压力长上下文推理基准 GSM-Infinite 上,MiMo-V2-Flash 也显示出强大的性能,从 16K 到 128K 性能下降最小
    • 相比之下,DeepSeek-V3.2-Exp 是一个稀疏注意力 LLM,在 32K 以下获得了最高分,但在 64K 和 128K 时显著下降,表明其在带噪输入的长上下文推理中存在固有劣势
      • 这些结果有力地证明了论文的混合 SWA 架构、原生 32K 预训练和上下文扩展训练的有效性和可扩展性

Post-Training

MOPD:多教师 On-policy 蒸馏 (Multi-Teacher On-Policy Distillation (MOPD): A New Post-Training Paradigm)

  • 现代语言模型越来越依赖广泛的后训练来增强其智能和能力,当前的后训练流程面临两个根本性挑战:
    • 能力不平衡 (capability imbalance) :提升某一技能会导致其他技能的退化(“跷跷板”效应);
    • 学习效率低下 (learning inefficiency) : 现有方法在整合来自多个专业模型的知识时未能充分利用训练信号
  • 论文提出多教师 On-policy 蒸馏 (Multi-Teacher On-Policy Distillation, MOPD),这是一个统一的后训练范式,通过一个三阶段的框架来解决这些挑战,如图 3 所示:
    • Stage 1:监督微调 (Supervised Fine-Tuning, SFT)
      • 论文通过在高质量指令-响应对上进行监督学习,建立基础的理解并遵循指令的能力,使模型能够理解并执行跨不同领域的用户请求
    • Stage 2:领域专业化训练 (Domain-Specialized Training)
      • 论文通过针对特定任务的独立 RL 优化来训练一系列领域专业化教师模型,这些任务包括:智能体能力(搜索、编码、通用工具使用)和非智能体任务(数学推理、通用推理、安全对齐)。每位教师通过针对其特定领域的奖励信号进行优化,在各自领域达到卓越性能
    • Stage 3:多教师 On-policy 知识蒸馏(Multi-Teacher On-Policy Distillation)
      • 与合并模型参数或从专家模型中生成静态离线数据集不同,论文将多教师知识集成(multi-teacher knowledge integration)制定为一个 On-policy 强化学习(on-policy reinforcement learning)过程
      • 学生模型从其自身不断演化的分布中进行采样,并通过 KL 散度奖励(KL divergence rewards) (2023;2024;2025) 接收来自领域特定教师的 Token-level 监督,从而有效地结合了多种专业能力,而无需承受传统的权衡取舍(见表 7)
  • 这种统一的框架相较于传统的后训练方法具有几个关键优势:
    • 高效且有效(Effective and Efficient)
      • 与常常需要权衡能力取舍的参数合并(parameter merging)或顺序训练不同,MOPD 保留了最强教师在所有领域中的峰值性能(peak performance)
      • 此外,利用来自教师 logits 的 Dense Token-level 奖励进行 On-policy 蒸馏,确保了稳定的信用分配(credit assignment)和快速收敛
      • 通过从其自身分布中学习,学生模型避免了在基于静态数据集训练的离线方法中常见的暴露偏差(exposure bias)和分布失配(distribution mismatch)
    • 模块化与可扩展性(Modular and Scalable)
      • 教师模型的选择非常灵活:可以是具备强大能力的专门化 RL 衍生模型、一个不同的 SFT 模型,甚至可以是学生模型自身
      • 这种解耦设计使得能够轻松集成新的教师模型,而无需重构整个流程
      • 此外,该框架能与现有的结果奖励模型(Outcome Reward Models, ORMs) 无缝协作,并且对于复杂的智能体任务尤为有利,因为为这些任务搭建独立的训练流程通常非常繁琐
    • 迭代协同进化(Iterative Co-Evolution)
      • MOPD 天然支持师生协同进化循环
      • 经过蒸馏的学生模型可以重新进入专门的 RL 阶段,以产生更强的教师模型;这些更强的教师模型反过来又能为下一代学生提供更高质量的监督,从而形成一个自我强化的改进循环,实现能力的持续扩展

SFT

  • SFT 阶段是论文后训练流程的基础,它将基础模型转变为一个有帮助的助手,能够遵循指令并在各种任务中有效响应
  • 这一阶段对于激活(activate) 模型在预训练期间获得的潜在能力,并将其输出与期望的格式和风格对齐至关重要
  • 论文精心整理了数百万个涵盖广泛领域的训练样本,包括通用对话、推理、编码和智能体任务
    • 这些样本覆盖了思维模式(thinking)和非思维模式(non-thinking),其中的回答由论文内部的领域专业化模型检查点生成
    • 这种多样化的训练混合确保了模型在其预期用例中能力的全面激活
  • 通过初步实验,论文为 MoE SFT 训练确定了一个关键稳定性指标:梯度为零的参数数量(number of parameters with zero gradients, num-zeros)
    • 该指标为训练不稳定性提供了早期预警信号:
      • num-zeros 增加 表明专家间的负载平衡正在恶化;
      • num-zeros 减少 则表明模型正在严重过拟合(overfitting) 训练数据
      • 问题:为什么梯度为零的参数数量跟 是否过拟合有关?
    • 因此,在整个训练过程中保持稳定的 num-zeros 对于成功的 SFT 至关重要
      • 此外,这种稳定性对于确保后续 RL 阶段的稳健性和收敛性也至关重要
  • 论文的实验表明,num-zeros 的稳定性关键取决于两个超参数:专家偏置更新率(expert bias update rate) 和 AdamW 优化器中的 \(\epsilon\) 参数
    • 基于这些发现,论文使用以下超参数配置论文的训练:论文采用余弦衰减学习率调度器,从 \(5.0 \times 10^{-5}\) 衰减到 \(5.0 \times 10^{-6}\),批次大小为 128,AdamW 的 \(\epsilon\) 设置为 \(1.0 \times 10^{-8}\)。MoE 专家偏置更新率设置为 \(1.0 \times 10^{-4}\),序列辅助损失系数(sequence auxiliary loss coefficient)设置为 \(1.0 \times 10^{-6}\)

Scaling Reinforcement Learning

  • 强化学习将模型能力提升到仅靠监督微调所无法达到的水平
  • 根据任务是否涉及智能体行为,论文采用不同的 RL 策略,同时缩放非智能体和智能体 RL 训练,以最大化不同领域的性能
Non-Agentic RL Training
  • 非智能体 RL 训练侧重于提升模型在单轮任务上的性能,此类任务中模型无需交互反馈或多步执行即可生成完整响应
  • 其主要目标是在可验证领域(如数学、编码、逻辑)提升模型的推理准确性,同时在开放式对话中使其输出对齐于帮助性和安全性
  • 论文生成奖励信号的方法因任务特征而异
    • 对于有可验证结果的领域 :
      • 论文采用结合程序化工具和 LLM Judge 的混合验证系统 ,以根据整理的 problem-solution pairs 自动评估正确性
    • 对于主观特性,如帮助性和安全性 :
      • 论文实施 基于评分细则 (rubrics) 的框架 ,由高级 LLM Judge 根据 详细的 rubrics 和参考答案 评估响应,产生细粒度的奖励信号,引导模型朝向期望的行为
    • 问题:各个领域都没有使用 BT RM 吗?
Agentic RL Training
  • 非智能体 RL 侧重于单轮推理和生成,而智能体 RL 则训练模型在需要规划、执行行动并根据反馈进行调整的交互式、多轮环境中运行
  • 论文沿着两个关键维度来扩展智能体 RL:环境多样性和计算资源
  • 扩展智能体环境多样性(Scaling Agentic Environment Diversity)
    • 论文构建了一套多样化的智能体训练环境,涵盖代码调试、终端操作、Web 开发和通用工具使用,每个环境都针对不同的能力方向,同时均需满足多步推理与执行这一共同要求
Code Agent
  • 论文在源自真实世界 GitHub 问题的大规模代码智能体任务上进行训练
  • 模型在智能体循环中运行,读取和编辑文件、执行命令,并根据可验证的单元测试获得奖励
  • 论文的关键 Insight 是: 持续扩展可用任务能推动代码智能的持续提升
  • 为了在超过 10 万个代码任务上实现高效的 RL 训练,论文开发了两个基础设施组件
    • 首先,论文构建了自动化环境设置流水线
      • 该流水线从仓库快照中配置开发环境并将其打包成容器化镜像
      • 在 8 种编程语言上达到 \(70%\) 的成功率,并由运行超过 1 万个并发 pod 的大规模 Kubernetes 集群支持
    • 其次,论文实现了一个轻量级智能体 scaffold
      • 可与 Kubernetes、Docker 或本地后端无缝集成,暴露了三个原子工具(bash、str_replace、finish),仅通过 shell 命令与执行后端交互
    • 这种设计消除了基于服务器的工具实现,并采用最小的系统提示词,没有预定义的工作流,允许模型在训练中发现最佳实践
Terminal Agent
  • 除了 GitHub 问题,论文还利用来自 Stack Overflow 和 Stack Exchange 的任务来强化基于终端的解决问题能力
    • 主要强调的是
  • 论文选取需要高级技术专长的材料,并将其转化为具有相应 Query 、Dockerfile 和测试用例的计算任务
  • 在验证环境安装并按难度和可靠性过滤后,论文获得了大约 3 万个带有已验证执行环境的 Query
  • 基于通过率的额外过滤移除了那些正确性判断不可靠或复杂度不足以进行有效 RL 训练的任务
Web Development Agent
  • 为了提升 Web 开发代码生成能力,论文构建了一个基于真实世界的合成数据集,并配有多模态验证器
  • 论文收集高质量用户编写的网页,使用 Playwright 执行生成的代码以获得渲染视频,并应用多模态视觉判别器以仅保留高质量样本,其中基于视频的评估相较于静态截图减少了视觉幻觉
  • 论文从整理的页面逆向工程用户 Query 作为种子提示词,合成大规模 RL 数据,涵盖与真实世界使用密切匹配的八个 Web 类别
  • 论文的基于视觉的验证器根据录制的视频对 rollout 执行进行评分,联合评估视觉质量、功能正确性和可执行性,确保奖励反映外观和行为
General Agent
  • 论文开发了两种通用智能体能力
  • 搜索智能体(Search Agent):
    • 采用一个提供三个核心工具(search、open、find)的脚手架,用于自主网页探索
    • 论文通过从种子实体递归扩展事实图来构建 Query ,其中难度随关系链深度和细节混淆而增加,从而实现具有可验证答案的具有挑战性的搜索问题的自动生成
  • 函数调用智能体(Function-Calling Agent)
    • 在具有自定义工具集的合成应用环境中训练,这些工具集通过基于显式数据依赖(直接的输入-输出关系)和隐式逻辑依赖(关于隐藏系统状态的推理)生成工具调用图来构建,要求具备数据传播和状态推断能力
Scaling Agentic Compute
  • 在之前多样化的智能体环境集上训练(表 8),论文发现扩展智能体 RL 计算不仅能提升代码智能体性能,还能有效地泛化到其他任务类型
  • 图 4 显示了论文代码智能体的 RL 训练曲线,模型在大约 12 万个环境中执行了 On-policy rollouts 和更新
    • 这种扩展显著提升了 SFT 基础模型在 SWE-Bench-Verified 和 SWE-Bench-Multilingual 上的性能
  • 图 5 表明,大规模的代码智能体 RL 训练能有效地泛化到其他智能体任务,以及数学、代码和通用推理基准测试,这表明智能体训练培养了广泛可迁移的问题解决能力

Technical Formulation of MOPD

  • 通过 SFT 奠定基础并训练了领域专业化教师后,论文现在将整合这些专业化能力到统一学生模型的多教师 On-policy 蒸馏机制形式化
    • 具体地,论文将多教师蒸馏视为一个 On-policy 强化学习目标
  • 令 \(\pi_{\theta}\) 表示训练引擎中优化的目标学生策略,\(\mu_{\theta}\) 表示推理引擎中采用的学生采样策略,\(\pi_{\mathrm{domain}_x}\) 表示从分布 \(\mathcal{D}\) 中采样的提示词 \(x\) 所在领域的专业化教师策略
    • 令 \(\mathrm{sg}[\cdot ]\) 表示停止梯度算子
    • 学生与教师之间的反向 KL 散度损失(Reverse KL Divergence Loss)定义为:
      $$\mathcal{L}_{\mathrm{reverse - KL} }(\theta) = -\mathbb{E}_{x\sim \mathcal{D},y_{t}\sim \pi_{\theta}(\cdot |x,y_{< t})}\log \frac{\pi_{\mathrm{domain}_x}(y_t|x,y_{< t})}{\pi_{\theta}(y_t|x,y_{< t})}. \tag{5}$$
    • 注:这个式子看起来不像是 KL 散度,因为采样分布和分子分布不同,实际上经过转换后,即消除负号后,本身就是 Reverse-KL 散度,详情见附录
  • 其梯度为:
    $$\nabla_{\theta}\mathcal{L}_{\mathrm{reverse - KL} }(\theta) = -\mathbb{E}_{x\sim \mathcal{D},y_{t}\sim \pi_{\theta}(\cdot |x,y_{< t})}\left[\log \frac{\pi_{\mathrm{domain}_x}(y_t|x,y_{< t})}{\pi_{\theta}(y_t|x,y_{< t})}\nabla_{\theta}\log \pi_{\theta}(y_t|x,y_{< t})\right]. \tag{6}$$
  • 遵循 Zhao 等人的工作 (2025),论文应用训练-推理重要性采样,并舍弃表现出大差异的 Token,然后论文定义 MOPD 的替代损失为:
    $$\mathcal{L}_{\mathrm{MOPD} }(\theta) = -\mathbb{E}_{x\sim \mathcal{D},y\sim \mu_{\theta}(\cdot |x)}\left[\frac{1}{|y|}\sum_{t = 1}^{|y|}w_{t}\hat{A}_{\mathrm{MOPD},t}\log \pi_{\theta}(y_t|x,y_{< t})\right], \tag{7}$$
  • 其中
    $$w_{t}(\theta) = \left\{ \begin{array}{ll}\mathrm{sg}\left[\frac{\pi_{\theta}(y_{t}|x,y_{< t})}{\mu_{\theta}(y_{t}|x,y_{< t})}\right], & \epsilon_{\mathrm{low} }\leq \frac{\pi_{\theta}(y_{t}|x,y_{< t})}{\mu_{\theta}(y_{t}|x,y_{< t})}\leq \epsilon_{\mathrm{high} },\\ 0, & \mathrm{otherwise}, \end{array} \right.\quad \hat{A}_{\mathrm{MOPD},t} = \mathrm{sg}\left[\log \frac{\pi_{\mathrm{domain}_x}(y_t|x,y_{< t})}{\pi_{\theta}(y_t|x,y_{< t})}\right]. \tag{8}$$
    • 其中 \(w_{t}(\theta)\) 是训推重要性采样
    • 注意:这里的 Advantage 看似和 ThinkingMachines 提出的 OPD 实现是反的,实际上是一样的,因为 OPD 是先是先计算 Reverse-KL 散度的公式,然后再加个 负号的,这里相当于没有这个负号了
      • 理解:最终含义:最大化 Advantage,等于最小化 Reverse-KL 散度
  • 默认情况下,论文将 MOPD 的优势与其他类型的优势相结合,例如使用结果奖励模型 (Outcome Reward Models, ORMs) 计算的优势,包括 GRPO (2024)
  • 令 \(\hat{A}_{\mathrm{ORM} }\) 表示由 ORMs 计算的优势;最终优势由下式给出:
    $$\hat{A}_{\mathrm{MOPD},t} = \mathrm{sg}\left[\log \frac{\pi_{\mathrm{domain}_x}(y_t|x,y_{< t})}{\pi_{\theta}(y_t|x,y_{< t})}\right] + \alpha \hat{A}_{\mathrm{ORM} }. \tag{9}$$
  • 图 6 展示了 MOPD 相较于传统后训练方法的有效性
    • 在数学推理 (AIME 2025) 和编码 (LiveCodeBench) 基准测试上,MOPD 成功保留并整合了来自多位教师的专业化能力,在大多数领域达到或超过了最强教师的性能

Evaluations

Evaluation Setup
  • 论文在 MMLU-Pro (2024)、GPQA-Diamond (2024)、HLE Text-only (2025)、AIME 2025 (MAA, 2024)、LiveCodeBench (2024.08-2025.04) (2024)、HMMT Feb. 2025 (Balunović2025)、Arena-Hard (2024)、LongBench V2 (2025)、MRCR (2024)({2,4,8}-needles,最大 128K)、SWE-Bench Verified (2024b)、SWE-Bench Multilingual (2025)、Terminal-Bench、BrowseComp (2025)、\(\tau^2\)-Bench (2025) 上评估 MiMo-V2-Flash
Evaluation Results
  • 论文在表 9 中展示了评估结果
    • MiMo-V2-Flash 在大多数推理基准测试上达到了与 Kimi-K2-Thinking 和 DeepSeek-V3.2-Thinking 相当的性能
    • MiMo-V2-Flash 模型还保持了有竞争力的通用写作能力,使其能够在开放式任务上生成高质量响应
    • 在长上下文评估中,论文的模型超越了规模大得多的全全局注意力 LLM Kimi-K2-Thinking,突显了论文混合 SWA 架构强大的长上下文能力
  • MiMo-V2-Flash 在 SWE-Bench Verified 上达到了 \(73.4%\),超越了所有开源竞争对手,并接近 GPT-5-High 的性能
    • 在 SWE-Bench Multilingual 上,论文的模型解决了 \(71.7%\) 的问题,确立了其作为软件工程任务中最强大的开源 LLM 的地位
    • 这些结果强调了论文超大规模智能体 RL 训练的有效性
    • 在 Terminal Bench 上,该模型也取得了有竞争力的分数
  • 在搜索智能体评估中,MiMo-V2-Flash 在 BrowseComp 上得分为 45.4,应用附录 C 概述的上下文管理方法后进一步提升至 58.3
    • 对于在 \(\tau^2\)-Bench 上的通用工具使用,论文使用 DeepSeek-V3.2 作为用户代理,获得了 95.3(电信)、79.5(零售)、66.0(航空)的类别分数
  • 综上所述,这些结果验证了论文在 MOPD 后训练范式内超大规模 RL 训练的有效性,并突出了该模型在现实世界编码、推理和智能体工作流中的强大潜力

RL Infrastructures

  • 论文的 RL(和 MOPD)基础设施使用 SGLang (2024) 作为推理引擎,使用 Megatron-LM (2019) 作为训练引擎
    • 论文采用 FP8 进行训练和推理
  • 为了实现稳定、高效且灵活的 RL 训练,论文实现了三个扩展模块:
    • Rollout Routing Replay (R3) (2025)(第 4.6.1 节)、数据调度器 (Data Scheduler)(第 4.6.2 节)以及与 Toolbox 结合的 Tool Manager(第 4.6.3 节)
通过 Rollout Routing Replay (R3) 稳定训练 (Stablized Training via Rollout Routing Replay (R3))
  • MoE 模型由于数值精度问题 (2025; 2025),在 rollout 和训练过程中会出现专家路由不一致的问题
  • 论文提出 Rollout Routing Replay (R3) (2025) 来使用与 rollout 相同的路由专家进行 RL 训练,通过优化的数据类型和通信重叠使其开销可忽略不计
    • 对于多轮智能体训练,论文在 rollout 期间采用请求级别的前缀缓存
  • 此缓存存储先前轮次的 KVCache 和 MoE 路由专家,允许它们在同一请求的后续生成步骤中重复使用
  • 与当前推理引擎中常用的基数缓存 (radix cache) 不同,论文的请求级别前缀缓存避免了重新预填充或请求间输出缓存共享 ,确保了路由专家的采样一致性
Data Scheduler
  • 对于 MiMo-V2-Flash,论文扩展了 Seamless Rollout Engine (2025) 并实现了一个数据调度器 (Data Scheduler),以无缝调度细粒度的序列而非微批次,解决分布式 MoE 训练中的 GPU 闲置问题
    • 在动态采样中,当序列返回进行奖励计算时,论文参考历史通过率,并在必要时将新的提示词分配给 GPU 以实现负载均衡
  • 论文整合部分 rollout (partial rollout) (2025; Kimi Team, 2025b) 将过长的轨迹跨步骤分区,同时限制陈旧性以及每个批次中部分样本的比例
    • 通过对部分 rollout 采用陈旧性感知的截断重要性采样,论文在不牺牲模型质量的前提下显著加速了 RL 训练
  • 数据调度器支持特定数据源的配置(采样配额、调度优先级、长度限制、温度)并根据配置的比例拟合通过率来接受样本
    • 基于优先级的调度在不同时间模式的数据源之间重叠奖励计算和推理,确保了高 GPU 利用率
Toolbox and Tool Manager
  • 论文实现了 Toolbox 和 Tool Manager 来解决 RL 智能体训练中的全局资源争用和局部低效问题
    • 这些模块利用 Ray (2018) 进行高效调度
  • Toolbox 作为集中式资源分配器,对跨并发任务的工具强制执行资源配额和 QPS 限制
    • 它采用容错的 Ray Actor 池,消除了冷启动延迟
    • 与 rollout 引擎集成后,Tool Manager 与 Toolbox 协调,通过环境预预热和序列级异步奖励计算来加速训练
  • 它通过超时恢复和实时监控来保持训练稳定性
    • 通过将工具管理和 rollout 工作流解耦,Toolbox 将特定于任务的逻辑与系统范围策略隔离开来,实现了模块化可扩展性而不损害稳定性

MTP Speedup

MTP Acceptance Length

  • 论文分析了模型通过下一 Token 交叉熵 (cross-entropy) 衡量的预测不确定性与多 Token 预测 (MTP) 模块效率之间的关系
  • 如图 7 所示,论文在涵盖代码生成 (例如 WebDev, LiveCodeBench) 到复杂推理任务 (例如 AIME25, MMLU Pro) 的多样化基准测试中,评估了使用 3 层 MTP 时的平均接受长度
  • 结果显示出强烈的负相关性:熵值较低的上下文 (如 WebDev) 允许显著更长的接受序列,达到约 3.6 个 Token
    • 相反,内在不确定性较高的任务 (例如 MMLU Pro) 由于预测分歧增加,表现出较短的接受长度
    • 这种行为可以通过一个对数变换拟合曲线 \((y = 4(1 - 0.58x^{0.58}))\) 精确建模,其 \(R^2\) 为 0.995,这表明下一 Token 交叉熵是 MTP 吞吐量的主要决定因素

MTP Inference Speedup

  • 论文测量了 MiMo-V2-Flash 在使用 3 层 MTP 时,在不同批次大小 (每节点) 和接受长度下的解码加速情况,输入长度为 16K,输出长度为 1K
  • 表 10 中的结果表明,在无需额外硬件成本的情况下,MTP 始终优于不使用 MTP 的基线
    • 加速比随接受长度线性缩放
    • 在不同的批次大小下,MTP 表现出不同的加速效果,这取决于相应的计算和 I/O 需求以及内核效率
  • 在实践中,研究人员和工程师应根据硬件屋顶线模型 (hardware roofline models) 来调整批次大小和 MTP 层数,以优化速度-成本权衡

Limitation, and Future Work

  • 与最强大的闭源权重模型相比,仍存在明显差距,论文计划通过扩大模型规模和训练计算量来缩小这一差距
  • 论文目前的架构探索仍然是初步的,对设计权衡的分析有限
  • 未来的工作将侧重于设计更鲁棒、更高效、面向智能体的模型架构
  • 论文计划扩展 MOPD 中教师与学生迭代协同进化所需的计算量,以充分释放其潜力

附录 B:Reward Hacking 与 SWE-Bench**

  • 与 SWE-Bench 社区近期的发现一致,论文同样识别出了官方 SWE-Bench 镜像中的一个漏洞:未正确删除用于验证的 ground truth 提交记录
  • 在 RL 训练期间,这可能导致 Reward Hacking 和评估分数虚高,模型倾向于通过窥探未来提交记录(peeking at future commits) 来获得奖励,如图 8 所示
  • 为解决此问题,论文在评估中已更新至最新的 SWE-Bench 镜像
  • 对于论文自行构建的训练镜像,论文也遵循了官方 SWE-Bench 关于 git 黑客攻击的解决方案,并反复确认论文的模型未表现出任何奖励黑客攻击行为
  • 图 8 论文的 Qwen3-32B 实验在未经处理的镜像中进行 RL 训练时表现出的奖励黑客攻击倾向
    • 论文通过统计模型 rollout 轨迹中一组关键词(如 “git log –all”)的数量来量化模型的 git 黑客攻击尝试

附录 C:Context Management

  • 虽然 Fine-tuning 和 RL 优化的是模型参数 \(\theta\),但上下文管理(Context Management)则是策略性地优化条件上下文 \(C\)(conditioning context),即影响 \(P(y \mid C, \theta)\)
  • 论文的方法旨在解决两个互补的挑战
    • 对于上下文增强(Context Augmentation)
      • 论文采用了类 Unix 的抽象方法:工具(tools)、文档(documents)和数据库(databases)被统一视作文件(files)来暴露,使得模型能够利用其天然的代码生成能力,通过 Bash 命令来检索信息
    • 对于上下文整合(Context Consolidation)
      • 论文通过强制实施激进的内存压缩(aggressive memory compression)来对抗迷失在中间(”Lost in the Middle”) 现象
      • 当上下文使用率超过一个阈值(可低至 30%)时,系统会提示模型进行总结(summarize),将完整的历史记录存档至一个可检索的记忆文件(retrievable memory file)中,并用摘要替换活跃上下文
  • Empirically,这在 Deep Research tasks 上能带来 5-10% 的准确率提升
  • 论文的结果与 DeepSeek V3 的发现一致:
    • 丢弃工具调用历史(discarding tool-call history)优于保留策略;
    • 通过复现其激进的重置协议(aggressive reset protocol),论文在可比的基准测试中取得了 58.3 分
  • 核心见解反直觉但有力:更少但策略性管理(strategically managed)的上下文,能产生更专注和更准确的生成结果

附录:MOPD 的详细理解

  • 本报告中提出的 Multi-Teacher On-Policy Distillation(MOPD) 是一种新颖的后训练范式,旨在解决传统后训练中存在的“能力不平衡”和“学习效率低”问题
    • 核心思想是通过多教师、基于当前策略的蒸馏 ,将不同领域的专家知识高效地集成到一个统一的学生模型中

MOPD 的核心思想与流程回顾

  • MOPD 分为三个阶段:
    • 阶段1:Supervised Fine-Tuning (SFT) :在高质量指令-响应对上进行监督微调,建立基础指令遵循能力
    • 阶段2:Domain-Specialized Training :通过强化学习训练多个领域专家教师模型,如代码生成、数学推理、工具使用等
    • 阶段3:Multi-Teacher On-Policy Distillation :学生模型基于自身当前策略进行采样,同时接收来自多个教师的 token 级别监督信号,进行策略优化

MOPD 的数学建模

  • 基本符号定义:
    • \( \pi_\theta \):学生模型的策略(训练引擎中优化)
    • \( \mu_\theta \):学生模型的采样策略(推断引擎中使用)
    • \( \pi_{\text{domain}_x} \):针对输入 \( x \) 对应领域的教师策略
    • \( \mathcal{D} \):训练数据分布
    • \( \text{sg}[\cdot] \):停止梯度操作(stop-gradient)
Reverse-KL Divergence Loss
  • MOPD 使用 反向 KL 散度 作为教师对学生模型的监督信号:
    $$
    \mathcal{L}_{\text{reverse-KL} }(\theta) = -\mathbb{E}_{x \sim \mathcal{D}, y_t \sim \pi_\theta(\cdot|x, y_{ < t})} \log \frac{\pi_{\text{domain}_x}(y_t | x, y_{ < t})}{\pi_\theta(y_t | x, y_{ < t})}
    $$
    • 注意:反向 KL 散度的详细介绍见后文
  • 其梯度为:
    $$
    \nabla_\theta \mathcal{L}_{\text{reverse-KL} }(\theta) = -\mathbb{E}_{x \sim \mathcal{D}, y_t \sim \pi_\theta(\cdot|x, y_{ < t})} \left[ \log \frac{\pi_{\text{domain}_x}(y_t | x, y_{ < t})}{\pi_\theta(y_t | x, y_{ < t})} \cdot \nabla_\theta \log \pi_\theta(y_t | x, y_{ < t}) \right]
    $$
训练-推理重要性采样与截断(解决训练-推理不一致问题)
  • 为了稳定训练,引入重要性权重 \( w_t(\theta) \) 来筛选高置信度 token:
    $$
    w_t(\theta) =
    \begin{cases}
    \text{sg}\left[ \frac{\pi_\theta(y_t | x, y_{ < t})}{\mu_\theta(y_t | x, y_{ < t})} \right], & \epsilon_{\text{low} } \leq \frac{\pi_\theta(y_t | x, y_{ < t})}{\mu_\theta(y_t | x, y_{ < t})} \leq \epsilon_{\text{high} } \\
    0, & \text{otherwise}
    \end{cases}
    $$
MOPD 优势函数定义
  • MOPD 的优势函数由教师策略的对数似然比构成:
    $$
    \hat{A}_{\text{MOPD},t} = \text{sg}\left[ \log \frac{\pi_{\text{domain}_x}(y_t | x, y_{ < t})}{\pi_\theta(y_t | x, y_{ < t})} \right]
    $$
MOPD 最终损失函数
  • MOPD 的代理损失函数为:
    $$
    \mathcal{L}_{\text{MOPD} }(\theta) = -\mathbb{E}_{x \sim \mathcal{D}, y \sim \mu_\theta(\cdot|x)} \left[ \frac{1}{|y|} \sum_{t=1}^{|y|} w_t(\theta) \cdot \hat{A}_{\text{MOPD},t} \cdot \log \pi_\theta(y_t | x, y_{ < t}) \right]
    $$
结合其他奖励信号(实际应用中的 MOPD)
  • MOPD 可以与基于结果的奖励模型(如 GRPO)结合,形成混合优势函数:
    $$
    \hat{A}_{\text{final},t} = \hat{A}_{\text{MOPD},t} + \alpha \cdot \hat{A}_{\text{ORM} }
    $$
    • 其中 \( \hat{A}_{\text{ORM} } \) 是由结果奖励模型计算的优势

MOPD 的核心逻辑与优势

  • 逻辑流程总结:
    • 1)采样阶段 :学生模型使用当前策略 \( \mu_\theta \) 生成响应序列
    • 2)教师监督 :每个 token 对应领域的教师模型给出 token 级别概率分布
    • 3)优势计算 :计算教师与学生策略的对数似然比作为优势信号
    • 4)策略更新 :使用带重要性采样的策略梯度更新学生模型参数
  • 关键优势总结:
    • Token 级别监督 :教师提供密集的 token 级别反馈,而非仅序列级别奖励
    • 多教师集成 :不同领域的教师并行监督,避免能力退化(跷跷板效应)
    • On-Policy 学习 :学生基于自身当前策略采样,避免离线数据分布不匹配
    • 可扩展性 :可与 ORM、GRPO 等外部奖励模型结合,形成混合训练目标

附录:Reverse KL Divergence vs Forward KL Divergence

两种 KL 散度的定义

  • KL 散度(Kullback–Leibler Divergence)衡量两个概率分布 \( P \) 和 \( Q \) 之间的差异(非对称):
Forward KL
  • Forward KL 从 真实分布 \(P\) 中采样,惩罚 \(Q\) 给 \(P\) 的高概率事件分配低概率(即“覆盖模式(Mode-covering)”)
    $$
    D_{KL}(P | Q) = \mathbb{E}_{x \sim P} \left[ \log \frac{P(x)}{Q(x)} \right]
    $$
Reverse KL
  • Reverse KL 从 近似分布 \(Q\) 中采样,惩罚 \(Q\) 给自身的样本分配高概率,而 \(P\) 却认为这些样本概率很低(即“避免零概率陷阱”或“模式寻求”)
    $$
    D_{KL}(Q | P) = \mathbb{E}_{x \sim Q} \left[ \log \frac{Q(x)}{P(x)} \right]
    $$

两者的区别

  • 假设真实分布 \(P\) 是一个双峰分布(两个分离的高峰),而论文的模型分布 \(Q\) 是一个单峰分布(如高斯分布)
  • 最小化前向 KL 散度 \(D_{KL}(P | Q)\)
    • 优化目标是让 \(Q\) 覆盖 \(P\) 的所有高概率区域
    • \(Q\) 会尝试覆盖两个峰,变成一个宽而平的分布 ,覆盖两个模式,但无法精确匹配任何一个(均值覆盖,模糊拟合)
    • 核心是 避免遗漏(avoid missing modes)
  • 最小化反向 KL 散度 \(D_{KL}(Q | P)\)
    • 优化目标是让 \(Q\) 只放在 \(P\) 的某一个高概率区域 ,并尽量让 \(Q\) 自身的概率集中
    • \(Q\) 会选择其中一个峰 ,并紧密拟合它,完全忽略另一个峰(模式寻求(Mode-seeking),尖锐拟合)
    • 核心 避免生成低概率样本(avoid generating low-probability samples)

在策略蒸馏中的具体含义

  • 在 MOPD 中:
    • \(P\) = 教师策略 \(\pi_{\text{teacher} }\)
    • \(Q\) = 学生策略 \(\pi_{\theta}\)
如果在 MOPD 中使用前向 KL 散度(教师采样):
  • 损失函数为:
    $$
    \mathcal{L}_{\text{forward-KL} } = \mathbb{E}_{x \sim \text{data}, y_t \sim \pi_{\text{teacher} } } \left[ \log \frac{\pi_{\text{teacher} }(y_t)}{\pi_{\theta}(y_t)} \right]
    $$
    • 教师策略生成样本
    • 学生被要求匹配教师实际生成的所有行为
    • 教师可能有多种正确方式(多峰),学生被迫学习所有方式,可能导致 平均化、保守的输出
    • 注意:从另一个角度讲,教师策略来生成样本就不应该叫做 On-policy 了
在 MOPD 中使用反向 KL 散度(学生采样):
  • 损失函数为:
    $$
    \mathcal{L}_{\text{reverse-KL} } = \mathbb{E}_{x \sim \text{data}, y_t \sim \pi_{\theta} } \left[ \log \frac{\pi_{\theta}(y_t)}{\pi_{\text{teacher} }(y_t)} \right]
    $$
    • 学生自己采样 ,检查教师对这些样本的评价
    • 如果学生生成了一个教师认为很差的 token(\(\pi_{\text{teacher} }\) 很小),则受到强烈惩罚
    • 如果学生生成了一个教师认可的 token,则鼓励学生 保持自信(增加该 token 的概率)
    • 结果:学生学会避免生成教师不认可的 token ,并在教师认可的路径上强化自身策略
MOPD 选择反向 KL 的优势
  • 模式寻求(Mode-seeking)而非模式覆盖(Mode-covering) :
    • 在多个教师场景下,每个教师可能代表一种“正确风格”
    • 反向 KL 让学生 专注于学习某一个教师的风格(选择一个模式深入学习),而不是在所有教师风格间取平均
      • 问题:这个理解有时候也觉得不太对,因为如果每个教师对应一个峰值,那其实使用前向 KL 拟合多峰才是应该的?
      • 回答:同一个样本只对应一个领域教师模型,每个教师是单独教授模型的,对于任意的 Query,学习的并不是多个教师的峰,本质还是在学习(固定 Query 下)某个教师的风格
    • 这有助于形成 更确定、更一致 的生成行为
  • 与 On-Policy RL 自然结合 :
    • RL 中的策略梯度是
      $$ \mathbb{E}_{y \sim \pi_{\theta} } [\text{reward} \cdot \nabla \log \pi_{\theta}]$$
    • 反向 KL 的梯度形式与其完全一致:
      $$ \mathbb{E}_{y \sim \pi_{\theta} } [\log(\frac{\pi_{\text{teacher} }}{\pi_{\theta}}) \cdot \nabla \log \pi_{\theta}]$$
      • 注意这里的采样策略是学生模型,不是教师模型,若是教师模型,这里是不可以的
    • 这使得蒸馏信号可以直接作为 优势函数(advantage) 融入 RL 更新
  • 避免教师次优行为 :
    • 教师策略可能有不完美的行为(噪声、次优选择)
    • 即使教师偶尔生成了教师的低概率行为,反向 KL 也能让学生 避开 教师得这些低概率的行为(前向 KL 可能会让学生模仿这些次优行为)
  • 稳定训练 :
    • 反向 KL 鼓励学生分布 \(Q\) 避免探索教师分布的低概率区域,这在训练早期尤其稳定

MOPD 公式的微妙之处

  • 注意 MiMo-V2-Flash 技术报告的公式 (5) 中的符号:
    $$\mathcal{L}_{\mathrm{reverse - KL} }(\theta) = -\mathbb{E}_{x\sim \mathcal{D},y_{t}\sim \pi_{\theta}(\cdot |x,y_{< t})}\log \frac{\pi_{\mathrm{domain}_x}(y_t|x,y_{< t})}{\pi_{\theta}(y_t|x,y_{< t})}. \tag{5}$$
    • 这个式子看起来不像是 KL 散度,因为采样分布和分子分布不同,实际上经过转换(消除负号后)本身就是 Reverse-KL 散度
  • 这实际上是 最大化教师对学生似然比的对数期望 ,等价于最小化:
    $$\mathcal{L}_{\mathrm{reverse - KL} }(\theta) = \mathbb{E}_{x\sim \mathcal{D},y_{t}\sim \pi_{\theta}(\cdot |x,y_{< t})}\log \frac{\pi_{\theta}(y_t|x,y_{< t})}{\pi_{\mathrm{domain}_x}(y_t|x,y_{< t})} $$
    • 这就是 Reverse-KL 散度的表达是,OPD 的训练目标就是最小化这个 Reverse-KL 散度,最小化这个 KL 散度就是让两个分布足够接近
  • 所以优化方向是让 \(\pi_{\theta}\) 在自身样本上得到教师的认可
  • MOPD 使用反向KL,是因为它本质上是一个 “基于当前策略的强化学习” 过程:
    • 学生作为 actor 生成行为(token)
    • 教师作为 critic 给出每个 token 的“优势值”(\(\log \frac{\pi_{\text{teacher} } }{\pi_{\theta} }\))
    • 学生更新策略以增加高优势 token 的概率,减少低优势 token 的概率

NLP——mHC

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:mHC: Manifold-Constrained Hyper-Connections, DeepSeek, 20251231
      • 梁文峰挂名
    • 论文的上一篇文章:Hyper-connections, 202409 & ICLR 2025, Seed

Paper Summary

  • 整体内容总结:
    • 作者发现:虽然如超连接 (HC) 等工作所提出的那样扩展残差流的宽度和多样化连接可以带来性能提升,但这些连接的无约束性质会导致信号发散
      • 这种破坏损害了跨层的信号能量守恒,导致训练不稳定并阻碍了深度网络的可扩展性
    • 为了解决这些挑战,论文引入了是一个将残差连接空间投影到特定流形的通用框架 流形约束的超连接(Manifold-Constrained Hyper-Connections,\(m\)HC)
    • 关键词:\(m\)HC, mHC
  • 背景 & 问题:
    • 以超连接(Hyper-Connections,HC)为代表的研究,通过扩展残差流宽度(residual stream width)和多样化连接模式(diversifying connectivity patterns),扩展了过去十年建立的普遍存在的(ubiquitous)残差连接范式
    • HC 带来了显著的性能提升,但这种多样化从根本上破坏了残差连接固有的恒等映射性质,导致严重的训练不稳定性、受限的可扩展性,并额外产生了显著的内存访问开销
  • 本文解法:流形约束的超连接(\(m\)HC)
    • mHC 是一个将 HC 的残差连接空间投影到特定流形以恢复恒等映射性质的通用框架,同时结合了严格的基础设施优化以确保效率
  • 实证实验表明,\(m\)HC 对于大规模训练是有效的 ,提供了切实的性能改进和卓越的可扩展性
  • 论文预计,\(m\)HC 作为 HC 的一个灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进指明有前景的方向
  • 图 1:残差连接范式图示(Illustrations of Residual Connection Paradigms):
    • (a) 标准残差连接(Standard Residual Connection)
    • (b) 超连接(Hyper-Connections,HC)
    • (c) mHC
    • 与无约束的 HC 不同,\(m\)HC 侧重于通过将矩阵投影到约束流形上来优化残差连接空间,以确保稳定性

Introduction and Discussion

  • 自 ResNets(2016a)引入以来,深度神经网络架构经历了快速演变,如图 1(a) 所示,单层的结构可以表述如下:
    $$\mathbf{x}_{l+1}=\mathbf{x}_{l}+\mathcal{F}(\mathbf{x}_{l},\mathcal{W}_{l}) \tag{1}$$
    • \(\mathbf{x}_{l}\) 表示第 \(l\) 层的 \(C\) 维输入
    • \(\mathbf{x}_{l+1}\) 表示第 \(l\) 层的 \(C\) 维输出
    • \(\mathcal{F}\) 代表残差函数
    • 尽管残差函数 \(\mathcal{F}\) 在过去十年中已演变为包含卷积、注意力机制和前馈网络等各种操作,但残差连接的范式保持了其原始形式
    • 注:这里残差的本质是让输出等于原始输入再加一个增量
  • 随着 Transformer(2017)架构的发展,该范式目前已成为 LLMs(2020;2024b;2023)的基本设计元素
    • 这一成功主要归功于残差连接的简洁形式
    • 更重要的是,早期研究 Identity Mappings in Deep Residual Networks, Kaiming He, Microsoft Research, 20160725 揭示了残差连接的恒等映射性质在大规模训练期间保持了稳定性和效率
  • 通过跨多个层递归扩展残差连接,公式 (1) 得出:
    $$\mathbf{x}_{L}=\mathbf{x}_{l}+\sum_{i=l}^{L-1}\mathcal{F}(\mathbf{x}_{i},\mathcal{W}_{i}),\tag{2}$$
    • 其中 \(L\) 和 \(l\) 分别对应更深层和更浅层(deeper and shallower layers)
    • 术语 恒等映射(identity mapping) 指的是分量 \(\mathbf{x}_{l}\) 本身,它强调了来自浅层的信号无需任何修改直接映射到深层的性质
  • Recently,以超连接(Hyper-Connections,HC)Hyper-connections, 202409 & ICLR 2025, Seed 为代表的研究为残差连接引入了新的维度,并通过实验证明了其性能潜力
    • HC 的单层架构如图 1(b) 所示
    • 通过扩展残差流的宽度并增强连接复杂性,HC 在不改变单个单元 FLOPs 计算开销的情况下,显著增加了拓扑复杂性
    • 形式上,HC 中的单层传播定义为:
      $$\mathbf{x}_{l+1}=\mathcal{H}^{\text{res} }_{l}\mathbf{x}_{l}+\mathcal{H}^{\text {post}\top }_{l}\mathcal{F}(\mathcal{H}^{\text{pre} }_{l}\mathbf{x}_{l},\mathcal{W}_{l}) \tag{3}$$
    • \(\mathbf{x}_{l}\) 表示第 \(l\) 层的 \(n\times C\) 维输入
    • \(\mathbf{x}_{l+1}\) 表示第 \(l\) 层的 \(n\times C\) 维输出
    • 注意:
      • 与公式 (1) 中的(native 残差)表述不同,\(\mathbf{x}_{l}\) 和 \(\mathbf{x}_{l+1}\) 的特征维度从 \(C\) 扩展到 \(n\times C\)
      • 其中 \(n\) 是扩展率
    • \(\mathcal{H}^{\text{res} }_{l}\)、\(\mathcal{H}^{\text{pre} }_{l}\) 和 \(\mathcal{H}^{\text{post} }_{l}\) 是三个可学习的映射(learnable mapping)
      • \(\mathcal{H}^{\text{res} }_{l}\in\mathbb{R}^{n\times n}\) 用于混合残差流内的特征
      • \(\mathcal{H}^{\text{pre} }_{l}\in\mathbb{R}^{1\times n}\) 将来自 \(nC\) 维流的特征聚合到 \(C\) 维层输入
      • \(\mathcal{H}^{\text{post} }_{l}\in\mathbb{R}^{1\times n}\) 将层输出映射回流中
    • 注:上述公式可对应着 图 1(b) 一起看
  • 然而,随着训练规模增大,HC 引入了潜在的不稳定风险
    • 主要问题在于 HC 的无约束性质在架构跨越多层时会破坏恒等映射性质
    • 在包含多个并行流的架构中,理想的恒等映射作为一种守恒机制,确保跨流的平均信号强度在前向和反向传播期间保持不变
    • 通过公式 (3) 将 HC 递归扩展到多层,可得:
      $$\mathbf{x}_{L}=\left(\prod_{i=1}^{L-l}\mathcal{H}^{\text{res} }_{L-i}\right)\mathbf{x}_{l}+\sum_{i=l}^{L-1}\left(\prod_{j=1}^{L-1-i}\mathcal{H}^{\text{res} }_{L-j}\right)\mathcal{H}^{\text{post}\top}_{i}\mathcal{F}(\mathcal{H}^{\text{pre} }_{i}\mathbf{x}_{i},\mathcal{W}_{i}) \tag{4}$$
      • 其中 \(L\) 和 \(l\) 分别代表更深的层和更浅的层
    • 与公式 (2) 相比,HC 中的复合映射 \(\prod_{i=1}^{L-l}\mathcal{H}^{\text{res} }_{l-i}\) 未能保持特征的全局均值
      • 这种差异导致信号无限制地放大或衰减,从而在大规模训练中造成不稳定
  • 进一步考虑的是,虽然 HC 在 FLOPs 方面保持了计算效率,但原始设计中未解决扩展残差流所带来的内存访问成本的硬件效率问题
    • 这些因素共同限制了 HC 的实际可扩展性,阻碍了其在大规模训练中的应用
  • 为应对这些挑战,论文提出了流形约束的超连接(Manifold-Constrained Hyper-Connections,\(m\)HC) ,如图 1(c) 所示,这是一个将 HC 的残差连接空间投影到特定流形以恢复恒等映射性质的通用框架,同时结合了严格的基础设施优化以确保效率
    • 具体而言,\(m\)HC 利用 Sinkhorn-Knopp 算法(1967)将 \(\mathcal{H}^{\text{res} }_{l}\) 投影到 Birkhoff 多面体上
      • 此操作有效地将残差连接矩阵约束在由双随机矩阵构成的流形内
      • 注:Sinkhorn-Knopp(SK)通常指交替行 / 列缩放的迭代算法,用于将非负矩阵标定为满足指定行和 / 列和的矩阵(常见为双随机矩阵,行和与列和均为 1)
    • 由于这些矩阵的行和与列和均等于 \(1\),操作 \(\mathcal{H}^{\text{res} }_{l} \mathbb{x}_l\) 起到输入特征凸组合的作用
      • 此特性促进了条件良好的信号传播,其中特征均值得以保持,信号范数受到严格正则化,从而有效缓解信号消失或爆炸的风险
    • Furthermore,由于双随机矩阵的矩阵乘法具有封闭性,复合映射 \(\prod_{i=1}^{L-l}\mathcal{H}^{\text{res} }_{l-i}\) 保留了此守恒性质
      • 因此,\(m\)HC 有效地保持了任意深度之间恒等映射的稳定性
    • 为确保效率,论文采用核融合并利用 TileLang(2025)开发混合精度核
    • Furthermore,论文通过选择性重计算并在 DualPipe 调度(2024b)中仔细重叠通信来减少内存占用
  • 在语言模型预训练上的大量实验表明,\(m\)HC 表现出卓越的稳定性和可扩展性,同时保持了 HC 的性能优势
    • 内部大规模训练表明,\(m\)HC 支持大规模训练,并且在扩展率 \(n=4\) 时仅引入 6.7% 的额外时间开销

Related Works

  • 深度学习的架构进展主要可分为微设计(micro-design) 和宏设计(macro-design)
  • 微设计关注计算块的内部架构,指定特征如何跨空间、时间和通道维度进行处理
  • In Contrast,宏设计建立块间的拓扑结构,从而规定特征表示如何在不同层间传播、路由和合并

Micro Design

  • 在参数共享和平移不变性的驱动下,卷积最初主导了结构化信号的处理
  • 虽然后续的变体如深度可分离卷积(depthwise separable)(2017)和分组卷积(grouped convolutions)(2017)优化了效率,但 Transformer(2017)的出现确立了注意力机制和前馈网络(Feed-Forward Networks,FFNs)作为现代架构的基本构建块
    • 注意力机制促进全局信息传播,而 FFNs 增强单个特征的表示能力
  • 为了平衡性能与大语言模型的计算需求,注意力机制已发展为高效变体
    • 例如多查询注意力(Multi-Query Attention,MQA)(Shazeer,2019)、分组查询注意力(Grouped-Query Attention,GQA)(2023)和多头潜在注意力(Multi-Head Latent Attention,MLA)(2024b)
  • 同时,FFNs 已通过 MoE 被泛化为稀疏计算范式,允许大规模参数扩展而无需成比例的计算成本

Macro Design

  • 宏设计(Macro-design)控制网络的全局拓扑结构(2015)
    • 继 ResNet(2016a)之后,诸如 DenseNet(2017)和 Fractal-Net(2016)等架构旨在分别通过密集连接和多路径结构增加拓扑复杂性来提高性能
    • 深度层聚合(Deep Layer Aggregation,DLA)(2018)通过递归聚合不同深度和分辨率的特征进一步扩展了该范式
  • 最近,宏设计的重点已转向扩展残差流的宽度(2020;2023;2025;2025;2025;2024;2025;2023;2024)
    • 超连接(Hyper-Connections,HC)(2024)引入了可学习的矩阵来调制不同深度特征之间的连接强度,而残差矩阵变换器(Residual Matrix Transformer,RMT)(2025)则用外积记忆矩阵替代标准残差流以促进特征存储
    • 类似地,MUDDFormer(2025)采用多路动态密集连接来优化跨层信息流
  • 尽管具有潜力,但这些方法引入了一些问题:
    • 这些方法破坏了残差连接固有的恒等映射性质,从而引入不稳定性并阻碍可扩展性
    • 由于特征宽度扩展,这些方法还产生了显著的内存访问开销
  • 在 HC 的基础上,论文提出的 \(m\)HC 将残差连接空间限制在特定流形上以恢复恒等映射性质,同时结合了严格的基础设施优化以确保效率
    • 这种方法在保持扩展连接的拓扑优势的同时,增强了稳定性和可扩展性

Preliminary

  • 论文首先建立本工作中使用的符号
  • 在 HC 的表述中,第 \(l\) 层的输入 \(\mathbf{x}_{l}\in\mathbb{R}^{1\times C}\) 被扩展 \(n\) 倍以构建一个隐藏矩阵 \(\mathbf{x}_{l}=(\mathbf{x}_{l,0}^{\top},\ldots,\mathbf{x}_{l,n-1}^{\top})^{\top }\in\mathbb{R}^{n\times C}\),可视为 \(n\) 个流的残差
    • 此操作有效地拓宽了残差流的宽度
  • 为了控制该流的读出(read-out)、写入(write-in)和更新过程(updating processes),HC 引入了三个可学习的线性映射 :
    • \(\mathcal{H}_{l}^{\text{pre} }\)、\(\mathcal{H}_{l}^{\text{post} }\in\mathbb{R}^{1\times n}\) 和 \(\mathcal{H}_{l}^{\text{res} }\in\mathbb{R}^{n\times n}\)
  • 这些映射修改了公式 (1) 所示的标准残差连接,从而得到了公式 (3) 中的表述
  • 在 HC 的表述中,可学习的映射由两部分系数组成:
    • 依赖于输入的部分(Input-dependent One):称为动态映射(dynamic mappings)
    • 全局部分(Global One):称为静态映射(static mappings)
  • 形式上,HC 按如下方式计算系数:
    $$\begin{cases}\tilde{\mathbf{x} }_{l}=\text{RMSNorm}(\mathbf{x}_{l})\\ \mathcal{H}_{l}^{\text{pre} }=\alpha_{l}^{\text{pre} }\cdot\text{tanh}(\theta_{ l}^{\text{pre} }\tilde{\mathbf{x} }_{l}^{\top})+\mathbf{b}_{l}^{\text{pre} }\\ \mathcal{H}_{l}^{\text{post} }=\alpha_{l}^{\text{post} }\cdot\text{tanh}(\theta_{l}^{\text{post} }\tilde{\mathbf{x} }_{l}^{\top})+\mathbf{b}_{l}^{\text{post} }\\ \mathcal{H}_{l}^{\text{res} }=\alpha_{l}^{\text{res} }\cdot\text{tanh}(\theta_{ l}^{\text{res} }\tilde{\mathbf{x} }_{l}^{\top})+\mathbf{b}_{l}^{\text{res} },\end{cases} \tag{5}$$
    • 注意:上述只是定义系数,真实的数据流动过程见 图 1
    • 其中 RMSNorm(\(\cdot\))(2019)应用于最后一个维度
      • 理解:相当于 \(n\))个流是相对独立做 RMSNorm 的
    • 标量 \(\alpha_{l}^{\text{pre} }\)、\(\alpha_{l}^{\text{post} }\) 和 \(\alpha_{l}^{\text{res} }\in\mathbb{R}\) 是初始化为小值的可学习门控因子
    • 动态映射 通过由 \(\theta^{\text{pre} }_{l}\)、\(\theta^{\text{post} }_{l}\in\mathbb{R}^{1\times C}\) 和 \(\theta^{\text{res} }_{l}\in\mathbb{R}^{n\times C}\) 参数化的线性投影得出
    • 静态映射 由可学习的偏置 \(\mathbf{b}^{\text{pre} }_{l}\)、\(\mathbf{b}^{\text{post} }_{l}\in\mathbb{R}^{1\times n}\) 和 \(\mathbf{b}^{\text{res} }_{l}\in\mathbb{R}^{n\times n}\) 表示
  • It is worth noting that 引入这些映射(即 \(\mathcal{H}^{\text{pre} }_{l}\)、\(\mathcal{H}^{\text{post} }_{l}\) 和 \(\mathcal{H}^{\text{res} }_{l}\))产生的计算开销可以忽略不计
    • 因为典型的扩展率 \(n\)(例如 4)远小于输入维度 \(C\)
    • 理解:在每一层,每个扩展(共 \(n\) 个扩展)每个系数只需要对应的一个即可
  • 通过这种设计,HC 有效地将残差流的信息容量与层的输入维度(与模型的计算复杂度 FLOPs 密切相关)解耦
    • 问题:这里是说,即使输入维度比较小,残差流的信息容量也可以很大?
  • Consequently,HC 通过调整残差流宽度提供了一种新的扩展途径(new avenue for scaling) ,补充了预训练扩展法则(2022)中讨论的模型 FLOPs 和训练数据大小的传统扩展维度
    • 算力增加:HC 需要三个映射来处理残差流和层输入之间的维度不匹配,需要更多算力
    • 性能提升:表 1 所示的初步实验表明,残差映射 \(\mathcal{H}^{\text{res} }_{l}\) 带来了最显著的性能增益
      • 这一发现强调了残差流内有效信息交换的至关重要性
    • 注:这里的残差流宽度扩展实际上也可以看做另一种维度的 Scaling Law
  • 表 1:Ablation Study of HC Components
    • 当特定映射(\(\mathcal{H}^{\text{pre} }_{l}\)、\(\mathcal{H}^{\text{post} }_{l}\) 或 \(\mathcal{H}^{\text{res} }_{l}\))被禁用时,论文采用固定映射以保持维度一致性:
      • \(\mathcal{H}^{\text{pre} }_{l}\) 使用均匀权重 \(1/n\)
      • \(\mathcal{H}^{\text{post} }_{l}\) 使用全一均匀权重
      • \(\mathcal{H}^{\text{res} }_{l}\) 使用单位矩阵

数值不稳定性,Numerical Instability

  • 虽然残差映射 \(\mathcal{H}^{\text{res} }_{l}\) 对性能至关重要,但其顺序应用(sequential application)对数值稳定性构成重大风险
    • 如公式 (4) 详述,当 HC 跨越多层扩展时,从层 \(l\) 到 \(L\) 的有效信号传播由复合映射 \(\prod_{i=1}^{L-l}\mathcal{H}^{\text{res} }_{L-i}\) 控制
    • 由于可学习的映射 \(\mathcal{H}^{\text{res} }_{l}\) 是无约束的,该复合映射不可避免地偏离恒等映射
    • Consequently,信号幅度在前向传递和反向传播期间都容易爆炸或消失
      • 这种现象破坏了残差学习的基本前提(依赖于无阻碍的信号流),从而在更深或更大规模的模型中使训练过程不稳定
  • 实证证据也支持这一分析:论文在大规模实验中观察到不稳定的损失行为,如图 2 所示
    • 以 \(m\)HC 为基线,HC 在约 12k 步时表现出意外的损失激增 ,这与 梯度范数的不稳定性 高度相关
    • 图 2:超连接(Hyper-Connections,HC)的训练不稳定性(Training Instability)
      • 图 (a) :HC 相对于 \(m\)HC 的绝对损失差距
      • 图 (b) :梯度范数的比较
      • 注:所有结果基于 27B 模型
  • (补充实证证据)Furthermore,对 \(\mathcal{H}^{\text{res} }_{l}\) 的分析验证了这种不稳定性的机制
    • 为了量化复合映射 \(\prod_{i=1}^{L-l}\mathcal{H}^{\text{res} }_{L-i}\) 沿残差流放大信号的程度,论文利用两个指标
    • 第一个基于复合映射行和的最大绝对值,捕捉前向传递中最坏情况的扩张
    • 第二个基于列和的最大绝对值,对应于反向传递
    • 论文将这些指标称为复合映射的最大增益幅度(Amax Gain Magnitude)
      • 如图 3 (b) 所示,最大增益幅度产生了极端值,峰值达到 3000,与 1 存在巨大差异(注:恒等映射的权重系数恒为 1),这证实了残差流爆炸的存在
    • 图 3:超连接(Hyper-Connections,HC)的传播不稳定性(Propagation Instability)
      • 图 3(a) 展示了 27B 模型中的单层映射(Single-Layer Mapping) \(\mathcal{H}^{\text{res} }_{l}\) 的传播动态
      • 图 3(b) 展示了 27B 模型中的复合映射(Composite-Layer Mapping) \(\prod_{l=1}^{L-l}\mathcal{H}^{\text{res} }_{l-l}\) 的传播动态
      • Layer Index \(l\)(x 轴)将每个标准 Transformer 块展开为两个独立的层(Attention 和 FFN)
      • 最大增益幅度(y 轴)计算为最大绝对行和(用于前向信号)和列和(用于反向梯度),在选定序列的所有 token 上取平均

System Overhead(系统开销)

  • 由于额外映射的线性性质,HC 的计算复杂度会提升,目前为止还算可控,但系统级开销仍然构成了不可忽视的挑战
    • 具体来说,内存访问(I/O)成本通常是现代模型架构中的主要瓶颈之一,被广泛称为”内存墙”(”memory wall”)(2022)
    • 这一瓶颈在架构设计中经常被忽视,但它却决定性地影响运行时效率
  • 着眼于广泛采用的预归一化 Transformer(2017)架构,论文分析了 HC 固有的 I/O 模式
  • 表 2 总结了由 \(n\) 流残差设计在单个残差层中引入的每个 token 的内存访问开销
    • 分析表明,HC 使内存访问成本增加了约与 \(n\) 成比例的倍数
    • 这种过度的 I/O 需求显著降低了训练吞吐量,除非通过融合核来缓解
  • Besides,由于 \(\mathcal{H}^{\text{pre} }_{l}\)、\(\mathcal{H}^{\text{post} }_{l}\) 和 \(\mathcal{H}^{\text{res} }_{l}\) 涉及可学习参数,它们的中间激活值需要用于反向传播
    • 这导致 GPU 内存占用量大幅增加,通常需要梯度检查点(gradient checkpointing)来维持可行的内存使用量
  • Furthermore,HC 在管道并行(pipeline parallelism)(2024)中需要 \(n\) 倍的通信成本,导致更大的气泡(bubbles)并降低训练吞吐量
  • 表 2:每个 token 的内存访问成本比较(Comparison of Memory Access Costs Per Token)
    • 此分析考虑了前向传递中残差流维护引入的开销,不包括层函数 \(\mathcal{F}\) 的内部 I/O

Method

Manifold-Constrained Hyper-Connections(暂译为流形约束超连接)

  • 受到恒等映射原理 (2016b) 的启发,\(m\)HC 的核心前提是 将残差映射 \(\mathcal{H}^{\text{res} }_{l}\) 约束到一个特定的流形上
  • 虽然原始的恒等映射通过强制令 \(\mathcal{H}^{\text{res} }_{l}=\mathbf{I}\) 来确保稳定性,但这从根本上阻止了残差流内部的信息交换
    • 而信息交换对于最大化多流架构(multi-stream architectures)的潜力至关重要
  • Therefore,论文提出将残差映射投影到一个既能保持跨层信号传播稳定性、又能促进残差流之间相互作用的流形上,以保持模型的表达能力
  • 为此(To this end),论文将 \(\mathcal{H}^{\text{res} }_{l}\) 限制为一个双随机矩阵(doubly stochastic matrix)
    • 注:双随机矩阵是指每行每列之和为1 ,且单个元素值大于0的矩阵
    • 论文中也提到:双随机矩阵是指元素非负,且行和与列和均为 1 的矩阵
  • Formally,令 \(\mathcal{M}^{\text{res} }\) 表示双随机矩阵的流形(也称为 Birkhoff 多胞形)
    • 多胞形是欧氏空间 \(\mathbb{R}^n\)中由有限个闭半空间的交集构成的有界凸集
    • Birkhoff 多胞形(\(B_n\))是 \(\mathbb{R}^{n\times n}\) 中全体 \(n\times n\) 双随机矩阵的凸多胞形,也等价于全体 \(n\times n\) 置换矩阵的凸包
  • 论文将 \(\mathcal{H}^{\text{res} }_{l}\) 约束到 \(\mathcal{P}_{\mathcal{M}^{\text{res} } }(\mathcal{H}^{\text{res} }_{l})\),其定义为:
    $$\mathcal{P}_{\mathcal{M}^{\text{res} } }(\mathcal{H}^{\text{res} }_{l}):=\left\{\mathcal{H}^{\text{res} }_{l}\in\mathbb{R}^{n\times n}\mid\mathcal{H}^{\text{res} }_{l}\mathbf{1}_{n}=\mathbf{1}_{n},\mathbf{1}^{\top}_{n}\mathcal{H}^{\text{res} }_{l}=\mathbf{1}^{\top}_{n},\mathcal{H}^{\text{res} }_{l}\geqslant 0\right\} \tag{6}$$
    • 其中 \(\mathbf{1}_{n}\) 表示所有元素为 1 的 n 维向量
    • 理解:
      • \(\mathbf{1}_{n}\) 是列向量
      • \(\mathcal{H}^{\text{res} }_{l}\mathbf{1}_{n}=\mathbf{1}_{n}\) 表示矩阵 \(\mathcal{H}^{\text{res} }_{l}\) 的行和为 1
      • \(\mathbf{1}^{\top}_{n}\mathcal{H}^{\text{res} }_{l}=\mathbf{1}^{\top}_{n}\) 表示矩阵 \(\mathcal{H}^{\text{res} }_{l}\) 的列和为 1
      • \(\mathcal{H}^{\text{res} }_{l} \ge 0\) 表示矩阵 \(\mathcal{H}^{\text{res} }_{l}\) 的元素非负
      • 上述定义刚好是双随机矩阵的定义
  • It is worth noting that 当 \(n=1\) 时 ,双随机条件退化为标量 1
    • 此时恢复了原始的恒等映射
  • 选择双随机性赋予了多个严格的理论性质,这些性质有利于大规模模型训练(The choice of double stochasticity confers several rigorous theoretical properties beneficial for large-scale model training):
    • 1)范数保持 (Norm Preservation): 双随机矩阵的谱范数以 1 为界(即 \(|\mathcal{H}^{\text{res} }_{l}|_{2} \leq 1\))
      • 这意味着可学习的映射是非扩张的,能有效缓解梯度爆炸问题
      • 注:谱范数是矩阵范数,即:
        $$
        |A|_2 = \sqrt{\lambda_{\max}(A^* A)}
        $$
        • 其中 \( \lambda_{\max} \) 表示最大特征值,\( A^* \) 是 \( A \) 的共轭转置
    • 2)组合封闭性 (Compositional Closure): 双随机矩阵集合在矩阵乘法下是封闭的
      • 这确保了跨越多层的复合残差映射 \(\prod_{i=1}^{L-1}\mathcal{H}^{\text{res} }_{L-i}\) 保持双随机性 ,从而在整个模型深度范围内保持稳定性
      • 注:双随机矩阵的性质:两个双随机矩阵(Doubly Stochastic Matrix)的乘积仍然是双随机矩阵,推广一下,任意个双随机矩阵的乘积都是双随机矩阵
    • 3)通过 Birkhoff 多胞形的几何解释 (Geometric Interpretation via the Birkhoff Polytope): 集合 \(\mathcal{M}^{\text{res} }\) 构成 Birkhoff 多胞形,它是置换矩阵集合的凸包
      • 这提供了一个清晰的几何解释:残差映射充当了置换的凸组合
      • 从数学上讲,重复应用此类矩阵倾向于单调地增加信息在流之间的混合,有效地充当鲁棒的特征融合机制
  • 此外,论文对输入映射 \(\mathcal{H}^{\text{pre} }_{l}\) 和输出映射 \(\mathcal{H}^{\text{post} }_{l}\) 施加非负约束
    • 这种约束可以防止由正负系数组合引起的信号抵消,这也可以被视为一种特殊的流形投影

Parameterization and Manifold Projection:参数化与流形投影

  • 在本节中,论文将详细说明 \(m\)HC 中 \(\mathcal{H}^{\text{pre} }_{l},\mathcal{H}^{\text{post} }_{l}\) 和 \(\mathcal{H}^{\text{res} }_{l}\) 的计算过程
  • 给定第 \(l\) 层的输入隐藏矩阵 \(\mathbf{x}_{l}\in\mathbb{R}^{n\times C}\),论文首先将其展平为向量 \(\vec{\mathbf{x} }_{l}=\text{vec}(\mathbf{x}_{l})\in\mathbb{R}^{1\times nC}\) 以保留完整的上下文信息
  • 然后,论文遵循原始 HC 的公式来获得动态映射和静态映射:
    $$\begin{cases}\vec{\mathbf{x} }^{\prime}_{l}=\text{RMSNorm}(\vec{\mathbf{x} }_{ l})\\ \tilde{\mathcal{H} }^{\text{pre} }_{l}=\alpha^{\text{pre} }_{l}\cdot(\vec{\mathbf{x} }^{\prime}_{l}\varphi^{\text{pre} }_{l})+\mathbf{b}^{\text{pre} }_{l}\\ \tilde{\mathcal{H} }^{\text{post} }_{l}=\alpha^{\text{post} }_{l}\cdot(\vec{\mathbf{x} }^{\prime}_{l}\varphi^{\text{post} }_{l})+\mathbf{b}^{\text{post} }_{l}\\ \tilde{\mathcal{H} }^{\text{res} }_{l}=\alpha^{\text{res} }_{l}\cdot\text{mat}(\vec{\mathbf{x} }^{\prime}_{l}\varphi^{\text{res} }_{l})+\mathbf{b}^{\text{res} }_{l},\end{cases} \tag{7}$$
    • 其中 \(\varphi^{\text{pre} }_{l},\varphi^{\text{post} }_{l}\in\mathbb{R}^{nC\times n}\) 和 \(\varphi^{\text{res} }_{l}\in\mathbb{R}^{nC\times n^{2} }\) 是用于动态映射的线性投影,而 \(\text{mat}(\cdot)\) 是将 \(\mathbb{R}^{1\times n^{2} }\) 重塑为 \(\mathbb{R}^{n\times n}\) 的函数
  • 然后,通过以下方式获得最终的约束映射:
    $$\begin{cases}\mathcal{H}^{\text{pre} }_{l}=\sigma(\tilde{\mathcal{H}}^{\text{pre} }_{l})\\ \mathcal{H}^{\text{post} }_{l}=2\sigma(\tilde{\mathcal{H} }^{\text{post} }_{l})\\ \mathcal{H}^{\text{res} }_{l}=\text{Sinkhorn-Knopp}(\tilde{\mathcal{H} }^{\text{res} }_{l}),\end{cases} \tag{8}$$
    • 其中 \(\sigma(\cdot)\) 表示 Sigmoid 函数
    • \(\text{Sinkhorn-Knopp}(\cdot)\) 算子计算过程为:
      • TLDR:首先通过指数算子使所有元素为正 ,然后执行迭代归一化过程 ,交替重新缩放行和列使其和为 1
      • 具体来说,给定一个正矩阵 \(\mathbf{M}^{(0)}=\exp(\tilde{\mathcal{H} }^{\text{res} }_{l})\) 作为起始点,归一化迭代进行如下:
        $$\mathbf{M}^{(t)}=\mathcal{T}_{r}\left(\mathcal{T}_{c}(\mathbf{M}^{(t-1)})\right) \tag{9}$$
        • 其中:
          • \(\mathcal{T}_{r}\) 表示行归一化
          • \(\mathcal{T}_{c}\) 表示列归一化
        • 当 \(t_{\max}\to\infty\) 时,此过程收敛到一个双随机矩阵 \(\mathcal{H}^{\text{res} }_{l}=\mathbf{M}^{(t_{\max})}\)
        • 在论文的实验中,论文选择 \(t_{\max}=20\) 作为实际值,所以得到的并不是严格的双随机矩阵

Efficient Infrastructure Design:高效基础设施设计

  • 在本节中,论文将详细介绍为 \(m\)HC 定制的基础设施设计
  • 通过严格的优化,论文将 \(m\)HC(\(n=4\))实现到大规模模型中,仅产生了 6.7% 的边际训练开销
Kernel Fusion:核融合
  • 论文观察到,在 \(m\)HC 中,RMSNorm 在高维隐藏状态 \(\tilde{\mathbf{x} }_{l}\in\mathbb{R}^{1\times nC}\) 上操作时会带来显著的延迟
  • 论文重新排序了除以范数的操作,使其在矩阵乘法之后进行
    • 这种优化在保持数学等价性的同时提高了效率
  • Furthermore
    • 论文采用混合精度策略 ,在不影响速度的情况下最大化数值精度
    • 并将具有共享内存访问的多个操作融合到统一的计算核中 ,以减少内存带宽瓶颈
  • 基于等式 (10) 到 (13) 中详述的输入和参数,论文实现了三个专门的 \(m\)HC 核来计算 \(\mathcal{H}^{\text{pre} }_{l}\)、\(\mathcal{H}^{\text{post} }_{l}\) 和 \(\mathcal{H}^{\text{res} }_{l}\)
  • 在这些核中,偏置和线性投影被整合到 \(\mathbf{b}_{l}\) 和 \(\varphi_{l}\) 中,RMSNorm 权重也被吸收到 \(\varphi_{l}\) 中
    • 等式 (14) 到 (15):论文开发了一个统一的核,它融合了对 \(\tilde{\mathbf{x} }_{l}\) 的两次扫描,利用矩阵乘法单元最大化内存带宽利用率
      • 反向传播——包括两个矩阵乘法——同样被整合到单个核中,消除了对 \(\tilde{\mathbf{x} }_{l}\) 的冗余重新加载
      • 两个核都具有微调的流水线(加载、转换、计算、存储),以高效处理混合精度计算
    • 等式 (16) 到 (18):这些对小系数的轻量级操作被适时地融合到单个核中,显著减少了核启动开销
    • 等式 (19):论文在单个核内实现了 Sinkhorn-Knopp 迭代。对于反向传播,论文推导了一个定制的反向核,该核在芯片上重新计算中间结果并遍历整个迭代
      $$
      \begin{align}
      \varphi_{l}&:\text{tfloat32} \quad [nC,n^{2}+2n]\\
      \vec{\mathbf{x} }_{l}&:\text{bfloat16} \quad [1,nC]\\
      \alpha^{\text{pre} }_{l},\alpha^{\text{post} }_{l},\alpha^{\text{ res} }_{l}&:\text{float32} \quad \text{Scalars}\\
      \mathbf{b}_{l}&:\text{float32} \quad [1,n^{2}+2n]\\
      \left[\tilde{\tilde{\mathcal{H} }}^{\text{pre} }_{l},\tilde{\tilde{\mathcal{H} } }^{\text{post } }_{l},\tilde{\tilde{\mathcal{H} }}^{\text{res} }_{l}\right]&:\text{float32} = \vec{\mathbf{x} }_{l}\varphi_{l}\\
      r&:\text{float32} = |\vec{\mathbf{x} }_{l}|_{2}/\sqrt{nC}\\
      \left[\tilde{\mathcal{H} }^{\text{pre} }_{l},\tilde{\mathcal{H} }^{\text{post } }_{l},\tilde{\mathcal{H} }^{\text{res} }_{l}\right]&:\text{float32} = 1/r\left[\alpha^{\text{pre} }_{l}\tilde{\tilde{\mathcal{H} }}^{\text{pre } }_{l },\alpha^{\text{post} }_{l}\tilde{\tilde{\mathcal{H} }}^{\text{post} }_{l }, \alpha^{\text{res} }_{l}\tilde{\tilde{\mathcal{H} } }^{\text{res} }_{l }\right]+\mathbf{b}_ {l}\\
      \mathcal{H}^{\text{pre} }_{l}&:\text{float32} = \sigma\left(\tilde{\mathcal{H} }^{\text{pre} }_{l}\right)\\
      \mathcal{H}^{\text{post} }_{l}&:\text{float32} = 2\sigma\left(\tilde{\mathcal{H} }^{\text{post} }_{l}\right)\\
      \mathcal{H}^{\text{res} }_{l}&:\text{float32} = \text{Sinkhorn-Knopp}\left(\tilde{\mathcal{H} }^{\text{res} }_{l}\right)
      \end{align}
      \tag{10-19}
      $$
  • 使用从上述核导出的系数,论文引入了两个额外的核来应用这些映射:
    • 一个用于 \(\mathcal{F}_{\text{pre} }:=\mathcal{H}^{\text{pre} }_{l}\mathbf{x}_{l}\)
    • 另一个用于 \(\mathcal{F}_{\text{post,res} }:=\mathcal{H}^{\text{res} }_{l}\mathbf{x}_{ l}+\mathcal{H}^{\text{posttop} }_{l}\mathcal{F}\left(\cdot,\cdot\right)\)
  • 通过将 \(\mathcal{H}^{\text{post} }_{l}\) 和 \(\mathcal{H}^{\text{res} }_{l}\) 的应用与残差合并相融合,论文使该核读取的元素数量从 \((3n+1)C\) 减少到 \((n+1)C\),写入的元素数量从 \(3nC\) 减少到 \(nC\)
  • 论文高效地实现了大部分核(不包括等式 (14) 到 (15)),使用 TileLang (2025)
  • 该框架简化了具有复杂计算过程的核的实现,并使论文能够以最小的工程工作量充分利用内存带宽
Recomputing:重计算
  • \(n\) 流残差设计在训练期间引入了大量的内存开销
    • 为了缓解这个问题,论文在前向传播后丢弃 \(m\)HC 核的中间激活,并通过重新执行 \(m\)HC 核(不含繁重的层函数 \(\mathcal{F}\))在反向传播中动态地重新计算它们
  • 因此,对于连续的 \(L_{r}\) 层块,论文只需要存储到第一层的输入 \(\mathbf{x}_{l_{0} }\)
  • 排除轻量级系数,同时考虑 \(\mathcal{F}\) 内的预归一化,表 3 总结了为反向传播保留的中间激活
  • 由于 \(m\)HC 核的重计算是针对连续的 \(L_{r}\) 层块执行的,给定总共 \(L\) 层,论文必须为反向传播持久存储所有 \(\lceil\frac{L}{L_{r} }\rceil\) 个块的第一层输入 \(\mathbf{x}_{l_{0} }\)
  • 除了这个常驻内存,重计算过程为活动块引入了 \((n+2)C\times L_{r}\) 个元素的瞬态内存开销,这决定了反向传播期间的峰值内存使用量
  • 因此,论文通过最小化对应于 \(L_{r}\) 的总内存占用来确定最佳块大小 \(L^{*}_{r}\):
    $$L^{*}_{r}=\arg\min_{L_{r} }\left[nC\times\left[\frac{L}{L_{r} }\right]+(n+2)C\times L_{r}\right]\approx\sqrt{\frac{nL}{n+2} } \tag{20}$$
  • 此外,大规模训练中的流水线并行施加了一个约束:重计算块不得跨越流水线阶段边界
  • 观察到理论最优值 \(L^{*}_{r}\) 通常与每个流水线阶段的层数一致,论文选择将重计算边界与流水线阶段同步
Overlapping Communication in DualPipe(在 DualPipe 中重叠通信)
  • 在大规模训练中,流水线并行是减轻参数和梯度内存占用的标准实践
  • 具体来说,论文采用 DualPipe 调度 (2024b),它有效地重叠了扩展互连通信流量,例如专家并行和流水线并行中的流量
  • 然而,与单流设计相比,\(m\)HC 中提出的 \(n\) 流残差在流水线阶段之间产生了大量的通信延迟
  • 此外,在阶段边界处,为所有 \(L_{r}\) 层重新计算 \(m\)HC 核引入了不可忽略的计算开销
  • 为了解决这些瓶颈,论文扩展了 DualPipe 调度(见图 4),以促进在流水线阶段边界更好地重叠通信和计算
    • 图 4: \(m\)HC 的通信-计算重叠 论文扩展了 DualPipe 调度以处理 \(m\)HC 引入的开销
      • 每个块的长度仅为示意,不代表实际持续时间
      • (F)、(B)、(W) 分别指前向传播、反向传播、权重梯度计算
      • \(\mathcal{F}^{\Lambda}\) 和 \(\mathcal{F}^{M}\) 分别代表对应 Attention 和 MLP 的核
  • 值得注意的是,为了防止阻塞通信流,论文在专用高优先级计算流上执行 MLP(即 FFN)层的 \(\mathcal{F}_{\text{post,res} }\) 核
  • 论文进一步避免在注意力层中对长时间运行的操作使用持久化核,从而防止长时间的停顿
  • 这种设计使得可以抢占重叠的注意力计算,允许灵活的调度,同时保持计算设备处理单元的高利用率
  • 此外,重计算过程与流水线通信依赖解耦,因为每个阶段的初始激活 \(\mathbf{x}_{l_{0} }\) 已本地缓存
  • 表 3:存储和重计算的中间激活
    • 论文列出了为反向传播保留的每 Token 激活,以及在连续的 \(L_{r}\) 层中重计算的瞬态激活
    • 层 \(l_{0}\) 表示 \(L_{r}\) 层中的第一层,层 \(l\) 在 \([l_{0},l_{0}+L_{r}-1]\) 区间内

Experiments

Experimental Setup

  • 论文通过语言模型预训练来验证所提出的方法,对基线、HC 和论文提出的 \(m\)HC 进行了比较分析
    • 利用受 DeepSeek-V3 (2024b) 启发的 MoE 架构,论文训练了四种不同的模型变体以覆盖不同的评估机制
  • Specifically,HC 和 \(m\)HC 的扩展率 \(n\) 都设置为 4
  • 论文主要关注一个 27B 模型
    • 其训练数据集大小与其参数成正比,这作为论文系统级主要结果的对象
  • 在此基础上(Expanding on this),论文通过加入按比例数据训练的较小 3B 和 9B 模型来分析计算扩展行为
    • 这使论文能够观察不同计算量下的性能趋势
  • Additionally,为了专门研究 Token 扩展行为
    • 论文在一个固定的 1T Token 语料库上训练了一个单独的 3B 模型
  • 详细的模型配置和训练超参数在附录 A.1 中提供

Main Results

  • 论文首先检查 27B 模型的训练稳定性和收敛性
  • 如图 5 (a) 所示,\(m\)HC 有效地缓解了 HC 中观察到的训练不稳定性,与基线相比最终损失减少了 0.021
  • 图 5 (b) 中的梯度范数分析进一步证实了这种改进的稳定性,其中 \(m\)HC 表现出明显优于 HC 的行为,保持了与基线相当的稳定轮廓
  • 图 5:流形约束超连接 (\(m\)HC) 的训练稳定性
    • (a) \(m\)HC 和 HC 相对于基线的绝对训练损失差距
    • (b) 三种方法的梯度范数
    • 所有实验均使用 27B 模型
    • 结果表明,\(m\)HC 在损失和梯度范数方面都表现出改进的稳定性
  • 表 4 展示了跨多样化基准测试 (2020;2021;2020;2021;2017;2019) 的下游性能
    • 比较了 Baseline、HC 和 \(m\)HC 在 8 个多样化下游基准测试上的零样本和少样本性能,\(m\)HC 带来了全面的改进,始终优于 Baseline,并在大多数任务上超过了 HC
    • 值得注意的是,与 HC 相比,\(m\)HC 进一步增强了模型的推理能力,在 BBH (2022) 和 DROP (2019) 上分别带来了 2.1% 和 2.3% 的性能增益
    • 在大多数基准上超越了 HC,证明了其在大规模预训练中的有效性

Scaling Experiments

  • 为了评估论文方法的可扩展性,论文报告了 \(m\)HC 相对于基线在不同规模上的相对损失改进
  • 图 6: \(m\)HC 相比 Baseline 的扩展特性
    • (a) 计算扩展曲线 实线描绘了不同计算预算下的性能差距
      • 每个点代表模型大小和数据集大小的特定计算最优配置,从 3B 和 9B 扩展到 27B 参数
      • 轨迹表明,即使在更高的计算预算下,性能优势也能稳健地保持,仅表现出轻微的衰减
    • (b) Token 扩展曲线 3B 模型在训练期间的表现轨迹(展示了 3B 模型的 Token 扩展曲线)
      • 每个点代表模型在不同训练 Token 数下的性能
      • 详细的架构和训练配置见附录 A.1
  • 总的来说,这些发现验证了 \(m\)HC 在大规模场景中的有效性
    • 论文的内部大规模训练实验进一步证实了这一结论

Stability Analysis

  • 与图 3 类似,图 7 展示了 \(m\)HC 的传播稳定性
  • Ideally,单层映射满足双随机约束,这意味着前向信号增益和后向梯度增益都应等于 1
    • However,实际中使用 Sinkhorn-Knopp 算法的实现必须限制迭代次数以实现计算效率
    • 故而论文使用 20 次迭代来获得近似解
  • Consequently,图 7 展示了如下结果:
    • 如图 7(a) 所示,后向梯度增益略微偏离 1
    • 在图 7(b) 所示的复合情况下,偏差增加但仍保持有界,最大值约为 1.6
    • Notably,与 HC 中近 3000 的最大增益幅度相比,\(m\)HC 将其降低了三个数量级
      • 这些结果表明,与 HC 相比,\(m\)HC 显著增强了传播稳定性,确保了稳定的前向信号和后向梯度流
    • 图 7: 流形约束超连接 (\(m\)HC) 的传播稳定性 本图展示了
      • (a) 单层映射 \(\mathcal{P}_{\mathcal{M}^{\text{res} } }(\mathcal{H}_{l}^{\text{res} })\)
      • (b) 复合映射 \(\prod_{i=1}^{L-l}\mathcal{P}_{\mathcal{M}^{\text{res} } }(\mathcal{H}_{l-i}^{\text {res} })\) 在 27B 模型内的传播动态
      • 结果表明,与 HC 相比,\(m\)HC 显著增强了传播稳定性
  • Additionally,图 8 展示了代表性的映射
    • 论文观察到,对于 HC,当最大增益很大时,其他值往往也很大,这表明所有传播路径普遍存在不稳定性
    • In Contrast,\(m\)HC 始终产生稳定的结果
    • 图 8: 可学习映射的可视化 本图展示了 HC(第一行)和 \(m\)HC(第二行)的代表性单层和复合映射
      • 每个矩阵通过平均选定序列内所有 Token 计算得出
      • 标注在 y 轴和 x 轴上的标签分别表示前向信号增益(行和)和后向梯度增益(列和)

Outlook

  • 作为 HC 范式的通用扩展,\(m\)HC 为未来的研究开辟了几条有前景的途径
    • 尽管这项工作利用双随机矩阵来确保稳定性,但该框架允许探索针对特定学习目标定制的多样化流形约束
    • 论文预计,对不同几何约束的进一步研究可能会产生新的方法,以更好地优化可塑性和稳定性之间的权衡
    • 此外,作者希望 \(m\)HC 能重新激发社区对宏观架构设计的兴趣
    • 通过深化对拓扑结构如何影响优化和表示学习的理解,\(m\)HC 将有助于解决当前的局限性,并可能为下一代基础架构的演进照亮新的途径

附录 A.1:详细模型规格和超参数

  • 表 5: 详细模型规格和超参数
    • 本表展示了基于 DeepSeek-V3 (2024b) 架构的 3B、9B 和 27B 模型的架构配置
    • 它概述了 mHC 和 HC 的特定超参数,包括残差流扩展和 Sinkhorn-Knopp 设置,以及实验中使用的优化和训练方案

附录:关于 HC 的一些细节

  • 原始论文:Hyper-connections, 202409 & ICLR 2025, Seed

  • Figure 2:Expansion rate \(n=2\) 的 HC 示意图

  • Figure 8: Transformer HC 形式

  • Algorithm 2:Pseudocode of hyper-connections in a PyTorch-like style.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    # h: hyper hidden matrix (BxLxNxD)
    class HyperConnection(nn.Module):
    def __init__(self, dim, rate, layer_id, dynamic, device=None):
    super(HyperConnection, self).__init__()
    self.rate = rate
    self.layer_id = layer_id
    self.dynamic = dynamic
    self.static_beta = nn.Parameter(torch.ones((rate,), device=device))
    init_alpha0 = torch.zeros((rate, 1), device=device)
    init_alpha0[layer_id % rate, 0] = 1.
    self.static_alpha = nn.Parameter(torch.cat([init_alpha0, torch.eye((rate), device=device)], dim=1))
    if self.dynamic:
    self.dynamic_alpha_fn = nn.Parameter(torch.zeros((dim, rate+1), device=device))
    self.dynamic_alpha_scale = nn.Parameter(torch.ones(1, device=device) * 0.01)
    self.dynamic_beta_fn = nn.Parameter(torch.zeros((dim, ), device=device))
    self.dynamic_beta_scale = nn.Parameter(torch.ones(1, device=device) * 0.01)
    self.layer_norm = LayerNorm(dim)

    def width_connection(self, h):
    # get alpha and beta
    if self.dynamic:
    norm_h = self.layer_norm(h)
    if self.dynamic:
    wc_weight = norm_h @ self.dynamic_alpha_fn
    wc_weight = F.tanh(wc_weight)
    dynamic_alpha = wc_weight * self.dynamic_alpha_scale
    alpha = dynamic_alpha + self.static_alpha[None, None, ...]
    else:
    alpha = self.static_alpha[None, None, ...]
    if self.dynamic:
    dc_weight = norm_h @ self.dynamic_beta_fn
    dc_weight = F.tanh(dc_weight)
    dynamic_beta = dc_weight * self.dynamic_beta_scale
    beta = dynamic_beta + self.static_beta[None, None, ...]
    else:
    beta = self.static_beta[None, None, ...]
    # width connection
    mix_h = alpha.transpose(-1, -2) @ h
    return mix_h, beta

    def depth_connection(self, mix_h, h_o, beta):
    h = torch.einsum("blh,bln->blnh", h_o, beta) + mix_h[..., 1:, :]
    return h
  • Algorithm3:Pseudocode of transformer with hyper-connections in a PyTorch-like style.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    # h: hyper hidden matrix (BxLxNxD)
    # atten_hyper_connection, ffn_hyper_connection: hyper-connection modules
    # attn_norm, ffn_norm: normalization modules
    # Attention Block
    mix_h, beta = atten_hyper_connection.width_connection(h)
    h = attn_norm(mix_h[...,0,:])
    h = self_attention(h)
    h = atten_hyper_connection.depth_connection(mix_h, dropout(h), beta)
    # FFN Block
    mix_h, beta = ffn_hyper_connection.width_connection(h)
    h = ffn_norm(mix_h[...,0,:])
    h = ffn(h)
    h = ffn_hyper_connection.depth_connection(mix_h, dropout(h), beta)

附录:Manifold(流形)

  • 在数学和理论计算机科学(如几何深度学习、流形学习)中,Manifold(流形)是一个核心概念,它是局部欧几里得的拓扑空间
  • 一个 \(n\) 维流形( \(n\)-dimensional manifold) \(M\) 是满足以下条件的豪斯多夫拓扑空间(Hausdorff topological space):
    • 存在一个开覆盖 \(\{U_\alpha\}_{\alpha\in A}\),即 \(M = \bigcup_{\alpha\in A} U_\alpha\)
    • 对每个 \(U_\alpha\),存在一个同胚 (Homeomorphism)(即连续双射且逆连续) \(\phi_\alpha: U_\alpha \to V_\alpha\),其中 \(V_\alpha\) 是 \(\mathbb{R}^n\) 中的开集
    • 注:豪斯多夫拓扑空间 :也称为 \(T_2\) 空间,是拓扑学中最基础且应用最广泛的一类拓扑空间,其核心特征是空间中任意两个不同的点,都可以被两个不相交的开集分别 “包围”
    • 注:同胚 是拓扑学中的核心概念,描述的是两个拓扑空间之间的一种 “连续且可逆的连续” 映射关系,直观上可以理解为:两个空间可以通过连续的拉伸、扭曲、弯曲(但不能撕裂、粘连或打孔)相互转化
  • 这个二元组 \((U_\alpha, \phi_\alpha)\) 称为坐标卡(chart),所有坐标卡的集合 \({(U_\alpha, \phi_\alpha)}_{\alpha\in A}\) 称为图册(atlas)

关于 Manifold 的关键数学表达式

(1)局部欧几里得性的形式化
  • 对任意 \(p \in M\),存在 \(p\) 的开邻域 \(U \subset M\) 和同胚映射 \(\phi: U \to \phi(U) \subset \mathbb{R}^n\),即
    $$
    \phi: U \xrightarrow{\text{同胚}} \phi(U) \subset \mathbb{R}^n
    $$
    • 其中 \(\phi(U)\) 是 \(\mathbb{R}^n\) 中的开集,\(n\) 称为流形 \(M\) 的维数
(2)坐标卡的相容性(光滑流形的附加条件)
  • 若流形 \(M\) 是光滑流形 ,则其图册中任意两个重叠的坐标卡 \((U_\alpha, \phi_\alpha)\) 和 \((U_\beta, \phi_\beta)\)(满足 \(U_\alpha \cap U_\beta \neq \emptyset\))的转移映射
    $$
    \phi_{\beta\alpha} = \phi_\beta \circ \phi_\alpha^{-1}: \phi_\alpha(U_\alpha \cap U_\beta) \to \phi_\beta(U_\alpha \cap U_\beta)
    $$
    • 是 \(\mathbb{R}^n\) 上的光滑函数( \(C^\infty\) 函数)
(3)流形的嵌入(示例:黎曼流形)
  • 若 \(M\) 是黎曼流形 ,则它配备了一个光滑的正定对称二阶协变张量场 \(g\)(黎曼度量,Riemannian Metric),对任意 \(p \in M\) 和切向量 \(v, w \in T_pM\)( \(p\) 点的切空间(Tangent Space)),黎曼度量给出内积
    $$
    g_p(v, w) = \langle v, w \rangle_p
    $$
  • 满足正定性 \(g_p(v, v) \geq 0\),且等号当且仅当 \(v = 0\) 成立

Manifold 在 NLP/LLM 中的应用场景

  • 在大模型相关研究中,流形的核心应用是流形假设(Manifold Hypothesis):
    • 高维数据(如词嵌入、句嵌入)实际上分布在低维流形上,而非整个高维欧几里得空间
    • 公式化表述:若 \(X \subset \mathbb{R}^D\) 是高维数据空间,存在 \(n \ll D\) 维流形 \(M\),使得 \(X \subset M\)
  • 这一假设是对比学习、降维算法(如 t-SNE、UMAP)和几何深度学习的理论基础
12…62
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

616 posts
51 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4