NLP——技术报告解读-Step-3.5-Flash

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, 20260211 & 20260223, StepFun Team

Paper Summary

整体总结：
- Step 3.5 Flash 是 MoE（196B-A11B），纯文本的针对 Agentic 优化过的模型
- 最大优点是计算效率高（也是名字中 Flash 的来源），亲测速度确实还不错
- 交错使用 3:1 的 Sliding Window Attention(SWA)/Full Attention 和 Multi-Token Prediction（MTP-3）进行加速
- 提出 MIS-PO 算法
  - 虽然使用了一种新的方式 MIS（Metropolis Independence Sampling）去描述，但本文 MIS（Metropolis Independence Sampling）的思路跟一些博客和文章中提到的 Masked Importance Sampling（MIS）其实类似，并不是很创新
- 不同领域专家构建 + Self-Distillation 融合不同领域专家能力
- 在 Terminal-Bench 2.0 上达到 $51.0%$，几乎与 GPT-5.2 xHigh 和 Gemini 3.0 Pro 等相当
- 注：本文中，作者经过评测认为 XML 的工具模板比 JSON 更好（去年还有争论，目前似乎慢慢成为共识）
架构情况简单介绍
注：暂时重点对 Post-training 部分进行解读，后续有时间再补充其他部分

Post-Training

用于大规模 RL 的统一后训练方案
- 从一个统一 SFT 模型开始
- 结合可验证的奖励信号和人类偏好反馈，实现了持续的自改进，在 MoE 模型的大规模 Off-policy 训练期间也能保持稳定性
- 两阶段方案(类似 DeepSeek-V3.2)：
  - 第一步（构建专家模型）：在 SFT 的基础上，训练数学、代码、STEM、工具使用、长上下文理解、人类偏好和 Agentic Reasoning 等领域的特定领域 RL
  - 第二步（专家能力融合）：使用 Self-Distillation 和可扩展 RL 将这些专门的专家蒸馏到一个通才模型中
    - 通过在目标专业化和广泛综合之间系统地交替，实现了强大的泛化能力，而不会牺牲专家级的性能

Expert Model Construction and Self-Distillation

SFT 阶段：采用 两阶段 SFT 流程 来构建用于后续 RL 的 Base
- 第一阶段执行大规模的多领域 SFT，涵盖数学、代码、STEM、逻辑、通用问答、Code Agent、工具使用、Search Agent 和长上下文理解
  - 应用难度感知过滤和策略平衡来培养广泛的智能体行为
- 第二阶段通过注入 OOD 信号来明确最大化推理密度，这些信号包括约 3 万条专家级化学轨迹和合成算术任务
  - 这种对独特推理模式的有针对性暴露，仅在三个 Epoch 内就解锁了潜在能力，使模型具备了初始化后续特定领域 RL 阶段所需的复杂结构复杂性
特定领域 RL 阶段：针对特定领域分别进行 RL
专家能力合并：将不同的专家能力整合到一个统一的 Student 模型中，该模型从 Mid-train 检查点初始化 （注意：不是从 SFT 后的 ckpt 初始化）
- SFT 数据构造：
  - 使用专家模型，在上面特定领域的 SFT 阶段使用的相同 Prompt 数据，重新 Rollout 得到 SFT 样本
    - 给直接 RL 集成提供了一种更稳定、更高效的替代方案
- 在构造数据时，采用拒绝采样来消除不良模式，如语言混杂或过度思考，从而将专家知识集中到单个 Student 模型中
- 通过建立这个高质量的 Base 模型，自蒸馏显著减轻了后续 RL 阶段的优化负担

Hyper-Parameters

采用 Muon 优化器，进行 3% 的 warmup，并采用余弦衰减，学习率从 $1.0 \times 10^{-5}$ 衰减到 $5.0 \times 10^{-6}$
冻结 MoE 路由器的权重，并像 Mid-training 一样禁用 EP 组平衡损失
SFT 训练以 0.1 的 MTP 损失权重、32 的 Global batch size 和 128k 的 Global sequence length 进行
关于 ROPE，作者保持 $\theta_{SWA} = 10,000$，并调整 $\theta_{Full} = 5,000,000$ 以适应 128k 的上下文长度 (2023)

Scalable RL

LLM RL 的目标是优化策略 $\pi_{\theta}$ 以最大化轨迹 $\tau = (s_0, a_0, \ldots , s_T)$ 上的终端奖励
- 其中 $a_t$ 表示在状态 $s_t$ 生成的 Token
对于推理任务，由于极高的时间跨度和模型规模进一步放大了由高梯度方差引起的严重不稳定性（图 5 (2)）
这种方差主要源于高吞吐量推理引擎和训练框架之间的基础设施差异，以及迭代更新固有的 Off-policy 偏差
在这种设置下，Importance Sampling 本质上是非稳定的，因为微小的 Token-level 概率偏移会累积成噪声梯度，阻碍收敛

MIS-Filtered Policy Optimization, MIS-PO

注意：这里的 MIS 名字来源不是之前其他文章中的 Masked IS
本文提出了 MIS-PO，一种受 Metropolis 独立性采样 (Metropolis Independence Sampling, MIS) (1953; 1970) 启发的方法
- 注：Metropolis Independence Sampling 是一种 MCMC 采样方法，详情见附录
- 将推理策略视为 Proposal distribution，训练策略视为目标分布，并将更新限制在那些与目标分布保持足够接近的样本上
- 与通过有界比率缩放梯度且通常遭受高方差影响的重要性采样不同，MIS-PO 应用二元掩码来过滤 Off-distribution 的样本，并将保留的轨迹视为有效的 On-policy ，从而显著降低梯度方差并实现稳定的优化
定义一个二元指示函数并将其应用于两个不同的粒度级别
$$\mathbb{I}(x) = \mathbb{1}[\rho_{\min}\leq x\leq \rho_{\max}]$$
- 在 Token-level ，该函数过滤概率比率
  $$x_{t} = \frac{\pi_{\theta_{\text{old} } }(a_{t}|s_{t})}{\pi_{\theta_{\text{vllm} } }(a_{t}|s_{t})}$$
  - 以抑制训练策略和推理策略之间的局部不匹配 (2025)
- 在 Trajectory-level ，将相同的指示函数应用于几何平均比率
  $$\bar{\rho} (\tau) = (\prod_{t}x_{t})^{\frac{1}{T} }$$
  - 有效地丢弃那些已显著偏离目标分布的整个轨迹，这个思想类似 GSPO
- 重新制定的 Actor 损失用这些双级别离散掩码替代了连续的重要性权重：
  $$\mathcal{L}_{actor} = -\mathbb{E}_{\tau \sim \pi_{\theta_{\text{vllm} } } }\left[\mathbb{I}(x_t)\cdot \mathbb{I}(\bar{\rho} (\tau))\cdot \log \pi_\theta (a_t|s_t)\cdot \hat{A}_t\right]. \tag{2}$$
  - 理解：
    - 上述重要性权重有两级过滤（理论上稳定性是最高的）
    - 可以看到，该目标函数将有效样本视为 On-policy （重要性采样的输出是一个二元的值，有梯度回传的 Token 也没有重要性采样比例修正）
      - 论文中提到这在信任区域约束下显著降低了长时程推理任务的梯度方差
    - 问题：对于 off-policy 的场景，即使已经做过 MIS 过滤了，是否也应该继续保留重要性权重以恢复采样差异呢？（至少在数学上保证准确）
  - 图 5 展示了一个大约 5,000 个训练步骤的消融研究，其中 MIS-PO 在 Actor 梯度范数上表现出比 PPO 显著更低的噪声，表明了其改进的可扩展性
  - 更多消融研究见附录 D.2.3
为进一步稳定训练动态，采用了多种技术：
- 截断感知的价值引导 (Truncation-Aware Value Bootstrapping) (2026) ：纠正由上下文长度截断引入的乐观奖励偏差
- 路由置信度 (Routing Confidence) 监控：预测特定于 MoE 架构的不稳定性

Truncation-Aware Value Bootstrapping

为截断的上下文轨迹分配零奖励会将截断与任务失败混为一谈
- 这种模糊性通过未能区分不完整和错误的结果来惩罚长链推理
为了解决这个问题，本文的做法是区分两者
- 将零奖励替换为对最终状态的价值引导估计 (bootstrapped value estimate)
- 将截断视为视野中断而不是终端失败
- 轨迹 $\tau_{i}$ 的修改后奖励定义为：
  $$\hat{R}_{i} = \left\{ \begin{array}{ll}V_{\phi}(s_{T}) & \text{if the response is truncated,}\\ R_{i} & \text{otherwise.} \end{array} \right. \tag{3}$$
  - 理解：可以看到
    - 发生截断时，其奖励估计是截断状态的估计值，即 $V_{\phi}(s_{T})$
    - 发生失败时，其分数正常表示为 $R_i$，可能为 0 或 -1 等
作者的实践经验表明
- 这种截断感知的价值引导在截断率高达 20% 时也能稳定训练，防止了通常由不完整轨迹 (2025; 2025) 引发的奖励退化
消融研究证实，该技术对 Competition-level 基准测试特别有益，因为长时程推理使截断效应最为普遍

Routing Confidence as a Stability Proxy

一些之前的研究将 RL 稳定性与 MoE 路由一致性联系起来
在此基础上，作者提出将路由置信度 $(\Sigma_{k})$ 作为稳定性的代理
- 即激活专家的平均概率质量
  - 理解：被激活专家的平均概率（每个专家都有一个概率）
- 较低的 $\Sigma_{k}$ 意味着较高的路由不确定性，这会放大训练-推理不匹配
  - 理解：较低的 $\Sigma_{k}$ 意味着被激活的专家并不是概率非常大的，不确定性大（类似熵较高）
通过初步实验，确定了一个明显的稳定性相变：
- 路由置信度低的模型是脆弱的，需要极端的稳定化措施
  - 极端稳定化措施如：路由器重放 (Router Replay) (2025) 和严格的 On-policy 更新等
- 路由置信度高的模型保持鲁棒性，能够在没有复杂干预的情况下进行 Off-policy 训练

RL Training Dynamics

本文在图 6 中展示了 Step 3.5 Flash 的 RLVR 训练动态和下游评估改进
训练奖励的稳步上升表明了一个稳定且有效的学习过程
Step 3.5 Flash 在不同的评估基准上实现了一致的性能提升
- IMO-AnswerBench (2025) 上显著提升了 $+3.2%$
- CF-Div2-Stepfun-cpp（附录 E.2.1：作者定制的 CodeForces Div.2 基准）上提升了 $+6.1%$
- ARC-AGI-1 (2019) 上提升了 $+10.6%$
- $\text{HLE}_{\text{text} }$ (2025) 上提升了 $+3.4%$

Reward System

将 RL 框架解耦为 with Verifiable Rewards RL (RLVR) 和 with Non-verifiable Rewards RL（如 RLHF）
- 每个部分都由一个根据其监督特性量身定制的独特奖励支持

Verifiable Rewards

对于 RLVR，每个 Prompt 都与一个特定于任务的验证器配对，该验证器输出一个奖励
- 基于规则的检查器用于逻辑、指令遵循和代码任务
- 基于模型的验证器则用于 STEM 任务
在作者内部模型上进行的 450 步 RL 训练消融研究中
- 对 STEM 任务使用基于模型的验证器比直接使用普通的数学验证器平均高出 $2.0%$
更多细节见附录 D.2.2

Non-Verifiable Reward

使用 Pairwise GRM (2025) 来处理不可验证的任务，该模型根据固定参考来评估响应
- 理解：这里使用的是 Pairwise 的 GRM，应该是输入一个 Response 和一个 Reference Response，然后融 GRM 评估 Response 的胜率是多少
GenRM 是一个推理模型，输出一个置信度分数 ，指示一个 Response 获胜的可能性
- 该分数随后被转换为 Bradley-Terry 胜率 (1952)，作为奖励信号
Length Control 在 GenRM 中作为置信度分数惩罚进行建模，并传播到胜率奖励中，从而有效地抑制 RL 训练期间过度的长度增长
- 理解：这里应该是 Prompt GRM 评估 Response 胜率时也考虑 Length Control
通过对捏造的引用、过度自信的主张或语言不一致的 Response 分配零奖励来进一步确保鲁棒性
- 问题：这里是通过 GRM 直接判断的吗？

Agent Reward（待讨论）

搜索任务使用基于实体匹配分数的 LLM 进行评估
对于报告生成，基于 Rubric 的 LLM judge 评估研究查询、Rubric 规范和候选报告，产生三元判断（满意、部分满意、不满意）(2025)
由于中间类别经常与专家偏好不一致，本文将输出映射到非对称的二元奖励，从而产生更清晰的学习信号，并更快地收敛到符合专家行为的行为
- 问题：如何理解这里的非对称的二元奖励

GenRM Training and MetaRM

GenRM 初始化：使用 RM-Specific Prompts 微调本文的 SFT 模型来初始化
GenRM RL 训练：使用精心挑选的 Pairwise 偏好数据，并采用类似于标量奖励模型公式的 logsigmoid 损失
For 提高 GenRM 的鲁棒性
- 集成 MetaRM（一个额外的验证器）来惩罚表现出虚假推理 （即， 从有缺陷的逻辑中得出正确的偏好 ）的 Response
- 当检测到此类存在问题的模式时，MetaRM 会降低奖励（避免模型陷入中间过程错误/结果正确的 Reward Hacking 模式）
在作者的内部模型上进行的 200 步 RL 训练消融研究中，MetaRM-augmented GenRM 在每个基准测试上都比普通 GenRM 高出 $0.5% - 3%$
- 注意：每个基准上都高

Hyper-Parameters

对于 Rollout
- 采样温度和 top-$p$ 都设置为 1.0
- 最大序列长度为 128k 个 Token
- 每次生成
  - 对推理任务：采样 256 个唯一的 Prompt，每个 Prompt 生成 16 个 Response
  - 对人类偏好任务：采样 512 个唯一的 Prompt，每个 Prompt 生成 8 个 Response
  - 对工具使用任务：采样 128 个唯一的 Prompt，每个 Prompt 生成 8 个 Response
Rollout 后，完成的样本被划分成 mini-batch，并用于训练一个 Epoch
- 其中 Actor 使用 4 个 mini-batch，Critic 使用 12 个 mini-batch
- 优化使用 Muon 优化器进行，权重衰减为 0.1
Actor 的学习率为 $2\times 10^{-6}$， Warmup 步数为 20
Critic 的学习率为 $5\times 10^{-6}$，Warmup 步数为 50
遵循 ORZ (2025)，将 $\gamma$ 和 $\lambda$ 都设置为 1
在最后阶段进一步采用了无偏的 KL 损失 (2025)，系数为 0.001
对于公式 (2)，Token-level 和 Trajectory-level 的掩码边界分别设置为 [0.5, 2] 和 [0.996, 1.001]
- 理解：可以证明 Trajectory-level 下几何平均的 Mask 权重方差非常小（类似 GSPO 一样，需要设置非常小的过滤边界才能生效），其重要性采样系数几乎在 1 附近，而 Token-level 的权重则波动较大

Data Synthesis & Curation

整体说明：融合开源数据、合成数据和用户轨迹，构建了一个多样且难度均衡的 Prompt 池
- 使用统一的合成和策展流程，结合严格的全局过滤和特定领域的优化，以最大化推理密度
- 使用基于规则的启发式方法和基于模型的保真度检查相结合来确保数据质量
生成的数据集包含 871K 个样本（7.23B Token），详细的统计数据总结在表 3 中

General and Reasoning

本文的训练语料库聚合了来自不同开源社区的 Prompt、专家 Response 和合成数据
- 包括数学 (2025; 注：这里的开源数据集非常多)、编码 (2023; 2025; 2025) 以及科学与开放式问答 (2023; 2025; 2025; 2024)
为了最大化推理密度，本文采用了一个统一的流程，将严格的全局过滤与特定领域的优化相结合，通过基于规则的启发式方法和基于模型的保真度检查相结合来强制保证质量
- 对数学，通过专家引导的拒绝采样和合成的大数算术来确保数值稳定性
- 对编程，通过选择严谨的算法挑战来优先考虑离线可执行性，同时严格清除与 RAG 相关的幻觉
  - 问题：如何理解这里与 RAG 相关的幻觉？
- 特别地，本文减少了模型错误地声称可以访问外部搜索引擎或假装检索在线解决方案的倾向
- 此外，本文将科学数据限制在具有唯一、可确定答案的明确问题上
为了能够泛化到实际场景，本文还扩展了开源检查器，并使用一些现实世界的约束来增强样本
同时，作者从开源、合成和用户轨迹中收集通用 Prompt，形成一个多样且难度均衡的池
- 这个过程产生了一个包含数百万样本、达到十亿 Token-level 的高保真数据集

Generalized Tool Learning

本文提出了一个执行驱动的数据生成框架，用于在智能体中学习可靠的工具使用行为，解决了现有合成流程中的关键限制，如数据不一致、缺乏可验证性和模型幻觉
作者的方法不依赖于随机探索 (2025; 2025) 或基于模型的模拟 (2025; 2025)，而是将工具使用行为分解为原子意图 (atomic intents)，并使用有限状态机 (finite state machine, FSM) 对它们进行建模
- 明确地将抽象的工具调用逻辑与参数化的执行约束分离开来
数据通过一个 “采样-执行-验证” 循环与拒绝采样生成，所有候选轨迹都在真实环境中执行 ，并通过确定性反馈进行验证 ，从而确保保真度并消除幻觉行为
通过组合方式组合原子意图，该框架支持复杂、可控的工具使用场景的可扩展生成
使用此范式，本文构建了超过 10 万条高质量轨迹 ，总计数十亿个 Token，为基于工具的计划、推理和执行提供了精确的监督

Code Agents

Code Agent 可以通过可验证环境构建和解决方案生成之间的闭环干预来自我改进，其中可执行的反馈不断优化这两种能力
- 本文作者将环境构建视为与错误修复和功能实现同等重要的第一类能力 (first-class capability)，并在可验证的奖励信号下对其进行合成
为此，本文作者开发了一个专门的智能体流程，该流程从 SWE-factory (2026) 框架演变而来
- 结合了一个跨任务记忆池，用于检索历史构建成功案例作为 Few-shot 示例，以及一个循环检测机制，以防止冗余探索
- 该流程实现了 40% 的环境构建成功率，通过来自构建轨迹（包括 Shell 命令和错误恢复）的密集监督，形成了一个模型自我进化的正反馈循环
为了进一步提高信号质量，本文通过抽象和屏蔽那些对最终解决没有贡献的瞬态故障和冗余执行模式来规范化环境构建轨迹
- 得到的环境充当动态测试平台，利用执行反馈和单元测试生成高质量的合成数据，用于持续对齐的奖励信号
经验中观察到一种双向转移：
- 构建专业知识加速了编码性能，而在这些环境中编码进一步提高了构建准确性，如 DockSmith (2026) 所示
- 利用这个进化流程，作者精心挑选了 5 万个经过验证的环境，涵盖了超过 1.5 万个 GitHub 仓库和 20 多种编程语言
- 这个多样化的集合捕捉了广泛的现实世界场景，为训练通才 Code Agent 提供了坚实的基础
此外，作者还整合了几个著名的开源环境，包括 SWE-smith (2025)、SWE-Gym (2024)、R2E-Gym (2025)、SWE-rebench (2025) 和 SETA (2026)

Search and Research Agents

为了促进高级信息搜索，本文的流程集成了基于图和多文档合成 的方法来强制实现多跳推理
- 通过在知识图谱（例如，Wikidata5m (2021)）上执行拓扑扩展并模拟跨网站浏览轨迹，生成了反映现实世界研究复杂性的数据
为了保证外部检索的必要性，针对 DeepSeek-R1 (2025) 验证生成的查询，系统地排除了这个强大的推理模型无需工具交互即可解决的实例
生成的轨迹通过结构化的报告生成流程 (2025) 进行精炼
- 该流程强制执行严格的指令遵循和结构完整性
- 具体方法：
  - 强制执行对预设研究计划的严格遵守，丢弃任何偏离该结构的轨迹
  - 随后有效的输出通过基于模型的评判器和启发式规则进行迭代清洗，以解决诸如非正式写作、时间幻觉和混合语言等细微问题
这种端到端的方法在 RESEARCHUBRICS (2025) 基准测试上实现了业界领先的性能

Agent Infrastructure

Reasoning with Tool-Use Template Design

为了有效地将推理和智能体能力整合到一个基础模型中，确定思考过程和工具使用的适当模板至关重要
关于推理模板，作者评估了三种管理策略
- 每轮丢弃推理历史的方法 (2025) 虽然激励了独立生成，但在长时程任务（例如，超过 100 轮的编码会话）中会导致任务失败
- 保留完整的推理历史会带来高昂的上下文消耗，这会迅速耗尽模型的容量并阻止后续的工具调用
- 作者采用了一种选择性保留策略：仅为最近用户指令触发的工具使用轨迹保留推理痕迹
这种设计实现了推理连贯性和上下文效率之间的最佳权衡，这一做法与最新的前沿模型 (2025; 2025) 一致
- 关于工具使用模板，本文比较了流行的 JSON 和 XML 格式
  - JSON 的严格语法，包括转义序列和分隔符，经常导致小型、训练不足的模型出现解析错误
  - XML 格式允许平坦的字符串输出，语法开销显著更低
  - 因此，本文选择 XML 格式以确保在复杂、真实的智能体编码场景中的鲁棒性

Scalable Code Agent Infrastructure

本文的集成架构侧重于可扩展的会话管理和跨框架泛化，以促进高吞吐量的智能体编码
- 其核心是一个专有的 Session-Router，它通过 Kubernetes 编排容器生命周期，并通过 Tmux 确保交互一致性
该架构支持数千个并发环境，具有无缝的状态持久性，无需手动配置特定于 Scaffold 的 Docker 配置
为了确保跨不同智能体工作流的高度泛化，本文训练模型适应广泛的交互框架，从学术标准（例如，OpenHands (2024)、SWE-agent (2024) 和 Terminus-2 (2026)）到企业级协议（例如，KiloCode (2026)、RooCode (2026) 和 ClaudeCode (2026)）
通过在训练期间让模型接触这些多样化的交互范式，有效地防止了它过拟合到特定的流程模式，确保无论底层执行环境如何，它都能保持鲁棒性

附录：Metropolis Independence Sampling (MIS) 介绍

Metropolis Independence Sampling (MIS) 是一种马尔可夫链蒙特卡罗 (Markov Chain Monte Carlo, MCMC) 方法
Metropolis Independence Sampling 是一种经典的 MCMC 方法，其核心在于使用独立于当前状态的提议分布进行采样
Step 3.5 Flash 论文中的创新之处在于，将 MIS 的思想从概率采样领域迁移到强化学习的策略优化中 ，用二元过滤替代了传统的重要性采样权重，从而在保持有效学习信号的同时，极大地降低了梯度方差，为大规模 MoE 模型的稳定 RL 训练提供了新的有效范式
- 思路跟一些博客和文章中提到的 Masked IS 其实类似，并不是很创新

Metropolis Independence Sampling 方法的核心思想

Metropolis Independence Sampling 的核心目标是从一个复杂的目标分布 $ \pi(x) $ 中采样，当直接采样困难时，通过构建一个马尔可夫链来间接生成服从该分布的样本
Metropolis Independence Sampling 的基本框架是：
- 1）提议分布 (Proposal Distribution) $ q(x) $：一个易于采样的分布，用于生成候选样本
- 2）接受-拒绝机制 (Acceptance-Rejection Mechanism) ：根据 Metropolis-Hastings 准则决定是否接受候选样本
注：独立性采样 意味着提议分布 $ q(x) $ 不依赖于当前状态 $ x^{(t)} $，即 $ q(x’ | x^{(t)}) = q(x’) $
- 这与随机游走 Metropolis (Random Walk Metropolis) 形成对比，随机游走的提议分布依赖于当前位置

Metropolis-Hastings 接受概率

对于 MIS，接受概率简化为：
$$
\alpha(x^{(t)}, x’) = \min\left(1, \frac{\pi(x’) / q(x’)}{\pi(x^{(t)}) / q(x^{(t)})}\right)
$$
- $ \pi(x) $ 是目标分布（未归一化的概率密度）
- $ q(x) $ 是提议分布

论文中 MIS-PO 的创新应用

在 Step 3.5 Flash 的 RL 框架中，作者将 MIS 的思想创造性地应用于策略优化，提出了 MIS-Filtered Policy Optimization (MIS-PO)

问题背景

在 RL 训练中，由于推理引擎和训练框架的分离，以及迭代更新的特性，会产生训练-推理策略不一致的问题
这导致传统的重要性采样 (Importance Sampling) 方法出现高方差和不稳定性，尤其是在 MoE 模型的长程推理任务中

MIS-PO 的核心创新

论文将 MIS 的思想进行了以下转化(MCMC 概念 -> MIS-PO 中的对应)：
- 目标分布 $ \pi(x) $ -> 训练策略 $ \pi_{\theta} $
- 提议分布 $ q(x) $ -> 推理策略 $ \pi_{\theta_{\text{vllm} } } $（用于生成 Rollout 数据）
- 接受概率 $ \alpha $ -> 二元过滤函数 $ \mathbb{I}(x) $

双重过滤机制

MIS-PO 引入了两个层级的过滤(同时过滤)：
- Token-level Filtering ：
  $$
  x_t = \frac{\pi_{\theta_{\text{old} } }(a_t|s_t)}{\pi_{\theta_{\text{vllm} } }(a_t|s_t)}
  $$
  - 通过阈值 $[\rho_{\min}, \rho_{\max}]$ 过滤单个令牌的概率比，抑制局部的分布不匹配
- Trajectory-level Filtering ：
  $$
  \bar{\rho}(\tau) = \left(\prod_{t=0}^{T-1} x_t\right)^{\frac{1}{T} }
  $$
  - 计算几何平均概率比，丢弃整个偏离目标分布过远的轨迹（类似 GSPO）
最终的 Actor 损失函数
$$
\mathcal{L}_{\text{actor} } = -\mathbb{E}_{\tau \sim \pi_{\theta_{\text{vllm} } } }\left[\mathbb{I}(x_t)\cdot \mathbb{I}(\bar{\rho}(\tau))\cdot \log \pi_\theta (a_t|s_t)\cdot \hat{A}_t\right]
$$
- 其中 $ \mathbb{I}(x) = \mathbb{1}[\rho_{\min} \leq x \leq \rho_{\max}] $ 是二元指示函数

MIS-PO 的优势

论文通过实验验证了 MIS-PO 相对于传统方法（如 PPO 和 GSPO）的显著优势：
- 1）更高的样本效率 ：收敛速度更快，能够达到更高的奖励平台
- 2）更强的稳定性 ：有效抑制了策略梯度范数的剧烈波动，消除了训练过程中的大幅尖峰
- 3）更好的探索-利用平衡 ：熵值衰减更慢，保持了更持久的探索能力
- 4）对 MoE 架构更友好 ：有效控制了训练-推理的分布漂移，解决了 MoE 模型在离策略 RL 训练中的关键稳定性问题

NLP——旋转位置编码-RoPE

参考链接:
- 原始论文：(RoPE) RoFormer: Enhanced Transformer with Rotary Position Embedding, Arxiv 2023 & Neurocomputing 2024, 追一科技
- 苏神博客：Transformer升级之路：2、博采众长的旋转式位置编码
- 旋转式位置编码 (RoPE) 知识总结 - Soaring的文章 - 知乎，一篇把知识串的比较好的博客

原始 Transformer

基本 Attention 公式

在标准的Transformer模型中，自注意力机制（Self-Attention）的公式是核心组成部分
给定查询矩阵 $ Q $、键矩阵 $ K $ 和值矩阵 $ V $，注意力输出计算为：
$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k} }\right)V
$$
- $ Q \in \mathbb{R}^{n \times d_k} $, $ K \in \mathbb{R}^{m \times d_k} $, $ V \in \mathbb{R}^{m \times d_v} $（$ n $是目标序列长度，$ m $是源序列长度）
- $ d_k $ 是键/查询向量的维度
- $ \sqrt{d_k} $ 用于缩放点积，防止梯度消失

Multi-Head Attention

Transformer使用多头注意力扩展基本注意力：
$$
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O
$$
每个头的计算为：
$$
\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)
$$
- $ W_i^Q \in \mathbb{R}^{d_{\text{model} } \times d_k} $, $ W_i^K \in \mathbb{R}^{d_{\text{model} } \times d_k} $, $ W_i^V \in \mathbb{R}^{d_{\text{model} } \times d_v} $
- $ W^O \in \mathbb{R}^{hd_v \times d_{\text{model} } } $ 是输出投影矩阵
- $ h $ 是头的数量，通常满足 $ d_k = d_v = \frac{d_{\text{model} } }{h} $

加入位置编码（仅修改输入即可）

在Transformer中，输入会加上正弦位置编码 $ P \in \mathbb{R}^{d_{\text{model}}} $:
$$
X = \text{Embedding}(x) + P
$$
- 其中 $ P \in \mathbb{R}^{d_{\text{model}}} $ 的每个元素为：
  $$
  P_{pos, 2i} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model} } } }\right), \quad
  P_{pos, 2i+1} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model} } } }\right)
  $$

Self-Attention 完整公式（以单头为例）

对于一个输入序列 $ X \in \mathbb{R}^{n \times d_{\text{model} } } $：
$$
\begin{aligned}
Q &= XW^Q, \quad K = XW^K, \quad V = XW^V \\
\text{Attention}(X) &= \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k} } + M\right)V
\end{aligned}
$$
- $ M $ 是可选的掩码矩阵（如解码器的因果掩码）
- 注：实际实现时，也可以直接在进入 Softmax 操作前，将 $\frac{QK^\top}{\sqrt{d_k} }$ 的结果置为最小值 $-e^9$，效果是等价的

Self-Attention 简单实现

Self-Attention的Python代码简单实现

# 单头Attention
class ScaledDotProductAttention(nn.Module):
    def__init__(self, d_k):
        super().__init__()
        self.d_k = d_k

    def forward(self, Q, K, V, mask=None):
        # Q, K, V shape: (batch_size, seq_len, d_k(or d_v))
        scores = torch.matmul(Q, K.transpose(-2, -1)) / (self.d_k ** 0.5)
        if mask is not None:
            scores = scores.masked_fill(mask == 0, -1e9)
        attn_weights = F.softmax(scores, dim=-1)
        output = torch.matmul(attn_weights, V)
        return output
# 多头Attention
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super().__init__()
        assert d_model % num_heads == 0, "d_model must be divisible by num_heads"
        
        self.d_model = d_model
        self.num_heads = num_heads
        self.d_k = d_model // num_heads
        
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)
        self.W_o = nn.Linear(d_model, d_model)
        # 使用单头Attention
        self.attention = ScaledDotProductAttention(self.d_k)
        
    def split_heads(self, x):
        """
        x shape: (batch_size, seq_len, d_model)
        return shape: (batch_size, num_heads, seq_len, d_k)
        """
        batch_size, seq_len, _ = x.size()
        return x.view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2)
    
    def combine_heads(self, x):
        """
        x shape: (batch_size, num_heads, seq_len, d_k)
        return shape: (batch_size, seq_len, d_model)
        """
        batch_size, _, seq_len, _ = x.size()
        return x.transpose(1, 2).contiguous().view(batch_size, seq_len, self.d_model)
    
    def forward(self, Q, K, V, mask=None):
        Q = self.W_q(Q)
        K = self.W_k(K)
        V = self.W_v(V)
        
        Q = self.split_heads(Q)
        K = self.split_heads(K)
        V = self.split_heads(V)
        
        # 如果需要，扩展mask以匹配多头（这里假设了mask是为单头准备的）
        if mask is not None:
            mask = mask.unsqueeze(1)  # (batch_size, 1, seq_len) -> (batch_size, 1, 1, seq_len)
        
        attn_output = self.attention(Q, K, V, mask)
        output = self.combine_heads(attn_output)
        output = self.W_o(output)
        return output

固定位置编码实现

固定位置编码，比如正弦位置编码，直接在 Attention 之前将位置编码向量加入到原始向量 $X$ 中，Attention代码不需要做任何修改

Rotary Position Embedding, RoPE

本节符号和原始论文 (RoPE) RoFormer: Enhanced Transformer with Rotary Position Embedding, Arxiv 2023 & Neurocomputing 2024, 追一科技符号保持一致
旋转位置编码(RoPE)的核心思想 ：通过旋转矩阵将位置信息融入Self-Attention 机制中
基本定义 ：对于位置$ m $的词向量$ \boldsymbol{x}_m \in \mathbb{R}^d $，通过线性变换得到查询向量$ \boldsymbol{q}_m $和键向量$ \boldsymbol{k}_n $：
$$
\boldsymbol{q}_m = W_q \boldsymbol{x}_m, \quad \boldsymbol{k}_n = W_k \boldsymbol{x}_n
$$
旋转操作 ：将$ \boldsymbol{q}_m $和$ \boldsymbol{k}_n $划分为$ d/2 $个复数对（每组2维，RoPE要求维度必须是偶数，这一般都能满足），对第$ i $组复数应用旋转矩阵：
$$
\begin{aligned}
\boldsymbol{q}_m^{(i)} &= \begin{pmatrix}
q_{m,2i} \\
q_{m,2i+1}
\end{pmatrix}, \quad
\boldsymbol{k}_n^{(i)} = \begin{pmatrix}
k_{n,2i} \\
k_{n,2i+1}
\end{pmatrix} \\
R_{\theta_i}^m &= \begin{pmatrix}
\cos m\theta_i & -\sin m\theta_i \\
\sin m\theta_i & \cos m\theta_i
\end{pmatrix}, \quad \theta_i = 10000^{-2i/d}
\end{aligned}
$$
- 注意：位置为 $m$ 的旋转矩阵对应正余弦角度为 $\color{red}{m}\theta_i$
- 理解：旋转矩阵 $R_{\theta_i}^m$ 可以将目标向量进行旋转，$R_{\theta_i}^m \boldsymbol{x}$ 相当于将 $ \boldsymbol{x}$ 向逆时针方向旋转 $m\theta_i$ 度（注意：只是旋转，并不修改原始向量的模长，因为 $R_{\theta_i}^m$ 是正交矩阵），详情见附录
旋转后的向量 ：旋转后的查询和键向量为：
$$
\begin{aligned}
\boldsymbol{q}_m’ = \bigoplus_{i=0}^{d/2-1} R_{\theta_i}^m \boldsymbol{q}_m^{(i)}, \quad
\boldsymbol{k}_n’ = \bigoplus_{i=0}^{d/2-1} R_{\theta_i}^n \boldsymbol{k}_n^{(i)}
\end{aligned}
$$
- 其中$ \oplus $表示向量拼接：
  $$\bigoplus_{i=0}^{d/2-1} R_{\theta_i}^m \boldsymbol{q}_m^{(i)} = \text{Concat}(\{ R_{\theta_i}^m \boldsymbol{q}_m^{(i)}\}_{i=0}^{d/2-1})$$
旋转后的Attention权重变化
$$
\begin{equation}
(\boldsymbol{\mathcal{R}}_m \boldsymbol{q}_m)^{\top}(\boldsymbol{\mathcal{R}}_n \boldsymbol{k}_n) = \boldsymbol{q}_m^{\top} \boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n \boldsymbol{k}_n = \boldsymbol{q}_m^{\top} \boldsymbol{\mathcal{R}}_{n-m} \boldsymbol{k}_n
\end{equation}
$$
- 位置为 $m$ 的向量 $\boldsymbol{q}_m$ 乘以矩阵 $\boldsymbol{\mathcal{R}}_m$；位置为 $n$ 的向量 $\boldsymbol{k}_n$ 乘以矩阵 $\boldsymbol{\mathcal{R}}_n$（注意角标）
- 上面的式子中等式是恒成立的（$ \boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n = \boldsymbol{\mathcal{R}}_{\color{red}{n-m}}$的详细证明见附录），右边的 $\boldsymbol{\mathcal{R}}_{\color{red}{n-m}}$仅与相对位置 $n-m$ 有关，体现了相对位置编码的核心要义
  - 注：$\boldsymbol{\mathcal{R}}_{m-n}$ 和 $\boldsymbol{\mathcal{R}}_{n-m}$ 不相等，旋转角度相同，但方向相反
展开成矩阵相乘的形式为（refer to Transformer升级之路：2、博采众长的旋转式位置编码）：
$$
\begin{equation}\scriptsize{\underbrace{\begin{pmatrix}
\cos m\theta_0 & -\sin m\theta_0 & 0 & 0 & \cdots & 0 & 0 \\
\sin m\theta_0 & \cos m\theta_0 & 0 & 0 & \cdots & 0 & 0 \\
0 & 0 & \cos m\theta_1 & -\sin m\theta_1 & \cdots & 0 & 0 \\
0 & 0 & \sin m\theta_1 & \cos m\theta_1 & \cdots & 0 & 0 \\
\vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\
0 & 0 & 0 & 0 & \cdots & \cos m\theta_{d/2-1} & -\sin m\theta_{d/2-1} \\
0 & 0 & 0 & 0 & \cdots & \sin m\theta_{d/2-1} & \cos m\theta_{d/2-1} \\
\end{pmatrix}}_{\boldsymbol{\mathcal{R}}_m} \begin{pmatrix}q_0 \\ q_1 \\ q_2 \\ q_3 \\ \vdots \\ q_{d-2} \\ q_{d-1}\end{pmatrix}}\end{equation}
$$
由于旋转矩阵是一个稀疏矩阵，所以旋转过程可以改进为如下等价实现：
$$
\begin{equation}\begin{pmatrix}q_0 \\ q_1 \\ q_2 \\ q_3 \\ \vdots \\ q_{d-2} \\ q_{d-1}
\end{pmatrix}\otimes\begin{pmatrix}\cos m\theta_0 \\ \cos m\theta_0 \\ \cos m\theta_1 \\ \cos m\theta_1 \\ \vdots \\ \cos m\theta_{d/2-1} \\ \cos m\theta_{d/2-1}
\end{pmatrix} + \begin{pmatrix}-q_1 \\ q_0 \\ -q_3 \\ q_2 \\ \vdots \\ -q_{d-1} \\ q_{d-2}
\end{pmatrix}\otimes\begin{pmatrix}\sin m\theta_0 \\ \sin m\theta_0 \\ \sin m\theta_1 \\ \sin m\theta_1 \\ \vdots \\ \sin m\theta_{d/2-1} \\ \sin m\theta_{d/2-1}
\end{pmatrix}\end{equation}
$$
- 其中 $\otimes$ 是按位相乘
RoPE下的Attention公式总结 ：（旋转位置编码的核心公式）
$$
\begin{aligned}
\text{Attention}(\boldsymbol{x}) &= \text{softmax}\left(\frac{(\boldsymbol{q}’)^\top \boldsymbol{k}’}{\sqrt{d} }\right)V
\end{aligned}
$$
- 注：$V$ 是 Attention 中的 Value 矩阵，中不需要位置编码信息
- 这里使用 $(\boldsymbol{q}’)^\top \boldsymbol{k}’$，转置在 $\boldsymbol{q}’$ 上，和原始论文表达方式一致，实际上这种表示是OK的，数学中常用这种表示 ，这种表示下，向量为列向量；原始 Transformer 论文中的符号转置在 Key 上，此时向量为行向量
原始论文中的RoPE示意图：

多头注意力下的 RoPE

为了跟传统的 Transformer 符号对齐，本节改用 $Q,K,V$表示矩阵，与 RoPE 原始论文符号不再一致
给定输入序列 $ X \in \mathbb{R}^{n \times d_{\text{model} } } $，先投影到查询、键、值空间：
$$
Q = XW^Q, \quad K = XW^K, \quad V = XW^V
$$
- 其中 $ W^Q, W^K \in \mathbb{R}^{d_{\text{model} } \times d_k} $, $ W^V \in \mathbb{R}^{d_{\text{model} } \times d_v} $
应用旋转位置编码（RoPE） ：对 $ Q $ 和 $ K $ 的每个位置 $ m $ 和 $ n $ 的分量应用旋转矩阵 $ R_{\theta}^m $ 和 $ R_{\theta}^n $：
$$
\begin{aligned}
Q’ &= \text{RoPE}(Q) = \bigoplus_{i=0}^{d_k/2-1} R_{\theta_i}^m Q^{(i)} \\
K’ &= \text{RoPE}(K) = \bigoplus_{i=0}^{d_k/2-1} R_{\theta_i}^n K^{(i)}
\end{aligned}
$$
- $ Q^{(i)} \in \mathbb{R}^2 $ 和 $ K^{(i)} \in \mathbb{R}^2 $ 是 $ Q $ 和 $ K $ 的第 $ i $ 个二维分量
- $ \oplus $表示向量拼接：
  $$\bigoplus_{i=0}^{d_k/2-1} R_{\theta_i}^m Q^{(i)} = \text{Concat}(\{R_{\theta_i}^m Q^{(i)}\}_{i=0}^{d_k/2-1} )$$
旋转矩阵 $ R_{\theta_i}^m $ 定义为：
$$
R_{\theta_i}^m = \begin{pmatrix}
\cos m\theta_i & -\sin m\theta_i \\
\sin m\theta_i & \cos m\theta_i
\end{pmatrix}, \quad \theta_i = 10000^{-2i/d_k}
$$
多头注意力输出
$$
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_H) W^O \\
\text{head}_h = \text{Softmax}\left(\frac{Q^{\prime}_h {K^{\prime}_h}^\top}{\sqrt{d_k} }\right) V_h
$$
- 其中 $ W^O \in \mathbb{R}^{H d_v \times d_{\text{model} } } $ 是输出投影矩阵
多头注意力下的 RoPE 的 Attention 公式总结 :
$$
\begin{aligned}
\text{Attention}(Q,K,V) &= \text{softmax}\left(\frac{(\text{RoPE}(Q))(\text{RoPE}(K))^\top}{\sqrt{d_k} }\right)V \\
\text{where} \quad \text{RoPE}(X) &= \bigoplus_{i=0}^{d/2-1} R_{\theta_i}^m X^{(i)}
\end{aligned}
$$

多头注意力下的 RoPE 实现

多头注意力下的RoPE PyTorch 实现 (待补充)
- 注：多头注意力下，每个头是独立编码的（每个头维度从 0 开始），且使用的旋转矩阵一样，即旋转矩阵的维度 $d = d_{\text{head}} = d_{\text{model}}/h$

关于 RoPE 的一些讨论

RoPE 传统 Transformer 的区别 ：
- 传统Transformer：位置编码是加性的（$ X + P $）
- RoPE：位置编码是乘性的（通过旋转矩阵直接修改 $ Q $ 和 $ K $）
相对位置保持性 ：
- 旋转后的注意力分数 $ [Q’ K’^\top]_{m,n} $ 仅依赖于相对位置 $ m-n $，满足线性注意力性质
远程衰减性 ：（注：如下图所示的远距离衰减，会导致太远的距离下，难以区分位置，效果不好，外推性变差？）

附录：相对位置旋转公式证明

目标：证明 $ \boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n = \boldsymbol{\mathcal{R}}_{\color{red}{n-m}}$
考虑到 $\boldsymbol{\mathcal{R}}_m$ 是以二维子矩阵为单位的“对角”矩阵，故只要证明 $(R_{\theta_i}^m)^\top R_{\theta_i}^n = R_{\theta_i}^{\color{red}{n-m}}$ 即可，证明过程如下：
给定旋转矩阵 $ R_{\theta_i}^m $ 定义为：
$$
R_{\theta_i}^m = \begin{pmatrix}
\cos m\theta_i & -\sin m\theta_i \\
\sin m\theta_i & \cos m\theta_i
\end{pmatrix}
$$
其转置矩阵为：
$$
(R_{\theta_i}^m)^\top = \begin{pmatrix}
\cos m\theta_i & \sin m\theta_i \\
-\sin m\theta_i & \cos m\theta_i
\end{pmatrix}
$$
计算 $(R_{\theta_i}^m)^\top R_{\theta_i}^n$
$$
(R_{\theta_i}^m)^\top R_{\theta_i}^n = \begin{pmatrix}
\cos m\theta_i & \sin m\theta_i \\
-\sin m\theta_i & \cos m\theta_i
\end{pmatrix}
\begin{pmatrix}
\cos n\theta_i & -\sin n\theta_i \\
\sin n\theta_i & \cos n\theta_i
\end{pmatrix}
$$
回顾三角函数和差角公式：
$$
\sin(A \pm B) = \sin A \cos B \pm \cos A \sin B \\
\cos(A \pm B) = \cos A \cos B \mp \sin A \sin B
$$
计算矩阵乘积的每个元素：
- 左上角元素：
  $$
  \begin{align}
  \cos m\theta_i \cdot \cos n\theta_i + \sin m\theta_i \cdot \sin n\theta_i &= \cos(n\theta_i - m\theta_i) \\
  &= \cos((n - m)\theta_i) \\
  \end{align}
  $$
- 右上角元素：
  $$
  \begin{align}
  \cos m\theta_i \cdot (-\sin n\theta_i) + \sin m\theta_i \cdot \cos n\theta_i &= -\cos m\theta_i \sin n\theta_i + \sin m\theta_i \cos n\theta_i \\
  &= \sin m\theta_i \cos n\theta_i - \cos m\theta_i \sin n\theta_i\\
  & = \sin((m-n)\theta_i) \\
  & = - \sin((n-m)\theta_i)
  \end{align}
  $$
- 左下角元素：
  $$
  \begin{align}
  -\sin m\theta_i \cdot \cos n\theta_i + \cos m\theta_i \cdot \sin n\theta_i &= -\sin m\theta_i \cos n\theta_i + \cos m\theta_i \sin n\theta_i \\
  &= \sin n\theta_i \cos m\theta_i - \cos n\theta_i \sin m\theta_i \\
  &= \sin((n - m)\theta_i)
  \end{align}
  $$
- 右下角元素：
  $$
  \begin{align}
  -\sin m\theta_i \cdot (-\sin n\theta_i) + \cos m\theta_i \cdot \cos n\theta_i &= \sin m\theta_i \sin n\theta_i + \cos m\theta_i \cos n\theta_i \\
  &= \sin m\theta_i \sin n\theta_i + \cos m\theta_i \cos n\theta_i \\
  &= \cos((n - m)\theta_i)
  \end{align}
  $$
因此，乘积矩阵为：
$$
(R_{\theta_i}^m)^\top R_{\theta_i}^n = \begin{pmatrix}
\cos((n - m)\theta_i) & -\sin((n - m)\theta_i) \\
\sin((n - m)\theta_i) & \cos((n - m)\theta_i)
\end{pmatrix} = R_{\theta_i}^{\color{red}{n-m}}
$$
至此，我们证明了：
$$
(R_{\theta_i}^m)^\top R_{\theta_i}^n = R_{\theta_i}^{\color{red}{n-m}}
$$
证毕

附录：不同参数下 RoPE 对 Attention 的影响

RoPE原始论文已经说明了随着距离的增长，Attention Score 有越来越小的趋势（且长距离部分会波动）
下面是固定 query_index 下，Attention Score 随 key_index（横轴）变化的图像（代码参考链接修改的旋转式位置编码 (RoPE) 知识总结 - Soaring的文章 - 知乎）
从上图可以观察到：
- 图1：RoPE确实有远距离衰减趋势（震荡递减），且dim_model=256时，q,k 距离为500时Attention值已经衰减的较小了
- 图2：与图1类似，RoPE的衰减是对称的（图2展示的是当 query_index=256时的图像）；
  - 注：注意虽然 Attention Score 是对称相等的，但是旋转角度是相反的，即 $\boldsymbol{\mathcal{R}}_{m-n}$ 和 $\boldsymbol{\mathcal{R}}_{n-m}$ 旋转角度相同，但方向是相反的
- 图3：RoPE 在拉到足够长的距离后，不会一直衰减（从后续的图可以知道实际上还是周期函数，只是周期很大）
- 图4+图5：与图1对比可以发现，RoPE 在拉到足够长的距离后，实际上还是周期函数，只不过周期与 d_model 相关（d_model越大，周期越长），图4说明了当 d_model=8 时，周期是 10000 左右
- 图6：缩小了图5的横轴区间，将图5的前半部分图像放大了看，是在小周期上震荡的，且还存在图5所示的大周期

附上图的代码：

>>>点击展开折叠内容...

# refer to: [旋转式位置编码 (RoPE) 知识总结 - Soaring的文章 - 知乎](https://zhuanlan.zhihu.com/p/662790439)
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.axes import Axes

def create_sin_cos_table_cache(max_num_tokens, dim_model):
    # 所有pos下对应的cos/sin值分别存储为矩阵
    theta = 10000 ** (-np.arange(0, dim_model, 2) / dim_model)
    theta = theta.reshape(-1, 1).repeat(2, axis=1).flatten()

    pos = np.arange(0, max_num_tokens)
    table = pos.reshape(-1, 1) @ theta.reshape(1, -1)  # [max_num_tokens, dim_model]

    sin_table_cache = np.sin(table)
    sin_table_cache[:, ::2] = -sin_table_cache[:, ::2]

    cos_table_cache = np.cos(table)
    return sin_table_cache, cos_table_cache

def rotate_half(q_vec):
    # 将q_vec的值两个一组分组并在分组内对调，实现从[q_0,q_1,q_2,q_3,...,q_{d-1},q_d]到的转换[q_1,q_0,q_3,q_2,...,q_d,q_{d-1}]
    return q_vec.reshape(-1, 2)[:, ::-1].flatten()

def rotary(vec, pos, sin_table, cos_table):
    # 原始论文中的公式
    return vec * cos_table[pos] + rotate_half(vec) * sin_table[pos]

def plot(plt_obj: Axes, pic_index, query_index=0, dim_model=256, max_num_tokens=8192, step=1):
    # q_vec 和 k_vec 都设定为1，仅关注 RoPE 引发的Attention Score的变化
    q_vec = np.ones(dim_model)
    k_vec = np.ones(dim_model)
    sin_table, cos_table = create_sin_cos_table_cache(max_num_tokens, dim_model)

    rotated_q_vec = rotary(q_vec, query_index, sin_table, cos_table)
    k_indices = np.arange(0, max_num_tokens, step)
    rotated_k_vecs = rotary(k_vec, k_indices, sin_table, cos_table)
    attn_scores = (rotated_k_vecs @ rotated_q_vec) / np.sqrt(dim_model) # 未经过Softmax的Attention权重，用于展示RoPE对原始Attention Score

    plt_obj.plot(k_indices, attn_scores)
    plt_obj.set_title(f"Figure {pic_index}: query_index={query_index}, dim_model={dim_model}")
    plt_obj.set_xlabel("key index")
    plt_obj.set_ylabel("Attention Score")

plt.rcParams.update({
    "font.sans-serif": ["Times New Roman", ],
    "font.size": 10
})

_, axes = plt.subplots(nrows=2, ncols=3, figsize=(10, 10))
plot(axes[0, 0], 1, query_index=0, max_num_tokens=512)
plot(axes[0, 1], 2, query_index=256, max_num_tokens=512)
plot(axes[0, 2], 3, query_index=0, dim_model=256, max_num_tokens=65535)
# plot(axes[1, 0], 4, query_index=0, dim_model=32, max_num_tokens=65535)
plot(axes[1, 0], 4, query_index=0, dim_model=16, max_num_tokens=65535)
plot(axes[1, 1], 5, query_index=0, dim_model=8, max_num_tokens=65536)
plot(axes[1, 2], 6, query_index=0, dim_model=8, max_num_tokens=512)
plt.show()

附录：如何改进 RoPE 以实现绝对位置编码？

当前的设计仅能实现相对位置编码（因为 Query 和 Key 的内积只与他们的相对位置有关，与绝对位置无关），但如果在 Value 上也施加位置编码则能实现绝对位置编码的能力
让研究人员绞尽脑汁的Transformer位置编码中苏神提到：

这样一来，我们得到了一种融绝对位置与相对位置于一体的位置编码方案，从形式上看它有点像乘性的绝对位置编码，通过在 $\boldsymbol{q},\boldsymbol{k}$ 中施行该位置编码，那么效果就等价于相对位置编码，而如果还需要显式的绝对位置信息，则可以同时在 $\boldsymbol{v}$ 上也施行这种位置编码。总的来说，我们通过绝对位置的操作，可以达到绝对位置的效果，也能达到相对位置的效果

附录：旋转体现在哪里？

旋转体现在 $\boldsymbol{q}_m$（或$\boldsymbol{k}_n$）的每两个维度组成的向量 $\boldsymbol{q}_m^{(i)} = \begin{pmatrix} q_{m,2i} \\ q_{m,2i+1} \end{pmatrix}$ 经过 RoPE 变换前后，他们的向量长度不变，即：
$$
\begin{pmatrix}cos(m\theta_1) &-sin(m\theta_1) \\ sin(m\theta_1) &cos(m\theta_1)\end{pmatrix} \begin{pmatrix}q_{m,2i} \\ q_{m,2i+1}\end{pmatrix} = \begin{pmatrix}q_{m,2i}\cdot cos(m\theta_1) -q_{m,2i+1}\cdot sin(m\theta_1) \\ q_{m,2i}\cdot sin(m\theta_1)+ q_{m,2i+1}\cdot cos(m\theta_1) \end{pmatrix} \\
$$
进一步，由于 $(cos(m\theta_1))^2 + (sin(m\theta_1))^2 = 1$ 有
$$
\begin{align}
\left|\begin{pmatrix}q_{m,2i}\cdot cos(m\theta_1) -q_{m,2i+1}\cdot sin(m\theta_1) \\ q_{m,2i}\cdot sin(m\theta_1)+ q_{m,2i+1}\cdot cos(m\theta_1) \end{pmatrix} \right| &= \sqrt{\left(q_{m,2i}\cdot cos(m\theta_1) -q_{m,2i+1}\cdot sin(m\theta_1)\right)^2 + \left(q_{m,2i}\cdot sin(m\theta_1)+ q_{m,2i+1}\cdot cos(m\theta_1)\right)^2} \\
&= \sqrt{(q_{m,2i})^2 + (q_{m,2i+1})^2}
\end{align}
$$
也就是说： $\boldsymbol{q}_m$（或$\boldsymbol{k}_n$）相邻两两维度在变换前后的向量长度并没有变化，是一个旋转操作

附录：可视化RoPE旋转过程

旋转矩阵 $R_{\theta_i}^m$ 的定义如下：
$$
\begin{aligned}
R_{\theta_i}^m &= \begin{pmatrix}
\cos m\theta_i & -\sin m\theta_i \\
\sin m\theta_i & \cos m\theta_i
\end{pmatrix}, \quad \theta_i = 10000^{-2i/d}
\end{aligned}
$$
旋转矩阵 $R_{\theta_i}^m$ 可以将目标向量进行旋转，$R_{\theta_i}^m \boldsymbol{x}$ 相当于将 $ \boldsymbol{x}$ 向逆时针方向旋转 $m\theta_i$ 度
当 $m\theta_i = \frac{\pi}{4}$ 时，其旋转可视化结果如下：

实现上述旋转的代码如下

>>>点击展开折叠内容...

   import numpy as np
   import matplotlib.pyplot as plt

   # 设定原始向量 x
   x = np.array([1, 0])

   # 角度转换为弧度
   angle = np.radians(45)

   # 旋转矩阵定义
   R = np.array([[np.cos(angle), -np.sin(angle)],
               [np.sin(angle), np.cos(angle)]])

   # 矩阵惩罚实现旋转向量
   x_rotated = R @ x

   plt.rcParams['figure.dpi'] = 300

   plt.figure(figsize=(6, 6))
   plt.quiver(0, 0, x[0], x[1], angles='xy', scale_units='xy', scale=1, color='b', label='Original Vector')
   plt.quiver(0, 0, x_rotated[0], x_rotated[1], angles='xy', scale_units='xy', scale=1, color='r', label='Rotated Vector')

   plt.xlim(-1.5, 1.5)
   plt.ylim(-1.5, 1.5)

   plt.grid(True)

   plt.legend()
   plt.title('Vector Rotation')
   plt.xlabel('X-axis')
   plt.ylabel('Y-axis')

plt.savefig("./demo.png")
   plt.show()

附录：RoPE的诞生历史

RoPE方案来自苏神原始博客:
- 2021年2月在让研究人员绞尽脑汁的Transformer位置编码中提出想法
- 2023年3月在Transformer升级之路：2、博采众长的旋转式位置编码中给出详细方案和推导，同时提交论文到arXiv上
- 原始论文：Roformer: Enhanced Transformer With Rotray Position Embedding，该论文24年发表于Neurocomputing期刊上（《Neurocomputing》是国际知名期刊,被列为中科院SCI二区top期刊,CCF-C类期刊）
- 随后，各种开源大模型开始使用RoPE，RoPE逐渐成为大模型的标配

附录：RoPE的高维扩展

论文介绍当前的是一维 RoPE，每 2 维为一组，旋转矩阵为 $2\times 2$，在二维 RoPE 场景中，可以每 4 维为一组，旋转矩阵变成 $4\times 4$ 即可，详情见旋转式位置编码 (RoPE) 知识总结
将四个维度作为一组:
$$
\boldsymbol{R}_{m_1,m_2} =
\begin{bmatrix}
\cos m_1 \theta & -\sin m_1 \theta & 0 & 0 \\
\sin m_1 \theta & \cos m_1 \theta & 0 & 0 \\
0 & 0 & \cos m_2 \theta & -\sin m_2 \theta \\
0 & 0 & \sin m_2 \theta & \cos m_2 \theta
\end{bmatrix}
$$
上述分组下满足:
$$
\mathbf{R}_{m_1,m_2}^{\top} \cdot \mathbf{R}_{n_1,n_2} = \mathbf{R}_{n_1 - m_1,n_2 - m_2}
$$
注：更高维度的可以继续扩展，比如三维的扩展为每 6 维为一组，旋转矩阵为 $6\times 6$ 即可

附录：RoPE中的复数和旋转矩阵等价性证明

问题定义

定义二维旋转矩阵和向量如下：
$$
\begin{align}
R_{\theta_i}^m &= \begin{pmatrix}
\cos m\theta_i & -\sin m\theta_i \\
\sin m\theta_i & \cos m\theta_i
\end{pmatrix} \\
\boldsymbol{x} &= \begin{pmatrix} x_1 \\ x_2
\end{pmatrix}
\end{align}
$$
目标：证明下面的等式
$$R_{\theta_i}^m \boldsymbol{x} = z e^{i m\theta_i}$$
- 其中 $ z = x_1 + i x_2 $ 是向量 $\boldsymbol{x} = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}$ 的复数形式
- 即目标是证明：旋转矩阵 $ R_{\theta_i}^m $ 作用在 $\boldsymbol{x}$ 上相当于将复数 $ z $ 乘以旋转因子 $ e^{i m\theta_i} $

证明

方程左边展开
$$
R_{\theta_i}^m \boldsymbol{x} = \begin{pmatrix}
\cos m\theta_i & -\sin m\theta_i \\
\sin m\theta_i & \cos m\theta_i
\end{pmatrix}
\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} =
\begin{pmatrix}
x_1 \cos m\theta_i - x_2 \sin m\theta_i \\
x_1 \sin m\theta_i + x_2 \cos m\theta_i
\end{pmatrix}
$$
- 这个结果对应的复数为：
  $$
  R_{\theta_i}^m \boldsymbol{x} = (x_1 \cos m\theta_i - x_2 \sin m\theta_i) + i (x_1 \sin m\theta_i + x_2 \cos m\theta_i)
  $$
等方程右边展开
- 右边的 $\boldsymbol{x} e^{i m\theta_i}$ 表示将复数 $ z = x_1 + i x_2 $ 乘以 $ e^{i m\theta_i} $，即：
  $$
  z e^{i m\theta_i} = (x_1 + i x_2)(\cos m\theta_i + i \sin m\theta_i)
  $$
- 可以重新整理为：
  $$ z e^{i m\theta_i} = (x_1 \cos m\theta_i - x_2 \sin m\theta_i) + i (x_1 \sin m\theta_i + x_2 \cos m\theta_i) $$
- 展开后与旋转矩阵作用的结果完全一致
结论： 在复数表示下，旋转矩阵 $ R_{\theta_i}^m $ 作用在向量 $\boldsymbol{x}$ 上等价于将对应的复数 $ z $ 乘以旋转因子 $ e^{i m\theta_i} $。因此，等式成立：
$$
\color{red}{R_{\theta_i}^m \boldsymbol{x} = \boldsymbol{x} e^{i m\theta_i}}
$$

附录：旋转位置编码的其他推导过程

下面的推导过程来自通俗易懂-大模型的关键技术之一：旋转位置编码rope（2）和通俗易懂-大模型的关键技术之一:旋转位置编码rope （3），推导过程看过，基本没有问题，先截图，以后有时间再手打一遍
$q,k$ 向量旋转后再进行Attention，注意图中 $e^{im\theta}$ 的 $i$ 是虚数的意思，这里使用二维向量 $(\boldsymbol{W}_q\boldsymbol{x}_m)$ 乘以一个虚数的本质是想表达向量内积的意思（虚数可以展开成二维向量），此外，$a_{m,n}$ 表示 Attention 权重，在不考虑权重时值为 Softmax，Element-wise看：$a_{m,n} =\frac{\exp(\frac{q^T_m k_n}{\sqrt{d_k}})}{\sum_{j=1}^N \exp(\frac{q^T_m k_j}{\sqrt{d_k}})}$，注：下图中的表达有误，实际上应该是 $a_{m,n}=\frac{\exp(\frac{ {x^{\prime}_m}^T x^{\prime}_n}{\sqrt{d_k} })}{\sum_{j=1}^N \exp(\frac{ {x^{\prime}_m}^T x^{\prime}_j}{\sqrt{d_k} })}$（详情见原始论文：(RoPE) RoFormer: Enhanced Transformer with Rotary Position Embedding, Arxiv 2023 & Neurocomputing 2024, 追一科技）
公式1,2，推导出公式3的过程（内积角度）
公式1,2，推导出公式3的过程（公式角度）
内积角度和公式角度推导结果可以对齐
扩展到多维的方式，将模型d_model维度按照两两一组分（注意这里不是序列两两分，序列本来做Attention就是两两做内积的），这里要求模型维度是偶数的
公式化简
代码实现
- 上述实现中使用了torch.einsum，本质是爱因斯坦求和约定 ，是矩阵乘法的一种表示，C = torch.einsum("n,d->md", A,B)表示矩阵C[m,d] = A[n]*B[d]，，这是个很常用的省略写法，更详细的可以看看图学 AI：einsum 爱因斯坦求和约定到底是怎么回事？

NLP——VeRL框架使用总结

参考链接：

环境安装

参考链接：verl.readthedocs.io/en/latest/start/install
建议使用 docker 镜像安装方式，亲测本地直接安装坑很多，且安装后还会陆陆续续出现错误
特别注意：官方镜像加载后还需要执行本地安装 pip3 install --no-deps -e .
- 不执行这一步会提示 verl 库找不到
- 建议将代码拉到本地 host 机器，然后用镜像挂载 host 路径

注：官方镜像可能缺失一些依赖包，比如我就遇到缺少 vllm 库，遇到这种情况直接安装即可

最新测试过可用的镜像为：verlai/verl:base-verl0.5-cu126-cudnn9.8-torch2.7.0-fa2.7.4，仅需要自己安装一个 vllm 即可，还有个较小的包按需要安装

sudo docker create --gpus all --net=host --shm-size="10g" --cap-add=SYS_ADMIN -v ../verl:/workspace/verl -v ~/llm:/workspace/llm --name verl verlai/verl:base-verl0.5-cu126-cudnn9.8-torch2.7.0-fa2.7.4 sleep infinity
sudo docker start verl
sudo docker exec -it verl bash
cd verl && pip3 install --no-deps -e .
sudo docker stop verl

模型训练

Quick Start 可参考：verl.readthedocs.io/en/latest/start/quickstart
多节点启动：verl.readthedocs.io/en/latest/start/multinode

源码阅读

verl 库的目标

将原始问题建模为一个有向图 DataFlow 问题
统一实现，让算法开发者仅需要考虑自身的代码优化即可

数据流的流向过程

原始论文的图片

SPMD 的初始化

在 RayPPOTrainer.init_workers() 内找到相关流程
对每个资源池分别初始化（for resource_pool, class_dict in self.resource_pool_to_cls.items():）
每个资源池进行如下操作（self.ray_worker_group_cls）
- 进一步地，执行函数 self._init_with_resource_pool
- for 循环依次处理每个 GPU（每个 GPU 启动一个进程），每个进程配置好对应的分别是环境变量
- 每个 GPU 对应一个 worker

数据的分发是如何实现的

每个 Worker 的函数都会接受来自上游的数据，处理数据并输出
- 注意传入每个 Worker 的数据已经是分布式处理过的，仅仅是 1/WORLD_SIZE，这里的数据分发是使用 @register(dispatch_mode=Dispatch.DP_COMPUTE_PROTO) 定义的
- @register 是一个注解，用于实现数据分发过程和收集过程，dispatch_modee=Dispatch.DP_COMPUTE_PROTO 会对应的绑定两个函数（分别负责分发和收集）

每个 Worker 的大致工作流程（Multi Controller 逻辑核心）

具体函数：

def func_generator(self, method_name, dispatch_fn, collect_fn, execute_fn, blocking):
	class Functor:
		def __call__(this, *args, **kwargs):
			args, kwargs = dispatch_fn(self, *args, **kwargs)
			padding_count = kwargs.pop(_padding_size_key, 0)
			output = execute_fn(method_name, *args, **kwargs)
			if blocking:
				output = ray.get(output)
			output = collect_fn(self, output)
			if padding_count > 0:
				if isinstance(output, DataProto):
					indices = [i for i in range(len(output))][:-padding_count]
					output = output.select_idxs(indices)
				elif isinstance(output, list):
					output = output[:-padding_count]
			return output

	# use class type to pass the method_name to get a better observability
	return type(method_name, (Functor,), {})()

核心函数名为 func_generator，这个函数会接受5个参数 method_name,dispatch_fn,collect_fn,execute_fn, blocking
- dispatch_fn 负责 dispatch 参数
- execute_fn 负责根据 dispatch 后的参数调用 method_name 函数（使用 getattr 方法实现）
- blocking 决定在这里是否等待 execute_fn 执行完成
- collect_fn 负责收集 collect_fn 函数返回的分组结果
注：原始代码中的 type(method_name, (Functor,), {})() 表示：动态创建一个名为 method_name、继承自 Functor 且无自定义属性的类，然后实例化该类，最终得到一个继承自 Functor 的实例对象

verl 编程接口

数据集修改（最简单）

保证数据集符合 verl 的格式即可，verl 要求数据是 .parquet 格式，且包含下面 5 列
- prompt：是一个 message list，每个 message 是 {"role":"...", "content": "..."} 的格式
- data_source：数据来源，比如 gsm8k 来自 openai/gsm8k
- ability：数据分类，比如 gsm8k 属于 math 类
- reward_model：是一个字典，比如 {'ground_truth': '72', 'style':'rule'} 说明使用规则型 reward 模型
- extro_info：是一个字典，作为额外的信息在训练中使用，可以包含一些自定义信息，比如 PPO 官方示例中的 gsm8k 数据处理就是将 prompt 的 answer 放进去了，完整格式为：{'answer': '...', 'index': 0, 'question': '[原始问题]', 'split': 'train'}
  - 注：extro_info 的 [原始问题] 比 prompt 的 content 少一些模板内容
注：支持 VLM 时，需要 images 和 videos 这样的字段

注：建议使用 pandas 加载数据后多看：

1 2	import pandas as pd df = pd.read_parquet(file_path)

数据处理的参考模板见：examples/data_preprocess/ 目录下，比如 gsm8k 数据集的处理文件是 examples/data_preprocess/gsm8k.py
特别地：还可以自定义数据类，通过参数将定义类的 Python 文件路径和类名传入并注册到 verl 中即可，详情见：verl 源码解读与 HybridFlow 编程范式讲解：40:06

自定义 Reward

reward fuction 的参数定义：

custom_reward_function:
  path: null # 指定源码路径
  name: compute_score # 指定函数
reward_model:
  reward_manager: naive # 指定 reward_manager 类 NaiveRewardManager

可以通过参数传入，示例如下：

1
2
3

--custom_reward_function.path=./examples/reward_fn/custom_reward_fn.py \
--custom_reward_function.name=compute_score \
--reward_model.reward_manager=naive

函数定义可参考 NaiveRewardManager 类的定义

自定义损失函数

全局搜索找到 .backward() 函数调用的地方，这里就是损失定义的地方
- 在这里可以修改函数 compute_policy_loss
- 也可以添加其他损失项，比如交叉熵损失
verl 的损失函数定义方式和 llama_factory 的模板类有点相似，是通过将 loss 注册到 POLICY_LOSS_REGISTRY: dict[str, PolicyLossFn] = {} 中实现的
可以通过修改 POLICY_LOSS_REGISTRY: dict[str, PolicyLossFn] = {} 所在文件增加自己的损失函数

修改整个训练逻辑（最复杂）

核心是修改 fit 函数

DAPO 的实现类 RayDAPOTrainer 就是继承 RayPPOTrainer 后实现的

class RayDAPOTrainer(RayPPOTrainer):
	"""
	Note that this trainer runs on the driver process on a single CPU/GPU node.
	"""

	def fit(self):
		# ...
		# DAPO 的 fit 实现

模型融合

训练完成模型是按照 GPU，以分片的形式存储的，所以需要进行模型融合

python3 -m verl.model_merger merge \
	--backend fsdp \
	--local_dir checkpoints/verl_examples/gsm8k/global_step_410/actor \
	--target_dir checkpoints/verl_examples/gsm8k/global_step_410/actor/huggingface

将模型路径替换为目标路径
融合结果会存储到 target_dir 下，即 huggingface 目录下，执行后会存贮 model.safetensors 文件和 tokenizer.json 文件

注：模型融合不一定需要安装 verl 的所有的依赖，某些情况下，安装所有 verl 依赖是昂贵的，容易出错，建议简单安装（参考：官方安装说明）

# 安装底层框架依赖
USE_MEGATRON=0 bash scripts/install_vllm_sglang_mcore.sh # 仅使用 FSDP，不适用 Megatron（Megatron 安装容易出错）

# 安装 verl
pip install --no-deps -e . # 不安装依赖，在使用模型融合命令时遇到缺失的再安装，否则安装依赖容易出错

使用 verl 进行模型评估

评估分成生成回答和评估结果两个部分

生成回答

python3 -m verl.trainer.main_generation \
	trainer.nnodes=1 \
	trainer.n_gpus_per_node=2 \
	data.path=/path/to/test.parquet \
	data.prompt_key=prompt \
	data.batch_size=1024 \
	data.n_samples=8 \
	data.output_path=/path/to/output.parquet \
	model.path=/path/to/model \
	rollout.temperature=0.6 \
	rollout.top_p=0.95

注意：这里会为每个 Prompt 生成 8 个样本
路径替换为目标模型和目标输出文件名（注意：输出必须到文件名）

评估结果

python3 -m recipe.r1.main_eval \
	data.path=/path/to/output.parquet \
	data.prompt_key=prompt \
	data.response_key=responses \
	custom_reward_function.path=./recipe/r1/reward_score.py \
	custom_reward_function.name=reward_func

注意：原始的 ./recipe/r1/reward_score.py 文件中不含有 gsm8k 数据集，只需要在数学类型中加入 “openai/gsm8k” 即可
执行该命令可能需要安装 math-verify 包，执行 pip install math-verify 即可

亲测：对 Qwen2.5-0.5B-Instruct 模型在 gsm8k 上训练，从 step=30 到 step=410 （batch_size=256, epoch=15），测试集上的准确率从 0.45 提升至 0.53 左右

附录：如何传入多个数据集？

传入下面的参数？

train_files="['$train_data_path1','$train_data_path2']"
test_files="['$valid_data_path1','$valid_data_path2']"

data.train_files="$train_files" \
data.val_files="$test_files" \

附录：其他注意事项或技巧

控制保留的 ckpt 数量

1 2	trainer.max_actor_ckpt_to_keep=10 trainer.max_critic_ckpt_to_keep=10

附录：错误记录

HTTPRequestEntityTooLarge 错误

问题详情：HTTPRequestEntityTooLarge: Request Entity Too Large
原因：Ray 打包文件上传时上传了太多东西，导致实体过大，需要在 verl/trainer/runtime_env.yaml 中增加需要移出的文件至 excludes
- 一般都是 *.safetensors 相关的文件导致
详情参考：github.com/volcengine/verl/issues/696

NCCL 错误

表现是单机多卡没错误，多机多卡就会出现错误，错误信息为：

1	torch.distributed.DistBackendError: NCCL error in: /pytorch/torch/csrc/distributed/c10d/NCCLUtils.hpp:268, unhandled system error (run with NCCL_DEBUG=INFO for details), NCCL version 2.21.5

一般是 NCCL 相关的环境变量配置有问题，需要检查一下，被修改过后成功运行的参数包括
1
2
3
4
NCCL_SOCKET_IFNAME
NCCL_SOCKET_IFNAME
NCCL_IB_DISABLE
NCCL_NET_GDR_LEVEL
注：分布式训练中经常遇到 NCCL 相关的错误，下面是 NCCL 相关的官方错误说明：docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html

附录：特殊参数说明和记录

log_prob_micro_batch_size_per_gpu：表示 ref 或 rollout(actor) 一次前向推理时的真实样本数

from https://verl.readthedocs.io/en/latest/examples/config.html#actor-rollout-reference-policy
The batch size for one forward pass in the computation of ref_log_prob. The value represent the local num per gpu.
- actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu 表示 ref_log_prob 的配置
- actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu 表示 log_prob 的配置
- 注：log_prob 的计算是一个前向过程，但 batch_size 较大时显存会比较大，所以进一步进行拆分
注：更多 batch_size 相关介绍：
- 参考链接：聊聊verl中的batch_size
mini_batch，ppo_mini_batch_size(mini_batch_size) ：一个 mini_batch 表示一次 PPO 参数更新
micro_batch，ppo_micro_batch_size_per_gpu ：一次前向/反向过程的批次大小，多个 micro_batch 会累加梯度，直到足够一次 mini_batch 再更新一次模型

NLP——vLLM使用相关笔记

参考链接：
- GitHub 地址：github.com/vllm-project/vllm
- 文档地址：Welcome to vLLM
- 中文文档地址：vLLM 中文站

vLLM 采样参数：SamplingParams

SamplingParams 是控制模型“如何生成”的核心对象，常常包含下面的几个参数
- n ：每个输入提示生成的输出序列数量（默认为 1）
- best_of ：从生成的一组序列中选择最好的 k 个（用于集束搜索等）
- temperature ：采样温度，控制随机性；0 表示贪心采样（确定性），值越高越随机
- top_p ：核采样概率阈值，控制候选词的累积概率
- top_k ：仅从概率最高的 k 个 token 中采样
- max_tokens ：每个输出序列生成的最大 token 数
- stop ：停止生成的字符串列表（遇到这些词即停止）
- ignore_eos ：是否忽略结束符（EOS），强制生成直到达到最大长度
更多详细参数见附录

输入格式：Prompts

vLLM 支持两种形式的输入，可以在同一个 batch 中混合使用：
- 直接传入字符串，例如 "Hello, world"
  - vLLM 会自动调用内置 Tokenizer 进行编码
- 传入已经编码好的 Token ID 列表
  - 这在需要自定义 Tokenizer 或复用已编码数据时非常有用
还可以在一个列表中混合输入以上两种输入

vLLM 使用示例

本文将通过三个维度的代码示例来展示 vLLM 的核心能力：
- 高层同步接口 (LLM) ：最常用的离线批量推理方式
- 高层异步接口 (AsyncLLM) ：适用于构建高并发服务的异步流式处理
- 底层引擎接口 (LLMEngine) ：展示如何手动控制调度循环 (Step-level control)

离线批量推理：`LLM`

这是最简单的用法，适用于处理数据集

LLM 类封装了引擎的初始化和调度循环：

from vllm import LLM, SamplingParams

# # 初始化 LLM
# tensor_parallel_size: 使用的 GPU 数量
# gpu_memory_utilization: 显存占用比例 (0.0 - 1.0)
llm = LLM(
    model="path_to_model", 
    tensor_parallel_size=1,
    gpu_memory_utilization=0.9
)

# # 定义采样参数
# sampling_params_greedy = SamplingParams(temperature=0, max_tokens=10) # 贪心采样策略
sampling_params_creative = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=50)

prompts = [
    "Hello, my name is",          # 索引 0
    "The capital of France is"         # 索引 1
]

# # 执行批量解码 (Batch Decoding)
# generate 函数是同步阻塞的，直到所有请求完成
outputs = llm.generate(prompts, sampling_params_creative)

# # 处理输出结果
for i, output in enumerate(outputs):
    prompt = output.prompt
    # output.outputs 是一个列表，包含 'n' 个生成的序列 (这里 n=1，每个 Prompt 仅生成一个)
    generated_text = output.outputs[0].text
    
    print(f"--- Sample {i+1} ---")
    print(f"Prompt: {prompt!r}")
    print(f"Generated: {generated_text!r}")
    print(f"Finish Reason: {output.outputs[0].finish_reason}") # e.g., 'stop', 'length'

异步流式推理：`AsyncLLM`

AsyncLLM 是 LLM 的异步版本，基于 AsyncLLMEngine 构建

AsyncLLM 允许你在 Python 的 asyncio 循环中非阻塞地提交请求并获取结果，非常适合搭建 API 服务

import asyncio
from vllm import AsyncLLM, SamplingParams
from vllm.engine.arg_utils import AsyncEngineArgs

async def run_async_inference(): # 使用 async 关键字定义一个协程函数
    # 1. 配置引擎参数
    # AsyncEngineArgs 允许更细粒度地控制引擎行为，如 max_num_seqs (最大并发序列数)
    engine_args = AsyncEngineArgs(
        model="path_to_model",
        tensor_parallel_size=1,
        disable_log_requests=True
    )
    
    # 2. 初始化异步 LLM
    # AsyncLLM 内部维护了一个后台循环来处理请求
    llm = AsyncLLM.from_engine_args(engine_args)
    
    # 3. 定义采样参数
    sampling_params = SamplingParams(temperature=0.7, max_tokens=20)
    
    # 4. 定义异步生成任务
    # request_id 是必须的，用于在引擎内部追踪请求，需保证唯一性
    async def generate_stream(request_id, prompt):
        results_generator = llm.generate(
            prompt, 
            sampling_params, 
            request_id=request_id
        )
        
        # 异步迭代生成结果 (Streaming)
        final_output = None
        async for request_output in results_generator:
            # 这里可以实现流式推送到前端
            final_output = request_output
            
        return final_output

    # 5. 模拟并发请求 (多样本解码)
    # 同时发送文本提示和 Token 提示
    tasks = [
        generate_stream("req_001", "To be or not to be,"),
        generate_stream("req_002", "The capital of France is") # TokensPrompt
    ]
    
    # 等待所有任务完成
    results = await asyncio.gather(*tasks)
    
    for res in results:
        print(f"Request ID: {res.request_id}")
        print(f"Output: {res.outputs[0].text}")

# 运行异步主函数
if __name__ == "__main__":
    asyncio.run(run_async_inference())

底层引擎手动调度：`LLMEngine`

LLMEngine 是 vLLM 最底层的核心
- 通常用户不需要直接操作它，除非你需要极度定制化的调度逻辑（例如自定义 Web Server 或特殊的强化学习循环）
LLM 类本质上就是在这个类外面包了一层 while 循环

这个示例展示了 vLLM 内部是如何通过 step() 函数一步步完成推理的

from vllm import LLMEngine, SamplingParams, RequestOutput
from vllm.engine.arg_utils import EngineArgs
from vllm.utils import random_uuid

def run_core_engine_loop():
    # 1. 初始化引擎参数与实例
    engine_args = EngineArgs(model="path_to_model")
    engine = LLMEngine.from_engine_args(engine_args)
    
    sampling_params = SamplingParams(temperature=0, max_tokens=10)
    
    # 2. 手动添加请求 (Add Requests)
    # 必须手动管理 request_id
    engine.add_request( # 注意：add_request 函数不会启动推理，需要等待 step 函数来执行
        request_id="req_text",
        prompt="Artificial Intelligence is",
        sampling_params=sampling_params
    )
    
    engine.add_request(
        request_id="req_text",
        prompt="The capital of France is",
        sampling_params=sampling_params
    )

    # 3. 手动执行调度循环 (The Step Loop)
    # 只要引擎中还有未完成的请求，就继续循环
    while engine.has_unfinished_requests():
        # step() 执行一次推理迭代：
        # 1. 调度器决定哪些请求进入 GPU 计算
        # 2. 执行模型的前向传播 (Model Forward)
        # 3. 采样下一个 Token
        # 4. 更新 KV Cache
        request_outputs: list[RequestOutput] = engine.step() # 注意 step 是一次仅采样一个 Token！streaming 也是借助 step 函数实现的；平时不需要 step 函数是因为封装到底层了
        
        # 打印当前步的中间结果 (Streaming 效果)
        for output in request_outputs:
            if output.finished:
                print(f"[{output.request_id}] Finished: {output.outputs[0].text}")
            else:
                # 仅打印当前生成的最新 token（简化展示）
                # 实际 output.outputs[0].text 包含完整的累积文本
                pass

# 运行
if __name__ == "__main__":
    run_core_engine_loop()

vLLM 部署及参数说明

部署命令

推荐的 Linux 启动命令（可根据实际情况修改路径和显卡数量）：

vllm serve /data/models/Llama-3-8B-Instruct \
    --served-model-name llama3-8b \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype auto \
    --tensor-parallel-size 1 \
    --pipeline-parallel-size 1 \
    --gpu-memory-utilization 0.90 \
    --swap-space 4 \
    --max-model-len 8192 \
    --max-num-seqs 256 \
    --max-num-batched-tokens 8192 \
    --trust-remote-code \
    --enable-chunked-prefill \
    --disable-custom-all-reduce \
    --quantization awq \
    --enforce-eager \
    --api-key "sk-your-secure-password"

TLDR：参数配置建议：
- 如果追求极致吞吐量（Throughput） ：增大 --max-num-batched-tokens
  - 这允许一次性处理更多数据，但可能会导致生成过程中的停顿感（因为大批量的预填充会抢占计算资源）
- 如果追求低延迟和流畅度（Latency） ：建议保持适中的 --max-num-batched-tokens，并 开启 --enable-chunked-prefill
  - 这样可以将大的预填充任务打散，避免计算尖峰，确保正在生成的对话不会卡顿
- 显存限制 ：请注意，max-num-batched-tokens 的大小直接影响 KV Cache 的瞬时显存需求
  - 如果该值过大而显存不足，可能会触发 OOM 或强制调度器减少并发序列数（--max-num-seqs）

参数详细解析

vllm serve <path_to_model>
- 这是 vLLM 的启动入口命令
- 后面的 path_to_model 路径是模型在本地文件系统中的绝对路径（也可以是 Hugging Face 的模型 ID）
--served-model-name <model_name>
- 指定服务对外显示的名称，建议使用类似 “llama-8b” 等类似名称标注
- 当客户端调用 OpenAI 兼容 API 时，model 字段需要匹配这个名字
- 如果不设置，默认使用模型路径作为名字
--host 0.0.0.0
- 指定服务绑定的 IP 地址
- 0.0.0.0 表示允许来自任何网络接口的连接（对外网开放）；如果仅限本地访问，可设置为 127.0.0.1
--port 8000
- 指定服务监听的端口号
--dtype auto
- 指定模型权重的加载精度
- 设置为 auto 时，vLLM 会根据配置文件（config.json）自动检测（通常是 float16 或 bfloat16）
- 也可以强制指定为 float16、bfloat16 或 float32
--tensor-parallel-size 1 (TP)
- 张量并行度，即把一个模型的层拆分到几张显卡上并行计算
- 通常设置为单机内的 GPU 数量
--pipeline-parallel-size 1 (PP)
- 流水线并行度，即把模型的不同层分配到不同的显卡上
- 通常用于模型过大，单卡显存塞不下且 TP 无法解决时
- 注：模型部署不建议开 PP，使用 TP 即可，一般情况下 PP 保持为 1
--gpu-memory-utilization 0.90
- GPU 显存使用率上限，注意：这是影响并发能力的核心参数
- vLLM 会预先占用这部分比例的显存（此处为 90%）
  - 其中一部分用于加载模型权重，剩余的所有空间都会被预分配给 KV Cache（键值缓存）
- 如果设得太高容易 OOM（显存溢出），设得太低则浪费显存，导致并发量上不去
--swap-space 4 (新增重要参数)
- CPU 交换空间大小（单位：GiB）
- 当 GPU 显存不足以存放 KV Cache 时，vLLM 会将部分 KV Block 换出到 CPU 内存中
- 设置此参数可以防止在请求突发高峰时发生 OOM 崩溃
--max-model-len 8192
- 模型的最大上下文长度（输入+输出）
  - 如果未指定，vLLM 会尝试从模型配置中读取
- 显式指定可以限制显存占用，避免处理过长的序列导致崩溃
--max-num-seqs 256
- 最大并发序列数，即同一时刻 vLLM 能处理的请求数量（Batch Size）
- 这个值越高，吞吐量越大，但每个请求的延迟可能会增加
--max-num-batched-tokens 8192
- 一次迭代（iteration）中处理的最大 Token 总数
- 这包括了 Prefill（预填充）阶段和 Decode（解码）阶段的所有 Token
- 通常默认为 max(max_model_len, 2048)，建议根据卡的性能灵活配置，以最大化效率
--trust-remote-code
- 允许执行模型仓库中的自定义 Python 代码
- 对于某些非标准架构的模型（如 ChatGLM、Qwen 的早期版本等），必须开启此选项才能正确加载模型架构
--enable-chunked-prefill
- 为了解决长 Prompt 导致的“队头阻塞”问题（即一个超长 Prompt 占满计算资源，导致短请求延迟增加），引入了分块预填充机制
- 开启分块预填充，这是一个优化参数，允许将长 Prompt 的 Prefill 阶段拆分成多个小块，与 Decode 阶段混合调度
- 这可以显著降低长文本输入时的首字延迟（TTFT） ，因为允许解码（Decode）任务和预填充（Prefill）任务更平滑地交错执行，显著降低了其他并发请求的 Inter-Token Latency（ITL，Token 间延迟），使生成过程更加流畅
--max-num-partial-prefills
- 并发预填充数，当启用了分块预填充（Chunked Prefill）后，这个参数变得非常重要
- 限制了在同一时刻，有多少个请求可以处于“部分预填充”状态，
- 默认为 1：意味着在任何给定的迭代中，调度器最多只允许 1 个请求进行部分预填充计算（与其他正在解码的请求并行），这有助于防止过多的上下文切换开销，同时保证显存管理的稳定性
--long-prefill-token-threshold
- 长预填充阈值，这是一个辅助参数，用于配合分块预填充使用
- 定义了多少 Token 数量的 Prompt 被视为“长请求”
- 当 Prompt 长度超过此阈值时，vLLM 才会考虑对其应用特殊的调度策略或分块逻辑。默认值为 0，意味着所有请求都遵循统一的规则
--disable-custom-all-reduce
- 禁用 vLLM 自定义的 All-Reduce 内核
- 通常在某些 GPU 架构不支持或驱动不兼容导致 NCCL 通信错误时使用
- 如果硬件环境标准，通常不需要加这个，但在排查多卡通信问题时很有用
--quantization awq (新增重要参数)
- 指定量化格式
- 如果模型是量化版本（如 AWQ, GPTQ, SqueezeLLM），必须指定此参数
- 例如加载 Llama-3-8B-AWQ 时，需设置为 awq
- 如果是非量化模型，请去掉此参数
--enforce-eager (新增重要参数)
- 强制使用 PyTorch 的 Eager 模式，禁用 CUDA Graph
- 虽然 CUDA Graph 能加速小 Batch 的推理，但在某些特定显卡或驱动版本上可能会导致显存分配错误或死锁
- 开启此项有助于调试和提高稳定性
--api-key "sk-your-secure-password" (新增重要参数)
- 设置访问 API 的密钥
- 在生产环境中，为了防止未授权访问，配置 API Key 是必须的安全措施
- 客户端请求头需携带 Authorization: Bearer sk-your-secure-password

附录：如果是量化模型，不添加 `--quantization` 参数会怎样？

以 W8A8-QuaRot（Weight 8-bit / Activation 8-bit，使用了 QuaRot 旋转算法进行离群值抑制）量化模型为例，如果在启动 vLLM 时不指定 --quantization 参数，通常会发生以下三种情况之一（具体取决于模型的 config.json 配置和 vLLM 的版本）
注：QuaRot 是一种算法技术，它生成的模型最终通常以 FP8 (E4M3/E5M2) 或 Int8 的格式存储

情况1：直接报错并无法启动（最常见的情况）

这是最可能发生的结果
vLLM 启动时会读取模型的 config.json
- 如果该配置文件中包含 quantization_config 字段（例如标记为 fp8、compressed-tensors 或自定义格式），但 vLLM 在默认模式下无法自动匹配到合适的 Kernel（内核），或者检测到硬件不支持该量化格式（例如在非 Hopper 架构显卡上加载 FP8），程序会直接抛出 ValueError 或 RuntimeError
终端会打印类似 ValueError: Unknown quantization method... 或 RuntimeError: Shape mismatch... 的错误日志，服务启动失败

情况2：加载成功但输出乱码，Garbage Output

这种情况比较危险，因为它看起来“跑起来了”，但完全不可用
如果模型的 config.json 中缺失了量化相关的元数据，或者 vLLM 错误地将其识别为标准模型，它会尝试以默认精度（通常是 float16 或 bfloat16）来解释权重数据
数据曲解：原本是 8-bit 的整数或 FP8 数据，被当成了 16-bit 的浮点数读取
模型可以接受输入，但吐出来的全是乱码、重复符号或毫无逻辑的字符

情况3：自动识别成功（理想情况，但有前提）

在较新的 vLLM 版本中，如果模型打包规范（例如使用 llm-compressor 或 AutoGPTQ 正确导出），config.json 中会有明确的 quantization_config 字段
config.json 里的 quantization 字段（如 fp8 或 compressed-tensors）被当前版本的 vLLM 原生支持
如果显卡支持该精度（例如 w8a8 的 QuaRot 通常对应 FP8 ，这通常需要 NVIDIA Ada Lovelace (RTX 4090) 或 Hopper (H100) 架构的 GPU）
此时即使你不写 --quantization，vLLM 也会根据配置文件自动启用对应的量化内核，服务正常运行

附录：SamplingParams 参数项详解

vLLM 的 SamplingParams 参数很多，覆盖了多个方面：
- 从基础生成控制（长度、终止）
- 采样策略（随机性、候选集）
- 重复控制（惩罚）
- 输出格式（detokenize、 Special Token ）
- 高级自定义（logits 处理器、结构化输出）的全维度参数
这些参数既兼容 OpenAI API 规范，又扩展了 beam search、结构化输出、不良词过滤等特有功能
一些简单的常用理解：
- 追求确定性可以配置：temperature=0 + top_k=1；
  - 问题：temperature=0 其实就已经是贪心采样了，但是我们一般还是会使用 top_k=1 进一步明确贪心采样
- 追求多样性可以配置：temperature=0.7 + top_p=0.9；
  - 理解：temperature=0.7 + top_p=0.9 是很常用的参数
- 避免重复：presence_penalty=0.5 + frequency_penalty=0.3；
  - presence_penalty 惩罚是否出现过
  - frequency_penalty 惩罚出现频次

SamplingParams 源码配置

以下源码参考自：github.com/vllm-project

class SamplingParams(
    PydanticMsgspecMixin,
    msgspec.Struct,
    omit_defaults=True,  # type: ignore[call-arg]
    # required for @cached_property.
    dict=True,
):  # type: ignore[call-arg]
    """Sampling parameters for text generation.

    Overall, we follow the sampling parameters from the OpenAI text completion
    API (https://platform.openai.com/docs/api-reference/completions/create).
    In addition, we support beam search, which is not supported by OpenAI.
    """

    n: int = 1
    """Number of outputs to return for the given prompt request.

    NOTE:
        `AsyncLLM` streams outputs by default. When `n > 1`, all `n` outputs
        are generated and streamed cumulatively per request. To see all `n`
        outputs upon completion, use `output_kind=RequestOutputKind.FINAL_ONLY`
        in `SamplingParams`."""
    presence_penalty: float = 0.0
    """Penalizes new tokens based on whether they appear in the generated text
    so far. Values > 0 encourage the model to use new tokens, while values < 0
    encourage the model to repeat tokens."""
    frequency_penalty: float = 0.0
    """Penalizes new tokens based on their frequency in the generated text so
    far. Values > 0 encourage the model to use new tokens, while values < 0
    encourage the model to repeat tokens."""
    repetition_penalty: float = 1.0
    """Penalizes new tokens based on whether they appear in the prompt and the
    generated text so far. Values > 1 encourage the model to use new tokens,
    while values < 1 encourage the model to repeat tokens."""
    temperature: float = 1.0
    """Controls the randomness of the sampling. Lower values make the model
    more deterministic, while higher values make the model more random. Zero
    means greedy sampling."""
    top_p: float = 1.0
    """Controls the cumulative probability of the top tokens to consider. Must
    be in (0, 1]. Set to 1 to consider all tokens."""
    top_k: int = 0
    """Controls the number of top tokens to consider. Set to 0 (or -1) to
    consider all tokens."""
    min_p: float = 0.0
    """Represents the minimum probability for a token to be considered,
    relative to the probability of the most likely token. Must be in [0, 1].
    Set to 0 to disable this."""
    seed: int | None = None
    """Random seed to use for the generation."""
    stop: str | list[str] | None = None
    """String(s) that stop the generation when they are generated. The returned
    output will not contain the stop strings."""
    stop_token_ids: list[int] | None = None
    """Token IDs that stop the generation when they are generated. The returned
    output will contain the stop tokens unless the stop tokens are special
    tokens."""
    ignore_eos: bool = False
    """Whether to ignore the EOS token and continue generating
    tokens after the EOS token is generated."""
    max_tokens: int | None = 16
    """Maximum number of tokens to generate per output sequence."""
    min_tokens: int = 0
    """Minimum number of tokens to generate per output sequence before EOS or
    `stop_token_ids` can be generated"""
    logprobs: int | None = None
    """Number of log probabilities to return per output token. When set to
    `None`, no probability is returned. If set to a non-`None` value, the
    result includes the log probabilities of the specified number of most
    likely tokens, as well as the chosen tokens. Note that the implementation
    follows the OpenAI API: The API will always return the log probability of
    the sampled token, so there may be up to `logprobs+1` elements in the
    response. When set to -1, return all `vocab_size` log probabilities."""
    prompt_logprobs: int | None = None
    """Number of log probabilities to return per prompt token.
    When set to -1, return all `vocab_size` log probabilities."""
    flat_logprobs: bool = False
    """Whether to return logprobs in flatten format (i.e. FlatLogprob)
    for better performance.
    NOTE: GC costs of FlatLogprobs is significantly smaller than
    list[dict[int, Logprob]]. After enabled, PromptLogprobs and
    SampleLogprobs would populated as FlatLogprobs."""
    # NOTE: This parameter is only exposed at the engine level for now.
    # It is not exposed in the OpenAI API server, as the OpenAI API does
    # not support returning only a list of token IDs.
    detokenize: bool = True
    """Whether to detokenize the output."""
    skip_special_tokens: bool = True
    """Whether to skip special tokens in the output."""
    spaces_between_special_tokens: bool = True
    """Whether to add spaces between special tokens in the output."""
    # `list[LogitsProcessor] | None` type. We use Any here because
    # `list[LogitsProcessor] | None` type is not supported by msgspec.
    logits_processors: Any | None = None
    """Functions that modify logits based on previously generated tokens, and
    optionally prompt tokens as a first argument."""
    include_stop_str_in_output: bool = False
    """Whether to include the stop strings in output text."""
    truncate_prompt_tokens: Annotated[int, msgspec.Meta(ge=-1)] | None = None
    """If set to -1, will use the truncation size supported by the model. If
    set to an integer k, will use only the last k tokens from the prompt
    (i.e., left truncation). If set to `None`, truncation is disabled."""
    output_kind: RequestOutputKind = RequestOutputKind.CUMULATIVE

    # The below fields are not supposed to be used as an input.
    # They are set in post_init.
    output_text_buffer_length: int = 0
    _all_stop_token_ids: set[int] = msgspec.field(default_factory=set)

    # Fields used to construct logits processors
    structured_outputs: StructuredOutputsParams | None = None
    """Parameters for configuring structured outputs."""
    logit_bias: dict[int, float] | None = None
    """If provided, the engine will construct a logits processor that applies
    these logit biases."""
    allowed_token_ids: list[int] | None = None
    """If provided, the engine will construct a logits processor which only
    retains scores for the given token ids."""
    extra_args: dict[str, Any] | None = None
    """Arbitrary additional args, that can be used by custom sampling
    implementations, plugins, etc. Not used by any in-tree sampling
    implementations."""

    # Fields used for bad words
    bad_words: list[str] | None = None
    """Words that are not allowed to be generated. More precisely, only the
    last token of a corresponding token sequence is not allowed when the next
    generated token can complete the sequence."""
    _bad_words_token_ids: list[list[int]] | None = None

    skip_reading_prefix_cache: bool | None = None

基础参数说明

n: int = 1：
- 为单个 Prompt 请求返回的生成结果数量
- vLLM 默认一个个输出结果，当 n > 1 时，所有 n 个结果会按请求累积流式一个个返回；
  - 问题：这里的流式，不是通常意义上的流式，而是针对 Response n 粒度的流式？
- 若希望仅在生成完成后一次性获取所有 n 个结果，需将 output_kind 设置为 RequestOutputKind.FINAL_ONLY
max_tokens: int | None = 16：
- 每个输出序列允许生成的最大 token 数量
- 若设为 None，需确保模型有明确的终止条件（如 EOS 或 stop 词），否则可能无限生成
min_tokens: int = 0
- 每个输出序列在生成 EOS（结束符）或 stop_token_ids 之前必须生成的最小 token 数
- 作用：避免生成过短的结果，例如设置 min_tokens=5 时，即使模型提前触发终止条件 ，也会继续生成直到达到 5 个 token
ignore_eos: bool = False
- 是否忽略 EOS token，强制模型在生成 EOS 后继续生成
- 适用于需要生成超长文本、绕过模型默认终止逻辑的场景（如生成完整文档而非单句）

采样策略参数

采样策略参数参数控制模型生成 token 时的随机性和候选范围，是最常用的参数，当不做采样时，no_sample
temperature: float = 1.0
- 控制采样的随机性，本质是对 logits（token 概率对数）进行缩放（注意：是在 Softmax 前进行缩放）
- temperature = 0：贪心采样（Greedy Sampling），直接选择概率最高的 token，结果完全确定；
- 0 < temperature < 1：降低随机性（提高确定性），结果更聚焦、确定（如 0.7 是平衡随机性和确定性的常用值）；
- temperature > 1：提高随机性，结果更发散、创意性更强，但可能出现无意义内容
- temperature 越小越容易出现重复现象
- 注意：当 temperature=0 时，top_p/top_k 等参数会失效（贪心采样无需候选集）
  - vLLM 中没有 do_sample 参数 参照了 HF Transformer 相似的思路，但是实现方式不同，通过 temperature 隐晦地实现了是否贪心采样的控制
  - temperature=0 强制 do_sample=False（贪心采样，只选概率最高的 token）；
  - temperature>0 等价 do_sample=True（启用随机采样，按概率分布选 token）
top_p: float = 1.0
- 核采样（Nucleus Sampling），控制待选 token 的累积概率阈值，取值范围 (0, 1]
- 将所有 token 按概率从高到低排序，累加概率直到达到 top_p，仅从这些 token 中采样
  - top_p=0.9 时，仅选择累计概率前 90% 的 token 作为候选；
  - top_p=1.0 时，包含所有 token（等同于不限制）
- 相比 top_k 更灵活，能自适应调整候选集大小（高概率 token 少则候选集小，反之则大）
top_k: int = 0
- 限制采样的候选 token 数量，仅从概率最高的 top_k 个 token 中选择
  - top_k=0（或 -1）：不限制，包含所有 token；
  - top_k=50：仅从概率前 50 的 token 中采样
- 对比 top_p ：top_k 是固定数量限制，top_p 是概率累积限制，通常两者二选一使用
  - 两者组合时：先按 top_k 筛选，再按 top_p 过滤
min_p: float = 0.0
- 基于最高概率 token 的相对概率阈值，筛选候选 token，取值范围 [0, 1]
- 设本次采样遇到的最高概率 token 的概率为 P_max（注意：是个随分布变化的值），仅保留概率 $\ge$ min_p * P_max 的 token
  - min_p=0.1 且 P_max=0.5 时，仅保留概率 $\ge$ 0.05 的 token；
  - min_p=0 时禁用该规则
- 优势：相比 top_k/top_p，能避免极端情况下的不合理筛选（如 top_k 可能漏掉低概率但有意义的 token，top_p 可能包含过多低概率 token）
seed: int | None = None
- 生成随机数的种子，用于复现生成结果
- 设置固定 seed 后，相同 Prompt 和参数下，模型会生成完全相同的结果（解决采样随机性导致的不可复现问题）

重复/惩罚类参数

用于控制模型生成时的重复率，避免生成冗余、重复的文本
presence_penalty: float = 0.0
- 基于 token 是否“出现过”的惩罚，与出现次数无关
  - 正值（如 0.5）：惩罚已出现的 token，鼓励生成新内容；
  - 负值（如 -0.5）：奖励已出现的 token，鼓励重复；
  - 0：无惩罚/奖励
- 适用场景 ：需要避免模型重复提及相同实体（如人名、地名）的场景
frequency_penalty: float = 0.0
- 基于 token 出现“频率”的惩罚，出现次数越多，惩罚越重
  - 正值：抑制高频 token，减少重复；
  - 负值：强化高频 token，增加重复；
  - 0：无惩罚/奖励
- 区别于 presence_penalty ：前者是“有无”惩罚，后者是“多少”惩罚，例如重复 3 次的 token 会比重复 1 次的 token 受到更重的频率惩罚
repetition_penalty: float = 1.0
- 基于 prompt 和已生成文本中 token 出现的惩罚，核心是调整 token 的概率
  - 取值 > 1：惩罚重复 token（概率 = 原概率 / repetition_penalty），鼓励新内容；
  - 取值 < 1：奖励重复 token（概率 = 原概率 * repetition_penalty），鼓励重复；
  - 1：无惩罚/奖励
- 覆盖范围(特别注意) ：同时作用于 prompt 和生成文本中的 token，是更通用的重复控制参数
  - 理解：这里的含义是在 prompt 中的 Token 也会当做是否重复的判断依据进行累计

终止条件参数

控制模型何时停止生成，避免无限制输出
stop: str | list[str] | None = None
- 触发生成终止的字符串（单个或列表），返回的结果中默认不包含这些停止字符串
- stop=["\n", "###"] 时，模型生成到换行符或 ### 时立即停止
stop_token_ids: list[int] | None = None
- 触发生成终止的 token ID 列表（底层 token-level 的终止条件）
- 返回结果中会包含 stop_token_ids 对应的 stop token（Special Token 服从本规则）
  - 如果是 Special Token，可能是不会在输出结果中的，有自己的规则
  - 与 stop（字符串级）互补，分别用于指定字符串或者 Token
include_stop_str_in_output: bool = False
- 是否将 stop 参数指定的停止字符串包含在输出文本中
  - 注意：这里只影响 stop，与 stop_token_ids 无关，stop_token_ids 不受此参数影响
- 若设为 True，停止字符串会出现在最终输出里
理解终止条件参数，vLLM 的 SamplingParams 内部会维护一个参数：_all_stop_token_ids: set[int] = msgspec.field(default_factory=set)
- _all_stop_token_ids 存储所有终止 token ID
  - 包括 stop_token_ids 转换后的 ID、EOS token 等
  - 这个参数无需用户手动设置，由 post_init 自动初始化

日志概率（logprobs）参数

用于获取 token 生成的概率信息，适用于需要分析模型决策过程的场景（如评估生成可靠性）
logprobs: int | None = None
- 每个输出 token 返回的最高概率 token 的数量（包含选中的 token）
  - logprobs=None：不返回概率；
  - logprobs=k($k \in \mathbb{Z}^+$)：返回概率最高的 k 个 token 的 log 概率（实际返回 k+1 个，因为包含选中的 token）；
    - 理解：这里选中的 Token 不一定是概率最高的，所以被选中的一定会返回
  - logprobs=-1：返回全词表（vocab_size 维度）所有 token 的 log 概率
- Following OpenAI API ：始终返回选中 token 的 log 概率
prompt_logprobs: int | None = None
- 每个 Prompt token 返回的最高概率 token 的数量
  - 取值规则同 logprobs，-1 表示返回全词表概率
- 问题：prompt 为什么也会对应概率？
  - prompt_logprobs 是专门针对输入的 prompt 部分（而非生成的 completion 部分）返回的每个 token 的对数概率信息
  - logprobs 则通常指生成部分的对数概率
flat_logprobs: bool = False
- 是否展平返回 logprobs，优化性能
- 优势：FlatLogprob 的 GC（垃圾回收）成本远低于 list[dict[int, Logprob]] 格式，适合高并发场景；
- 启用后 PromptLogprobs 和 SampleLogprobs 均会以 FlatLogprob 格式返回

输出格式与处理参数

控制生成结果的格式、是否过滤 Special Token 等
detokenize: bool = True
- 是否将生成的 token ID 转换为文本
- 注意：仅在引擎层暴露，OpenAI API 不支持仅返回 token ID，默认开启，得到的就是文本而不是 Token ID
skip_special_tokens: bool = True
- 是否在输出中跳过 Special Token （如、、等）
- 注意默认是 True（跳过），避免输出包含无意义的特殊标记
spaces_between_special_tokens: bool = True
- 是否在 Special Token 之间添加空格
- 优化 Special Token 的可读性，例如 <|endoftext|><|user|> 会变成 <|endoftext|> <|user|>
- 理解：为什么这里默认是 True，目前我们几乎不用，但确从不需要设置？猜测如下（待确定）：
  - Hugging Face Tokenizer 基类的通用默认值是 True；
  - LLaMA/Qwen 等模型的专属默认值是 False（通过代码硬编码覆盖了通用默认值）
output_kind: RequestOutputKind = RequestOutputKind.CUMULATIVE
- 输出类型，控制流式返回的方式：
  - output_kind=RequestOutputKind.CUMULATIVE（默认）：累积式输出（如第 1 次返回第 1 个 token，第 2 次返回前 2 个 token，依此类推）；
  - output_kind=RequestOutputKind.FINAL_ONLY：仅在生成完成后返回最终完整结果（此时不是异步生成了）
  - output_kind=RequestOutputKind.DELTA：仅返回增量
- 问题：这个参数的使用待测试确认
output_text_buffer_length: int = 0
- 内部参数，存储输出文本缓冲区长度，无需用户设置，由 post_init 初始化

Prompt 处理参数

truncate_prompt_tokens: Annotated[int, msgspec.Meta(ge=-1)] | None = None
- Prompt 的左截断规则（仅保留最后 k 个 token）：
  - -1：使用模型支持的最大截断长度；
  - 正整数 k：仅保留 Prompt 最后 k 个 token；
  - None：禁用截断
- 常用参数，适配模型的上下文窗口限制，避免 Prompt 过长导致超出模型容量
skip_reading_prefix_cache: bool | None = None
- 是否跳过读取前缀缓存（prefix cache），用于优化 Prompt 处理性能，通常无需用户手动设置
logits_processors: Any | None = None
- 修改 logits 的自定义处理器列表（函数），可基于已生成的 token（或 Prompt token）调整 token 概率
- 因 msgspec 不支持 list[LogitsProcessor] | None，故用 Any 替代；适用于自定义生成逻辑（如强制生成特定 token、限制生成内容）
- 问题：待确认这个参数
structured_outputs: StructuredOutputsParams | None = None
- 结构化输出参数，用于控制模型生成符合特定格式的内容（如 JSON、XML）
- 需要结构化结果的场景（如数据提取、API 调用返回）
logit_bias: dict[int, float] | None = None
- token 级别的概率偏置，键为 token ID，值为偏置值
- 调整指定 token 的生成概率（正值提高概率，负值降低概率），例如 logit_bias={123: 5.0} 会大幅提高 ID 为 123 的 token 被选中的概率
- 问题：待尝试这个参数
allowed_token_ids: list[int] | None = None
- 允许生成的 token ID 列表，后续生成时，会仅保留这些 token 的概率，其余 token 概率置 0
- 严格限制生成内容的范围（如仅允许生成数字、特定词汇）
- 问题：待尝试这个参数
extra_args: dict[str, Any] | None = None
- 自定义额外参数，供第三方插件、自定义采样逻辑使用，vLLM 内置采样逻辑不使用该参数

不良词过滤参数

bad_words: list[str] | None = None
- 禁止生成的词汇列表，核心逻辑是：当生成的 token 即将完成某个 bad word 的 token 序列时，禁止生成该序列的最后一个 token
- 比如 bad_words=["暴力"] 时，模型会避免生成“暴力”这个词（通过阻止其最后一个 token 的生成），直接停止
- 问题：待测试这个参数
_bad_words_token_ids: list[list[int]] | None = None
- 内部参数，存储 bad_words 转换后的 token ID 序列，无需用户设置，由 post_init 初始化
- 问题：待测试这个参数

NLP——技术报告解读-DeepSeek-R1

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv 20250122 & 20260104, DeepSeek-AI
  - 20260104 补充了更多细节【本文还未补充，待后续有时间再更新】
- 补充文档：(DeepSeek-R1-Supplements)Supplementary Information for: DeepSeek-R1 Incentivizes Reasoning in LLMs via Reinforcement Learning, DeepSeek-AI
  - 补充材料阅读笔记见另一篇
- 中文完整版: 梁文锋Nature论文的同行评审和团队回应- 上
- rebuttal过程

Paper Summary

评价：
- 划时代的一篇文章，25 年春节前后 DeepSeek 给大家带来的冲击是巨大的，众多社区一起复现 DeepSeek-R1 的 Aha Moment 的空前盛况
- 本文及其附录都是非常值得深入阅读的文章
论文介绍了 DeepSeek 的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1
DeepSeek-R1-Zero 是一个通过大规模 RL 训练、无需 SFT 作为初步步骤的模型，展现出卓越的推理能力
- 通过强化学习，DeepSeek-R1-Zero 自然地涌现出许多强大而有趣的推理行为
- 但 DeepSeek-R1-Zero 也面临可读性差和语言混合等挑战
为了解决这些问题并进一步提升推理性能，论文引入了 DeepSeek-R1，它在强化学习之前引入了多阶段训练和冷启动数据
- DeepSeek-R1 在推理任务上的性能与 OpenAI-o1-1217 相当
- 为了支持研究社区，论文开源了 DeepSeek-R1-Zero、DeepSeek-R1，以及六个基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏得到的稠密模型（1.5B、7B、8B、14B、32B、70B）

Introduction and Discussion

Post-training 已成为完整训练流程中的一个重要组成部分
- 能够提升推理任务的准确性、与社会价值观对齐并适应用户偏好，同时相对于预训练所需计算资源相对较少
在推理能力的背景下，OpenAI 的 o1 (OpenAI) 系列模型首次通过增加 CoT 推理过程的长度引入了推理时扩展（inference-time scaling）
- 这种方法在数学、编程和科学推理等各种推理任务中取得了显著改进
- 但有效的测试时扩展（test-time scaling）的挑战仍然是研究社区的一个开放性问题
之前的几项工作探索了各种方法，包括基于过程的奖励模型（process-based reward models）(2022; 2023)、强化学习 (2024) 以及蒙特卡洛树搜索（Monte Carlo Tree Search）和束搜索（Beam Search）等搜索算法 (2024; 2024; 2024)
- 然而，这些方法都没有达到与 OpenAI 的 o1 系列模型相媲美的通用推理性能
在论文中，论文迈出了第一步，使用纯 RL 来改进语言模型的推理能力
- 论文的目标是探索大语言模型在没有任何监督数据的情况下发展推理能力的潜力，重点关注它们通过纯强化学习过程进行的自我进化
- 具体来说，论文使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO (2024) 作为强化学习框架来提高模型在推理中的性能
- 在训练过程中，DeepSeek-R1-Zero 自然地涌现出许多强大而有趣的推理行为
- 经过数千个强化学习步骤后，DeepSeek-R1-Zero 在推理基准测试中表现出卓越的性能
  - 例如，在 AIME 2024 上的 pass@1 分数从 15.6% 增加到 71.0%，并且通过多数投票（majority voting），分数进一步提高到 86.7%，与 OpenAI-o1-0912 的性能相匹配
然而，DeepSeek-R1-Zero 遇到了可读性差和语言混合等挑战
- 为了解决这些问题并进一步提升推理性能，论文引入了 DeepSeek-R1，它结合了少量冷启动数据（cold-start data）和多阶段训练流程
- 具体来说
  - 论文首先收集数千个冷启动数据来微调 DeepSeek-V3-Base 模型
  - 随后，论文像 DeepSeek-R1-Zero 一样执行面向推理的强化学习
- 当强化学习过程接近收敛时，论文通过对强化学习检查点（checkpoint）进行拒绝采样（rejection sampling）来创建新的监督微调数据，并结合来自 DeepSeek-V3 在写作、事实问答（factual QA）和自我认知（self-cognition）等领域的有监督数据，然后重新训练 DeepSeek-V3-Base 模型
- 在使用新数据微调后，该检查点会经历额外的强化学习过程，考虑所有场景的 Prompts
- 经过这些步骤，论文获得了一个称为 DeepSeek-R1 的检查点，其性能与 OpenAI-o1-1217 相当
论文进一步探索了从 DeepSeek-R1 到更小稠密模型（dense models）的蒸馏（distillation）
- 使用 Qwen2.5-32B (Qwen) 作为基础模型，直接从 DeepSeek-R1 进行蒸馏优于在其上应用强化学习
- 这表明由更大基础模型发现的推理模式对于提高推理能力至关重要
论文开源了蒸馏后的 Qwen 和 Llama (2024) 系列
- 值得注意的是，论文蒸馏的 14B 模型大幅优于 SOTA 开源模型 QwQ-32B-Preview (Qwen)，并且蒸馏的 32B 和 70B 模型在稠密模型的推理基准测试中创造了新纪录
补充：来自辅助材料的说明
- DeepSeek-V3-Base 指基础模型
- DeepSeek-V3 指经过指令微调的模型
- DeepSeek-R1 与 DeepSeek-R1-Zero 均在 DeepSeek-V3-Base 的基础上训练而成
  - 且 DeepSeek-R1 还利用了 DeepSeek-V3 监督微调数据中的非推理类数据

Approach

Overview

先前的工作严重依赖大量的监督数据来提升模型性能
在本研究中，论文证明了即使不使用 SFT 作为冷启动，通过大规模 RL 也能显著提升推理能力
- 此外，加入少量冷启动数据可以进一步提升性能
在接下来的小节中，论文将介绍：
- (1) DeepSeek-R1-Zero，它直接在基础模型（DeepSeek-V3-Base）上应用强化学习，不使用任何监督微调数据；
- (2) DeepSeek-R1，它从一个经过数千个长 CoT 示例微调过的检查点开始应用强化学习；
- (3) 将 DeepSeek-R1 的推理能力蒸馏到小型稠密模型中

DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

强化学习在推理任务中已展现出显著的有效性，这在论文先前的工作 (2024; 2023) 中得到了证明
- 但这些工作严重依赖监督数据，而收集这些数据非常耗时
在本节中，论文探索了 LLM 在没有任何监督数据的情况下发展推理能力的潜力，重点关注其通过纯强化学习过程进行的自我进化
论文首先简要概述论文的强化学习算法，随后展示一些令人兴奋的结果，并希望这能为研究社区提供有价值的见解

Reinforcement Learning Algorithm

Group Relative Policy Optimization, GRPO

为了节省强化学习的训练成本，论文采用了 GRPO (2024)
该方法省去了通常与策略模型大小相同的评论家模型，转而从组分数中估计基线
具体来说，对于每个问题 $q$，GRPO 从旧策略 $\pi_{\theta_{old} }$ 中采样一组输出 $\{o_{1},o_{2},\cdots,o_{G}\}$，然后通过最大化以下目标来优化策略模型 $\pi_{\theta}$：
$$
\mathcal{J}_{GRPO}(\theta)=\mathbb{E}_{[q\sim P(Q),\{o_{i}\}_{i=1}^{ G}\sim\pi_{\theta_{old} }(O|q)]} \frac{1}{G}\sum_{i=1}^{G}\left(\min\left(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old} }(o_{i}|q)}A_{i},\text{clip}\left(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old} }(o_{i}|q)},1-\varepsilon,1+\varepsilon\right)A_{i}\right)-\beta\mathbb{D}_{KL}\left(\pi_{\theta}||\pi_{ref}\right)\right),
$$
- 其中 $\varepsilon$ 和 $\beta$ 是超参数，$A_{i}$ 是优势函数，使用与组内每个输出对应的一组奖励 $\{r_{1},r_{2},\ldots,r_{G}\}$ 计算得出：
  $$
  A_{i}=\frac{r_{i}-\text{mean}(\{r_{1},r_{2},\cdots,r_{G}\})}{\text{std}(\{r_{1},r_{2},\cdots,r_{G}\})}.
  $$
KL 散度项 $\mathbb{D}_{KL}\left(\pi_{\theta}||\pi_{ref}\right)$ 定义为：
$$
\mathbb{D}_{KL}\left(\pi_{\theta}||\pi_{ref}\right)=\frac{\pi_{ ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)}-\log\frac{\pi_{ref}(o_{i}|q)}{\pi_{ \theta}(o_{i}|q)}-1.
$$

Reward Modeling

奖励是训练信号的来源，它决定了强化学习的优化方向
为了训练 DeepSeek-R1-Zero，论文采用了一个基于规则的奖励系统，主要包括两种类型的奖励：
- 准确性奖励 (Accuracy rewards) ：准确性奖励模型评估响应是否正确
  - 例如，对于具有确定性结果的数学问题，模型需要以指定格式（例如，在方框内）提供最终答案，从而能够基于规则可靠地验证正确性
  - 类似地，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈
- 格式奖励 (Format rewards) ：除了准确性奖励模型，论文还采用了一个格式奖励模型，强制模型将其思维过程放在 <think> 和 </think> 标签之间
在开发 DeepSeek-R1-Zero 时，论文没有使用基于结果的或基于过程的神经奖励模型（neural reward model）
- 因为论文发现神经奖励模型在大规模强化学习过程中可能遭受奖励破解（reward hacking）问题 ，并且重新训练奖励模型需要额外的训练资源，并使整个训练流程复杂化

Training Template

为了训练 DeepSeek-R1-Zero，论文首先设计了一个简单的模板，引导基础模型遵循论文指定的指令
如表 1 所示，该模板要求 DeepSeek-R1-Zero 先生成一个推理过程，然后是最终答案
论文有意将约束限制在这种结构格式上，避免任何特定于内容的偏见——例如强制进行反思性推理或推广特定的问题解决策略，以确保论文能够准确观察模型在强化学习过程中的自然进展

Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

Performance of DeepSeek-R1-Zero

图 2 描绘了 DeepSeek-R1-Zero 在 AIME 2024 基准测试上的性能随强化学习训练过程的变化轨迹
如图所示，随着强化学习训练的进行，DeepSeek-R1-Zero 表现出稳定且一致的性能提升
- AIME 2024 的平均 pass@1 分数显著增加，从最初的 15.6% 跃升至令人印象深刻的 71.0%，达到了与 OpenAI-o1-0912 相当的性能水平
- 这一显著改进凸显了论文的强化学习算法在随时间优化模型性能方面的有效性
- 注：图 2 中 cons@k 是多数投票的结果（cons 表示 consensus，即共识）：详情见 NLP——技术报告解读-DeepSeek-R1-Supplements
表 2 提供了 DeepSeek-R1-Zero 与 OpenAI 的 o1-0912 模型在各种推理相关基准测试上的比较分析
- 研究结果表明，强化学习使 DeepSeek-R1-Zero 能够在不需要任何监督微调数据的情况下获得强大的推理能力
- 这是一个值得注意的成就，因为它强调了模型仅通过强化学习就能有效学习和泛化的能力
此外，通过应用多数投票（majority voting），可以进一步增强 DeepSeek-R1-Zero 的性能
- 例如，在 AIME 基准测试上使用多数投票时，DeepSeek-R1-Zero 的性能从 71.0% 提升至 86.7%（图 2 中 cons@16 的结果），从而超过了 OpenAI-o1-0912 的性能
- DeepSeek-R1-Zero 在有和没有多数投票的情况下都能实现如此有竞争力的性能，这突显了其强大的基础能力及其在推理任务中进一步发展的潜力

Self-evolution Process of DeepSeek-R1-Zero

DeepSeek-R1-Zero 的自我进化过程是一个迷人的演示（demonstration），展示了强化学习如何驱动模型自主提高其推理能力
- 通过直接从基础模型启动强化学习，我们可以在不受监督微调阶段影响的情况下密切监控模型的进展
- 这种方法清晰地展示了模型随时间演变的过程，特别是在其处理复杂推理任务的能力方面
如图 3 所示，DeepSeek-R1-Zero 的思考时间在整个训练过程中持续改善
- 这种改进不是外部调整的结果，而是模型内部的内在发展
- DeepSeek-R1-Zero 自然地获得了通过利用延长的测试时间计算来解决日益复杂的推理任务的能力
- 这种计算范围从生成数百到数千个推理 Token，使模型能够更深入地探索和完善其思维过程
这种自我进化最显著的方面之一是随着测试时间计算的增加而出现的复杂行为
- 诸如反思（模型重新审视和重新评估其先前步骤）以及探索替代性问题解决方法等行为自发产生
- 这些行为不是显式编程的，而是模型与强化学习环境交互的结果
- 这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够更高效、更准确地应对更具挑战性的任务

Aha Moment of DeepSeek-R1-Zero

在 DeepSeek-R1-Zero 的训练过程中观察到一个特别有趣的现象是 “顿悟时刻”（aha moment） 的出现
如表 3 所示，这个时刻发生在模型的一个中间版本中
- 在此阶段，DeepSeek-R1-Zero 学会了通过重新评估其初始方法为问题分配更多的思考时间
- 这种行为不仅证明了模型不断增长的推理能力，也是强化学习如何导致意外和复杂结果的一个引人入胜的例子
这个时刻不仅是模型的“顿悟时刻”，对观察其行为的研究人员来说也是如此
- 它强调了强化学习的力量和美感：论文不是明确地教导模型如何解决问题，而是简单地提供正确的激励，它就会自主地发展出高级的问题解决策略
- “顿悟时刻”有力地提醒论文强化学习在人工智能系统中解锁新智能水平的潜力，为未来更自主和自适应的模型铺平道路
个人理解：后面的一些文章逐步分析并证明，一些顿悟时刻实际上并不是一个突然发生的过程，而是逐步发生的，只是在特定任务上看起来像是突然发生一样

DeepSeek-R1-Zero 的缺点 (Drawback of DeepSeek-R1-Zero)**

尽管 DeepSeek-R1-Zero 表现出强大的推理能力并自主发展出意想不到的强大推理行为，但它也面临几个问题
- DeepSeek-R1-Zero 存在可读性差和语言混合等挑战
为了使推理过程更具可读性并与开放社区分享，论文探索了 DeepSeek-R1，这是一种利用强化学习和对人类友好的冷启动数据的方法

DeepSeek-R1: Reinforcement Learning with Cold Start

受 DeepSeek-R1-Zero 有希望的结果的启发，两个自然的问题出现了：
- 1）通过加入少量高质量数据作为冷启动，能否进一步提高推理性能或加速收敛？
- 2）论文如何训练一个用户友好的模型，不仅能产生清晰连贯的思维链（CoT），还能展现出强大的通用能力？
为了解决这些问题，论文设计了一个训练 DeepSeek-R1 的流程
- 该流程包括四个阶段，概述如下文所示
补充：来自其他博主制作的非常好的 DeepSeek-R1 训练过程：
- 注意：根据 DeepSeek-V3 辅助材料给出的结论，下图中存在问题（已补充），DeepSeek-R1 和 DeepSeek-R1-Zero 均是从 DeepSeek-V3-Base 训练而来，图中给的是 DeepSeek-V3 (这是 DeepSeek-V3-Base 的微调版本)；部分训练数据（监督微调数据中的非推理类数据）确实来源于 DeepSeek-V3

Cold Start

与 DeepSeek-R1-Zero 不同，为了防止从基础模型开始强化学习训练时早期不稳定的冷启动阶段，对于 DeepSeek-R1，论文构建并收集了少量长思维链（CoT）数据来微调模型，微调后的模型作为初始的强化学习 Actor
为了收集此类数据，论文探索了几种方法：
- 使用带有长 CoT 示例的少样本提示（few-shot prompting），直接提示模型生成带有反思和验证的详细答案，以可读格式收集 DeepSeek-R1-Zero 的输出，以及通过人工标注员的后处理来细化结果
在这项工作中，论文收集了数千个冷启动数据来微调 DeepSeek-V3-Base，作为强化学习的起点
与 DeepSeek-R1-Zero 相比，冷启动数据的优势包括：
- 可读性 (Readability) ：DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读
  - 响应可能混合多种语言或缺乏用于向用户突出显示答案的 markdown 格式
  - 在为 DeepSeek-R1 创建冷启动数据时，论文设计了一种可读的模式 ，包括在每个响应末尾进行总结 ，并过滤掉对读者不友好的响应
  - 在这里，论文将输出格式定义为 $|$special_token$|$$<$reasoning_process$>$$|$special_token$|$$<$summary$>$，其中推理过程是针对查询的 CoT，而总结（summary）用于总结推理结果
- 潜力 (Potential) ：通过利用人类先验知识精心设计冷启动数据的模式，论文观察到相对于 DeepSeek-R1-Zero 更好的性能
  - 作者相信，对于推理模型来说，迭代训练（iterative training）是一种更好的方式

Reasoning-oriented Reinforcement Learning

在基于冷启动数据对 DeepSeek-V3-Base 进行微调之后，论文应用了与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程
此阶段侧重于增强模型的推理能力 ，特别是在编码、数学、科学和逻辑推理等推理密集型任务中，这些任务涉及具有明确解决方案的明确定义的问题
在训练过程中，论文观察到 CoT 经常出现语言混合 ，特别是当强化学习提示涉及多种语言时
- 为了缓解语言混合问题，论文在强化学习训练期间引入了语言一致性奖励（language consistency reward），该奖励计算为 CoT 中目标语言单词的比例
- 尽管消融实验表明这种对齐会导致模型性能略有下降 ，但这种奖励符合人类偏好，使其更具可读性
- 问题：CoT 不需要让人可以阅读吧？
论文通过直接求和将推理任务的准确性和语言一致性奖励结合起来，形成最终奖励
论文在微调后的模型上应用强化学习训练，直到其在推理任务上达到收敛

Rejection Sampling and Supervised Fine-Tuning

当面向推理的强化学习收敛时，论文利用得到的检查点来为后续轮次收集 SFT 数据
与主要关注推理的初始冷启动数据不同，此阶段合并了来自其他领域的数据 ，以增强模型在写作、角色扮演和其他通用任务中的能力
具体来说，论文按照下述方式生成数据并微调模型（分推理数据和非推理数据）

Reasoning data

论文策划（curate）推理提示词（prompts），并通过从上述强化学习训练的检查点执行拒绝采样（rejection sampling）来生成推理轨迹（trajectories）
在前一阶段，论文只包含了可以使用基于规则的奖励进行评估的数据
在此阶段，论文通过合并额外的数据来扩展数据集，其中一些数据使用生成式奖励模型，通过将真实值（ground-truth）和模型预测输入到 DeepSeek-V3 中进行判断
由于模型输出有时混乱且难以阅读，论文过滤掉了具有混合语言、长段落和代码块的思维链
对于每个提示，论文采样多个响应，并仅保留正确的响应
总共，论文收集了约 60 万个与推理相关的训练样本

Non-Reasoning data

对于非推理数据，例如写作、事实问答（factual QA）、自我认知（self-cognition）和翻译，论文采用 DeepSeek-V3 的流程并重用部分 DeepSeek-V3 的监督微调数据集
对于某些非推理任务，论文调用 DeepSeek-V3，通过在回答问题时进行提示来生成潜在的思维链
但对于更简单的查询 ，例如“你好”，论文不提供 CoT 响应
最终，论文总共收集了约 20 万个与推理无关的训练样本
论文使用上述策划的大约 80 万个样本的数据集 ，对 DeepSeek-V3-Base 进行了两个轮次（epochs）的微调
- 注：这个 2 个 epochs 的设定和大约 100W 样本的微调量级，已经成为后来一些文章的标配

Reinforcement Learning for all Scenarios

为了进一步使模型与人类偏好对齐，论文实施了第二轮强化学习阶段，旨在提高模型的有用性（helpfulness）和无害性（harmlessness） ，同时完善其推理能力
论文结合使用奖励信号和多样化的提示词分布（diverse prompt distributions）来训练模型
- 对于推理数据：
  - 论文遵循 DeepSeek-R1-Zero 中概述的方法论，该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程
- 对于通用数据
  - 论文用奖励模型来捕捉复杂和细微场景中的人类偏好
    - 论文基于 DeepSeek-V3 的流程，并采用了类似的偏好对（preference pairs）和训练提示词分布
  - 对于有用性，论文只关注最终总结（summary），确保评估强调响应对于用户的实用性和相关性，同时最小化对底层推理过程的干扰
  - 对于无害性，论文评估模型的整个响应，包括推理过程和总结，以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容
  - 最终，奖励信号和多样化数据分布的整合使论文能够训练出一个在推理方面表现出色，同时优先考虑有用性和无害性的模型

Distillation: Empower Small Models with Reasoning Capability

为了让更高效的小型模型具备像 DeepSeek-R1 一样的推理能力，论文直接使用 DeepSeek-R1 策划的 80 万个样本（详见章节2.3.3）对开源模型如 Qwen 和 Llama 进行了微调
论文的研究结果表明，这种简单的蒸馏方法显著增强了小型模型的推理能力
论文这里使用的基础模型是 Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B 和 Llama-3.3-70B-Instruct
- 论文选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1
- 问题：为什么 70B 量级的模型，选择的不是 Qwen2.5-72B-Instruct ？
对于蒸馏模型 ，论文仅应用了 SFT ，没有包含 RL 阶段 ，尽管加入强化学习可以大幅提升模型性能
- 论文这里的主要目标是证明蒸馏技术的有效性 ，将强化学习阶段的探索留给更广泛的研究社区

Experiment

Benchmarks

标准测试基准方面：
- 论文在 MMLU (2020)、MMLU-Redux (2024)、MMLU-Pro (2024)、C-Eval (2023)、CMMLU (2023)、IFFval (2023)、FRAMES (2024)、GPQA Diamond (2023)、SimpleQA (OpenAI)、C-SimpleQA (2024)、SWE-Bench Verified (OpenAI, 2024d)、Aider、LiveCodeBench (2024) (2024-08 - 2025-01)、Codeforces、中国高中数学奥林匹克竞赛（Chinese National High School Mathematics Olympiad, CNMO 2024）和美国数学邀请赛 2024（American Invitational Mathematics Examination 2024, AIME 2024）(MAA, 2024) 上评估模型
除了标准基准测试外，论文还使用 LLM 作为评判者，在开放式生成任务上评估论文的模型
- 论文遵循 AlpacaEval 2.0 (2024) 和 Arena-Hard (2024) 的原始配置，它们利用 GPT-4-Turbo-1106 作为配对比较的评判者
- 在这里，论文仅将最终摘要提供给评估，以避免长度偏差
- 对于蒸馏模型，论文报告了在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上的代表性结果

Evaluation Prompts

遵循 DeepSeek-V3 的设置，使用 simple-evals 框架提供的提示来评估标准基准测试，如 MMLU、DROP、GPQA Diamond 和 SimpleQA
对于 MMLU-Redux，论文在零样本（zero-shot）设置中采用 Zero-Eval 提示格式 (2024)
对于 MMLU-Pro、C-Eval 和 CLUE-WSC，由于原始提示是少样本（few-shot）的，论文略微修改了提示以适应零样本设置
- 少样本中的思维链（CoT）可能会损害 DeepSeek-R1 的性能
- 问题：这里怎么理解？
其他数据集遵循其创建者提供的默认提示的原始评估协议
对于代码和数学基准测试
- HumanEval-Mul 数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash）
- 使用 CoT 格式评估模型在 LiveCodeBench 上的性能，数据收集时间为 2024 年 8 月至 2025 年 1 月
- 使用 10 场 Div.2 比赛的题目以及专家精心设计的测试用例来评估 Codeforces 数据集，然后计算预期评分和参赛者百分比
- 通过无代理框架（agentless framework）(2024) 获得 SWE-Bench 验证结果
- 使用“diff”格式衡量 AIDER 相关基准测试
DeepSeek-R1 的输出在每个基准测试中最多限制为 32,768 个 Token

Baselines

论文对多个强基线模型进行了全面评估，包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217
由于在中国大陆访问 OpenAI-o1-1217 API 具有挑战性，论文根据官方报告报告其性能
对于蒸馏模型，论文还比较了开源模型 QwQ-32B-Preview (Qwen)

Evaluation Setup

论文将模型的最大生成长度设置为 32,768 个 Token
论文发现使用贪婪解码（greedy decoding）来评估长输出推理模型会导致更高的重复率和不同检查点之间的显著变异性
- 因此，论文默认使用 pass@$k$ 评估 (2021)，并使用非零温度（non-zero temperature）报告 pass@1
- 理解：零温度表示贪婪解码
具体来说，论文使用采样温度 0.6 和 top-$p$ 值 0.95 为每个问题生成 $k$ 个回复（通常在 4 到 64 之间，取决于测试集大小）。然后 pass@1 计算为
$$
\text{pass@}1=\frac{1}{k}\sum_{i=1}^{k}p_{i}
$$
- 其中 $p_{i}$ 表示第 $i$ 个回复的正确性
- 这种方法提供了更可靠的性能估计
对于 AIME 2024，论文还使用 64 个样本报告了共识（consensus），即多数投票（majority vote）结果 (2022)，记为 cons@64

DeepSeek-R1 Evaluation

评估结果如表 4 所示：
对于面向教育的知识基准测试，如 MMLU、MMLU-Pro 和 GPQA Diamond，DeepSeek-R1 相较于 DeepSeek-V3 展现出更优越的性能
- 这一改进主要归功于通过大规模强化学习在 STEM 相关问题上准确率的显著提升
DeepSeek-R1 在 FRAMES（一个依赖长上下文的问答任务）上表现卓越，展示了其强大的文档分析能力
- 这凸显了推理模型在 AI 驱动的搜索和数据分析任务中的潜力
在事实性基准测试 SimpleQA 上，DeepSeek-R1 的表现优于 DeepSeek-V3，证明了其处理基于事实的查询的能力
- OpenAI-o1 在该基准测试上超越 GPT-4o 也观察到了类似的趋势
- 由于在安全强化学习（safety RL）后倾向于拒绝回答某些查询 ，DeepSeek-R1 在中文 SimpleQA 基准测试上的表现不如 DeepSeek-V3
- 若没有安全强化学习，DeepSeek-R1 的准确率可以超过 70%
DeepSeek-R1 在 IF-Eval（一个旨在评估模型遵循格式指令能力的基准测试）上也取得了令人印象深刻的结果
- 这些改进可以归因于在 SFT 和强化学习训练的最后阶段包含了遵循指令的数据
在 AlpacaEval2.0 和 ArenaHard 上观察到了卓越的性能，表明 DeepSeek-R1 在写作任务和开放域问答方面的优势
- 其显著超越 DeepSeek-V3 的表现凸显了大规模强化学习的泛化益处，它不仅提升了推理能力，还提高了跨不同领域的性能
- 特别地，DeepSeek-R1 生成的摘要长度简洁，在 ArenaHard 上平均为 689 个 Token，在 AlpacaEval 2.0 上平均为 2218 个字符
  - 这表明 DeepSeek-R1 在基于 GPT 的评估中避免了引入长度偏差，进一步巩固了其在多项任务中的鲁棒性
在数学任务和编码算法任务（如 LiveCodeBench 和 Codeforces）上，DeepSeek-R1 表现出与 OpenAI-o1-1217 相当的性能，大幅超越其他模型
- 专注于推理的模型在这些基准测试中占据主导地位
特别地，在面向工程的编码任务上 ，OpenAI-o1-1217 在 Aider 上优于 DeepSeek-R1 ，但在 SWE Verified 上取得了相当的性能
- 作者认为 DeepSeek-R1 的工程性能将在下一个版本中得到改善，因为目前相关的强化学习训练数据量仍然非常有限

Distilled Model Evaluation

如表 5 所示
- 仅通过蒸馏 DeepSeek-R1 的输出，高效的 DeepSeek-R1-7B（即 DeepSeek-R1-Distill-Qwen-7B，下文类似缩写）就能全面超越如 GPT-4o-0513 这样的非推理模型
- DeepSeek-R1-14B 在所有评估指标上均超越了 QwQ-32B-Preview，而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试上显著超过了 o1-mini
- 这些结果展示了蒸馏的强大潜力
论文发现对这些蒸馏模型应用强化学习能带来显著的进一步增益
- 作者认为这值得进一步探索，因此在此仅展示简单 SFT 蒸馏模型的结果

Discussion

Distillation v.s. Reinforcement Learning

在 3.2 节中，我们可以看到通过蒸馏 DeepSeek-R1，小模型能够取得令人印象深刻的结果
- 但还有一个问题悬而未决：模型能否不通过蒸馏，而是通过论文讨论的大规模强化学习训练达到相当的性能？
为了回答这个问题，论文在 Qwen-32B-Base 上使用数学、代码和 STEM 数据进行了大规模强化学习训练，训练超过 10K 步，得到了 DeepSeek-R1-Zero-Qwen-32B
实验结果如表 6 所示，表明 32B 基础模型在经过大规模强化学习训练后，性能与 QwQ-32B-Preview 相当
- 但从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试上的表现均显著优于 DeepSeek-R1-Zero-Qwen-32B
因此，我们可以得出两个结论：
- 首先，将更强大的模型蒸馏到较小的模型中能产生优异的结果 ，而依赖论文提到的大规模强化学习的小模型需要巨大的计算能力 ，甚至可能无法达到蒸馏的性能
- 其次，虽然蒸馏策略既经济又有效 ，但要突破智能的边界可能仍然需要更强大的基础模型和更大规模的强化学习

Unsuccessful Attempts

在开发 DeepSeek-R1 的早期阶段，论文也遇到了一些失败和挫折
- 论文在此分享论文的失败经验以提供见解，但这并不意味着这些方法无法开发出有效的推理模型

Process Reward Model， PRM

PRM 是一种合理的方法，可以指导模型采用更好的方法来解决推理任务 (2023; 2022;)；但在实践中，PRM 有三个主要局限性可能阻碍其最终成功
- 第一，在通用推理中明确定义细粒度的步骤具有挑战性
- 第二，判断当前中间步骤是否正确是一项艰巨的任务
  - 使用模型进行自动标注可能无法产生令人满意的结果，而手动标注不利于扩大规模
- 第三，一旦引入基于模型的 PRM，就不可避免地会导致奖励黑客攻击（reward hacking）(2022)
  - 并且重新训练奖励模型需要额外的训练资源，并使整个训练流程复杂化
总之，虽然 PRM 在重排模型生成的 top-N 响应或辅助引导式搜索 (2024) 方面表现出良好的能力，但在论文实验的大规模强化学习过程中，与其引入的额外计算开销相比，其优势有限
- 问题：如何理解 PRM 在重排模型生成的 top-N 响应或辅助引导式搜索 方面表现出良好的能力？

Monte Carlo Tree Search，MCTS

受 AlphaGo (2017a) 和 AlphaZero (2017b) 的启发，论文探索了使用蒙特卡洛树搜索（MCTS）来增强测试时计算的可扩展性
MCTS 方法涉及将答案分解成更小的部分，以便模型能够系统地探索解决方案空间
为了促进这一点，论文提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤
对于训练：
- 首先使用收集的提示，通过由预训练价值模型引导的 MCTS 来寻找答案
  - 理解：这里的价值模型决定了每次选择哪些节点进行扩展
- 随后使用产生的问题-答案对来训练行动者模型和价值模型，并迭代地改进这个过程
但这种方法在扩大训练规模时遇到了几个挑战
- 首先，与搜索空间相对明确的象棋不同，Token 生成呈现出一个指数级更大的搜索空间
  - 为了解决这个问题，论文为每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优
- 其次，价值模型直接影响生成的质量，因为它指导搜索过程的每一步
  - 训练一个细粒度的价值模型本身就很困难，这使得模型难以迭代改进
  - 虽然 AlphaGo 的核心成功依赖于训练一个价值模型来逐步提高其性能，但由于 Token 生成的复杂性，这一原则在论文的设置中难以复制
总之，虽然 MCTS 在与预训练价值模型配对时可以在推理过程中提高性能，但通过自我搜索迭代地提升模型性能仍然是一个重大挑战

Conclusion, Limitations, and Future Work

在本工作中，论文分享了通过 RL 来增强模型推理能力的探索历程
- DeepSeek-R1-Zero 代表了一种不依赖冷启动数据（cold-start data）的纯强化学习方法，在各种任务上均取得了强劲的性能
- DeepSeek-R1 更加强大，它利用了冷启动数据以及迭代式的强化学习微调
- 最终，DeepSeek-R1 在一系列任务上达到了与 OpenAI-o1-1217 相当的性能
论文进一步探索了将推理能力蒸馏（distillation）到小型稠密模型（small dense models）中的方法
- 论文使用 DeepSeek-R1 作为教师模型（teacher model）来生成 80 万条训练样本，并对多个小型稠密模型进行了微调
- 结果令人鼓舞：
  - DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中超越了 GPT-4o 和 Claude-3.5-Sonnet，在 AIME 上达到了 28.9%，在 MATH 上达到了 83.9%
  - 其他稠密模型也取得了令人印象深刻的结果，显著超越了基于相同底层检查点（underlying checkpoints）的其他指令微调模型（instruction-tuned models）
未来，论文计划在以下几个方向为 DeepSeek-R1 投入研究
- 通用能力 (General Capability)：
  - 目前，DeepSeek-R1 在函数调用（function calling）、多轮对话（multi-turn）、复杂角色扮演（complex role-playing）和 JSON 输出等任务上的能力尚不及 DeepSeek-V3
  - 接下来，论文计划探索如何利用长思维链（long Chain-of-Thought, CoT）来增强这些领域的任务
- 语言混合 (Language Mixing)：
  - DeepSeek-R1 目前针对中文和英文进行了优化，这可能导致在处理其他语言的查询时出现语言混合问题
  - 例如，即使用户查询使用的不是英文或中文，DeepSeek-R1 也可能使用英文进行推理和回复
  - 论文旨在未来的更新中解决这一局限性
- 提示工程 (Prompting Engineering)：
  - 在评估 DeepSeek-R1 时，论文观察到它对 Prompts 很敏感
  - 少样本提示（few-shot prompting）consistently 会降低其性能
  - 因此，论文建议用户在使用零样本（zero-shot）设置时直接描述问题并指定输出格式 ，以获得最佳结果
- 软件工程任务 (Software Engineering Tasks)：
  - 由于评估时间较长，影响了强化学习过程的效率，大规模强化学习尚未广泛应用于软件工程任务
  - 因此，DeepSeek-R1 在软件工程基准测试中并未显示出相对于 DeepSeek-V3 的巨大改进
  - 未来的版本将通过对软件工程数据实施拒绝采样（rejection sampling），或在强化学习过程中引入异步评估（asynchronous evaluations）来提高效率，从而解决这一问题

NLP——Model-Growth-Initialization

整体说明

模型增长初始化（Model Growth Initialization，MGI）是一种让大模型在不从头开始训练的前提下迅速“长大”并具备良好初始性能的技术
Model Growth Initialization 的核心思想是：先训练一个小模型，然后在深度或宽度上扩展成更大的模型（如增加层数、宽度或专家数量），并把小模型已学到的知识完整复用到大模型里 ，从而显著节省训练成本、提升收敛速度
TLDR：Model Growth Initialization 就是“把小模型当预制件，复制粘贴成大模型，再微调”，用最小的算力让大模型站在小模型的肩膀上起跑
一个通俗的比喻：可以把模型训练比作盖楼：
- 传统做法 ：平地起高楼，从地基开始逐层盖（随机初始化）
- MGI 做法 ：先盖一栋“小楼”并装修完毕，然后把整栋小楼连同装修一起复制+堆叠 ，瞬间变成一栋“大厦”，再只对新增部分做微调

Background

直接训练千亿参数的大模型成本极高（如 Llama-3 需消耗 770 万 GPU 小时），而 Model Growth Initialization 通过复用小模型的知识，显著降低计算成本
- 例如，使用已训练的 7B 模型初始化 30B 模型时，可减少约 50% 的训练时间

结构扩展策略

模型扩展通常分为三类：
- 深度扩展 ：增加 Transformer 层的数量
- 宽度扩展 ：增加神经元数量、头数或 FFN 维度（如 Net2Net 通过复制神经元并均分权重）
- 混合扩展 ：同时调整深度和宽度（在扩展层数的同时增加隐藏层维度）

参数初始化原则

扩展后的模型需保持与原模型行为一致 ，避免训练震荡
Model Growth Initialization 的初始化原则是确保模型在结构扩展（如增加层数、宽度或专家数量）后，既能继承原小模型的知识，又能保持训练稳定性（避免梯度爆炸/消失或性能骤降），同时为新参数提供合理的学习起点
这些原则的核心逻辑是：在“继承知识”与“学习新能力”之间找平衡
- 通过功能保留和身份映射确保模型初始稳定
- 通过部分保留和跨层传递实现精准知识迁移
- 通过优化器状态一致保证训练连续性

Function-Preserving Initialization, FPI 原则

让扩展后的大模型在初始状态下，对任意输入的输出与原小模型完全一致（或近似一致），实现“无损知识迁移”
避免扩展后模型“忘记”原有的能力，为后续训练提供稳定起点
通过精确的参数复制与调整，确保扩展后的模型计算逻辑与原模型等效
示例：
- 宽度扩展示例 ：若原模型某层有2个神经元（h1, h2），输出为 y = w1*h1 + w2*h2，扩展到3个神经元时，新增神经元h3的权重复制h2的参数，同时将w2拆分为w2/2和w2/2，使新输出 y = w1*h1 + (w2/2)*h2 + (w2/2)*h3 与原输出完全一致
- 深度扩展示例 ：新增 Transformer 层时，将其参数初始化为“恒等映射”（如自注意力的输出投影矩阵设为单位矩阵，偏置设为 0），确保新增层对输入不做任何修改，等效于原模型的计算流程（实际上就是后面要介绍的 IMI 方法）

Identity Mapping Initialization, IMI 方法

让新增的层/参数在初始状态下“不干扰”模型原有计算，仅在训练中逐步学习新功能
防止新增结构破坏原模型的优化状态（如损失函数突增），降低训练震荡风险
将新增组件的参数初始化为“中性值”，使其对模型输出的影响为零或极小
示例：
- 新增 Transformer 层 ：将多头注意力的输出权重矩阵初始化为单位矩阵（确保输入=输出），前馈网络（FFN）的中间层权重设为 0（使 FFN 等效于“跳过连接”）
- MoE 模型新增专家 ：将新专家的输入/输出投影权重初始化为0，使其在初始阶段不参与计算，仅通过训练逐步被激活
注：“自注意力输出投影矩阵设为单位矩阵、偏置设为 0” 的做法，本身是 Identity Mapping Initialization 的具体操作，因为它直接让该组件成为 “恒等变换”
- 但当这种操作被用于确保 “扩展后的整体模型与原模型功能一致” 时，它成为实现 FPI 的手段之一
注：FPI（是一个原则）保证新旧模型输出完全一样，而 IMI（是一种方法）只保证新增部分是恒等映射，不保证整体输出不变
- IMI 只保证新增部分是恒等映射，原始参数往往可能也会被修改

Optimizer State Consistency

确保扩展后的模型优化器（如Adam）状态与原模型兼容，避免训练进程中断
使扩展后的模型训练能“无缝衔接”原训练过程，减少重新收敛的时间
复用原模型的优化器参数（如动量、二阶矩估计），并对新增参数初始化合理的优化器状态
- 对复用的参数，直接继承原优化器的动量值，确保梯度更新方向与原训练一致；
- 对新增参数，将优化器的动量初始化为 0（或小值），避免其初期干扰整体更新节奏

附录：一些典型方法与技术细节

Net2Net：开创性的结构扩展框架

深度扩展（Net2DeeperNet） ：直接复制Transformer层（如将L层模型扩展为2L层），确保每层输入输出形状一致
宽度扩展（Net2WiderNet） ：新增神经元的权重复制相邻神经元，并调整输出权重使总和不变。例如，原输出为y = e*h1 + f*h2，扩展后变为y = e*h1 + (f/2)*h2 + (f/2)*h3

Stacking Your Transformers：深度堆叠优化

G_stack操作符 ：通过堆叠多个小模型（如 7B 到 70B），使大模型在 194B tokens 即可收敛到传统 300B tokens 的损失，速度提升 54.6%
增长规划（Growth Schedule） ：分阶段扩展模型，例如先训练 16B 模型，再逐步扩展至 101B，同时调整学习率和优化器状态

MoE 模型的扩展

Mixtral-8x7B ：从 Mistral-7B 初始化，直接复用其 FFN 层作为专家，并通过微调不同任务的 FFN 生成多样化专家
参数共享与隔离 ：专家层共享底层编码器参数，但各自保留独立的前馈网络，平衡效率与多样性

初始化策略的精细化设计

部分保留初始化（Partial Preservation Init） ：保留原模型部分层的参数，随机初始化新增层
交叉层知识传递（AKI） ：不仅考虑当前层参数，还结合下一层参数进行初始化

附录：MGI 中的 FPI 原则详细介绍

功能保留初始化（Function-Preserving Initialization，FPI） 特指通过精确的参数复制与调整，确保扩展后的大模型在初始状态下对任意输入的输出与原小模型完全一致（或高度近似），从而实现“无损知识迁移”
FPI 是模型增长初始化（Model Growth Initialization，MGI）中的关键要求

核心机制与示例

宽度扩展 ：当某层神经元数量从 2 个扩展到 3 个时，新增神经元的权重复制原模型中邻近神经元的参数，并通过权重拆分（如将原权重w拆分为w/2和w/2），使新输出与原输出完全一致。例如：
- 原模型：$ y = w_1 h_1 + w_2 h_2 $
- 扩展后模型：$ y = w_1 h_1 + (w_2/2) h_2 + (w_2/2) h_3 $
深度扩展 ：在新增 Transformer 层时，将其参数初始化为“恒等映射”，确保新增层对输入不做任何修改，等效于原模型的计算流程
- 如自注意力的输出投影矩阵设为单位矩阵可实现恒等映射
MoE 模型扩展
- 新增专家的输入/输出投影权重初始化为 0，使其在初始阶段不参与计算，仅通过训练逐步被激活，避免干扰原模型的优化状态

为什么 MGI 中需要 FPI？

降低训练震荡风险 ：通过确保扩展后的模型初始输出与原模型一致，避免损失函数突增或优化器状态中断
加速大模型收敛 ：复用小模型的知识，使大模型在训练初期即可继承成熟的特征提取能力，减少从头学习的时间成本

NLP——Not-Just-Scaling-Laws

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions, arXiv 20250525, CMU
- 代码和数据开源：https://anonymous.4open.science/r/llm-pretraining-behaviours-FE80/

Paper Summary

本论文首次对开源语言模型在不同任务上的性能进行了系统分析，将其性能与架构和数据等联系起来
- 但本文的分析存在一些不太严谨的地方，因为各个公司的实现方式可能是不一样的，比如基建或者各种配方的使用等
一般来说：语言模型能力的提升通常归因于模型规模或训练数据的增加
但在某些情况下：
- 使用精选数据训练的小模型或采用不同架构决策的模型 可以超越在更多 token 上训练的更大模型
- 引出问题：这是什么原因造成的呢？
为了量化这些设计选择的影响，论文对 92 个不同规模的开源预训练模型进行了元分析 (meta-analyze)，这些模型包括：
- SOTA 开源权重模型
- 性能较差的模型（less performant models）
- 采用非常规设计决策的模型（less conventional design decisions）
论文发现：
- 通过纳入除模型大小和训练 token 数量之外的特征 ，论文预测下游任务性能的能力相对提高了 3-28%
  - 注：这个提升是与仅使用规模特征相比
- 对模型设计决策的分析揭示了对数据构成的见解
  - 例如代码占比在 15-25% 时语言任务和代码任务之间的权衡，以及网络数据对真实性 (truthfulness) 的负面影响
论文的框架为更系统地研究模型开发选择如何塑造最终能力奠定了基础

Introduction and Discussion

语言模型训练的效果关键取决于预训练 (pretraining) 期间所做的决策
- 例如，扩展数据 (scaling up data) 的有效性取决于其构成
- 理解：即使处理了一万亿个 token，如果它们全部由单词 “the” 组成，那也是无效的
研究发现，语言模型的性能可以通过 Scaling Laws (2020, 第 2 节) 进行相当准确的预测
- 即基于模型参数数量和训练所用 token 数量对模型性能进行外推
但仅基于这两个方面的扩展定律并不总能解释下游任务性能 (2024; 2024)
研究界在理解训练决策如何影响下游性能方面已经取得了进展，特别是在数据构成方面。例如，对照研究 (controlled studies) 表明
- 在代码数据上训练可以提高在某些推理基准测试上的性能 (2024; 2024)；
- 数据的元特征 (meta-features)，如年龄和毒性过滤器 (toxicity filters) 的使用，会影响许多问答 (QA) 任务的性能 (2024)；
- 多语言数据的平衡会影响英语和其他语言的性能 (2023; 2025)
这些工作揭示了宝贵的见解，但它们往往只关注改变训练方案 (training recipe) 的单个方面，而保持其他方面不变
- 尽管严谨，但这在计算和开发时间上成本高昂
论文转而提出一个问题：论文能否利用过去来自开源语言模型的发现来检验训练决策如何共同影响下游性能？
为此，论文首先对来自不同系列的 92 个基础预训练 LM 的模型架构和数据相关的特征进行了 编目 (catalog) (章节3)
- 由此产生的模型特征数据库涵盖了 2019 年至 2024 年间发布的大多数主要的、原始的开源权重 Decoder-only 预训练模型
然后，论文开发了方法来预测这些模型在广泛基准测试上的性能
- 预测依据既包括传统的扩展因素，也包括架构决策和数据构成 (章节4)
具体来说，论文训练回归模型 (regression models)
- 模型输入：提取的特征
- 模型输出：预测基准测试结果
进一步使用模型可解释性技术 (model interpretability techniques) 来识别在做出这些预测时最显著的特征
论文在预测 12 个流行 LLM 基准测试的性能上评估了这种方法，并证明决定模型性能的 不仅仅是扩展 (not just scaling)
- 在所有基准测试上，包含所有特征的回归器 (regressor) 的性能都优于仅基于扩展模型特征的回归器 (章节5.1)
论文对特征重要性 (feature importance) 的分析揭示了数据领域 (data domains) 对任务性能的潜在影响，再次证实了经验性结果，例如预训练中使用代码的最佳比例 (章节5.2)
此外，论文发现从模型生成文本中提取的特征（例如问题相关词的频率或类似网络文本的比例），有助于预测各种基准测试的性能
- 这表明模型的生成模式可以反映其预训练数据中的潜在偏差 (underlying biases) ，进而影响下游性能
通过记录整个社区训练的开源模型并提取见解，论文为模型开发者提供了一个实用的资源，以从集体经验中学习
论文在 (章节8) 中讨论了这一点以及未来的工作

Scaling Laws

Definition

论文在此将扩展定律定义为语言模型系列的参数数量 $N$ 和 token 数量 $D$ 与收敛时期望的语言建模损失 $L(N,D)$ 之间的关系
重要的是，这些定律通常是在保持所有其他因素不变的情况下进行研究的：
- 保持相同的模型架构、训练数据和模型参数
最初，Kaplan 等 (2020) 表明，在广泛的基于 Transformer 的模型中，这种关系可以表示为幂律 (power law)：
$$L(N,D)=\left(\left(\frac{N_{c} }{N}\right)^{\frac{\alpha_{N} }{\theta_{D} } }+\frac{ D_{c} }{D}\right)^{\alpha_{D} }$$
后来，Hoffmann 等 (2022a) 提出了一个类似的定律，其拟合的系数不同，但同样基于幂律
但扩展定律并非绝对，其确切函数形式和拟合系数可能取决于架构类型、规模范围 (Pearce and Song, 2024) 或其他考虑因素，如推理成本 (inference costs)
更多讨论请参见 (章节7.2)

Maybe it’s Not Just Scaling?

参数数量和训练 token 数量真的是准确预测模型下游性能所需的全部吗？直觉上答案是否定的
模型训练涉及许多设计决策，所有这些都可能对模型性能产生影响
模型架构细节 (Model Architecture Details)
- 虽然大多数现代语言模型都遵循 Transformer 架构，但存在一些细节差异
  - 例如，层归一化 (layer normalization) 的种类 (2019) 和位置 (2020)，以及位置编码 (positional encoding) 的类型 (2021; 2022) 都会对模型性能产生显著差异
- 先前的工作，例如 Gu and Dao (2023)，已经凭经验证明，在保持所有其他因素相等的情况下，做出更好架构决策的模型 (2023a) 优于做出更差决策的模型 (2017)
数据构成 (Data Composition)
- 数据构成和质量在模型的最终质量中起着重要作用
  - 例如，过去的工作表明，训练一定数量的代码可以提高英语推理任务的性能 (2023)
- 同样，有工作表明，筛选“教育”内容可以实现更高效的学习，并在基于知识的问答任务上获得更高的性能 (2023)
Task Setting
- 最后，所有上述因素与模型性能的衡量方式之间存在相互作用
- 虽然先前关于扩展定律的工作主要测量损失值，但下游用户通常关心的是任务性能，而不是预训练数据集上的验证损失 (validation loss)
- 尽管对于许多任务来说，两者之间通常存在相关性，但某些任务可能更难仅从模型的损失来预测 (2024)
- 此外，某些任务表现出异常的扩展行为，例如反向扩展 (inverse scaling) 或 U 型扩展 (U-shaped scaling) (2023; 2023; 2024)，或者仅仅是更不可预测的性能 (2024)
论文提问：论文能否通过设计一套新的、不仅仅依赖于基于扩展的因素的“定律”来更有效地预测 LLM 的性能？

Building a Database of Publicly-Available Language Models

为了解决论文的研究问题，论文构建了一个包含 11M 到 110B 参数的公开可用语言模型的数据库（包括嵌入参数），仅限于不同的 Decoder-only 基础预训练模型
- 注：不同是指训练数据和架构的独特组合。在去重数据集上训练的模型被单独计数，但具有不同课程/初始化的变体不计入
本节描述了论文的纳入标准、模型特征化以及评估方法

Data Collection

为了确保论文的分析是一致的，论文应用了以下标准：
Pretrained-only：
- 仅包含从头开始预训练的基础模型，排除了微调变体、合并模型以及经过额外后训练的模型
Architecture：
- 仅包含基于 Transformer 的 Decoder-only 模型以保持一致性
- 排除了 MoE 或其他架构
Publicly available information：
- 仅包含具有公开可用元数据的模型，这些元数据通过配置文件或论文记录
- 特别是，纳入需要总参数数量和训练所用总 token 数量这两个信息
- 模型和模型系列的完整列表可在附录A 中找到

Characterizing Models and Data

论文通过每个模型所做的架构选择以及其预训练数据的选择来表示每个模型
形式上，令 $\mathcal{A}$ 为与模型架构相关的特征集合， $\mathcal{D}$ 为与模型预训练数据集相关的特征集合
对于每个任务 $T$ ，作者希望用预测值 $\widehat{s_{T} }$ 来近似模型 $M$ 的真实得分 $s_{T}$ ：
$$\widehat{s_{T} }(M)=f_{\theta}([\mathcal{A}_{M};\mathcal{D}_{M}]).$$
当 $\mathcal{A}=\{\#\text{params}\}$ ，$\mathcal{D}=\{\#\text{tokens}\}$ ，且 $f_{\theta}$ 是幂律时，这就简化为典型的扩展定律
论文总共记录了 92 个开放模型，涵盖模型特征、高层数据集特征以及从该模型的无上下文生成中派生出的特征等维度
有关完整的特征集和定义，请参见附录B

Features from Model Documentation

论文首先通过阅读源论文/博客（如有，请参见附录A了解原始引用）以及在 Hugging Face Hub (2020) 上列出的数据来收集每个模型的信息
Architectural Features：
- 这些特征捕获了决定模型结构的设计决策
- 例如，总参数（包括嵌入参数）、Transformer层数、嵌入和前馈维度，以及细节，例如使用的层归一化类型或注意力变体
Data Features：
- 这些特征总结了预训练数据的组成
- 代表性示例包括训练所用的总 token 数以及来自图2中定义的各个领域的 token 百分比细分，以及英语 token 的比例
- 论文的预训练数据领域源自开放预训练数据集(2020; 2024)中常见的子领域
- 论文使用顶级领域（网络、代码、书籍、参考、学术），因为这往往是论文中描述数据组成的粒度

Exploring Data Composition via Generation

尽管许多模型记录了一些数据组成细节，但相对较少的模型发布了其完整的预训练语料库，导致论文研究中许多模型的这些值缺失
为了填补这些空白，论文探索了一种替代方法：
- 分析模型在无提示情况下生成的文本，以估计其训练数据的特征
- 论文假设模型的生成风格和内容反映了其训练数据的分布
- 对于每个模型，论文使用温度 $T=0.8$ 和 top-p $p=0.9$ 的核采样生成 5k-10k 个无上下文的生成文本（每个生成文本最多 256 个 token）
- 然后，论文使用标准 NLP 工具和基于 LM 的分类器从这些生成文本中提取语言学和领域特征
- 论文在附录E和F中验证了这种方法
论文还提取了 low-level 语言特征，例如每句词数（words per sentence）、成分树深度（constituency tree depth）和依存长度（dependency length）
- 论文的验证分析（附录G）表明：
  - 领域层级特征与实际预训练数据构成具有较强的相关性
    - 例如，网页内容相关性：$r = 0.916$，$p = 7.55 \times 10^{-12}$），
  - low-level 风格特征的相关性较弱
- 然而，所有特征的整体 Model-level 相关性表现强劲（通常 $r > 0.8$）
- 这一结果支持我们将“自由生成内容”（free-generations）用作预训练数据构成的替代指标（proxies），同时也说明不能用自由生成特征替代预训练特征
注：一些关键术语补充说明：
- constituency tree depth（成分树深度） ：句法分析中的核心概念，指“成分树”（用于表示句子句法结构的树形图，如主谓、动宾等成分的层级关系）从根节点到最深叶节点的路径长度，反映句子句法结构的复杂程度
- dependency length（依存长度） ：依存句法分析中的指标，指句子中两个存在依存关系的词语（如中心词与修饰词）在文本序列中的距离，常用来衡量句子结构的线性复杂度

Evaluation Datasets and Metrics

为评估设计选择对推理能力的影响，我们在 Open LLM 排行榜（2024）的数据集上对模型进行了测评，这些数据集涵盖了推理能力的多个不同维度（见表 1）
- 其中，部分模型的测评结果直接从该排行榜获取；
- 对于未列入该排行榜的模型，我们使用 Eleuther LM 评估工具包（2023），在完全相同的设置下开展测评
- 此外，若某项任务或子任务存在多个版本，我们会对所有版本均进行测评，并通过求平均值得到该任务的整体得分
- 有关评估数据集及测评设置的完整列表，详见附录 C
对于评估数据集 $T$ ，其中第 $i$ 个样本是 $y_{i}$ ，模型为 $M$ ，论文如下定义 $s_{T}(M)$ ：
准确率(Accuracy) ：对于大多数任务，论文使用未归一化的精确匹配准确率
$$ s_{T,\text{acc} }=\frac{1}{|T|}\sum_{i=1}^{|T|}\mathbb{I}\{y_{i}=\hat{y}_{i}\} $$
- 对于 Humaneval，论文使用 pass@1，但为方便起见，将其与准确率任务归为一组
Brier分数(Brier score) 对于较小模型难以达到非零准确率的任务，论文遵循(2023)的做法，使用多类 Brier 分数作为多项选择任务的替代连续指标(1950) (注意：对于 Brier 分数来说，值越低越好，多类 Brier 分数范围在 0-2 之间)
- 对于一个有 $K$ 个类别的任务，令 $p_{ik}$ 为样本 $i$ 上类别 $k$ 的预测概率。则
  $$ s_{T,BS}=\frac{1}{|T|}\sum_{i=1}^{|T|}\sum_{k=1}^{K}(p_{ik}-\mathbb{I}\{y_{i}=k\})^{2} $$

异质性(Heterogeneity) in Task-specific Scaling

在加入其他因素之前，作者检查了所选任务之间沿 $N$ 和 $D$ 扩展的差异
论文为每个任务拟合了一个(2020)风格的定律
如图3所示，论文看到不同的任务在遵循扩展趋势的程度以及它们各自的扩展轮廓上可能表现出显著差异
例如，TruthfulQA 似乎表现出 U 形扩展，而 Humaneval 有更多的“异常值”模型
任务的 $R^{2}$ 值完整列表可在附录D 中找到

Predictive Modeling

接下来，给定论文的数据库，论文拟合一个回归器来尝试预测性能
在传统的扩展定律中，回归器是基于幂律拟合的
然而，论文现在要处理大量特征，其中一些可能无法通过简单的参数形式很好地捕捉
因此，论文遵循先前关于性能预测的工作(2020; 2021)，利用基于 XGBoost (2016)的树形回归器
- 论文还试验了LightGBM (2017)，发现其性能相似。结果见附录K
对于每个评估基准，训练一个模型 ，以基于架构特征 $\mathcal{A}$ 和数据特征 $\mathcal{D}$ 来预测该任务上的性能指标
- 理解：每个评估基准都有一个单独的 XGB 模型
对于每个任务设置，由于模型数量相对较少，论文执行 3 折交叉验证，并在每折的训练集上进行嵌套内部交叉验证
- 内部交叉验证在一小组超参数上进行网格搜索，允许模型随任务略有变化。更多细节请参见附录I
Evaluation 为了评估预测器，论文使用所有模型和折迭的平均绝对误差(Mean Absolute Error)
- 对于一个有 $N$ 个模型被评估的任务
  $$ \text{MAE}_{T}=\frac{1}{|T|}\sum_{i=1}^{N}|s_{T}(M_{i})-\widehat{s_{T} }(M_{i})|$$
- 论文将扩展定律预测器以及全特征预测器相互比较，同时也与中位数基线(median baseline)（它只是为该折迭测试集中的每个模型预测训练集中模型的中位数得分）和对数线性基线(log-linear baseline)（它将一个对数线性函数拟合到参数数量和 token 数量）进行比较
迭代特征选择(Iterative Feature Selection) 由于完整的特征集非常大，论文根据哪个特征能最大程度地减少 MAE（在 5 个随机种子上平均），从完整集合中贪心地顺序选择特征
- 不断添加特征，直到观察到的减少量不再至少为 $1\times 10^{-4}$
- 论文开始时仅使用两个扩展定律特征，并将其称为扩展定律(scaling-laws) 模型，尽管它不具有传统幂律的形式
  - 注：不具有传统幂律形式的解释：由于论文使用基于树的预测器来适应多样化的特征类型（包括非数值型特征），论文的方法优先考虑在观察到的界限（10M-100B 参数，50B-3T token）内进行插值，而不是外推（探索其他预测方法仍然是未来的工作）
- 然后，通过合并额外的架构或数据特征，我们可以直接量化这些额外特征带来的增量预测能力
  - 论文将具有该组特征的模型称为全特征(all-features) 模型
  - 在所有情况下，论文使用相同的超参数网格、相同的随机种子和分割来运行模型
显著性检验(Significance Testing) 由于基线之间的相对差异很小，论文在多个种子（50个）上测试两个预测器
- 然后，论文对每个种子的总体 MAE 值运行配对 $t$ 检验，并使用错误发现率(1995)对跨任务的多重比较进行校正

Results

Predictor Performance

加入与规模无关的特征能持续提升基准测试性能
- 论文发现，在传统的扩展定律特征之外加入额外特征，能在多个基准测试上显著提升预测准确度，如表 2 所示
- 在所有评估案例中，全特征预测器均优于仅使用扩展定律的预测器，相对误差减少的幅度大约从 3%（MathQA）到 28%（Lambada）不等
- 值得注意的是，在语言建模和常识推理任务中观察到了最强的改进效果
某些任务更强烈地依赖于非规模特征
- 这种改进模式表明，架构和训练数据特征，对于预测与特定数据“类型”更紧密相关的某些任务，其表现可能更具信息量
- 在代码生成任务（13% 的改进）和基于自然语言的推理任务（例如 Lambada，28% 的改进）上都观察到了巨大的改进
- 即使是领域较窄的任务，如数学推理（GSM8k，+16%）或知识密集型评估（MMLU，+11-14%），也看到了一致但更温和的增强
- 然而，使用 Brier 分数的基准测试显示出较小的改进（约 3-6%）
  - 这可能是因为 Brier 分数本身对模型性能中的涌现效应敏感性较低，特定任务的选择限制了改进空间，或者是这两个因素共同作用的结果

What Features Does Task Performance Depend On?

为了理解影响任务性能的因素，作者检查了 Shapley (1953) (SHAP) 值，这些值显示了特征值如何影响预测
- 注：SHAP Value（SHapley Additive exPlanations，沙普利可加解释）是一种基于合作博弈论的模型解释方法，核心目标是量化机器学习模型中每个特征对预测结果的贡献程度 ，让复杂模型（如随机森林、神经网络）的决策过程变得可解释
- “SHAP Value”：每个特征对这个 “收益” 的贡献值，即该特征让预测结果偏离基准值的程度（正值表示推动预测值升高 ，负值表示推动预测值降低）
Arc Challenge、HumanEval、Winogrande 和 TruthfulQA 的结果如图 4 所示，其余基准测试的结果见附录 L
少量代码大有裨益，但过多则对自然语言推理（NLI）有害
- 预训练数据中代码的百分比是一个关键的非规模特征
- 较高的代码组成有益于 Humaneval 性能，但对包括 Arc Challenge、Hellaswag、Winogrande 和 Lambada 在内的自然语言推理任务产生负面影响
- 如图 5 所示，代码比例超过 20-25% 的模型在 Humaneval 上显示出增益，但在语言基准测试上受到惩罚
- 15-25% 的中等代码比例似乎能平衡这些相互竞争的需求
其他数据领域显示出任务特定的效应
- 从自由生成特征中，论文观察到最近使用合成数据训练的模型（Phi (2023)、SmoILM (2024)）生成了更多疑问词，这表明训练数据中包含问答内容
- 类似参考书或包含大量问题的生成内容与 Arc Challenge 和 Winogrande 的更好性能相关，而类似网络文本的生成内容则与更差的 TruthfulQA 性能相关（图 4）
非规模的架构决策影响较小
- 大多数高影响力特征是与数据相关的或与规模相关的架构特征（例如，维度）
- 在某些情况下，层归一化的类型和位置嵌入都被认为具有显著影响

Validating Performance Predictions with Confirmatory Experiments(验证性实验)

为了验证元分析的发现，论文还使用 Dolma 数据集上训练的 460M 参数模型进行了验证性的预训练实验
论文旨在验证两个关于数据分布的发现：
- (1) 当仅考虑自然语言推理时，约 8% 的代码比例是最优的 ，但在平衡代码和自然语言时，15-25% 可能是最佳比例；
- (2) TruthfulQA 性能随着网络数据比例的增加而降低
  - 理解：网络数据的虚假信息多
由于这是一个小规模模型，准确度差异可能不显著，论文将相关数据集转换为基于损失的评估
由于计算限制，论文将每个检查点训练 10B 个 token，但使用按 100B token 运行规模调整的余弦学习率调度
详细信息和精确的损失图见附录 M
总体而言，在图 6 中，论文发现验证性运行在很大程度上验证了论文的元分析预测
- 唯一不足：尽管准确度的趋势符合预期，但 TruthfulQA 的基于边际的损失在 50% 网络数据检查点上略低于 30% 检查点
这提供了初步证据，表明论文的分析方法可以用于先验地智能预测语言模型训练设计决策

Empirical Data Composition Results

先前的研究已经探讨了预训练中代码数据的作用 (2023; 2024) 以及领域消融 (2024)
数据过滤可以在单纯扩展规模的基础上进一步提升性能 (2023; 2024)
论文的结果表明，代码数据在中等比例（最佳比例 15–25%）下能增强自然语言推理能力，这修正了先前 25% 的估计 (2024)
论文通过汇集现有模型的见解来识别有前景的测试方向，从而对实证消融研究进行了补充

Observational and Task-Specific Scaling Law Fitting（理解：观测性与任务特定的扩展定律拟合）

任务特定的扩展定律研究表明，参数分配会影响机器翻译的结果 (2021)，而多任务处理对英语-目标语言对有益 (2023)
关于下游任务的研究强调了预训练数据与下游数据之间对齐的重要性 (2021; 2024)
各种研究探讨了数据重复 (2024)、多领域数据 (2024) 以及稀疏性 (2023)、精度 (2024) 和推理成本 (2022a) 等因素，而一些研究发现训练超参数具有稳定性 (DeepSeek-2024a)
Ruan 等 (2024) 也使用开源模型的观测数据来预测任务性能，但他们是根据模型在其他任务上的表现来预测某一任务的性能
论文在识别性能的通用自然语言能力和编码能力两个方面得出了类似的结果，但论文的动机是将这些能力追溯到预训练决策

Pretraining Data Selection

领域混合在预训练中已被研究，其他工作将其表述为回归问题 (2024; 2025) 或在训练过程中使用代理模型来选择领域权重 (2023; 2023; 2024b; 2025)
相比之下，论文回顾性地分析了领域构成和训练决策如何影响跨任务的性能，这是在训练期间为单个模型优化数据权重的补充视角

Tracing Capabilities to Data

特定的语言模型能力已被关联到预训练数据中的模式
数值推理和句法规则学习的性能取决于训练数据中数字术语的频率 (2020; 2021)
Ruis 等 (2024) 发现，对推理有影响的数据分散在众多文档中，并且与程序性内容相关
类似地，Chen 等 (2024) 观察到 “并行结构”与上下文学习能力密切相关
- 问题：这里的并行结构是什么？
论文目前关注更广泛的数据领域，但论文的框架可以通过更细粒度的任务或更精细的数据特征进行扩展

Future Work

展望未来，有几个明确的方向
- 首先，论文的数据库（章节3）可以随着新模型和基准测试的发布而进一步扩展，论文将发布代码和数据以帮助推动社区进行更系统的数据记录工作
- 其次，作者希望论文的工作将有助于发现在更受控环境中测试的假设
  - 现有模型交织了许多设计决策，而进一步仅涉及单一变化轴的受控预训练实验可以进一步阐明每个特征的影响
- 最后，在论文的研究中，绝大多数预训练模型专注于密集 Transformer 架构，而混合专家 (2024a; DeepSeek-2024b) 和状态空间模型 (2023) 等替代架构也引起了显著的研究兴趣
  - 如何恰当地对这些更多样化的模型架构进行特征化，并在性能预测中使用这些信息，是一个有趣的挑战，可能会揭示更多的见解
尽管预训练数据分析和选择迄今为止主要集中于实证发现，但通过大规模实证研究更好地理解训练如何影响模型能力，也可以促进可解释性实验和对学习表征的可能干预，其中受控的变化轴提供了案例研究

Limitations

论文当前的工作有几个局限性，可以在未来的工作中改进
第一，尽管论文记录了许多开源模型，但论文的样本量仍然有限，特别是对于较大（>50B）参数的模型
- 这限制了论文得出关于大型模型扩展行为的稳健结论的能力
- 而且论文拥有的模型在参数数量、数据大小和数据分布上并不均匀，某些规模范围和数据分布被过度代表
  - 哪些模型被开源也可能存在选择效应，并且在不同的时间段，流行的架构决策或数据构成可能存在时间效应
第二，论文的方法论也带来了一些局限性
- 因为论文没有系统地训练所有论文自己的模型（尽管论文在附录 A 中有一些自己的模型），所以论文的分析本质上是观察性的
- 虽然我们可以观察到设计选择与性能之间的有趣关系，但要做出因果断言需要实验验证
- 此外，虽然基于树的回归器能有效捕捉复杂的特征交互，但它们限制了论文外推超出数据集中所见模型大小（参数和 token 数量）范围的能力
第三，论文注意到论文工作的范围也有局限性
- 论文专注于 Decoder-only 的基预训练密集 Transformer 模型，这排除了重要的架构变体，例如混合专家模型、非基于 Transformer 的架构以及经过后训练的模型
- 此外，论文主要检查英语模型，因为论文在这项工作中不关注多语言性
- 论文的特征集虽然广泛，但可能仍未捕捉到模型设计和训练的所有相关细节，特别是目前的优化细节
这些局限性为未来的工作指明了方向：
- 扩展数据库以包含更多样化的模型类型和语言覆盖范围；
- 开发更具针对性的函数形式，以便在输入异构特征集的同时实现更好的外推；
- 使用新的预训练模型进行有针对性的实验，以验证特定设计选择的影响

Ethical Considerations

在这项工作中，论文专注于理解模型为何在标准基准测试上表现良好，但并未关注其他重要的考量因素，例如安全性或社会偏见
而且论文的分析侧重于英语模型和基准测试
- 这一局限性反映但也可能强化了该领域现有的对英语的偏向，可能导致对其他语言有效架构的开发投入不足

附录 A：List of all models

All models are listed in Table 3.

附录 B：List of all architectural and data features

B.1 Architectural Features

（注意，本部分的特征是从官方文档（例如 Hugging Face 的模型/数据卡片或原始论文）中收集的）
总参数量 (Total parameters) ：模型中的参数总数（包括嵌入参数）
- 注意，论文仅包含 Decoder-only 的密集模型
维度 (Dimension) ：嵌入维度
头数 (Num heads) ：注意力头的数量
MLP 比率 (MLP ratio) ：$\frac{\text{FFN dimension} }{\text{Embedding dimension} }$ 的比率
位置嵌入 (Positional Embeddings) ：位置嵌入的类型
- 这可以是非参数的（正弦或固定嵌入）、学习的（仅作为每个位置的向量学习）、rope (rope 嵌入) 或 alibi（技术上不是嵌入，但因其功能目的而包含在此）
层归一化 (LayerNorm) ：应用的层归一化类型
- 这可以是非参数的（仅基于算术的归一化）、参数的（类似，但有一些可学习的参数，如扩展/偏置）和 RMSNorm（参数版本的简化版）
注意力变体 (Attention variant) ：使用的注意力的大致类型
- 这可以是 full（普通注意力）、local（每个 Token 位置仅关注其周围的位置）、mqa（多查询注意力）或 gqa（分组查询注意力）
偏置 (Biases) ：模型的某些部分是否存在偏置项
- 可以是 none（无偏置）、attn only（仅在注意力层中）、ln only（仅在层归一化中）
块类型 (Block type) ：变压器块是否完全并行计算
- Sequential 表示不并行，而 parallel 表示在注意力或 FFN 层中存在某种并行性
激活函数 (Activation) ：使用的激活函数
- 可以是 relu、gelu/gelu 变体、silu 或 swiglu
序列长度 (Sequence length) ：序列长度
批次实例数 (Batch instances) ：预训练期间使用的批次大小

B.2 Data Features

（注意，本部分的特征是从官方文档（例如 Hugging Face 的模型/数据卡片或原始论文）中收集的）
总 Token 数 (B) (Total tokens (B)) ：预训练期间使用的 Token 总数，以十亿计（转换为对数尺度）
预训练数据中网络数据百分比 (% Web in Pretraining) ：来自通用网络来源的预训练数据百分比
预训练数据中代码百分比 (% Code in Pretraining) ：由代码组成的预训练数据百分比
预训练数据中书籍百分比 (% Books in Pretraining) ：来自书籍的预训练数据百分比
预训练数据中参考文献百分比 (% Reference in Pretraining) ：来自参考文献来源的预训练数据百分比
预训练数据中学术内容百分比 (% Academic in Pretraining) ：来自学术来源的预训练数据百分比
预训练数据中英文百分比 (% English in Pretraining) ：预训练数据中英文文本的百分比

B.3 Freegen-derived Features

这些特征源自模型的生成文本
对于每个模型，提取 5-10k 个生成文本，并聚合以下指标（通过均值和标准差）
- 但二元组熵、教育分类器分数和领域分类是例外，因为它们是在所有生成文本上计算一次的
论文使用 Stanza (2020) 在按语言对生成文本进行分类后生成基于解析的特征
- 论文仅将 stanza 支持的语言包含在解析特征所基于的最终生成文本集中

B.3.1 生成长度和基本统计量 (Generation Length & Basic Statistics)

平均字符长度 (Mean Character Length) ：每个生成文本的平均字符数（上限为 2048）
平均生成 Token 数 (Mean Tokens Generated) ：每个生成文本的平均 Token 数
平均句子数 (Mean Sentences) ：每个生成文本的平均句子数
平均词数 (Mean Words) ：每个生成文本的平均词数
平均每句词数 (Mean Words per Sentence) ：每个句子的平均词数

B.3.2 Constituency Parse Features

最深解析树平均深度 (Mean Depth of Deepest Parse Tree) ：每个生成文本的平均最大选区树深度
解析树平均深度 (Mean Depth of Parse Trees) ：所有句子/短语的平均选区树深度
词平均深度 (Mean Word Depth) ：选区树内词的平均深度
词深度变异平均 (Mean Word Depth Variation) ：跨句子/短语的词深度标准差的平均值

B.3.3 Dependency Parse Features

依存头距离 90% 分位数平均值 (Mean 90th-Percentile Dependency Head Distances) ：对于每个生成文本，计算词与其依存头之间的线性距离的 90% 分位数，然后对这些值取平均
最大依存头距离平均值 (Mean Maximum Dependency Head Distances) ：每个生成文本中任何词到其依存头的最大距离的平均值
依存头距离中位数平均值 (Mean Median Dependency Head Distances) ：每个生成文本的依存头距离中位数的平均值
最大依存根距离平均值 (Mean Maximum Dependency Root Distances) ：每个生成文本中任何词到句子根的最大距离的平均值
平均依存根距离平均值 (Mean Mean Dependency Root Distances) ：每个生成文本中词到句子根的平均距离的平均值
依存根距离中位数平均值 (Mean Median Dependency Root Distances) ：每个生成文本中词到句子根的距离中位数的平均值

B.3.4 Domain Classification Features

生成学术类文本百分比 (% Generated Academic-like Text) ：被分类为学术类的生成文本百分比
生成书籍类文本百分比 (% Generated Books-like Text) ：被分类为书籍类的生成文本百分比
生成代码类文本百分比 (% Generated Code-like Text) ：被分类为代码类的生成文本百分比
生成参考类文本百分比 (% Generated Reference-like Text) ：被分类为参考类的生成文本百分比
生成专业文本百分比 (% Generated Specialized Text) ：被分类为专业类（例如，乐谱、象棋 PGN、生物医学数据）的生成文本百分比
生成网络类文本百分比 (% Generated Web-like Text) ：被分类为网络类的生成文本百分比

B.3.5 Classifier and Language Metrics

教育分类器分数平均值 (Mean Educational Classifier Score) ：教育分类器给出的平均分数
生成英文文本百分比 (% Generated English Text) ：生成的英文文本的平均百分比

B.3.6 Lexical Diversity and Entropy Metrics

平均二元组熵 (Mean Bigram Entropy) ：跨生成文本计算二元组的平均熵
型符比 (Type-Token Ratio) ：唯一 Token 数与总 Token 数的平均比率
唯一 Token 数 (Unique Tokens) ：每个生成文本的平均唯一 Token 数

B.3.7 Lexical and Stylistic Features

实词-功能词比率 (Content-Function Ratio) ：实词（名词、动词、形容词、副词）与功能词的比率
疑问词比率 (Question Words Ratio) ：每 10 万个词中疑问相关词（例如 how, what, why, when, where, who, which, whose）的比率
祈使词比率 (Imperative Words Ratio) ：每 10 万个词中祈使词（例如 do, make, consider, take, use, ensure, check, build, apply, run, create, find, go, try, turn, start, stop, put, keep, leave, get, move）的比率
连词比率 (Conjunctions Ratio) ：每 10 万个词中连词（例如 and, but, or, so, because, although, however, therefore, yet）的比率
指令词比率 (Instruction Words Ratio) ：每 10 万个词中指令导向短语（例如 “Question:”, “Answer:”, “Instruction:”, “User:”, “Assistant:”, “Q:”, “A:”）的比率
数字比率 (Numbers Ratio) ：生成文本中数字 Token 的比率

附录 C：List of all evaluations and settings

尽管论文理想情况下会评估模型和任务的全部组合，但论文发现由于一些模型与 LM Evaluation Harness 不兼容以及计算限制，论文无法在每個数据集上评估所有 92 个模型
论文在表 4 中列出了论文目前每个基准测试的评估数量，并将在数据库中继续补充评估结果

附录 D：Task Deviations from Kaplan-style Scaling Laws

表 5 记录了针对每个模型性能拟合幂律分布所得到的决定系数（$R^2$ value）

附录 E：Free-generation Domain Classification

论文使用 GPT-4o-mini 将模型生成文本分类到顶级领域
论文发现这种多阶段提示（清单 1，清单 2）在 Dolma 按领域采样的样本上具有合理的精确度 (2024)，因此使用它对自由生成文本进行分类

附录 F：Domain Classifier Validation

为了验证基于 4o-mini 的分类器的可靠性，论文请论文的一位作者根据附录 E 中使用的相同标注标准，对来自三个预训练数据集（the Pile, the SmoILM corpus, 和 RefinedWeb）的 300 个选定样本进行标注
被模型或人类标注者标注为“unknown”或“incoherent”的样本被排除，因为这些样本不包含在领域混合的计算中
过滤后，论文分析了 258 个文本样本，发现人类标注者和模型的绝对一致率为 85.8%，Cohen’s $\kappa$ 为 0.746，表明人类分类和模型分类之间具有高度一致性

附录 G：Free-generation Validation

为了验证论文的自由生成方法作为预训练数据组成的代理，论文分析了模型的自由生成特征与其预训练数据之间的相关性
对于在三个开放预训练数据集（the Pile, the SmoILM corpus, 和 Refinedweb）上训练的模型，论文比较了它们的自由生成特征与相同标注器和基于 LM 的分类器（附录 E）在预训练语料库随机采样的 100 万文档子集上产生的特征
由于成本原因，对于领域分类，每个语料库使用了 100 万中的 5000 个示例
- 这 100 万文档是通过水库采样均匀采样的
此外，论文计算了两个整体模型层面的相关性，它们衡量了每个模型的完整生成配置文件与其训练数据的匹配程度：
- 1）领域层面相关性 (Domain-level correlations): 对于每个领域类别（web, code, academic, books, reference），论文计算了模型文档记录的预训练数据中该领域的百分比与被分类到该类别的自由生成文本百分比之间的相关性
- 2）特征层面相关性 (Feature-level correlations): 对于语言特征（连词比率、祈使动词比率、疑问词比率、数字比率、字符长度），论文评估了自由生成中的每个特征与预训练数据中相应特征的相关性
这些模型层面的相关性明显高于单个特征的相关性，表明模型比任何单一维度都更好地保留了其训练数据的整体“指纹”
表6 和表7

附录 H：Free-generation Examples

Llama-2-70B，网页风格(web-like)：

给定斯蒂芬妮在与布雷克谢尔顿一起出席的活动上无法认出自己的第一首歌曲你创作和/或录制的第一首歌是什么？如果你再也没听过它，直到在参加一个大型乡村音乐活动时与数十万人进行Facetime视频通话，你会有什么感觉？这正是格温斯蒂芬妮本周在乡村电台研讨会活动上被授予荣誉时发生的事情。在纳什维尔，可以想象，当你拥有像她那样疯狂的职业生涯时，可能很难记住这些年所有的里程碑，但试想一下还要当场为所有人做到这一点。嗯，结果发现，双重才华的多莉帕顿原本要介绍格温是“一个打破壁垒的艺术家”，当时她引用了斯蒂芬妮第一首“乡村”歌曲的歌词……‘3000年’。外交辞令的“好声音”教练布雷克谢尔顿在她当时展示的视频中插话，问道“还有其他完成的工作吗……
phi-2，书籍风格(books-like)： 太阳在傍晚的天空中明亮地闪烁，将温暖的光线投射在温馨的小厨房里，一对勤奋的父母正在那里准备一顿美味的饭菜。空气中充满了期待，他们开始了一次烹饪冒险，心中充满了爱和喜悦。他们卷起袖子，灵巧地挥舞着各种锋利的刀具，每把刀都是他们技能和精确度的延伸。就像艺术家拿着画笔一样，他们精巧地在食材中穿梭，与刀具共舞，如同舞伴。刀片的移动速度之快违背了日常动作的物理规律，优雅而有目的地在空中滑行。……
Qwen2-72B，参考（指令）风格(reference (instruct)-like)： 儿童：家庭票（最多2名成人和2名儿童）23.00美元 (1)布莱克先生想和他的妻子以及两个儿子（他们都超过9岁）一起看电影，他应该支付多少？__ A.23美元 B.46美元 C.48美元 D.49美元 (2)布朗先生想和他5岁的双胞胎儿子一起看电影，他应该支付多少__。 A.18美元 B.23美元 C.28.5美元 D.32美元 (3)丽莎在这部电影中看不到雪。__ A.正确 B.错误 (4).简是一位数学老师，她有两个女儿（一个12岁，妹妹8岁）。她们想看电影。她应该支付多少？__ A.28.5美元 B.27美元 C.33美元 D.26.5美元 (5)迈克十六岁。今天是星期六，他想和他40岁的父母一起看电影。他们将为门票支付____。 A.22美元
OPT-6.7B，网页风格(web-like)： 我不认为这是一个问题。这是一个陈述。我说养只狗吧，世界有狗更美好。我对自己说了完全一样的话。我不知道你为什么被踩了。因为reddit是一群讨厌狗的人

Codegen-16B-mono，代码风格(code-like)：

from typing import Optional
from fastapi import FastAPI
from pydantic import BaseModel

app = FastAPI()

class Item(BaseModel):
    name: str
    price: float
    is_offer: Optional[bool] = None

@app.get("/")
def read_root():
    return {"Hello": "World_from_ FastAPI"}

@app.get("/items/{item_id}")
def read_item(item_id: int, q: Optional[str] = None):
    return {"item_id": item_id, "q": q}

@app.put("/items/{item_id}")
def update_item(item_id: int, item: Item):
    return {"item_name": item.name, "item_id": item_id}

Pythia-410M，学术风格（专利）(academic-like (patent))：
- 本发明涉及用于从发电站的废物流中去除固体废物材料的新的和改进的方法和设备，其中该固体废物材料计划在发电厂完工后进行处置。先前已经进行了各种尝试来从工厂的废物流中去除固体废物。这是真的，例如，对于污泥的排放，这些污泥通常被收集到一个污泥罐中，并在一个通常连接到工厂的敞开排水出口的清洗罐中被洗出工厂。这项现有技术由美国专利号3,623,579进行了讨论，该专利授予了G.R.Clark并描述了一种通过在罐中絮凝和絮凝并搅动固体以打破固体颗粒之间的键合来处理废物流以去除固体废物的方法。此外，美国专利号4,016,823描述了一种装置，该装置描述了一种方法，其中液体污水从废物流中和从污水处理厂中被去除，在那里要被去除的固体废物将被处理以生产用于沐浴浴缸或肥皂的氨净化水，并且其中来自废水处理厂的污水被去除到污水处理厂，在那里这些污水与水混合或作为肥料处理。…

附录 I：Appendix I XGBoost Settings

对于内部网格搜索，树的最大深度在[2,3,5]中，学习率在[0.01,0.1,0.3]中，树的数量在[50,100]中

附录 J：Selected Features by Task

在表8中，论文展示了每个基准测试所选的特征

附录 K：LightGBM Results

表2的 LightGBM 版本可以在表9中找到
注意：未对 LGBM 进行显著性检验，因此这反映了一次运行的结果，尽管对两个预测器都仍在附录I的相同值上进行了超参数搜索
- Brier 分数扩展 ×100 以便比较
- 这里的两个预测器都使用 LGBM

附录 L：SHAP Plots for remaining benchmarks

剩余基准测试的SHAP图可以在图7-图15中找到。请注意，对于Brier分数任务（ANLI,XNLI,MathQA,LogiQA2），分数越低越好

附录 M：Details on confirmatory pretraining runs

M.1 训练(Training)

对于论文的验证性实验，论文使用 Megatron-Deepspeed 库从头开始训练了 460M 参数的 Llama-2 架构模型
论文将训练 token 数量上限设为 10B，同时使用设置为 100B token 长度的余弦学习率调度（意味着每个检查点大约完成了“完整”预训练运行的 10%）
训练在每个检查点一个节点上进行，使用 8 个 H100 GPU
- 每个检查点大约需要 6 小时来训练
对于论文的数据混合，论文使用 Dolma v1 数据集的子集构建了各种混合
- 在网页与其他的实验中，论文固定了所有其他数据源的相对百分比，同时改变网页的百分比

训练配置如下：

training:
    num_layers: 14
    num_attention_heads: 12
    seq_length: 2048
    num_kv_heads: 12
    hidden_size: 1536
    ffn_hidden_size: 4128
    tune_steps: 1000
    lr: 0.00015
    min_lr: 1.0e-5
    weight_decay: 1e-2
    grad_clip: 1.0
    lr_warmup_steps: 100
    save_interval: 2000
    eval_interval: 2000
    train_epochs: 1
    tp: 1
    micro_batch_size: 16
    global_batch_size: 512
    seed: 42

除了数据混合之外，所有实验都使用相同的超参数以确保公平比较

M.2 Evaluation

为了评估不同数据混合对模型性能的影响，论文在以下任务上评估了论文的模型：
- 1）自然语言推理(Natural language inference): Lambada, winogrande, arc challenge
- 2）Code Generation: Humaneval
- 3）Math: GSM8K
- 4）事实性(Factuality): TruthfulQA
注意，由于时间限制，论文没有选择完整的评估集
由于LM eval harness没有为所有任务实现困惑度/基于损失的评估，论文手动将多项选择任务转换为基于损失的指标，并在计算所有任务的损失时屏蔽提示或问题

M.3 转换为基于损失的指标(Conversion to Loss-Based Metrics)

为了确保跨不同任务和模型的一致评估，论文将各种基准测试数据集转换为基于损失的指标
这种方法允许在模型之间进行更直接的比较，并更清晰地解释改进
以下是论文为每种数据集类型实现损失计算的方式：
多项选择任务(ARC Challenge, Winogrande, HellaSwag, TruthfulQA)： 对于这些数据集，论文计算了两个主要的基于损失的指标：
- 平均损失(Average Loss)： 论文计算了正确答案的负归一化对数概率。对于每个问题，论文将输入格式化为“问题+答案选项”，然后为每个选项计算按token长度归一化的序列对数概率。正确答案的负对数概率被用作损失
- 基于边际的损失(Margin-based Loss)： 特别是对于 TruthfulQA，论文计算了真实答案和非真实答案之间的边际。这被计算为最佳真实答案的对数概率与最佳非真实答案的对数概率之差的负值。损失越低表示区分真实和非真实信息的能力越好
生成任务(GSM8K, HumanEval, Lambda)： 对于生成任务，论文计算：
- 回答损失（Answer Loss）： 论文计算 solution Token 上的交叉熵损失
  - 注：对 Lambada 任务，仅使用最后一个 word
- 所有对数概率均被序列长度归一化

M.4 Full Results

表 10：代码与自然语言混合数据
表 11：网络数据与其他数据混合的精确损失值

NLP——Reinforcement-Pre-Training

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：(RPT)Reinforcement Pre-Training, arXiv 20250609, Microsoft Research & PKU & THU

Paper Summary

整体内容总结
- 论文提出了一种新颖的，用于预训练大语言模型的新范式，强化预训练（Reinforcement Pre-Training, RPT）
- 通过将下一词预测任务重构为可验证的推理任务，并应用基于正确性的强化学习奖励，RPT 使大语言模型能够在预训练期间利用扩展计算构建更强的基础推理能力
- 实验表明：RPT 提升了下一词预测的准确性 ，在数学和通用推理基准的 Zero-Shot 设置 中表现出色，并为后续强化学习微调 提供了更好的起点
- RPT 通过从根本上重新思考预训练目标本身，为开发更强大、更通用的智能大语言模型提供了新的方向
论文将 Next-Token Prediction（NTP）任务重新定义为一种通过强化学习训练的推理任务，模型在正确预测给定上下文的 Next Token 时会获得可验证的奖励
RPT 提供了一种可扩展的方法，能够利用海量文本数据实现 通用强化学习（general-purpose RL） ，而 无需依赖特定领域的标注答案
- 通过激励 Next Token 推理能力，RPT 显著提升了语言模型在预测 Next Token 时的准确性
RPT 为后续的强化微调提供了强大的预训练基础
实验结果表明，随着训练计算量的增加， Next-Token Prediction 的准确性持续提升
- 作者认为，这些结果证明了 RPT 是一种有效且有前景的规模化范式，能够推动语言模型预训练的进步

Introduction and Discussion

LLM 在各种任务中展现出了卓越的能力，这主要得益于基于海量文本语料的 Next-Token Prediction 目标的可扩展性
- 这种自监督范式已被证明是一种高效的通用预训练方法
RL 已成为一种强大的技术，可用于微调大语言模型，使其与人类偏好对齐或增强特定技能，例如复杂推理 (2022, 2023, 2024)
但当前强化学习在大语言模型训练中的应用面临可扩展性和通用性挑战
- RLHF 在对齐任务中表现有效，但其依赖昂贵的人类偏好数据，且学习到的奖励模型容易受到奖励破解（reward hacking）的影响，从而限制了可扩展性
- RLVR 是一种 RLVR 方法
  - RLVR 利用客观的、基于规则的奖励（通常来自问答对），这种方法能够缓解奖励破解问题
  - 但 RLVR 通常受限于带有可验证答案的标注数据的稀缺性，因此其 应用范围仅限于特定领域的微调 ，而 非通用预训练
在这项工作中，作者提出了 强化预训练（RPT） ，这是一种新颖的范式，旨在弥合可扩展的自监督预训练与强化学习能力之间的差距
- RPT 将 Next-Token Prediction 任务重新定义为一种 Next Token 推理过程
- 对于预训练语料中的任何给定上下文，模型会被激励在预测 Next Token 之前对其进行推理
- 模型会根据其预测结果与语料中真实 Next Token 的匹配程度，获得一种可验证的内在奖励
- 这种方法将通常用于 Next-Token Prediction 的海量未标注文本数据，转化为一个适用于通用强化学习的庞大数据集，而无需依赖外部标注或特定领域的奖励函数
这种方法具有以下几个关键优势：
- 1）可扩展性与通用性 ：RPT 利用了与标准 Next-Token Prediction 相同的海量未标注文本数据，将其转化为通用强化学习的大规模数据集，无需外部标注
- 2）减少奖励破解风险 ：通过使用直接的、基于规则的奖励信号（即预测 Next Token 的正确性），RPT 从根本上降低了复杂学习奖励模型中常见的奖励破解风险
- 3）促进深度理解与泛化 ：通过显式激励 Next Token 推理模式，RPT 鼓励模型深入理解上下文，而非简单地记忆 Next Token
  - 模型学会探索和验证关于“为何某个 Token 应该出现”的假设，从而构建更鲁棒的表示
- 4）推理过程的计算分配 ：预训练中的内部推理过程使模型能够为每个预测步骤分配更多的“思考”或计算资源，类似于在训练时为每个 Token 应用推理时扩展，从而直接提升 Next-Token Prediction 的准确性
论文的实验表明：
- RPT 显著提升了 Next-Token Prediction 的准确性
- RPT 为后续的强化微调提供了更鲁棒的预训练基础，从而在最终任务中表现更优
- 扩展曲线显示，在 RPT 框架下，增加训练计算量能够持续提升 Next-Token Prediction 的准确性 ，这表明 RPT 是一种可持续的规模化策略
- 这些结果证明了强化预训练是一种有效且有前景的新范式，能够推动大语言模型预训练的进步
论文的主要贡献如下：
- 提出了一种新的规模化范式： 强化预训练（RPT） ，将 Next-Token Prediction 重新定义为通过强化学习训练的推理任务，并利用预训练语料直接生成的内在可验证奖励
- RPT 提供了一种可扩展且通用的强化学习预训练方法，通过基于规则的奖励减少奖励破解风险，并通过激励 Next Token 推理模式（而非机械记忆（rote memorization））促进泛化能力
- RPT 显著提升了 Next-Token Prediction 的准确性，并展现出良好的扩展特性，即性能随着训练计算量的增加而持续提升
- RPT 为后续的强化微调提供了更强的预训练基础，并提升了在多种下游任务中的 Zero-Shot 性能

Preliminary

Next-Token Prediction, NTP

Next-Token Prediction 是现代大语言模型的基本训练目标 (2022)
给定训练语料中的输入序列 $x_{0}\cdots x_{T}$，模型的训练目标是最大化以下目标函数：
$$
\mathcal{J}_{\text{NTP} }(\theta)=\sum_{t=1}^{T}\log P(x_{t}\mid x_{0},x_{1},\ldots,x_{t-1};\theta),
$$
- 其中 $\theta$ 表示语言模型的参数

Reinforcement Learning with Verifiable Rewards, RLVR

RLVR 利用强化学习目标来增强具有可验证答案的特定技能 (2023)
RLVR 需要一个标注的问答对数据集 $\mathcal{D}=\{(q,a)\}$
对于特定的问答对 $(q,a)\in \mathcal{D}$，大语言模型 $\pi_{\theta}$ 会生成一个响应 $o\sim \pi_{\theta}(\cdot \mid q)$
- 然后使用一个确定性的验证器 $\mathcal{V}$ 计算可验证奖励 $r=\mathcal{V}(o,a)$，模型的训练目标是最大化期望奖励：
  $$
  \mathcal{J}_{\text{RLVR} }(\theta)=\mathbb{E}_{(q,a)\sim \mathcal{D},o\sim \pi_{\theta}(\cdot|q)}\left[r(o,a)\right].
  $$

Reinforcement Pre-Training

Pre-Training Task: Next-Token Reasoning

论文提出了 Next Token 推理任务用于语言建模
给定训练语料库中的输入序列 $x_0 \cdots x_T$，对于每个位置 $t \in \{1, \ldots, T\}$，前缀 $x_{ < t}$ 被视为上下文，而真实的 Next Token 是 $x_t$
在 Next Token 推理任务中，模型 $\pi_\theta$ 需要在生成对 Next Token 的预测 $y_t$ 之前生成一个思维链（chain-of-thought）推理序列，记为 $c_t$
模型的整体响应为 $o_t = (c_t, y_t)$，其中 $o_t \sim \pi_\theta(\cdot \mid x_{ < t})$
如图 2 所示， Next Token 推理的长思维链过程可能涉及多种推理模式，例如头脑风暴、自我批判和自我修正
Next Token 推理任务将预训练语料库重构为大量的推理问题集合，使预训练从学习表面的 Token-level 关联转向理解其背后的隐藏知识，并使强化学习的扩展成为可能

Pre-Training with Reinforcement Learning

RPT 通过在线策略强化学习训练 LLM 执行 Next Token 推理，如图 3 所示
对于上下文 $x_{ < t}$，RPT 提示语言模型 $\pi_\theta$ 生成 $G$ 个响应（思维轨迹），记为 $\{o^i_t\}_{i=1}^G$
每个响应 $o^i_t = (c^i_t, y^i_t)$ 包含一个思维链推理序列 $c^i_t$ 和一个最终的预测序列 $y^i_t$
为了验证 $y^i_t$ 的正确性，论文引入了前缀匹配奖励（prefix matching reward），该奖励支持验证跨越多 Token 或涉及词汇表外 Token 的预测
符号定义如下：
- $x_{\geq t}$ 表示真实补全序列，其字节（byte）序列表示为 $\overline{x}_{\geq t}$
  - 问题：为什么不是单个 token? 论文每次仅预估下一个 token 吧？到底是每次生成单个 token 还是多个 token？
  - 猜测：这里是表示每次推理时，可以只看一个 token，也可以看多个 token
- $y^i_t$ 表示预测的序列，其字节（byte）序列表示为 $\overline{y}^i_t$
- $\overline{y}^i_t$ 的字节长度记为 $l$
- 真实补全序列中 Token 的累积字节长度定义为有效边界，记为 $\mathcal{L}_{gt}$
  - 理解：这里的有效边界是一个整数集合，表示有效的长度值的集合
形式上，对于上下文 $x_{ < t}$ 的第 $i$ 个输出，奖励 $r^i_t$ 定义为：
$$
r^i_t = \begin{cases}
1 & \text{if } \overline{y}^i_t = \overline{x}_{\geq t}[1:l] \text{ and } l \in \mathcal{L}_{gt} \\
0 & \text{otherwise}
\end{cases},
$$
- 如果预测的字节序列是真实补全字节序列的精确前缀且其长度 $l$ 匹配任何有效 Token 边界 ，则奖励为 1
- $\overline{y}^i_t$ 表示预测的字节序列
- $\overline{x}_{\geq t}$ 表示真实补全的字节序列
令 $\mathcal{D}$ 为所有 $\{x_{ < t}\}_{t=1}^T$ 的集合，模型训练的目标是最大化期望奖励：
$$
\mathcal{J}_{\text{RPT} }(\theta) = \mathbb{E}_{(x_{ < t}, x_{\geq t}) \sim \mathcal{D}, \{o^i_t\}_{i=1}^G \sim \pi_\theta(\cdot|x_{ < t})} \left[r^i_t \right].
$$

Pre-Training Setup

论文使用 OmniMATH 数据集（2024）进行强化预训练。OmniMATH 包含 4,428 个竞赛级数学问题及其解答，数据来自 AoPS Wiki 和 AoPS 论坛等官方网站
由于许多 Token 即使无需推理也容易预测，论文在强化预训练前进行了 Token-level 数据过滤
- 论文使用 Deepseek-R1-Distill-Queen-1.5B 作为小型代理模型，计算每个 Token 在前 16 个候选 Token 上的代理模型熵
- 通过应用熵阈值，论文过滤掉低熵位置，优先训练那些需要更多计算努力预测的挑战性 Token（注：高熵的 token 是较难预测的）
在所有实验中，论文以 Deepseek-R1-Distill-Queen-14B（2025）作为基础模型
- R1-Distill-Queen-14B 因其基本的推理能力而成为强化学习的良好起点
论文使用 verl 库（2025）实现训练框架，并使用 vllm 进行推理
论文采用 GRPO 算法（2025），具体超参数详见附录 B
训练时，论文采用 8k 的训练长度，学习率为 $1 \times 10^{-6}$，KL 惩罚为零，批次大小为 256 个问题，每个问题采样 $G=8$ 个响应，在 rollout 过程中使用温度为 0.8
从每个响应中，论文直接提取最后一个 $\backslash$boxed{ } 内的完整序列作为模型对 Next Token 的预测
从第 500 步开始 ，论文使用动态采样以提高训练效率（2025），主实验的总训练步数为 1,000
- 补充：这里的动态采样是 DAPO 中的动态采样技术，把奖励全为 0 或者全为 1 的 Prompt/样本丢弃掉
提示模板及其变体在附录 D 中讨论

Evaluation of Pretrained Models

模型预训练完成后，我们可以直接在下游任务上进行 Next-Token Prediction 和强化微调
论文通过以下设置展示强化预训练如何提升大语言模型的语言建模能力和推理能力
语言建模（Language Modeling）
- 基于 Next Token 推理目标，论文的模型可以自然地用于语言建模
- 论文报告 Next-Token Prediction 准确率，以评估 RPT 的语言建模性能和扩展性
下游任务的强化微调（Reinforcement Fine-Tuning on Downstream Tasks）
- 论文以预训练后微调的方式对 RPT 模型进行持续的强化微调
- 由于 RPT 将预训练过程与强化学习对齐，预训练与后续强化微调之间的目标差距被最小化
- 论文评估强化预训练过程是否进一步提升了最终任务的性能

Experiments

Language Modeling

论文在 OmniMATH 的 200 个验证集样本上评估语言建模性能
根据第 3.3 节描述的基于熵的数据过滤策略，论文根据难度对验证集中的 Token 位置进行分类
- 论文使用 R1-Distill-Queen-14B 计算每个 Token 位置的熵，并根据熵是否超过阈值 0.5、1.0 和 1.5 将位置划分为简单、中等和困难三类
- 为了比较，论文报告了 R1-Distill-Queen-14B 在两种评估方式下的性能：
  - (1) 标准 Next-Token Prediction ，选择概率最高的 Token ；
  - (2) Next Token 推理，生成思维链后再进行最终预测
- 论文还包含了 Qwen2.5-14B 的结果，因为它是 R1-Distill-Queen-14B 的基础模型
如表 1 所示，RPT-14B 在所有难度级别上的 Next-Token Prediction 准确率均高于 R1-Distill-Queen-14B
- 值得注意的是，它的性能与显著更大的模型 R1-Distill-Queen-32B 相当（图 4）
这些结果表明，强化预训练能有效捕捉 Token 生成背后的复杂推理信号，并具有提升大语言模型语言建模能力的强大潜力

Scaling Properties of Reinforcement Pre-Training

本节论文研究强化预训练的扩展性
自然语言语料库上的 Next Token 预训练损失在模型大小、训练 Token 数量和训练计算量方面通常遵循幂律衰减（2020, 2022）
论文使用以下幂律形式建模训练计算量 $C$ 与性能的关系：
$$
P(C) = \frac{A}{C^\alpha} + P^*, \tag{5}
$$
- 其中 $P(C)$ 表示验证集上的 Next-Token Prediction 准确率，$P^*$、$\alpha$ 和 $A$ 是待估计的参数
论文在不同训练步数（100、200、400、800、1000 和 1200）下评估 RPT 的 Next-Token Prediction 准确率，并将其转换为相应的训练计算量
为了评估数据难度的影响，论文考虑了基于熵阈值 0.5（简单）、1.0（中等）和 1.5（困难）过滤的验证集分割
- 更高的阈值对应更具挑战性的输入
- 对于每个难度级别，论文根据公式 (5) 拟合结果，并使用决定系数 $R^2$ 衡量拟合优度（Goodness of fit）
- 理解：按照 15W 词表算：
  - 熵为 0.5 对应这最大的概率差不多是 0.970；
  - 熵为 1.0 对应这最大的概率差不多是 0.936；
  - 熵为 1.5 对应这最大的概率差不多是 0.901；
  - 更多可视化详情见附录
如图 5 所示，随着训练计算量的增加，RPT 的 Next-Token Prediction 准确率持续提升
所有难度级别的高 $R^2$ 值表明拟合曲线能准确捕捉性能趋势（理解：说明在不同难度上，均能很好的拟合到公式 (5) 上）

Reinforcement Fine-Tuning with RPT

为了研究 RPT 模型是否能通过 RLVR 更有效地微调，论文从 Skywork-OR1（2025）随机采样带有可验证答案的问题进行进一步训练
- 论文使用 256 个样本进行训练，200 个样本进行测试
- 遵循 Skywork-OR1 的数据过滤流程（2025），论文使用 R1-Distill-Queen-32B 识别训练中的挑战性实例
- 论文将训练批次大小和 PPO 小批次大小均设为 64，并训练模型 15 个周期
- 评估时，验证的最大 Token 数设为 32,000，温度为 0.6
如表 2 所示：
- 强化预训练模型在使用 RLVR 进一步训练时达到了更高的上限
- 当使用相同的 Next-Token Prediction 目标持续训练相同数据时，模型的推理能力显著下降，而后续的 RLVR 仅带来缓慢的性能提升
  - 理解：可以观察到，直接进行普通 NPT 的持续预训练（目标和 RPT 相同）会导致推理能力大幅下降；猜测这里是训练太多次，发生了过拟合了！
    - 引申问题：这里的普通 NPT 和 RPT 训练轮次是相同的吗？
这些结果表明，在数据有限的情况下，强化预训练可以快速将从 Next Token 推理中学到的强化推理模式迁移到最终任务中

Zero-Shot Performance on End Tasks

论文评估了 RPT-14B 在下游任务上的 Zero-Shot 性能
作为比较，论文评估了 R1-Distill-Queen-14B 和 R1-Distill-Queen-32B 的 Next-Token Prediction 性能，以及 RPT-14B 与 R1-Distill-Queen-14B 的推理性能
论文的评估涉及两个广泛认可的基准：
- MMLU-Pro（2020），一个综合性多任务理解基准，评估大语言模型在不同领域的表现；
- SuperGPQA（2025），一个涵盖 285 个学科的研究生级推理问题的大规模基准
在推理设置下，论文将最大 Token 数设为 12,288，温度为 0.8
遵循先前工作（2024, 2025），论文使用多项选择题格式进行评估并报告准确率
如表 3 所示
- RPT-14B 在所有基准上均优于 R1-Distill-Queen-14B（无论是标准 Next-Token Prediction 还是作为推理模型评估）
- RPT-14B 还超越了显著更大的 R1-Distill-Queen-32B（在 Next-Token Prediction 模式下），在 SuperGPQA 上提升了 7 分，在 MMLU-Pro 上提升了约 22 分
每个基准的详细分科结果见附录 C

Next-Token Reasoning Pattern Analysis

论文分析了 Next Token 推理与显式问题解决（explicit problem solving）在推理模式上的差异
- 根据先前研究（2024, 2025），论文统计了模型响应中包含推理关键词（如“break down”、“alternatively”）的比例
论文的分析比较了两种模型在 OmniMATH 数据集上的思维过程：
- R1-Distill-Queen-14B 用于问题解决
- RPT-14B 用于 Next Token 推理
- 对每个模型，采样 200 个响应
论文将推理模式分为六类：
- 转换（切换策略）、反思（自我检查）、分解（分解问题）、假设（提出并验证假设）、发散思维（探索可能性）和演绎（逻辑推理）
  
  transition (switching strategies), reflection (self-checking), breakdown (decomposing the problem), hypothesis (proposing and verifying assumptions), divergent thinking (exploring possibilities), and deduction (logical inference).
如图 6 所示，RPT-14B 的 Next Token 推理过程与 R1-Distill-Queen-14B 的问题解决过程显著不同
- RPT-14B 相对 R1-Distill-Queen-14B： 假设模式的使用量增加了 161.8%
- RPT-14B 相对 R1-Distill-Queen-14B：演绎模式的使用量增加了 26.2%
- 问题解决过程（R1-Distill-Queen-14B）更依赖分解模式（breakdown） ，这表明 Next Token 推理引发的推理过程在性质上与结构化问题解决不同
表 4 展示了一个推理模式的例子
- 该例子揭示了模型参与的是一个深思熟虑的过程，而非简单的模式匹配
- 它分析了更广泛的语义上下文（“calculating vector magnitude”），识别关键短语（“go over some…”），然后进行头脑风暴并权衡多个可能的延续
- 这涉及假设生成（“the next part is likely going to be…”）、替代方案考虑（“Alternatively, it could be…”）以及对结构线索（“markdown with headers”）甚至细粒度 Token-level 细节（“could have a space”）的反思
- 这种多方面的推理，既包含高级语义理解，又包含低级文本特征，展示了模型通过推理探索推断 Next Token 的努力，与 RPT 培养超越表面关联的更深层次理解的目标一致
更多例子见附录 F

Scaling Paradigms of Large Language Models

LLM 的进步主要由两个扩展维度驱动：
- 训练时计算（training-time compute）（2022a）：通过大幅增加模型参数和训练数据，以下一词预测（next-token prediction）作为预训练任务
- 测试时计算（test-time compute）（2025a）：测试时扩展（2024）通过延长推理计算时间提升大语言模型的推理能力
RPT 独特地整合了上述原则，超越现有扩展范式，将每一词预测任务重构为推理任务

Reinforcement Learning for Large Language Models

强化学习在大语言模型的后训练阶段发挥了关键作用
- RLHF（2022）通过人类偏好数据微调预训练语言模型以提升对齐性
- 除对齐外，大规模强化学习还被用于增强语言模型的推理能力（2025）
最相关的工作（2025）鼓励语言模型为下一词预测生成有帮助的推理过程
- 基于帮助性的奖励容易被生成的推理中重复目标词所“破解” ，这种捷径可能损害模型性能
  - 问题：如何理解这里所谓的奖励破解问题？
    - 参考：Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
- 相比之下，论文使用下一词预测的正确性作为基于规则的奖励信号，以最小化奖励破解风险

Future Work

RPT 的初步探索仍存在一些局限性
- 论文的实验主要基于 14B 参数的模型，没有在更大的模型进行测试
- 虽然 RPT 方法设计为通用，但当前预训练语料库 主要由数学文档组成；
  - 未来工作将探索其在更广泛的通用领域文本上的有效性
- RPT 训练是从一个具备基础推理能力的模型初始化（R1-Distill-Qwen-14B）的；
  - 后续可以研究从标准基础语言模型开始的 RPT 训练
  - 这将为 RPT 基础性影响提供进一步分析和结论
未来工作可从以下方向推进：
- 扩展训练语料库的规模和领域覆盖范围，利用大规模通用互联网数据进行强化预训练
- 增加训练计算资源以突破性能边界
- 建立强化预训练的扩展定律（scaling laws），指导大语言模型的扩展
- 探索将混合思维（hybrid thinking）（2025）与 RPT 结合，通过自适应触发下一词推理实现细粒度的适应性思考

附录 A Design Choices of Reward

除了第 3 节描述的基于前缀匹配的奖励机制外，论文还研究了其他几种奖励函数变体以评估其对强化预训练的影响
- 变体一：首词匹配（first-token matching）
  - 在此设置中，奖励仅反映模型预测 $ y_t^i $ 的首词是否与真实下一词 $ x_t $ 匹配，忽略预测中首词之后的所有词
- 变体二：探索了“密集奖励”（dense reward）方案：
  - 正确预测的下一词（即 $ y_t^i[0] = x_t $）获得满分奖励（如 1）；
  - 对于错误预测（$ y_t^i[0] \neq x_t $），奖励为一个较小的正值 ，具体为语言模型生成该错误词的概率 $ P(y_t^i[0] \mid x_{ < t}; \theta) $
    - 问题：为什么是错误词的概率？岂不是错误词的概率越大，奖励越大，应该是正确词的概率吧
  - 这提供了比二元奖励更密集的反馈信号
- 变体三：条件性应用密集奖励结构：
  - 仅当给定前缀 $ x_{ < t} $ 的 $ G $ 次采样中至少有一次正确预测下一词时 ，才使用密集奖励；
  - 若所有 $ G $ 次采样均错误，则应用其他奖励方案（如零奖励或统一的小惩罚）
实验表明，这些替代奖励与前缀匹配奖励相比，性能相当
- 表明强化预训练框架对这些奖励信号的修改具有较强的鲁棒性 ，其核心优势可能对这些特定选择不敏感，至少在测试的变体范围内如此

附录 B Hyperparameters Used for Reinforcement Pre-Training

表 5 展示了第 4 节中强化预训练的详细超参数
论文遵循精确策略强化学习（2025）的设置，将熵损失系数设为 0

附录 C Detailed Results on End Tasks

表 6 和表 7 展示了通用终端任务基准的详细分类性能
RPT-14B 模型在大多数类别中表现优于 R1-Distill-Qwen-14B 和 R1-Distill-Qwen-32B

附录 D Impact of Prompt Templates

论文探索了不同提示模板对初始下一词推理性能的影响
表 10 展示了七种模板变体，这些模板使用不同指令片段，并以不同形式包装上下文
如表 8 所示，清晰的 Prompt 能很大程度提升初始表现的准确性
- 第 4 节的强化预训练实验使用了“v0”模板，其他模板变体的优化留待未来工作

附录 E Keywords for Reasoning Pattern Analysis

表 9 列出了第 4.5 节中用于推理模式分析的模式组和关键词

附录 F Case Studies

表 11 展示了 RPT-14B 在下一词推理任务中的三个案例，包括模型对数学问题和文本上下文的推理过程
这些案例揭示了模型如何通过多角度思考生成最终预测

附录：概率和熵的关系图

关键词：entropy curve；熵和概率；概率和熵；曲线图；
假定只有一个 token 的值较大，其他 token 概率相同，此时的熵和最大概率的关系是如何的？

可视化最大概率和熵的关系的代码

import numpy as np
import matplotlib.pyplot as plt

# 设置中文显示
plt.rcParams["font.family"] = ["SimHei", "WenQuanYi Micro Hei", "Heiti TC"]
plt.rcParams["axes.unicode_minus"] = False  # 解决负号显示问题

def calculate_entropy(p, n=150000):
    remaining_p = (1 - p) / (n - 1)

    probabilities = np.full(n, remaining_p)
    probabilities[0] = p

    entropy = -np.sum(probabilities * np.log(probabilities))

    return entropy

p_values = np.linspace(0.0001, 0.9999, 9999)

entropy_values = [calculate_entropy(p) for p in p_values]

plt.figure(figsize=(10, 6))
plt.plot(p_values, entropy_values, 'b-', linewidth=2)

max_entropy_idx = np.argmax(entropy_values)
plt.scatter(p_values[max_entropy_idx], entropy_values[max_entropy_idx], color='red', s=50, zorder=5)
plt.annotate(f'最大熵: p={p_values[max_entropy_idx]:.2f}, H={entropy_values[max_entropy_idx]:.4f}',
            xy=(p_values[max_entropy_idx], entropy_values[max_entropy_idx]),
            xytext=(p_values[max_entropy_idx]+0.1, entropy_values[max_entropy_idx]+0.2),
            arrowprops=dict(facecolor='black', shrink=0.05, width=1.5, headwidth=8))

# print(entropy_values)
points = [0.5, 1.0, 1.5]
for point in points:
    for index, entropy in enumerate(entropy_values):
        if entropy <= point:
            print((p_values[index], entropy_values[index]))
            plt.scatter(p_values[index], entropy_values[index], color='red', s=50, zorder=5)
            break

plt.title('概率值p与熵的关系图 (15W个候选值)')
plt.xlabel('概率值p (第一个候选值的概率)')
plt.ylabel('熵 (nats)')
plt.grid(True, linestyle='--', alpha=0.7)
plt.xlim(-0.05, 1.05)
plt.ylim(0, max(entropy_values) * 1.1)

plt.tight_layout()
plt.show()

# (0.9695, 0.4999866540719247)
# (0.9361, 0.9991510505356568)
# (0.9012, 1.4999746052311926)

示意图：

NLP——SEAL

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：(SEAL)Self-Adapting Language Models, arXiv 20250612, MIT
- 主页：jyopari.github.io/posts/seal

Paper Summary

背景 & 问题：LLM 虽然强大，但缺乏动态调整其权重以应对新任务、知识或示例的机制
论文提出了 自适应大语言模型（SEAL, Self-Adapting LLMs） 框架，通过生成自身的微调数据和更新指令，使 LLM 能够自我调整
- 给定新输入时，模型会 produces a self-edit
  - a generation，可能以不同方式重组信息、指定优化超参数，或调用工具进行数据增强和基于梯度的更新
    
    Given a new input, the model produces a self-edit—a generation that may restructure the information in different ways, specify optimization hyperparameters, or invoke tools for data augmentation and gradient-based updates
- 通过 SFT ，这些 self-edit 会带来持久的权重更新，从而实现长期适应（lasting adaptation）
- 为了训练模型生成有效的 self-edit，论文使用强化学习循环（loop） ，将更新后模型在下游任务中的表现作为奖励信号
- 与依赖独立适应模块或辅助网络的现有方法不同，SEAL 直接利用模型的生成能力参数化并控制其自身的适应过程
在知识整合和 Few-shot 泛化的实验中，SEAL 展现了语言模型在新数据下实现自我导向适应的潜力

Introduction and Discussion

在大规模文本语料库上预训练的 LLM 在语言理解和生成方面表现出卓越能力（2020; 2023; 2024; 2025）
- 但将这些强大模型适配到特定任务（2020）、整合新信息（2020）或掌握新推理技能（2025）仍然具有挑战性，主要由于任务特定数据的稀缺性
论文探讨了一个有趣的假设：LLM 能否通过转换或生成自身的训练数据和学习过程来实现自我适应？（can an LLM self-adapt by transforming or generating its own training data and learning procedure?）
以人类学生学习为例，学生通常通过整理笔记来备考，这些笔记是对原始内容的重新解读和增强 ：这种将外部知识转化为更易理解形式的能力是人类学习的普遍特征
但当前 LLM 的训练和部署方式与人类学习形成鲜明对比：面对新任务时，LLM 只能通过微调或上下文学习（ICL, In-Context Learning）（2022; 2024; 2023）直接利用原始数据
- 这些数据可能并非最优格式（或数量），且现有方法无法让模型开发定制化的数据转换和学习策略
为实现语言模型的高效适应，论文提出赋予 LLM 生成自身训练数据和微调指令的能力
- 具体而言，论文引入了一种强化学习算法，训练 LLM 生成 self-edit（即指定数据和优化超参数的自然语言指令（如图1 所示）
- 论文将此类模型称为 自适应大语言模型（Self-Adapting LLMs，SEAL）
论文在两个应用中评估 SEAL
- 首先，测试其在整合新事实知识任务中的表现：模型通过生成合成数据而非直接微调原文
  - 在无上下文版本的 SQuAD（2016）问答任务中，准确率从 33.5% 提升至 47.0%
  - 值得注意的是，SEAL 自生成的数据表现优于 GPT-4.1 生成的合成数据
- 其次，论文在简化版 ARC-AGI 基准（2025）上评估 Few-shot 学习能力，模型通过调用工具自主选择数据增强和优化超参数（如学习率、训练轮次等）
  - 实验表明，SEAL 自动配置工具的能力显著优于标准上下文学习和未经强化学习训练的 self-edit 方法
- 这些结果共同证明，SEAL 是实现语言模型自我适应的通用框架

Methods

论文提出了 自适应性大语言模型（Self-Adapting LLMs, SEAL） ，这是一种框架，使语言模型能够通过生成自己的合成数据和优化参数（即“自我编辑”）来改进自身
- 模型通过 Token 生成直接产生这些自我编辑，生成过程以模型上下文中的数据为基础
- 自我编辑的生成通过 RL 进行训练，模型的奖励信号来源于应用自我编辑后模型在目标任务上的性能提升
- 因此，SEAL 可以视为一种包含两个嵌套循环的算法：
  - 外部强化学习循环优化自我编辑的生成
  - 内部更新循环利用生成的自我编辑通过梯度下降更新模型
论文的方法可以看作是一种元学习（meta-learning）实例，其目标是学习如何生成有效的自我编辑

General Framework

设 $\theta$ 表示语言模型 $\text{LM}_{\theta}$ 的参数，SEAL 在单个任务实例 $(C, \tau)$ 上运行，其中 $C$ 是包含任务相关信息的上下文，$\tau$ 是用于评估模型适应能力的下游任务
- 在知识整合任务中，$C$ 是需要整合到模型内部知识中的段落，$\tau$ 是关于该段落的一组问题和答案；
- 在 Few-shot 学习中，$C$ 包含新任务的少量示例，$\tau$ 是查询输入和真实输出
给定 $C$，模型生成一个自我编辑（SE），其形式因领域而异（见原论文 3.2 节），并通过 SFT 更新参数：
$$\theta’ \leftarrow \text{SFT}(\theta, \text{SE})$$
- 问题：SE 是什么，如何理解 SE？
- 回答：SE 是一些指令，给定一个新输入（如一段文本或少量示例），模型会生成一组数据或优化参数（即 self-edit），这些输出 SE 会被用于更新模型自身参数，从而提升模型
论文使用强化学习优化自我编辑的生成过程：模型采取动作（生成 SE），根据 $\text{LM}_{\theta’}$ 在 $\tau$ 上的表现获得奖励 $r$，并更新其策略以最大化期望奖励：
$$
\mathcal{L}_{\text{RL} }(\theta_t) := -\mathbb{E}_{(C,\tau)\sim\mathcal{D} } \left[ \mathbb{E}_{\text{SE}\sim\text{LM}_{\theta_t}(:C)} \left[ r(\text{SE}, \tau, \theta_t) \right] \right]. \tag{1}
$$
- 与标准强化学习设置不同，论文的奖励取决于模型参数 $\theta$（因为 $\theta$ 会更新为 $\theta’$ 并随后被评估）
- 因此，强化学习的状态必须包含策略的参数，即 $(C, \theta)$，尽管策略的观察仅限于 $C$（将 $\theta$ 直接放入上下文不可行）
- 这意味着从旧模型 $\theta_{\text{old} }$ 收集的（状态、动作、奖励）三元组可能与当前模型 $\theta_{\text{current} }$ 不匹配
- 为此，论文采用同策略（on-policy）方法，即自我编辑从当前模型中采样，并且奖励也基于当前模型计算
论文尝试了多种同策略方法，如 GRPO 和近端策略优化（PPO），但发现训练不稳定
- 最终，论文采用了 ReST$^{EM}$（2023），这是一种基于过滤行为克隆的简化方法，也称为“拒绝采样 + SFT”
- ReST$^{EM}$ 可以视为一种期望最大化（EM）过程：
  - E 步 ：从当前策略中采样候选输出；
  - M 步 ：仅对获得正奖励的样本进行监督微调
这种方法在二元奖励下优化了目标函数（1）的近似：
$$
r(\text{SE}, \tau, \theta_t) = \begin{cases}
1 & \text{If on } \tau \text{ adaptation using SE improves } \text{LM}_{\theta_t} \text{‘s performance}, \\
0 & \text{Otherwise}.
\end{cases} \tag{2}
$$
- 具体来说，在优化（1）时，论文需要计算梯度 $\nabla_{\theta_t} \mathcal{L}_{\text{RL} }$
- 但由于奖励项 $r(\text{SE}, \tau, \theta_t)$ 依赖于 $\theta_t$ 且不可微，论文将其视为固定值
- 在这种近似下，对于包含 $N$ 个上下文和每个上下文 $M$ 个采样自我编辑的小批量，蒙特卡洛估计为：
  $$
  \nabla_{\theta_t} \mathcal{L}_{\text{RL} } \approx -\frac{1}{NM} \sum_{i=1}^{N} \sum_{j=1}^{M} r_{ij} \nabla_{\theta_t} \log p_{\theta_t}(\text{SE}_{ij} \mid C_i), \tag{3}
  $$
  - 其中 $p_{\theta_t}$ 表示模型的自回归分布
  - $y_s^{(i,j)}$ 是自我编辑 $\text{SE}_{ij}$ 的第 $s$ 个 Token
  - 由于 $r=0$ 的序列可以忽略，因此 ReST$^{EM}$ 通过简单的“对优质自我编辑进行 SFT”优化了目标（1）
SEAL 的训练流程总结在算法1 中
此外，尽管论文使用单一模型同时生成自我编辑和学习这些编辑，但也可以将这两个角色解耦
- 在这种“教师-学生”框架中，学生模型通过教师模型提出的编辑进行更新，而教师模型则通过强化学习训练，以生成能最大化学生改进的编辑

Domain Instantiations

论文在两个领域实现了 SEAL 框架：知识整合（Knowledge Incorporation）和 Few-shot 学习。这两个领域展示了模型适应的两种互补形式：
- 1）将新信息整合到模型权重中，使其无需依赖上下文即可回忆（通过无上下文 SQuAD 评估）；
- 2）在少量示例后泛化到新任务（通过 ARC 评估）

Knowledge Incorporation

论文的目标是高效地将段落中的信息整合到模型权重中
一种有前景的方法是让语言模型生成基于段落的内容，然后对原始段落和生成内容进行微调（2022; 2023; 2024）
论文采用典型格式：段落的逻辑推论
- 这种方法将上下文 $C$ 转换为一组推论 $\text{SE} = \{s_1, s_2, \ldots, s_n\}$，并通过 Prompt 模型“列出从内容中衍生的几条推论”实现
- 输出可能包括原始段落的推论、逻辑结果或重述
- 在附录C 中，论文还探索了其他 Prompt ，如“以不同方式重写段落”或“以问答格式重写”，并发现无论基础 Prompt 如何，论文的方法都能带来相似的性能提升
这些自我生成的语句构成 SFT 的训练数据：论文对每个序列 $s_i$ 计算标准因果语言建模损失，并更新模型参数，得到 $\theta’$
- 由于每次更新的数据量较小且总更新次数较多，论文使用低秩适配器（LoRA）进行高效轻量级微调
- 最后，适应后的模型 $\text{LM}_{\theta’}$ 在任务 $\tau$ 上评估。这一过程如图2 所示
在强化学习训练中，适应模型在 $\tau$ 上的准确率定义了奖励 $r$，驱动外部强化学习优化。这训练模型以最适合微调的方式重组段落

Few-Shot Learning

抽象与推理语料库（Abstraction and Reasoning Corpus，ARC）是一个测试抽象推理和从极少示例中泛化的基准
- 每个任务包括少量输入-输出示例和一个需要预测正确输出的保留测试输入
论文采用测试时训练（TTT）协议，其中少量示例的增强用于执行基于梯度的适应。论文训练 SEAL 学习这些决策，而不是依赖手动调整的启发式方法。为此，论文定义了一组工具，每个工具是预定义的函数，用于转换数据或指定训练参数，包括：
- 数据增强（Data augmentations） ：旋转、翻转、反射、转置、调整大小操作（如更改网格分辨率）以及链式或重复变换
- 优化参数（Optimization parameters） ：学习率、训练周期数以及损失是否计算所有 Token 或仅输出 Token
模型通过任务的少量示例 Prompt 生成自我编辑（即指定调用哪些工具及如何配置的指令），如图3 所示
- 然后通过基于 LoRA 的微调应用这些自我编辑来适应模型
- 适应后的模型在保留测试输入上评估，结果决定训练自我编辑生成策略的奖励

Results

本节论文通过两个适应领域实证评估 SEAL： Few-shot 学习和知识整合。完整的训练、超参数和评估细节见附录A 和附录B

Few-Shot Learning

论文使用 Llama-3.2-1B-Instruct（2023）进行实验，这是一个未针对 ARC 进行预训练的小型开源模型
- 由于大多数 ARC 任务对未经预训练的模型具有挑战性，论文从 ARC 训练集和评估集中分别筛选了 11 个和 8 个任务，确保它们在最优 TTT 配置下可解
模型通过 ReST$^{EM}$ 训练，每个训练任务采样 15 个自我编辑
- 每个自我编辑独立生成 15 个更新模型，随后在对应的保留测试示例上评估
- 论文仅强化那些导致模型正确适应的自我编辑（即适应后能正确输出测试输入的模型）
训练后，论文通过为每个保留评估任务生成 5 个自我编辑并独立应用它们来评估模型
- 然后报告导致正确输出的自我编辑百分比，反映学习到的自我编辑生成策略的质量
论文对比了以下基线：
- 1）ICL（上下文学习） ：Llama-3.2-1B-Instruct 直接通过少量示例 Prompt 并查询测试输入
- 2）TTT + 自我编辑（无 RL 预训练） ：模型使用少量示例和合成增强进行测试时训练，但未通过 RL 优化增强或训练配置
- 3）Oracle TTT ：模型使用人工设计的最优配置进行测试时训练，作为方法的上限
结果如表1 所示
- SEAL 显著提高了适应成功率：72.5% vs. 20%（无 RL 训练的自我编辑）和 0%（无适应），但性能仍低于 Oracle TTT，表明还有改进空间

Knowledge Incorporation

论文在 Quen2.5-7B 上实验，整合来自 SQuAD 段落的新事实内容
论文进行了两轮 ReST$^{EM}$ 训练，每轮包含 50 个上下文（详见附录B）。论文对比了以下基线方法：
- 1）基础模型 ：未经适应的预训练模型，无法访问段落
- 2）仅训练段落 ：模型直接对段落进行标准语言建模损失微调，无合成数据
- 3）训练段落 + 合成数据 ：模型训练段落及自我生成的推论，与 SEAL 相同但无 RL 训练
- 4）训练段落 + GPT-4.1 合成数据 ：模型训练段落及通过 OpenAI API 从 GPT-4.1 生成的推论
表2 报告了两种设置下的平均无上下文 SQuAD 准确率：单段落（$n=1$）和持续预训练（CPT, $n=200$）
- 在单段落设置中，直接微调段落仅比冻结基础模型略优（33.5% vs. 32.7%），表明原始数据不足
- 使用 GPT-4.1 生成的合成数据将准确率提升至 46.3%，比仅段落基线高 12.8 个百分点
- 使用 Quen-2.5-7B 生成的合成数据达到 39.7%，提高 6.2 个百分点
- 经过强化学习后，SEAL 进一步将准确率提升至 47.0% ，显著优于 GPT-4.1 的合成数据，尽管模型规模小得多
在 CPT 设置中，模型在一次持续预训练中整合了 $n=200$ 个段落的信息，随后在所有 974 个对应问题上评估
SEAL 再次超越所有基线，达到 43.8% 准确率。尽管绝对性能低于单段落设置（可能由于梯度干扰增加），但相对改进一致，表明 SEAL 的编辑策略能够泛化到原始 RL 设置之外
图4 跟踪了每轮 RL 迭代后的准确率。两轮迭代后 SEAL 即超越 GPT-4.1 数据；后续迭代收益递减，表明策略快速收敛为将段落提炼为易学习的原子事实（定性示例见图5）。所有结果均使用调优超参数（见附录B）

Limitations

Catastrophic Forgetting

论文提出 self-edit 语言模型（SEAL）的一个关键动机是实现持续学习（Continual Learning）的终极目标——让模型能够随着时间的推移不断整合新信息，无论是通过与环境的主动交互还是通过标准训练
虽然之前的实验评估了 SEAL 在独立编辑场景下的适应能力，但更雄心勃勃的目标是支持连续的编辑序列 ：模型能否在保留已有知识的同时，反复适应新信息？
这一问题直接关联到灾难性遗忘（2014, 2015）的挑战，即新更新会破坏过去的学习成果
- 当前的训练设置并未显式优化知识保留，但论文旨在建立一个基线，评估SEAL在没有专门机制的情况下处理连续 self-edit 的能力
- 为了测试这一点，论文在知识整合领域模拟了一个持续学习场景：模型接收一系列测试段落，每个段落触发一次新的 self-edit
- 每次更新后，论文重新评估模型在所有已见任务上的表现，以衡量其知识保留能力
如图6所示，随着编辑次数的增加，模型在早期任务上的表现逐渐下降，这表明SEAL仍然容易受到灾难性遗忘的影响
- 尽管如此，它能够在多次更新后避免完全崩溃，这表明未来仍有改进空间
- 未来的工作可以通过奖励塑形（2020, 2024）来增强这一能力，例如惩罚对早期任务的回归，或整合持续学习策略，如零空间约束编辑（2025）或表示叠加（2019）

Computational overhead

TTT（Test-Time Training）奖励循环的计算成本显著高于其他用于 LLM 的 RL 方法
例如，基于人类偏好的奖励信号通常只需要一次模型前向传播，而基于验证解的奖励可能仅依赖简单的模式匹配（如正则表达式）
相比之下，论文的方法需要对整个模型进行微调和评估以计算奖励——每次 self-edit 评估大约需要30-45秒，带来了显著的开销（详见附录B.5）

Context-dependent evaluation

当前的实例化假设每个上下文都配有一个明确的下游任务：Few-shot 示例附带一个保留的查询对，每个段落捆绑了参考问答
这种耦合简化了奖励计算，但阻碍了 SEAL 的 RL 训练扩展到未标注语料库
一个潜在的解决方案是让模型不仅生成 self-edit，还为每个段落生成自己的评估问题（例如草拟问答项或合成测试用例），同时保留原始内容在上下文中
这些模型编写的查询可以提供强化学习所需的即时监督，从而将适用性扩展到缺乏外部问答集的通用训练领域

合成数据生成（Synthetic Data Generation） ：
- 合成数据在训练中的应用日益广泛，从大规模预训练数据集（2023; 2024; 2024）到任务特定的数据增强（2023; 2024）和指令微调集（2023; 2023）
- Yang 等人（2025）通过基于图的 Prompt 生成合成数据
- SEAL 在此基础上，利用强化学习训练生成策略，直接最大化合成数据在梯度更新中的下游效用，而非依赖手动调整的静态启发式方法
知识更新（Knowledge Updating） ：
- 近期研究尝试通过权重更新修改或注入事实知识
- 部分方法直接定位与特定事实相关的参数（2022; 2022; 2023）
- 另一些则利用上下文信息生成额外的微调数据（2024; 2024; 2025; 2025）
- 论文采用后者，参考 Akyurek 等人（2024）提出的逻辑蕴涵生成和 Lampinen 等人（2025）展示的蕴涵微调优于上下文学习的结果
- SEAL 通过强化学习训练模型生成更优的微调数据，进一步扩展了这些方法
- Park 等人（2025）表明，直接生成问答对（QA）的 Prompt 优于蕴涵式 Prompt
- 由于 SEAL 框架对 self-edit 数据的格式无关，它同样可以训练生成 QA 对或其他输出格式
测试时训练（TTT, Test-Time Training） ：
- 测试时训练基于输入临时调整模型权重（2020; 2022; 2024）。Akyurek 等人（2025）表明，TTT 与上下文学习结合可在 Few-shot 设置中超越标准 ICL
- SEAL 在内部优化中整合了 TTT，利用其高效性执行多次更新，并奖励带来最大性能提升的数据生成策略
LLM 的强化学习（Reinforcement Learning for LLMs） ：
- 强化学习在改进 LLM 行为中发挥核心作用，最初通过 RLHF（2022）实现
- 近期研究利用可验证奖励直接优化任务成功率（2022; 2024; 2025）
- SEAL 将强化学习应用于优化 self-edit 数据的生成，而非最终答案或推理轨迹的修订
元学习与自修改系统（Meta-Learning and Self-Modifying Systems） ：
- SEAL 通过外部优化循环学习适应策略（即如何生成有效的 self-edit），体现了元学习原则（2001; 2017; 2025），其目标是学习如何高效地从任务上下文中学习
- 元学习同样已应用于强化学习领域在该领域中，模型通过元目标进行训练，以快速适应新任务
- 这类工作的一个自然延伸是自指网络（self-referential networks），即模型自行修改自身参数（1992; 2022）
- 在大型语言模型领域，近期的研究已将元学习原则应用于改进 LLM 的适应性[2024;2023]
- 值得注意的是，Hu等人（2023）训练了一个较小的模型，使其在对语料库进行微调时输出特定于标记的权重，以解决与我们类似的知识整合任务
- 然而，SEAL 通过利用模型现有的生成能力来参数化更新，从而在跨领域场景中展现出更强的通用性
自我改进（Self-Improvement） ：
- 近期研究涵盖自我改进或自训练的多种方法
- RLAIF（2022; 2024）和自我奖励语言模型（2024; 2025）利用模型自身提供奖励信号，基于判断输出比生成更容易的观察（2025）
- 其他工作通过多数投票或模型置信度作为强化学习奖励，在无真实标签的情况下提升数学任务性能（2023; 2024; 2025; 2025）
- 然而，这些方法受限于模型的当前评估能力和自一致性，相比之下，SEAL 通过与外部数据的交互实现自我改进，为更具扩展性的路径提供了可能

Discussion and Conclusion

Villalobos等人（2024）预测，到2028年，前沿 LLM 将完成对所有公开人类生成文本的训练
作者认为，这一迫近的“数据墙”将迫使人们采用合成数据增强 ，一旦网络规模的语料库耗尽，进展将取决于模型自主生成高效用训练信号的能力
自然的下一步是元训练一个专用的 SEAL 合成数据生成模型，生成新的预训练语料库，使未来模型能够在无需额外人类文本的情况下扩展并实现更高的数据效率
我们可以设想一个未来场景：大语言模型能够消化新数据（如学术论文），并利用上下文中的数据和已有知识生成大量解释和推论
- 这种自我表达和自我优化的迭代循环可能使模型即使在缺乏外部监督的情况下，也能在罕见或代表性不足的主题上持续改进
此外，尽管现代推理模型通常通过强化学习生成思维链（CoT）轨迹，但 SEAL 可以提供一种互补机制，让模型学习何时以及如何更新自身权重
- 这两种方法可以协同作用：模型可能在推理过程中选择更新权重以引导当前轨迹，或在完成推理后将关键见解提炼到参数中——通过内部化学习提升未来推理能力
这种持续优化的循环对于构建代理系统（Agentic Systems）也很有前景——这些模型在长期交互中运行，并动态适应不断变化的目标
- 代理模型必须逐步获取和保留知识
- 论文的方法通过支持结构化的自我修改来实现这种行为：在交互后，代理可以合成一个 self-edit，触发权重更新
- 这可能使代理能够随时间发展，使其行为与先验经验对齐，并减少对重复监督的依赖
SEAL 证明了大语言模型在预训练后不必保持静态：通过学习生成自己的合成 self-edit 数据并通过轻量级权重更新应用这些数据，它们可以自主整合新知识并适应新任务
展望未来，作者计划将 SEAL 框架扩展到预训练、持续学习和代理模型中，最终使语言模型能够在数据受限的世界中自我学习和扩展

附录A 实验细节：Few-shot 学习（Experimental Details: Few-shot Learning）

模型与设置 ：论文使用Llama-3.2-1B-Instruct（2024）作为基础语言模型。由于该模型未针对ARC进行专门训练，其解决ARC任务的能力有限。为了进行受控评估，论文从训练集和评估集中筛选了一小部分可通过最优TTT超参数解决的 ARC 问题
- 训练集 ：从训练集中选择了11个ARC任务作为RL优化的环境
- 评估集 ：从评估集中选择了8个不同的ARC问题用于衡量泛化性能。这8个问题明确筛选为适合TTT的场景
这些集合的选择是为了隔离 self-edit 学习的效果，而非通用ARC能力
训练流程 ：论文在11个训练问题上使用单轮强化学习训练SEAL。对于每个问题，模型生成15个 self-edit 配置，包括：
- 数据增强策略 ：控制是否包含基本示例、基于尺寸的增强、链式推理和重复输入
- 优化配置 ：指定学习率、训练轮数和损失函数类型（例如是否对所有 Token 或仅最终输出 Token 计算损失）
每个配置通过测试时训练（TTT）评估，并分配二元奖励：如果适应后的模型生成正确解则为1，否则为0
评估细节 ：对于8个保留的评估任务，模型生成5个 self-edit 配置，共40个配置。成功率衡量为适应后生成正确输出的配置百分比

附录B 实验细节：知识整合（Experimental Details: Knowledge Incorporation）

模型与设置 ：论文在知识整合实验中使用Quen-2.5-7B基础模型（2025）。论文将SQuAD数据集v1.1（2016）重新用于无上下文段落的问答任务
RL训练流程 ：论文运行2轮 ReST$^{EM}$ 训练（2025）
- 每轮从 SQuAD 训练集中抽取 50 个上下文-问题-答案三元组。对于每个上下文，采样 5 个 self-edit 生成（温度=1），并通过 3 个随机种子评估每个生成
合成数据生成与微调细节 ：在所有模型中，论文通过 Prompt 生成段落的推论来生成合成数据
评估细节 ：论文在 SQuAD 评估集的 200 个段落子集上评估，共974个问题
- 使用 GPT-4.1（2025）通过 OpenAI API 进行自动评分
计算资源 ：所有实验在 2×H100 或 2×H200 上运行
- 使用 DeepSpeed ZeRO-3（2020）进行 ReST$^{EM}$ 训练的 SFT，使用 vLLM（2023）进行高效推理

附录C Prompting

近期研究表明，强化学习基线和结果对 Prompt 高度敏感。论文在知识整合设置中测试了 4 种额外的 self-edit Prompt；五种 Prompt 如下：
- 1）推论（Implications）
- 2）长推论（Implications-long）
- 3）超长推论（Implications-very-long）
- 4）重写（Rewrite）
- 5）自问答（Self-QA）
结果显示，尽管通过 Prompt 生成长响应可以提高性能，但以这些 Prompt 为基础的 RL 训练能带来更大的改进
- 在所有情况下，ReST$^{EM}$将性能提升了约 6 到 11 个百分点

NLP——将传统强化学习Trick用到LLM中的思考

参考链接：
- 英文链接：Old-School Deep RL Tricks for Modern LLM Training
  - 本文主要翻译该英文链接的内容，并包含自己的一些思考
- 中文解读博客：炒冷饭：把祖传RL的tirck塞进LLM

整体说明

本文讨论如何将深度强化学习技术移植到 RLHF/RLAIF 和使用工具的 LLM 智能体中
- 具体设计到的技术包括 $n$ 步回报、TD($\lambda$)、不确定性、安全性以及其他
本文收集了著名的深度强化学习技术（前 LLM 时代），并将其适配到现代 LLM 的训练/推理中
以下方法并非唯一途径（可将其视为实用的起点），可以根据自己的技术栈进行优化

为何要将深度强化学习理念引入 LLM？

生成过程就是一条轨迹：隐藏状态 $h_t$ 和动作 $y_t$ （Token 或工具调用）
奖励可能是稀疏的（仅在序列末尾有一个分数）或 Dense 的（规则、自我批判、任务进度）
这正是经典深度强化学习所针对的场景：长 horizon 信用分配、带噪声的目标以及安全约束

用于长文本的多步回报、TD($\lambda$) 和 GAE

设 $h_t$ 为 Token $y_{1:t-1}$ 之后的解码器状态
训练一个价值头 $V_\phi(h)$ 用于预测未来奖励
$n$步回报
$$
G_t^{(n)}=\sum_{i=0}^{n-1}\gamma^i r_{t+i}+\gamma^n V_\phi(h_{t+n})
$$
TD 更新
$$
V_\phi(h_t)\leftarrow V_\phi(h_t)+\alpha\big(G_t^{(n)}-V_\phi(h_t)\big)
$$
TD($\lambda$)/GAE（Actor-critic）
$$
\hat A_t=\sum_{l=0}^{\infty}(\gamma\lambda)^l\delta_{t+l}
$$
- 其中 $\delta_t=r_t+\gamma V_\phi(h_{t+1})-V_\phi(h_t)$
带 KL 控制的策略梯度
$$
\nabla_\theta J \approx \mathbb{E}\left[\sum_t \hat A_t \nabla_\theta \log \pi_\theta(y_t|h_t)\right] -\beta\nabla_\theta \mathrm{KL}\big(\pi_\theta|\pi_{\text{ref} }\big)
$$

应用场景

仅带有 end-of-sequence scores 的长文本生成/摘要（Long-form generation/summarization）：
- 通过 GAE 在 Token 间传播信用（propagate credit via GAE across tokens.）
多轮对话助手（Multi-turn assistants）：
- 将每一轮视为一个步骤；
- 设置 $\gamma<1$ 以减少不必要的轮次（理解：对于最后一步给奖励的场景，$\gamma<1$ 相当于鼓励缩短决策轮次）
工具/代码智能体（Tool/Code agents）：
- 每次工具调用或单元测试结果作为一个步骤；
- $n$ 步回报可快速利用中间反馈
RAG/问答：
- 将检索质量/格式检查作为 Dense 奖励，以解决稀疏信用问题（sparse-credit problems.）

Off-policy multi-step without explosions

混合日志数据和新轨迹是常见做法（需结合修正进行多步学习）
V-trace（适用于分布式采样，具有稳定性） ：
$$
\rho_t=\min\left(\bar\rho,\frac{\pi_\theta(y_t|h_t)}{\mu(y_t|h_t)}\right),\quad c_t=\min\left(\bar c,\frac{\pi_\theta(y_t|h_t)}{\mu(y_t|h_t)}\right)
$$
- 使用 $c_t$ 截断 eligibility 并构建修正后的优势
Retrace($\lambda$)
$$
c_t=\lambda \min\left(1,\rho_t\right)
$$
Tree-Backup($\lambda$) ：
- 期望回溯（无重要性权重），方差更低，偏差较小
典型截断值： $\bar\rho\in[1,2]$ ， $\bar c=1$

附录：V-trace 介绍

原始论文 IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures, ICML 2018, Google
- IMPALA：Importance Weighted Actor-Learner Architectures
V-trace 是一种用于强化学习的 Off-policy 修正方法，主要用于解决分布式强化学习中 Actor 和 Learner 策略不一致的问题
问题引入：
- 在分布式强化学习框架 IMPALA 中，Actor 负责与环境交互生成经验轨迹，Learner 则根据这些轨迹来更新策略
- 由于 Learner 的更新速度通常比 Actor 快，导致用于生成轨迹的策略滞后于 Learner 的当前策略，使得学习过程变成了 Off-policy 学习
- V-trace 就是为了校正这种策略差异带来的不良影响而设计的
V-trace 核心思想 ：
- V-trace 通过引入重要性采样（Importance Sampling）来修正 Off-policy 学习中的偏差
- V-trace 对传统的策略梯度公式进行了改进，通过裁剪重要性系数来稳定方差，使得训练更加稳定
- 具体来说，V-trace 在计算值函数更新时，使用了经过裁剪的重要性采样比率，限制了重要性系数的最大值，以防止因策略分布差异过大导致的估计偏差过大
V-trace 数学公式 ：
- 在 V-trace 算法中， $n$ 步下的目标价值函数可以表示为：
  $$ V_s = V(x_s) + \sum_{t=s}^{s+n-1} \gamma^{t-s}(\prod_{i=s}^{t-1} c_i )\delta_t V$$
  - $\delta_t V$ 的表达式为：
    $$ \delta_t V = \rho_t(r_t + \gamma V(x_{t+1}) - V(x_t))$$
    - 其中：
      $$
      \rho_t = min(\bar{\rho},\frac{\pi(a_t|x_t)}{\mu(a_t|x_t)}) \\
      c_i = min(\bar{c},\frac{\pi(a_i|x_i)}{\mu(a_i|x_i)}) \\
      $$
  - $\pi$ 是目标策略（Learner 的策略）
  - $\mu$ 是行为策略（Actor 的策略）
  - $\bar{\rho}$ 是重要性系数的裁剪阈值
  - $c_i$ 是用于控制模型收敛速度的参数
V-trace 的作用 ：
- V-trace 使得 IMPALA 能够在高吞吐量的情况下，通过结合解耦的 Acting 和 Learning 过程，实现相当稳定的学习
- V-trace 有效地解决了分布式强化学习中因策略时间差导致的训练不稳定问题，提高了算法的效率和鲁棒性

应用场景

带大量历史日志的 RLHF/RLAIF：减少行为-目标不匹配导致的偏差
Distributed/asynchronous sampling（IMPALA-style）：学习器和执行者不同步
- 分布式/异步采样场景中
离线+在线混合训练：安全复用旧数据，同时保持稳定性

Uncertainty and risk: optimize for reliability, not just averages

奖励模型不确定性（集成/贝叶斯头） （Reward-model uncertainty (ensembles/Bayesian head)）
- 设 $\hat r$ 为均值， $\sigma^2$ 为方差
- 对高风险样本进行降权：
  $$
  \tilde A_t=\frac{\hat A_t}{1+\alpha \sigma_t}
  $$
条件风险价值（CVaR，聚焦尾部） (tail-focus)
$$
\mathrm{CVaR}_\alpha(R)=\mathbb{E}[R \mid R \le q_\alpha]
$$
- 通过奖励的分位数回归（quantile regression）实现，并在更新时对低分位数值进行掩码
偏好可靠性 (Preference reliability)
- 通过 Bradley-Terry 置信度对成对偏好进行加权，以减少噪声标签导致的过拟合
参数不确定性 (Parameter uncertainty)
- 策略/价值上的 Laplace-LoRA 或小型集成可提供每个状态的方差，用于控制步长或触发“重新生成与重新评分”

附录：条件风险价值（CVaR）

条件风险价值（Conditional Value at Risk，CVaR），常被称为 Expected Shortfall
CVaR 含义是：
- 在给定置信水平 $\alpha$（通常是一个较小的值，如 0.05 或 0.1）的情况下，所有风险超过 $\alpha$ 的情况对应损失的期望值
- 简单来说，CVaR 关注的是 “最坏情况中的平均损失”
  - 例如，当 $\alpha=0.05$ 时，CVaR 表示在所有可能发生的结果中，损失最大的 5% 的情况的平均损失
CVaR 常被用于风险敏感型决策，尤其适用于需要规避极端不利结果的场景

应用场景

安全性/合规性要求高的领域（医疗、金融、教育）：减少罕见的灾难性失败
噪声或主观的人类反馈：不确定性加权更新可稳定学习
领域偏移/检索质量波动：检测分布外（OOD）情况并重新路由至重新评估

Safety as constraints, not just penalties

设 $c(h_t,y_t)$ 为安全成本（毒性、个人身份信息（PII）、事实风险）。通过拉格朗日方法进行优化：
$$
\max_\theta\ \mathbb{E}[R] - \lambda\big(\mathbb{E}[c]-\tau\big) \ -\ \beta\mathrm{KL}\left(\pi_\theta|\pi_{\text{ref} }\right)
$$
通过对偶上升更新 $\lambda$
训练一个成本价值头 $C_\psi(h)$
推理时添加屏蔽（分类器/正则表达式/规则）以过滤不安全 Token，或路由至拒绝模板
训练时的约束与解码时的屏蔽结合使用效果最佳

应用场景

企业/公共部门（Enterprise/public-sector）：严格的个人身份信息（PII）/合规控制
开放式对话/内容（Open-ended chat/content）：减少毒性/偏见
高事实性要求（High factuality requirements）：将幻觉信号视为成本

Robustness to distribution shift and prompt attacks

分布鲁棒优化（distributionally robust optimization，DRO）：在训练提示分布 $\hat P$ 周围的 $f$-divergence ball $\mathcal{Q}$ 内最大化最坏情况下的奖励
$$
\max_\theta \ \min_{Q\in \mathcal{Q} } \ \mathbb{E}_{x\sim Q}\big[R(\pi_\theta; x)\big]
$$
- 问题：待补充理解
实用方案（Practical recipe）：
- 对抗性重加权和对抗性提示生成
- 添加红队测试循环和领域随机化（检索噪声、工具延迟、系统提示）

附录：DRO

在强化学习中，分布鲁棒优化（Distributionally Robust Optimization, DRO） 是一种旨在提高策略对环境分布不确定性鲁棒性的方法
DRO 结合了分布鲁棒优化的核心思想与强化学习的框架，解决了传统 RL 方法在环境分布未知（真实的状态转移概率 $ p(s’|s,a) $ 未知）、存在扰动或偏移时性能下降的问题
DRO 通过建模环境分布的不确定性集合，在最坏情况下优化策略性能，从而提高策略对分布扰动、估计误差或偏移的鲁棒性
DRO 是解决 RL 中“分布不确定性”问题的重要框架，尤其适用于非平稳环境、安全关键场景或模型误差较大的场景，但需在鲁棒性与计算效率、性能之间进行精细权衡

DRO 背景：强化学习中的分布不确定性

强化学习的核心是在马尔可夫决策过程（MDP）中学习最优策略，而 MDP 的关键组件（如状态转移分布、奖励分布、初始状态分布）往往存在不确定性：
- 状态转移分布 ：真实的状态转移概率 $ p(s’|s,a) $ 通常未知，只能通过有限样本估计，可能存在偏差；
- 奖励分布 ：奖励函数可能受噪声影响，或随环境动态变化；
- 分布偏移 ：实际部署时，环境分布可能与训练时不同（如领域自适应、非平稳环境）
传统 RL 方法（如 Q-learning、PPO 等）通常假设可以通过采样准确估计真实分布，或直接使用经验分布，但这种假设在分布不确定时会导致策略不稳定、泛化能力差

DRO 的基本思想

DRO 的核心是 “在不确定性中求稳健” ：
- 当无法获知真实分布时，按如下步骤进行：
  - 第一步：定义一个包含真实分布的 “不确定性集合”（uncertainty set） （即所有可能的候选分布构成的集合）
  - 第二步：在这个集合中 针对最坏情况（worst-case）优化目标函数
  - 最终得到的解对集合内的所有分布都能保持较好性能，从而提高鲁棒性
简单来说：传统优化是 “针对真实分布求最优”，而 DRO 是“针对最坏可能的分布求最优”

DRO：RL 问题形式化

在 RL 中，DRO 的目标是学习一个策略，使其在不确定性集合内的所有可能分布下都能最大化（或保证）累积奖励
以 MDP 为例，其核心形式化为：
$$
\max_{\pi} \min_{p \in \mathcal{U}} V^{\pi}(p)
$$
其中：
- $ \pi $ 是待优化的策略；
- $ \mathcal{U} $ 是不确定性集合（包含真实分布的候选分布集合）；
- $ V^{\pi}(p) $ 是策略 $ \pi $ 在分布 $ p $ 下的价值函数（累积奖励期望）
目标是找到一个策略 $ \pi $，使得在不确定性集合 $ \mathcal{U} $ 中最坏的分布 $ p $ 下，价值函数 $ V^{\pi}(p) $ 尽可能大

DRO 中不确定性集合如何构造？

不确定性集合 $ \mathcal{U} $ 的定义是DRO的核心，它直接决定了鲁棒性的范围和程度。构造方式通常基于统计距离（衡量分布间的差异），常见的包括：

统计距离	定义与应用场景	特点
KL散度（KL-divergence）	$ \mathcal{U} = \{ p \mid \text{KL}(p \parallel \hat{p}) \leq \epsilon \} $，其中 $ \hat{p} $ 是经验分布，$ \epsilon $ 是不确定性预算。	适用于高维分布，计算相对简单，但不对称（$KL(p\|\|q) \neq KL(q\|\|p)$）
Wasserstein距离	$ \mathcal{U} = \{ p \mid W_c(p, \hat{p}) \leq \epsilon \} $，基于最优传输理论，衡量分布间的“运输成本”。	对异常值更稳健，适用于连续分布，但高维下计算复杂
总变差距离	$ \mathcal{U} = \{ p \mid \text{TV}(p, \hat{p}) \leq \epsilon \} $，衡量分布最大差异。	直观但严格，导致集合较小，解可能过于保守

不确定性集合的大小由参数 $ \epsilon $ 控制：
- $ \epsilon $ 越大，集合包含的分布越多（鲁棒性越强，但可能过于保守，牺牲性能）；
- $ \epsilon $ 越小，集合越接近经验分布（性能可能更好，但鲁棒性下降）

DRO 在强化学习中的典型应用

Model-based RL中的鲁棒策略学习
- 在 Model-based RL 中，若环境模型（如状态转移函数）存在误差，DRO 可通过构造模型分布的不确定性集合，优化最坏情况下的策略，避免模型误差导致的性能崩溃
Model-free RL中的分布偏移处理
- Model-free 方法依赖采样数据，若采样分布与真实分布存在偏移（如探索不足、噪声干扰），DRO 可通过对采样分布的不确定性建模，使策略对偏移更稳健
安全强化学习（Safe RL）
- 在需要满足安全约束（如避免碰撞、能耗上限）的场景中，DRO 可确保策略在约束分布的最坏情况下仍不违反安全条件

DRO 相关的挑战与权衡

计算复杂度 ：DRO 需求解 min-max 优化问题（先最小化最坏分布，再最大化策略性能），比传统 RL 的单目标优化更复杂，尤其在高维状态/动作空间中难以高效求解
鲁棒性与保守性的权衡 ：不确定性集合过大可能导致策略过于保守（为了稳健牺牲了最优性能）；过小则可能无法覆盖真实分布，失去鲁棒性
不确定性集合的合理性 ：如何基于有限数据构造“既包含真实分布，又不过大”的集合，是 DRO 的核心难点（通常依赖统计理论或领域知识）

应用场景

公共 LLM 端点：抵御越狱/攻击提示
RAG 系统：证据质量和风格存在差异
跨领域泛化：训练-部署偏移（training–serving shift）

Model-based flavor: value-guided decoding

采样时使用价值头作为短 horizon 前瞻：
$$
\log \tilde \pi(y_t|h_t) = \log \pi_\theta(y_t|h_t) + \eta\big( V_\phi(h_{t+1}) - V_\phi(h_t) \big)
$$
- 公式理解：朝前面看一步，看看下一步 $V_\phi(h_{t+1})$ 相对当前这步 $V_\phi(h_{t})$ 带来的价值提升，提升越大的动作 $y_{t}$，则赋予更大的采样概率（直接将增益加到原始对数概率上）
- 问题：是不是在于原始策略输出概率增加前或后，增加一个归一化步骤会更好？
对于工具智能体，展开 $n$ 步工具计划并引导至 $V_\phi$
这可在不重新训练整个策略的情况下，推动生成过程向高下游价值方向发展

应用场景

代码/测试驱动生成：偏向通过测试/完成子任务
冗长推理/约束写作：解码时更严格地遵循目标
低重训练预算：无需完整强化学习周期即可获得“轻量级规划”收益

Offline and conservative RL from logs

IQL/AWAC 风格的优势加权更新
$$
\pi_\theta \leftarrow \arg\max_\theta \ \mathbb{E}\left[\exp\left(\frac{A_\beta(s,a)}{\lambda}\right)\log \pi_\theta(a|s)\right]
$$
CQL 风格的抑制 ：
- 通过压低未见过的文本/动作上的 $Q$ 值，抑制过度乐观的分布外（OOD）动作
- 在偏好空间中，添加行为正则化器 $\log \pi_\beta(y|h)$ 以保持策略接近日志行为
通过双重鲁棒异策略估计器进行评估：
- 建模奖励 $\hat r$ ，并将重要性权重与控制变量结合使用

应用场景

日志丰富，在线数据有限：在风险探索前充分利用历史数据的价值
高风险领域：先进行保守改进，再逐步扩展
新领域冷启动：初始时保持接近 $\pi_\beta$

Exploration and diversity (without going off the rails, 不偏离正轨)

熵/温度：SAC 风格的熵奖励或受控采样温度
内在动机：基于 $h_t$ 的分歧/RND，以鼓励新颖的语义或新工具路径
*
多样性正则化器：去重；与提示的互信息

应用场景

创意写作/广告/教育内容：在安全范围内实现风格/结构多样性
工具链发现：找到可靠的新序列
覆盖导向的评估：扩大提示集群覆盖范围

Hierarchy and skills: plan–act–verify

慢规划器输出子目标（工具计划、大纲），快执行器实现子目标
训练类选项策略，或通过模仿/离线强化学习预训练技能库，并通过高层控制器调用技能

应用场景

多工具/多步骤工作流（检索 -> 规划 -> 执行 -> 验证）
可分解的大型任务（数据 Pipelines、无人机调度（UAV scheduling）、城市分析(urban analytics)）
跨任务/领域的技能复用

Common pitfalls（陷阱）

Only end-of-sequence reward + weak value -> unstable advantages. Densify or invest in $V$.
- 理解：仅序列最后奖励+奖励模型比较弱，会造成不稳定的优势，需 Dense 化奖励或优化 $V$
Off-policy drift without correction -> biased updates. Use V-trace/Retrace.
- 理解：无修正的 Off-policy 偏移是有偏更新，需使用 V-trace/Retrace 修正
Single deterministic reward model -> brittle. Prefer ensembles/quantiles.
- 单一确定性奖励模型是脆弱的（理解：不稳定，方差大），建议优先选择集成/分位数奖励
Safety only at decoding time -> model still learns unsafe regions. Train with constraints too.
- 仅在解码时考虑安全意味着模型仍会学习不安全区域，建议训练时也需添加约束

Closing Remarks

以上这些是将“传统技巧”切实转化为 LLM 实践的方法
如果只选择一种技术组合，可从 PPO + GAE + V-trace + Lagrangian safety 开始，然后添加不确定性感知加权（uncertainty-aware weighting）和价值引导解码（value-guided decoding）
作者很想了解反例和更好的方案，欢迎调整并分享在你的系统中有效的（或无效的）方法

Joe Zhou

Stay Hungry. Stay Foolish.

GitHub E-Mail

Post-Training

Expert Model Construction and Self-Distillation

Hyper-Parameters

Scalable RL

MIS-Filtered Policy Optimization, MIS-PO

Truncation-Aware Value Bootstrapping

Routing Confidence as a Stability Proxy

RL Training Dynamics

Reward System

Verifiable Rewards

Non-Verifiable Reward

Agent Reward（待讨论）

GenRM Training and MetaRM

Hyper-Parameters

Data Synthesis & Curation

General and Reasoning

Generalized Tool Learning

Code Agents

Search and Research Agents

Agent Infrastructure

Reasoning with Tool-Use Template Design

Scalable Code Agent Infrastructure

附录：Metropolis Independence Sampling (MIS) 介绍

Metropolis Independence Sampling 方法的核心思想

Metropolis-Hastings 接受概率

论文中 MIS-PO 的创新应用

问题背景

MIS-PO 的核心创新

双重过滤机制

MIS-PO 的优势

原始 Transformer

基本 Attention 公式

Multi-Head Attention

加入位置编码（仅修改输入即可）

Self-Attention 完整公式（以单头为例）

Self-Attention 简单实现

固定位置编码实现

Rotary Position Embedding, RoPE

多头注意力下的 RoPE

多头注意力下的 RoPE 实现

关于 RoPE 的一些讨论

附录：相对位置旋转公式证明

附录：不同参数下 RoPE 对 Attention 的影响

附录：如何改进 RoPE 以实现绝对位置编码？

附录：旋转体现在哪里？

附录：可视化RoPE旋转过程

附录：RoPE的诞生历史

附录：RoPE的高维扩展

附录：RoPE中的复数和旋转矩阵等价性证明

问题定义

证明

附录：旋转位置编码的其他推导过程

环境安装

模型训练

源码阅读

verl 库的目标

数据流的流向过程

SPMD 的初始化

数据的分发是如何实现的

每个 Worker 的大致工作流程（Multi Controller 逻辑核心）

verl 编程接口

数据集修改（最简单）

自定义 Reward

自定义损失函数

修改整个训练逻辑（最复杂）

模型融合

使用 verl 进行模型评估

附录：如何传入多个数据集？

附录：其他注意事项或技巧

附录：错误记录

HTTPRequestEntityTooLarge 错误

NCCL 错误

附录：特殊参数说明和记录

vLLM 采样参数：SamplingParams

输入格式：Prompts

vLLM 使用示例

离线批量推理：LLM

异步流式推理：AsyncLLM

底层引擎手动调度：LLMEngine

vLLM 部署及参数说明

离线批量推理：`LLM`

异步流式推理：`AsyncLLM`

底层引擎手动调度：`LLMEngine`

附录：如果是量化模型，不添加 `--quantization` 参数会怎样？