NLP——Rethinking-Generalization-In-Reasoning-SFT

注：本文包含 AI 辅助创作

参考链接：
- 相关论文：Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability, 20260408, SJTU & USTC
- 相关博客：github.com/Nebularaid2000/rethink_sft_generalization

Paper Summary

本文打破了传统对 SFT 的一些观点，有非常丰富的实践参考意义：
- 传统观点：SFT 会记忆，而 RL 会泛化
- 本文观点：SFT 在一定条件下也是可以泛化的，之前的失败案例是优化不足的产物
Reasoning SFT 中的跨领域泛化并非不存在，而是有条件的，取决于下面三个条件：
- 1）优化的充分性：短周期检查点可能会低估最终的泛化增益
  - 表现：跨域性能先下降，然后在延长训练后恢复并提升（一种“下降-恢复（dip-and-recovery）”模式）
- 2）数据的质量和结构：经过验证的、带有程序性推理模式的长 CoT 数据能产生更强的迁移
  - 表现：低质量的解决方案普遍损害泛化能力，而经过验证的长 CoT 轨迹则能带来一致的跨域收益
- 3）基础模型的能力：能力更高的模型比主要模仿冗长表达的较弱模型更有效地内化这些模式
  - 表现：
    - 更强的模型能够内化可迁移的程序性模式（例如，回溯）（文中实验证明，即使是从一个玩具算术游戏（Countdown）中学习也可以迁移）
    - 较弱的模型则只会模仿表面的冗长
注：本文主要关注带有长 CoT 监督的推理 SFT，实验也主要集中在这些数据和场景上
注：但是本文 SFT 实验也发现，这种泛化是不对称的：
- 推理能力的提升始终伴随着安全性的下降（即训练过程中推理能力提升的同时，安全性会下降）
- 理解：这里的不对称是指：在部分指标性能上泛化了，但是在安全性上没有泛化

Introduction and Discussion

流行观点：SFT 能提升域内性能但容易导致记忆，而 RL 的泛化能力更好
- 一些工作在合成任务上确立了具有影响力的“SFT 记忆，RL 泛化”的框架
- 一些工作在更现实的场景（如数学推理）中也报告了类似的模式
本文观察到，给出这些结论包含了大量的特定实验场景问题：
- 部分训练没有使用长 CoT 监督
- 部分训练 epoch 相对较短
- 部分训练使用的数据 Response 质量不均
- 部分训练使用了小型或早期的基础模型
- 此外，还有一些点：
  - 许多 SFT 与 RL 的比较关注的是保留能力（即微调是否会降低现有能力），而不是获取新的泛化能力
  - 许多 SFT 和 RL 通常从指令微调模型开始，这使得对齐带来的混杂因素难以解耦
这些在优化、数据、模型能力和起始检查点上的纠缠不清的差异，使得我们不清楚所报告的泛化失败是 SFT 固有的，还是仅仅是特定实验条件的产物
这个问题对于推理 SFT 尤其紧迫，因为模型通常是在长 CoT 轨迹上训练的
- 长 CoT 轨迹在数据结构上有所不同，比短形式的目标更难拟合，并且对模型能力要求更高
- 推理 SFT 是一个优化、数据和模型因素至关重要且可以被更清晰研究的场景
本文表明推理 SFT 中的泛化并非训练目标本身的内在属性，而是一个由优化动态、训练数据和模型能力共同塑造的条件性现象
- 本文系统地改变每个因素，以确定推理 SFT 何时以及如何在跨域泛化，以及当它泛化时会产生哪些权衡
- 注：本文采用仅在预训练基础模型上进行数学推理 SFT 作为测试平台
  - 这个设置提供了易于验证的 Response，并且可以与先前的研究直接比较
本文评估了在域内数学推理、 OOD 推理（例如，代码、科学）、通用能力（例如，指令遵循）和安全性方面的泛化能力，整体发现如下：
- 表观上的非泛化可能是优化不足的（under-optimization）产物
  - 在长 CoT SFT 过程中，泛化性能表现出一种“下降-恢复（dip-and-recovery）”模式：
    - 先下降，然后在延长训练后恢复并最终超越基础模型：
      - 这表明短训练检查点可能会系统地低估 SFT 的泛化潜力
    - 在匹配的计算预算下，长 CoT 数据从重复学习中比从单遍覆盖中受益更多 ，并且只有在激进的训练计划下才会出现明显的过拟合症状
    - 说明：在该场景下，优化不足可能比过优化更普遍
- 训练数据对泛化至关重要
  - 数据质量：在低质量解决方案上进行 SFT 会广泛损害性能，而经过验证的长 CoT 轨迹则能带来一致的跨域收益
  - 数据结构：在强大的基础模型上，来自一个玩具算术游戏（Countdown）的长 CoT 轨迹可以提升在多个推理基准（例如，数学、代码、科学）上的性能，甚至可能优于包含多样化数学问题的无 CoT 数据集
  - 结论：长 CoT 轨迹中的程序性模式（例如回溯和验证） 可能是超越数学内容本身进行泛化的关键
    - 理解：也就是说，通过 SFT 来训练 CoT 数据时，CoT 中的类似回溯和验证的能力和模式可以被学到，从而实现能力的泛化
- 泛化需要足够的模型能力
  - 给定相同的长 CoT 数据：
    - 更强的模型展现出广泛的跨域泛化能力，而较弱的模型则显示出边际或负面的收益（即使在域内数学任务上），并且倾向于产生冗长的 Response
    - 结论：较弱的模型可能只是模仿推理的表面形式（例如，冗长），而没有内化驱动跨域泛化的模式
- 泛化是不对称的（asymmetric）
  - 尽管有广泛的收益，但长 CoT SFT 会削弱安全性，这与关于推理模型自我越狱（self-jailbreaking）的发现一致 (2025; 2025)
  - 训练后，模型在思考过程中会自我合理化（例如，“出于教育目的”），并最终生成有害内容
  - 在本文控制的对比中，使用 CoT 的安全性下降比不使用 CoT 时大得多
  - 结论：这种退化是由程序性模式而非领域内容驱动的
以上的这些结果表明，“SFT 是否能泛化？”这个问题需要重新定义和思考
- SFT 是否能泛化是与优化充分性、数据质量与结构以及基础模型能力有关的
- 当这些因素中的任何一个缺失时（例如，评估早期检查点、在低质量数据上训练、或使用弱基础模型），得出的结论可能会将实验设置的产物误认为是 SFT 的固有局限性
可以理解为：本文在尝试回答 “在什么条件下推理 SFT 会泛化？”

Experimental Setup

Model, dataset, and training protocol

主要实验使用 Qwen3-14B-Base 和 Qwen3-8B-Base 作为基础模型
- 注：跨模型家族的实验：使用 InternLM2.5-20B-Base (2024) 和 Qwen2.5 基础模型 (2024)
- 注：所有模型都是指令微调之前的预训练检查点，这最大限度地减少了来自对齐或偏好优化的混杂影响
- 注：后续章节还会考察更小的模型（例如，4B 和 1.7B）以研究模型能力的作用（第 5 节）
默认训练数据集 Math-CoT-20k 包含 20,480 个带有长 CoT 的数学推理示例
- Query 是从 OpenR1-Math-220k (2025) 的默认子集中采样得到的
- Response 是由启用了思考功能的 Qwen3-32B 生成的
- 每个 Response 包含一个思考过程，后跟逐步的最终总结和答案
- 本文为每个 Query 生成多个 Response ，并使用 math-verify (2024) 仅保留答案正确的 Response
- 最大 Response 长度设置为 16,384 个 Token
- 完整的数据生成设置请参见附录 B.1
所有模型均使用标准 SFT 目标进行训练
- 最小化 Response Token 上的负对数似然
基础实验默认配置：
- 使用 AdamW 优化器
- 学习率为 5e-5
- 批量大小为 256
- 余弦学习率调度
- 8 个训练 Epoch

Evaluation suite

In-Domain (ID) 推理
- MATH500 (2021) 和 AIME24 用于评估数学推理能力，与训练领域直接对齐
Out-Of-Domain (OOD) 推理
- LiveCodeBench (LCB) v2 (2025) 用于评估编程能力，GPQA-Diamond (2024) 用于评估研究生级别的科学推理能力，MMLU-Pro (2024) 用于评估广泛的知识密集型推理能力
- 这些任务需要的推理能力在训练数据中并未出现
通用能力
- IFEval (2023) 衡量指令遵循的准确性
- AlpacaEval 2.0 (2023b; 2024) 衡量开放式 Response 的质量
- HaluEval (2023a) 和 TruthfulQA (2022) 衡量真实性
- 这些基准测试用于检验推理 SFT 是增强还是破坏了更广泛的行为
安全性
- HEX-PHI (2024) 通过攻击成功率（Attack Success Rate, ASR）和有害性评分来评估模型对有害 Query 的抵抗能力
默认情况下，使用温度 0.6 和最大生成长度 32,768 个 Token 进行解码
- 对于 IFEval、HaluEval 和 MMLU-Pro：报告 pass@1
- 对于 MATH500、LiveCodeBench v2 和 GPQA-Diamond：报告 avg@3
- 对于 AIME24：报告 avg@10
- 对于 IFEval：使用严格的指令级准确率
- 对于 AlpacaEval 2.0：报告来自 Llama-3.1-8B-Instruct-RM-RB2 奖励模型的平均奖励分数
- 对于 TruthfulQA：使用官方评判模型来评估有益性和真实性
- 对于 HEX-PHI：遵循原始论文，使用 GPT-4.1 作为评判模型
- 作者将评分 5 视为一次成功的攻击
- 所有模型均以零样本（Zero-shot）方式进行评估
- 完整的评估细节在附录 B.3 中提供

Optimization Dynamics of Reasoning SFT

先前研究的一个常见发现是，SFT 能提升域内性能，但不能很好地泛化到 OOD 任务，甚至可能降低 OOD 能力 (2025; 2025)
本节表明这一结论有时是由于对训练轨迹的不完整观察导致的
- 长 CoT 推理数据比短形式的目标更难内化，并且从基础模型到训练有素的推理模型的路径涉及 non-trivial 动态，这些动态很容易被误读

Apparent non-generalization may be an under-optimization artifact

Replication of previous findings，本节先复现之前文章的发现

首先在相同的短 Epoch 协议下复现了先前关于推理 SFT 跨域泛化能力弱的发现 (2025)：
- 在 Math-CoT-20k 上训练 Qwen3-14B-Base 一个 Epoch
如图 2 所示，域内数学性能大幅提升，而在某些 OOD 基准（例如，LCB v2, GPQA-D）上 OOD 收益有限，在其他基准（例如，IFEval, AlpacaEval）上甚至变为负收益
- 这种弱泛化在使用更小的学习率时更为明显（附录 C.1）

Cross-domain generalization evolves non-monotonically，跨域泛化呈非单调演变

将训练 Epoch 数扩展到 8（本文的默认设置），并跟踪了 Qwen3-14B/8B-Base 和 InternLM2.5-20B-Base 在整个训练过程中的基准性能
图 3（顶部）显示了性能随训练步数的变化，展示了一种典型的“下降-恢复（dip-and-recovery）”模式
在域内数学推理任务（MATH500, AIME24）上，性能在某些设置下出现了短暂的早期下降，随后迅速恢复（在 AIME24 上，由于基准测试规模小且难度高，早期波动更明显，但总体上升趋势保持一致）并呈现明显的上升趋势
几个 OOD 基准（例如，LCB v2, GPQA, IFEval 和 AlpacaEval 2.0）也表现出类似的模式，通常下降更深，恢复更慢，并在延长训练后最终提升到超越基础模型的水平
这种模式并非特定于某个教师模型
- 使用 DeepSeek-R1 生成的 Response （相同的 20k 数学 Query ）重复相同的设置，得到了类似的结果，仅在绝对分数上有适度差异（见附录 C.2）
- 结论：先前报告的一些 SFT 泛化局限性可能是优化不足的产物，而非 SFT 本身的内在限制
  - 长 CoT 数据对优化具有挑战性，需要扩展训练并展现出微妙的动态

Response length as a diagnostic of optimization stage，Response 长度是优化阶段的诊断指标

为了更好地理解“下降-恢复（dip-and-recovery）”动态，本文追踪了各检查点的 Response 长度，并将其与性能进行比较
如图 3（底部）所示， Response 长度在训练初期急剧上升，然后逐渐下降
这种上升-下降趋势通常与性能变化同时发生：
- 最长的 Response 往往与最弱的性能同时出现，而随着性能恢复， Response 变得更简洁

Interpretation

在长 CoT SFT 的早期，模型首先学习一个显著的表面模式 ：
- 它们会产生冗长的、类似思考 的痕迹，然后才能可靠地学习更精细的推理模式，如分解、回溯或自我评估（见附录 C.3 的示例）
- 这个阶段以两种方式损害性能：
  - (1) 对长 CoT 的浅层模仿限制了即使在推理任务上的迁移
  - (2) 冗长的输出加上偶尔的格式错误（例如，缺少 </think> 标签）会影响指令遵循和对齐方面的结果
  - 随着持续优化，模型会学习到更多可迁移的程序性模式和更精细的语言风格，从而产生更短、更有针对性的输出和更强的跨域泛化能力
Response 长度可以作为长 CoT SFT 中优化进展的一个粗略但实用的诊断指标：
- Response 长度仍在显著缩短的检查点通常尚未完全优化，即使域内性能看起来已经合理

Why longer training helps: repeated exposure or simply more steps?

本节回答问题：为什么更长的训练有帮助：重复学习还是仅仅更多步数？

Setup

拟合长 CoT 数据的难度引发了一个自然的问题：
- 在小数据集上训练多个 Epoch，还是在更大的数据集上训练单个 Epoch 更有效？
- 本文设计了三个设置的对照实验，均使用 Qwen3-14B-Base 并固定总梯度步数（640 步）：
  - 设置 1：默认，20k 示例，批量大小 256，8 Epochs
  - 设置 2：2.5k 示例，批量大小 32，8 Epochs
  - 设置 3：20k 示例，批量大小 32，1 Epoch
- 关键的比较是在设置 2 和设置 3 之间：它们的训练预算匹配，但数据暴露模式不同（8 次重复 vs. 1 次覆盖）

Repeated exposure is more effective，重复学习更有效

表 1 显示：整体趋势是设置 1 > 设置 2 > 设置 3
- 在不同的基准上，设置 2 的表现都显著优于设置 3，这表明在相同的训练预算下，对于长 CoT 推理 SFT，重复学习比单次覆盖更有效
- 当 Epoch 数和步数固定时，设置 1 进一步优于设置 2，这表明更大的数据多样性仍然能增加价值

From underfitting to overfitting: symptoms and regimes，从欠拟合到过拟合：症状与区间

Setup

上述结果表明，在的默认长 CoT 设置中，欠拟合的信号比过拟合更明显
为了闭环验证，在 Qwen3-14B-Base 上使用 Math-CoT-20k 对训练激进程度进行了压力测试，采用四种设置：
- 设置 1（默认，LR 5e-5，8 Epochs，余弦 LR 调度）
- 设置 2（LR 5e-5，16 Epochs，余弦 LR）
- 设置 3（LR 5e-5，16 Epochs，恒定 LR）
- 设置 4（LR 1e-4，16 Epochs，恒定 LR）
- 这些设置将优化强度从温和增加到激进

Overfitting symptoms and regimes

如图 4（顶部）所示
- 在大多数基准上，设置 2 在整个训练过程中保持了稳定的性能或持续改进
- 设置 3 开始在部分 OOD 套件上显示出后期性能下降
- 设置 4 显示出最清晰的过拟合样模式：
  - OOD 性能普遍下降，甚至域内数学性能也下降，同时 Response 长度再次开始上升（图 4（底部））
本文设置中，明显的过拟合症状主要出现在组合的激进计划下（高学习率、无 LR 衰减、长 Epochs） ，通常伴随着广泛的性能下降（包括域内数学）和 Response 长度的反弹

How Training Data Shapes Generalization，训练数据如何塑造泛化性能

上一节表明，充分训练的推理 SFT 可以实现跨领域泛化
本节将展示，这种泛化关键地依赖于训练数据的质量和结构

Setup

在默认训练设置下比较了四种数据配置
除了默认的 Math-CoT-20k 数据集外，引入了三个变体：
- Math-NoCoT-20k:
  - Math-CoT-20k 移除了 <think>...</think> 部分，仅保留最终的逐步总结和答案
  - 理解：其实不太公平，因为原本就有 CoT 的数据，去掉 CoT 会出现一些问题，比如先给答案，再给推理过程
    - 所以后面补充了 NuminaMath-20k 这样自然的没有 CoT 的数据
- NuminaMath-20k:
  - 20k 个示例，来源于 NuminaMath-1.5 (2024)，使用与 Math-CoT-20k 相同的 Query ，但采用的是人工编写的解决方案，且没有长 CoT
  - 这些解决方案通常较短且质量参差不齐（例如，缺少步骤）
  - 这被先前关于 SFT 泛化的工作 (2026; 2026) 广泛使用
- Countdown-CoT-20k:
  - 20k 个 Countdown (2025) 示例，带有由 Qwen3-32B 生成的长 CoT Response
  - 这是一个需要试错的简单算术游戏

The role of long CoT traces

比较 Math-CoT-20k 和 Math-NoCoT-20k 可以隔离长 CoT 轨迹的影响：
- 这两个变体共享相同的 Query 和最终的逐步解决方案，而 Math-NoCoT-20k 省略了探索过程
表 2 显示
- 长 CoT 监督在推理密集型任务上产生了更强的泛化能力（特别是在数学推理方面）
- 在 OOD 推理任务（LCB v2, GPQA-D, MMLU-Pro）上，对于较大的模型，相同的趋势仍然可见，而对于较小的 Qwen3-8B 模型，增益则较弱
- 在 IFEval 和 AlpacaEval 2.0 上，Math-NoCoT-20k 的表现通常略优于 Math-CoT-20k，因为这些基准测试更强调指令遵循和对齐相关行为，而非长程推理

Data quality matters，数据质量至关重要

在无长 CoT 的设置中，本文进一步比较了 Math-NoCoT-20k 和 NuminaMath-20k，以隔离数据质量的影响
表 2 显示
- Math-NoCoT-20k 的表现始终更好，而 NuminaMath-20k 表现出广泛的 OOD 性能下降，并且在领域内数学推理上几乎没有增益
表 20 显示
- NuminaMath 在第 3 节所述的“下降-恢复（dip-and-recovery）”动态中几乎没有表现出恢复
结论：低质量数据会显著降低 SFT 的效用，而在低质量数据上训练可能会造成 SFT 不泛化的错误印象

Procedural generalization: evidence from Countdown

Countdown-CoT 数据集测试了长 CoT SFT 是否能迁移超越领域特定知识的抽象推理程序
- Countdown-CoT 是一个算术游戏，模型必须使用基本运算 \( (+,- ,\times ,\div) \) 组合一组给定的数字以达到目标值
- Countdown-CoT 中的 Response 轨迹包含结构化的探索性程序，如分解、回溯和验证，但没有明确的领域知识
表 2 显示，对于两个 Qwen3 模型，Countdown-CoT-20k 在推理任务上相比基础模型都有所提升，甚至在数学任务上优于 Math-NoCoT-20k，尽管其算术范围狭窄
这表明推理程序的结构，而非领域内容，可能是泛化的关键驱动因素
但这并非普遍成立：
- 对于 InternLM2.5-20B，Countdown-CoT 仅在数学上产生了边际增益
  - 这表明程序性泛化的有效性也依赖于基础模型的能力
  - 本文将在第 5 节研究这个因素
- 而且，Countdown 并不能同样地泛化到所有任务
  - 比如 IFEval 分数可能会下降

How Model Capability Affects Generalization

Setup

在相同的 Math-CoT-20k 数据和相同的训练协议下，训练了四个规模递增的 Qwen3 基础模型（1.7B, 4B, 8B, 14B）
在这个受控设置中，泛化行为的差异可以归因于模型能力的差异

Higher-capability models generalize better，能力越高的模型泛化能力越好

图 5 显示了在匹配的数据和训练设置下，一个清晰的能力依赖趋势
- 14B 模型表现出显著的“下降-恢复（dip-and-recovery）”轨迹，并最终在多个领域获得广泛提升
- 8B 和 4B 模型也显示出恢复阶段，但改进较小，而 1.7B 模型即使在后期检查点上，在所有基准测试上也仅显示出边际增益甚至负增益
- 这种模式表明，仅凭优化和数据并不能保证泛化：
  - 能力越高的模型更有可能内化可迁移的推理模式，而能力较低的模型则倾向于模仿表面形式
  - 这些结果还表明，第 3.1 节中的“下降-恢复（dip-and-recovery）”动态本身也依赖于模型能力
  - 其余基准测试和 Qwen2.5 模型的结果见附录 C.5

Response length and model capability

图 5 还显示，即使经过长时间训练，较小的模型仍保持较长的 Response 长度，而较大模型的 Response 长度收缩得更快，并稳定在较低的值
如第 3.2 节所讨论的， Response 长度可以作为学习阶段的一个粗略诊断：
- 停留在 “长 Response” 阶段的模型很可能尚未超越学习表面模式
- 较小的模型更有可能停留在这个阶段，这表明从模仿长 Response 模式到内化真实推理模式的能力有限（案例研究和分析见附录 C.6 和 C.7）
- 这一结果也与先前的观察一致：较小的蒸馏推理模型（例如，Deepseek-Distill-Qwen-1.5B）通常比较大的蒸馏模型（7B 和 14B）表现出更长的 Response 长度 (2025)

Asymmetric Generalization: Safety Under Long-CoT SFT，不对称泛化：长 CoT SFT 下的安全性

前面章节已经说明：长 CoT 推理 SFT 会跨领域迁移
本节说明，这种迁移是不对称的：相同的训练会持续削弱安全性和拒答能力
一个有控制的 CoT 与无 CoT 的对比（使用匹配的 Query 和答案）进一步表明，这种性能下降源于长 CoT 轨迹中的程序性模式

Setup

本文评估了三个模型（Qwen3-14B-Base， Qwen3-8B-Base 和 InternLM2.5-20B-Base）在 HEX-PHI 上的安全性表现如何变化
具体细节：将基础模型与在 Math-CoT-20k 和 Math-NoCoT-20k 上训练的 SFT 检查点进行比较

Safety degradation under long-CoT SFT

图 6 (a) 显示，使用长 CoT 数据（Math-CoT-20k）训练导致所有三个模型上的 ASR 大幅增加
在无 CoT 数据（Math-NoCoT-20k）上训练导致的安全性下降要小得多
由于 Math-CoT-20k 和 Math-NoCoT-20k 包含相同的 Query 和最终解决方案
- 这表明观察到的安全性下降与长 CoT 轨迹中的程序性模式的关系比与数学内容本身的关系更密切

How long-CoT SFT changes refusal behavior: a case study，long-CoT SFT 改变拒答行为

为了理解这种性能下降，本文比较了模型在长 CoT SFT 前后如何回答相同的有害 Query （图 6 (b)）
- 基础模型通常直接发出简短的拒答（这个拒答是正确的，不能回答有害的 Response）
经过长 CoT SFT 后，模型以警告开始，然后在思考过程中自我合理化（例如，“出于教育目的”），并最终提供包裹在警告中的有害细节
- 矛盾的是，这也可能是一种泛化形式
- 理解：这种开始回答错误信息的可能
本文推测，长 CoT SFT 强化了一个持续的问题解决先验：
- 探索替代方案，寻找可行的路径，并坚持克服障碍
- 对于有害 Query ，障碍变成了拒答策略本身，而扩展的推理为绕过安全护栏提供了空间

部分工作在合成任务上建立了有影响力的“SFT 记忆，RL 泛化”框架
- 与本文工作最直接相关的是，
  - 部分工作评估了数学推理 SFT 的跨领域可迁移性，并发现了有限的增益（本文在相同的短训练协议下重复了这一发现，尽管更长的优化导致了性质不同的结果）
- 一个密切相关的研究方向将 RL 的优势理解为减少了遗忘或恢复在 SFT 期间退化的能力 ，并将其归因于 on-policy 数据 (2025)，向 KL-最小策略的模式寻求更新 (2024; 2026)，通过奖励方差进行隐式正则化 (2026)，以及保持权重空间结构 (2025; 2025)
- 本文的工作是互补的：
  - 本文没有比较 SFT 和 RL，而是研究了推理 SFT 本身何时能跨领域迁移，并确定了对泛化至关重要的几个较少受到关注的因素
  - 与关注遗忘的先前工作不同，本文从预训练基础模型而非指令微调模型开始，以更好地区分新获得的泛化能力与现有能力的保留
另一条工作路线试图修改 SFT 目标以改善泛化
- 几项研究通过 RL 或分布匹配的视角重新解释了 SFT (2025; 2026)，并提出了替代的加权策略 (2026; 2026; 2025; 2026)
- 这些研究与本文的研究是正交的：
  - 本文保持标准的 SFT 目标不变，并表明泛化不是该目标的内在属性，而是共同依赖于优化的充分性、数据质量和结构以及模型能力
有几项工作研究了与 SFT 泛化相关的个别因素
- 部分研究表明，在微调过程中，记忆和泛化可以共存
- 部分研究发现，Prompt 多样性和 CoT 监督可以改善 SFT 泛化（仅在合成任务中得到验证）
- 部分研究 (2026) 揭示，在最终答案错误的长 CoT 轨迹上进行 SFT 仍然可以提高推理性能
- 一项并发工作 (2026) 发现，在长 CoT SFT 中，数据重复比单次遍历扩展更有效，这与本文的第 3.3 节一致
- 部分研究 (2025) 表明，循环在较小模型中更为常见 ，这与本文关于模型能力的观察结果相呼应
本文没有单独研究个别因素，而是系统地变化优化、数据和模型能力，同时保持其他因素不变，描述了它们如何共同塑造推理 SFT 中的泛化
- 本文的受控设置还揭示了新的现象，例如跨领域性能的“下降-恢复（dip-and-recovery）”动态及其对数据质量和模型能力的依赖性
先前的其他工作还表明，扩展推理可能诱导自我越狱并降低安全性 (2025; 2025)
- 本文从泛化的角度出发，并在匹配的 Query 和答案下对 CoT 和无 CoT 监督进行了有控制的比较，将安全性下降因果地归因于程序性模式

Introduction and Discussion

Experimental Setup

Model, dataset, and training protocol

Evaluation suite

Optimization Dynamics of Reasoning SFT

Apparent non-generalization may be an under-optimization artifact

Replication of previous findings，本节先复现之前文章的发现

Cross-domain generalization evolves non-monotonically，跨域泛化呈非单调演变

Response length as a diagnostic of optimization stage，Response 长度是优化阶段的诊断指标

Interpretation

Why longer training helps: repeated exposure or simply more steps?

Setup

Repeated exposure is more effective，重复学习更有效

From underfitting to overfitting: symptoms and regimes，从欠拟合到过拟合：症状与区间

Setup

Overfitting symptoms and regimes

How Training Data Shapes Generalization，训练数据如何塑造泛化性能

Setup

The role of long CoT traces

Data quality matters，数据质量至关重要

Procedural generalization: evidence from Countdown

How Model Capability Affects Generalization

Setup

Higher-capability models generalize better，能力越高的模型泛化能力越好

Response length and model capability

Asymmetric Generalization: Safety Under Long-CoT SFT，不对称泛化：长 CoT SFT 下的安全性

Setup

Safety degradation under long-CoT SFT

How long-CoT SFT changes refusal behavior: a case study，long-CoT SFT 改变拒答行为

Related Work