Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

NLP——EverGreenQA(EG-E5)

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(EverGreenQA,EG-E5)Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA, arXiv 20250527, Skoltech
      • 注:Skoltech 是俄罗斯斯科尔科沃科学技术研究院的简称

Paper Summary

  • LLM 在问答(QA)任务中经常产生幻觉(hallucination),一个关键但尚未充分探索的因素是问题的时间性:
    • 即问题属于常青类(evergreen,答案随时间稳定)还是可变类(mutable,答案会变化)
  • 本论文探讨了问题的常青性(evergreenness),即答案是否会随时间变化
    • 论文测试了 LLM 检测常青性的能力,并展示了其在多个应用中的价值
    • 论文提出了 EverGreenQA ,这是首个支持多语言且带有常青标签的问答数据集,可用于评估和训练,包含 7 种语言的 4,757 个示例
    • 利用 EverGreenQA 数据集,论文对现代大语言模型在常青问题分类任务上的表现进行了基准测试,并训练了 EG-E5 ,一个轻量级分类器,其性能优于大语言模型和此前训练的方法
  • 论文进一步分析了大语言模型是否通过不确定性估计隐式编码了常青性 ,发现它们确实具备一定的能力 ,且模型规模越大,表现越好
  • 论文展示了常青分类在三个应用中的实际价值:
    • 改进自我知识估计(self-knowledge estimation):论文通过预测的常青概率增强了现有的不确定性估计方法 ,取得了稳定的改进
    • 过滤问答数据集:论文展示了常青分类器有助于筛选高质量的问答数据集,支持更可靠和公平的评估
    • 解释 GPT-4o 的检索行为:论文证明常青性是预测 GPT-4o 搜索行为的最佳指标,优于所有其他测试因素

Introduction and Discussion

  • 大语言模型在问答任务中常因幻觉答案而表现不佳(2025)
  • 为提高可信度,近期研究聚焦于:
    • 估计模型的自我知识(self-knowledge),即识别自身已知与未知的能力(2023;2025)
    • 通过检索增强生成(Retrieval-Augmented Generation, RAG)整合最新外部信息(2024;2024;2023)
  • 未充分探索 ,同时确是影响问题难度的关键因素是其是否为常青(evergreen)或可变(mutable)问题(2024a),即正确答案是否随时间稳定(如图 1 所示)
    • 可变问题尤其具有挑战性,因为它们通常需要访问最新信息,而这些信息可能未包含在模型的固定参数化知识中
  • 常青性(evergreen-ness)具有实际重要性,但在评估和改进大语言模型行为时,它仍是一个未被充分探索的因素
    • 现有研究大多局限于小规模、仅限英语的数据集,且主要关注问答准确性,很少探讨其更广泛的影响(2024;2024)
    • 问题常青性在塑造大语言模型可靠性和可解释性中的作用仍未被充分研究
  • 为填补这一空白,论文开展了关于问题常青性及其实际应用的全面研究
  • 论文提出了 EverGreenQA ,这是首个多语言人工标注的常青感知问答数据集,包含适合模型训练的训练-测试划分
  • 基于 EverGreenQA ,论文评估了 12 个现代大语言模型,判断它们是否通过显式(直接提示,through direct prompting)或隐式(基于不确定性的信号,via uncertainty-based signals)方式编码时间性知识
  • 此外,论文还开发了 EG-E5 ,一个轻量级的,截止到当前最优的分类器,用于识别常青问题
  • 论文展示了 EG-E5 在多个下游任务中的实用性:
    • (1)改进自我知识估计
    • (2)筛选问答数据集以支持更公平的评估
    • (3)有效解释 GPT-4o 的黑盒检索行为
  • 论文的贡献和发现如下:
    • 1)构建了 EverGreenQA ,首个用于问题常青性分类的多语言数据集,涵盖 7 种语言,共 4,757 个样本
    • 2)首次全面评估了大语言模型对问题常青知识的掌握情况,通过显式信号(提示)和隐式信号(不确定性估计)评估了 12 个模型
    • 3)开发了 EG-E5 ,一个轻量级多语言分类器,用于识别常青问题,在此任务上达到当前最优性能,同时适用于低计算资源场景
    • 4)展示了 EG-E5 在三个应用中的价值:
      • (1)改进自我知识估计
      • (2)筛选问答数据集以实现更公平的评估
      • (3)有效解释 GPT-4o 的检索行为
  • 论文发布了模型和数据以供进一步使用

EverGreenQA & EG-E5

Dataset Collection

  • 论文构建了一个问答数据集,包含来自 AI 聊天助手的真实用户查询,每个问题标注为常青或可变,并提供对应的标准答案
  • 所有问题均为事实性问题,并通过多轮内部 alpha 测试(internal alpha testing)手动验证以确保多样性和减少主题偏差
    • 理解:Alpha Testing(α测试) 是软件开发过程中一种重要的内部测试阶段,主要用于在产品正式发布前,由开发团队或内部相关人员对软件进行系统性测试,目的是发现并修复主要的功能缺陷、性能问题和用户体验漏洞
    • 补充:alpha 测试 和 beta 测试的区别如下:
      维度 Alpha Testing Beta Testing
      测试人员 内部团队/员工 外部真实用户
      环境 开发/模拟环境 接近真实的生产环境
      目的 修复核心缺陷,验证基本功能 收集用户反馈,优化体验
      阶段 早于Beta,接近开发完成 晚于Alpha,接近正式发布
  • 标签和标准答案由训练有素的语言学家团队手动分配,他们根据检索到的信息从头编写答案
  • 由于初始数据集中大多数问题为可变问题,为避免训练数据偏差,论文还生成了 1,449 个仅针对常青类的合成数据(这些附加数据同样经过语言学家验证)
  • 最终数据集包含 4,757 个问题,其中 3,487 个用于训练,1,270 个保留用于测试
  • 数据集构建和标注的详细信息见附录 F

Dataset Translation

  • 论文使用 GPT-4.1 将问题从俄语翻译为英语,再从英语翻译为目标语言
  • 此前研究表明,GPT-4.1 在多种语言(包括准确处理文化差异)上表现优异(2024)
  • 完整翻译提示见附录 B

Dataset Validation

  • 为评估翻译质量,论文为每种目标语言招募了人类评估员,均为母语者或具备高级语言水平(B2-C1 级)
  • 论文从测试集中随机抽取 100 个问题(50 个可变,50 个常青)进行评估
  • 英语、希伯来语、德语和阿拉伯语的翻译未发现错误,中文仅有两处轻微不准确
  • 评估员指导见附录 C

EG-E5 Training

  • 论文使用多语言数据集进行训练和测试
  • 对于验证,论文使用了 FreshQA(2024)的开发集和测试集,将其快速变化和慢速变化类别合并为可变标签
  • 为与多语言设置一致,FreshQA 数据被翻译为所有目标语言
  • 论文尝试了多语言版本的 BERT(2019)、DeBERTaV3(2023)和 E5(2024)作为编码器
  • 最佳性能由 E5-Large 模型实现,论文将其称为分类器 EverGreen-E5 (EG-E5)
  • 超参数细节和消融实验结果见附录 A

Are LLMs Aware of Evergreenness?

  • 在本节中,论文评估现代 LLM 是否能可靠地判断一个问题是否为常青问题(evergreen)
  • 论文测试了12种不同架构的 LLM,完整细节见附录A

Verbalized Evergreen Awareness

  • 为了评估LLM是否能显式识别常青问题,论文通过提示(prompting)让每个模型给出二元的“是/否”答案
  • 论文还纳入了两种专门训练的方法:
    • UAR (2024):一种基于 LLaMA2-13B 微调的模型,用于分类常青问题
    • MULAN (2024):基于维基数据(Wikidata)中可变(mutable)和常青样本的分类器
  • 结果 :表2显示,论文提出的分类器 EG-E5 在所有语言中均表现最佳,显著优于通用LLM和专门训练的模型
    • 在LLM中,LLaMA 3.1 70 和 Qwen 2.5 32B 表现最强,GPT-4.1稍逊一筹
  • 论文观察到不同语言的性能存在差异,但无明显差距,即使对于非拉丁语系(如阿拉伯语、中文、俄语)也是如此
  • 基线方法 UAR 和 MULAN 的表现远逊于 LLM 和 EG-E5,这可能是因为它们对 QA 数据集的常青性假设过于简化
  • Takeaway:EG-E5 超越了 few-shot LLMs 和之前的方法,这些方法较差原因是他们训练数据中包含非真实的假设

Internal Evergreen Awareness

  • 论文进一步通过不确定性估计(uncertainty estimation)评估 LLM 是否隐式编码了问题的常青性信息
  • 论文从测试集中抽样 400 个问题(200 个常青,200 个可变),并采用两种广泛使用的不确定性度量方法 (2024; 2025):
    • 困惑度(Perplexity) :预测序列的逆概率,按长度归一化。对于 Token 序列 \(x_{1},\ldots,x_{T}\),定义为:
      $$
      \text{PPL} = \exp\left(-\frac{1}{T}\sum_{t=1}^{T}\log p(x_{t}\mid x_{ < t})\right)
      $$
    • 平均 Token 熵(Mean Token Entropy) :模型预测 Token 分布的平均熵:
      $$
      \text{Entropy} = -\frac{1}{T}\sum_{t=1}^{T}\sum_{w\in V}p_{t}(w)\log p_{t}(w)
      $$
      • 其中 \(p_{t}(w)\) 是位置 \(t\) Token \(w\) 的预测概率,\(V\) 是词汇表
  • 结果 :表3显示,大多数模型的不确定性与常青性仅呈现弱相关性(mild correlations),其中 Mistral 7B 和 Qwen 2.5 32B 的信号最强
  • 论文还发现一个微弱趋势:
    • 更大规模的模型,(不确定性与)常青性的相关性更强,可能表明其对时间线索的内部依赖更强
    • 困惑度和熵的表现无显著差异
    • 总体而言,不确定性信号能捕捉部分时间信息 ,但明显弱于显式表达的判断
    • 更多分析见附录E
  • Takeaway:不确定性指标编码了常青性中的弱且不一致的信号,且在更大的模型中有微弱更强的趋势

Enhancing Self-Knowledge

  • 本节评估结合问题常青性知识是否能改进自我知识(self-knowledge)估计,即模型识别自身知识边界并判断能否回答问题的能力 (2025; 2023)
  • 这一能力被视为提升 LLM 可信度的关键因素

Task formulation

  • 论文将自我知识估计定义为二分类任务,目标标签 \(y\in\{0,1\}\) 表示模型对输入 \(x\) 的答案是否正确
  • 每种评估方法为输入分配一个实值自我知识分数 \(f(x)\in\mathbb{R}\)

Methods

  • 论文使用 LLaMA3.1-8B-Instruct 和五种广泛采用的高性能不确定性估计器进行评估,这些方法代表不同的不确定性量化家族(如基于 logit 和一致性的方法):
    • 最大 Token 熵(Max Token Entropy) :计算 Token-level 熵并取序列最大值作为最终分数 (2020)
    • 平均 Token 熵(Mean Token Entropy) :类似上述方法,但通过平均 Token-level 熵值聚合序列 (2020)
    • 词汇相似性(Lexical Similarity) :通过计算多响应间的平均词汇重叠估计不确定性,作为输出一致性的代理 (2020)
    • SAR :结合熵与语义重要性加权,对序列调整后的熵值求和 (2023)
    • EigValLaplacian :构建响应相似图,计算其拉普拉斯矩阵特征值和以量化响应多样性 (2023)
  • 对于每种方法,论文评估结合常青问题预测概率(来自EG-E5分类器)的效果
  • 最终自我知识分类器 \(f(x)\) 的训练使用标准机器学习模型,输入特征为不确定性估计指标(若适用则加入常青概率)
    • 标准分类模型,包括:包括随机森林,决策树等
  • 完整训练流程见附录D

Evaluation

  • 论文采用文献中广泛使用的标准指标 (2024; 2025):
    • AUROC :衡量模型基于 \(f(x)\) 区分正确答案与错误答案的能力,值越高表示可分性越强
    • AUPRC :量化不同决策阈值下精确率与召回率的权衡,对不平衡数据集尤为重要
    • 预测拒绝率(Prediction Rejection Ratio, PRR) :模拟拒绝最不确定的响应,追踪平均质量的提升,值越高表示不确定性与答案正确性的校准越好

Datasets

  • 论文在 6 个 QA 数据集上评估方法,涵盖单跳(single-hop)和多跳(multi-hop)推理
  • 单跳数据集包括 SQuAD v1.1 (2016)、Natural Questions (2019) 和 TriviaQA (2017),多跳数据集包括 MuSiQue (2022)、HotpotQA (2018) 和 2WikiMulti-HopQA (2020)

Results

  • 如表 4 所示,常青概率是改进自我知识识别的强信号
  • 在 18 项评估中,16 项的最佳结果由常青特征单独或结合不确定性估计方法取得
  • 此外,它能改进校准(PRR),对实际应用极具价值
  • 值得注意的是,常青特征在 AUPRC 上表现突出,在 4 个数据集中排名第一,表明常青性是模型是否具备可靠知识的强指标
  • 然而,论文也发现一致模式:常青性在 AUPRC 上得分高,但在 AUROC 上较低
    • 这表明该特征虽能有效识别模型“知道答案”的情况,但对“不知道答案”的判别较弱(真阴性区分能力不足)
    • 换言之,若问题是常青的,模型很可能正确回答;但若问题非常青,结果更难预测
  • Takeaway:常青概率持续提升 self-knowledge 评估和校准(calibration),在 18 个设定下实现了 16 个 top 结果
  • 问题:本节的 自我知识分类器 \(f(x)\) 的特征和 label 是什么?训练后的 \(f(x)\) 用来做什么?

Filtering QA with Evergreen

  • 在本节中,论文展示了 Evergreen 分类在过滤 QA 数据集中的价值,通过排除可变问题(mutable questions),可以实现更公平的评估
    • 论文使用了与第 5 节“自我知识”相同的模型设置
  • QA 数据集理想情况下应仅包含 Evergreen 问题,这一点在 SimpleQA (2024a) 中得到了强调
    • 为了实现这一目标,SimpleQA 依赖于人工标注者评估问题的 Evergreen 性
    • 相比之下,EG-E5 支持自动化数据集整理,无需手动标注,从而促进了大规模 QA 语料库的构建

Popular QA Datasets Analysis

  • 可变问题对公平的 QA 评估提出了严峻挑战:
    • 过时的黄金答案(outdated gold answers)可能导致现代 LLM 的正确回答被误判为错误,尤其是在模型在不同时间被评估时
  • 示例 :表 5 展示了六个数据集(见第 5.4 节)中的可变问题示例,这些问题的答案在 2025 年已与原参考答案不同
    • 这些示例包括简单和复杂的查询,甚至来自最近发布的数据集如 MuSiQue (2022)
    • 变化的性质多样:有些是可预测的(如奥运会主办城市、人口数据),有些是偶发的(如职位名称或配偶),还有一些是意外的(如君主、GDP 排名)
  • 统计数据 :表 6 显示,可变问题仍然普遍存在,在 NQ 中占比高达 18%,平均占数据集的 10%
    • 这一现象挑战了 QA 基准具有时间稳定性的普遍假设,并引发了对评估公平性的担忧
    • 为确保可靠性,可变问题应被过滤掉,或者需要维护实时基准如 RealTimeQA (2024),尽管后者成本较高
  • 错误的假设 :UAR (2024) 隐含假设数据集具有 Evergreen 性,而 MULAN (2024) 将许多问题视为不可变,但实际上某些关系(e.g., Wikidata’s P190, “sister cities”)可能会变化
    • 这种不匹配可能解释了这些方法在面对时间漂移时实际效果有限的原因
  • Takeaway:QA 基准包含可变问题,破坏了评估的公平性。过滤这些问题对可靠性评估非常重要

Filtered QA Performance

  • 零样本性能 :如表 6 所示,模型在 Evergreen 问题上的准确率始终更高,在复杂任务中的相对差异高达 40%
    • 这与预期一致,因为可变问题通常需要模型静态知识之外的实时信息
  • RAG 的优势 :论文展示了模型在回答可变问题时通常更能从带有黄金上下文的 RAG 中受益,相对增益高达 30%
    • 然而,在可变问题样本较少的数据集中,这种效果会减弱

Explaining GPT-4o Retrieval

  • GPT-4o 通过内部的黑盒标准自主决定何时调用其检索系统
  • 论文发现,问题的 Evergreen 性是这种行为的最强预测因子,这表明 GPT-4o 对外部搜索的使用与输入的时间性质密切相关
  • 论文使用了与第 4.2 节相同的子集,并通过其网络接口查询 GPT-4o,记录是否触发了检索调用
  • 除了 Evergreen 标签外,论文还评估了第 4.2 节中的几种基于不确定性的信号以及 EG-E5 ,以评估它们与 GPT-4o 检索决策的相关性
  • 如表 7 所示,Evergreen 性和 EG-E5 预测比任何基于不确定性的信号都强得多(信息量是后者的两倍以上)
  • 这表明 GPT-4o 可能在内部建模问题的时间性,或者其检索策略对时间性高度敏感
  • Takeaway:常青性是 GPT-4o 的检索行为中最强的预测者(Predictor),表明检索和时序是强相关的

Error Analysis

  • 论文从 EverGreenQA 数据集的测试部分中选取了样本,并对 EG-E5 分类器的错误进行了定性分析
  • 表 8 展示了按原因分组的假阳性和假阴性示例
    • 值得注意的是,分类器在涉及最高级表达时表现出较高的不确定性,有时将其标记为易变的,而其他时候则将“最”“最大”或“最健康”等趋势敏感短语误解为普遍固定的
  • 其他错误包括将活人的成就误分类为已故,以及错误地将稳定的地理或生物事实视为时间敏感的
  • 有趣的是,假阴性的数量是假阳性的两倍
    • 这表明分类器在判断问题是否涉及稳定事实时更为谨慎
  • 在某些情况下,外部信息至关重要
    • 例如,如果一个人已去世,所有关于他的问题都将是 Evergreen 的,但模型需要知道该人是否仍在世
    • 类似地,关于最近年份(如 2023-2024)的问题也带来了挑战,因为模型缺乏对当前日期的感知
  • 在其他情况下,模型在组织和区分其知识方面还有改进空间
    • 例如,学习区分真正稳定的物理事实(如列支敦士登的面积)和更易变的事实(如天空中最亮的恒星),或区分已完成的历史事件(如法国大革命)和正在发展的动态(如即将举行的总统选举)
  • 更多示例见附录 G

补充:Related Work

  • 时间推理在问答任务中仍是一个基础性挑战,因为时间动态性常常使问题解释和答案检索变得复杂
    • 时间敏感的问答任务得益于如 TimeQA(2021)等数据集的改进,该数据集包含 20,000 个需要时间推理的问题-答案对
      • 尽管有帮助,但它仅涉及简单推理
    • SituatedQA(Zhang 和 Choi,2021)通过将问题置于时间和空间上下文中,展示了语境的重要性
    • StreamingQA 强调了时间适应的必要性,揭示了大语言模型在跟踪变化事实时的困难(2022)
    • TemporalAlignmentQA (TAQA) (2024)通过提供 2000 年至 2023 年每年 20,000 个时间敏感问题及其答案,进一步增强了时间对齐的可能性
    • MuLan(2024)根据变化率和事实类型对问题进行了区分
    • FreshQA(2024)提出了一个专注于新鲜度敏感信息的基准,进一步说明了大语言模型在处理时间动态知识时的局限性
    • 这些研究表明需要专门的时间推理方法(2024)
    • 表 1 展示了数据集的对比
  • 检索增强生成(RAG)方法,如 DRAGIN(2024)、IRCoT(2023)或 Rowen(2024),通过动态检索决策解决了时间敏感问答问题,但效果有限
    • 动态检索决策需要自我知识估计
    • 在问答系统被信任之前,它们需要知道自己不知道什么
    • 大语言模型通常难以识别无法回答的问题(2023),但利用自我知识(self-knowledge)可以减少需要大量知识的任务中的错误(2023;2025)
      • 问题:这里的 self-knowledge 是什么?是模型自己的内容知识吗?
  • 基于检索的方法从外部解决了时间知识缺口(temporal knowledge gaps externally),另一种方向是更新大语言模型的内部知识
    • 更新大语言模型的内部知识计算成本高昂,因为重新训练或编辑模型通常需要大量资源,且无法在实际中每天或每小时执行
  • 诸如 LLM Surgery(2024)和参数高效微调(2024;2025)等技术试图使此类更新更实用,但仍面临大规模变更或事实幻觉的问题

Limitations

  • 尽管论文的 EverGreenQA 数据集是首个多语言、人工标注的常青性基准测试,但其规模仍相对较小(3,278 个示例)
    • 不过,它覆盖了 7 种语言的高质量数据,足以揭示模型行为的明确趋势
  • 虽然论文涵盖了 7 种语言,但数据集并未覆盖所有主要语系,且在低资源语言环境中的表现仍有待探索
    • 尽管如此,论文的选择包括了拉丁和非拉丁文字,能够进行有意义的多语言评估
  • 论文对大语言模型的评估涵盖了 14 个不同规模和家族的模型,但主要聚焦于每个规模层级的代表性模型
    • 扩展到更多指令调优或领域适配的变体可能会进一步推广研究结论
  • 在基于不确定性的分析中,论文聚焦于五种代表性指标
    • 尽管这些指标被广泛使用且足以得出强有力的结论,但引入更多最新或任务特定的指标可能会提供更多洞见
  • 论文训练的常青分类器表现优异,但仅对其架构、训练过程和辅助数据的使用进行了有限的消融实验
    • 探索更多模型变体或迁移学习策略可能会进一步提升鲁棒性
  • 最后,尽管论文展示了常青分类的几种实际用途,但并未探索其在主动学习(active learning)、答案校准(answer calibration)或搜索重排序(search reranking)等任务中的潜力
    • 这些有前景的方向留待未来工作

附录A Evergreen Testing Details

LLM 的文本参数

  • 每个示例包含 5 个可变(mutable)和 5 个不可变(immutable)的样本
  • 对于 LLaMA 3.1,采样参数如下:
    • 温度(temperature)= 0.7
    • top_p = 0.9
  • 对于 Qwen 2.5:
    • 温度 = 0.6
    • top_p = 0.95
    • top_k = 20
    • min_p = 0

分类器参数

  • 分类器模型训练参数如下:
    • 所有模型训练了10个周期(epoch)
    • 采用早停(early-stopping)策略
    • 学习率(lr)= 4.6e-5
    • 批量大小(batch size, bs)= 16
    • 未使用额外数据集
    • 论文为所有语言训练了一个统一模型
  • 如表10 所示,multilingual-e5-large-instruct 表现最佳
  • Evergreen Verbal Instruction

    You are a helpful assistant. You help user to classify the questions based on the tem- porality. There are two classes: immutable and mutable. Immutable, in which the an- swer almost never changes. Mutable, in which the answer typically changes over the course of several years or less. Think about each question and in the end answer with Mutable or Immutable starting with ’Classi- fication:’


附录B Translation Prompt

  • 翻译验证指令(Translation Validation Instruction) :将以下英文文本翻译为法语、德语、希伯来语、阿拉伯语和中文。以JSON格式提供翻译结果,键名为“French”、“German”、“Hebrew”、“Arabic”和“Chinese”
  • Translation Validation Instruction :

    Translate the following English text into French, German, Hebrew, Arabic and Chi- nese. Provide the translations as a JSON object with keys ’French’, ’German’, ’He- brew’, ’Arabic’, ’Chinese’.

  • 论文使用GPT-4.1,温度参数(temperature)= 0.2,并添加标签 "response_format": "json_object"

附录C Validation Instructions

  • 验证指令 :对每个翻译的问题,根据以下标准打分:
    • 0 :翻译包含扭曲原意的错误
    • 1 :翻译包含不影响整体含义的轻微错误
  • Translation Validation Instruction:

    For each translated question, assign a score according to the following criteria:
    • 0 – the translation contains errors that distort the meaning.
    • 1 – the translation contains minor er- rors that do not affect the overall mean- ing.


附录D Classifier for Self-Knowledge

  • 论文探索了七种分类模型(使用scikit-learn (2013) 和CatBoost (2020)):
    • 逻辑回归(Logistic Regression)
    • k近邻(k-Nearest Neighbors)
    • 多层感知机(Multilayer Perceptron)
    • 决策树(Decision Tree)
    • 随机森林(Random Forest)
    • 梯度提升(Gradient Boosting)
    • CatBoost
  • 所有模型均使用标准化特征(StandardScaler)训练,超参数在训练数据的 100 个示例子集上优化,并在每个数据集上重复三次实验以确保鲁棒性
  • 最终评估时,论文选择验证集上表现最佳的两个模型,使用 VotingClassifier 将其组合为软投票集成(soft-voting ensemble)
  • 每个组件模型均使用调优后的超参数在全训练集上重新训练

超参数网格

  • 逻辑回归 :C: [0.01, 0.1, 1],求解器(solver): [lbfgs, liblinear],类别权重(class_weight): [balanced, 0:1, 1:1, None],最大迭代次数(max_iter): [10000, 15000, 20000]
  • k近邻 :n_neighbors: [5, 7, 9, 11, 13, 15],距离度量(metric): [euclidean, manhattan],算法(algorithm): [auto, ball_tree, kd_tree],权重(weights): [uniform, distance]
  • 多层感知机 :隐藏层大小(hidden_layer_sizes): [(50), (100), (50,50), (100,50), (100,100)],激活函数(activation): [relu, tanh],求解器: [adam, sgd],alpha: [0.00001, 0.0001, 0.001, 0.01],学习率(learning_rate): [constant, adaptive],早停(early_stopping): True,最大迭代次数: [200, 500]
  • 决策树 :最大深度(max_depth): [3, 5, 7, 10, None],最大特征数(max_features): [0.2, 0.4, sqrt, log2, None],分裂标准(criterion): [gini, entropy],分裂器(splitter): [best, random]
  • CatBoost :迭代次数(iterations): [10, 50, 100, 200],学习率: [0.001, 0.01, 0.05],深度(depth): [3, 4, 5, 7, 9],bootstrap类型(bootstrap_type): [Bayesian, Bernoulli, MVS]
  • 梯度提升 :n_estimators: [25, 35, 50],学习率: [0.001, 0.01, 0.05],最大深度: [3, 4, 5, 7, 9],最大特征数: [0.2, 0.4, sqrt, log2, None]
  • 随机森林 :n_estimators: [25, 35, 50],最大深度: [3, 5, 7, 9, 11],最大特征数: [0.2, 0.4, sqrt, log2, None],bootstrap: [True, False],分裂标准: [gini, entropy],类别权重: [balanced, 0:1, 1:1, None]

附录E Predictive Analysis of Uncertainty for Temporality

  • 表9 报告了逻辑回归模型的 McFadden’s pseudo-\(R^2\) value , 该模型基于两种不确定性指标(困惑度(perplexity)和平均 Token 熵(mean token entropy))预测问题是否为常青(evergreen)
    • 注:McFadden’s pseudo-\(R^2\) value 即麦克法登伪 \(R^2\) 值,是一种用于评价非线性模型,特别是逻辑回归模型等定性选择模型拟合优度的指标。该指标的取值范围是从 0 到小于 1,其值越接近 0,表明模型没有预测能力;值越接近 1,说明模型对数据的拟合效果越好,即模型能够解释因变量的变异程度越高
  • 大多数模型的伪 pseudo-\(R^2\) 值低于 0.07,表明不确定性对常青分类的预测能力有限
  • 唯一例外是 Phi-3-medium (128k),其困惑度得分最高(0.137),表明长上下文训练可能改善时间性不确定性的编码,但仍非常有限
  • 两种不确定性指标无显著优劣,模型大小与预测性能也无明确相关性
  • 结果表明,不确定性指标仅能捕捉有限的时间性信号,适合作为辅助特征而非独立预测器

附录F Dataset Collection Details

  • 负责标注常青和可变标签(evergreen/mutable)及生成标准答案(golden answers)的语言学家团队均持有语言学学士以上学位,确保标注质量
  • 每阶段标注均通过团队负责人验证以保证一致性
  • 此外,为支持多样化应用,所有答案均转换为别名集合,具体流程见附录F.4
  • 标注人员薪酬符合当地法规(注:这也太谨慎了)

Golden Answers Annotation

  • 标准答案需完整且对用户有用
优质答案示例
  • 问题 :谁被视为物理学的奠基人?
    • 答案 :艾萨克·牛顿(Isaac Newton)被广泛认为是物理学的奠基人
    • 注释 :问题为单数形式,而根据多数来源,牛顿是经典物理学的奠基人。尽管伽利略和笛卡尔也有贡献,但牛顿是最被广泛接受的答案
  • 问题 :2000年意大利总统是谁?
    答案 :Carlo Azeglio Ciampi 是意大利政治家,曾任意大利共和国第10任总统及总理
不完整答案示例
  • 问题 :蜘蛛有牙齿吗?
    • 答案 :是的,蜘蛛有牙齿
    • 注释 :正确答案应为“蜘蛛没有牙齿,但有螯肢(chelicerae),可分泌消化酶。”
  • 开放式列表问题(如“最高的山有哪些?”)需列出多个正确示例并注明非穷举

Evergreen-ness Annotation

  • 常青性标准因领域而异
  • 多数问题涉及已确立的事实或事件,但天文学等领域的新发现可能改变答案
  • 政治领导人类问题(如“现任总统是谁?”)显然非常青
可变问题示例
  • 1)最近一次日食是哪年?
  • 2)哪个国家拥有最长铁路?
常青问题示例
  • 1)罗马帝国分裂为哪两部分,何时发生?
  • 2)梅西是谁?

Synthetic Data Generation

  • 使用 GPT-4.1 生成并人工验证了 1,449 个额外问答对
  • 过滤重复问题并改写常见模板(如“某人年龄”)
  • 仿照 FreshQA 风格,生成常青和可变问题,后者进一步分为慢变(slow-changing)和快变(fast-changing)两类,以增强数据多样性
  • 合成指令 :
    • “请生成以下类型的问答对:慢变问题(答案通常几年内变化)、快变问题(答案一年内变化)、永不变问题(答案永不变化)。”
  • Synthetic Instruction:

    Can you generate different question-answer pair: slow-changing questions, in which the answer typically changes over the course of several years (up to 10); fast-changing question, in which the answer typically changes within a year or less; never-changing, in which the answer never changes.

Short-Answer Generation Prompt

  • 简短答案生成器指令 :
    • 给定一个事实性问题和完整(可能较长)答案 ,生成多个简洁且语义等价的答案变体
    • 规则 :
      • 1)每个变体必须事实正确且独立回答问题
      • 2)尽量简短(约1–5词),同时保持无歧义
      • 3)包含常见拼写、缩写、数字与罗马数字形式
      • 4)不添加答案未明确包含的信息
      • 5)返回如 JSON 对象:{ "answers": ["变体1", "变体2", ...] }
    • 示例 :
      • 问题 :“英国国王是谁?”
      • 答案 :“英国国王是查尔斯三世(Charles Philip Arthur George)。”,["查尔斯3世", "国王是查尔斯3世", "Charles III"]
  • 论文使用 GPT-4o(温度=0.2)并添加了 “response_format”: “json_object” 标签,从长 form 中生成简短 form 答案,便于比较 LLM 的性能

附录G Error Analysis Extended

  • 表11 扩展了EG-E5分类器的错误模式分析,包括更多误分类示例
  • 误报(False Positives) :
    • 时间性表述误为固定历史事实(如“俄罗斯总统选举在哪年举行?”)
    • 最高级假设为静态事实(如“最健康的茶是哪种?”)
  • 漏报(False Negatives) :
    • 最高级误为时间敏感(如“最古老的货币是什么?”)
    • 生物地理事实误为频繁变化(如“列支敦士登的面积是多少?”)
  • 完整示例见附录G

附录H License and Infrastructure

  • 实验使用 1–2 块 NVIDIA A100 GPU,总计约 40 GPU 小时
  • 模型遵循各自许可:LLaMA 3.1 (2024) 和 Gemma 2 (2024) 为自定义许可,Phi-3 (2024) 和 E5 为 MIT 许可,Qwen 2.5 (2024) 和 Mistral (2023) 为 Apache 2.0 许可
  • GPT模型通过 API 或网页界面访问
  • 数据集和分类器以 MIT 许可发布

NLP——技术报告解读-Kimi-K1.5

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:Kimi K1.5: Scaling Reinforcement Learning with LLMs, Moonshot AI (Kimi), 20250103
    • Kimi K1.5: Long Context RL 的成功实践 - Chayenne Zhao的文章 - 知乎
      • 包含关于 partial Rollout 方法较为详细的讨论

Paper Summary

  • 论文报告了最新多模态大语言模型 Kimi K1.5 的训练实践,包括其 RL 训练技术、多模态数据配方和基础设施优化
    • 并从实践中总结了一个关键结论:上下文长度的扩展对于持续提升大语言模型的性能至关重要
  • 论文通过优化的学习算法和 Infra 优化(如部分轨迹回放,partial rollouts)实现了高效的长上下文强化学习训练
  • 论文结合了多种技术改进了策略优化(policy optimization)
    • 为长思维链 RL 制定了数学框架,并推导出一种在线镜像下降(online mirror descent)的变体以实现鲁棒的优化
    • 通过实验验证了采样策略(sampling strategies)、长度惩罚(length penalty)和数据配方优化(data recipe optimization)对强化学习性能的提升作用
  • 即使不依赖更复杂的技术(如 MCTS、价值函数 和 过程奖励模型),仅通过长上下文扩展和改进的策略优化也能实现强大的性能
  • 作者还观察到长到短(long2short)方法的潜力(即利用长思维链(long-CoT)技术改进短思维链(short-CoT)模型)
    • 这些方法显著提升了短思维链模型的性能
    • 可以尝试将长到短方法与长思维链强化学习迭代结合,以进一步提高给定上下文长度预算下的 Token Efficient 和性能
  • 论文建立了一个简单而有效的 RL 框架,无需依赖更复杂的技术(如蒙特卡洛树搜索、价值函数和过程奖励模型),其关键组成部分包括:
    • 长上下文扩展(long context scaling)
    • 改进的策略优化方法(policy optimization methods)
  • 论文的系统在跨多模态的多个基准测试中实现了 SOTA 推理性能,与 OpenAI 的 o1 模型相当
  • 论文提出了有效的长到短(long2short)方法(利用长思维链技术改进短思维链模型)实现了 SOTA 短思维链推理结果,大幅超越现有短思维链模型(如 GPT-4o 和 Claude Sonnet 3.5),优势最高达 +550%

Introduction and Discussion

  • 在扩展定律(scaling law)的背景下,基于 NTP 的语言模型预训练已得到广泛研究
    • 其中模型参数和数据规模的成比例扩展会带来智能的持续提升 (2020; 2022)
    • 但这种方法受限于可用高质量训练数据的数量 (2024; 2023)
  • 论文介绍了 Kimi K1.5 的训练配方,这是论文最新通过 RL 训练的多模态大语言模型
    • 目标是探索一种可能的新扩展方向
    • 通过将 RL 与大语言模型结合,模型能够通过奖励驱动的探索进行学习,从而不再受限于静态的预存数据集
  • K1.5 的设计和训练包含以下几个关键要素:
    • 长上下文扩展(Long context scaling) :
      • 论文将 RL 的上下文窗口扩展至 128k,并观察到随着上下文长度的增加,性能持续提升
      • 论文方法的核心思想是通过部分轨迹回放(partial rollouts)提高训练效率(即通过重用先前轨迹的大部分内容来采样新轨迹,避免从头重新生成新轨迹的成本)
      • 论文的观察表明,上下文长度是大语言模型 RL 持续扩展的关键维度
    • 改进的策略优化(Improved policy optimization) :
      • 论文推导了长思维链 RL 的公式化表示,并采用了一种在线镜像下降(online mirror descent)的变体进行鲁棒策略优化
      • 该算法通过有效的采样策略、长度惩罚(length penalty)和数据配方的优化进一步改进
    • 简洁框架(Simplistic Framework) :
      • 长上下文扩展与改进的策略优化方法相结合,为大语言模型学习建立了一个简洁的 RL 框架
      • 由于论文能够扩展上下文长度,学习到的思维链展现出规划(planning)、反思(reflection)和修正(correction)的特性
      • 增加的上下文长度相当于增加了搜索步数。因此,论文证明即使不依赖更复杂的技术(如蒙特卡洛树搜索、价值函数和过程奖励模型),也能实现强大的性能
    • 多模态(Multimodalities) :
      • 论文的模型联合训练文本和视觉数据,具备跨两种模态联合推理的能力
  • 论文还提出了有效的长到短方法,利用长思维链技术改进短思维链模型
    • 包括对长思维链激活应用长度惩罚以及模型融合(model merging)
  • 论文的长思维链版本在跨多模态的多个基准测试中实现了 SOTA 推理性能
    • AIME 77.5 分
    • MATH 500 96.2 分
    • Codeforces 94% 分位数
    • MathVista 74.9 分
    • 与 OpenAI 的 o1 模型相当
  • 论文的短思维链模型也实现了 SOTA 推理结果
    • AIME 60.8 分
    • MATH500 94.6 分
    • LiveCodeBench 47.3 分
    • 大幅超越现有短思维链模型(如 GPT-4o 和 Claude Sonnet 3.5),优势最高达 +550%
  • 结果如图 1 和图 2 所示

Approach: Reinforcement Learning with LLMs

  • Kimi K1.5 的开发包含多个阶段:
    • 预训练(pretraining)
    • 基础监督微调(vanilla supervised fine-tuning, SFT)
    • 长思维链监督微调(long-CoT supervised fine-tuning)
    • RL
  • 本报告重点关注强化学习部分:
    • 概述 RL 提示集构建(Section 2.1)
    • 概述 长思维链监督微调(Section 2.2)
    • 深入讨论 RL 训练策略(Section 2.3)
  • 注:预训练和基础监督微调的更多细节可见 Section 2.5

RL Prompt Set Curation

  • 通过初步实验,论文发现 RL 提示集的质量和多样性对强化学习的有效性至关重要
    • 一个精心构建的提示集不仅能引导模型进行鲁棒推理 ,还能降低奖励破解(reward hacking)和过拟合表面模式的风险
  • 高质量的 RL 提示集需满足以下三个关键特性:
    • 多样性覆盖(Diverse Coverage) :提示应涵盖 STEM、编程和通用推理等多个领域 ,以增强模型的适应能力并确保广泛的适用性
    • 难度平衡(Balanced Difficulty) :提示集应包含简单、中等和困难问题的均衡分布 ,以促进渐进式学习并避免过拟合特定难度级别
    • 可准确评估(Accurate Evaluability) :提示应支持通过验证器进行客观可靠的评估 ,确保模型表现基于正确的推理而非表面模式或随机猜测
  • 多样性覆盖 :为实现多样性覆盖,论文采用自动过滤器筛选需要丰富推理且易于评估的问题
    • 数据集包含来自 STEM 领域、竞赛和通用推理任务的文本及图文问答数据
    • 此外,论文开发了标签系统,按领域和学科对提示分类,确保各主题的均衡代表性(2023)
  • 难度平衡 :论文采用基于模型的方法,利用模型自身能力自适应评估每个提示的难度
    • 对于每个提示,SFT 模型以较高采样温度生成 10 次答案 ,通过通过率(pass rate)作为难度代理
      • 通过率越低,难度越高
    • 这种方法使难度评估与模型内在能力对齐,显著提升 RL 训练效果
    • 通过此方法,我们可以预过滤大部分简单案例,并在 RL 训练中灵活探索不同采样策略
  • 可准确评估 :为避免奖励破解(2021;2022),论文需确保每个提示的推理过程和最终答案均可被准确验证
    • 实证表明,某些复杂推理问题的答案可能较简单且易猜测,导致误判(即模型通过错误推理得到正确答案),论文排除了易出现此类问题的题型,如多选题、判断题和证明题
    • 对于通用问答任务,论文提出一种简单有效的方法识别并移除易破解提示:
      • 要求模型在不进行思维链推理的情况下猜测答案
      • 若模型在 \(N=8\) 次尝试内猜中正确答案 ,则该提示被视为易破解并被移除
    • 注:开发更先进的验证模型仍是未来研究方向

Long-CoT Supervised Fine-Tuning

  • 基于优化的 RL 提示集,论文通过提示工程构建一个小型高质量的长思维链预热数据集,包含文本和图像输入的已验证推理路径
  • 该方法类似于拒绝采样(rejection sampling, RS),但专注于通过提示工程生成长思维链推理路径
  • 预热数据集旨在封装人类推理的关键认知过程,包括:
    • 规划(Planning) :模型在执行前系统化步骤;
    • Evaluation :对中间步骤的批判性分析;
    • 反思(Reflection) :重新审视并优化方法;
    • 探索(Exploration) :考虑替代解决方案
  • 通过对该数据集进行轻量级 SFT,模型能有效内化这些推理策略
  • 微调后的长思维链模型在生成详细且逻辑连贯的响应方面表现更优,从而提升多样化推理任务的性能

Reinforcement learning

Problem Setting
  • 给定一个训练数据集,论文的目标是训练一个策略模型 \(\pi_\theta\) 以准确解决测试问题
    $$\mathcal{D} = \{(x_i, y^*_i)\}_{i=1}^n$$
    • 其中 \(x_i\) 表示问题,\(y^*_i\) 表示对应的真实答案
  • 在复杂推理任务中,从问题 \(x\) 到答案 \(y\) 的映射并非直接完成
    • 为解决这一挑战,思维链(Chain of Thought, CoT)方法提出使用一系列中间步骤 来连接 \(x\) 和 \(y\):
      $$ z = (z_1, z_2, \ldots, z_m)$$
      • 其中每个 \(z_i\) 是一个连贯的 Token 序列,作为解决问题的关键中间步骤 (2022)
    • 在解决问题 \(x\) 时,思维 \(z_t \sim \pi_\theta(\cdot|x, z_1, \ldots, z_{t-1})\) 通过自回归方式采样生成,随后生成最终答案 \(y \sim \pi_\theta(\cdot|x, z_1, \ldots, z_m)\)
    • 论文用 \(y, z \sim \pi_\theta\) 表示这一采样过程
    • 需要注意的是,思维和最终答案均以语言序列的形式生成
  • 为了进一步增强模型的推理能力,可使用规划算法(planning algorithms)探索不同的思维过程,从而在推理时生成改进的思维链 (2024;)
    • 规划算法的核心思想是通过价值估计显式构建一个思维搜索树
    • 这使得模型能够探索思维过程的多种可能延续,或在遇到死胡同时回溯以研究新的方向
    • 规划算法的具体流程如下:
      • 设 \(\mathcal{T}\) 为一个搜索树,其中每个节点表示一个部分解 \(s = (x, z_{1:|s|})\),包含问题 \(x\) 和一系列思维
        $$ z_{1:|s|} = (z_1, \ldots, z_{|s|})$$
        • \(|s|\) 表示序列中思维的数量
      • 规划算法使用一个评判模型 \(v\) 提供反馈 \(v(x, z_{1:|s|})\),帮助评估当前解决问题的进展并识别现有部分解中的错误
      • 反馈可以是一个判别分数或语言序列 (2024)
      • 根据所有 \(s \in \mathcal{T}\) 的反馈,规划算法选择最有潜力的节点进行扩展,从而生长搜索树
      • 上述过程迭代重复,直到生成完整的解
  • 从算法视角来看:
    • 给定第 \(t\) 次迭代时的历史搜索记录
      $$ (s_1, v(s_1), \ldots, s_{t-1}, v(s_{t-1}))$$
    • 规划算法 \(\mathcal{A}\) 迭代确定下一个搜索方向
      $$ \mathcal{A}(s_t|s_1, v(s_1), \ldots, s_{t-1}, v(s_{t-1})) $$
    • 并为当前搜索进展提供反馈
      $$ \mathcal{A}(v(s_t)|s_1, v(s_1), \ldots, s_{t-1}, v(s_{t-1}))$$
    • 由于思维和反馈均可视为中间推理步骤,且这些组件均可表示为语言 Token 序列,论文用 \(z\) 替换 \(s\) 和 \(v\) 以简化符号
    • 因此,论文将规划算法视为直接作用于推理步骤序列的映射
      $$ \mathcal{A}(\cdot|z_1, z_2, \ldots) $$
    • 在这一框架下,规划算法使用的搜索树中存储的所有信息被扁平化为提供给算法的完整上下文
  • 这为生成高质量思维链提供了一个有趣的视角:与其显式构建搜索树并实现规划算法,不如考虑训练一个模型来近似这一过程
    • 此时,思维数量(即语言 Token 数量)类似于传统规划算法分配的计算预算
    • 长上下文窗口的最新进展(注:大模型的上下文越来越长了)为训练和测试阶段的无缝扩展提供了可能
    • 如果可行,这种方法将使模型能够通过自回归预测直接在推理空间中进行隐式搜索
    • 因此,模型不仅学会解决一组训练问题,还培养了有效解决单个问题的能力,从而提升对未见测试问题的泛化能力
  • 论文考虑使用 RL 训练模型生成思维链 (OpenAI, 2024)
    • 设 \(r\) 为一个奖励模型,用于根据真实答案 \(y^*\) 判断给定问题 \(x\) 的答案 \(y\) 的正确性,并分配一个值
      $$ r(x, y, y^*) \in \{0, 1\} $$
    • 对于可验证的问题,奖励直接由预定义的标准或规则确定
      • 例如,在编程问题中,论文评估答案是否通过测试用例
    • 对于自由形式的真实答案,论文训练一个奖励模型 \(r(x, y, y^*)\) 来预测答案是否与真实答案匹配
    • 给定问题 \(x\),模型 \(\pi_\theta\) 通过采样过程 \(z \sim \pi_\theta(\cdot|x)\) 和 \(y \sim \pi_\theta(\cdot|x, z)\) 生成思维链和最终答案
      • 生成的思维链的质量通过其是否能导向正确的最终答案来评估
  • 综上所述,论文考虑以下目标来优化策略:
    $$
    \max_{\theta} \mathbb{E}_{(x, y^*) \sim \mathcal{D}, (y, z) \sim \pi_\theta} \left[ r(x, y, y^*) \right].
    $$
  • 通过扩展强化学习训练,论文的目标是训练一个模型,使其能够结合以下两者的优势 :
    • 简单基于提示的思维链(simple prompt-based CoT)
    • 规划增强思维链(planning-augmented CoT)
  • 在推理时 ,模型仍通过自回归方式采样语言序列 ,从而避免了部署时复杂并行化的需求
  • 这种方法与简单基于提示的方法的关键区别在于
    • 模型不应仅遵循一系列推理步骤,而应通过学习关键规划技能(如错误识别、回溯和解决方案优化)来利用所有探索过的思维作为上下文信息
Policy Optimization
  • 论文采用一种在线策略镜像下降(online policy mirror descent,OPMD)的变体作为训练算法 (Abbasi-2019; 2019; 2020)
    • 该算法迭代执行
    • 关于 Mirror Descent 方法的介绍见附录
  • 在第 \(i\) 次迭代时,论文将当前模型 \(\pi_{\theta_i}\) 作为参考模型,并优化以下相对熵正则化的策略优化问题:
    $$
    \max_{\theta} \mathbb{E}_{(x, y^*) \sim \mathcal{D} } \left[ \mathbb{E}_{(y, z) \sim \pi_\theta} \left[ r(x, y, y^*) \right] - \tau \text{KL}(\pi_\theta(x) || \pi_{\theta_i}(x)) \right],
    $$
    • 其中 \(\tau > 0\) 是控制正则化程度的参数
    • 注意:是每次迭代都要求解上面的优化问题,而这个优化问题的求解可能是经过多个小步骤的,所以在不同大迭代轮次之间,参数已经发生了改变,下文中使用每次大迭代之后的策略 \(\pi_{\theta_i}\) 采样样本后,实际上是一种 Off-policy 策略而不是 On-policy 策略
  • 该目标具有闭式解:
    $$
    \pi^*(y, z|x) = \pi_{\theta_i}(y, z|x) \exp(r(x, y, y^*)/\tau)/Z.
    $$
    • 这里 \(Z = \sum_{y’, z’} \pi_{\theta_i}(y’, z’|x) \exp(r(x, y’, y^*)/\tau)\) 是归一化因子
  • 对两边取对数,论文得到对于任意 \((y, z)\) 满足以下约束,这使得论文能够在优化过程中利用 Off-policy 数据:
    $$
    r(x, y, y^*) - \tau \log Z = \tau \log \frac{\pi^*(y, z|x)}{\pi_{\theta_i}(y, z|x)}.
    $$
  • 我们得到以下最终代理损失函数(surrogate loss):
    $$
    \color{red}{L(\theta) = \mathbb{E}_{(x, y^*) \sim \mathcal{D} } \left[ \mathbb{E}_{(y, z) \sim \pi_{\theta_i} } \left[ \left( r(x, y, y^*) - \tau \log Z - \tau \log \frac{\pi_\theta(y, z|x)}{\pi_{\theta_i}(y, z|x)} \right)^2 \right] \right]}.
    $$
  • \(\tau \log Z\) 的近似表示 :可以使用样本 \((y_1, z_1), \ldots, (y_k, z_k) \sim \pi_{\theta_i}\):
    $$
    \tau \log Z \approx \tau \log \frac{1}{k} \sum_{j=1}^k \exp(r(x, y_j, y^*)/\tau).
    $$
    • 注:上式是对 \(Z = \sum_{y’, z’} \pi_{\theta_i}(y’, z’|x) \exp(r(x, y’, y^*)/\tau)\) 的估计
  • \(\tau \log Z\) 的近似表示改进 :论文进一步发现,使用采样奖励的均值在实践中效果显著:
    $$\overline{r} = \text{mean}(r(x, y_1, y^*), \ldots, r(x, y_k, y^*))$$
    • 这是合理的,因为当 \(\tau \to \infty\) 时,\(\tau \log Z\) 趋近于 \(\pi_{\theta_i}\) 下的期望 Reward(详细证明见附录)
  • 最后,论文的算法(代理损失的梯度)总结如下:对于每个问题 \(x\),使用参考策略 \(\pi_{\theta_i}\) 采样 \(k\) 个响应,梯度由下式给出:
    $$
    \color{red}{\frac{1}{k} \sum_{j=1}^k \left( \nabla_\theta \log \pi_\theta(y_j, z_j|x)(r(x, y_j, y^*) - \overline{r}) - \frac{\tau}{2} \nabla_\theta \left( \log \frac{\pi_\theta(y_j, z_j|x)}{\pi_{\theta_i}(y_j, z_j|x)} \right)^2 \right).}
    $$
  • 对于熟悉策略梯度方法的读者,这一梯度类似于使用采样奖励均值作为基线的策略梯度 (2019; 2024)
    • 主要区别在于响应是从 \(\pi_{\theta_i}\) 采样而非 On-policy 采样,并且应用了 \(l_2\) 正则化
      • 注:前文中有关于 Off-policy 和 On-policy 的讨论,每次大的迭代内都包含一些小的迭代,\(\pi_{\theta_i}\) 是第 \(i\) 次大迭代后的策略
    • 因此,可以将其视为常规 On-policy 正则化策略梯度算法在 Off-policy 情况下的自然扩展 (2017)
  • 论文从 \(\mathcal{D}\) 中采样一批问题,并将参数更新为 \(\theta_{i+1}\)(注:这里需要更新很多个小步骤),随后将其作为下一次迭代的参考策略
    • 由于每次迭代因参考策略的变化而考虑不同的优化问题,论文在每次迭代开始时重置优化器(这里是指大的迭代)
  • 在论文的训练系统中,论文排除了价值网络(value network),这一设计选择在先前的研究中也有采用 (2024)
    • 这一选择显著提高了训练效率,论文假设传统强化学习中用于信用分配(credit assignment)的价值函数可能不适用于论文的场景
  • 考虑一种情况:
    • 模型生成了一个部分思维链 \((z_1, z_2, \ldots, z_t)\),并且存在两个潜在的下一步推理步骤 \(z_{t+1}\) 和 \(z’_{t+1}\)
    • 假设 \(z_{t+1}\) 直接导向正确答案,而 \(z’_{t+1}\) 包含一些错误
    • 如果存在一个预言价值函数(oracle value function),它将表明 \(z_{t+1}\) 相对于 \(z’_{t+1}\) 具有更高的价值
      • 根据标准信用分配原则,选择 \(z’_{t+1}\) 会因为相对于当前策略具有负优势而受到惩罚
    • 但探索 \(z’_{t+1}\) 对于训练模型生成长思维链极具价值
  • 通过使用从长思维链推导出的最终答案的合理性作为奖励信号 ,模型可以从选择 \(z’_{t+1}\) 中学习试错模式,只要它成功恢复并达到正确答案
    • 理解:使用合理性作为奖励信号而不是正确性?那是否也可以将 价值模型 建模为这个合理性呢?这与是否使用 价值网络没有关系吧!
  • 这一例子的关键启示是,论文应鼓励模型探索多样化的推理路径,以增强其解决复杂问题的能力
    • 这种探索方法生成了丰富的经验,支持关键规划技能的开发
  • 论文的主要目标不仅限于在训练问题上实现高准确率,而是专注于使模型掌握有效的问题解决策略,最终提升其在测试问题上的表现
Length Penalty
  • 论文观察到一种“过度思考”(overthinking)现象:即在强化学习训练过程中,模型的响应长度显著增加
  • 虽然这带来了性能提升,但过长的推理过程在训练和推理时成本高昂,且通常不符合人类偏好
  • 为解决这一问题,论文引入了一种长度奖励(length reward)以抑制 Token 长度的快速增长,从而提高模型的 Token Efficiency
  • 给定问题 \(x\) 的 \(k\) 个采样响应 \((y_1, z_1), \ldots, (y_k, z_k)\) 和真实答案 \(y^*\)
    • 设
      • \(\text{len}(i)\) 为 \((y_i, z_i)\) 的长度
      • \(\min_\text{len} = \min_i \text{len}(i)\) 和 \(\max_\text{len} = \max_i \text{len}(i)\)
    • 如果
      • \(\max_\text{len} = \min_\text{len}\)
      • 论文将所有响应的长度奖励设为零,因为它们的长度相同
    • 否则,长度奖励由下式给出:
      $$
      \text{len_reward}(i) = \begin{cases}
      \lambda & \text{if } r(x, y_i, y^*) = 1 \\
      \min(0, \lambda) & \text{if } r(x, y_i, y^*) = 0
      \end{cases}, \quad \text{where } \lambda = 0.5 - \frac{\text{len}(i) - \min_\text{len} }{\max_\text{len} - \min_\text{len} }.
      $$
  • 本质上,论文的奖励思路是:
    • 在正确答案中:鼓励更短的响应 ,并惩罚更长的响应;
    • 在错误答案中:显式惩罚具有错误答案的长响应
    • 对奖励的理解:如果答案出错,即使很短的回答也不给奖励,因为可能错误的让模型觉得应该缩短队列造成结果出错
    • 这一基于长度的奖励随后通过加权参数添加到原始奖励中
  • 在初步实验中,长度惩罚可能会导致在训练初期减缓进度
    • 为缓解这一问题,论文提出在训练过程中逐步预热长度惩罚
    • 具体来说,论文首先使用标准策略优化(不包含长度惩罚),随后在剩余训练中应用恒定长度惩罚
Sampling Strategies
  • 强化学习算法本身具有相对良好的采样特性(更困难的问题提供更大的梯度),但其训练效率仍然有限
  • 一些定义良好的先验采样方法可能带来更大的性能提升
  • 论文利用多种信号进一步改进采样策略
    • 首先,论文收集的强化学习训练数据自然带有不同的难度标签(例如,数学竞赛问题比小学数学问题更难)
    • 其次,由于强化学习训练过程对同一问题多次采样,论文还可以跟踪每个问题的成功率作为难度指标
  • 论文提出两种采样方法,利用这些先验知识提高训练效率
    • 课程采样(Curriculum Sampling) :论文首先在较简单的任务上训练模型,随后逐步过渡到更具挑战性的任务
      • 由于初始强化学习模型性能有限 ,将有限的计算预算用于非常困难的问题通常只会产生少量正确样本,导致训练效率较低
      • 同时,论文收集的数据自然包含年级和难度标签,使得基于难度的采样成为一种直观且有效的方式
    • 优先级采样(Prioritized Sampling) :除了课程采样外,论文还使用优先级采样策略 ,专注于模型表现不佳的问题
      • 论文跟踪每个问题的成功率 \(s_i\),并按照与 \(1 - s_i\) 成比例的概率采样问题 ,使得成功率较低的问题获得更高的采样概率
      • 这使模型能够集中精力改进其薄弱环节,从而加速学习并提升整体性能
More Details on Training Recipe
  • 代码测试用例生成(Test Case Generation for Coding) :
    • 由于网络上许多编程问题的测试用例不可用 ,论文设计了一种自动生成测试用例的方法 ,作为训练模型的奖励
      • 问题:网络上测试用例不可用的原因是什么?是因为不专业吗?
    • 论文主要关注不需要特殊评判(special judge)的问题,并假设这些问题的真实解决方案可用,以便利用这些解决方案生成更高质量的测试用例
      • 问题:不需要特殊评判是指什么?
    • 论文使用广受认可的测试用例生成库 CYaRon 来增强论文的方法,测试用例的生成如下:
      • 基于问题描述,论文使用 Based Kimi K1.5 模型生成测试用例
      • CYaRon 的使用说明和问题描述作为生成器的输入
      • 对于每个问题,论文生成 50 个测试用例,并随机抽取 10 个真实提交结果对每个测试用例进行验证
        • 如果至少 7 个提交结果匹配,则该测试用例被视为有效
      • 经过这轮筛选后,论文得到一组选定的测试用例
    • 如果至少 9 个提交结果通过全部选定的测试用例,则该问题及其关联的测试用例被加入训练集
    • 在统计数据方面,从 1,000 个在线竞赛问题样本中,约 614 个问题不需要特殊评判
    • 论文开发了 463 个测试用例生成器,生成了至少 40 个有效测试用例,最终将 323 个问题纳入训练集
    • 问题:本节的描述不够清晰,还需要重新理解一下
  • 数学奖励建模(Reward Modeling for Math)
    • 评估数学解决方案的一个挑战在于,不同的书写形式可能表示相同的答案
      • 例如,\(a^2 - 4\) 和 \((a + 2)(a - 2)\) 可能是同一问题的有效解
    • 论文采用两种方法提高奖励模型的评分准确性:
      • 1)经典奖励模型(Classic RM) :受 InstructGPT (2022) 方法的启发,论文实现了一个基于价值头(value-head)的奖励模型,并收集了约 800K 数据点进行微调
        • 该模型最终以“问题”、“参考答案”和“响应”作为输入,输出一个标量以指示响应是否正确
      • 2)思维链奖励模型(Chain-of-Thought RM) :近期研究 (2024; 2024) 表明,结合思维链推理的奖励模型,在需要细微正确性标准的任务(如数学)上显著优于经典方法
        • 论文收集了约 800K 带有思维链标注的示例对 Kimi 模型进行微调
        • 基于与经典奖励模型相同的输入,思维链方法在提供最终正确性判断(以 JSON 格式输出)之前显式生成逐步推理过程,从而实现更鲁棒且可解释的奖励信号
    • 在人工抽查中,经典奖励模型的准确率约为 84.4% ,而思维链奖励模型达到了 98.5% 的准确率
    • 在强化学习训练过程中,论文采用思维链奖励模型以确保更准确的反馈
  • 视觉数据(Vision Data)
    • 为提升模型在真实世界图像中的推理能力,并实现视觉输入与 LLM 的更有效对齐,论文的视觉强化学习(Vision RL)数据主要来源于三个类别:
      • 真实世界数据
      • 合成视觉推理数据
      • 文本渲染数据
    • 1)真实世界数据(Real-world data) :
      • 涵盖需要图形理解和推理的各年级科学问题、需要视觉感知和推理的位置猜测任务,以及涉及理解复杂图表的数据分析等
      • 这些数据集提升了模型在真实场景中的视觉推理能力
    • 2)合成视觉推理数据(Synthetic visual reasoning data) :
      • 人工生成的图像和场景,旨在提升特定的视觉推理技能,如理解空间关系、几何模式和物体交互
      • 这些合成数据集为测试模型的视觉推理能力提供了可控环境,并提供了无限的训练样本
    • 3)文本渲染数据(Text-rendered data) :
      • 通过将文本内容转换为视觉格式,确保模型在处理不同模态的文本查询时保持一致
      • 通过将文论文档、代码片段和结构化数据转换为图像,论文确保无论输入是纯文本还是渲染为图像(如截图或照片),模型都能提供一致的响应
      • 这也有助于增强模型处理 text-heavy 图像的能力
    • 每种类型的数据对于构建全面的视觉语言模型都至关重要,使其能够有效管理广泛的真实应用,同时确保跨不同输入模态的一致性能

Long2short: Context Compression for Short-CoT Models(长到短:短链思维模型的上下文压缩)

  • 尽管长链思维(long-CoT)模型表现出强大的性能,但与标准的短链思维(short-CoT) LLM 相比,它在测试时需要消耗更多的 Token
  • 论文将长链思维模型的思维先验(thinking priors)迁移到短链思维模型中,从而在有限的测试 Token 预算下提升性能
  • 本节介绍了几种解决这一“长到短”(long2short)问题的方法,包括
    • 模型融合(model merging)
    • 最短拒绝采样(shortest rejection sampling)
    • 直接偏好优化(Direct Preference Optimization, DPO)
    • 长到短强化学习(long2short RL)
  • 模型融合(Model Merging)
    • 模型融合在保持泛化能力方面已被证明是有效的
    • 论文还发现,在融合长链思维模型和短链思维模型时,该方法能显著提升 Token Efficient
    • 具体而言,论文通过简单地对两个模型的权重进行平均来实现融合:
      $$
      \theta_{\text{merged} } = \frac{\theta_{\text{long-CoT} } + \theta_{\text{short-CoT} } }{2}
      $$
      • 其中,\(\theta_{\text{long-CoT} }\) 和 \(\theta_{\text{short-CoT} }\) 分别表示长链思维模型和短链思维模型的参数
  • 最短拒绝采样(Shortest Rejection Sampling)
    • 论文观察到,对于同一问题,模型生成的响应长度存在较大差异
    • 最短拒绝采样方法对同一问题采样 \(n\) 次 ,并选择其中最短的正确响应用于 SFT
      • 注:实验中 \(n=8\)
  • 直接偏好优化(DPO)
    • 与最短拒绝采样类似,论文利用长链思维模型生成多个响应样本
    • 选择最短的正确解作为正样本 ,而较长的响应作为负样本
      • 包括 错误的较长响应 和 比所选正样本长 1.5 倍的正确响应
    • 这些正负样本对构成了用于 DPO 训练的成对偏好数据
  • 长到短强化学习(Long2short RL)
    • 在标准强化学习训练阶段后,论文选择一个在性能和 Token Efficient 之间达到最佳平衡的模型作为基础模型,并进行单独的长到短 RL 训练阶段
    • 在第二阶段(RL 训练阶段)中,论文应用了第 2.3.3节 中介绍的长度惩罚(length penalty),显著减少最大展开长度(maximum rollout length),以进一步惩罚超出预期长度但可能正确的响应

Other Training Details

Pretraining
  • Kimi K1.5 的基础模型是在多样化、高质量的多模态语料库上训练的
    • 语言数据涵盖五个领域:英语、中文、代码、数学推理和知识
    • 多模态数据集包括
      • 图像描述(Captioning)数据集
      • 图文交错(Image-text Interleaving)数据集
      • 光学字符识别(Optical Character Recognition, OCR)数据集
      • 知识和问答数据集
    • 使模型具备视觉-语言能力
    • 严格的质控确保了预训练数据的相关性、多样性和平衡性
  • 论文的预训练分为三个阶段:
    • 1)视觉-语言预训练(Vision-language pretraining) :
      • 首先建立强大的语言模型基础,随后逐步引入视觉-语言交错数据,获得多模态能力
    • 2)冷却阶段(Cooldown) :
      • 使用精选的合成数据巩固模型能力,尤其是在数学推理、知识任务和代码生成方面
    • 3)长上下文激活(Long-context activation) :
      • 将序列处理能力扩展到 131,072 个 Token ,支持需要长上下文的任务
Vanilla Supervised Finetuning(标准监督微调)
  • 论文构建了涵盖多个领域的标准监督微调语料库
  • 对于非推理任务(如问答、写作和文本处理),论文通过人工标注构建初始种子数据集,并训练种子模型
  • 随后,论文收集多样化的提示(prompts),利用种子模型为每个提示生成多个响应 ,标注者对响应进行排名并优化排名靠前的响应,形成最终版本
  • 对于数学和编程等推理任务,由于基于规则和奖励模型的验证比人工判断更准确高效,论文采用拒绝采样(rejection sampling)扩展监督微调数据集
  • 论文的标准监督微调数据集包含约 1M 文本示例,其中:
    • 500K 示例用于通用问答
    • 200K 用于代码生成
    • 200K 用于数学和科学
    • 5K 用于创意写作
    • 20K 用于长上下文任务(如摘要、文档问答、翻译和写作)
  • 此外,论文还构建了 1000K 图文示例,涵盖图表解读、OCR、基于图像的对话、视觉编程、视觉推理以及带有视觉辅助的数学/科学问题
  • 训练分为两个阶段:
    • 1)在 32k Token 序列长度下训练 1个 Epoch,学习率从 \(2 \times 10^{-5}\) 衰减到 \(2 \times 10^{-6}\)
    • 2)在 128k Token 序列长度下训练 1个 Epoch,学习率重新预热到 \(1 \times 10^{-5}\),最终衰减到 \(1 \times 10^{-6}\)
    • 问题1:为什么长 Token 序列要在后面训练?不能混合训练吗?先后顺序可以变化吗?
    • 问题2:为什么长 Token 序列要用更低的学习率?
  • 为提升训练效率,论文将多个训练示例打包到单个训练序列中

RL Infrastructure

Large Scale Reinforcement Learning Training System for LLM
  • 在人工智能领域,RL 已成为 LLM 训练的关键方法 (2022; 2024)
    • 其灵感来源于在复杂游戏(如围棋、星际争霸 II 和 Dota 2)中取得的成功,例如 AlphaGo (2017)、AlphaStar (2019) 和 OpenAI Dota Five (2019)
  • 遵循这一传统,Kimi K1.5 系统采用了一种迭代同步(iterative synchronous)的 RL 框架,通过持续学习和适应来增强模型的推理能力
    • 该系统的关键创新是引入了部分展开(Partial Rollout)技术,用于优化复杂推理轨迹的处理
  • 如图 3a 所示,RL 训练系统通过迭代同步(iterative synchronous)的方式运行,每次迭代包含展开阶段和训练阶段
    • 在展开阶段 ,由 Central Master 协调的 Rollout Workers 通过与模型交互生成展开轨迹,产生对各类输入的响应序列
      • 这些轨迹随后被存储在一个 **Replay Buffer 中** ,通过打乱时间相关性来确保训练数据的多样性和无偏性
      • 问题:为什么要打乱时间相关性?不同时间点生成的数据是独立的吧
    • 在训练阶段 , Trainer Workers 访问这些经验来更新模型的权重
    • 这一循环过程使模型能够从其行为中持续学习,逐步调整策略以提升性能
  • Central Master 作为核心调度器,管理 Rollout Workers、Trainer Workers、奖励模型评估(Evaluation with Reward Models)和 Replay Buffer 之间的数据流和通信
    • 它确保系统协调运行,平衡负载并促进高效的数据处理
  • Trainer Workers 访问这些展开轨迹(无论是单次迭代完成还是跨多次迭代分割)来计算梯度更新,从而优化模型参数并提升性能
    • 在这一过程中,Reward Model 评估模型输出的质量并提供关键反馈以指导训练过程
    • 奖励模型的评估对于确定模型策略的有效性并引导模型实现最佳性能尤为重要
  • 此外,系统还集成了一个代码执行服务(Code Execution Service) ,专门用于处理代码相关问题,并与奖励模型紧密结合
    • 代码执行服务 在实际编码场景中评估模型的输出 ,确保模型的学习与真实编程挑战紧密对齐
    • 通过将模型的解决方案与实际代码执行结果进行验证,这一反馈循环对于优化模型策略和提升代码相关任务的性能至关重要
Partial Rollouts for Long CoT RL
  • 本研究的一个核心思想是扩展长上下文 RL (long-context RL)训练的规模
  • Partial Rollouts 通过管理长轨迹和短轨迹的展开,有效解决了处理长链式思维(Long CoT)特征的挑战
    • 该技术设定了一个固定的输出 Token 预算,限制每次展开轨迹的长度
    • 如果在展开阶段轨迹超出 Token 限制,未完成的部分会被保存到 Replay Buffer ,并在下一次迭代中继续
    • 这确保了单个长轨迹不会独占系统资源
    • Rollout Workers是异步运行的 ,当部分工作器处理长轨迹时,其他工作器可以独立处理新的短展开任务
      • 这种异步操作通过确保所有 Rollout Workers 积极参与训练过程,最大化计算效率,从而优化系统的整体性能
  • 如图 3b 所示,部分展开系统通过将长响应分割为跨迭代的片段(从迭代 \(n-m\) 到迭代 \(n\))来工作
    • Replay Buffer 作为中央存储机制,保存这些响应片段,其中只有当前迭代(迭代 \(n\))需要按策略计算
    • 之前的片段(迭代 \(n-m\) 到 \(n-1\))可以从缓冲区高效复用,无需重复展开
    • 这种分段方法显著降低了计算开销:
      • 系统不是一次性展开整个响应,而是逐步处理和存储片段,从而能够生成更长的响应,同时保持快速的迭代时间
      • 在训练过程中,某些片段可以从损失计算中排除,以进一步优化学习过程 ,使整个系统既高效又可扩展
    • 问题:这种跨段的偏短不符合重要性采样规则了吧,还算是 On-policy 的策略吗?上面说的在损失中排除部分片段是为了解决这个问题吗?
      • 回答:生成后,有两个选择,选择1)保存历史生成的概率(理论效果更优);选择2)用当前策略重新计算生成概率(可能引入未知不一致问题),在更新前一般都需要用当前的 Actor 重新计算 log_prob 的,所以这里虽然不是同一个 Actor 生成的,但是其重要性权重使用的 prob 能保证是最新的
      • 一个参考博客,包含较为详细的讨论:Kimi K1.5: Long Context RL 的成功实践 - Chayenne Zhao的文章 - 知乎
  • 部分展开的实现还包括重复检测功能
    • 系统识别生成内容中的重复序列并提前终止,减少不必要的计算,同时保持输出质量
    • 检测到的重复内容可以被分配额外的惩罚,从而有效抑制提示集中冗余内容的生成
Hybrid Deployment of Training and Inference
  • RL 训练过程包含以下阶段:
    • 训练阶段(Training Phase) :
      • 初始阶段,Megatron (2020) 和 vLLM (2023) 在单独的容器中运行,由一个称为检查点引擎(Checkpoint Engine)的中间进程封装(详见第 2.6.3 节)
      • Megatron 启动训练过程
      • 训练完成后,Megatron 卸载 GPU 内存,准备将当前权重传输给 vLLM
    • 推理阶段(Inference Phase) :
      • Megatron 卸载后,vLLM 以虚拟模型权重启动,并通过 Mooncake (2024) 从 Megatron 接收最新权重进行更新
      • 展开完成后,检查点引擎停止所有 vLLM 进程
    • 后续训练阶段(Subsequent Training Phase) :
      • vLLM 占用的内存释放后,Megatron 重新加载内存并启动新一轮训练
  • 论文发现现有工作难以同时支持以下所有特性:
    • 1)复杂的并行策略(Complex parallelism strategy) :
      • Megatron 和 vLLM 可能采用不同的并行策略
      • 在 Megatron 中分布在多个节点的训练权重可能难以与 vLLM 共享
    • 2)最小化空闲 GPU 资源(Minimizing idle GPU resources) :
      • 对于按策略 RL,近期工作如 SGLang (2024) 和 vLLM 可能在训练过程中保留部分 GPU,这反过来会导致训练 GPU 闲置
      • 更高效的方式是在训练和推理之间共享相同的设备
    • 3)动态扩展能力(Capability of dynamic scaling) :
      • 在某些情况下,通过增加推理节点数量(同时保持训练过程不变)可以显著加速
      • 论文的系统能够在需要时高效利用闲置 GPU 节点
  • 如图 4 所示,论文在 Megatron 和 vLLM 之上实现了这一混合部署框架(详见第 2.6.3 节),实现了从训练到推理阶段少于 1 分钟的切换时间,反之约为 10 秒
  • 混合部署策略(Hybrid Deployment Strategy)
    • 论文提出了一种训练和推理任务的混合部署策略,利用 Kubernetes Sidecar 容器共享所有可用 GPU,将两种工作负载部署在同一 Pod 中。该策略的主要优势包括:
      • 促进高效的资源共享和管理,避免训练节点在等待推理节点时闲置(当两者部署在不同节点时)
      • 利用独立的部署镜像,训练和推理可以各自独立迭代以获得更好的性能
      • 该架构不仅限于 vLLM,其他框架也可以方便地集成
  • 检查点引擎(Checkpoint Engine)
    • 检查点引擎负责管理 vLLM 进程的生命周期,暴露 HTTP API 以支持对 vLLM 的各种操作触发
    • 为了确保整体一致性和可靠性,论文使用由 etcd 服务管理的全局元数据系统来广播操作和状态
    • 由于 CUDA 图、NCCL 缓冲区和 NVIDIA 驱动等因素,vLLM 卸载后完全释放 GPU 内存可能具有挑战性
      • 为了最小化对 vLLM 的修改,论文在需要时终止并重启它以获得更好的 GPU 利用率和容错能力
    • Megatron 中的工作器将拥有的检查点转换为共享内存中的 Hugging Face 格式
      • 此转换还考虑了流水线并行(Pipeline Parallelism)和专家并行(Expert Parallelism),因此这些检查点中仅保留张量并行(Tensor Parallelism)
      • 共享内存中的检查点随后被分片并注册到全局元数据系统中
      • 论文使用 Mooncake 通过 RDMA 在对等节点之间传输检查点
      • 需要对 vLLM 进行一些修改以加载权重文件并执行张量并行转换
Code Sandbox
  • 论文开发了沙箱作为一个安全的环境,用于执行用户提交的代码,并针对代码执行和代码基准评估进行了优化
  • 通过动态切换容器镜像,沙箱支持 MultiPL-E (2023)、DMOJ Judge Server、Lean 等 (2023)、Jupyter Notebook 和其他镜像的不同用例
  • 对于编码任务中的 RL,沙箱通过提供一致且可重复的评估机制,确保训练数据判断的可靠性
  • 其反馈系统支持多阶段评估,例如代码执行反馈和仓库级编辑,同时保持统一的上下文以确保跨编程语言的公平基准比较
  • 论文将服务部署在 Kubernetes 上以实现可扩展性和弹性,并通过 HTTP 端点对外暴露以支持外部集成
    • Kubernetes 的自动重启和滚动更新等功能确保了可用性和容错性
  • 为了优化性能并支持 RL 环境,论文在代码执行服务中集成了多项技术以提升效率、速度和可靠性,包括:
    • 使用 Crun(Using Crun) :论文使用 crun 作为容器运行时而非 Docker ,显著减少了容器启动时间
    • Cgroup 复用(Cgroup Reusing) :论文为容器预创建 cgroup,这对于高并发场景至关重要,因为为每个容器创建和销毁 cgroup 可能成为瓶颈
    • 磁盘使用优化(Disk Usage Optimization) :论文使用带有 tmpfs 上层的覆盖文件系统来控制磁盘写入,提供固定大小的高速存储空间
      • 这种方法对临时工作负载特别有益
  • 这些优化提升了代码执行中的 RL 效率,为评估 RL 生成的代码提供了一致且可靠的环境,这对于迭代训练和模型改进至关重要

Experiments

Evaluation

  • 由于 K1.5 是一个多模态模型(multimodal model),论文在不同模态的多个基准测试上进行了全面评估(详细的评估设置见附录 C)
  • 论文的基准测试主要包括以下三类:
    • 文本基准测试(Text Benchmark) :MMLU (2020)、IF-Eval (2023)、CLUEWSC (2020)、C-EVAL (2023)
    • 推理基准测试(Reasoning Benchmark) :HumanEval-Mul (2024)、Codeforces (2024)、MATH-500 (2023)
    • 视觉基准测试(Vision Benchmark) :MMMU (2024)、MATH-Vision (2024)、MathVista (2023)

Main Results

  • K1.5 长链思维模型(K1.5 long-CoT model)
    • Kimi K1.5 长链思维模型的性能如表 2 所示
    • 通过长链思维监督微调(如第 2.2 节所述)和视觉-文本联合强化学习(如第 2.3 节所述),模型的长期推理能力显著增强
    • 测试时计算规模的扩展进一步提升了其性能,使模型在多种模态上实现了 SOTA 结果
    • 论文的评估表明,模型在长上下文中的推理、理解和信息综合能力有了显著提升,代表了多模态人工智能能力的重大进步
  • K1.5 短链思维模型(K1.5 short-CoT model)
    • Kimi K1.5 短链思维模型的性能如表 3 所示
    • 该模型整合了多种技术,包括传统的监督微调(如第 2.5.2 节所述)、强化学习(如第 2.3 节所述)以及长链到短链的知识蒸馏(如第 2.4 节所述)
    • 结果表明,K1.5 短链思维模型在多项任务中表现优于或与领先的开源和专有模型相当,包括文本、视觉和推理任务,尤其在自然语言理解、数学、编程和逻辑推理方面表现突出

Long Context Scaling

  • 论文使用一个中等规模的模型来研究 LLM 在强化学习中的扩展特性
  • 图 5 展示了小型模型变体在数学提示集上训练时,训练准确率和响应长度随训练迭代的变化情况
    • 随着训练的进行,论文观察到响应长度和性能准确率同步增长
    • 在更具挑战性的基准测试中,响应长度的增长更为显著,这表明模型学会了为复杂问题生成更详细的解决方案
  • 图 6 表明,模型的输出上下文长度与其问题解决能力之间存在强相关性
    • 论文最终的 K1.5 运行将上下文长度扩展到 128k,并在困难的推理基准测试中观察到持续的性能提升

Long2short

  • 文比较了第 2.4 节中提出的长链到短链强化学习算法与 DPO、最短拒绝采样和模型合并方法,重点关注长链到短链问题的 Token Efficiency (2024),即如何将长链思维模型的优势传递给短链模型
  • 在图 7 中:
    • K1.5-long 代表论文用于长链到短链训练的长链思维模型
    • K1.5-short w/ rl 表示通过长链到短链强化学习训练得到的短链模型
    • K1.5-short w/ dpo 表示通过 DPO 训练提升 Token Efficiency 的短链模型
    • K1.5-short w/ merge 表示模型合并后的结果
    • K1.5-short w/ merge + rs 表示对合并模型应用最短拒绝采样得到的短链模型
    • K1.5-shortest 表示论文在长链到短链训练中获得的最短模型
  • 如图 7 所示
    • 与其他方法(如 DPO 和模型合并)相比,长链到短链强化学习算法展示了最高的 Token Efficiency
    • K1.5 系列的所有模型(橙色 Token )均表现出比其他模型(蓝色 Token )更优的 Token Efficiency
      • 例如,K1.5-short w/ rl 在 AIME2024 上的 Pass@1 得分为 60.8(8 次运行的平均值),平均仅使用 3,272 个 Token
      • 同样,K1.5-shortest 在 MATH500 上的 Pass@1 得分为 88.2,同时消耗的 Token 数量与其他短链模型相当

Ablation Studies

Scaling of model size and context length
  • 论文的主要贡献是通过 RL 增强模型生成长链思维的能力,从而提升其推理能力
  • 一个自然的问题是:这与单纯增加模型规模相比如何?
  • 为了证明论文方法的有效性,论文使用相同数据集训练了两个不同规模的模型,并记录了强化学习训练期间所有检查点的评估结果和平均推理长度
  • 这些结果如图 8 所示
    • 较小模型初始性能不如较大模型,但较小模型通过优化后的长链思维可以达到与大规模模型相当的性能
    • 大规模模型通常表现出更好的 Token Efficiency
      • 这也表明,如果目标是追求最佳性能,扩展大规模模型的上下文长度具有更高的上限,并且更节省 Token
      • 但如果测试时计算有预算限制,训练较小模型并扩展上下文长度可能是可行的解决方案
Effects of using negative gradients
  • 论文研究了在设置中使用 ReST (2023) 作为策略优化算法的有效性
  • ReST 与其他 RL-based 的方法(包括论文的方法)的主要区别在于
    • ReST 通过拟合当前模型采样的最佳响应来迭代优化模型,而不会对错误响应施加负梯度惩罚
  • 如图 10 所示
    • 论文的方法在样本复杂度上优于 ReST,这表明引入负梯度显著提升了模型生成长链思维的效率
      • ReST 不会使用负梯度,详情见附录
    • 论文的方法不仅提高了推理质量,还优化了训练过程,以更少的训练样本实现了稳健的性能
      • 这一发现表明,策略优化算法的选择在论文的设置中至关重要,因为 ReST 与其他 RL-based 的方法在其他领域中的性能差距并不明显 (2023)
      • 论文的结果凸显了选择适当优化策略以最大化长链思维生成效果的重要性
      • 问题:这里强调的 优化策略/策略优化算法 是什么?
Sampling strategies
  • 本节进一步证明了第 2.3.4 节中提出的课程采样策略的有效性
  • 论文的训练数据集 \(\mathcal{D}\) 包含不同难度级别的问题
  • 论文的方法 :
    • 通过课程采样方法 ,论文首先使用 \(\mathcal{D}\) 进行预热阶段 ,随后仅专注于困难问题来训练模型
  • 基线方法 :
    • 采用均匀采样策略且无课程调整
  • 如图 9 所示,论文的结果清楚地表明,课程采样方法显著提升了性能
    • 这种改进可以归因于该方法逐步挑战模型的能力,使其能够更稳健地理解和解决复杂问题
    • 通过在初始通用阶段后专注于更困难的问题,模型能够更好地增强其推理和问题解决能力

附录 B:Pretraining

  • RL 的效率与基础模型的性能密切相关
  • 前沿模型如 Gemini (2024) 和 Llama (2024) 强调了预训练数据质量对于实现高性能的重要性
  • 但许多最新的开源模型并未完全公开其数据处理流程和配方,这为更广泛社区的理解带来了挑战
  • 尽管论文目前并未开源专有模型,但论文致力于全面公开数据流程和方法论
  • 本节主要关注多模态预训练数据配方,随后简要讨论模型架构和训练阶段

B.1 Language Data

  • 论文的预训练语料库旨在为训练 LLM 提供全面且高质量的数据,它涵盖五个领域:
    • 英语(English)
    • 中文(Chinese)
    • Code
    • 数学与推理(Mathematics & Reasoning)
    • 知识(Knowledge)
  • 论文对每个领域采用复杂的过滤和质量控制机制,以确保训练数据的最高质量
  • 对于所有预训练数据,论文对每个数据源进行了严格的单独验证,以评估其对整体训练配方的具体贡献
  • 这种系统性评估确保了多样数据组成的质量和有效性
English and Chinese textual data
  • 论文开发了一个多维质量过滤框架,结合多种评分方法以减少个体偏见并确保全面的质量评估。论文的框架包括:
    • 1)基于规则的过滤(Rule-based filtering) :
      • 论文实施领域特定的启发式方法,移除问题内容,包括重复内容、机器翻译文本和低质量的网络抓取内容
      • 论文还过滤掉包含过多特殊字符、异常格式或垃圾模式的文档
    • 2)基于 FastText 的分类(FastText-based classification) :
      • 论文训练了专门的 FastText (2016; 2024) 模型,基于语言特征和语义连贯性识别内容质量
      • 这有助于识别具有自然语言流和正确语法结构的文档
    • 3)基于 Embedding 的相似性分析(Embedding-based similarity analysis) :
      • 使用文档 Embedding (2024),论文计算文档级相似性分数,以识别并移除近重复内容,同时保留语义上有价值的变体
      • 这种方法有助于保持训练语料库的多样性
    • 4)LLM-based 质量评估(LLM-based quality assessment) :
      • 参考 (2024),论文利用 LLM 根据连贯性、信息量和潜在教育价值对文档进行评分
      • 这种方法特别适用于识别简单方法可能忽略的细微质量指标
  • 每个文档的最终质量分数是这些单独分数的组合
  • 基于广泛的实证分析,论文实施了动态采样率,高质量文档在训练期间被上采样,而低质量文档被下采样
Code data
  • 代码数据主要包括两类
  • 对于从代码文件提取的纯代码数据,论文遵循 BigCode (2023; 2024) 的方法论,对数据集进行了全面的预处理
    • 首先,移除杂项语言,并应用基于规则的清理程序以提高数据质量
    • 随后,通过策略性采样技术解决了语言不平衡问题
      • 具体而言,Token 语言如 JSON、YAML 和 YACC 被下采样,而 32 种主要编程语言(包括 Python、C、C++、Java 和 Go)被上采样以确保平衡表示
  • 对于从各种数据源获取的文本-代码交错数据,论文使用基于 Embedding 的方法召回高质量数据
    • 这种方法确保了数据的多样性并保持了其高质量
Math & Reasoning data
  • 数学和推理数据组件对于开发强大的分析和问题解决能力至关重要
  • 数学预训练数据主要从公开可用的互联网资源中检索,包括网页文本和 PDF 文档 (2023)
  • 最初,论文发现通用领域的文本提取、数据清理过程和 OCR 模型在数学领域中表现出较高的假阴性率
  • 因此,论文首先开发了专门的数据清理程序和 OCR 模型,特别针对数学内容,旨在最大化数学数据的召回率
  • 随后,论文实施了两阶段数据清理过程 :
    • 1)使用 FastText 模型进行初步清理,移除大部分无关数据
    • 2)利用微调的语言模型进一步清理剩余数据,从而获得高质量的数学数据
Knowledge data
  • 知识语料库经过精心策划,以确保全面覆盖学术领域
  • 论文的知识库主要包括学术练习、教科书、研究论文和其他通用教育文献
  • 这些材料的大部分通过 OCR 处理数字化,为此论文开发了专有模型,针对学术内容(尤其是数学公式和特殊符号)进行了优化
  • 论文使用内部语言模型为文档添加多维度标签,包括:
    • 1)OCR 质量指标,用于评估识别准确性
    • 2)教育价值指标,衡量教学相关性
    • 3)文档类型分类(如练习、理论材料)
  • 基于这些多维度标注,论文实施了一个复杂的过滤和采样流程
    • 首先,文档通过 OCR 质量阈值进行过滤
      • 论文的 OCR 质量评估框架特别关注检测和过滤常见的 OCR 伪影,尤其是表明识别失败的重复文本模式
    • 其次,通过评分系统仔细评估每份文档的教育价值
      • 具有高教学相关性和知识深度的文档被优先考虑,同时在理论深度和教学清晰度之间保持平衡
      • 这有助于确保论文的训练语料库包含高质量的教育内容,能够有效促进模型的知识获取
    • 最后,为了优化训练语料库的整体组成,不同文档类型的采样策略通过大量实验经验性确定
      • 论文进行隔离评估,以识别对模型知识获取能力贡献最显著的文档子集
      • 这些高价值子集在最终训练语料库中被上采样
      • 为了保持数据多样性并确保模型的泛化能力,论文仔细保留其他文档类型的平衡表示
      • 这种数据驱动的方法帮助论文优化了聚焦知识获取与广泛泛化能力之间的权衡

B.2 Multimodal Data

  • 论文的多模态预训练语料库旨在提供高质量数据,使模型能够处理和理解来自多种模态(包括文本、图像和视频)的信息
  • 为此,论文还从五个类别中精选了高质量数据以构建语料库
    • 这五个类别是:字幕(captioning)、交错(interleaving)、OCR(光学字符识别)、知识(knowledge)和通用问答(general question answering)
  • 在构建训练语料库时,论文开发了多条多模态数据处理流程以确保数据质量,包括:过滤、合成和去重
    • 建立有效的多模态数据策略在联合训练视觉和语言时至关重要,因为它既保留了语言模型的能力,又促进了跨多种模态的知识对齐
  • 论文在本节中详细描述这些来源,分为以下类别:
Caption data
  • 论文的字幕数据为模型提供了基本的模态对齐和广泛的世界知识
  • 通过融入字幕数据,多模态 LLM 能够以高效的学习方式获取更广泛的世界知识
  • 论文整合了各种开源的中英文字幕数据集 (2022; 2024),并从多个来源收集了大量内部字幕数据
  • 但在整个训练过程中,论文严格限制合成字幕数据的比例,以减轻因真实世界知识不足而导致的幻觉风险
  • 对于通用字幕数据,论文遵循严格的质量控制流程,避免重复并保持高图像-文本相关性
  • 论文还在预训练期间改变图像分辨率,以确保视觉塔在处理高分辨率和低分辨率图像时均保持高效
Image-text interleaving data
  • 在预训练阶段,模型从交错数据中获益良多,例如:
    • 多图像理解能力可以通过交错数据提升;
    • 交错数据通常为给定图像提供详细知识;
    • 更长的多模态上下文学习能力也可以通过交错数据获得
  • 论文发现交错数据对保持模型的语言能力有积极贡献
    • 图像-文本交错数据是论文训练语料库的重要组成部分
    • 论文的多模态语料库考虑了开源的交错数据集 (2024; 2024),并利用教科书、网页和教程等资源构建了大规模的内部数据
  • 论文发现合成交错数据有助于多模态 LLM 保持文本知识的表现
    • 为了确保每张图像的知识得到充分学习,对于所有交错数据,除了标准的过滤、去重和其他质量控制流程外,论文还集成了数据重新排序程序,以保持所有图像和文本的正确顺序
OCR data
  • 光学字符识别(Optical Character Recognition, OCR)是一种广泛采用的技术,可将图像中的文本转换为可编辑格式
  • 强大的 OCR 能力对于更好地将模型与人类价值观对齐至关重要
    • 论文的 OCR 数据来源多样,包括开源和内部数据集,涵盖干净和增强的图像
  • 除了公开可用的数据外,论文还开发了大量的内部 OCR 数据集,涵盖多语言文本、密集文本布局、基于网络的内容和手写样本
  • 此外,遵循 OCR 2.0 (2024) 中概述的原则,论文的模型还配备了处理多种光学图像类型的能力,包括图形、表格、几何图表、流程图和自然场景文本
  • 论文应用了广泛的数据增强技术(如旋转、扭曲、颜色调整和噪声添加)以增强模型的鲁棒性
  • 最终,论文的模型在 OCR 任务中表现出高水平的熟练度
Knowledge data
  • 多模态知识数据的概念与之前提到的文本预训练数据类似,只是这里论文专注于从多样来源汇集全面的人类知识库,以进一步增强模型的能力
    • 例如,论文数据集中精心策划的几何数据对于培养视觉推理技能至关重要,确保模型能够理解人类创建的抽象图表
  • 论文的知识语料库遵循标准化的分类法,以平衡各个类别的内容,确保数据来源的多样性
    • 与纯文本语料库类似(从教科书、研究论文和其他学术材料中收集知识),多模态知识数据使用布局解析器和 OCR 模型处理这些来源的内容
    • 论文也纳入了来自互联网和其他外部资源的过滤数据
  • 由于论文的知识语料库的很大一部分来自基于互联网的材料,信息图表可能导致模型仅关注基于 OCR 的信息
  • 在这种情况下,仅依赖基本的 OCR 流程可能会限制训练效果
  • 为了解决这个问题,论文开发了一个额外的流程,以更好地捕获图像中 Embedding 的纯文本信息
General QA Data
  • 在训练过程中,论文观察到将大量高质量的问答数据集纳入预训练会带来显著的好处
  • 论文纳入了严格的学术数据集,涉及基础任务、表格/图表问答、网络代理和通用问答
  • 论文还编制了大量内部问答数据以进一步增强模型的能力
  • 为了保持难度和多样性的平衡,论文对通用问答数据集应用了评分模型和细致的手动分类,从而实现了整体性能的提升

B.3 Model Architecture

  • Kimi K 系列模型采用了 Transformer Decoder (2017) 的变体,集成了多模态能力以及架构和优化策略的改进,如图 11 所示
  • 这些进步共同支持了稳定的大规模训练和高效推理,专门针对大规模强化学习和 Kimi 用户的操作需求
  • 广泛的扩展实验表明,基础模型的大部分性能来自于预训练数据质量和多样性的提升
  • 关于模型架构扩展实验的具体细节超出了本报告的范围,将在未来的出版物中讨论

B.4 Training Stages

  • Kimi K1.5 模型的训练分为三个阶段:
    • 视觉-语言预训练阶段(vision-language pretraining stage)
    • 视觉-语言冷却阶段(vision-language cooldown stage)
    • 长上下文激活阶段(long-context activation stage)。每个阶段专注于特定的能力提升
Vision-language pretraining stage
  • 首先,仅在语言数据上进行训练,建立强大的语言模型基础
  • 随后,模型逐渐引入视觉-语言交错数据,获得多模态能力
    • 视觉塔最初在隔离状态下训练,不更新语言模型参数
    • 然后论文解冻语言模型层,最终将视觉-文本数据的比例提高到 30%
    • 最终的数据混合及其权重是通过在较小模型上进行的消融研究确定的
Vision-language cooldown stage
  • 在冷却阶段,模型继续使用高质量的语言和视觉-语言数据集进行训练,以确保卓越的性能
  • 通过实证研究,论文观察到在冷却阶段融入合成数据会带来显著的性能提升,尤其是在数学推理、知识任务和代码生成方面
  • 冷却数据集的英语和中文部分从预训练语料库的高保真子集中精选而来
  • 对于数学、知识和代码领域,论文采用混合方法:
    • 利用选定的预训练子集,同时通过专有语言模型生成内容进行增强
    • 论文利用现有的数学、知识和代码语料库作为源材料,通过拒绝采样技术生成问答对以保持质量标准 (2023; 2024)
    • 这些合成的问答对在纳入冷却数据集之前经过了全面验证
Long-context activation stage
  • 在长上下文激活阶段,K1.5 通过上采样的长上下文冷却数据进行训练,使其能够处理扩展序列并支持需要更长上下文的任务
  • 为了确保基础模型具备出色的长文本能力,论文上采样了长上下文数据,并在长上下文训练期间使用了 40% 的完全注意力数据和 60% 的部分注意力数据
    • 完全注意力数据(full attention data) :部分来自高质量的自然数据,部分来自合成的长上下文问答和摘要数据
    • 部分注意力数据(partial attention data) :来自冷却数据的均匀采样
  • RoPE 频率 (2024) 设置为 1,000,000
  • 在此阶段,论文通过将最大序列长度从 4,096 逐步增加到 32,768,最终达到 131,072,逐步扩展了长度激活训练

附录 C Evaluation Details

C.1 Text Benchmark

  • MMLU (2020)
    • 涵盖了 STEM、人文、社会科学等 57 个学科
    • 其难度范围从初级水平到高级专业水平,测试模型的世界知识和问题解决能力
  • IF-Eval (2023)
    • 一个用于评估大语言模型遵循可验证指令能力的基准
    • 包含 500 多个提示,例如“写一篇超过 800 字的文章”等
    • 由于版本变动,表 3 中报告的 IF-Eval 分数来自一个中间模型
    • 论文将根据最终模型更新分数
  • CLUEWSC (2020)
    • 是 CLUE 基准中的共指消解任务,要求模型判断句子中的代词和名词短语是否共指,数据来自中文小说
  • C-EVAL (2023)
    • 一个全面的中文评估套件,用于评估基础模型的高级知识和推理能力
    • 包含 52 个学科的 13,948 道选择题,涵盖四个难度级别

C.2 Reasoning Benchmark

  • HumanEval-Mul
    • 是 MultiPL-E (2022) 的一个子集
    • MultiPL-E 将 HumanEval 和 MBPP 基准扩展到 18 种编程语言,涵盖多种编程范式和流行度
    • 论文选择了 8 种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)的 HumanEval 翻译版本
  • LiveCodeBench (2024)
    • 一个全面且无污染的基准,用于评估大语言模型在编码任务中的表现
    • 具有实时更新功能以防止数据污染,涵盖多种编码场景,提供高质量的问题和测试,并平衡问题难度
    • 论文使用 2408-2411 版本(v4)的问题测试短思维链模型,使用 2412-2502 版本(v5)的问题测试长思维链模型
  • AIME 2024
    • 包含 2024 年美国数学邀请赛(AIME)的竞赛题目
    • AIME 是一项仅限邀请的高中生数学竞赛,评估高级数学技能,要求扎实的基础和高水平的逻辑思维
  • MATH-500 (2023)
    • 一个综合性数学基准,包含 500 道涵盖代数、微积分、概率等主题的数学问题
    • 测试计算能力和数学推理能力,分数越高表明数学问题解决能力越强
  • Codeforces
    • 一个知名的在线评测平台,也是评估长思维链编码模型的流行测试平台
    • 为了在 Div2 和 Div3 竞赛中取得更高排名,论文使用 K1.5 长思维链模型生成的代码片段进行多数投票,测试用例也由同一模型生成
    • Codeforces ELO 评分的百分位数提取自 OpenAI Day12 Talk

C.3 Image Benchmark

  • MMMU (2024)
    • 包含从大学考试、测验和教科书中精心挑选的 11.5K 个多模态问题
    • 涵盖六大主要学术领域:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程
  • MATH-Vision (MATH-V) (2024)
    • 一个精心策划的集合,包含 3,040 个高质量的视觉上下文数学问题,源自真实数学竞赛
    • 涵盖 16 个不同的数学学科,并按 5 个难度级别分级
    • 该数据集提供了全面多样的挑战,非常适合评估大语言模型在数学推理方面的能力
  • MathVista (2023)
    • 一个整合了多种数学和视觉任务的基准,要求参与者展示细粒度的深度视觉理解和组合推理能力以成功完成任务

附录:证明 \(\tau \to \infty\)时,\(\tau \log Z\)趋近于\(\pi_{\theta_i}\)下的期望Reward

  • 目标:证明当 \(\tau \to \infty\) 时,\(\tau \log Z\) 趋近于 \(\pi_{\theta_i}\) 下的期望 Reward
  • 已知
    $$ Z = \sum_{y’, z’} \pi_{\theta_i}(y’, z’ | x) \exp(r(x, y’, y^{*}) / \tau)$$
    • \(r(x, y’, y^{*})\) 为奖励函数
    • \(\pi_{\theta_i}(y’, z’ | x)\) 是参考策略下的概率分布
  • 对 \(Z\) 取对数并乘以 \(\tau\),得到
    $$ \tau \log Z = \tau \log\left(\sum_{y’, z’} \pi_{\theta_i}(y’, z’ | x) \exp(r(x, y’, y^{*}) / \tau)\right)$$
  • 当 \(\tau \to \infty\) 时,(泰勒展开的一阶近似)
    $$ \exp(r / \tau) \approx 1 + r / \tau$$
    • 补充 \(e^x\) 在 \(x=0\) 处泰勒展开完整式子:
      $$ e^x = \sum_{n=0}^{\infty} \frac{x^n}{n!} = 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + \cdots + \frac{x^n}{n!} + \cdots $$
  • 代入上式可得:
    $$
    \begin{align}
    \tau \log Z &\approx \tau \log\left(\sum_{y’, z’} \pi_{\theta_i}(y’, z’ | x) \left(1 + \frac{r}{\tau}\right)\right) \\
    &= \tau \log\left(1 + \frac{1}{\tau} \sum_{y’, z’} \pi_{\theta_i}(y’, z’ | x) r\right) \\
    \end{align
    }
    $$
  • 当 \(\tau \to \infty\) 时, 进一步使用 \(\log(1+x)\) 在 \(x=0\) 处的泰勒展开的一阶近似(\(\log(1+x) \approx x\)):
    $$ \ln(1+x) = \sum_{n=1}^{\infty} \frac{(-1)^{n+1} x^n}{n} = x - \frac{x^2}{2} + \frac{x^3}{3} - \frac{x^4}{4} + \cdots + \frac{(-1)^{n+1} x^n}{n} + \cdots $$
  • 于是有
    $$
    \begin{align}
    \tau \log Z &= \tau \log\left(1 + \frac{1}{\tau} \sum_{y’, z’} \pi_{\theta_i}(y’, z’ | x) r\right) \\
    &\approx \tau \cdot \frac{1}{\tau} \sum_{y’, z’} \pi_{\theta_i}(y’, z’ | x) r \quad (\text{因为} \text{当}\epsilon \to 0\log(1+\epsilon) \approx \epsilon ) \\
    &= \mathbb{E}_{\pi_{\theta_i} }[r]
    \end{align
    }
    $$
  • 因此,当 \(\tau \to \infty\) 时,\(\tau \log Z\) 趋近于 \(\pi_{\theta_i}\) 下的期望 Reward

附录:Mirror Descent 方法介绍

  • Mirror Descent是一种用于优化问题的迭代算法,特别适用于解决大规模和约束的凸优化问题
  • 它是梯度下降的一种推广,结合了梯度下降和凸分析中的 Bregman 距离,使得算法能够在不同的空间中进行优化
  • 基本思想 :
    • Mirror Descent通过将原始问题映射到一个更易处理的空间来进行优化
    • 它利用一个称为镜像映射(mirror map)的凸函数,将原空间中的点映射到镜像空间中
    • 在镜像空间中进行梯度更新 ,然后通过镜像映射的逆映射将更新后的点映射回原空间
  • 适用于处理具有特定结构的优化问题,如约束优化,特别适合高维空间中的优化问题
  • 具体计算流程 :
    • 初始化 :
      • 选择一个初始点 \( x_0 \)
      • 选择一个镜像映射函数 \( \psi \),通常是一个强凸函数
    • 迭代步骤(对于每个迭代 \( t \)):
      • 1)计算梯度 :计算当前点的梯度 \( \nabla f(x_t) \)
      • 2)镜像映射 :将当前点映射到镜像空间 \( z_t = \nabla \psi(x_t) \)
      • 3)梯度更新 :在镜像空间中进行梯度更新(其中 \( \eta \) 是学习率):
        $$ z_{t+1} = z_t - \eta \nabla f(x_t) $$
      • 4)逆镜像映射 :将更新后的点映射回原空间:
        $$ x_{t+1} = (\nabla \psi)^{-1}(z_{t+1}) $$
    • 终止条件 :
      • 根据问题的性质,可以选择固定迭代次数或根据梯度的变化情况来终止迭代
  • 问题:论文 2.3.2 节中讲的优化方法似乎和这个 OPMD 没什么直接关系?

附录:CYaRon 介绍

  • CYaRon 是一款由 Luogu 开发的用于生成随机测试数据的 Python 库,其全称为“Yet Another Random Olympic-informatics”
  • CYaRon 包含很多功能:
    • 随机图生成 :支持简单图、非简单图、有向图、无向图以及带权图和无权图的生成,可以满足不同算法对图结构测试数据的需求
    • 随机树生成 :能够生成链状、随机树或菊花图等不同形态的树,并可设定树的强度,方便对树相关的算法进行测试
    • 多维向量生成 :支持生成允许相同或不同的多维向量,还能快速生成数量可达(10^6)的数列,为数据结构和算法的测试提供了大量的向量和数列数据
    • 函数解析生成数列 :根据给定的函数生成对应的数列,这对于测试一些基于数学函数规律的算法非常有帮助
    • 随机多边形生成 :可以生成随机多边形,并计算其面积和周长,适用于几何算法的测试
    • 字符串、单词、句子的生成 :从字典中生成随机的字符串、单词和句子,可用于自然语言处理相关算法的测试
  • 安装方法 :通常使用Python的包管理工具pip进行安装,在命令行中输入pip install cyaron,即可将CYaRon下载并安装到Python环境中
  • 使用示例
    • 生成随机整数 :使用Random.randint方法,如cyaron.Random.randint(1, 100)可以生成1到100之间的随机整数
    • 生成随机浮点数 :通过Random.uniform方法,例如cyaron.Random.uniform(1.0, 10.0)可生成1.0到10.0之间的随机浮点数
    • 生成随机字符串 :利用Random.string方法,如cyaron.Random.string(8)能生成一个长度为8的随机字符串
    • 生成随机日期 :使用Random.date方法,如cyaron.Random.date("2000-01-01", "2023-12-31")可以生成2000年1月1日到2023年12月31日之间的随机日期
  • 应用场景 :CYaRon主要应用于信息学奥林匹克(OI)等编程竞赛中,帮助出题者快速、便捷地生成高质量的测试数据,以检验参赛选手的算法正确性和效率

附录:ReST(Reinforced Self-Training)方法介绍

  • ReST 是指强化自训练(Reinforced Self-Training)算法(Google DeepMind 2023 年提出),用于语言模型的对齐
  • ReST 的核心原理是 将语言模型的对齐问题视为一个不断增长的Batch RL(离线强化学习)问题 ,通过离线强化学习方法,交替进行数据集增长(Grow)和策略改进(Improve)两个步骤,来高效地调度强化学习过程中的策略生成和更新
  • ReST 的训练步骤(交替执行一下步骤) :
    • Grow 步骤 :
      • 从当前策略 \(\pi_{\theta}\) 中采样出许多输出序列,以此扩充训练数据集,相当于强化学习里的行动或数据生成步骤
      • 即对于 \(x \sim D\),有 \(y \sim \pi_{\theta}(y|x)\),从而创建出一个轨迹增强数据集 \(D_g\)
    • Improve 步骤 :
      • 用评分函数给扩充后的数据集进行排序和筛选
        • 通常会根据人类偏好提前训练一个奖励模型作为评分函数(也可以在中途继续优化奖励模型)
      • 定义一个过滤函数,只保留奖励高于特定阈值 \(\tau\) 的样本,再用监督学习损失(或离线强化学习损失)在筛选后的数据上微调当前最优策略
        • 注意:这里相当于仅仅保留了正样本,并没有对负样本施加惩罚
      • 在多次执行 Improve 步骤时,会不断提高过滤阈值,且每次微调新策略时,都会在前一个策略的基础上,用更低的学习率进行,以保证在固定数据集 \(D_g\) 上实现策略的优化
  • ReST 在多个 Improve 步骤中利用了 Grow 步骤的输出结果,不像在线强化学习那样需要在模型训练过程中多次采样新样本,大大减轻了计算负担
  • 同时,在ReST 中,新的训练数据是从优化后的策略里采样得到的,所以策略质量不受原始数据的束缚
    • 在离线强化学习里,策略的好坏常常受原始数据集质量的限制
  • ReST 算法简单、运行稳定,需要调整的超参数也很少

AGI——张祥雨访谈笔记-多模态大模型

  • 参考链接:
    • 原始音频:102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”, 20250603
    • 完整版文字稿:张小珺Jùn商业访谈102期 | 对话张祥雨(完整文字稿) - aaronxic的文章 - 知乎
    • 一些解读:【大模型 40】张祥雨访谈 多模态大模型研究的挣扎史和未来 - hzwer 黄哲威的文章 - 知乎

整体总结

  • 整个访谈主要围绕 AGI 的实现路径展开,主要内容是 LLM,多模态大模型及他们相关的推理
  • 张祥雨是 ResNet 的二作,是最早从事 CV 的一群人
  • 本文主要是总结一下访谈内容的一些大事件发展的时间线、张祥雨的核心观点
  • 注:本文的梳理借助了 AI 辅助生成

张祥雨的学术与研究经历相关总结

  • 2009年 :
    • 数据 :李飞飞团队提出 ImageNet 数据集,包含 120多万图像,为计算机视觉(CV)研究提供了大量数据支持
    • 理解:自此数据已经相对充足,缺的是模型复杂度和算力
  • 2012年 :
    • 模型 :AlexNet 在 ImageNet 图像识别竞赛中取得显著成功,其关键在于对模型、数据和算力的规模化应用
    • 算力 :英伟达的 CUDA 技术在此时性能得到大幅提升,为深度学习的算力需求提供了有力支撑
  • 2012-2016年 :
    • 将模型做大 :张祥雨读博期间,专注于模型规模化(model scaling)研究,致力于将模型做得更大,包括增加宽度、深度和分辨率等方面
    • 理解:在视觉领域存在分辨率,其他领域更多的是宽度和深度
  • 2016年 :
    • ResNet的诞生 :张祥雨与何恺明、孙剑等提出残差网络(ResNet),解决了模型深度增加时效果下降的问题,使网络层数可提升至几十层、上百层甚至上千层
    • 张祥雨认为此时模型规模化问题在当时已基本解决,毕业后加入旷视开始研究小模型
    • 理解:张祥雨认为,对于大模型来说,模型架构(网络结构)不是很重要,最重要的是大方向(比如 ResNet 或 LLM 的自回归等);对于小模型来说,倒是需要一定的模型架构(网络结构)的优化,否则效果可能差距很大
      • 个人理解这种区别主要来源于小模型的拟合能力有限,需要设计架构适应任务,大模型拟合能力强,对网络结构要求不高,只要有足够好的数据就可以
  • 2017-2018年 :
    • 把模型做小 :张祥雨在旷视研究小模型,后转向神经网络架构搜索(NAS),旨在利用自动化手段设计能在特定硬件上高效运行的模型
    • 理解:这里是为了应用
  • 2019年 :
    • 张祥雨提出SPOS(Single Path One-Shot)工作,可在特定硬件上以较小代价搜索出在目标数据集上效果最佳的模型
    • 张祥雨团队目标重新转向做大模型,此时难点在于数据规模化(data scale), CV 领域缺乏类似自然语言处理中 Bert 和 GPT 的突破
  • 2020年 :
    • Vision Transformer(ViT)系列出现,将 Transformer 架构引入 CV 领域并取得成功
    • 学术界开始尝试将自然语言处理方法迁移到 CV ,如 iGPT、BEiT 等
    • 理解:此时的迁移吃到了一波红利,相当于踩着 LLM 的路在走
  • 2021年底 :
    • 张祥雨分析早期对比学习在大模型上不奏效的原因,认为其学到的不变性是手工设计而非数据驱动,同时对 Masked Image Modeling(MIM)的上限表示谨慎乐观
  • 2022年初 :
    • 张祥雨发表观点文章,指出 MIM 没有明显的规模化效应(scaling law),随后该领域研究逐渐减少
    • 理解:目前来看走这条路的人也已经越来越少
  • 2022年 :
    • 张祥雨受 Jason Wei 关于思维链和涌现性的论文启发,对纯视觉领域研究产生悲观情绪,认为静态图像在生成、理解和人类对齐方面存在割裂,开始转向多模态研究
    • 张祥雨构思利用视觉和语言的对齐关系开展多模态研究,短期目标基于图文混排数据,长期目标关注视频和具身系统
  • 2023年 :
    • 张祥雨团队开发第一代多模态模型 Step-1,将数据组织成图文混排形式,文字和图像均进行 Token 化处理,图像生成外挂预训练的 Diffusion 模块
      • 该模型图像理解能力强,但生成效果差,且生成部分对理解部分影响小
    • 张祥雨团队在 2023年底完成 Step-1 模型,参数约 100B+,随后在 2024 年初启动更大的 Step-2 模型,参数达万亿(1000B+),激活值 200B+
      • 但训练中发现数据不足导致效果不佳,且模型在数学推理能力上出现先升后降的现象
  • 2024年 :
    • 张祥雨团队发现大模型在数学推理能力上存在先上升后平缓再下降的现象,分析认为这是 Next Token Prediction(NTP)范式的本质缺陷导致,模型在训练中倾向于跳步,而跳步在复杂问题中易出错(详细理解见下文:观点3)
    • 张祥雨团队尝试通过 RL 解决大模型数学推理问题,但收益有限,直到 o1 模型出现,其通过引入反思等思维链模式,大幅提升了模型推理能力
    • 张祥雨团队在视觉生成与理解一体化研究中遇到困难,发现生成部分可控性差,后受语言模型启发,开启视觉空间上的 COT(思维链)研究,尝试通过在图像上进行圈点批注等操作实现视觉推理,但生成数据泛化能力不足
      • 理解:这里张祥雨团队尝试了生成图片的 COT 数据给模型,但是效果不好,最终分析时由于 RL 本身很难带来新的东西,预训练中没有见过的推理能力很难通过 RL 训练出来;也就是说预训练才是学知识的,RL 是在引导模型把预训练见过的知识用起来
  • 2025年 :
    • 张祥雨团队看到 Gemini 和 GPT-4o 模型在图像生成可控性上的进展,认为通过清洗数据和控制任务难度,可实现简单任务的高可控生成,并计划基于此构建生成与理解一体化模型
    • 张祥雨认为多模态推理的 “GPT4时刻” 比较乐观,认为一两年内可能到来;此外,自主学习和在线学习可能在两年内取得突破
      • 理解:理由是因为大家都在做这个方向

多模态与 AGI 发展相关

  • 2022年底 :ChatGPT 发布,展示了大模型的强大能力,改变了人们对大模型的看法,大幅推动了 AGI 领域的发展
  • 2023年 :
    • Gemini-1.0 和 GPT4V 等多模态模型发布,但在图像生成与理解一体化方面未取得实质性突破,仍通过外挂生成模块实现
    • 业界开始关注多模态模型的发展,但对其难度估计不足
  • 2024年 :
    • o1 模型出现,其基于 RL 和思维链模式,在推理能力上取得显著突破,被视为类似 “GPT时刻” 的进展
    • 张祥雨团队发现多模态模型在生成与理解融合上的困难,开始探索视觉空间的 COT 和视频数据的利用
    • 理解:访谈中提到,单独训练理解模型和生成模型后,融入两者做不到 1+1>2 的效果
  • 2025年 :
    • 4o 最新版在图像生成可控性上表现出色,与语言模型融合较好,为多模态发展提供了新的方向
    • 业界对多模态推理、自主学习和在线学习等领域的研究持续深入,认为这些是实现 AGI 的关键步骤

观点1:关于模型规模化(Scaling)

  • 核心观点 :模型规模化是推动深度学习发展的重要动力,包括模型、数据和算力的规模化。在不同阶段,规模化的难点不同,如早期模型规模化是关键,后期数据规模化成为瓶颈
  • 论点支撑 :
    • AlexNet 的成功源于在 2012 年实现了模型、数据和算力的合理规模化
    • ResNet 解决了模型深度规模化的问题,使模型层数得以大幅增加
    • 2019年 后,自然语言处理领域通过自监督学习实现了数据规模化,而 CV 领域在数据规模化上进展缓慢,缺乏类似 Bert 和 GPT 的突破
      • 理解:CV 领域不同于 NLP 领域,因为 NLP 领域的语言数据都是人类创造的, 而 CV 领域的图片本身就在那里(不含有思维和人类思想),难以通过自回归实现数据规模化
    • 大模型训练中,数据质量和数量至关重要,2021年 国内大模型效果不佳的原因之一是数据不足,导致模型训练不充分

观点2:关于多模态研究

  • 核心观点 :多模态是实现AGI的重要路径,但目前多模态模型在生成与理解一体化上仍存在困难,需要解决数据、架构和算法等多方面的问题
  • 论点支撑 :
    • 静态图像在生成、理解和人类对齐方面存在割裂,无法像自然语言那样形成自闭环,因此需要结合语言等其他模态
      • 理解:自然语言是人类创造的,天然带着人类的偏好和反馈,但是图片是天然就有的;
      • 理解:自闭环的本质是 “认知逻辑的符号化自洽” ,即像自然语言那样,在生成、理解及与人类意图对齐的过程中,能够形成一套完整、自洽且相互关联的系统,各环节之间可实现高效协同与反馈,无需依赖外部过多的额外信息或干预即可完成从输入到输出的连贯处理
    • 早期多模态模型尝试将图像和文字统一处理,但生成效果差,生成与理解部分相互独立,未实现真正融合
    • 视觉生成需要类似语言模型的 COT ,但目前视觉 COT 仍处于初级阶段,生成数据泛化能力不足
    • 视频数据蕴含更丰富的信息,是多模态研究的长期方向,但数据清洗和与语言模态对齐是难点
    • Gemini 和 4o 模型在图像生成可控性上的进展表明,通过数据清洗和任务限制,可实现简单任务的多模态融合,为多模态的 “GPT4时刻” 奠定基础

观点3:关于推理能力与Next Token Prediction(NTP)范式

  • 核心观点 :NTP 范式是支撑当前大模型的基础算法,但在推理能力,尤其是数学推理能力上存在本质缺陷,导致大模型在复杂推理任务上表现不佳
  • 论点支撑 :
    • NTP 的本质是联合概率建模和数据压缩,其优化目标是最大化压缩率,而非直接优化推理任务的正确性
    • 大模型在训练中倾向于跳步,以提高压缩率,但跳步在复杂数学问题中易出错,导致推理能力下降
    • 小模型由于能力有限,无法拟合复杂函数,只能老老实实地一步步推理,在简单数学问题上正确率较高
    • RL 可在一定程度上缓解 NTP 的缺陷,但效果有限,o1 模型通过引入反思等思维链模式,激发了模型的推理能力,是对 NTP 范式的重要改进
  • 理解:访谈中提到,张祥雨认为大模型容易跳步的原因是因为模型够大,能够记住预训练的分布(数据中本就存在部分跳过的场景,小模型不够大,反而无法跳过中间步骤);大模型的这种跳步有一定概率会失败,特别在数学推理需要多步的场景,容易导致大模型一个地方错了,后面全错

观点4:关于自主学习与在线学习

  • 核心观点 :自主学习和在线学习是实现 AGI 的关键步骤,能够使模型在真实环境中自主探索、学习和进化,解决当前模型依赖人工标注和环境不可规模化的问题
  • 论点支撑 :
    • 当前的RL方法依赖人工定义目标和环境,缺乏内生驱动力,无法像人类一样自主学习
    • 自主学习需要解决从自然语言等非结构化反馈中获取信息、无限长上下文建模和内生奖励设计等问题
    • 在线学习可使模型在真实环境中持续改进,与环境动态交互,提高模型的适应性和泛化能力
    • 自主学习和在线学习的突破可能在两年内实现,将推动 AGI 向更高水平发展
  • 理解:
    • 自主学习的定义:能够像人类一样,主动地从环境中获取信息、学习新知识,并将其融入到已有的知识体系中,以不断提升自身的智能水平和适应能力
      • 自主学习不仅包括对数据的学习,还涉及到对学习策略的自我优化,能够根据不同的任务和环境,自主地选择合适的学习方法和算法
      • 注:自主学习的核心是无需人工对每个具体的知识点进行详细标注和指导
    • 在线学习的定义:在动态的环境中,能够实时地从新出现的数据流中学习,并不断调整和更新自身的模型和策略,以应对环境的变化和新的任务要求

观点5:关于架构与算法的关系

  • 核心观点 :架构服务于算法和系统,算法的突破是推动 AGI 发展的核心动力,而不是单纯的架构创新
  • 论点支撑 :
    • ResNet 的成功源于解决了模型深度增加时的梯度问题,是算法和训练方法的创新,而非架构本身的独特性
    • Linear Attention 等架构改进是为了适应 NTP 范式的并行化需求,而非本质性突破
    • o1 模型的成功源于思维链模式和 RL 算法的应用,而非架构的变化
    • 未来 AGI 的发展将依赖算法的创新,如自主学习算法,而架构将根据算法需求进行优化
  • 理解:
    • 这里所说的架构是指模型架构(即神经网络之间的连接方式等),而算法在这里则是指一种广泛通用的方法(比如 NTP 范式、ResNet等)

观点6:关于长上下文(Long Context)

  • 核心观点 :长上下文在应用中重要,但当前 Transformer 架构在长上下文建模上存在效率低、易受干扰等问题,需要借鉴人类记忆机制,采用分层记忆和多模块协作的方式解决
  • 论点支撑 :
    • 人类记忆分为短期记忆、中期记忆和长期记忆,具有分层和选择性遗忘的特点,而 Transformer 的长上下文建模缺乏类似机制,导致效率低下
    • 长上下文会导致模型注意力涣散,干扰后续推理,解决方法包括采用多模型协作、分层记忆和任务驱动的上下文裁剪等
    • 多 Agent 协作和思维链扩展可有效减少对长上下文的依赖,实现更高效的推理
  • 理解:
    • 访谈中提到,这里所说的多 Agent 其实是类比于人类不同脑区负责不同功能的做法,使用一个上层的脑区来负责切分关注模块,下层的脑区仅需要理解较短的上下文即可
    • 访谈中还提到,类似于这种方法,使用 RL 来训练,可以实现端到端训练

观点7:RL 只能激发预训练阶段学到的知识

  • 核心观点 :RL 只能激发预训练阶段学到的知识,不能给模型输入新的知识
  • 理解:实际上这个已经成为了大家的共识了

NLP——A-Survey-on-Post-Training-of-LLMs

注:本文包含 AI 辅助创作

  • 参考链接:
    • 可参考:(PoLMs Survey)A Survey on Post-training of Large Language Models, arXiv 20250308, HUST
    • 又名(增加了开源地址):Large Language Models Post-training: Surveying Techniques from Alignment to Reasoning, arXiv 20250521, HUST
    • 开源地址:github.com/Mr-Tieguigui/LLM-Post-Training

Paper Summary

  • 重点说明:
    • 论文首次全面综述了后训练语言模型(Post-training Language Model, PoLM) ,系统追溯了从 2018 年 ChatGPT 的对齐起源到 2025 年 DeepSeek-R1 的推理里程碑的发展轨迹
    • 论文评估了广泛的技术(即微调、对齐、推理、效率以及集成与适配)
    • 论文的分析强调,后训练语言模型显著提升了大语言模型的能力,从最初的对齐创新发展到复杂的推理框架;
    • 揭示了一些持续存在的挑战,包括偏差持久性、计算可扩展性以及依赖上下文的伦理对齐
  • LLM 的出现从根本上改变了自然语言处理领域,使其在从对话系统到科学探索等多个领域都变得不可或缺,但 LLMs 的预训练架构在特定场景中往往存在局限性,包括
    • 推理能力有限(restricted reasoning capacities)
    • 伦理不确定性(ethical uncertainties)
    • 特定领域性能欠佳(suboptimal domain-specific performance)
  • 这些挑战需要先进的 后训练语言模型(PoLM) 来解决,例如 OpenAI-o1/o3 和 DeepSeek-R1(统称为大型推理模型,Large Reasoning Model, LRM)
  • 论文首次对 PoLM 进行了全面综述,系统追溯了其在五个核心范式中的演变:
    • 微调(Fine-tuning) ,用于提高特定任务的准确性;
    • 对齐(Alignment) ,确保伦理一致性并与人类偏好对齐;
    • Reasoning ,在奖励设计面临挑战的情况下推进多步推理;
    • 效率(Efficiency) ,在复杂性不断增加的情况下优化资源利用;
    • 集成与适配(Integration and Adaptation) ,在解决一致性问题的同时跨多种模态扩展能力
  • 从 2018 年 ChatGPT 的基础对齐策略到 2025 年 DeepSeek-R1 在推理方面的创新进展,论文阐述了 PoLM 如何利用数据集来减轻偏见、深化推理能力并增强领域适应性
  • 论文的贡献包括:
    • 对 PoLM 演变的开创性综合分析
    • 对技术和数据集进行分类的结构化分类法
    • 强调 LRM 在提高推理能力和领域灵活性方面作用的战略议程
  • 作为首个此类范围的综述,论文整合了近期 PoLM 的进展,并为未来研究建立了严谨的理论框架,促进在精度、伦理稳健性和跨科学与社会应用的多功能性方面表现卓越的 LLM 的发展

Introduction and Discussion

  • 人们普遍认为,真正的智能赋予论文推理能力、检验假设的能力以及为未来可能发生的事情做准备的能力

    It is generally agreed upon that authentic intelligence equips us with reasoning capabilities, enables us to test hypotheses, and prepares for future eventualities. —— Jean Khalfa 《WHAT IS INTELLIGENCE(1994)》

  • 语言模型(Language Models, LMs)(2018, 2018)代表了旨在建模和生成人类语言的复杂计算框架
    • 这些模型通过使机器能够以接近人类认知的方式理解、生成和与人类语言交互,彻底改变了自然语言处理领域(2011)
  • 与通过与环境互动和接触语境自然习得语言技能的人类不同,机器必须经过广泛的、数据驱动的训练才能发展出类似的能力(2025)
    • 这带来了重大的研究挑战,因为要使机器理解和生成人类语言,同时进行自然的、符合语境的对话,不仅需要大量的计算资源,还需要完善的模型开发方法(2024, 2023)
  • 以 GPT-3(2020)、InstructGPT(2023)和 GPT-4(2023)为代表的 LLMs 的出现,标志着语言模型进化的一个变革性阶段
    • 这些模型以其庞大的参数规模和先进的学习能力为特点,旨在捕捉海量数据集中的复杂语言结构、语境关系和细微模式
    • 这使大语言模型不仅能够预测后续词语,还能在包括翻译、问答和摘要在内的广泛任务中生成连贯的、与语境相关的文本
    • 大语言模型的发展引发了极大的学术兴趣(2024, 2023),其发展可分为两个主要阶段:预训练和后训练
  • 预训练 :预训练的概念源于计算机视觉(Computer Vision, CV)任务中的迁移学习(2023)
    • 其主要目标是利用大量数据集开发一个通用模型,以便轻松微调用于各种下游应用
    • 预训练的一个显著优势是它能够利用任何未标记的文本语料库,从而提供丰富的训练数据源
    • 然而,早期的静态预训练方法,如神经网络语言模型(Neural Network Language Models, NNLM)(2000)和Word2vec(2013),难以适应不同的文本语义环境,这促使了像 BERT(2018)和 XLNet(2019)这样的动态预训练技术的发展
    • BERT 通过利用 Transformer 架构和在大规模未标记数据集上采用自注意力机制,有效解决了静态方法的局限性
      • BERT 确立了“预训练和微调”的学习范式,启发了众多后续研究,这些研究引入了多种架构,包括 GPT-2(2019)和 BART(2019)
  • 后训练 :后训练指的是在模型经过预训练后采用的技术和方法,旨在完善模型,使其适应特定任务或用户需求
    • 随着拥有 175B 参数的 GPT-3(2020)的发布,后训练领域的兴趣和创新显著激增
    • 各种旨在提高模型性能的方法应运而生,包括:
      • 微调(2020, 2021):利用标记数据集或特定任务数据调整模型参数;
      • 对齐策略(2022, 2022, 2023):优化模型以更好地符合用户偏好;
      • 知识适应技术(2022, 2021):使模型能够整合特定领域的知识;
      • 推理改进(2024, 2024):增强模型进行逻辑推理和决策的能力
    • 以上这些技术统称为后训练语言模型(Post-training Language Models, PoLMs),促成了GPT-4(2023)、LLaMA-3(2024)、Gemini-2.0(2025)和 Claude-3.5(2024)等模型的开发,标志着大语言模型能力的显著进步
    • 然而,后训练模型通常难以在不重新训练或大幅调整参数的情况下适应新任务 ,这使得后训练模型的开发成为一个活跃的研究领域
  • 如前所述,预训练语言模型(Pre-trained Language Models, PLMs)主要旨在提供通用知识和能力,而后训练语言模型则专注于使这些模型适应特定任务和需求
    • 最新的大语言模型 DeepSeek-R1(2025)就是这种适应的一个显著例子,它展示了后训练语言模型在增强推理能力、符合用户偏好以及提高跨领域适应性方面的进化(2024)
    • 此外,开源大语言模型(如 LLaMA(2023)、Gemma(2024)和 Nemotron(2024))和特定领域的大型数据集(如 PromptSource(2022)和 Flan(2023))的日益普及,正促使学术研究人员和行业从业者开发后训练语言模型
    • 这一趋势凸显了人们越来越认同后训练语言模型领域中定制化适应的重要性
  • 在现有文献中,预训练语言模型已被广泛讨论和综述(2023, 2023, 2023, 2020),而后训练语言模型却很少被系统地综述
    • 为了推进这些技术,有必要彻底审视现有研究,以确定关键挑战、差距和进一步完善的机会
    • 本综述旨在通过为不断发展的后训练研究提供一个结构化框架来填补这一空白
  • 如图1所示,它探讨了后训练的多个阶段,特别关注从 ChatGPT 到 DeepSeek 所采用的阶段
    • 这些技术涵盖了广泛的方法,包括微调、大语言模型对齐、推理增强和效率改进
    • 图中的蓝色部分专门突出了 DeepSeek 所应用的后训练方法集,强调了有助于其在适应用户偏好和特定领域需求方面取得成功的创新策略

Major Contributions

  • 论文是第一篇关于后训练语言模型的全面综述,对该领域的最新进展进行了彻底、结构化的探索
  • 以前的综述通常集中在大语言模型开发的特定方面,如偏好对齐(2024)、参数高效微调(2024)和大语言模型的基础技术(2025),但它们主要集中在狭窄的子主题上
  • 相比之下,本综述采用整体方法,全面回顾了后训练中常用的核心技术,并对其进行了系统分类
  • 此外,论文研究了对这些方法至关重要的数据集和实际应用,如图2所示,并确定了开放挑战和未来研究的有前景的方向
  • 本综述的主要贡献如下:
    • 全面的历史综合(Comprehensive Historical Synthesis) :论文首次深入综合了后训练语言模型,追溯了它们从 ChatGPT 最初的 RLHF 到 DeepSeek-R1 创新的冷启动强化学习方法的演变
      • 这种综合涵盖了关键技术(即微调、对齐、推理、效率以及整合与适应),分析了它们的发展和相关挑战,如计算复杂性和伦理考虑
      • 通过将这一进展作为一个连贯的叙述呈现,并辅以必要的参考文献,论文为研究人员提供了近年来后训练演变的全面概述,作为该领域的基础资源
    • 结构化分类法和框架(Structured Taxonomy and Framework) :论文引入了一个结构化分类法(如图2所示),将后训练方法分为五个不同类别,并将数据集组织为七种类型,同时将应用划分为专业、技术和交互领域
      • 该框架阐明了这些方法的相互关系和实际意义,提供了对其发展的系统视角
      • 通过提供明确定义的类别和分析见解,论文提高了新手和专家的可访问性和理解度,建立了一个全面的指南,用于驾驭后训练研究的复杂性
    • 未来方向(Future Directions) :论文强调了新兴趋势,特别是大型推理模型(Large Reasoning Models, LRMs)的兴起,如 o1(2024)和 DeepSeek-R1(2025),它们利用大规模强化学习突破推理的界限
      • 论文强调,持续进步对于进一步提高推理能力和领域适应性至关重要
      • 论文的分析确定了关键挑战,包括可扩展性限制、伦理对齐风险和多模态整合障碍
      • 论文提出了研究途径,如自适应强化学习框架和公平感知优化
      • 这些方向旨在推动后训练向前发展,确保大语言模型在精度、可信度方面达到更高水平,以满足未来的需求

Organization

  • 本综述被系统地组织起来,以全面探讨后训练语言模型,涵盖其历史演变、方法、数据集、应用和未来轨迹
  • 第2节提供了后训练语言模型的历史概述
  • 第3节研究微调,包括
    • 3.1节中的 SFT
    • 3.3节中的强化微调(Reinforcement Fine-Tuning, RFT)
  • 第4节讨论对齐,包括
    • 4.1节中的 RLHF
    • 4.2节中的 RLAIF(Reinforcement Learning from AI Feedback, RLAIF)
    • 4.3节中的直接偏好优化
  • 第5节关注推理,包括
    • 5.1节中的 Self-Refine 方法
    • 5.2节中的用于推理的强化学习
  • 第6节综述提高效率的方法,包括
    • 6.1节中的模型压缩
    • 6.2节中的参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)
    • 6.3节中的知识蒸馏
  • 第7节研究整合与适应,探讨多模态方法、领域适应和模型合并
  • 第8节回顾后训练中使用的数据集
  • 第9节探讨大语言模型的应用
  • 第10节评估开放问题和未来方向
  • 第11节以总结和研究展望结束

Overview

History of PoLMs

  • LLM 的发展是 NLP 领域的关键篇章,而后训练方法则是推动其从通用预训练架构向专门化、任务自适应系统演进的重要催化剂
  • 本节将阐述后训练语言模型(Post-training Language Models, PoLMs)的历史轨迹,追溯其从以 BERT(2018)和 GPT(2018)为代表的预训练里程碑,到以当代模型(如 o1(2024)和 DeepSeek-R1(2025))为体现的复杂后训练范式的发展过程
  • 如图3所示,这一进程反映了从建立广泛语言能力到增强任务特定适应性、伦理对齐、推理复杂性和多模态整合的转变,标志着大语言模型能力的变革之旅
  • 现代后训练语言模型历史的开端与 2018年 的预训练革命相契合,以 BERT(2018)和 GPT(2018)的发布为标志,它们重新定义了自然语言处理的基准
    • BERT 的双向自编码框架利用 Transformer 架构和自注意力机制,在问答等任务中出色地捕捉了上下文相互依赖关系
    • GPT 的自回归设计则优先考虑生成连贯性,为文本生成树立了先例
  • BERT 和 GPT 模型确立了“预训练和微调”范式,随后在 2019年 通过 T5(2019)得到改进,T5 将各种任务统一在文本到文本框架下,促进了多任务学习,并为后训练进展奠定了坚实基础
  • 2020年起,后训练语言模型的格局开始发生重大演变,这是因为人们越来越需要使预训练模型能够凭借有限的数据高效适应各种任务
    • 早期创新(如 Prefix-Tuning(2021)和 Prompt-Tuning(2021))引入了轻量级适应策略,通过修改模型输入而非重新训练整个架构,实现了多任务灵活性,从而节省了计算资源并扩大了适用性
    • 这一时期还出现了向以用户为中心的优化的关键转变 ,2021年 RLHF(Reinforcement Learning from Human Feedback, RLHF)(2022)问世,该技术利用人类评估使模型输出与主观偏好保持一致,提高了对话场景中的实际效用
    • 到 2022年 ,RLHF 随着 PPO(2017)的采用而成熟,改进了对齐稳定性并减轻了对噪声反馈的过拟合
    • 2022年末 ,ChatGPT(2023)的发布集中体现了这些进步,展示了 RLHF 在创建响应迅速、与用户对齐的大语言模型方面的变革潜力,并推动了后训练语言模型研究的激增
    • 同时, CoT 提示(2022)作为一种推理增强策略出现,鼓励模型在复杂任务中阐明中间步骤,从而提高了逻辑推理和问题解决领域的透明度和准确性
  • 2022年 至 2024年 间,后训练语言模型(PoLMs)向解决领域特异性(domain specificity)、伦理稳健性(ethical robustness)和多模态整合(multi-modal integration)等方向多元化发展,反映出对大语言模型优化的日益细致的方法
    • 领域适应技术(如检索增强生成(Retrieval-Augmented Generation, RAG)(2020))应运而生,用于整合外部知识库,无需完全重新训练就能为专业领域提供富含上下文的输出,这对于需要最新信息的专业应用而言是一项关键进步
    • 伦理对齐方面的努力也在加强,2023年 直接偏好优化(Direct Preference Optimization, DPO)(2024)通过直接根据人类偏好优化模型输出来简化 RLHF,绕过了中间奖励建模,以提高效率和稳健性
    • 同时,对多模态能力的追求也获得了关注,像 PaLM-E(2023)和 Flamingo(2022)等模型开创了视觉-语言整合,随后 BLIP-2(2023)和 LLaVA(2023)将这些努力扩展到医学成像等更广泛的领域
    • 效率创新与这些发展并行,特别是通过 MoE 架构实现;
      • 谷歌 2022年 的 Switch-C Transformer(2022)引入了 1.6T 参数的稀疏激活,分布在 2048 个专家中,而 Mixtral(2024)完善了这一范式,平衡了可扩展性和性能
    • 这一时期的推理增强(如自我对弈(Self-play)(2024)和结合思维链的蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)(2021))通过模拟迭代推理路径进一步增强了大语言模型的决策能力,为以推理为重点的高级模型奠定了基础
  • 随着混合专家模型的兴起,一项重大的架构进步出现了,与传统的密集架构不同,混合专家模型通过动态激活选择性参数子集,在优化计算效率的同时适应了庞大的参数规模
    • 这一范式由谷歌 2022年 的 Switch-C Transformer(2022)开创,其特点是 1.6T 参数分布在 2048 个专家中,这种开创性方法平衡了资源需求和性能提升
    • 后续版本(如 Mixtral(2024)和 DeepSeek V2.5(2024),其中 DeepSeek V2.5 利用 236B 总参数(160 个专家,激活参数 21B))进一步完善了这一框架,在 LMSYS 基准测试中取得了 SOTA 结果,并证明了稀疏混合专家架构在可扩展性和功效方面都能与密集模型相媲美
      • 注:LMSYS,即 LmArena,是一个 LLM 排行榜基准
    • 这些发展强调了向注重效率的后训练语言模型的转变,使大语言模型能够以更低的计算开销处理复杂任务,这是扩大其实用性的关键一步
    • 到 2025年 ,DeepSeek-R1(2025)成为后训练语言模型创新的里程碑,它摆脱了对传统 SFT 的依赖,采用思维链推理和探索性强化学习策略
      • 以 DeepSeek-R1-Zero 为代表,该模型整合了自我验证、反思和扩展的思维链生成,在开放研究范式中验证了强化学习驱动的推理激励,并引入了蒸馏技术(distillation techniques,2025),将复杂的推理模式从更大的架构转移到更小的架构
      • 这些技术不仅相对单独的强化学习训练产生了更优异的性能,还预示了一种可扩展的、以推理为中心的大语言模型范式,有望解决后训练方法中计算效率和任务适应性的长期挑战

Formula Foundations of PoLMs

Principle of Policy Optimization
  • PPO 算法(2017)是一种关键的强化学习技术,在 RLHF(2022)等场景中特别有用,在这些场景中,保持稳定性和效率至关重要
    • PPO 通过限制策略更新的大小来实现这些目标,确保模型行为的变化是渐进和可控的,从而防止性能出现灾难性的变化
    • 这在微调大规模语言模型时尤为重要,因为剧烈的策略更新可能导致不良或不可预测的行为
  • 定义(Definition) :在 PPO 的背景下,状态 \(s_{t} \in S\) 表示时间 \(t\) 的环境,包括模型做出决策所需的所有相关信息
    • 动作 \(a_{t} \in A(s_{t})\) 表示模型在状态 \(s_{t}\) 下做出的选择
      • 这个动作是模型所做的一系列决策的一部分
    • 执行动作后,智能体会收到奖励 \(r_{t} \in \mathbb{R}\),作为来自环境的反馈,表明所采取动作的成功或失败
    • 优势函数 \(A^{\pi}(s, a)\) 衡量在当前策略 \(\pi\) 下,在状态 \(s\) 中采取动作 \(a\) 相对于该状态下动作的预期值的优势
    • 它正式定义为动作值函数 \(Q^{\pi}(s, a)\) 和状态值函数 \(V^{\pi}(s)\) 之间的差异,定义如下:
      $$A^{\pi}(s, a)=Q^{\pi}(s, a)-V^{\pi}(s) \tag{1}$$
      • 其中 \(Q^{\pi}(s, a)\) 表示在状态 \(s\) 中采取动作 \(a\) 并遵循策略 \(\pi\) 所获得的预期累积奖励,\(V^{\pi}(s)\) 是从状态 \(s\) 开始并遵循策略 \(\pi\) 的预期累积奖励
      • 这两个函数都考虑了未来的奖励,并通过因子 \(\gamma\) 进行贴现(discounted by \(\gamma\))
  • 策略更新(Policy Update) :PPO 算法基于优势函数进行增量更新,从而优化策略 \(\pi_{\theta}\),策略更新使用剪辑目标函数执行:
    $$L^{CLIP}(\theta)=\hat{\mathbb{E} }_{t}\left[\min \left(r_{t}(\theta) \hat{A}_{t}, \operatorname{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right) \hat{A}_{t}\right)\right]$$
    • 其中 \(r_{t}(\theta)\) 表示在当前策略 \(\pi_{\theta}\) 下采取动作 \(a_{t}\) 的概率与在旧策略 \(\pi_{\theta_{\text {old } } }\) 下的概率之比。该比率定义为:
      $$r_{t}(\theta)=\frac{\pi_{\theta}\left(a_{t} | s_{t}\right)}{\pi_{\theta_{\text {old } } }\left(a_{t} | s_{t}\right)}$$
      • \(\hat{A}_{t}\) 是时间步 \(t\) 的估计优势,剪辑函数 \(\operatorname{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right)\) 将策略更新限制在由超参数 \(\epsilon\) 控制的安全范围内
      • 这种剪辑机制确保更新不会与先前的策略偏离太多,从而在训练期间保持稳定性
  • 值函数更新 :值函数 \(V_{\phi}\) 估计在策略 \(\pi_{\theta}\) 下,从给定状态 \(s_{t}\) 获得的预期累积奖励
    • 为了确保值函数提供准确的估计,通过最小化预测值与实际奖励之间的均方误差来优化它:
      $$\phi_{k+1}=\arg \min_{\phi} \mathbb{E}_{s_{t} \sim \pi_{\theta_{k} } }\left[\left(V_{\phi}\left(s_{t}\right)-R\left(s_{t}\right)\right)^{2}\right]$$
      • 其中 \(R(s_{t})\) 是从状态 \(s_{t}\) 获得的实际累积奖励,\(V_{\phi}(s_{t})\) 是在当前策略下的估计值
      • 目标是调整参数 \(\phi\),以最小化预测奖励和实际奖励之间的差异,提高值函数的准确性
Principle of RLHF
  • RLHF 是一种通过在学习过程中利用人类生成的反馈使模型与人类偏好保持一致的关键方法
    • 这种方法包含一个明确捕捉人类输入的奖励函数,使模型能够更好地适应用户偏好和实际应用
  • 定义 :在 RLHF 中,语言模型 \(\rho\) 生成词汇表 \(\sum\) 中标记序列的概率分布
    • 模型 \(\rho\) 从输入空间 \(X=\sum^{\leq m}\) 生成标记序列 \(x_{0}, x_{1}, …, x_{n-1}\),其中每个标记都条件依赖于先前的标记
    • 模型的输出由以下条件概率分布定义:
      $$\rho\left(x_{0} \cdots x_{n-1}\right)=\prod_{0 \leq k<n} \rho\left(x_{k} | x_{0} \cdots x_{k-1}\right)$$
    • 模型 \(P\) 在由输入空间 \(X\) 、 \(X\) 上的数据分布 \(D\) 和输出空间 \(Y=\sum^{\leq n}\) 定义的任务上进行训练
      • 例如,在文本摘要中,如(2020)所示,GPT-2模型(2019)使用 RLHF 进行训练,其中任务涉及基于CNN/DailyMail(2015)和TL;DR(2017)等数据集预测文本摘要
  • 目标函数 :策略 \(\pi\) 是一个与原始模型 \(\rho\) 结构相同的语言模型
    • 最初,策略 \(\pi\) 被设置为等于 \(\rho\),目标是通过优化策略来最大化输入-输出对 \((x, y)\) 的预期奖励 \(R(x, y)\)
    • 奖励函数 \(R(x, y): X \times Y \to \mathbb{R}\) 为每个输入-输出对分配一个标量值,通过解决以下最大化问题获得最优策略 \(\pi^{*}\) :
      $$\pi^{*}=\max_{\pi} \mathbb{E}[R]= \max_{\pi} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi(\cdot | x)}[R(x, y)]$$
    • 这个目标函数代表了一个标准的强化学习问题,其中模型通过在环境中的交互学习最大化预期奖励,并以人类反馈为指导
Principle of DPO
  • 直接偏好优化(Direct Preference Optimization, DPO)在 RLHF 的基础上,直接根据人类偏好(通常以成对比较的形式表达)优化模型的输出
    • 直接偏好优化消除了对传统奖励函数的需求,而是专注于通过最大化基于偏好的奖励来优化模型行为
  • 目标函数(Objective Function) :论文从与先前方法(2019, 2023, 2020)相同的强化学习目标开始,采用通用奖励函数 \(r^{*}\) 。KL约束奖励最大化目标的最优解由下式给出:
    $$\pi_{r}(y | x)=\frac{1}{Z(x)} \pi_{\text {ref } }(y | x) \exp \left(\frac{1}{\beta} r(x, y)\right)$$
    • 其中 \(Z(x)\) 是确保输出在所有可能动作上归一化的配分函数
    • 即使利用真实奖励 \(r^{*}\) 的最大似然估计 \(r_{\phi}\),也可以近似配分函数 \(Z(x)\),从而简化优化过程
    • 这种表述通过直接根据人类反馈调整策略,实现了更高效的偏好优
  • 偏好模型(Preference Model) :使用 Bradley-Terry model(1952),该模型对两个输出 \(y_{1}\) 和 \(y_{2}\) 之间的偏好进行建模,最优策略 \(\pi^{*}\) 满足以下偏好模型:
    $$p^{*}\left(y_{1} \succ y_{2} | x\right)=\frac{1}{1+\exp \left(\beta \log \frac{\pi^{*}\left(y_{2} | x\right)}{\pi_{\text {ref } }\left(y_{2} | x\right)}-\beta \log \frac{\pi^{*}\left(y_{1} | x\right)}{\pi_{\text {ref } }\left(y_{1} | x\right)}\right)}$$
    • 其中 \(p^{*}(y_{1} \succ y_{2} | x)\) 表示在给定输入 \(x\) 的情况下,人类偏好输出 \(y_{1}\) 胜过 \(y_{2}\) 的概率
    • 这种方法有效地将人类偏好纳入模型的优化过程
Principle of GRPO
  • GRPO 算法是强化学习中 PPO 算法的一种变体,最早在DeepSeek之前的工作《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》(2024)中提出
    • 组相对策略优化省略了评论家模型,而是使用组分数估计基线,与 PPO 相比显著减少了训练资源消耗
  • 定义 :组相对策略优化和 PPO 算法之间最显著的区别在于优势函数的计算方法
    • 从 2.2.1节 的式(1)中可以看出,PPO 中的优势函数 \(A^{\pi}(s, a)\) 的值源于 Q值 和 V值 之间的差异
  • 目标函数 :具体而言,对于每个问题 \(q\),组相对策略优化从旧策略 \(\pi_{\theta_{\text {old } } }\) 中采样一组输出 \(\left\{o_{1}, o_{2}, \ldots, o_{G}\right\}\),然后通过最大化以下目标来优化策略模型:
    $$\begin{aligned} \mathcal{J}_{G R P O}(\theta) & =\mathbb{E}\left[q \sim P(Q),\left\{o_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{oid } }(O | q)\right] \\ & \frac{1}{G} \sum_{i=1}^{G} \frac{1}{\left|o_{i}\right|} \sum_{t=1}^{\left|o_{i}\right|}\left\{ m i n \left[\frac{\pi_{\theta}\left(o_{i, t} | q, o_{i,<t}\right)}{\pi_{\theta_{old } }\left(o_{i, t} | q, o_{i,<t}\right)} \hat{A}_{i, t}, clip\left(\frac{\pi_{\theta}\left(o_{i, t} | q, o_{i,<t}\right)}{\pi_{\theta_{old } }\left(o_{i, t} | q, o_{i,<t}\right)}, 1-\epsilon, 1+\epsilon\right) \hat{A}_{i, t}\right] -\beta D_{K L}\left[\pi_{\theta} | \pi_{ref }\right]\right\}, \end{aligned}$$
    • 其中 \(\epsilon\) 和 \(\beta\) 是超参数,\(\hat{A}_{i, t}\) 是仅基于每个组内输出的相对奖励计算的优势,这将在5.2小节中详细介绍

PoLMs for Fine-Tuning

  • 微调是使预训练的 LLM 适应特定任务的基础,它通过有针对性地调整参数来优化模型的能力
  • 这个过程利用有标签或特定任务的数据集来提升性能,从而缩小通用预训练和特定领域需求之间的差距
  • 本章将探讨三种主要的微调范式:
    • 监督微调(Supervised Fine-Tuning,在3.1节中介绍),它利用带 annotations(标注)的数据集来提高特定任务的准确性;
    • 自适应微调(Adaptive Fine-Tuning,在3.2节中介绍),它通过 Instruction Tuning 和基于提示的方法来定制模型行为;
    • 强化微调(Reinforcement Fine-Tuning,在3.3节中介绍),它结合强化学习,根据奖励信号迭代优化输出,通过动态交互促进模型的持续改进

SFT

  • SFT (2022)通过利用特定任务的带标签数据集,使预训练的大语言模型适应特定任务
  • 与依赖指令提示的 Instruction Tuning不同,监督微调直接使用带 annotations 的数据来调整模型参数 ,使模型既精确又能适应上下文,同时还保留了广泛的泛化能力
  • 监督微调弥合了预训练阶段编码的广泛语言知识与目标应用的细致需求之间的差距(2021)
  • 预训练的大语言模型通过接触大量语料库,获取了通用的语言模式,这减少了在微调时对大量特定领域数据的依赖
  • 模型的选择至关重要:
    • 较小的模型,如 T5(2019),在数据集有限、资源受限的环境中表现出色;
    • 较大的模型,如 GPT-4(2023),则凭借其更强的能力在复杂、数据丰富的任务中表现优异
Dataset Preparation for SFT
  • 构建高质量的监督微调数据集是一个多方面的过程,对微调的成功至关重要
  • 监督微调数据集的构建(SFT Dataset Construction) :监督微调数据集通常被构建为 \(D=\{(I_{k}, X_{k})\}_{k = 1}^{N}\),其中 \(I_{k}\) 是一条指令,\(X_{k}\) 是其相应的实例
    • 这种配对能让大语言模型识别特定任务的模式并生成相关输出
    • 像 Self-Instruct(2022)这样的方法,通过合成新的指令-输出对,丰富了数据集的多样性,并使用如 ROUGE-L(2015)这样的指标过滤重复内容,以保持多样性
  • 监督微调数据集的筛选(SFT Dataset Screening) :筛选确保最终数据集中只保留高质量的指令-实例对
    • 使用筛选函数 \(r(·)\) 来评估每对 \((I_{k}, X_{k})\) 的质量,从而得到一个经过筛选的子集 \(D’\) :
      $$\mathcal{D}’=\{(I_{k}, X_{k}) \in \mathcal{D} | r(I_{k}, X_{k}) \geq \tau\}$$
      • 其中 \(\tau\) 是用户定义的质量阈值
      • 例如,指令跟随难度(Instruction Following Difficulty, IFD)指标(2023)用于量化给定指令引导模型生成预期响应的有效程度
      • IFD 函数表示为:
        $$r_{\theta}(Q, A)=\frac{\sum_{i = 1}^{N} \log P(w_{i}^{A} | Q, w_{1}^{A}, …, w_{i - 1}^{A} ; \theta)}{\sum_{i = 1}^{N} \log P(w_{i}^{A} | w_{1}^{A}, …, w_{i - 1}^{A} ; \theta)}$$
        • 其中 \(Q\) 表示指令,\(A\) 是预期响应,\(\theta\) 代表模型的可学习参数
        • 这个指标通过比较在有指令和无指令情况下生成响应的可能性,提供了一种标准化的方法来衡量指令对响应生成的促进效果
        • 不符合选定 IFD 阈值的指令-实例对将被排除,从而得到一个优化后的数据集 \(D’\)
        • 注:特别需要注意的是,上述表达式中的分子分母均小于 0,所以,\(r_{\theta}(Q, A) > 1\) 时,说明 分子小于分母
      • 注:这里 IFD 的表达式中同时省略了分子分母的负号,虽然结果一致,但会对理解 IFD 指标带来一定的困扰
        • 补充:IFD 的原始计算方式(原始论文:From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning, 20240406):IFD 通过计算条件回答分数(Conditioned Answer Score,CAS)与直接答案分数(Direct Answer Score,DAS)的比值得到,公式为:
          $$ \mathrm{IFD}_\theta(Q,A)=\frac{s_\theta(A|Q)}{s_\theta(A)}$$
          • \(s_\theta(A|Q)\) 表示模型在给定指令 \(Q\) 的情况下生成答案 \(A\) 的分数
            $$ s_{\theta}(A | Q) = -\frac{1}{N} \sum_{i = 1}^{N} \log P\left(w_{i}^{A} | Q, w_{1}^{A}, w_{2}^{A}, \cdots, w_{i - 1}^{A} ; \theta\right)$$
          • \(s_\theta(A)\) 表示模型直接生成答案 \(A\) 的分数
            $$ s_{\theta}(A) = -\frac{1}{N} \sum_{i = 1}^{N} \log P\left(w_{i}^{A} | w_{1}^{A}, \cdots, w_{i - 1}^{A} ; \theta\right) $$
        • 补充:IFD 指标意义 :IFD 值可以反映指令对模型生成答案的影响程度
          • IFD 值超过 1 的数据通常被视为异常数据
            • 理解:由于分子分母都是正数,此时说明分子大于分母,即条件概率小于直接生成概率: \(P(A|Q,W) < P(A|W) \),这说明,加入 Q 对 A 的生成非但没有帮助,反而是负向影响
          • IFD 高但不超过 1,意味着提示对模型生成答案有帮助,但帮助不显著,这类样本属于 “difficulty” 样本;
            • 理解:此时条件概率大于直接生成概率 \(P(A|Q,W) > P(A|W) \),但是大的不多,即 Q 对 A 的生成影响不大,此时 模型难以将答案与给定的指令内容对齐 ,这种样本对模型来说挑战较大
          • 低 IFD 值表明提示极大地简化了答案的生成,属于 “easy” 样本
            • 理解:此时条件概率大于直接生成概率 \(P(A|Q,W) > P(A|W) \),且大很多,即 Q 对 A 的生成影响非常大,这种样本很容易学习(甚至不需要学习?)
          • 较高的 IFD 分数表明模型难以将答案与给定的指令内容对齐 ,说明指令难度更高 ,对模型调优更有利
  • 监督微调数据集的评估(SFT Dataset Evaluation) :
    • 评估监督微调数据集需要选择一个高质量的子集 \(D_{eval}\),作为衡量模型性能的基准
    • 这个子集可以从经过筛选的数据集 \(D’\) 中抽样,或者从独立的部分数据中获取,以确保公正性
    • 传统的监督微调评估方法,如 Few-Shot GPT(2020)和微调策略(2023),资源消耗大,而指令挖掘(Instruction Mining)(2023)提供了一种更高效的替代方法
      • 指令挖掘使用线性质量规则和一组指标,如响应长度和平均奖励模型分数(2023),来衡量数据集质量,并评估这些指标与整体数据集质量之间的相关性
      • 注:指令挖掘(Instruction Mining)通常是指从大量数据中自动或半自动地筛选、提取和构建高质量的指令遵循(instruction-following)数据的过程
      • 问题:到底是 SFT Evaluation 还是 SFT Dataset Evaluation?

Process of SFT

  • 如图4所示,数据集准备好以后,微调过程从一个预训练的大语言模型开始
    • 这个预训练模型通常是通过在大规模原始数据集上进行无监督或自监督预训练得到的)
    • 预训练阶段的目标是获取适用于各种任务的通用特征表示(2021)
  • 在微调阶段,模型的参数会使用特定任务的带 annotations 数据进行调整,使模型符合给定应用的要求(这个阶段常用的目标函数是交叉熵损失函数)
  • 对于一个有 \(N\) 个样本和 \(C\) 个类别的分类任务,它可以表示为:
    $$L_{\text{fine-tune}}(\theta)=-\frac{1}{N} \sum_{i = 1}^{N} \sum_{j = 1}^{C} y_{ij} \log P(y_{j} | x_{i} ; \theta)$$
    • 其中 \(y_{ij}\) 是样本 \(i\) 在类别 \(j\) 中的真实标签,\(P(y_{j} | x_{i} ; \theta)\) 表示模型预测样本 \(i\) 属于类别 \(j\) 的概率
    • 最小化这个损失函数可以使模型更好地与真实标签对齐,从而提高在目标任务上的性能
  • 一个突出的例子是 BERT 模型(2018),它在如 BooksCorpus 和 Wikipedia 等广泛的语言语料库上进行了广泛的预训练
  • 在微调阶段,这些广泛的表示会使用特定任务的数据(例如用于情感分析的 IMDB 数据集(2011))进行优化,使 BERT 能够专注于诸如情感分类和问答等任务

Full-Parameter Fine-Tuning

  • 全参数微调指的是调整预训练模型的所有参数的过程,这与像 LoRA(2021)或 Prefix-Tuning(2021)等仅修改部分参数的参数高效方法不同
  • 全参数微调通常用于需要高精度的任务,如医疗和法律领域(2023),但它需要大量的计算资源
    • 例如,微调一个有 65B 参数的模型可能需要超过 100GB 的 GPU 内存,这给资源受限的环境带来了挑战
      • 理解:这里低估了吧,65B 模型全参数微调至少需要 1000GB 显存
    • 为了缓解这些限制,像 LOMO(2023)这样的内存优化技术被引入,它减少了梯度计算和优化器状态的内存占用
    • 模型的参数根据以下规则更新:
      $$\theta_{t + 1}=\theta_{t}-\eta \nabla_{\theta} L(\theta_{t})$$
      • 其中 \(\theta_{t}\) 表示在迭代 \(t\) 时的模型参数,\(\eta\) 是学习率,\(\nabla_{\theta} L(\theta_{t})\) 表示损失函数的梯度
      • 使用混合精度训练(Mixed Precision Training)(2017)和激活检查点(Activation Checkpointing)(2016)等内存优化技术,有助于减少内存需求,使大型模型能够在硬件资源有限的系统上进行微调
  • 从 GPT-3 到 InstructGPT(2022)就是一个全参数微调的显著例子,在这个过程中,模型的整个参数集使用为指令跟随任务设计的数据集进行了微调。这种方法能带来最佳性能,但由于需要更新所有参数,计算成本很高

Adaptive Fine-Tuning

  • 自适应微调通过修改预训练模型的行为,更好地满足用户特定需求,并处理更广泛的任务
  • 这种方法引入了额外的提示来指导模型生成输出,为定制模型的响应提供了一个灵活的框架
  • 自适应微调中值得注意的方法包括 Instruction Tuning 和基于提示的微调(prompt-based tuning),这两种方法都通过引入特定任务的指导,显著增强了大语言模型的适应性

Instruction Tuning

  • Instruction Tuning(2023)是一种通过在专门构建的指令数据集上对基础大语言模型进行微调,来优化模型的技术
  • 这种方法大大提高了模型在各种任务和领域中的泛化能力,增强了其灵活性和准确性
  • 如图5所示,这个过程首先将现有的 NLP 数据集(例如用于文本分类、翻译和摘要的数据集)转换为自然语言指令,这些指令包括任务描述、输入示例、预期输出和示例演示
    • 像 Self-Instruct(2022)这样的技术,通过自动生成额外的指令-输出对,进一步增强了这些数据集的多样性,扩大了模型接触的任务范围
    • 微调过程使模型的参数与这些特定任务的指令保持一致,从而使大语言模型在熟悉和以前未见过的任务中都能表现出色
    • 例如,InstructGPT(2022)和 GPT-4(2023)在众多应用中,指令跟随能力都有显著提升
  • Instruction Tuning 的有效性在很大程度上取决于指令数据集的质量和广度
    • 高质量的数据集应涵盖广泛的语言、领域和任务复杂性,以确保模型具有广泛的适用性(2023)
    • 指令的清晰度和组织方式在使模型有效解释和执行任务方面起着关键作用
    • 诸如整合示例演示,包括思维链提示(Chain-of-Thought prompting)(2022)等技术,可以显著提高在需要复杂推理的任务上的性能
    • 此外,在微调阶段 确保任务的平衡分布至关重要 ,这可以避免因任务覆盖不均衡而导致的过拟合或模型性能下降
      • 像按比例任务采样或加权损失函数这样的技术,有助于解决这些问题,确保每个任务在微调过程中都能做出公平的贡献
    • 结论:通过精心构建和管理指令数据集,研究人员可以大大提高微调后的大语言模型的泛化能力,使其在广泛的任务和领域中表现出色(2023)

Prefix-Tuning

  • Prefix-Tuning(2021)是一种参数高效的微调方法,它在语言模型的每个 Transformer 层添加一系列可训练的前缀标记(连续向量),同时保持核心模型参数不变
  • 如图6(a)所示,这些前缀向量是特定于任务的,并且起着虚拟 token embedding 的作用
  • 为了优化前缀向量,使用了一种重参数化技巧,即学习一个小型多层感知器(Multi-Layer Perceptron, MLP)函数,将一个较小的矩阵映射到前缀参数,而不是直接优化前缀向量
    • 这种方法已被证明可以稳定训练过程
  • 前缀向量被优化后,映射函数会被丢弃,只保留导出的前缀向量来提高特定任务的性能
  • 通过在输入序列前添加学习到的连续提示,并利用分层提示,模型的行为被引导向特定任务的输出,而无需对整个模型进行微调
  • 由于只调整前缀参数,这是一种一种更高效的参数调整方法
  • 在此基础上,P-Tuning v2(2021)将分层提示向量整合到 Transformer 架构中 ,专门用于自然语言理解任务
    • 这种方法还利用多任务学习来跨任务优化共享提示,从而在不同的参数规模上提高模型性能(2021)
  • Prefix-Tuning 能够快速有效地使大语言模型适应特定任务,这使它成为需要灵活性和效率的应用中的一种有吸引力的策略

Prompt-Tuning

  • Prompt-Tuning(2021, 2020)是一种旨在通过优化输入层的可训练向量 ,而不修改模型内部参数 ,来有效调整大语言模型的方法
  • 如图6(b)所示,这项技术在离散提示方法(2020, 2021)的基础上,引入了软提示标记,这些标记可以采用无限制格式(2021)或前缀形式(2020)
  • 这些学习到的提示嵌入在模型处理之前与输入文本嵌入相结合,从而在保持预训练权重不变的情况下引导模型的输出
  • Prompt-Tuning 的一个值的提到的实现是 P-tuning(2021),它使用一种灵活的方法来组合上下文、提示和目标标记,适用于理解和生成任务
    • 这种方法通过双向长短期记忆(Long Short-Term Memory, LSTM)架构增强了软提示表示的学习
    • 相比之下,标准 Prompt-Tuning(2020)采用了更简单的设计,其中前缀提示被添加到输入之前,并且在训练过程中仅根据特定任务的监督更新提示嵌入
  • 研究表明,Prompt-Tuning 在许多任务上可以达到与全参数微调相媲美的性能,同时所需的可训练参数要少得多
    • 但它的成功与底层语言模型的能力密切相关,因为 Prompt-Tuning 只在输入层修改少量参数(2021)
  • 在这些进展的基础上,像 P-Tuning v2(2021)这样的新方法已经证明,Prompt-Tuning 策略可以有效地扩展到各种模型大小,处理以前认为需要完全微调的复杂任务
  • 这些发现确立了 Prompt-Tuning 作为传统微调的一种高效替代方法,在降低计算和内存成本的同时提供了可比的性能

Reinforcement Fine-Tuning

  • 强化微调(Reinforcement Fine-Tuning, ReFT)(2024)是一种先进的技术,它将 RL 与监督微调相结合,以增强模型解决复杂动态问题的能力
  • 强化微调与传统的监督微调不同
    • 传统监督微调通常为每个问题使用单一的思维链 annotations
    • 强化微调使模型能够探索多种有效的推理路径 ,从而提高其泛化能力和解决问题的技能
  • 强化微调过程从标准的监督微调阶段开始,在监督微调阶段,模型最初有标签数据(labeled data)上进行训练,通过监督 annotations 学习基本的任务解决能力
  • 在初始微调之后,模型使用强化学习算法(如 PPO(2017))进行进一步优化
  • 在强化阶段,模型为每个问题生成多个思维链 annotations,探索不同的潜在推理路径。通过将模型的预测答案与真实答案进行比较来评估这些生成的路径,正确输出给予奖励,错误输出则给予惩罚。这个迭代过程促使模型调整其策略,最终改进其推理策略
  • 如图7所示,强化微调过程分两个阶段执行
    • 上半部分代表监督微调阶段,在这个阶段,模型在训练数据上迭代,在几个训练周期内学习每个问题的正确思维链 annotations
    • 在图的下半部分,引入了强化微调阶段:
      • 从经过监督微调训练的模型开始,模型根据其当前策略生成替代的思维链 annotations \((e’)\),并将其预测答案 \((y’)\) 与真实答案 \((y)\) 进行比较
      • 正确答案给予正奖励,错误答案给予负奖励 ,从而推动模型提高性能
      • 这些奖励信号随后用于通过强化学习更新模型的策略,增强其生成准确多样的思维链 annotations 的能力
  • 最近的研究表明,强化微调明显优于传统的监督微调方法(2024)
    • 此外,在推理时集成多数投票和重排序等策略,可以进一步提高性能,使模型在训练后能够优化其输出
    • 值得注意的是,强化微调在不需要额外或增强训练数据的情况下实现了这些改进,仅从监督微调阶段使用的现有数据集中学习
    • 这突出了模型卓越的泛化能力,因为它能够更高效地从可用数据中学习

PoLMs for Alignment

  • LLM 的对齐是指引导模型输出符合人类期望和偏好,尤其在安全关键或面向用户的应用中
  • 本章将讨论实现对齐的三种主要范式:
    • RLHF(在4.1节中介绍):使用人类标记的数据作为奖励信号;
    • RLAIF(在4.2节中介绍):利用人工智能生成的反馈来解决可扩展性问题;
    • 直接偏好优化(在4.3节中介绍):直接从成对的人类偏好数据中学习,不需要显式的奖励模型
  • 每种范式在追求稳健对齐方面都有其独特的优势、挑战和权衡
  • 这些方法及相关方法的简要比较总结在表2中

RLHF(Reinforcement Learning with Human Feedback)

  • SFT 是引导大语言模型遵循人类指令的基础技术
  • 但在纯监督场景中,带 annotations 数据的多样性和质量可能参差不齐,而且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限
  • 为了应对这些不足,人们提出了基于 RL 的微调方法。在强化学习方法中,RLHF(2022)是最早且最具影响力的基于强化学习的后训练对齐方法之一
  • 如图8所示:RLHF 首先以偏好标签或奖励信号的形式聚合人类反馈,然后使用这些信息来训练奖励模型
    • 在这个奖励模型的指导下,策略会不断调整,以更好地匹配人类偏好
    • 与监督微调相比,RLHF 融入了持续的、基于偏好的更新,从而带来更强的对齐效果
    • 值得注意的是,像 GPT-4(2023)、Claude(2024)和 Gemini(2023)这样的现代大语言模型都受益于这些机制,在指令跟随、事实一致性和用户相关性方面都有改进
  • 下面,论文将讨论 RLHF 的主要组成部分,包括反馈机制、奖励建模和策略学习策略
Feedback Mechanisms of RLHF
  • 人类反馈是 RLHF 的核心,它向奖励模型告知用户偏好并指导策略更新
  • 本小节采用(2023)的分类法对常见的人类反馈形式进行分类
  • 表3从粒度、参与程度和明确性等维度展示了这些反馈类型
    • 每种反馈方式都对模型优化的不同方面有所贡献,并在可解释性、可扩展性和抗噪声性方面表现出不同的水平
  • 主要反馈(Primary Feedback) :这类反馈是 RLHF 中最直接影响奖励模型的反馈类型,例如:
    • 评论(Critique)(2020)侧重于人类对智能体行为的明确评估,通常通过二元或多标签 annotations 来减少噪声
    • 比较(Comparisons)(2011)允许评估者比较多个输出或轨迹;虽然更大的选择集可以提供更丰富的信号,但也可能导致因果混淆
    • 跨时间反馈(Inter-Temporal Feedback)(2019)通过在不同时间步提供判断来优化轨迹评估
    • 代理奖励(Proxy Rewards)(2021)整合了近似奖励函数,引导模型朝着用户定义的目标前进
    • 社会行为(Social Behavior)(2021)利用隐含线索(如面部表情)使智能体目标与用户情绪保持一致
    • 改进(Improvements)(2023)强调人类的实时干预,以逐步优化策略
    • 自然语言反馈(Natural Language Feedback)(2023)利用文本信息传达偏好和改进建议
  • 补充反馈(Supplementary Feedback) :除了主要反馈外,还有两类反馈进一步强化奖励建模过程
    • 紧急停止(e-stops)(2023)允许人类通过中断智能体的轨迹来干预其行为,而无需提出替代方案
      • 这种反馈的特点是隐含参与,并且专注于防止不良行为
    • 重要性标签(Importance labels)(2021)表明特定观察结果对实现目标的重要性,提供不直接改变行为的明确反馈
      • 这种反馈因上下文而异,作为补充输入,强化奖励模型的整体学习过程
  • 特定表示反馈(Representation-Specific Feedback) :某些反馈类型主要用于增强表示学习,而不是直接塑造奖励函数
    • 特征轨迹(Feature Traces)(2022)促使人类操作员展示特定特征的单调变化,从而实现特征集的动态扩展
    • 相似性查询(Similarity Queries)(2023)通过比较轨迹三元组,通过轨迹空间中的成对距离来指导表示学习
    • 通过利用这些特定表示的反馈形式,RLHF 可以更好地泛化到新任务和新环境
Reward Model of RLHF
  • 真实的奖励函数 \(r(x, y)\) 通常是未知的,因此有必要基于人类提供的偏好构建一个可学习的奖励模型 \(r_{\theta}(x, y)\)
    • 该模型预测候选输出 \(y\) 在给定输入 \(x\) 的情况下与人类期望的对齐程度
  • 为了获得 \(r_{\theta}(x, y)\) 的训练数据,人类评估者会根据输出的相对适用性对输出对进行比较或标记,并且该模型通常使用这些比较的交叉熵损失进行训练
  • 为了防止策略 \(\pi\) 与初始模型 \(\rho\) 偏离太远,在奖励函数中引入了一个由超参数 \(\beta\) 控制的惩罚项:
    $$r_{\theta}(x, y)=r(x, y)-\beta \log \frac{\pi(y | x)}{\rho(y | x)}$$
    • 其中 \(\pi(y | x)\) 是微调后的策略 \(\pi\) 在给定输入 \(x\) 时产生输出 \(y\) 的概率,而 \(\rho(y | x)\) 是原始模型 \(\rho\) 对应的概率
    • 这个项确保 \(\pi\) 在适应人类反馈的同时,仍然受到 \(\rho\) 所捕捉的先验知识的约束
  • 评估奖励函数 \(r_{\theta}(x, y)\) 至关重要,因为它直接影响学习效果和策略性能
    • 准确评估这个函数有助于确定适合的奖励结构,使模型输出与人类偏好保持一致
    • 但在安全敏感领域,由于在线交互、偏差和对真实奖励的需求等相关风险,标准的滚动方法(2017, 2019)和离线策略评估(2019, 2019)可能不可行
  • 为了应对这些挑战,通常采用两种主要方法:
    • 距离函数(Distance Functions) :最近的研究集中在奖励评估距离函数上,这些函数考虑了潜在的转换,如潜在塑造。例如
      • EPIC(2020)在各种转换下测量奖励函数的等价性
      • DARD(2022)优化规范化以确保评估基于可行的转换
      • 类 EPIC 距离(2022)通过允许规范化、标准化和度量函数的可变性来推广 EPIC 的方法
      • STARC(2023)保留了 EPIC 的理论特性,同时提供了额外的灵活性
    • 可视化和人工检查(Visual and Human Inspection) :其他方法依靠可解释性和精心设计的数据集来评估学习到的奖励函数的有效性
      • PRFI(2022)使用预处理步骤来简化奖励函数,同时保持等价性,从而提高其透明度
        8 同时,CONVEXDA 和 REWARDFUSION(2023)提出了旨在测试奖励模型对提示语义变化的响应一致性的数据集
      • 这些技术共同有助于更可靠地评估奖励函数,加强大语言模型与人类偏好的对齐
Policy Learning of RLHF
  • 如图9所示,RLHF 的策略学习包括在在线和离线环境中通过人类反馈优化策略
  • 在线学习(Online Learning) :在 Online RLHF 中,系统收集关于新生成的模型轨迹的实时人类偏好
    • 像 DPS(2020)这样的算法使用贝叶斯更新来管理竞争过程,而 PPS 和 PEPS(2020)整合了动态规划和多臂老虎机的思想来优化策略行为
    • 在 LPbRL(2022)中,特征嵌入捕捉不断变化的奖励结构,而 PbOP(2022)整合了最小二乘估计用于转换动态和偏好信号
    • 最近,PARL(2023)通过将反馈获取视为策略优化的一个组成部分,以提高数据收集效率为目标
  • 离线学习(Offline Learning) :在 Offline RLHF 中,以前收集的带有偏好标签的轨迹被用于学习或优化策略
    • 例如,(2023)研究了带有成对比较数据的策略学习的悲观最大似然估计,并建立了性能界限
    • 像 FREEHAND(2023)和 DCPPO(2023)这样的扩展推广到未知的偏好模型,探索离线数据覆盖范围和策略泛化之间的相互作用
    • 此外,(2024)解决了成对比较的玻尔兹曼模型中的过拟合问题,而 DCPPO(2023)进一步研究了动态离散选择模型以提高反馈效率
  • 在线学习和离线学习的融合(Blending Online and Offline Learning) :混合方法将离线预训练与在线偏好聚合相结合,充分利用预先收集的数据,同时仍然整合实时更新
    • PFERL(2022)采用两阶段方法来最小化人类查询,而 PERL(2020)探索用于主动探索的乐观最小二乘策略
    • 竞争强化学习(Dueling RL)(2023)及其扩展(如 PRPRL(2023)中的 REGIME)通过仔细划分数据获取和反馈收集来减少人类标记需求,从而优化样本效率、 annotations 成本和策略性能之间的权衡

RLAIF(Reinforcement Learning with AI Feedback)

  • 基于 AI 反馈的强化学习(Reinforcement Learning with AI Feedback, RLAIF)扩展了 RLHF 范式,它采用大语言模型生成反馈信号
  • 这种方法可以补充或替代人类反馈,在人类 annotations 稀缺、昂贵或不一致的任务中提供更具可扩展性、成本更低的偏好数据
RLAIF vs RLHF
  • RLHF 在大规模应用中面临的一个主要挑战是其对人类生成的偏好标签的依赖,这需要大量资源来收集、整理和标记数据
    • 标注数据的过程既耗时又昂贵,而且人类评估者可能会引入不一致性,从而使在所有模型输出上进行大规模、一致的标注变得复杂
    • 这些限制极大地限制了 RLHF 的可扩展性和效率
  • 为了应对这些挑战,(2022)提出了 RLAIF,它结合人类反馈和人工智能生成的反馈,通过强化学习来训练模型
    • 通过利用大语言模型作为反馈源,RLAIF 减少了对人类标注者的依赖,为传统的 RLHF 提供了一种可行的替代方案
    • 这种方法能够持续生成反馈,显著提高可扩展性,同时保留人类引导的模型优化的灵活性
  • 如图10所示,RLHF 和 RLAIF 的主要区别在于反馈源:
    • RLHF 依赖于人类生成的偏好,而 RLAIF 使用人工智能生成的反馈来指导策略更新
    • 实证研究(如(2023)的研究)表明:RLAIF 可以达到与 RLHF 相当甚至更优的性能 ,这是由人类评估者评估的
    • RLAIF 不仅超过了传统的监督微调基线,而且使用与策略模型规模相同的大语言模型偏好标注器来实现这一点 ,突显了该方法的效率
RLAIF Training Pipeline
  • RLAIF 的训练流程遵循几个关键阶段,在这些阶段中,人工智能生成的反馈被用于迭代优化模型的行为
  • 正如(2023)所详细描述的,该流程使大语言模型的输出能够以跨各种任务的可扩展方式与人类期望保持一致
  • 这些阶段如下:
    • 人工智能反馈收集(AI Feedback Collection) :在这个阶段,人工智能系统根据预定义的标准生成反馈,这些标准可能包括特定任务的指标、响应的正确性或模型输出的适当性
      • 与需要解释和手动标注的人类反馈不同,人工智能反馈可以在广泛的模型输出中一致地生成
      • 这种特性使人工智能反馈能够持续提供,显著扩大了反馈循环的规模
    • 奖励模型训练(Reward Model Training) :人工智能生成的反馈随后被用于训练或优化奖励模型
      • 该模型将输入-输出对映射到相应的奖励,使模型的输出与反馈所指示的期望结果保持一致
      • 虽然传统的 RLHF 依靠直接的人类反馈来评估输出,但 RLAIF 利用人工智能生成的标签,尽管这可能会引入一致性和偏差相关的问题,但在可扩展性和不依赖人力资源方面具有优势
    • 策略更新(Policy Update) :最后阶段包括基于前一步训练的奖励模型更新模型的策略
      • 采用强化学习算法来调整模型的参数,优化策略以在各种任务中最大化累积奖励
      • 策略更新过程是迭代的,奖励模型指导模型的输出朝着与预期目标更高程度的对齐方向发展
  • RLAIF 的主要优势在于:它能够在不需要持续人类干预的情况下扩展反馈循环
    • 通过用人工智能生成的反馈替代人类反馈,RLAIF 促进了大语言模型在多个任务中的持续改进,缓解了人类标注工作带来的瓶颈

Direct Preference Optimization

  • 如前所述,RLHF(2022)通常包括三个阶段:
    • 监督微调(2021, 2022)
    • 奖励建模
    • 强化学习(通常通过 PPO 实现)(2017)
  • 尽管 RLHF 是有效的,但它可能很复杂且容易不稳定,特别是在拟合奖励模型然后使用该模型微调大语言模型的阶段
    • 困难在于创建一个准确反映人类偏好的奖励模型,以及在微调语言模型以优化这个估计奖励的同时,使其与原始模型保持接近
  • 为了解决这些问题,直接偏好优化(Direct Preference Optimization, DPO)(2024)作为一种更稳定且计算效率更高的替代方案被引入
  • 直接偏好优化通过将奖励函数直接与最优策略联系起来,简化了奖励优化过程
  • 它将奖励最大化问题视为基于人类偏好数据的单阶段策略训练问题,从而避免了奖励模型拟合的复杂性以及对 Bradley-Terry model(1952)的依赖
Foundation of DPO
  • RLHF 包括训练奖励模型(Reward Model, RM)和通过强化学习微调语言模型
  • 直接偏好优化通过直接使用人类偏好数据训练语言模型,将奖励模型隐含地捕获在策略本身中,从而简化了这个过程
  • KL 正则化奖励最大化目标(KL-Regularized Reward Maximization Objective) :直接偏好优化始于成熟的KL正则化奖励最大化框架,如下所示的目标:
    $$\pi^{*}=\arg \max_{\pi} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi(\cdot | x)}\left[r(x, y)-\beta K L\left(\pi(\cdot | x) | \pi_{r e f}(\cdot | x)\right)\right] \tag{14}$$
    • 其中 \(r(x, y)\) 表示奖励函数,\(\beta>0\) 是控制与参考策略 \(\pi_\text{ref}\) 接近程度的系数,而 \(KL(\cdot | \cdot)\) 表示 KL 散度(Kullback-Leibler divergence)
    • 这里,\(x \sim \mathcal{D}\) 表示从数据分布中抽取的输入,\(y \sim \pi(\cdot | x)\) 表示从策略中采样的输出
  • 最优策略的推导(Deriving the Optimal Policy) :在适当的假设下,式(14)的解以玻尔兹曼分布(Boltzmann distribution)的形式导出(2019, 2023, 2020):
    $$\pi^{*}(y | x)=\frac{1}{Z(x)} \pi_{r e f}(y | x) \exp \left(\frac{1}{\beta} r(x, y)\right) \tag{15}$$
    • 其中配分函数:
      $$Z(x)=\sum_{y} \pi_{r e f}(y | x) \exp \left(\frac{1}{\beta} r(x, y)\right)$$
      • 作为归一化项,确保 \(\pi^{*}\) 仍然是一个有效的概率分布(即其概率之和为1)
  • 奖励的重参数化(Reparameterizing the Reward) :对式(15)的两边取自然对数,我们可以将奖励 \(r(x, y)\) 与最优策略 \(\pi^{*}\) 联系起来。这产生:
    $$r^{*}(x, y)=\beta\left[\log \pi^{*}(y | x)-\log \pi_{r e f}(y | x)\right]+\beta \log Z(x) \tag{16}$$
    • 其中 \(\beta \log Z(x)\) 是一个不影响奖励成对比较的常数
    • 如果已知最优策略 \(\pi^{*}\),则真实奖励 \(r^{*}(x, y)\) 的值取决于这个常数
  • Bradley–Terry 偏好(Preferences) :在 Bradley-Terry model(1952)下,人类对两个输出 \(y_{1}\) 和 \(y_{2}\) 的偏好由它们的奖励值之差决定
    • 偏好 \(y_{1}\) 胜过 \(y_{2}\) 的概率由下式给出
      $$p^{*}\left(y_{1} \succ y_{2} | x\right)=\frac{\exp \left(r^{*}\left(x, y_{1}\right)\right)}{\exp \left(r^{*}\left(x, y_{1}\right)\right)+\exp \left(r^{*}\left(x, y_{2}\right)\right)} \tag{17}$$
    • 将式(17)代入式(18),论文得到最终的偏好模型:
      $$p^{*}\left(y_{1} \succ y_{2} | x\right)=\frac{1}{1+\exp \left(\beta\left[\log \frac{\pi^{*}\left(y_{2} | x\right)}{\pi_{r e f}\left(y_{2} | x\right)}-\log \frac{\pi^{*}\left(y_{1} | x\right)}{\pi_{r e f}\left(y_{1} | x\right)}\right]\right)}$$
    • 这个表达式将成对的人类偏好概率与最优策略 \(\pi^{*}\) 和参考策略 \(\pi_\text{ref}\) 的比率联系起来
Training Details of DPO
  • 直接偏好优化框架建立在两个核心模型之上:参考策略 \(\pi_\text{ref}\) 和目标策略 \(\pi_\text{tar}\)
  • 参考策略通常是一个经过预训练和监督微调的语言模型,在整个训练过程中保持固定
  • 相比之下,目标策略从 \(\pi_\text{ref}\) 初始化,并使用基于偏好的反馈进行迭代更新,从而更好地与人类判断保持一致
  • 图11描述了这个整体流程
  • 数据收集和准备 :直接偏好优化依赖于一个精心挑选的偏好数据集,该数据集是通过为每个提示 \(x\) 从 \(\pi_\text{ref}\) 中采样多个候选响应获得的
    • 然后,人类标注者根据连贯性、相关性和清晰度等标准对这些响应进行比较或排序
    • 由此产生的偏好标签作为优化 \(\pi_\text{tar}\) 的核心训练信号
  • 训练过程 :通过一系列基于梯度的更新来优化目标策略,旨在最小化损失 \(L_{DPO}\) ,具体来说:
    • 1)生成: \(\pi_\text{ref}\) 为每个提示 \(x\) 生成候选输出;
    • 2)标注:人类标注者比较生成的输出,确定它们的相对偏好;
    • 3)优化:利用这些成对的偏好,\(\pi_\text{tar}\) 被迭代更新,以更好地模仿人类偏好的输出
    • 在整个过程中,\(\pi_\text{ref}\) 保持不变,为衡量改进提供了一个稳定的基线
  • 实际考虑因素 :选择一个稳健的参考策略通常对有效初始化直接偏好优化至关重要
    • 监督微调通常会为 \(\pi_\text{ref}\) 产生一个性能良好的基线,确保后续基于偏好的更新可以专注于优化,而不是基本技能的获取
      • 理解:SFT 注入知识或技能,DPO 仅仅专注策略优化,而不是基本技能的学习
    • 此外,偏好数据必须足够多样化,以捕捉用户期望的变化,从而促进模型的适应性并防止在定义狭窄的任务上过拟合
Variants of DPO
  • 已经出现了多种直接偏好优化的变体,以解决特定的对齐挑战并优化文本生成的不同方面
  • 表2概述了这些方法,范围从 Token-level 生成优化到控制冗长性以及处理列表式或负面偏好
  • 用于优化生成的直接偏好优化(DPO for Optimizing Generation) :Token-level DPO 和 iterative DPO 策略有助于更细粒度或持续地与人类偏好保持一致
    • token-level DPO(2024)被重新表述为一个老虎机问题,采用由 \((S, A, f, r, \rho_{0})\) 定义的马尔可夫决策过程(Markov Decision Process, MDP)
      • 这种方法减轻了诸如不受欢迎的标记的过度 KL 散度等挑战
    • TDPO(2024)应用顺序前向 KL 散度而不是反向 KL 散度,同时改进了文本生成中的对齐和多样性保留
    • Iterative DPO(2024)采用多轮方法,通过重复的偏好评估(通常由模型本身执行)来持续优化输出
    • 成对厌恶优化(Pairwise Cringe Optimization, PCO)(2024)通过使用软边际来平衡探索和利用,将二元反馈扩展到成对设置
    • Step-wise DPO(2024)对偏好数据集进行分区,并应用迭代更新,将每一轮的更新策略作为下一轮的基线
  • 可控和灵活的直接偏好优化(Controllable and Flexible DPO) :一些直接偏好优化变体旨在管理冗长性并减少对固定参考策略的需求
    • R-DPO(2024)通过目标函数中的正则化项惩罚输出长度,解决过度冗长或冗余的响应
    • SimPO(2024)通过归一化响应长度并简化损失函数以处理期望和不期望的输出,消除了对参考策略的需求
    • RLOO(2024)利用 REINFORCE 算法而不训练价值模型,大大减少了计算开销(问题:RLOO 算是 DPO 变体?)
      • 它将整个响应视为单个动作,并从稀疏奖励中学习,与传统的基于 PPO 的方法相比,简化了实现
  • Listwise DPO :列表式直接偏好优化方法不是将偏好数据限制为成对比较,而是对输出集进行优化
    • LiPO(Listwise Preference Optimization, 列表式偏好优化)(2024)直接在候选响应的排序列表上应用学习排序技术,相对于重复的成对比较提高了效率
    • RRHF(2023)将偏好对齐整合到监督微调中,消除了对单独参考模型的需求
    • PRO(2024)将列表式偏好分解为更简单的二元任务,简化了监督微调期间的对齐
  • Negative DPO :某些任务需要从不受欢迎或有害的输出中学习:
    • NN(Negating Negatives, 否定负面)(2024)丢弃正面响应,并最大化与较不受欢迎的输出的差异
    • NPO(Negative Preference Optimization, 负面偏好优化)(2024)对负面偏好应用梯度上升,有效减少有害输出并减轻灾难性崩溃

PoLMs for Reasoning

  • 推理是使 LLM 能够处理涉及多步逻辑、复杂推理和复杂决策任务的核心支柱
  • 本章探讨两种增强模型推理能力的核心技术:
    • Self-Refine for Reasoning(5.1节),它指导模型自主检测并纠正自身推理步骤中的错误;
    • Reinforcement Learning for Reasoning(5.2节),它采用基于奖励的优化来提高模型 CoT 的一致性和深度。这些方法共同使模型能够更稳健地处理长期决策、逻辑证明、数学推理和其他具有挑战性的任务

Self-Refine for Reasoning

  • 在优化大语言模型以处理需要复杂逻辑推理和依赖上下文的决策任务时,推理仍然是一个核心挑战
  • 在这种情况下,Self-Refine 作为一种强大的机制出现,它能在文本生成过程中或生成后迭代地找出并纠正错误,从而显著提高推理深度和整体可靠性
  • 如图12所示, Self-Refine 方法可分为四类:
    • 内在 Self-Refine (Intrinsic Self-refine),它依赖模型内部的推理循环;
    • 外在 Self-Refine (External Self-refine),它整合外部反馈资源;
    • 微调内在 Self-Refine (Fine-tuned Intrinsic Self-refine),它基于自我生成的修正迭代更新模型的推理过程;
    • 微调外在 Self-Refine (Fine-tuned External Self-refine),它利用外部信号和微调以更具适应性、更长期的方式优化推理
  • 表4进一步说明了每类方法如何增强大语言模型在各种任务中的推理能力
Intrinsic Self-Refine
  • Intrinsic Self-Refine 方法专注于使模型自身能够在不借助外部工具的情况下检测并修正错误
    • RCI 提示(RCI Prompting)(2024)仅在识别到矛盾或错误时才触发修正,避免对微小的不确定性反应过度
    • CAI修订(CAI Revisions)(2022)纠正不良输出(如攻击性文本),同时教会模型自我调节其响应
    • Self-Refine(2024)利用从低质量提示到高保真指令的转变,优化中间逻辑以提高一致性
    • CoVe(2023)通过将多答案问题分解为子任务来处理这类问题,每个子任务都经过单独验证,以确保整个推理链的精确性和一致性
    • 弱到强泛化(Weak-to-Strong Generalization, W2SG)方法利用先进算法,使强大的学生模型能够从能力较弱的教师模型产生的含噪声演示中有效学习(2023)
      • 该框架在不同领域已有多项重要发展和应用
    • 最近的研究通过各种创新增强了弱到强泛化。例如
      • 集成学习技术已成功应用于提高弱到强泛化方法的稳健性和有效性(2024)
      • (2024)采用弱到强外推来增强大语言模型的对齐
External Self-Refine
  • External Self-Refine 方法涉及利用外部反馈源或计算工具来指导和纠正模型的推理
    • CRITIC(2024)系统地检查分步输出,提高复杂推理任务的可靠性
    • Reflexion(2024)和自我调试(Self-Debug)(2023)分别将生成的答案与参考解决方案或少样本示例进行比较,迭代优化逻辑
    • 像 FLARE(2023)和 Logic-LM(2023)这样的技术整合来自外部文档或符号求解器的参考,从而最大限度地减少逻辑失误
    • RARR(2022)和 SelfEvolve(2023)表明,验证中间状态(如编译器消息或相关知识源)是一种有效的方法,可及早修剪错误路径并引导模型找到正确解决方案
    • (2024)提出了基于人类反馈的迭代偏好学习,包括用于在线场景的直接偏好优化(Direct Preference Optimization, DPO)算法的迭代版本,以及用于离线场景的多步拒绝采样策略
    • PIT(2024)从人类偏好数据中间接学习改进目标
Fine-tuned Intrinsic Self-refine
  • 通过专门针对内部修订(internal revision)对基础模型进行微调,Fine-tuned Intrinsic Self-refine 方法系统地加强大语言模型的自我纠正循环
    • 自我批判(Self-Critique)(2022)旨在通过自我审查改进摘要
    • SelFee(2023)使用迭代反馈循环确保更高水平的逻辑一致性
    • Volcano(2024)通过在大语言模型架构中微调专用的校正模块来减少多模态幻觉
    • RL4F(2023)利用基于强化学习的批判循环,在需要深入推理的基准测试中平均提高 10% 的性能
    • REFINER(2024)同样专注于中间推理路径,而不改变模型原始的生成过程,这表明通过训练模型仔细重新检查其部分输出,可以实现持续的改进
    • 易到难泛化(easy-to-hard generalization)作为弱到强泛化的一种有前景的变体出现,其中模型首先在易于验证的示例上训练,然后再处理更复杂的任务(2024)
      • 这种方法的一个显著实现是在人类可验证的示例上训练强大的奖励模型,该模型随后指导在具有挑战性的任务上对更强大的模型进行监督(2024)
      • 此外,弱到强泛化的有效性不仅限于大语言模型,在计算机视觉任务中也有成功应用(2024)
Fine-tuned External Self-refine
  • Fine-tuned External Self-refine 方法下,在需要长期改进的场景中,模型的参数通过外部反馈机制进行更新。例如:
    • 自我编辑(Self-Edit)(2023)基于执行结果重新生成代码输出,从而实现正确性的迭代改进
    • Baldur(2023)通过添加或修改上下文来加强定理证明
    • CodeRL(2022)采用基于测试的批判来验证程序合成任务中的功能准确性
  • 总之,这些技术表明,将外部资源与有针对性的微调相结合,有助于在模型的整体推理性能方面实现可靠的、逐步的进步

Reinforcement Learning for Reasoning

  • 在5.1节中,论文探讨了 Self-Refine 方法,这是一种通过局部调整和优化来提高大语言模型推理能力的广泛使用的方法
  • 这种技术通常应用于单步任务或输出优化,如文本生成和问答,可快速提升推理效果;但对于需要多步逻辑的复杂、长期推理任务,它却难以胜任
  • OpenAI 的 o1 系列(2024)的发布凸显了 RL 作为一种强大的替代方案,它通过基于奖励的反馈优化长内部思维链,训练大语言模型进行高级推理
    • 这显著提高了在数学证明和战略规划等复杂任务中的性能
  • o1 的成功推动了对大规模强化学习的研究,像 QwQ-32B-Preview(2023)在数学和编程方面表现出色,DeepSeek-R1(2025)则与 o1 的能力相当
  • 本小节探讨强化学习在增强推理方面的作用,重点介绍领先的开源模型 DeepSeek-R1 和 DeepSeek-R1-Zero
Formulating Reasoning as an MDP
  • 大语言模型中的推理可以巧妙地建模为一个顺序决策过程,其中模型为响应输入查询 \(x\) 迭代构建一系列中间步骤 \(a_{1}, a_{2}, …, a_{T}\),以优化得出正确最终答案的可能性
  • 这种概念化将推理转变为适合强化学习的结构化框架,具体而言,是通过马尔可夫决策过程(Markov Decision Process, MDP)的视角,记为 \(M=(S, A, P, R, \gamma)\)
  • 马尔可夫决策过程包含状态、动作、转移、奖励和时间折扣的动态相互作用,为训练大语言模型处理复杂推理任务提供了坚实的数学基础
  • 通过将推理构建为一系列深思熟虑的选择,这种方法使模型能够系统地探索和优化其逻辑路径,这与游戏或机器人等领域的决策制定类似,但又适应了语言和概念推理的独特挑战
  • 最终目标是推导出一个最优策略 \(\pi^{*}(a_{t} | s_{t})\),该策略最大化预期累积奖励,表示为
    $$ J(\theta)=\mathbb{E}_{\pi_{\theta} }[\sum_{t = 1}^{T}\gamma^{t}R(s_{t}, a_{t})]$$
  • 并利用诸如 PPO(2017)或 A2C(Advantage Actor-Critic,2016)等强化学习技术,基于环境反馈迭代增强推理能力
  • 状态空间(State Space) :
    • 状态空间 \(s\) 构成了这个马尔可夫决策过程的基础,每个状态 \(s_{t} \in S\) 表示时间步 \(t\) 的当前推理轨迹,它是语言和结构元素的丰富组合,对推理过程至关重要
    • 具体而言,\(s_{t}\) 包括初始查询 \(x\) 、先前推理步骤序列 \(\{a_{1}, …, a_{t-1}\}\),以及编码逻辑依赖关系和中间结论(如部分解决方案或推断关系)的内部记忆表示
    • 随着推理的展开,这个状态会动态演变,通过整合通过生成步骤明确表达的路径和从上下文理解中提取的潜在知识,反映思维的进展
    • 例如,在数学证明中,\(s_{t}\) 可能包括问题陈述、先前推导的方程以及适用定理的记忆,使模型能够在各个步骤之间保持一致性
    • 这种多方面的状态表示确保大语言模型能够自适应地跟踪其推理上下文,这是处理需要持续逻辑连续性的任务(如多步问题解决或文本生成中的叙事连贯性)的先决条件
  • 动作空间(Action Space) :
    • 动作空间 \(A\) 定义了每个步骤可能的决策范围,其中动作 \(a_{t} \in A\) 对应于下一个推理步骤的选择,为推进推理过程提供了多功能工具包
    • 这些动作可能包括生成自然语言中的一个 Token 或短语来表达推理片段、应用预定义的逻辑或数学变换(如代数简化)、从知识库中选择相关定理或规则来扩展推理链,或者在得出结论性答案后终止过程
    • 动作空间的性质因任务而异:
      • 它可能是离散的(如在形式证明中从有限的逻辑规则集中选择)
      • 也可能是连续的(如在开放式推理场景中生成自由形式的文本)
      • 这反映了大语言模型的生成灵活性
    • 这种双重性使模型能够处理结构化领域(如符号逻辑)和非结构化领域(如常识推理),根据任务需求调整其策略,同时保持朝向解决方案的连贯轨迹
  • 转移函数(Transition Function) :
    • 由函数 \(P(s_{t + 1} | s_{t}, a_{t})\) 封装的转移动态控制状态如何随每个动作演变,描述了马尔可夫决策过程框架内推理轨迹的进展
    • 与传统强化学习环境中随机性来自外部变量(如环境噪声)不同,大语言模型中的推理转移主要是确定性的,由模型的自回归输出或结构化推理规则(如在证明中应用演绎步骤)驱动
    • 然而,不确定性来自模型固有的局限性(如不完善的知识、模糊的中间状态或文本生成中的概率采样) ,这引入了强化学习必须解决的可变性
      • 问题:如何理解这里的可变性?LLM 中动作即状态吧
    • 对于自回归大语言模型,转移遵循可预测的序列生成过程,但错误累积或解释分歧的可能性使得需要稳健的设计来确保可靠性
    • 这种确定性但不确定的动态强调了需要自适应策略,以在各种上下文中稳定推理,从精确的数学推导到微妙的叙事构建
  • 奖励函数(Reward Function) :
    • 奖励函数 \(R(s_{t}, a_{t})\) 作为马尔可夫决策过程的评估核心,为每个推理步骤的质量提供关键反馈,以指导模型的学习过程
    • 与具有明确奖励(如游戏中的分数)的传统强化学习任务不同,推理奖励必须精心设计以平衡稀疏性和密集性,反映任务的复杂性和目标
      • 稀疏奖励(如仅在得出正确最终答案时赋值)虽然简单,但在多步场景中可能会延迟学习;
      • 密集奖励(评估步骤的正确性、逻辑有效性或与人类偏好的一致性)则提供细致的指导,如5.2.2节所述
    • 这种灵活性使奖励函数能够适应各种推理需求,无论是奖励证明中有效推理规则的应用,还是叙事片段的连贯性,确保模型获得有意义的信号,以优化其在即时和扩展推理范围内的策略
  • 折扣因子(Discount Factor) \(\gamma\) :
    • \(\gamma \in[0,1]\) 是一个标量,它决定了即时奖励和未来奖励之间的权衡
    • 较高的 \(\gamma\) 鼓励多步推理优化,促进深度推理链而非短期启发式
    • 基于这种马尔可夫决策过程表述,目标是学习一个最优推理策略 \(\pi^{*}(a_{t} | s_{t})\),该策略最大化预期累积奖励:
      $$J(\theta)=\mathbb{E}_{\pi_{\theta} }\left[\sum_{t = 1}^{T}\gamma^{t}R\left(s_{t}, a_{t}\right)\right]$$
      • 该框架使强化学习技术(如 PPO(2017)或 A2C(2016))能够应用于通过基于推理环境的反馈迭代调整策略 \(\pi_{\theta}\),从而优化大语言模型的推理能力
Reward Design for Reasoning
  • 与具有明确奖励(如游戏分数)的传统强化学习任务不同,大语言模型中的推理需要结构化的奖励设计,以反映正确性、效率和信息量
  • 常见方法包括:
    • 二元正确性奖励,为正确的最终答案分配 \(r_{T}=1\),否则分配 \(r_{T}=0\),这种方法简单但由于反馈稀疏而引入高方差;
    • 分步准确性奖励,基于推理规则有效性或中间步骤一致性等指标提供增量反馈,以指导多步推理;
    • 自我一致性奖励,测量多个推理路径的稳定性,并为一致性高的情况分配更高奖励,以增强稳健性;
    • 基于偏好的奖励,源自 RLHF 或 RLAIF,其中在人类或人工智能反馈上训练的模型 \(r_{\phi}(s_{t}, a_{t})\) 评估推理质量,为复杂任务提供细致的指导
Large-Scale RL on Base Model
  • 大规模强化学习已成为一种变革性的后训练范式,用于增强大语言模型的推理能力,将重点从传统的监督微调转向动态的、自我进化的优化策略
  • 这种方法利用广泛的计算框架和基于迭代奖励的反馈直接优化基础模型,绕过了对预标注数据集的需求,并使模型能够自主发展复杂的推理技能
  • 通过整合大规模强化学习,大语言模型能够处理复杂的多步推理任务(如数学问题解决、逻辑演绎和战略规划),而传统的监督微调由于依赖静态的、人工整理的数据,在这些任务中往往表现不佳(2022)
  • DeepSeek-R1 模型就是这种范式的例证,它采用先进的强化学习技术实现了 SOTA 推理性能,同时优化了资源效率,如图13所示
  • 本小节阐述支撑 DeepSeek-R1 成功的关键方法,包括新颖的优化算法、自适应探索和轨迹管理,这些共同重新定义了强化学习驱动的大语言模型推理的潜力
  • GRPO :
    • DeepSeek-R1-Zero 模型利用 PPO 的一种复杂变体,称为 GRPO ,以减轻大语言模型传统强化学习训练中固有的大量计算和资源需求
    • 与依赖大量评论家网络的标准 PPO 不同,组相对策略优化采用基于组的基线估计来简化优化过程,在保持策略更新稳健性的同时显著减少训练开销
    • 这种效率使大规模强化学习能够部署在资源受限的系统上,促进跨扩展轨迹的推理策略的迭代优化
    • 通过在可管理的计算范围内优化策略,组相对策略优化使 DeepSeek-R1-Zero 成为增强推理能力的可扩展解决方案,如图13所示,使其成为当代强化学习驱动的推理研究的基石
  • DeepSeek-R1-Zero :
    • DeepSeek-R1-Zero 体现了大规模强化学习在提升大语言模型推理方面的变革潜力,它不依赖传统的监督微调作为初始步骤,而是采用纯强化学习驱动的自我进化范式
    • 这种方法使模型能够通过基于奖励反馈迭代优化其内部思维链,自主发展复杂的推理技能,绕过了监督微调通常所需的预 标注数据集
    • 其结果是在复杂的多步推理任务(如数学问题解决和逻辑推导)中性能显著提升,这表明强化学习有能力从基础模型中解锁高级推理能力
    • 作为最强大的开源推理模型之一,DeepSeek-R1-Zero 的成功凸显了冷启动强化学习策略的可行性,它提供了一种资源高效的传统训练 Pipeline 替代方案,同时达到与最先进基准相当的性能
  • 分步奖励建模(Stepwise Reward Modeling) :
    • 为了在轨迹 \(\tau=(s_{1}, a_{1}, …, s_{T}, a_{T})\) 中指导推理,DeepSeek-R1 采用分步奖励模型 \(f_{\theta}\),该模型在每个时间步提供细致的反馈,定义为 \(r_{t}=f_{\theta}(s_{t}, a_{t} | D_\text{reasoning})\),其中 \(D_\text{reasoning}\) 包含带有步骤级正确性标签的人工标注思维链序列
      • 问题:DeepSeek-R1 没有使用分布奖励吧?不是使用的 GRPO 吗?
    • 这种密集的奖励结构与稀疏的序列末尾奖励形成对比,它提供关于各个推理步骤质量的即时、可操作的见解,使模型能够精确微调其策略
    • 通过利用专家精心整理的数据,奖励模型确保反馈与人类推理标准保持一致,促进扩展推理链的一致性和准确性,这是处理需要长期逻辑合成的任务的关键特征
  • 自适应探索(Adaptive Exploration) :
    • DeepSeek-R1 通过整合到其目标中的自适应探索机制增强策略优化:
      $$\begin{aligned}\mathcal{L}_\text{PPO+}=&\mathbb{E}_{\tau}\left[min \left(\frac{\pi_{\phi}(a | s)}{\pi_{old}(a | s)}A_{t}, clip\left(\frac{\pi_{\phi}(a | s)}{\pi_{old}(a | s)}, 1-\epsilon, 1+\epsilon\right)A_{t}\right)\right] \&+\lambda_{t} \mathcal{H}\left(\pi_{\phi}(\cdot | s)\right),\end{aligned}$$
      • 其中熵项 \(H\) 由自适应系数 \(\lambda_{t}=\alpha \cdot \exp (-\beta \cdot \operatorname{Var}(R(\tau_{1: t})))\) 调节,该系数根据轨迹上的奖励方差动态调整。这种方法平衡了探索和利用,鼓励模型在训练早期探索多样化的推理路径,同时在方差减小时收敛到最优策略,从而提高推理优化的稳健性和效率
  • 轨迹剪枝(Trajectory Pruning) :
    • 为了优化推理过程中的计算效率,DeepSeek-R1 实现了双注意力评论家 \(V_{\psi}(s_{t})=\text{LocalAttn}(s_{t})+\text{GlobalAttn}(s_{1: t})\),它通过结合局部步骤评估和全局轨迹上下文来评估每个状态的价值
    • 当 \(V_{\psi}(s_{t})<\gamma \cdot \max_{k \leq t} V_{\psi}(s_{k})\) 时进行剪枝,终止低价值推理路径,将资源集中在有前景的轨迹上
    • 这种机制减少了无效探索,加速了收敛,并确保模型优先考虑高质量推理序列,这有助于其在复杂推理任务中表现出色
RL for Reasoning with Cold Start
  • DeepSeek-R1-Zero 通过采用冷启动方法进一步推进了强化学习的应用,它避开了监督微调,完全依赖于从未训练的基础模型进行大规模强化学习
    • 这种自我进化策略通过迭代反馈优化推理,生成稳健的思维链序列,而不依赖预标注数据
  • 通过直接在推理任务上训练,DeepSeek-R1-Zero 展示了强化学习的多功能性,其性能与从监督微调整开始的模型(如其对应模型DeepSeek-R1)相当甚至更优
    • 这种方法不仅减少了对大量标记数据集的依赖,还展示了强化学习自主发展复杂推理能力的潜力,为未来大语言模型的发展提供了一种可扩展的范式
  • 总之,强化学习为增强推理提供了一个有前景的框架,有效的奖励设计、策略优化(如组相对策略优化)和探索策略仍然至关重要
  • 未来的研究可以探索结合模仿学习或自监督目标的混合方法,以进一步优化这些能力,巩固强化学习在推进大语言模型推理方面的作用

PoLMs for Efficiency

  • 基于前面章节讨论的后训练优化技术,后训练的效率专门针对 LLM 在初始预训练后的运行性能
    • 其主要目标是优化关键的部署指标(例如处理速度、内存使用和资源消耗),从而使大语言模型在实际应用中更具实用性
  • 实现后训练效率的方法主要分为三类:
    • 模型压缩(Model Compression,6.1节),通过剪枝和量化等技术来降低整体计算负担;
    • 参数高效微调(Parameter-Efficient Fine-Tuning,6.2节),仅更新模型的部分参数或采用专门的模块,从而最小化重新训练的成本并加速对新任务的适应;
    • 知识蒸馏(Knowledge Distillation,6.3节),将知识从较大的预训练模型转移到较小的模型,使较小的模型能够在减少资源需求的情况下实现可比的性能

Model Compression

  • 模型压缩包含一系列旨在减小大语言模型的规模和计算需求的技术,其中包括后训练量化、参数剪枝和低秩近似
Post-training Quantization
  • 大语言模型的一种关键压缩方法是量化,它将高精度数据类型 \(X^{H}\)(30位浮点数)转换为低精度格式 \(X^{L}\)(8位整数)(2021)。这种转换可表示为:
    $$\mathcal{X}^{L} = \text{Round}\left(\frac{\text{absmax}\left(\mathcal{X}^{L}\right)}{\text{absmax}\left(\mathcal{X}^{H}\right)} \mathcal{X}^{H}\right)=\text{Round}\left(\mathcal{K} \cdot \mathcal{X}^{H}\right)$$
    • 其中 \(\mathcal{K}\) 代表量化常数,\(\text{absmax}\) 指元素的绝对最大值
    • 函数 \(\text{Round}\) 将浮点数转换为整数
  • 大语言模型的量化包括后训练量化(post-training quantization,PTQ)和量化感知训练(quantization-aware training,QAT)
  • 后训练量化允许在预后训练调整模型的权重和激活值,使用一个小的校准数据集来优化计算效率和性能,如图14所示
  • 此外,表5展示了几种著名的大语言模型量化方法的性能指标
  • 仅权重量化(Weight-Only Quantization, WOQ) :仅权重量化专注于压缩模型权重以提高效率
    • GPTQ (2023) 使用最优脑量化(Optimal Brain Quantization, OBQ)进行逐层量化,将权重降低到 3 或 4 比特,以减少内存使用和处理时间
    • QuIP (2024) 引入了用于2比特量化的非相干处理,提供了更紧凑的表示,进一步提高了效率
    • AWQ (2024) 和 OWQ (2024) 通过对特别敏感的权重保持高精度来解决精度保留问题,从而最小化推理过程中可能的精度损失
    • SpQR (2023) 将稀疏量化与解码相结合,实现了高效的 token-by-token 推理,同时保持模型的响应能力
  • 权重-激活值联合量化(Weight-Activation Co-Quantization, WAQ) :权重-激活值联合量化将权重和激活值结合起来以提高效率
    • LLM.int8() (2022) 使用精确存储来处理激活值异常值,并量化为 8 比特,同时保持性能
    • SmoothQuant (2023) 实现了每通道缩放,将量化难度从激活值转移到权重,以实现无损结果
    • OS+ (2023) 通过通道移位和缩放减轻了异常值的影响,从而提高了效率
    • OmniQuant (2024) 将量化障碍从激活值转移到权重,并对极值的裁剪阈值进行微调
    • RPTQ (2023) 对相似通道进行分组,以确保量化参数的一致性(进一步提高了效率)
  • KV 缓存量化(KV-Cache Quantization, KVQ) :KV 缓存量化解决了大语言模型中的内存优化挑战,特别是随着输入 Token 数量的增加
    • KVQuant (2024) 引入了针对大上下文长度的高效推理的定制方法,在性能损失最小的情况下保持性能
    • KIVI (2024) 通过对键和值缓存应用不同的量化策略来优化内存节省,实现了 2 比特量化而无需微调
    • WKVQuant (2024) 进一步通过二维量化策略和跨块正则化对其进行了改进,提供了与权重-激活值量化相当的内存效率,且性能几乎相同
Parameter Pruning
  • 参数剪枝 (2022) 是一种通过最小化模型大小和复杂性来提高大语言模型效率的关键技术,同时又不牺牲准确性
  • 如图15所示,剪枝可分为非结构化剪枝和结构化剪枝
  • 非结构化剪枝(Unstructured Pruning) :非结构化剪枝通过消除不重要的权重来提高大语言模型的稀疏性
    • SparseGPT (2023) 方法通过单次剪枝实现了高达 60% 的稀疏性,同时保持最小的损失
    • Wanda (2023) 方法基于权重大小和激活值进行剪枝,无需重新训练
    • SAMSP (2024) 利用 Hessian 矩阵的敏感性进行稀疏性的动态调整,旨在最小化误差
    • DSnoT (2024) 通过采用迭代剪枝周期来提高性能
    • Flash-LLM (2023) 从全局内存中检索稀疏权重,并在片上缓冲区中将其密集重建,以促进高效计算
  • 结构化剪枝(Structured Pruning) :结构化剪枝则侧重于剪枝大语言模型中的整个参数组 ,以提高硬件效率并简化结构
    • LLM-runner (2023) 评估 LLaMA (2023) 的重要性,并使用 LoRA (2021) 在剪枝后恢复精度
    • FLAP (2024) 使用结构化指标在不进行微调的情况下优化压缩
    • SliceGPT (2024) 采用 PCA 进行剪枝,同时保持效率
    • Sheared LLaMA (2023) 通过基于正则化的剪枝来优化模型形状
    • LoRAPrune (2024) 通过基于 LoRA 重要性的迭代结构剪枝来提高效率
    • Deja Vu (2023) 通过预测关键注意力头和 MLP 参数,利用上下文稀疏性来减少延迟,同时保持准确性
  • 低秩近似(Low-Rank Approximation) :低秩近似通过用更小的矩阵 U 和 V 近似权重矩阵 W 来压缩大语言模型 ,从而实现 \(W \approx U V^{\top}\) 。这种方法不仅减少了参数数量 ,还提高了操作效率(enhances operational efficiency)
    • TensorGPT (2023) 采用 TTD(Tensor-Train Decomposition)来开发更高效的嵌入格式
    • LoSparse (2023) 将低秩近似与剪枝相结合,专门针对压缩相干神经元组件
    • FWSVD (2022) 实现了加权 SVD 方法
    • ASVD (2023) 提供了免训练的 SVD 替代方案
      • FWSVD 和 ASVD 两者都以后训练效率为目标
    • SVD-LLM (2024) 通过建立奇异值与压缩损失之间的直接关系进一步改进了压缩

Parameter-Efficient Fine-Tuning

  • 参数高效微调(PEFT)的过程包括冻结完整的大语言模型主干,同时只修改有限数量的新添加参数
  • 如图16所示,PEFT 方法分为四类: Additive PEFT、Selective PEFT、Reparameterized PEFT 和 Hybrid PEFT
Additive PEFT
  • Additive PEFT 将新的可训练模块整合到大语言模型中,而不改变原始参数,允许特定任务的微调,同时保留基础模型的知识,这对于微调是高效的
  • 适配器(Adapters) :适配器在 transformer 块中集成紧凑层,定义为:
    $$\text{Adapter}(x) = W_\text{up} \sigma\left(W_\text{down} x\right) + x$$
    • 其中,适配器层包括
      • 下投影矩阵 \(W_\text{down} \in \mathbb{R}^{r \times d}\)
      • 非线性激活函数 \(\sigma\)
      • 上投影矩阵 \(W_\text{up} \in \mathbb{R}^{d \times r}\)
    • 这里,\(d\) 是隐藏层维度,\(r\) 是瓶颈维度,在保持性能的同时降低复杂性
    • 基于这种结构:
      • Serial Adapter (2019) 在每个 transformer 块中引入了两个模块
      • AdapterFusion (2020) 通过将适配器放置在 Add&Norm 之后来提高效率
      • 并行适配器(Parallel Adapter, PA)(2021) 使适配器与子层并行运行
      • CoDA (2023) 通过使适配器与子层并行运行来进行优化
      • MerA (2023) 使用最优传输技术统一适配器的权重和激活值(这与 AdapterFusion 不同)
  • 软提示(Soft Prompt) :软提示通过向输入序列添加可调整向量而不是优化离散 Token 来提高模型性能 (2023)。这种方法形式化为:
    $$X^{(l)} = \left[s_{1}^{(l)}, …, s_{N_{S} }^{(l)}, x_{1}^{(l)}, …, x_{N_{X} }^{(l)}\right]$$
    • 其中:
      • \(s_{i}^{(l)}\) 表示软提示 Token
      • \(x_{i}^{(l)}\) 表示原始输入 Token
      • \(N_{S}\) 和 \(N_{X}\) 分别是软提示和原始输入 Token 的数量
    • Prefix Tuning (2021) 在 transformer 层之间引入可学习向量,通过重参数化来稳定,并通过 P-Tuning v2 (2021) 和 APT (2021) 进行改进
    • Prompt Tuning (2021) 专注于初始嵌入层,以低计算成本优化大型模型
    • Xprompt (2022) 和 IDPG (2022) 简化提示生成和插入
    • SPoT (2021) 和 PTP (2023) 之类的方法解决了稳定性和收敛速度问题
    • DePT (2023) 和 SMoP (2023) 通过优化的提示结构降低计算需求
  • 其他 Additive 方法(Other Additive Methods) :
    • 除了前面的技术外,诸如 \((IA)^3\) (2022) 和 SSF (2022) 之类的方法通过对模型参数进行最小但有效的调整来关注后训练效率
    • 自注意力和 FFN 操作在数学上定义为:
      $$SA(x) = \text{Softmax}\left(\frac{Q \cdot \left(l_{k} \odot K\right)^{T} }{\sqrt{d_{head} } }\right) \cdot \left(l_{v} \odot V\right) \\
      FFN_\text{transformer}(x) = W_\text{up} \cdot \left(l_{ff} \odot \sigma\left(W_\text{down} x\right)\right)\tag{26;27}$$
      • \(\odot\) 表示哈达玛积
      • 尺度向量 \(l_{k}\) 和 \(l_{v}\) 可以平滑地合并到 \(A_{Q}\) 和 \(A_{W}\) 的权重矩阵中
    • IPA (2023) 使诸如 GPT-4 之类的大语言模型与用户特定需求保持一致
      • IPA 不需要改变基础模型,因此在微调过程中保持效率
Selective PEFT
  • Selective PEFT 通过仅微调参数的一个子集来提高效率 ,如图16(b)所示
  • Selective PEFT 将二进制掩码 \(M = \{m_{1}, m_{2}, …, m_{n}\}\) 应用于参数 \(\theta = \{\theta_{1}, \theta_{2}, …, \theta_{n}\}\),其中每个 \(m_{i}\) 指示是否选择 \(\theta_{i}\) 进行微调
  • 更新的参数集表示为:
    $$\theta_{i}’ = \theta_{i} - \eta \cdot m_{i} \cdot \frac{\partial \mathcal{L} }{\partial \theta_{i} }$$
    • 其中,\(\eta\) 是学习率,\(\frac{\partial L}{\partial \theta_{i} }\) 是损失函数的梯度
    • 只有选定的参数(其中 \(m_{i} = 1\) )会被更新,从而降低计算成本,同时保持有效性
    • Diff pruning (2020),使用可微分的 \(L_{0}\)-范数来正则化可学习的二进制掩码
    • FishMask (2021),基于 fisher 信息选择参数以提高相关性
    • LT-SFT (2021) 将彩票假设(Lottery Ticket Hypothesis)应用于识别有影响力的参数
      • 补充彩票假设(Lottery Ticket Hypothesis):其核心观点是,随机初始化的密集神经网络中存在一个稀疏子网络(“中奖彩票”),当单独训练该子网络时,性能可匹配甚至超越原网络
    • SAM (2023) 采用二阶近似进行选择
    • Child-tuning (2021) 在子网络中动态选择参数
    • FAR (2022) 和 BitFit (2021) 专注于优化特定参数组
Reparameterized PEFT
  • Reparameterized PEFT 主要采用低秩参数化来提高效率,如图16(c)所示
  • LoRA(低秩适应)(2021) 引入两个可训练矩阵 \(W_\text{up} \in \mathbb{R}^{d \times r}\) 和 \(W_\text{down} \in \mathbb{R}^{r \times k}\),将输出修改为:
    $$h_{out} = W_{0} h_{in} + \alpha \left(W_\text{up} W_\text{down} h_{in}\right)$$
    • 其中,\(\alpha\) 是缩放因子
  • LoRA 允许有效地适应新任务,同时保留核心知识
  • 在 LoRA 的基础上,还有许多工作有进一步的改进:
    • Intrinsic SAID (2020) 最小化微调参数空间,进一步降低计算需求
    • 动态变体(包括 DyLoRA (2022) 和 AdaLoRA (2023)),根据特定任务需求动态调整秩
      • 其中,AdaLoRA 结合了基于 SVD 的剪枝以提高效率
    • SoRA (2023) 通过去除正交性约束来简化过程
    • Laplace-LoRA (2023) 应用贝叶斯校准进行微调
    • Compacter (2021) 和 VeRA (2023) 进一步降低参数复杂性
    • DoRA (2024) 优化方向分量的更新以提高效率和性能
    • HiRA (2025) 采用哈达玛积进行高阶更新以提高效率和性能
    • 为了处理多个任务和不断变化的领域:Terra (2024) 集成了时变矩阵,ToRA (2025) 利用 Tucker 分解进一步改进 LoRA 结构
    • (除了结构设计外)PiSSA (2025) 和 LoRA-GA (2025) 使用 SVD 和梯度对齐优化 LoRA 的初始化
    • LoRA+ (2024)、LoRA-Pro (2024) 和 CopRA (2024) 进一步完善梯度更新策略
    • ComLoRA (2025) 采用竞争学习来选择性能最佳的 LoRA 组件
Hybrid PEFT
  • Hybrid PEFT 方法通过整合或优化各种微调策略来提高后训练效率
  • 一种著名的技术 UniPELT (2021) 在 transformer 块中融合了 LoRA、前缀调优和适配器
    • 这种方法通过由前馈网络(FFN)管理的门控机制动态激活组件,这些前馈网络产生标量 \(G \in [0, 1]\),最终优化参数利用率
  • 另一种创新方法 MAM Adapter (2021) 通过在自注意力层中战略性地放置前缀调优,并在馈送前层中使用缩放的并行适配器来改进此技术
  • 基于 NAS 的方法(如 NOAH (2022) 和 AUTOPEFT (2024))通过识别为特定任务量身定制的最佳 PEFT 配置来提高后训练效率
    • 神经架构搜索(Neural Architecture Search,NAS)是一种自动设计神经网络架构的技术,旨在通过算法自动找到最优或接近最优的神经网络架构,以优化特定任务的性能
  • HeadMap (2025) 使用贪心方法识别在某些任务中起关键作用的一系列注意力头(即知识电路),并通过将这些注意力头的输出映射回大语言模型的残差流来有效地提高模型性能
  • LLM-Adapters (2023) 提供了一个框架,用于在大语言模型中集成各种 PEFT 技术,确保最有效的模块放置,以在不同模型规模上保持效率

Knowledge Distillation

  • 知识蒸馏(KD)是大语言模型后训练优化中的核心技术,能够将知识从大型预训练教师模型转移到紧凑的学生模型,以提高效率而不牺牲性能
  • 知识蒸馏最初是在模型压缩的背景下引入的,由于其能够将复杂知识提炼到资源高效的架构中,使其能够部署在受限环境(如边缘设备和嵌入式系统)中,因此受到了广泛关注
  • 通过利用教师模型的细微输出分布(比传统的硬标签更丰富),知识蒸馏使学生不仅能够复制类别预测,还能复制教师表示中包含的类间关系和细微模式
  • 知识蒸馏过程通常涉及优化一个复合损失函数,该函数平衡监督学习目标和特定于蒸馏的目标,显著降低计算和内存需求,同时保留泛化能力
  • 知识蒸馏的基本机制取决于最小化混合损失,该损失将传统分类损失与蒸馏项相结合。形式上,给定教师模型的软输出概率 \(p_{t}\) 和学生模型的预测 \(p_{s}\),以及真实标签 \(y\) 和学生输出 \(y_{s}\),知识蒸馏损失表示为:
    $$\mathcal{L}_{K D} = \alpha \mathcal{L}_{C E}\left(y, y_{s}\right) + (1 - \alpha) \mathcal{L}_{K L}\left(p_{t}, p_{s}\right)$$
    • \(L_{CE}\) 表示捕获与真实标签对齐的交叉熵损失
    • \(L_{KL}\) 表示测量教师和学生分布之间差异的 Kullback-Leibler 散度 (1951)
    • \(\alpha \in [0, 1]\) 是调节这些目标之间权衡的超参数
    • 软目标 \(p_t\) 通常通过温度参数 \(T\) 进行调整(即 \(p_{t} = \text{Softmax}(z_{t} / T)\)
      • 其中 \(z_{t}\) 是教师 logits),编码更丰富的概率信息,使学生能够模仿教师的决策细微差别,而不仅仅是标签准确性
  • 知识蒸馏广泛用于资源受限环境中的模型压缩和迁移学习,其中预训练教师指导特定任务的学生
  • 知识蒸馏的有效性取决于教师能力、学生架构和蒸馏损失设计等因素
  • 最近的进展将知识蒸馏扩展到输出蒸馏之外,使大语言模型在后训练优化中更高效和适应性更强
  • 根据对教师模型内部参数和中间表示的访问级别,知识蒸馏方法大致可分为黑盒知识蒸馏和白盒知识蒸馏
  • 如表6所示,知识蒸馏方法大致可分为两类:黑盒知识蒸馏和白盒知识蒸馏
  • 论文系统地总结了 LLM 中的各种知识蒸馏技术,以及它们相应的技能、教师模型和学生模型
Black-box KD
  • 黑盒知识蒸馏是指学生模型仅从教师的输出 logits 中学习,而无法访问其内部表示或架构细节
  • 黑盒知识蒸馏最初由 Hinton (2015) 提出,与经典的知识蒸馏范式一致,并且由于其灵活性而被广泛采用
  • 黑盒知识蒸馏的一个关键优势是它将教师模型视为一个不透明的函数 ,即使教师是具有受限访问权限的专有模型或预训练模型,也能实现知识转移
  • 在实践中:
    • 教师模型通常用于生成高质量输出:例如 ChatGPT 和 GPT-4 (2023) 等
    • 学生模型通常是较小的语言模型(smaller language models,SLM):包括 GPT-2 (2019)、T5 (2019)、Flan-T5 (2022) 和 CodeT5 (2021)
      • 这些较小的语言模型针对效率进行了优化,同时保持强大的泛化能力,使其适合部署在资源受限的环境中
  • 问题 :这里的定义是不是有问题,ChatGPT 也拿不到模型的 logits 吧,黑盒蒸馏 ChatGPT 是指蒸馏其最终文本输出而不是 logits?
  • 回答 :黑盒知识蒸馏(Black-Box Knowledge Distillation)的真实定义是指在知识蒸馏过程中,学生模型无法直接访问教师模型的内部结构、参数、中间层输出或预 softmax 层的 logits ,只能通过教师模型的外部可观察输出(例如,最终的预测结果、生成的文本、或者通过 API 返回的概率分布)来学习
White-box KD
  • 白盒知识蒸馏通过利用来自教师内部表示的额外 insight 扩展了传统的蒸馏范式
  • 当教师模型的架构已知且可访问时,这种方法是有益的,允许更丰富的监督形式
  • 白盒知识蒸馏与将教师视为不透明函数的黑盒知识蒸馏不同,白盒知识蒸馏允许学生模型不仅从教师的输出 logits 中学习,还可以从教师的中间激活、隐藏层,甚至注意力权重中学习 (2018)
DeepSeek-R1: Direct Distillation of Reasoning Patterns
  • 直接蒸馏(Direct Distillation) :DeepSeek-R1 通过将复杂的推理模式从大规模模型提炼到紧凑架构中,展示了知识蒸馏的变革潜力,显著增强了较小大语言模型的推理能力,而无需在这些模型上进行直接强化学习的计算负担
  • DeepSeek-R1 利用由大型教师模型生成的大约 800K 个样本的精选数据集,其中包括来自 DeepSeek-V3 的 200K 个非推理实例和由 DeepSeek-R1-Stage1 检查点生成的 600K 个推理实例
    • 这些样本构成了 SFT 的基础,并将其应用于开源基础模型(如 Qwen 和 LLaMA 小型变体),使学生模型能够继承通常只为更大模型保留的复杂推理能力
  • 如图17所示,DeepSeek-R1 中的直接蒸馏过程以结构化 Pipeline 展开
    • 最初,在广泛数据集上预训练的教师模型生成包含推理和非推理输出的多样化语料库,捕捉各种逻辑模式和事实知识
      • 非推理数据(约 200K 个样本)提供一般知识的基线,而推理数据(约 600K 个样本)包含通过教师的高级能力提炼的多步推理链
    • 然后,该数据集用于 SFT 阶段,其中学生模型被训练以使其输出分布与教师的输出分布保持一致,使用推理数据直接微调较小的模型以提炼紧凑的推理模型
      • 与直接应用于小型模型的传统强化学习(可能由于容量有限而产生次优推理)不同,DeepSeek-R1 的直接蒸馏通过转移预优化的推理行为规避了此类限制,以减少的资源需求实现卓越的性能
  • DeepSeek-R1 的知识蒸馏方法的一个显著特征是其强调在模型规模上保持推理完整性
    • 通过集成通过大规模强化学习提炼的 DeepSeek-R1-Stage1 的推理轨迹,学生模型不仅复制事实准确性,还模仿复杂的推理过程,例如数学问题解决或逻辑演绎所需的过程
    • 这种有针对性的转移与传统知识蒸馏形成对比,并强调了 DeepSeek-R1 在面向推理的蒸馏方面的创新
      • 注:传统知识蒸馏通常优先考虑分类任务
    • 该方法最大限度地减少了在学生上进行大量强化学习迭代的需求,利用教师的预计算推理输出来简化训练,从而提高效率和可扩展性
    • 这种方法将 DeepSeek-R1 定位为将高级推理提炼到紧凑大语言模型中的范例,为未来的后训练优化工作提供了蓝图

PoLMs for Integration and Adaptation

  • 集成和适配技术对于提升 LLM 在各种现实应用中的通用性和有效性至关重要
  • 这些方法能让大语言模型无缝处理异构数据类型,适应特定领域的需求,并利用多种架构的优势,从而应对复杂、多方面的挑战
  • 本章将阐述三种主要策略:
    • 多模态集成(第7.1节),使模型能够处理文本、图像和音频等多种数据模态;
    • 领域适配(第7.2节),针对特定行业或应用场景优化模型;
    • 模型融合(第7.3节),将不同模型的能力整合起来,优化整体性能
  • 总体而言,这些方法提高了大语言模型的适应性、效率和稳健性,拓宽了它们在各种任务和场景中的应用范围

Multi-Modal Integration

  • 基于前面章节中阐述的后训练优化策略,本节将探讨先进的方法,这些方法旨在增强大语言模型和大型多模态模型(Large Multi-modal Model, LMM),以便有效地处理多模态数据
  • 虽然监督微调能提高大语言模型在特定任务中的熟练度,但它在充分利用多模态能力方面存在局限性,这就需要更复杂的后训练方法
  • 这些技术通过将不同的数据类型集成到一个统一的框架中,使大型多模态模型能够处理复杂的跨模态任务,例如:
    • 从视觉输入生成网页代码 (2022)
    • 解读像表情包这样微妙的文化产物 (2022)
    • 在不依赖光学字符识别(optical character recognition,ORC)的情况下进行数学推理 (2023))
  • 通常,大型多模态模型由模态编码器、预训练的大语言模型骨干和模态连接器组成,如图18所示
    • 这种架构构成了后训练方法的基础,通过优化每个组件,促进强大的多模态集成和性能提升
Modal Connection
  • 模态连接方法对于将多模态数据整合到一个连贯的表征框架中至关重要,主要分为三种策略(如图19所示):
    • 基于投影的方法
    • 基于查询的方法
    • 基于融合的方法
  • 基于投影的模态连接(Projection-based Modal Connection) :基于投影的方法将各种模态的输入转换到统一的文本嵌入空间 ,使其特征与大语言模型的语言维度对齐 ,以实现无缝集成
    • LLaMA-Adapter (2023) 通过整合图像编码器将大语言模型扩展到多模态系统中,实现了基于图像的指令跟踪
    • LLaMA-Adapter V2 (2023) 通过将视觉标签嵌入到早期的大语言模型层中,改进了这一过程,促进了对视觉知识的更好吸收
    • FROMAGe (2023) 在冻结的大语言模型和视觉编码器框架内对输入和输出层进行微调,以实现跨模态交互
    • LLaVA-1.5 (2023) 则使用双线性多层感知器(MLP)来增强多模态处理的稳健性
    • Shikra (2023) 集成了空间坐标以增强自然语言对话
    • VILA (2024) 优化了视觉语言预训练以实现卓越的零样本学习能力
    • DetGPT (2023) 进一步推进了这一范式,将基于推理的目标检测与自然语言交互相结合,利用投影技术促进有效的多模态通信
    • SOLO (2024) 采用单一的 Transformer 架构进行统一的端到端视觉语言建模,它可以接受原始图像 patches(以像素为单位)和文本作为输入,而无需使用单独的预训练视觉编码器
    • MiniGPT-4 (2023) 通过单个投影层将冻结的视觉编码器与 Vicuna 对齐,通过两阶段训练过程实现了类似 GPT-4 的能力
    • Idefics (2023) 凭借自回归设计和多阶段预训练在高效推理方面表现出色
    • LaVIT (2024) 使用离散视觉标记器统一视觉和语言,实现无缝生成
    • DeepSeek-VL2 (2024) 通过动态平铺和多头潜在注意力增强了高分辨率图像理解
    • Qwen2.5-VL (2025) 通过重新设计的视觉 Transformer 在多模态任务中取得进展,在感知和视频理解方面表现出色
  • 基于查询的模态连接(Query-based Modal Connection) :基于查询的方法通过使用可学习的 query Token 从不同模态中提取结构化信息 ,弥合了文本和非文本数据之间的差距 ,从而增强了多模态集成
    • BLIP-2 (2023) 率先采用 query Transformer,有效地整合了文本和视觉输入
    • Video-LLaMA (2023) 通过组合视觉编码器将该技术扩展到视频理解领域
    • InstructBLIP (2023) 改进了查询机制,以确保精确遵循指令
    • X-LLM (2023) 通过专门的接口对齐多模态输入
    • mPLUG-Owl (2023) 和 Qwen-VL (2023) 优化了 Q-Former 架构以提高计算效率
    • LION (2024) 进一步证明了基于查询的方法在推进视觉知识集成方面的有效性,强调了它们在提升大型多模态模型在各种任务中的性能方面的实用性
    • Qwen-VL (2023) 是一系列基于 Qwen-7B 构建的大规模视觉语言模型,它结合了视觉接收器、位置感知适配器和三阶段训练 Pipeline,实现了多语言、细粒度的视觉语言理解
    • Lyrics (2023) 是一个细粒度的视觉语言预训练和 Instruction Tuning 框架,通过视觉精炼器(图像标记、目标检测和语义分割)和多尺度查询 Transformer(MQ-Former)集成语义感知的视觉对象,增强了大型视觉语言模型(large vision-language models,LVLM)的能力
  • 基于融合的模态连接(Fusion-based Modal Connection) :基于融合的技术通过将多模态特征直接嵌入到大语言模型架构中 ,加深了跨模态交互,在推理层面促进了更丰富的集成
    • Flamingo (2022) 使用交叉注意力层在 Token 预测期间融合视觉特征,实现动态多模态处理
    • OpenFlamingo (2023) 在其基础上进行扩展,允许冻结的大语言模型关注视觉编码器的输出,增强了灵活性
    • Otter (2023) 引入指令调优,以改进多模态指令遵循能力
    • CogVLM (2023) 在 Transformer 层内集成视觉专家模块,实现无缝的特征合成
    • Obelics (2024) 利用交错的图像文本训练数据,突出了基于融合的方法在实现一致的多模态性能方面的稳健性
    • InternVL (2023) 是一个大规模的视觉语言基础模型,它将视觉编码器扩展到 6B 参数,并使用语言中间件(QLLaMA)逐步将其与大语言模型对齐
    • Llama 3 (2024) 是 Meta 开发的一个新的多语言、工具使用基础模型系列,扩展到 405B 参数,具有 128K Token 的上下文窗口,通过改进数据质量、更大规模的训练和结构化的后训练策略进行了优化
Modal Encoder
  • 模态编码器将原始的多模态输入压缩成紧凑、语义丰富的表示形式,使其能够在各种任务和模态中高效处理
  • 这些组件对于将异构数据转换为与大语言模型骨干兼容的格式至关重要,支持从视觉推理到音频理解等各种应用
  • 表7全面总结了视觉、音频和其他模态中常用的编码器,详细介绍了它们的特点以及对多模态集成的贡献
  • 视觉编码器(Vision Encoder) :视觉编码器是多模态学习的基础,有助于大型多模态模型对视觉数据进行解释和生成
    • CLIP (2021) 通过对比学习建立了联合图像文本表示,增强了跨模态对齐
    • EVA (2023) 改进了视觉注意力机制以提高效率
    • ImageBind (2023) 创建了一个跨多种模态的统一嵌入空间,提升了零样本识别能力
    • SigLIP (2023) 引入了配对的sigmoid损失来优化图像文本预训练
    • DINOv2 (2023) 采用无监督学习从各种来源提取强大的视觉特征
    • LLaVA (2023) 采用自指令策略将图像转换为文本描述,使用先进的大语言模型生成新的数据集
    • Video-ChatGPT (2023) 借助大规模指令数据集支持对话式视频理解
    • BT-Adapter (2023) 通过高效的时间建模优化了视频理解
    • VideoChat (2023) 专注于时空推理,利用专门的数据集
    • CoDi-2 (2024) 和 Mipha (2024) 等模型在多模态处理中实现了效率提升
    • VL-Mamba (2024) 和Cobra (2024) 引入了状态空间模型以优化推理
    • SPHINX-Tiny (2024) 强调数据多样性和训练效率
  • 音频编码器(Audio Encoder) :音频编码器增强了大型多模态模型处理和解释听觉输入的能力,拓宽了它们的多模态范围
    • SpeechGPT (2023) 将大规模语音数据集与卷积和 Transformer 架构相结合 (2020),实现了强大的指令遵循能力
    • AudioPaLM (2023) 使用通用语音模型(USM)编码器 (2023) 结合文本和语音处理,在零样本语言翻译等任务中表现出色
    • WavCaps (2024) 采用 CNN14 (2020) 和 HTSAT (2022) 来缓解音频语言数据稀缺的问题,利用先进的大语言模型来优化数据集质量并提升学习效果,这突出了音频模态在多模态系统中的关键作用
  • 其他编码器(Other Encoder) :除了视觉和音频,用于其他模态(如 3D 理解和多模态融合)的编码器对于全面的大型多模态模型也至关重要
    • NEXT-GPT (2023) 促进了跨文本、图像、视频和音频的跨模态内容生成,通过最小的参数调整推进了类人人工智能能力
    • ImageBind-LLM (2023) 对齐视觉和语言嵌入,以改进跨模态的指令遵循
    • LL3DA (2024) 处理点云数据以进行 3D 推理和规划,引入了新颖的空间理解方法
    • X-LLM (2023) 对图像和视频输入使用 Q-Former (2023),对语音使用 C-Former (2023),将音频特征压缩为 Token-level 嵌入,以提高多模态学习效率

Domain Adaptation

  • 领域适配(Domain Adaptation, DA)是一种关键的后训练策略,用于优化大语言模型,使其在特定领域中表现出色,确保它们在目标应用中发挥实效
  • 基于迁移学习的原理 (2018; 2024),领域适配通过适配函数 \(F_\text{adapt}\) 对初始模型 \(M_\text{source}\) 进行转换,生成特定领域的模型 \(M_\text{target}\),如下所示:
  • 这个过程使 \(M_{target}\) 能够满足特定领域的独特需求和复杂性,从而优化其性能和相关性
  • 通过提高大语言模型在编程 (2023; 2022) 和数学推理 (2023) 等领域的熟练度,领域适配不仅提升了特定领域的能力,还提高了计算效率,减轻了通用模型在处理特定领域术语和推理范式时常常遇到的局限性
  • 此外,领域适配大大减少了从头开始训练特定领域模型通常所需的大量标记数据集和计算资源 (2024),使其成为后训练方法的基石
Knowledge Editing
  • 知识编辑是一种复杂的后训练方法,旨在修改大语言模型以满足特定领域的要求 ,同时不损害其基本能力
  • 这种技术有助于进行有针对性的参数调整,在整合新的或更新的领域知识时,保留模型原有的性能
  • 通过快速适应不断变化的知识环境,知识编辑成为后训练流程中不可或缺的一部分
  • 表8概述了主要的方法(例如,包括外部知识利用、集成和内在编辑)
  • 知识编辑的形式化定义(Formal Definition of Knowledge Editing) :
    • 考虑一个由 \(\theta\) 参数化的原始大语言模型,它在数据集 \(\mathcal{D}_\text{old}\) 上进行了预训练
    • 设 \(\mathcal{D}_\text{new}\) 表示包含新的或更新信息 \(\Delta K\) 的数据集。知识编辑的目标是通过应用调整 \(\Delta \theta\) 来导出修订后的参数集 \(\theta’\),从而有效地吸收 \(\Delta K\),同时最小化对 \(\mathcal{D}_\text{old}\) 的性能下降。形式上,这被构建为一个约束优化问题,其中更新后的参数定义为:
      $$\theta’=\theta+\Delta \theta, \text{ where } \mathcal{L}\left(\theta’ ; \mathcal{D}_{new }\right) \to min$$
      • \(c\) 代表一个损失函数(例如交叉熵),用于评估模型在 \(\mathcal{D}_\text{new}\) 上的质量
    • 为了保护模型在原始数据集上的性能,施加了一个约束(确保新参数 \(\theta’\) 对旧数据 \(\mathcal{D}_\text{old}\) 的拟合能力不要降低太多):
      $$\mathcal{L}\left(\theta’ ; \mathcal{D}_{old }\right) \leq \mathcal{L}\left(\theta ; \mathcal{D}_{old }\right)+\epsilon$$
      • 其中 \(\epsilon\) 是一个小的正常数,用于限制模型在 \(\mathcal{D}_\text{old}\) 上的性能损失
      • 这个公式确保 \(\theta’\) 在整合 \(\Delta K\) 的同时,保留模型的先验知识库
      • 在实际操作中,\(\Delta \theta\) 可能被限制在特定的架构组件(例如注意力层(Attn)或前馈网络(FFN)),以减少计算开销,并通过避免全面重新训练来保留核心功能
  • 知识识别 :知识编辑的初始阶段侧重于检测新信息并将其整合到模型中
    • PokeMQA (2023) 使用可编程范围检测器和知识提示来剖析查询,有效地检索相关事实
    • SERAC (2022) 将反事实模型与分类器相结合,以确定新的知识来源的适用性,提供了一种微创方法,在无需进行广泛结构修改的情况下保留了基础模型的完整性
    • 相关工作 (2024,[406]) 分析了大语言模型知识更新产生混乱涟漪效应的原因:
      • 实际的编辑通常源于新出现的事件,这些事件包含新事实与过去事实之间的逻辑联系
      • 基于这一观察,EvEdit (2024, [407]) 提出了一种基于事件的知识编辑方法,以确定知识锚点和知识更新边界
  • 知识关联 :在识别之后,此阶段将新获取的信息与模型现有的知识框架相关联
    • Transformer-Patcher (2023) 调整 Transformer 架构以整合更新的事实
    • CaliNET (2022) 重新校准参数以与事实内容对齐
    • 诸如 Eva-KELLM (2023)、MELO (2024) 和 REMEDI (2023) 等方法为精确更新优化特定行为
    • GRACE (2024) 在知识插入后提高预测准确性,确保与先前表示的无缝集成
  • 内在知识编辑 :最后阶段将关联的事实嵌入到模型的内部结构中,确保全面吸收
    • 虽然传统的微调可能消耗大量资源,但先进的技术减轻了这一负担
    • Constrained Fine-tuning (2020) 和元学习 (2021) 最大限度地减少知识损失和过拟合风险
    • Editable Training (2020) 和 KnowledgeEditor (2021) 能够快速调整参数,同时将性能影响降至最低
    • SLAG (2023)、MEND (2021) 和 MALMEN (2024) 解决编辑冲突并支持大规模更新,在整合新的领域见解的同时保持基本能力
    • LLM Surgery (2024) 通过应用反向梯度去除过时数据、使用梯度下降整合新事实以及使用 KL 散度项保留现有知识,统一了遗忘和编辑,实现了显著的计算效率
    • KNE (2024) 引入了知识神经元集成方法,精确定位并仅更新与新插入事实密切相关的神经元,在保留无关知识的同时实现更准确的编辑
    • OVERTONE (2025) 通过引入 Token-level 平滑技术来解决知识编辑中的异构 Token 过拟合问题,该技术自适应地优化训练目标,从而保留预训练知识并提高模型对新插入事实的推理能力
  • 这些有针对性的技术确保模型在整合新获取的信息时保留其基本能力
Retrieval-Augmented Generation
  • 检索增强生成(Retrieval-Augmented Generation, RAG)将传统的信息检索与现代大语言模型相结合,以提高生成输出的相关性和事实准确性 (2020; 2023; 2024)
  • 通过从外部来源动态检索相关信息并将其嵌入到生成过程中,检索增强生成解决了大语言模型在特定领域知识方面的不足,并减少了生成幻觉内容的倾向
  • 这种方法在需要精确、最新信息的领域特别有效,例如问答系统 (2020)、科学研究 (2023) 和医疗保健 (2024),能够处理复杂查询和知识密集型任务
  • 此外,检索增强生成减少了对话系统中误导性响应的普遍性,提高了基于知识的自然语言生成的保真度 (2024; 2023)
  • 本节重点关注基于训练的检索增强生成方法 (2024),认识到无训练检索增强生成方法 (2020; 2023; 2024) 可能由于缺乏特定任务优化而损害知识利用效率
  • 三种主要的训练策略:
    • 独立训练
    • 顺序训练
    • 联合训练
  • 提高了模型的适应性和集成能力,如图20所示
  • 独立训练(Independent Training) :该策略将检索器和生成器作为不同的模块进行训练,能够灵活地采用针对任务需求定制的稀疏或密集检索器
    • DPR (2020) 利用双BERT网络分别对查询和段落进行编码,应用对比学习优化检索,而无需与生成器交互
    • 相关工作 (2024) 提出了 Reward-RAG,它利用奖励模型根据基于GPT的反馈仅微调检索器,而不改变生成器
  • 顺序训练(Sequential Training) :顺序训练通过一次优化一个模块来提高效率,促进检索器和生成器之间的协同作用
    • 它包括检索器优先方法 (2023; 2023; 2023; 2023; 2023),如 RETRO (2022),该方法先预训练基于 BERT 的检索器,然后训练编码器-解码器以无缝整合检索到的内容,从而提高性能
    • LLM 优先方法 (2023; 2023; 2023),如 RA-DIT (2023),先微调语言模型以有效利用检索到的知识,然后优化检索器以实现更好的对齐和连贯性 (2023; 2023)
  • 联合训练(Joint Training) :联合训练在端到端框架中同步优化检索器和生成器
    • RAG (2020) 最小化负对数似然以共同训练两个组件
    • REALM (2020) 通过最大内积搜索(Maximum Inner Product Search, MIPS)(2015) 提高检索精度
  • 这些方法适应特定任务的需求,最大限度地利用外部知识的优势,并最大限度地减少生成错误

Model Merging

  • 模型融合已成为提高大语言模型在训练和推理阶段性能和效率的重要后训练策略 (2024; 2024)
  • 模型融合将专门的模型整合到一个统一的架构中,避免了大规模重新训练的需求,并解决了大型模型尺寸和计算需求带来的挑战
  • 模型融合将单任务模型整合为一个能够执行多任务的整体(这与在合并的数据集上训练不同),为多任务学习提供了一种资源高效的范式
  • 通过简化训练流程并促进开发在各种应用中具有强大泛化能力的通用模型,该技术优化了大语言模型在不同场景中的部署
  • 给定一组候选模型 \(M = \{M_{1}, M_{2}, …, M_{n}\}\),目标是设计一个融合函数 \(F_\text{merge}\),生成一个统一的模型 \(M’\),可能以基础模型 \(M_{1}\) 为锚点,如下所示:
Model Merging at Hierarchical Levels
  • 模型融合技术系统地分为三个层级(如图21所示):
    • 权重级(weight-level merging)
    • 输出级(output-level merging)
    • 模型级融合(model-level merging)
  • 权重级模型融合(Weight-Level Model Merging) :权重级融合直接操作参数空间 ,使其特别适用于具有相似架构或在相关任务上训练的模型
    • 形式上,给定参数集 \(\theta_{1}, \theta_{2}, …, \theta_{n} \in \mathbb{R}^{d}\),线性融合方案将这些参数集聚合为一个统一的集合 \(\theta’\),表示为:
      $$\theta’=\alpha_{1} \theta_{1}+\alpha_{2} \theta_{2}+…+\alpha_{n} \theta_{n}, \\
      \text{ subject to }\quad \alpha_{k} \geq 0, \sum_{k=1}^{n} \alpha_{k}=1$$
    • Model Soup (2022; 2020) 是一个权重级模型融合例子
      • Model Soup 通过线性组合在不同任务上微调的模型的权重,生成一个单一、高效的模型
    • Task Arithmetic(TA)(2022) 通过参数的算术运算扩展了这种灵活性,提高了性能适应性
    • TIES-merging (2024) 确保参数一致性(为了减轻对齐问题)
    • DARE (2024) 通过概率性地调整参数增量来最小化干扰,优化融合过程的连贯性和效率
  • 输出级模型融合(Output-Level Model Merging) :当模型在架构或初始化方面存在差异 ,使得权重级方法不可行时,输出级融合变得有利
    • 输出级模型融合方法聚合输出分布而不是内部参数,表示为:
      $$ y’=\alpha y_{1}+(1-\alpha) y_{2}, \alpha \in[0,1] $$
      • 其中 \(y_{1}\) 和 \(y_{2}\) 分别表示模型 \(M_{1}\) 和 \(M_{2}\) 的概率分布
      • 与集成策略类似,这种方法将模型预测合成为一个统一的输出
    • LLMBlender (2023) 通过生成独立输出并通过排序和生成过程将其融合来实现这一点
    • FuseLLM (2024) 将组合的输出概率蒸馏到单个网络中,以实现分布保真度
    • FuseChat (2024) 通过将知识从多个大语言模型转移到一个整合的目标中,架起了权重级和输出级融合之间的桥梁,增强了跨模型协同作用
  • 模型级模型融合(Model-Level Model Merging) :模型级融合通过路由机制整合子模型或层 ,通常在 MoE 框架内 ,表示为:
    $$ M’=\text{Merge}\left(M_{1}, M_{2}\right) $$
    • 其中 Merge 表示硬路由或软路由函数
    • Switch Transformer (2022) 采用离散门控来选择性地激活专家层,减少计算负载,尽管由于刚性路由可能会有潜在的性能权衡
    • SoftMoE (2023) 和 SMEAR (2023) 利用连续门控促进专家之间更平滑的过渡,增强组件集成和模型凝聚力
Pre-Merging Methods
  • Pre-Merging Methods 通过优化独立模型的权重空间、架构一致性和参数对齐,为模型融合建立兼容性基础,从而最大限度地减少后续融合阶段的冲突和干扰
  • 这些技术提高了融合过程的有效性,确保得到的统一模型保留其组成部分的优势,同时减轻潜在的性能下降
  • 线性化微调(Linearization Fine-tuning) :
    • 这种方法在预训练模型的切空间内优化模型,避开原始的非线性参数空间,以实现权重解耦,减少融合过程中的干扰
    • 诸如适配器(例如 TAFT (2023))或注意力层 (2024) 的部分线性化技术将权重更新对齐到不相交的输入区域,在融合模型中保留独立功能 (2023)
    • 通过将更新约束在一个线性化框架内,这种方法促进了不同模型之间的无缝集成
  • 架构转换(Architecture Transformation) :
    • 该策略将具有不同架构的异构模型转换为适合直接参数融合的同构形式
    • 方法包括知识蒸馏,如 FuseChat (2024) 所示,以及身份层插入,如 CLAFusion (2021)
    • GAN Cocktail (2021) 初始化目标模型以吸收来自不同架构的输出,实现跨越结构差异的统一融合过程
  • 权重对齐(Weight Alignment) :这种方法通过排列将模型对齐到共享的权重域,利用线性模式连接(Linear Mode Connectivity, LMC)特性来提高兼容性
    • 技术包括最优传输(OTFusion (2019))、启发式匹配(Git re-basin (2022))和基于学习的对齐(DeepAlign (2021))
    • REPAIR (2022) 减轻了缺乏归一化层的模型中的对齐失败,确保在融合前参数能够稳健收敛
During-Merging Methods
  • During-Merging Methods 专注于动态优化参数融合策略,以解决任务冲突、减轻干扰,并提高所得融合模型的性能和泛化能力
  • 这些方法实时处理整合不同模型的挑战,增强统一架构的适应性和稳健性
  • 基本融合(Basic Merging) :
    • 这种方法利用简单的参数平均或任务向量算术,将任务向量 \(\tau_{t}\) 定义为第 \(t\) 个任务的微调参数 \(\Theta^{(t)}\) 与初始预训练参数 \(\Theta^{(0)}\) 之间的偏差:
      $$\tau_{t}=\Theta^{(t)}-\Theta^{(0)}$$
    • 并通过公式 \(\Theta^{(\text{merge} )}=\Theta^{(0)}+\lambda \sum_{t=1}^{T} \tau_{t}\) 促进多任务学习 (2022)
    • 这种方法计算效率高且概念简洁,但经常遇到由于未减轻的参数相互作用导致的任务干扰,限制了其在需要复杂任务协调的场景中的实用性
  • 加权融合(Weighted Merging) :
    • 该策略根据各个模型的重要性动态分配融合系数,定制贡献以优化融合结果
    • MetaGPT (2024) 通过归一化每个任务向量的平方 L2 范数来计算最优权重:
      $$\lambda_{t}^{*}=\frac{\left| \tau_{t}\right| ^{2} }{\sum_{k=1}^{T}\left| \tau_{k}\right| ^{2} }$$
      • 从而为参数变化更大的任务分配更大的影响,如更高的 \(\left|\tau_{t}\right|^{2}\) 所示
    • SLERP (2024) 采用球面插值确保参数的平滑过渡,保留模型连续性
    • 分层 AdaMerging (2024) 通过在每层粒度上优化系数来改进此过程,提高融合架构内的任务特定精度
  • 子空间融合(Subspace Merging) :
    • 这种方法将模型参数投影到稀疏子空间中 ,以最大限度地减少干扰,同时保持计算效率,解决参数贡献的重叠问题
    • TIESMerging (2024) 保留按幅度排列的前 20% 参数,解决符号冲突以保持连贯性
    • DARE (2024) 缩放稀疏权重以减少冗余
    • Concrete (2023) 利用双层优化来构建自适应掩码,确保模型组件的精细集成,减少跨任务干扰
  • 基于路由的融合(Routing-based Merging) :
    • 该技术根据输入特定属性动态融合模型,实现上下文响应式集成过程
    • SMEAR (2023) 计算依赖于样本的专家权重以优先考虑相关特征
    • Weight-Ensembling MoE (2024) 采用输入驱动的线性层路由进行选择性激活
    • Twin-Merging (2024) 融合任务共享和任务私有知识,培养灵活的融合框架,适应不同的输入需求并增强多任务稳健性
  • 融合后校准(Post-calibration) :
    • 这种技术通过将统一模型的隐藏表示与独立组件的隐藏表示对齐来纠正融合后的表示偏差,减轻性能下降
    • Representation Surgery (2024) 就是一个例子,它通过改善表示一致性来增强融合模型的稳健性和准确性

Datasets

  • 后训练技术经过精心设计,旨在提高 LLM 对特定领域或任务的适应性,而数据集是这一优化过程的基石
  • 对以往研究的深入考察 (2024; 2024) 强调,数据的质量、多样性和相关性对模型效能有着深远影响,往往决定了后训练工作的成败
  • 为了阐明数据集在这一背景下的关键作用,论文对后训练阶段所使用的数据集进行全面回顾和深入分析,并根据其收集方法将其分为三大类
    • 人工标注数据
    • 蒸馏数据
    • 合成数据
  • 这些类别反映了数据整理的不同策略,模型要么采用单一方法,要么采用融合多种类型的混合方法,以在可扩展性、成本和性能之间取得平衡
  • 表9详细概述了这些数据集类型,包括它们的来源、规模、语言、任务和后训练阶段(如 SFT 和 RLHF ),论文将在后续章节中探讨它们在提升大语言模型能力方面的贡献和面临的挑战

Human-Labeled Datasets

  • 人工标注数据集以其极高的准确性和语境保真度著称,这些特性源于标注者对任务复杂性的细致理解,以及他们做出精确、符合语境调整的能力

  • 这些数据集是优化 Instruction Tuning 的基石,通过提供高质量、专业整理的训练信号,显著提升大语言模型在各类任务中的性能

  • 在这一类别中,Flan (2021)、P3(Public Pool of Prompts)(2021)、Sup-Natinst(Super-Natural Instructions)(2022) 和 Dolly-15K (2023) 等著名示例成为大语言模型后训练中广泛采用的资源,每一种都通过人类专业知识为模型能力的优化做出了独特贡献

  • 用于监督微调的人工标注数据 :在监督微调阶段,人工标注数据集发挥着不可或缺的作用,Flan、Sup-Natinst 和 Dolly-15K 的贡献就体现了这一点,它们提供精心设计的提示-响应对和特定任务指令,以提高大语言模型在各种自然语言处理基准测试中的效能

    • Flan :
      • Flan 数据集 (2021) 是一项基础性资源,最初包含 62 个广为人知的自然语言处理基准测试,如 HellaSwag (2019)、MRPC (2005) 和 ANLI (2019),通过 1800K 个示例促进强大的多任务学习
      • 最近,FlanV2 (2023) 作为一个高级迭代版本出现,它整合了 Flan (2021)、P3 (2021)、Sup-Natinst (2022) 以及大量其他数据集,形成一个连贯、全面的语料库,从而增强了其在各种语言和任务领域的监督微调效用
    • Sup-Natinst :
      • 超级自然指令(Super-Natural Instructions,Sup-Natinst)(2022) 提供了涵盖 55 种语言的 76 种任务类型,是多语言大语言模型后训练的多功能资源
      • 每个任务都与一个指令精心配对,该指令包括清晰的任务定义(概述从输入文本到期望输出的映射)和一组示例,这些示例既展示正确响应也展示错误响应,为引导模型实现精确的任务执行和增强跨语言适应性提供了坚实框架
    • Dolly-15k :
      • 由 Databricks 员工开发的 Dolly-15K (2023) 是一个精心整理的语料库,包含 15,000 个高质量的人工生成提示-响应对,专门设计用于大语言模型的 Instruction Tuning
      • 它涵盖广泛的主题和场景,包括头脑风暴、内容生成、信息提取、开放式问答和摘要,反映了丰富多样的任务类型,使模型能够灵活适应各种指令语境,并提高语境相关性
  • 上述语料库充分体现了人工标注数据集在监督微调中的效力,即广泛覆盖各种任务和场景

  • 除上述语料库外:

    • OpenAssistant (2023) 提供了一个庞大的多语言对话语料库,该语料库源自全球众包工作,可免费用于推进研究工作
    • OpenOrca (2023) 通过数百万个 GPT-3.5 和 GPT-4 完成内容扩展了 FlanV2 (2023),成为一个动态扩展的微调与任务对齐资源
    • 尽管这些数据集对模型泛化能力有显著贡献,但确保标注质量和多样性的一致性仍然是一项挑战,因此需要严格的质量控制以最大限度地发挥它们的作用
  • 用于 RLHF 的人工标注数据 :对于 RLHF,P3、其多语言扩展版本 xP3 (2022) 和 SHP (2021) 等人标注数据集提供了必要的人工标注评估,这些评估完善了大语言模型与用户偏好的对齐,为奖励建模提供了细致的反馈机制

    • P3 :
      • P3 数据集 (2021) 是一个精心整理的 Instruction Tuning 资源
      • 它从 Hugging Face Hub 聚合了 23000K 个多任务提示
      • 每个提示都配有手工编写的指令,涵盖各种自然语言处理任务,从而为 RLHF 提供丰富基础,以提高大语言模型在各种应用中的适应性和精确性
    • xP3 :
      • xP3(Crosslingual Public Pool of Prompts)(2022) 将 P3 扩展到多语言框架,包含 46 种语言和 16 种自然语言处理任务的提示和监督数据,旨在支持 BLOOMZ 和 mT0 等模型的多任务提示微调
      • 其内容整合了英文 P3 数据集、四个新的英文任务(如翻译、程序合成)以及 30 个多语言自然语言处理数据集,为跨语言 RLHF 优化提供全面资源
    • SHP :
      • SHP (2021) 包含 349,000 个人类偏好标注,这些标注针对 18 个学科领域的问题和指令的响应,评估响应的有用性,用于训练 RLHF 奖励模型和评估自然语言生成(NLG)质量
      • 与 HH-RLHF 等混合数据集不同,它的独特之处在于完全依赖人类创作的数据
  • 这些数据集通过提供多样化的人工标注评估,完善了 RLHF,使模型更好地与用户偏好对齐

  • OpenAI Summarization (2021) 和 Webgpt (2021) 提供基于比较的结构化反馈和李克特量表评分,有助于使模型输出更符合人类期望

  • HH-RLHF (2022) 通过包含对有用性和无害性的评估进一步强化了这一框架,为旨在确保安全和符合伦理的响应的模型奠定了坚实基础

  • StackExchange (2023) 贡献了特定领域的用户生成内容,丰富了训练数据,尤其有利于需要技术领域专业知识的模型

  • 但这些数据集面临着可扩展性、人工标注可能存在的偏差以及超出特定领域的适用性有限等挑战

  • 因此,尽管它们很有价值,但可能需要补充更广泛的数据集,以实现模型在各种现实世界任务中的全面对齐

Distilled Dataset

  • 蒸馏数据源于将庞大的原始数据集精炼为紧凑、优化的子集的复杂过程,这些子集保留了大语言模型训练所需的关键信息,在保持性能的同时提高了训练效率并降低了计算需求
  • 这种方法产生的数据集在效能上常常媲美甚至超越未精炼的数据集,加速模型收敛并减少资源消耗,尤其在 RLHF 阶段
  • ShareGPT (2023) 和 HC3(Human-ChatGPT Comparison Corpus)(2023) 是关键示例,它们通过提炼现实世界交互和比较见解,成为大语言模型微调的广泛采用的资源,提供可操作的训练信号
  • ShareGPT
    • ShareGPT (2023) 是一个动态数据收集平台,通过其 API 聚合了大约 90,000 个对话,这些对话来自用户与 ChatGPT 或 GPT-4 的真实交互
    • 它包含真实的人类指令和查询以及相应的人工智能响应,将自然对话模式提炼为集中资源,使 RLHF 能够完善大语言模型的对话流畅性和语境响应能力,具有高度的相关性和质量
  • HC3 :
    • HC3 数据集 (2023) 专门设计用于对比 ChatGPT 生成的响应与人类编写的答案,包含 161,000 个问答对,涉及开放式话题、金融、医学、法律和心理学等领域
    • 这个经过提炼的语料库便于对响应特征和质量进行比较分析,使研究人员能够在 RLHF 期间提高大语言模型输出的真实性和特定领域准确性,同时突出人类与人工智能生成内容之间的差异

Synthetic Datasets

  • 合成数据是大语言模型后训练的监督微调阶段的变革性资产,它通过人工智能模型生成,为人工标注数据集提供了具有成本效益、可扩展且保护隐私的替代方案
  • 通过自动创建指令-响应对和对话,合成数据能够构建庞大的训练语料库,提高模型的适应性
    • Self-Instruct-52K (2022)、Vicuna (2023) 和 Baize (2023) 是广泛用于增强大语言模型指令遵循和对话生成能力的主要示例
  • 基于 Self-Instruct 方法的数据集(Datasets Based on the Self-Instruct Method) :
    • 采用 Self-Instruct Method 的合成数据集从一小组手工编写的种子示例开始,利用大语言模型生成大量指令遵循数据,提高模型对各种指令的响应能力,Self-Instruct-52K、Alpaca 和 Magpie 系列就是这种方法的体现,它们通过可扩展自动化推进 Instruction Tuning
    • Self-Instruct-52K :
      • Self-Instruct-52K (2022) 为指令遵循模型建立了基准,它使用各种提示模板从手工编写的种子中生成 52,000 个示例,引导大语言模型更精确、一致地解释和执行特定任务指令
    • Alpaca :
      • Alpaca (2023) 和 Alpaca-GPT4 (2023) 分别使用 GPT-3 和 GPT-4 将初始的 175 个种子对扩展为 52,000 个高质量指令-响应对,提高了指令遵循能力;
      • InstInWild (2023) 为多语言语境调整了这种方法,生成英文和中文数据集,增强跨语言适应性
    • Magpie 数据集(Magpie Datasets) :Magpie 数据集 (2024) 利用对齐的大语言模型从预定义模板生成指令-响应对,产生了专门的系列,如:
      • 强调思维链推理的 Magpie Reasoning V2
      • 针对流行模型的 Magpie Llama-3 和 Qwen-2 系列
      • 适用于 Gemma 架构的 Magpie Gemma-2
      • 包含偏好优化信号的 Magpie-Air-DPO 等变体
    • 通过这些数据集共同增强了对话和推理任务的监督微调与 Instruction Tuning
    • 除此之外,下面的数据集显著扩大了指令生成的规模
      • Unnatural Instructions (2022):240K examples
      • Evol-Instruct (2023):通过迭代复杂度增强得到 70K-143K refined entries
      • Belle (2023):来自 ChatGPT 的 500K-1100K 中文对话)
      • 然而,质量保证、复杂度校准和偏差缓解方面的挑战仍然存在,需要持续改进以确保在复杂应用中的可靠性
  • 基于 Self-Chat 方法的数据集(Datasets Based on Self-Chat Methods) :
    • Self-Chat 数据集采用模型在内部或与同伴模拟多轮对话的技术,提高对话生成能力并弥补现有语料库的不足,Baize、UltraChat 和 OpenHermes 通过自动化交互策略体现了这种方法
    • Baize :
      • Baize (2023) 利用 ChatGPT 的 Self-Chat 技术生成 653,000 个多轮对话,整合来自 Quora、Stack Overflow 和 Alpaca 的种子数据以提高指令遵循质量,从而完善大语言模型的对话连贯性和任务遵循能力,用于监督微调
    • UltraChat :
      • UltraChat (2023) 利用多个 ChatGPT API 生成超过 12M 个高质量对话记录,涵盖各种主题,克服了多轮数据集普遍存在的质量低下和标注不准确等问题,为对话增强提供了强大的监督微调资源
    • Openhermes :
      • 由 Teknium 开发的 OpenHermes 包括 OpenHermes-1 (2023)(243K entries)及其扩展版本 OpenHermes-2.5 (2023)(1M entries),提供高质量的监督微调数据集,具有更大的体量和多样性,涵盖广泛的主题和任务类型,以提高对话和指令遵循能力
    • 这些 Self-Chat 数据集使模型能够通过自交互生成多轮对话,如 Baize 利用具有各种种子的 ChatGPT 以及 UltraChat 利用广泛的 API 驱动对话,显著提高了对话质量并填补了训练数据可用性的关键空白
  • 基于真实用户交互的数据集(Datasets Based on Real User Interactions) :
    • 源自真实用户交互的数据集利用与大语言模型的真实对话交换,捕捉多样化和真实的输入,以提高模型处理现实世界场景的能力,Vicuna、WildChat 和 GenQA 是这种方法的主要示例
    • Vicuna :
      • Vicuna (2023) 在从 ShareGPT 的公共 API 共享的大约 70,000 个用户对话上进行微调,通过将 HTML 转换为 markdown、过滤低质量样本以及分割冗长对话以适应模型语境长度来处理这些对话,确保高质量的监督微调数据用于真实交互建模
    • WildChat :
      • WildChat (2024) 包含 1M 个真实世界的 User-ChatGPT 交互,涵盖多种语言和提示类型,具有模糊请求和语码转换等独特交流方式,既作为监督微调资源,又作为分析用户行为的工具
    • GenQA :
      • GenQA (2024) 提供超过 10M 个经过清理和过滤的指令样本的庞大监督微调数据集,这些样本完全由大语言模型生成,无需人工输入或复杂流程,通过快速生成合成数据来弥补覆盖空白,补充现有语料库
    • 与人工标注数据集相比,合成数据在成本、可扩展性和隐私方面具有优势,但在深度和真实性方面可能存在不足,存在偏差传播和过度简化的风险
    • 依赖人工智能生成内容可能会延续模型固有的错误,这凸显了整合合成数据和人工生成数据以提高大语言模型在各种语境中的稳健性和适用性的必要性

Applications

  • 尽管预训练赋予了 LLM 强大的基础能力,但在专业领域部署时,它们常常面临一些持续存在的局限性,比如上下文长度受限、容易产生幻觉、推理能力欠佳以及存在固有偏见等
  • 这些缺陷在现实应用中尤为关键,因为精准性、可靠性和伦理一致性至关重要。这引发了一些核心问题:
    • (1)如何系统性地提升大语言模型的性能以满足特定领域的需求?
    • (2)有哪些策略能有效缓解实际应用中存在的固有障碍?
  • 后训练作为一项关键解决方案,通过优化大语言模型对特定领域术语和推理模式的识别能力,同时保留其广泛的综合能力,从而增强了它们的适应性
  • 本章将阐述后训练大语言模型在专业、技术和交互领域的变革性应用,详细说明定制化的后训练方法如何应对这些挑战,并提升模型在不同场景中的实用性

Professional Domains

  • 法律助手(Legal Assistant) :法律领域是利用后训练赋予大语言模型专业知识的典型场景,能让它们应对法学领域的复杂知识体系,并解决法学中固有的多方面挑战
    • 大量研究 (2023; 2023; 2023) 探讨了大语言模型在法律领域的应用,涵盖法律问答 (2023; 2023)、判决预测 (2021; 2022)、文档摘要 (2023; 2024) 以及更广泛的任务,如检索增强和司法推理 (2024; 2024; 2024)
    • 经过后训练的法律助手,如 LawGPT (2024) 和 Lawyer-LLaMA (2023),已展现出卓越的能力,不仅能在各种法律事务中提供可靠指导,还能在专业资格考试中取得成功,这充分证明了它们具备先进的解释和分析能力
    • LexiLaw (2023) 和 SAUL (2024) 等模型支持多语言,包括英语和中文,进一步扩大了其应用范围
    • 这些进步的核心在于对精心整理的法律语料库进行后训练 ,例如 ChatLaw (2023),它将大量法律文本整合到对话数据集中 ,使模型能够优化自身的推理能力和术语识别能力
  • 医疗健康(Healthcare and Medical) :后训练显著提升了大语言模型在医疗健康领域各类应用中的性能,这些模型利用特定领域的数据,精准满足临床和学术需求
    • 在临床环境中,大语言模型助力完成药物发现 (2022)、药物协同预测 (2024)、催化剂设计 (2023)、诊断支持、医疗记录生成和患者交互等任务;
    • 在学术领域,通过定制化的后训练,大语言模型在医疗报告合成 (2023) 和问答 (2024) 等方面表现出色。例如
      • ChatMed (2023) 基于 500K 条医疗咨询记录进行优化,展现出更高的诊断和咨询准确性;
      • PULSE (2023) 则使用涵盖中文医疗和通用领域的 4000K 条指令进行微调,展现出卓越的多任务处理能力
    • 这些模型通过后训练获得的适应性,将复杂的医学知识融入其中,其性能优于通用模型,这凸显了定制化数据集在实现实际应用价值方面的不可或缺性
    • 这些进步不仅提高了特定任务的成果,还为将大语言模型整合到医疗工作流程铺平了道路,在这些流程中,精准性和语境相关性至关重要,充分体现了后训练对实际医疗应用的变革性影响
  • 金融经济(Finance and Economics) :在金融和经济领域,大语言模型在情感分析 (2024)、信息提取 (2023) 和问答 (2023) 等任务中展现出巨大潜力,而后训练通过特定领域的优化进一步提升了它们的效能
    • FinGPT (2023) 和 DISC-FinLLM (2023) 等专业模型在经过金融语料库的后训练后,在那些需要深入理解市场动态和专业术语的任务中表现比基础模型更出色
    • XuanYuan (2023) 利用大量金融数据集和先进的后训练技术,提高了经济建模和预测的准确性,其性能超过了未经过微调的基准模型
    • 这些发展表明,后训练在使大语言模型适应金融应用的复杂需求方面发挥着关键作用,因为在金融领域,精准解读定量数据和定性见解至关重要,这确保了模型能够提供可靠、符合行业标准和预期的特定领域输出
  • 移动 Agent(Mobile Agents) :大型多模态模型(LMM)的发展推动了一个新兴的研究领域,即基于大型多模态模型的图形用户界面(graphical user interface,GUI)Agent 研究 (2024)
    • 该领域旨在开发能够在各种图形用户界面环境中执行任务的人工智能助手,包括网页界面(Web Interfaces) (2023; 2024; 2024; 2024; 2024)、个人计算平(personal computing platforms) (2023; 2024; 2024; 2024; 2024) 和移动设备(Mobile Devices) (2024; 2024; 2024; 2024; 2024)
    • 在移动领域, (2024) 通过工具整合和额外的探索阶段 (2024; 2024) 提升了单个 Agent 的感知和推理能力
    • 一些研究采用多 Agent 系统进行决策和反思 (2024; 2024),展现出巨大潜力,从而提高了任务效能
    • 值得注意的是,MobileAgent-E (2025) 在 Agent 之间引入了层次结构,促进了强大的长期规划,并提高了低级别动作的精度
    • 这些进展凸显了多模态后训练策略在培养适应性强、高效的移动环境 Agent 方面的变革性作用

Technical and Logical Reasoning

  • Mathematical Reasoning :大语言模型在数学推理方面展现出巨大潜力,涵盖代数运算、微积分和统计分析等领域,而后训练在缩小计算能力与人类水平能力之间的差距方面起着关键作用
    • GPT-4 (2023) 在标准化数学评估中取得高分,这得益于其多样化的预训练语料库,而后训练进一步优化了这一能力
    • DeepSeekMath (2024) 利用专门的数学数据集和 SFT、 GRPO (2024) 等技术,提高了推理精度,能够运用结构化的思维链(CoT)解决复杂问题
    • OpenAI 的 o1 (2024) 通过 RL 在这一领域取得进展,不断优化推理策略,在多步骤推导和证明中实现更优异的性能
    • 通过后训练进行的持续优化不仅提高了准确性,还使大语言模型的输出更符合严谨的数学逻辑,使它们成为教育和研究领域的宝贵工具,因为在这些领域中,高级推理至关重要
  • Code Generation :后训练彻底改变了代码生成领域,赋予大语言模型在自动编码、调试和文档编制方面的卓越能力,从而改变了软件开发流程
    • Codex (2021) 在庞大且多样化的代码库上进行训练,是 GitHub Copilot 的基础,能够提供实时编码辅助,且准确性极高
    • Code Llama (2023) 这样的专业模型通过在特定编程数据集上进行后训练,进一步优化了这一能力,能为不同语言和框架的开发者提供帮助
    • OpenAI 的 o1 (2024) 将其数学推理能力扩展到代码生成领域,生成高质量、符合语境的代码片段,其质量可与人类输出相媲美
    • 当前的研究重点包括增强个性化、加深语境理解以及嵌入伦理保障措施,以降低代码滥用等风险,确保大语言模型在技术领域最大限度地提高生产力,同时遵循负责任的开发原则

Understanding and Interaction

  • 推荐系统(Recommendation System) :大语言模型已成为推荐系统领域的变革性力量,它们通过分析用户交互、产品描述和评论,以前所未有的精细度提供个性化建议 (2023; 2023; 2024)
    • 后训练增强了它们整合情感分析的能力,使其能够细致理解内容和情感内涵,GPT-4 (2023) 等模型以及 LLaRA (2024) 和 AgentRec (2024) 等专门系统就体现了这一点
    • 亚马逊和淘宝等电子商务巨头利用这些能力处理评论情感、搜索查询和购买历史,优化客户偏好模型,并高度精准地预测用户兴趣 (2023)
    • 除了对物品进行排名外,经过后训练的大语言模型还能参与对话式推荐、规划和内容生成,通过提供动态、符合语境的交互来提升用户体验,这些交互能适应不断变化的偏好,这充分证明了后训练在将数据分析与实际应用价值相结合方面的作用
  • 语音对话(Speech Conversation) :经过后训练的大语言模型重新定义了语音处理,将识别、合成和翻译的自然度和准确性提升到前所未有的水平 (2024)
    • 这些模型能处理文本转语音 (2023)、文本转音频生成 (2023) 和语音识别 (2018) 等任务,为亚马逊 Alexa、苹果 Siri 和阿里巴巴天猫精灵等广泛使用的工具提供支持
    • Whisper (2023) 在高保真转录方面表现出色
    • GPT-4o (2024) 引入了实时语音交互,无缝整合多模态输入
    • 未来的发展方向包括多语言翻译和个性化语音合成,后训练将优化大语言模型,以打破语言障碍,并根据用户个人资料定制响应,在全球范围内增强人机交互的可访问性和参与度
  • 视频理解(Video Understanding) :将大语言模型扩展到视频理解领域是一项重要的前沿进展,后训练使 Video-LLaMA (2023) 等模型能够执行字幕生成、摘要和内容分析等任务,简化了多媒体创作和理解过程
    • Sora (2024) 进一步革新了这一领域,它能根据文本提示生成复杂视频,通过降低技术壁垒和促进创新叙事,使内容创作大众化
    • 这些进展利用后训练使大语言模型适应视觉-时间数据,提高了它们在从教育到娱乐等各种应用中的解释深度和实用性
    • 但它们也带来了计算可扩展性、隐私保护和伦理治理等方面的挑战,特别是在生成内容的滥用方面
    • 随着后训练方法的不断发展,解决这些问题对于确保在视频相关应用中实现可持续、负责任的部署至关重要,在推动创新的同时兼顾社会考量

Open Problems and Future Directions

  • 在本节中,论文批判性地评估了 LLM 后训练方法中尚未解决的挑战和未来的发展方向,并结合 OpenAI 的 o1 (2024) 和 DeepSeek-R1 (2025) 的发布所带来的变革性进展进行分析
  • 这些模型利用大规模 RL 重新定义了推理基准,然而,它们的出现也凸显了迫切需要解决后训练技术中存在的固有局限性
  • 以下小节将阐述六个关键的开放问题,每个问题都强调了其对该领域发展的关键重要性以及解决这些问题的迫切性,同时还提出了推动未来研究并确保大语言模型在各种应用中负责任发展的可行策略

Reasoning Enhancement Beyond Large-Scale RL

  • o1 和 DeepSeek-R1 的推出标志着大语言模型推理能力的范式转变,它们利用广泛的强化学习框架(如 RLHF 和 GRPO)在数学证明和逻辑推导等多步骤问题解决中实现了前所未有的准确性。但对二元奖励信号和大量人类反馈的依赖暴露出一个关键局限性:它们在科学假设生成或动态环境中的战略决策等复杂、开放式任务中难以有效泛化
  • 随着对大语言模型在现实世界场景中模拟人类推理的需求日益增长,这一差距变得愈发紧迫,而其重要性在于释放大语言模型作为自主智能代理的潜力,使其超越当前的基准测试
  • 当前的强化学习方法在奖励稀疏性方面存在不足 ,且难以适应任务复杂性 ,因此需要创新框架
  • 可行的解决方案包括开发多目标强化学习系统 ,这些系统整合自监督一致性检查(例如,验证推理步骤之间的逻辑连贯性)和特定领域的先验知识,如数学公理或科学原理,以在无需详尽人工标注的情况下指导推理 (2024; 2025)
  • 这些进展可能减少对昂贵反馈循环的依赖,提高可扩展性,并使大语言模型能够应对未知的推理领域,DeepSeek-R1 的冷启动强化学习创新就证明了这一前景的可行性

Scalability of Post-Training for Next-Generation LLMs

  • 随着大语言模型的规模和复杂性不断增加(下一代模型的参数密集型架构就是例证),后训练的可扩展性成为一项艰巨且紧迫的挑战
  • 像 DeepSeek-R1 的冷启动方法等基于强化学习的方法需要大量计算基础设施,这限制了资金充足的机构的使用(restricts accessibility to well-funded entities),并引发了重大的可持续性问题,特别是在多模态应用(如视频分析)和实时系统(如对话代理)中
    • 问题:是不是笔误,是限制了资金不充足的机构使用吧?
  • 这个问题至关重要,因为它可能扩大资源丰富和资源有限的研究社区之间的差距,阻碍大语言模型开发的公平进展
  • 虽然参数高效微调(PEFT)(2021) 减轻了一些开销,但其性能在大规模数据集上常常下降,这凸显了对可扩展替代方案的需求
  • 可行的未来方向 (2024; 2024; 2024) 包括设计轻量级强化学习算法(可能为降低内存占用而调整 GRPO)、联邦后训练框架(在去中心化网络中分配计算负载)以及先进的蒸馏技术(在最小化资源需求的同时保留推理和适应能力)
  • 如果这些解决方案得以实现,可能会使后训练民主化,符合该领域对可持续和包容性创新的迫切需求

Ethical Alignment and Bias Mitigation in RL-Driven Models

  • 正如 o1 的谨慎对齐策略所展示的,通过强化学习进行后训练会放大伦理风险,因为它可能强化训练数据(如 HH-RLHF (2022) 或合成语料库)中嵌入的偏差
  • 在医疗诊断和司法决策等敏感领域部署大语言模型时,这一挑战尤为紧迫
  • 伦理对齐的动态可变性(在一种文化背景中公平的内容在另一种文化背景中可能构成偏差)为实现普遍值得信赖的大语言模型带来了重大障碍,这一问题对于确保人工智能系统的公平性和安全性至关重要
  • 当前的方法可能过度审查(损害实用性,如抑制创造性输出)或校正不足(延续有害偏差,如种族或性别差异)
  • 解决这一问题需要开发公平感知强化学习目标,整合多利益相关者偏好模型(如聚合多样化的人类判断)和对抗性去偏技术,以在训练过程中消除数据集偏差
  • 这些方法的可行性 (2024) 得到了可解释性工具和多目标优化方面最新进展的支持,能够在伦理稳健性和实际功能之间取得平衡,o1 在现实世界部署中面临的挑战也凸显了这一必要性

Seamless Multi-Modal Integration for Holistic Reasoning

  • 向多模态大语言模型的发展趋势(o1 的推理增强和 GPT-4o (2024) 的合成能力预示了这一趋势)凸显了对后训练方法的迫切需求,这些方法需要无缝整合文本、图像、音频和其他数据类型,以实现整体推理
    • 这一能力对于实时视频分析、增强现实和跨模态科学探究等应用至关重要
  • 由于数据异质性和全面多模态训练语料库的稀缺性,当前方法难以实现强大的跨模态对齐,限制了大语言模型连贯推理各种输入的能力
  • 这一挑战的重要性在于其有潜力释放变革性应用,但其解决离不开可扩展框架
  • DeepSeek-R1 的冷启动强化学习提供了一个有前景的起点,表明统一的模态编码器(如能够将异构数据编码到共享潜在空间的编码器)和动态强化学习策略(能够自适应地权衡模态贡献)可能弥合这一差距
  • 未来的研究应优先创建多模态基准和合成数据集(基于 Magpie (2024) 等工作)以推动进展,鉴于多模态预训练和强化学习优化方面的最新进展,这一努力是可行的

Context-Adaptive Trustworthiness Frameworks(可信度框架)

  • 人们日益认识到,后训练大语言模型的可信度是一个动态的、依赖于上下文的属性,而非静态品质,o1 在教育等敏感领域的谨慎输出与在创造性任务中的自由响应就体现了这一点
  • 这种可变性(安全要求,如在教育环境中避免错误信息,可能与实用性需求,如在写作中培养创造力相冲突)带来了一项紧迫挑战,因为它对用户信任和大语言模型在各种现实场景中的适用性至关重要
  • 当前的后训练方法往往过度优先考虑安全性,导致实用性权衡(降低实际价值),或无法适应特定上下文需求(损害可靠性)
  • 解决这一问题需要上下文敏感的强化学习模型 ,这些模型动态调整安全-效用权衡,利用实时用户反馈和可解释的安全指标(如生成输出的透明度分数)确保适应性
  • 这一方法的可行性 (2024) 得到了自适应学习系统和实时监控方面进展的支持,为平衡可信度和功能性提供了途径,随着 o1 等大语言模型扩展到高风险应用,这一需求变得愈发迫切

Accessibility and Democratization of Post-Training Innovations

  • 先进后训练方法的计算密集性(以 DeepSeek-R1 的强化学习驱动方法为代表)将其应用限制在资源丰富的实体中,这对可访问性构成了紧迫障碍,扼杀了小型研究社区和行业部门的创新(即这一问题对于在人工智能领域促进公平进展至关重要)
  • 这种排他性不仅限制了贡献的多样性,还阻碍了该领域协作应对全球挑战的能力
  • 实现这些创新的民主化需要开发高效、开源的工具和框架,在不牺牲质量的情况下降低入门门槛,比如:
    • 对强化学习的参数高效微调(PEFT)(2021) 适应性调整
    • 共享后训练模型的协作平台(如 Hugging Face hubs)
    • 类似于 Magpie (2024) 的简化合成数据生成 Pipeline
  • 未来的努力应专注于优化这些解决方案以实现广泛采用,确保后训练的变革潜力(以 o1 和 DeepSeek-R1 为代表)超越精英机构,丰富更广泛的人工智能生态系统

Creative Intelligence & System 2 Thinking

  • 将创造性智能整合到 System 2 推理中是大语言模型发展的一个新兴前沿,相关研究强调了这一点 (2025)
    • 注:System 2 Thinking 即 “系统二思维”,是一种源于心理学的概念,由诺贝尔奖得主丹尼尔・卡尼曼(Daniel Kahneman)在其著作《思考,快与慢》中提出。它代表着人类认知中缓慢、深思熟虑、善于分析的部分,与快速、直觉的系统一思维相对应
  • 虽然 OpenAI 的 o1 和 DeepSeek 的 R1 等推理大语言模型在刻意的、逐步的逻辑分析(模拟 System 2 思维)方面表现出色,但它们在创造性智能(包括生成新颖想法、综合不同概念以及灵活适应非结构化问题)方面的能力仍未得到充分探索
  • 这一差距至关重要,因为创造性智能是诸如艺术创作、科学发现和战略创新等领域人类水平问题解决的基础,在这些领域,僵化的逻辑框架 alone 是不够的
  • 应对这一挑战的紧迫性在于有潜力将大语言模型从分析工具提升为自主创造性 Agent,这是向人工通用智能(AGI)迈出的变革性一步。下面,论文基于本综述的见解,概述这一开放问题并提出未来方向

AGI——The-Second-Half

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始博客链接:The Second Half, 20250410, 姚顺雨

The Second Half 博客整体总结

  • TLDR:We’re at AI’s halftime.(我们正处于人工智能的中间休息时间)
  • 几十年来,人工智能的发展主要集中在开发新的训练方法和模型上
    • 这种方法行之有效:从击败国际象棋和围棋世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到赢得 IMO(国际数学奥林匹克)和 IOI(国际信息学奥林匹克)金牌
    • 这些里程碑背后(如 DeepBlue、AlphaGo、GPT-4 以及o系列模型),是 AI 方法的根本性创新:
      • 搜索算法、深度强化学习(deep RL)、规模扩展(scaling)和推理能力,一切都在持续进步
  • 那么,现在究竟发生了什么变化?
  • 用三个词概括:RL finally works.(强化学习终于奏效了)
    • 更准确地说:强化学习终于具备泛化能力了
  • 经历了多次重大迂回和一系列里程碑式的突破后,我们终于找到了一种通用“配方”,能够利用语言和推理解决广泛多样的强化学习任务
    • 就在一年前,如果你告诉大多数 AI 研究人员,存在一种单一的方法可以同时应对软件工程、创意写作、IMO 级别的数学题、鼠标键盘操作以及长篇问答,他们可能会嘲笑你是在幻想
    • 毕竟,每一项任务都极其困难,许多研究者甚至要用整个博士生涯只专注于其中某一个狭窄领域
  • 但这一切真的发生了
  • 那么接下来会发生什么?
    • AI的下半场(从现在开始),将重心从“解决问题”转向“定义问题”
    • 在这个新时代,Evaluation比训练更重要
    • 我们不再仅仅问:“我们能否训练一个模型来解决X?”而是要问:“我们应该训练 AI 去做什么?又该如何衡量真正的进展?” 要在这个下半场取得成功,我们需要及时转变思维方式和技能结构(或许更接近于一名产品经理的角色)

附录:我的个人见解和思考

  • 其实我认为 AGI 还在上半场,特别是强化学习的发展还在上半场,多模态也还在上半场
  • 作者认为强化学习的范式已经确定了,但是给的观点太大,细节上还有许多不同的落地方向
  • 早在 23 年,我就认为真正的 AGI 很可能是在世界模型上进行反馈和交互得到的,随着世界模型的进化,智能体会越来越好
    • 与作者评估的思路相似,但是我认为强化学习的算法仍然是重要的,如何让模型能记住之前与环境交互发生过什么(奖励,环境变化),算法可能还需要继续优化
  • 从接触强化学习起,我基本上就确定 RL 是未来 AGI 的发展方向,但如今的大模型上 RL 用的还不够高明
    • 比如简单的 SFT 就可以把数学分数刷的很高,不一定是 RL 带来的,RL 应该是与真实环境交互做决策
  • 我认为 AGI 的核心:
    • 让智能体在真实环境中成长,真的去感受,去交流,去沟通,记住这些遇到过的知识,最终实现 AGI

上半场(The first half)

  • 要理解上半场,不妨看看它的“赢家”:你认为迄今为止最具影响力的 AI 论文有哪些?
  • 作者在斯坦福CS224N课程中尝试过一个测验,答案并不令人意外:Transformer、AlexNet、GPT-3 等等
    • 这些论文有什么共同点?它们都提出了某种根本性的突破,以训练出更好的模型
    • 而且,它们通过在某些基准测试中表现出显著提升,成功发表了论文
  • 但还有一个潜在的共性:这些“赢家”几乎都是训练方法或模型架构 ,而不是基准测试或任务本身
    • 即便是堪称最有影响力的基准之一 ImageNet,其引用量也不到 AlexNet 的三分之一
    • 这种“方法 vs 基准”的对比在其他地方更加悬殊
      • 例如,Transformer 论文本身的引用超过16万次,WMT’14 翻译任务(Transformer 的主要基准)对应的研讨会报告仅有约 1,300 次引用
  • 这说明了上半场的游戏规则 :重点在于构建新模型和新方法 ,评估与基准只是次要的(尽管必要,才能让论文体系运转起来)
  • 为什么如此?一个重要原因是,在 AI 发展的上半场,方法比任务更难、也更激动人心
    • 从零开始创造一种新算法或模型架构(比如反向传播算法、卷积神经网络(AlexNet),或是用于GPT-3的Transformer),需要非凡的洞察力和工程能力
    • 相比之下,为 AI 定义任务往往显得简单得多:我们只需选取人类已有的任务(如翻译、图像识别或下棋),将其转化为可量化的基准测试即可(这并不需要太多创新或工程投入)
  • 此外,方法通常比单个任务更具通用性和广泛适用性,因此价值更高
    • 例如,Transformer 架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、 RL 等多个领域的进步,远远超出了它最初验证的那个数据集(WMT’14翻译)
    • 一个优秀的新方法可以“攀登”多个不同的基准,因为它足够简洁且通用,影响力远不止于单一任务
  • 这套游戏机制运行了几十年,催生了改变世界的想法与突破,并体现在各个领域基准性能的不断提升上
    • 为何这套机制会改变?因为这些思想和突破的累积已经带来了质的飞跃:我们终于找到了一套行之有效的“配方”来解决各类任务

这个“配方”是什么?(The recipe)

  • 它的组成部分并不令人意外:大规模语言预训练、数据与算力的规模化、以及 “推理与行动(reasoning and acting)”的 idea
    • 这些听起来像是你在旧金山每天都能听到的流行术语(buzzwords),但为何称之为“配方”?
  • 我们可以通过RL 的视角来理解这一点
    • RL 常被认为是 AI 的“终极目标”:理论上它能保证赢下游戏,经验上我们也很难想象任何超级智能系统(如AlphaGo)不依赖 RL 就能实现
  • 在 RL 中,有三个关键要素:算法(algorithm)、环境(environment)和先验知识(priors)
    • 长期以来,RL 研究者主要关注的是算法(如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等),这是智能体如何学习的核心智力部分
    • 而将环境和先验视为固定或最小化的因素。例如,Sutton 和 Barto 的经典教材几乎全部聚焦于算法,对环境或先验几乎只字未提
  • 然而,在深度强化学习时代,人们逐渐意识到环境在实践中至关重要 :一个算法的表现往往高度依赖于它所设计和测试的具体环境
    • 如果你忽视环境,就可能构建出一个在玩具环境中“最优”但在真实场景中完全失效的算法
    • 那么,为什么不先明确我们真正想解决的环境,再寻找最适合它的算法呢?
  • 这正是 OpenAI 最初的计划
    • 他们创建了Gym,一个标准的RL环境平台,涵盖各种游戏;
    • 接着推出了 World of Bits 和 Universe 项目,试图将互联网或整个计算机变成一个游戏环境
    • 听起来是个好计划,不是吗?一旦我们将所有数字世界转化为可交互环境,再用聪明的 RL 算法去攻克它们,我们就拥有了数字世界的通用人工智能(AGI)
  • 这个计划很好,但并未完全奏效
    • OpenAI 沿着这条路径取得了巨大进展,用 RL 解决了 Dota、机械手控制等问题
    • 但他们从未真正接近解决“电脑使用(computer use)”或“网页导航(web navigation)”这类任务,而且在一个领域有效的RL代理无法迁移到另一个领域
    • Something is missing(缺了点什么?)
  • 直到 GPT-2 或 GPT-3 出现,人们才意识到缺失的关键是先验知识(priors)
    • 你需要强大的语言预训练,将常识和语言知识内化到模型中,然后在此基础上微调,使其成为 Web 代理(WebGPT)或聊天代理(ChatGPT),并由此改变世界
    • 结果证明,RL 中最重要的一环可能根本不是 RL 算法或环境 ,而是先验知识 ,而这些先验知识的获取方式完全可以与 RL 无关
  • 语言预训练为“聊天”创造了良好的先验,但对“控制电脑”或“玩视频游戏”却效果不佳
    • 为什么?因为这些领域远离互联网文本的分布,如果直接在这些领域进行 SFT 或 RL ,泛化能力很差
  • 我在 2019 年就注意到了这个问题,当时 GPT-2 刚发布,我尝试在其基础上做 SFT/RL 来解决文字冒险游戏(训练了 CALM)
    • CALM 是世界上首个基于预训练语言模型构建的代理
    • 但即便经过数百万步的 RL 训练,代理也只能勉强攻克一款游戏,且无法迁移到新游戏
      • 问题:RL 能做数百万步?即使模型很小也有点难吧?
    • 虽然这对 RL 研究者来说并不奇怪(这正是 RL 的典型特征),但我感到困惑:人类却能轻松零样本地玩新游戏并表现良好
    • 于是,我迎来了人生中第一次顿悟时刻(first eureka moment in my life):
      • 顿悟:我们之所以能泛化,是因为我们不仅能选择“走到柜子2”或“用钥匙1打开箱子3”或“用剑杀死地牢怪兽”,我们还能选择思考 :“地牢很危险,我需要武器。没有明显武器,也许得在锁着的箱子或柜子里找。柜子2里有箱子3,先去那里打开看看”
  • 思考,或者说推理,是一种奇特的“动作” ,它不直接影响外部世界,但其思维空间是开放且组合爆炸的:
    • 你可以思考一个词、一句话、一段话,甚至一万句随机英文单词,但周围的世界不会立即改变
    • 在经典RL理论中,这简直是灾难,会让决策变得不可能
    • 想象你要从两个盒子中选一个,其中一个有 100 万美元,另一个为空,你的期望收益是 50 万美元
      • 现在我再加无数个空盒子,你的期望收益就趋近于零
      • 问题:这个例子有点没太懂作者想表达的什么
    • 但如果我们把“推理”加入任何 RL 环境的动作空间中,我们就能利用语言预训练带来的先验知识实现泛化,并根据不同决策灵活分配测试时的计算资源
    • 这是一种非常神奇的现象,我在这里可能无法完全说清楚,也许需要另写一篇博客详细阐述
    • 欢迎阅读 ReAct 论文了解“推理作为代理行为”的原始故事,以及我当时的心路历程
    • 目前我的直观解释是:即使我加了无数空盒子,但你一生中见过各种游戏中的类似情况,选择这些“空盒子”的思考过程,反而让你在未来更有可能选中那个装钱的盒子
    • 抽象地说:语言通过推理在代理中实现泛化(language generalizes through reasoning in agents)
  • 一旦我们拥有了正确的 RL 先验(语言预训练)和 RL 环境(将语言推理作为动作之一),结果发现RL 算法本身反而可能是最不重要的部分
    • 于是我们看到了o系列、R1、Deep Research、电脑使用代理……以及更多即将到来的成果
    • 多么讽刺的转折!几十年来,RL 研究者极度重视算法,几乎无人关注环境,更没人关心先验
    • 几乎所有 RL 实验都从零开始,但我们花了数十年的弯路才意识到,也许我们的优先级本该彻底颠倒
      • 问题:不对吧,在 RL 中一直都有先模仿学习再进行 RL 训练的先例,比如 AlphaGo 就先学习的专家决策
  • 正如史蒂夫·乔布斯所说:“你无法向前连接点滴;你只能向后连接”(You can’t connect the dots looking forward; you can only connect them looking backward.)

    “你无法在展望未来时串联起生命的点滴,只有在回顾过去时才能看清它们之间的联系”


下半场(The second half)

  • 这套“配方”正在彻底改变游戏规则。回顾一下上半场的游戏:
    • 1)我们开发新颖的训练方法或模型,以提升基准表现;
    • 2)我们创建更难的基准,继续循环
  • 但现在这个游戏正在被打破,原因如下:
    • 这套“配方”已经基本标准化,并实现了工业化流水线式的基准刷分,不再需要太多新想法。你的某个特定任务上的创新方法可能带来5%的提升,而下一代o系列模型无需专门优化就能提升30%
    • 即便我们创造出更难的基准,这套配方也会越来越快地将其攻克,我的同事Jason Wei制作了一张漂亮的图表,清晰地展示了这一趋势
    • 图2
  • 那么,在下半场我们还能做什么?
  • 我认为我们必须从根本上重新思考Evaluation
    • 这意味着不仅要创建新且更难的基准,更要从根本上质疑现有的评估框架,建立全新的评估体系,迫使我们发明超越当前“配方”的新方法
    • 这很难,因为人类具有惯性,很少质疑基本假设,你往往把它们当作理所当然,而不意识到它们只是假设,而非自然法则
  • 举个例子说明这种“惯性”:假设你在 2021 年发明了历史上最成功的评估之一,基于人类考试的评测
    • 这在当时是个大胆创举,但三年后它已趋于饱和
    • 你会怎么做?大概率是设计更难的考试
    • 或者,假设你解决了简单的编程任务,下一步呢?很可能是寻找更难的编程题,直到达到 IOI 金牌水平
  • 这种惯性是自然的,但问题在于:AI 已经击败了国际象棋和围棋冠军,在 SAT 和律师考试中超越大多数人,并在 IMO 和 IOI 中获得金牌
    • 但世界似乎并没有因此发生太大变化(至少从经济和 GDP 来看是如此)
  • 作者把这称为 “效用问题”(utility problem) ,并认为这是当前 AI 面临的最重要问题
  • 也许我们很快就能解决这个问题,也许不会:但无论哪种情况,其根源可能出人意料地简单:我们的评估设置与真实世界存在诸多根本差异 ,举两个例子(原本机器学习或 RL 中大家比较确定的,但是现在需要改变的例子):
    • 评估“应该”自动化运行(Evaluation “should” run automatically) :
      • 通常代理接收任务输入,自主完成,然后获得奖励
      • 但在现实中,代理必须在整个任务过程中与人类持续互动:你不会给客服发一条超长消息,等十分钟,然后指望对方一次性完美解决所有问题
      • 通过质疑这一设定,新的基准应运而生,例如引入真实人类参与(如 Chatbot Arena)或用户模拟(如 tau-bench)的闭环评估
    • 评估“应该”独立同分布(i.i.d.)(Evaluation “should” run i.i.d.) :
      • 如果你有一个包含 500 个任务的测试集,通常每个任务独立运行,取平均得分作为总体指标
      • 但在现实中,任务是顺序执行的
      • 一位谷歌软件工程师随着对代码库越来越熟悉,解决后续问题的能力会不断提升;而一个 AI 代理在同一代码库中解决多个问题时,却无法积累这种熟悉度
      • 我们显然需要长期记忆机制(已有相关研究(AGENT WORKFLOW MEMORY 和 Contextual Experience Replay for Continual Learning of Language Agents)),但学术界缺乏合适的基准来证明其必要性,甚至缺乏勇气去挑战机器学习的基础假设:i.i.d.
  • 这些假设“一直如此”,在AI上半场是合理的,因为当智能水平较低时,提升智能通常能提升实用性
    • 但现在,这套通用“配方”在这些假设下已被证明必然有效
  • 因此,下半场的新游戏规则是:
    • 1)我们开发面向真实世界效用的新型评估体系或任务;
    • 2)我们用现有“配方”解决它们,或在此基础上加入创新组件;继续循环
  • 这个游戏很难,因为它陌生,但它令人兴奋
    • 上半场的玩家在解决电子游戏和考试,而下半场的玩家则有机会通过将智能转化为实际产品,打造出价值数十亿甚至上万亿美元的公司
    • 上半场充满了渐进式的方法和模型,而下半场则会筛选出真正具有颠覆性意义的研究:通用“配方”会轻易碾压你的渐进式创新,除非你创造出能打破该“配方”的新假设
    • 那时,你才能真正做出改变游戏规则的研究
  • Welcome to the second half!

其他说明

  • 博客是基于作者在斯坦福 CS224N 和哥伦比亚大学的演讲内容撰写的
  • 作者使用 OpenAI 的 Deep Research 功能读取了作者的幻灯片并生成了初稿

NLP——EcomGPT-CT

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models with Semi-structured Data, arXiv 202312, THU, Alibaba

Paper Summary

  • 整体内容总结:
    • 本论文对 LLM 的领域特定 CPT 进行了广泛研究,重点关注电子商务领域
    • 本文实验表明,通过结合通用语料和领域特定语料进行有针对性的 CPT,可以有效地将 LLM 适配到特定领域
    • CPT 在不牺牲模型在广泛 NLP 应用中能力的前提下,提升了模型在电子商务任务上的性能
    • 论文设计的数据混合策略被证明在增强模型从不同数据源吸收和整合知识的能力方面是有效的,从而在领域特定任务上实现了性能提升
  • 背景:
    • LLM 在大量语料上预训练后,已在各种 NLP 任务中展现出卓越性能,但将这些模型应用于特定领域仍面临重大挑战
    • 例如缺乏领域知识、利用领域知识的能力有限,以及对领域特定数据格式的适应性不足
  • 本文方案介绍:
    • 考虑到从头训练 LLM 的极高成本和特定领域标注数据的稀缺性,本研究以电商领域为例,专注于 LLM 的领域特定持续预训练(domain-specific continual pre-training)
    • 论文探索了使用未标注的通用语料和电商语料对 LLM 进行持续预训练(CPT)的影响
    • 论文设计了一种混合不同数据源的策略,以更好地利用电商半结构化数据
    • 论文构建了多个任务来评估 LLM 在电商领域的少样本上下文学习(ICL)能力及其在指令微调后的零样本性能
  • 实验结果表明,电商 LLM 的 CPT 以及论文设计的数据混合策略均具有显著效果

Introduction and Discussion

  • LLM 通过预训练数十亿文本标记,能够掌握广泛的世界知识和人类语言规则(2023)。因此,LLM 在各类 NLP 任务中表现优异(2020; 2022; 2023b)
  • 然而,现有的 LLM 并不完美,将其应用于特定领域仍存在重大挑战:
    • (1)LLM 缺乏必要的领域特定知识,或难以利用相关知识解决实际任务(2023a;2023)
    • (2)LLM 难以适应特定领域的独特文本格式或数据分布,因此无法满足领域应用的需求(2023a;2023b)
  • 考虑到:
    • 训练 LLM 需要大量硬件资源和长时间训练,从头预训练一个领域特定的 LLM 在实际中并不可行
    • 特定领域的标注数据通常稀缺且成本高昂,而未标注数据则更为丰富且易于获取
  • 因此:本研究以电商领域为例,探索通过 CPT 使 LLM 适应特定领域的方法
  • 已有充分证据表明,特定领域的 CPT 能够显著提升掩码语言模型(MLM,例如 BERT(2019)、RoBERTa(2019))在相应领域下游任务中的表现(2020; 2020;2022;)
  • 在 LLM 时代,受限于数据和计算资源:
    • 大多数领域适应研究通过指令微调或提示工程实现(2023;)
    • 仅有少数研究尝试通过 CPT 将领域知识注入模型(2023a; 2023),且缺乏从实际应用角度对 LLM 领域特定 CPT 的深入分析
  • 论文工作内容如下:
    • 基于 BLOOM(2022)等一系列多语言自回归模型,构建了电商领域的 EcomGPT-CT 模型
    • 探索了在难以获取完整原始预训练数据的情况下,使用通用和电商未标注语料对 LLM 进行 CPT 的影响
      • 论文关注模型在解决实际电商任务中的表现,并分析训练过程中的性能变化
    • 提出了一种混合不同数据源的策略,以有效利用电商领域丰富的半结构化数据,从而提升预训练数据的规模和多样性

Related Work

Large Language Models

  • 近年来,LLM 领域发展迅速,当前主流的 LLM 主要基于 Transformer 模块,并在海量文本数据上预训练
  • 自 GPT-2(2019)和 T5(2020)证明各种 NLP 任务可以统一为文本生成范式后,主流 LLM 均采用仅解码器的自回归架构
  • 近期,遵循 scaling law(2020),不同参数规模的 LLM 被构建并发布,包括 GPT-3(2020)、Chinchilla(2022)、BLOOM(2022)、PaLM(2022)、Llama(2023)、Baichuan(2023a)
  • 受LLM卓越性能的激励,研究者致力于构建领域适应的 LLM 以解决特定领域任务,比如:
    • 生物医学领域的 Med-PaLM(2023)和 ChatDoctor(2023)
    • 数学领域的 Minerva(2022)
    • 金融领域的 BloombergGPT(2023)和 FinGPT(2023b)
    • 以及法律领域的 ChatLaw(2023)

Continual Pre-training

  • CPT 是指:在通用预训练和下游任务微调两个阶段之间增加的额外预训练阶段
    • CPT 采用与通用预训练相同的训练目标 ,但通常使用特定领域或任务的未标注语料 ,旨在实现领域适应或任务适应
  • 对于 BERT(2019)和 RoBERTa(2019)等掩码语言模型预训练模型,领域自适应或任务自适应的 CPT 能够引导模型与相应领域或任务的数据分布对齐,从而有效提升模型在相关下游任务中的表现(2020;2022)
  • 对于当前主流的自回归 LLM ,关于 CPT 过程的研究(2023)或 CPT 在构建领域特定 LLM 中的应用(2023a)仍然有限
    • 目前缺乏对** CPT 如何影响 LLM 解决领域特定任务效果的详细分析,也缺乏关于如何提升 LLM CPT 效果策略**的研究

Domain-specific Continual Pre-training

Training Task

  • CPT (Continual Pre-training)无缝连接了通用预训练(General Pre-training)和SFT阶段,从而提升模型在特定领域或任务中的性能,如图 1 所示
  • CPT 采用与通用预训练相同的目标函数,但专注于特定领域或任务的未标注语料
  • 论文中,论文使用仅包含解码器的 Transformer 模型(Decoder-only Transformer Models),这是当前主流LLM 的架构。预训练的目标是下一词预测任务(Next Token Prediction)或自回归语言建模(Auto-regressive Language Modeling):
    $$
    \max_{\theta}\sum_{i=1}^{N}\log P(y_{i}|y_{ < i};\theta),
    $$
    • 其中,\(\theta\) 是模型参数,\(y\) 是训练文本序列

Dataset Construction

  • 论文通过 CPT 提升 LLM 在电子商务(E-commerce)领域的性能
  • 论文整理了大量的电子商务数据,用于向 LLM 注入领域特定知识,并帮助模型适应电子商务领域独特的文本格式
  • 为了保留 LLM 的世界知识和泛化能力,论文还将通用文本数据纳入训练数据集中
  • 电子商务语料(E-commerce Corpora) :论文从亚马逊(Amazon)和淘宝(Taobao)收集了大量产品的标题、属性、描述和评论
    • 此外,还利用了淘宝“逛逛”频道的文章 ,这些文章介绍了产品特性、分享了用户体验并展示了品牌故事
  • 通用语料(General Corpora) :为了构建通用语料,论文从 WuDaoCorpora (2021) 和 RefinedWeb (2023) 中采样文本
    • 这两个数据集分别包含从网页中收集的 72B 中文 Characters 和 600B 英文 Tokens
  • 数据预处理(Data Pre-processing) :为了确保预训练数据的质量,论文实现了一个全面的流水线
    • 包含数据重构、过滤和去重过程
    • 对于半结构化产品数据,论文首先按产品 ID 将标题、属性、描述和评论分组
  • 表1 展示了处理后的电子商务和通用数据集的统计信息,论文观察到,收集的数据集中不同数据源的 Token 数量存在显著差异
    • 经过过滤和处理的电子商务数据包含约 20B Tokens,不到通用领域网页数据 Token 数量的 5%
    • 在通用数据中,中文数据的数量远少于英文数据
  • 考虑到领域特定 CPT 的目标是提升模型在解决领域特定任务时的性能,同时不损害其泛化能力,因此在训练样本中保持通用数据和领域特定数据的 Token 数量平衡至关重要
    • 但由于硬件限制,论文无法对不同类型数据的比例进行详细实验
    • 经过初步探索,论文将通用数据与领域特定数据的 Token 数量比例设定为 2:1 ,并将通用数据中的中英文数据比例设定为 1:1

Dataset Mixing Strategy

  • 通常,用于LLM 预训练的数据来自网页上的长文本,例如 CommonCrawl 和 Wikipedia
  • 但在某些特定领域(包括电子商务领域),大量文本数据以半结构化格式存储在表格或数据库中
    • 这些半结构化文本数据在形式上与常规文本数据存在显著差异
  • 尽管如此,作者相信将这些数据适当地纳入 CPT 中,可以进一步提升LLM 的领域特定性能
  • 为了有效地将这些丰富的半结构化数据转化为模型训练所需的文本序列,论文设计了一种跨不同数据源的数据集混合策略。论文的数据混合策略包含以下步骤:
    • 1)节点构造 :从不同数据源收集半结构化数据,每个数据源代表一组节点,每个节点对应一个数据条目(即一行或一个对象)
    • 2)边构造 :在跨两个数据源相关联的节点之间建立边,构建表示数据关系的异构图(Heterogeneous Graph)
      • 在论文的实验中,所有数据均与电子商务产品相关,因此论文使用产品 ID 作为唯一标识符,连接与同一产品相关的所有节点
    • 3)簇选择并移除 :基于预定义的簇大小范围,迭代地从图中选择连通的簇,并遵循尽可能覆盖更多数据源的规则
      • 选择簇后,从图中移除所有对应节点以避免冗余
    • 4)簇内节点拼接 :在每个选定的簇内随机排列所有节点,提取每个节点中的可用文本,并将它们拼接成一个训练样本
  • 图2 展示了一个示例:
    • 作者认为,这种数据混合策略建立了来自不同数据源文本之间的联系
    • 与从每个数据源独立采样文本的策略相比,论文的策略增强了单个样本中文本的多样性,从而更有效地训练 LLM
  • 问题:论文的数据混合策略有经过实验验证吗?
    • 后面实验部分有实验,证明了这种做法是有效的

Training Setup

  • 作者选择 BLOOM(2022)作为 EcomGPT-CT 的骨干模型(backbone),原因如下:
    • (1) BLOOM 是一个支持中英文的多语言预训练模型;
    • (2) BLOOM 未经过任何Post-training,这确保了在 CPT 后评估我们基准测试性能变化的可靠性
  • 作者分别在参数规模为 3B 和 7.1B 的 BLOOM 模型上进行了实验
  • 受限于硬件配额,论文的每项实验均在 2-4 块 NVIDIA Tesla A100 80GB GPU 上完成,这为计算资源有限的应用场景提供了有价值的参考(有趣的表达)
  • 论文采用了 Huggingface 的 Transformers(2019)和 DeepSpeed(2020)框架
    • Transformers 提供了模型实现和基础的训练流程
    • DeepSpeed 则通过 ZeRO 优化器(2020)对训练状态(如模型参数、梯度和优化器状态)进行分片,从而优化 GPU 内存消耗
    • 论文使用了 ZeRO stage 2 并启用了 offload 功能,这意味着优化器状态和梯度会被分片,且训练状态可以在主机和设备之间交换
  • 训练过程采用 bfloat16 混合精度(2019)进行,以提高训练效率并避免数值下溢或溢出问题
  • 实验中使用的超参数如表2 所示(部分超参数是基于 BLOOM 原始预训练设置而确定的)
  • 超参数分析:小模型使用更大的学习率

Experiments

Evaluation Benchmarks

  • 为了从解决实际问题的角度评估基础 LLM 在电子商务领域的性能,论文基于 EcomInstruct(2023a)构建了两个基准,如表3 所示:
    • (1) EcomICL :论文选择了 9 项任务,涵盖文本分类(text classification, CLS)、文本生成(text generation, GEN)和信息抽取(information extraction, IE)等多种类型
      • 每个数据实例被处理为标准格式,并提供多个相同格式的示例作为演示,以评估 LLM 的少样本上下文学习(Few-shot ICL)性能
    • (2) EcomSFT :论文使用 EcomInstruct 的训练数据对基础 LLM 进行 SFT(然后进一步评估)
      • 选择了 8 项任务进行评估,包括 4 项训练集内任务和 4 项训练集外任务,旨在评估 SFT 后模型的指令遵循性能
  • 为了评估基础 LLM 在 CPT 后是否仍能解决通用自然语言处理(NLP)任务,论文分别从中文和英文 NLP 基准中选择了 3 项任务
    • 以 Few-shot ICL(GeneralICL)的形式进行评估
    • 对于每项任务,论文在实验中随机选取最多 1000 个数据实例
  • 对于自回归 LLM ,每项任务都被视为文本生成任务。因此,我们可以使用文本生成的自动评估指标来评估模型在不同任务上的性能
    • 根据先前的工作(2022;2022),论文使用 ROUGE-L(2004)作为评估指标
    • 对于分类任务,论文报告准确率指标;
    • 对于两项 IE 任务,论文还使用了精确率、召回率和 F1 值指标

补充:论文相关的评估指标汇总

  • 表3 列出了所有评估指标
  • AVE :属性-值提取(Attribute-Value Extraction,AVE) :从商品信息中提取属性和对应的值,如商品“颜色:红色”
  • NED :命名实体检测(Named Entity Detection,NED) :识别文本中的特定实体,如品牌名、商品名等
  • ENT :实体类型分类(Entity Typing,ENT) :对文本中的实体进行分类,如“苹果”是水果还是品牌
  • PDC :产品分类(Product Classification,PDC) :将商品归类到预定义的类别中,如“手机”属于“电子产品”
  • TAM :标题-属性匹配(Title-Attribute Matching,TAM) :判断商品标题是否与其属性描述一致
  • TIG :标题生成(Title Generation,TIG) :根据商品信息生成简洁且吸引人的标题(问题:如何评估简洁和吸引人?)
  • DEG :描述生成(Description Generation,DEG) :基于商品属性生成详细的描述文本
  • DES :描述摘要(Description Summarization,DES) :将商品的长描述压缩成简短的摘要
  • STG :短标题生成(Short Title Generation,STG) :生成更简短的标题(问题:用于移动端展示?)
  • NER :命名实体识别(Named Entity Recognition,NER) :识别并分类文本中的命名实体,如人名、地名等
    • 注:NER = NED + 实体分类,部分文献中也会混用两者,但实际上强调 NED 时,是不用对实体进行分类的
    • 输入句子 :"马云在杭州创立了阿里巴巴。"
    • NED输出 :[马云] 在 [杭州] 创立了 [阿里巴巴]
    • NER输出 :[马云]PER 在 [杭州]LOC 创立了 [阿里巴巴]ORG
  • ITD :意图理解(Intent Understanding,ITD) :分析用户查询的意图,如“购买”或“咨询”
  • ADM :地址匹配(Address Matching,ADM) :验证或匹配用户输入的地址信息
  • AGNews :主题分类(Topic Classification) :将新闻文本分类到预定义的主题类别
  • SQUAD v2 :阅读理解(Machine Reading Comprehension,MRC) :阅读理解任务,根据文章回答问题
  • SNLI :自然语言推理(Natural Language Inference) :判断两个句子之间的逻辑关系(蕴含、矛盾或中立)
  • TNews :主题分类(Topic Classification) :中文新闻文本的主题分类任务
  • CMRC2018 :阅读理解(Machine Reading Comprehension,MRC) :中文阅读理解任务,根据文章回答问题
  • OCNLI :自然语言推理(Natural Language Inference) :中文自然语言推理任务,判断句子间的关系

Results on Domain-specific Tasks

  • 表4 展示了 BLOOM-3B 和 BLOOM-3B-7B 模型在不同 CPT 设置下对多种电子商务 Few-shot ICL(EcomICL)任务的评估结果
  • Few-shot ICL 评估直接反映了 LLM 在无需额外微调的情况下解决领域特定任务的能力。实验结果表明:
    • (1) 从训练数据的角度来看:
      • 使用电子商务数据进行 CPT 有效提升了 3B 和 7B 模型在部分电子商务任务上的 ICL 性能
      • 仅使用通用数据训练模型会导致几乎所有任务的性能显著下降
      • 混合领域特定数据和通用数据进行训练能带来更一致的性能提升
      • 这些结果说明:在 CPT 中同时纳入领域特定语料和通用语料是必要的
        • 因为领域特定数据有助于模型适应领域特定知识和数据格式 ,而通用数据则帮助模型避免遗忘世界知识并保持泛化能力
    • (2) 从数据混合的角度来看:
      • 论文设计的将不同来源数据整合到同一上下文中的策略(表4 中不带 Separate 的行),在大多数任务上实现了更大的性能提升或更小的性能下降,优于从不同数据源独立采样的结果(表4 中带 Separate 的行)
      • 在属性-值抽取(Attribute-Value Extraction, AVE)和标题生成(Title Generation, TIG)任务中观察到显著改进
      • 这表明论文的数据混合策略在建立不同数据源之间的关联以及将电子商务数据中的领域特定知识注入模型方面是有效的
    • (3) 领域特定 CPT 对模型性能的影响因任务类型而异
      • 对于 高度依赖领域知识 或 数据格式与通用文本差异较大 的任务, CPT 显著提升了模型在这些任务上的性能
        • 高度依赖领域知识的任务:例如产品分类(Product Classification, PDC)和标题生成(Title Generation, TIG)
        • 数据格式与通用文本差异较大的任务:例如描述摘要(Description Summary, DES)和短标题生成(Short Title Generation, STG)
      • 对于需要一定领域知识但形式与通用 NLP 任务差异较小的任务,领域特定 CPT 仅带来边际性能提升
        • 需要一定领域知识但形式与通用 NLP 任务差异较小的任务:例如属性-值抽取(Attribute-Value Extraction, AVE)和命名实体检测(Named Entity Detection,NED)
      • 对于缺乏领域特异性 或本身难以通过 Few-shot ICL 解决的任务, CPT 未能带来有效收益
        • 缺乏领域特异性的任务:例如实体分类(Entity Typing,ENT)
        • 本身难以通过 Few-shot ICL 解决的任务:例如标题-属性匹配(Title-Attribute Matching,TAM)
CPT 对 SFT 的影响如何?
  • 论文还对采用不同配置训练的模型进行了 SFT(注:SFT 时使用相同的 EcomInstruct 训练数据集)
    • 随后,论文评估了 SFT 后模型在各项任务上的性能
    • 指令微调后的模型可以更方便地用于解决实际场景中的 NLP 问题
    • 因此,相关基准上的实验结果间接反映了 CPT 对 LLM 领域特定性能的影响
  • 表5 展示了进行了 SFT的相关实验结果,从中论文观察到以下现象:
    • (1) 使用领域特定数据进行 CPT 有效提升了模型在大多数基准上的性能 ,而将通用预训练数据与领域特定数据结合进一步增强了模型性能(与 Few-shot ICL 评估结果类似)
      • 在 CPT 过程中,论文设计的数据混合策略 ,在提升模型 SFT 后的性能方面比从不同来源独立采样领域特定数据更有效
    • (2) CPT 对 SFT 后领域性能的影响因任务类型而异
      • 与 EcomICL 的发现类似, CPT 为需要领域知识 或 涉及特定数据格式的任务带来了显著增益,而对其他任务的增益较小
        • 例如标题生成(Title Generation, TIG)、产品分类(Product Classification, PDC)、意图检测(Intent Detection, ITD)
    • (3) CPT 对训练集内(held-in)和训练集外(held-out)任务均表现出整体性能提升,其中训练集外任务的提升更为明显
      • 这一结果符合直觉,因为 SFT 直接训练了模型解决某些特定任务的能力,从而减轻了 CPT 的影响
      • 在此过程中,训练集内(held-in)任务的相关数据被包含在训练集中,使得这些任务更容易受到 SFT 的影响

Results on General Tasks

  • 除了领域特定基准外,论文还评估了 LLM 在几项中英文通用 NLP 任务上的 Few-shot ICL 性能
  • 表6 提供了关于 CPT 对 LLM 通用能力影响的 insight
  • 实验结果表明:
    • 从解决实际问题的角度来看,使用通用数据和领域特定数据混合 CPT 模型对模型解决主题分类(Topic Classification)、机器阅读理解(Machine Reading Comprehension)、自然语言推理(Natural Language Inference)等经典 NLP 任务的 Few-shot ICL 能力影响较小
      • AGNews :主题分类(Topic Classification)
      • SQUAD v2 :阅读理解(Machine Reading Comprehension,MRC)
      • SNLI :自然语言推理(Natural Language Inference)
      • TNews :主题分类(Topic Classification)
      • CMRC2018 :阅读理解(Machine Reading Comprehension,MRC)
      • OCNLI :自然语言推理(Natural Language Inference)
    • 然而,由于论文的领域特定数据主要是中文,仅使用领域特定数据进行 CPT 会导致模型在中文基准上的性能下降
      • 这验证了在领域特定预训练中纳入通用数据以保持模型通用 NLP 能力的重要性
    • 需要注意的是,在本实验中,论文并未评估模型的复杂推理或知识保留能力,因此无法得出领域特定预训练是否会损害模型这些能力的结论

Performance Variation during Training

  • 论文还评估了 CPT 过程中多个模型检查点在领域特定和通用 ICL 基准上的性能,以分析 LLM 在训练过程中的性能变化。图 3(a) 和 3(b) 展示了部分代表性任务上各模型检查点的性能
  • 从 EcomICL 中四项任务的性能变化中观察到三种不同的趋势:
    • (1) 在某些任务(例如产品分类(PDC))中,模型的性能稳步提升
    • (2) 在另一些任务(例如描述生成(DEG))中,模型性能保持相对稳定
    • (3) 在某些任务(例如属性-值抽取(AVE)和描述摘要(DES))中,模型的性能最初提升,但在达到转折点后不再显著变化
  • 对于 GeneralICL 中的四项典型任务
    • 可以明显看出模型的性能在训练过程中波动
    • 然而,在观察到的时间范围内,指标并未显著偏离 CPT 前的初始值
    • 这一结果进一步强调,选择合适的数据进行 CPT 可以有效保持模型的通用 NLP 能力

NLP——EfficientCPT(FinPythia)

注:本文包含 AI 辅助创作

  • 参考链接:
    • 原始论文:(FinPythia)Efficient Continual Pre-training for Building Domain Specific Large Language Models, ACL 2024, Amazon

Paper Summary


Conclusion

  • 在论文中,论文证明了领域自适应持续预训练(Continual Pre-training, CPT)在开发领域特定 LLM 中的有效性
    • CPT 可以用于在现有开放领域 LLM 的基础上开发领域专用 LLM
    • 领域自适应持续预训练提高了 LLM 在金融任务上的性能,并以更低的成本使 LLM 能够获取领域知识
  • 论文提出了高效的领域自适应持续预训练方法 ETS-DACP 和 ETA-DACP,以增强持续预训练
    • 通过在训练数据筛选过程中更具选择性,论文的方法改进了持续预训练,仅使用普通持续预训练 10% 的数据(成本)就取得了更好的结果
  • 基于熵的任务无关数据选择策略与任务感知策略表现相当
    • 这一发现可用于在缺乏任务数据时进行持续预训练的数据选择
    • 论文还观察到在开放领域标准任务上的性能没有下降,表明领域持续预训练不会损害开放领域能力
  • 论文的研究将领域持续预训练作为从头构建领域特定 LLM 的有力替代方案
    • 通过更智能的数据选择,我们可以以较低成本超越普通持续预训练
    • 与普遍认为“更多数据更好”的观点相反,论文的结果表明数据质量同样重要
    • 尽管领域持续预训练在小语言模型文献中已有广泛研究,但考虑到 LLM 的规模和成本,论文提供了独特的见解
  • 论文介绍了通过金融领域自适应持续预训练开发的 FinPythia-6.9B
    • 持续预训练的 FinPythia 在金融任务上相较于原始基础模型展现了持续的性能提升
  • 论文进一步探索了简单但高效的数据选择策略用于持续预训练
  • 论文的数据选择策略仅使用 10% 的语料库规模和成本,即可超越普通持续预训练的性能 ,且不会降低开放领域标准任务(standard tasks)的表现
  • 本研究为构建领域专用 LLM 提供了一种经济高效(cost-effectively)的替代方案

Introduction and Discussion

  • LLM 展现出对自然语言的深刻理解,并在多种任务上提升了性能
  • 开放的网页数据有助于创建具备广泛能力的通用 LLM,但通用 LLM 并非“专家”
    • 例如,虽然 LLM 可以撰写优秀的新闻文章,但在撰写专业的法律文件时可能力不从心
  • 为创建领域专用的 LLM,需要基于领域数据进行训练。构建领域专用 LLM 的方法分为两类:
    • 从头训练领域专用 LLM
    • 基于现有 LLM 使用领域数据进行持续预训练
  • 大多数研究者采用第一种方法,例如医学领域的 Med-PaLM 系列模型(2022,2023)和金融领域的 BloombergGPT(2023b)
  • 尽管领域自适应持续预训练是一种更经济的替代方案,但相关研究较少
    • PMC-LLaMA(2023a)是通过对 LLaMA(2023)进行医学论文持续预训练得到的医学 LLM
  • 持续预训练还可用于在动态环境中更新 LLM 的最新知识
  • 本研究探讨以下问题:
    • 1)领域自适应持续预训练是否有助于构建领域专用 LLM?
    • 2)能否采用数据选择策略实现更高效的领域自适应持续预训练?
    • 3)领域自适应持续预训练是否会损害 LLM 的开放领域能力?
  • 论文以金融领域为背景,通过基于 Pythia(2023)构建的持续预训练模型 FinPythia 来回答这些问题
    • 针对第一个问题(回答肯定),论文报告了在规模仅为 Pythia 训练数据 8% 的领域数据上进行持续预训练后,金融基准测试(2023a)的性能提升。定性分析中,论文观察到 FinPythia 掌握了最新的金融领域知识
    • 针对第二个问题(回答肯定),论文提出了两种简单的数据选择技术:
      • 任务感知(task-aware)的 Efficient Task-Similar Domain-Adaptive Continual Pre-training(ETS-DACP)
      • 任务感知的 Efficient Task-Agnostic Domain-Adaptive Continual Pretraining(ETA-DACP)
      • 这些方法仅使用 10% 的选定领域数据(即 Pythia 训练语料库的 0.8%),即可超越普通领域自适应持续预训练的性能
        • 论文使用三种指标进行数据选择:相似性、困惑度和token 类型熵(token type entropy)
        • 相似性需要任务数据作为种子数据;
        • 困惑度和 token 类型熵 两种指标是任务无关的度量
    • 针对第三个问题(回答肯定),论文在四个开放领域标准任务上进行了基准测试,发现持续预训练的 LLM 在适应领域的同时保留了其通用能力
  • 本研究的主要贡献如下:
    • 论文整理了一个包含 240 亿(24B)token 的大规模金融语料库 ,数据来源于金融数据集
    • 实验证明,通过持续预训练构建领域专用 LLM 是一种经济高效的替代方案,扩展了小型语言模型(LM)的研究发现(2020;2023b)
    • 论文提出了两种高效领域自适应持续预训练方法 ,通过数据选择策略以更低的成本超越普通持续预训练的基线性能

Methodology

  • 本节介绍用于持续预训练的金融语料库整理、背景概念以及论文提出的任务感知领域自适应持续预训练方法

Financial Corpus Curation

  • 在评估数据来源时,论文考虑了三个维度:公开可用性、许可协议和规模
  • 金融语料库的数据来源包括金融新闻 CommonCrawl 和 SEC 文件
  • 金融新闻 CommonCrawl 是通过从公开的 CommonCrawl 数据中筛选金融新闻得到的
  • 论文遵循 Pythia (2023)的去重流程(de-duplication procedure),移除重复的训练数据
  • 结合这两个来源,论文创建了一个包含 239 亿 token(165 亿单词)的数据集,详细内容见附录 G

Background

  • 领域自适应持续预训练(Domain-adaptive Continual Pre-training,DACP)
    • 传统方法 :领域专用 LLM 通常通过从头训练并使用大量领域数据构建
      • 这种方法有两个缺点:成本高昂且需要大量领域数据,这在数据较少的领域(如金融)中难以实现
    • DACP :在通用 LLM 的基础上 ,使用大规模领域特定未标注数据进行持续预训练
    • DACP 已证明能够使 LM 更好地适应领域内分布(2020;2022),并使 LLM 能够获取新知识(2022b),而无需从头训练
  • 任务自适应持续预训练(Task-Adaptive Continual Pre-training,TACP)
    • 任务自适应持续预训练(TACP)指通过持续预训练提升特定任务的性能
    • TACP 已在小型 LM(如 BERT)中进行了研究,通过使用任务的标注和未标注数据预训练 LM(2020;2019),显示出对任务性能的提升
    • TACP 使用预训练损失目标(如掩码语言建模(MLM)损失)来适应下游任务 ,而无需使用任务标签
    • 尽管任务数据通常有限 ,但 TACP 对小型 LM(如 BERT)具有显著效果
    • 论文在四个金融评估任务上对 TACP 进行了基准测试,通过使用任务的未标注数据持续预训练 LLM(不涉及任何任务标签)
  • 理解:
    • TACP 更侧重任务,一般来说数据量更小,数据必须是任务相关的
    • DACP 更侧重领域,一般来说数据量更大,数据可以是与任务无关的
    • 两者都是无标签的数据,且 DACP 中的数据 包含了 TACP 的数据

Towards an Efficient Domain-adaptive Continual Pre-training

  • TACP 的主要局限在于其仅使用未标注任务数据训练 ,导致模型过于任务特定化
  • DACP 虽然使用更大的语料库,但成本高昂
  • 为平衡这些局限,论文提出了两种方法:
    • Efficient Task-Similar Domain-Adaptive Continual Pre-training(ETS-DACP) :通过强调任务重要性来构建面向一组任务的 LLM
    • Efficient Task-Agnostic Domain-Adaptive Continual Pretraining(ETA-DACP) :从领域语料库中选择信息量最高的样本
    • ETA-DACP 更通用,不面向专门的任务

Efficient Task-Similar Domain-Adaptive Continual Pre-training(ETS-DACP)

  • ETS-DACP 通过选择与任务数据更接近的部分领域数据(图1 中的蓝色区域)来构建最优集合 \(\mathcal{D}^*\)
  • 微调 LLM 需要大量指令,而创建这些指令成本高昂
  • ETS-DACP 直接利用有限的未标注任务数据,从更大的预训练领域语料库中采样相似样本
  • 先前研究表明,在与目标领域/任务高度对齐的 token 上进行无监督训练可以提升性能(2020;2019)
  • 论文假设在未标注任务数据上持续预训练 LLM 可以通过使模型适应任务分布来提升目标任务的性能
  • 论文使用任务数据和领域语料库样本 Embedding 之间的相似性进行数据选择
    • 通过计算文档 Embedding 与任务数据 Embedding 之间的余弦相似性(使用 Spacy 模型(2017)),量化文档级任务相似性
    • 这种方法能够经济高效地衡量任务特定信息与金融语料库的对齐程度,从而实现更有针对性的预训练

Efficient Task-Agnostic Domain-Adaptive Continual Pretraining(ETA-DACP)

  • 在缺乏任务数据的情况下,论文进一步探索了任务无关的数据选择方法
  • 该方法还克服了 ETS-DACP 的局限,即避免模型过于任务特定化
  • 作者认为从预训练领域数据中选择子集时,新颖性和多样性是两个重要维度
  • 新颖性 :指 LLM 之前未见的信息
    • 论文基于 LLM 记录的困惑度来衡量文档的新颖性
    • 困惑度较高的文档在原始训练语料库中代表性较低,因此更可能包含模型的新知识,这些样本也被视为更难学习(2009),因此在持续预训练中具有较高价值
    • 降低困惑度计算成本 :直接使用 LLM 计算困惑度成本较高,因为推理需要约 25% 的训练算力
      • 为降低成本,论文使用 Pythia-70m 作为替代模型计算文档困惑度
    • 初步实验显示,Pythia-1B 和 Pythia-70m 的困惑度相关性高达 0.97,证明小模型可以作为可靠的替代品 ,实现高效的采样
  • 多样性 :捕获领域语料库中 token 类型分布的多样性
    • 多样性已被证明是语言模型课程学习中的有效特征(2016;2017)
    • 论文使用词性(part-of-speech,POS)标注获取 token 类型
    • 由于熵是衡量多样性的最佳指标之一(2009),论文使用 POS 标签的熵(2016)作为多样性度量
      • 注意:是词性(POS)标签的熵,不是 Token 的熵

Data Sampling Strategy

  • 论文提出了 ETS-DACP 和 ETA-DACP,通过主动选择相关样本来优化持续预训练的数据。数据选择有两种方式:
    • 硬采样 :根据指标百分位数对领域语料库中的样本进行排序,选择前 \(k\) 个样本以满足预训练的预算 token 数量
    • 软采样 :在此情况下,论文根据距离指标为样本分配软权重(以概率采样)
      • 以相似性指标为例,假设一个样本的相似性得分为 0.9,将其归一化后作为选择该样本的概率
      • 这种方法允许持续预训练看到图1 中蓝色区域之外的非任务样本,增加预训练数据的多样性
  • 论文使用以下三个维度选择样本:
    • 与任务数据的相似性(ETS-DACP)
    • 困惑度作为新颖性的代理(ETA-DACP-ppl)
    • token 类型熵度量的多样性(ETA-DACP-ent)
  • 为将指标值转换为采样概率 ,论文提出了一种基于分位数范围的方法
    • 首先计算每个指标的 0-100 分位数,然后将每个文档的概率设为其所在分位数
    • 这种方法有效地归一化了论文的指标,并允许聚合不同类型的指标
  • 表1 总结了论文提出的所有方法以及传统领域适应 LLM 的方法及其需求
  • ETS-DACP-com 是另一种版本的 ETS-DACP,通过将相似性、困惑度 和 熵 的平均值用于排名

Experimental Setup

Evaluation tasks

  • 金融领域任务(Finance Domain Task) :为了评估领域自适应持续预训练的效果,论文在金融任务上对模型进行了测试
    • 论文采用 FLARE 框架 (2023a) 来评估模型性能
    • FLARE 扩展了lm-evaluation-harness 的评估框架,加入了多种金融任务
    • 论文遵循其指令提示、数据划分和指标计算方法,以便进行对比
    • 论文选用了以下 4 个任务(2023b; 2023a):
      • 金融短语库(Financial Phrase Bank, FPB) :FPB 是一项针对金融新闻的情感分类任务 (2014),情感标签反映投资者对新闻的看法(正面/中性/负面)
      • FiQA 情感分析(FiQA SA) :基于金融新闻和标题的细粒度情感分类任务 (2018)
      • 头条分类(Headline) :判断金融实体相关的头条是否包含特定信息的二分类任务 (Sinha and Khandait, 2020)。每条新闻关联 9 个标签,例如“是否涉及价格”“价格上涨”“价格下跌”“价格稳定”“历史价格”和“资产”等
      • 命名实体识别(NER) :基于美国证券交易委员会(SEC)报告中信用风险评估部分的金融命名实体抽取任务,标注类别包括人名(PER)、地点(LOC)、组织(ORG)和其他(MISC)
  • 通用领域任务 :为了评估领域训练对非领域能力的影响,论文在以下通用任务上进行了测试
    • ARC (2018):衡量模型在首次任务演示后预测输出网格的能力
    • MMLU (2020):测试模型在 57 项任务上的知识水平,包括基础数学、历史和法律等
    • TruthfulQA (2021):评估模型在 38 个类别的 817 个问题上的问答能力
    • HellaSwag (2019):测试模型根据事件描述生成相关后续句子的常识能力

Baselines

Training Setup and Infrastructure

  • 论文选择了 Pythia (2023) 中的 1B 和 6.9B 参数模型作为基准预训练 LLM
    • 注:Pythia 提供了从 70M 到 12B 参数不等的多种模型规模
  • 持续预训练的配置 Derived from Pythia 的训练设置 (2023)
    • 为 FinPythia-6.9B 设置学习率为 \(1.2 \times 10^{-5}\)
    • 为 FinPythia-1B 设置学习率为 \(3 \times 10^{-5}\)(这是原始训练计划中的最小学习率)
      • 理解:小模型的学习率大一些,理论上更容易找到最优解,所以学习率可以大一些
    • 论文使用较小的学习率以缓解灾难性遗忘问题,并在训练过程中保持恒定
    • 论文采用 bf16 精度而非 Pythia 使用的 fp16,并将原始批量大小减半至 512
  • 持续预训练任务在单台 AWS P4d.24xlarge 实例上运行
  • 由于模型规模适中,论文仅通过 DeepSpeed ZeRO Stage 2 (2020) 启用数据并行,并开启激活检查点功能
  • 在 24B token 上,FinPythia-6.9B 完成预训练需要 18 天,而 FinPythia-1B 需要 3 天

Results and Analysis

Domain-adaptive Continual Pre-training,DACP

  • 为了评估金融领域任务的表现,论文将 FinPythia 与 Pythia 以及其他类似规模的开源模型进行了对比,包括 OPT-7B (2022)、BLOOM-7B (2022) 和 GPT-J-6B (Wang and Komatsuzaki, 2021)
  • 虽然论文报告了开源模型的结果,但主要结论来自 Pythia 和 FinPythia 之间的对比,因为它们的差异反映了领域自适应持续预训练的效果
  • 所有模型均在 5-shot 设置下进行评估,每个测试实例的示例均从任务的训练数据集中随机采样(遵循 FLARE (2023a) 的基准设置)
  • 结果如表2 所示
    • FinPythia-6.9B 和 FinPythia-1B 在除 FiQA SA 任务外的所有金融任务上均优于其对应的 Pythia 模型
      • 问题: FiQA SA 任务也是金融领域的(情感分析)任务,持续预训练后怎么效果还降低了?
    • DACP 将 1B 模型的平均任务性能提升了 2.8%,6.9B 模型提升了 8.3%
      • 这些结果直接证明了 DACP 对提升领域任务性能的有效性
    • 此外,Pythia-6.9B 的表现优于 OPT-7B、BLOOM-7B 和 GPT-J-6B
    • 与 BloombergGPT 的对比请参见 附录A

Efficient Domain-adaptive Continual Pre-training

  • FLARE 使用 5-shot 上下文性能评估整个训练数据,即每个测试样本在评估时会看到不同的训练样本
    • 这使得模型之间的比较更加困难,因为每个测试样本在推理过程中会看到完全不同的训练示例
    • 在现实场景中,标注数据有限,没有大量的训练数据
    • 由于训练数据集中随机选择的高方差性,作者观察到较大的标准差
  • 为了克服这种随机性并确保模型之间的公平比较,论文为每个任务从训练数据集中预留了 50 个标注样本池 ,称为“shot pool”(示例池)
    • 对于剩余的训练样本,论文移除其标签并将其用作无标签任务数据 ,用于基于任务数据的数据选择策略
    • 这种配置的采用是因为论文无法直接获取无标签任务数据
    • 通过这种设置,论文还模拟了标注数据稀缺的约束条件
    • 尽管这种方法生成了无标签任务数据,但其规模仍然较小,仅包含来自四个任务的 24万 个 token
  • 论文使用每种 Efficient DACP 方法选择了 10% 的语料库子集(注:详情见表1)
  • TACP 和 Efficient DACP 方法均运行一个 epoch,并使用与 DACP 相同的预训练配置以确保公平比较
  • 由于计算预算限制,论文使用 Pythia-1B 运行这些实验
  • 每个任务的结果通过 10 次随机种子的运行均值报告(10次随机种子,666!)
  • 评估结果如 表3 所示
    • TACP 相比原始 Pythia-1B 显示出显著的性能提升
    • 在 DACP、TACP 和 Efficient DACP 所有方法中,ETS-DACP 表现最佳 ,平均任务性能最高
      • 注:相同数量 token 下,DACP 结果比 Efficient DACP 差
    • 结果说明:无标签任务数据上进行任务自适应和领域持续预训练 LLM 的有效性
      • 这与小语言模型中的结果一致 (2020)
  • 我们可以观察到以下几点:
    • ETS-DACP(使用 10% 数据)优于 DACP(使用 100% 数据);
    • ETS-DACP 在所有三种对比方法中表现最佳 ,与结合三种度量的 ETS-DACP-com 相当;
    • ETA-DACP-ent 未使用任何任务数据(仅使用 10% 语料库训练)表现接近第二 ,明显优于普通 DACP;
    • 硬采样的 Efficient DACP 方法优于软采样方法
    • 补充观察:按照 PPL 采样的数据效果甚至低于原始 Pythia-1B ,应该是这些数据会导致模型分布偏移到模型未知的区域
  • 这些结果清楚地表明:并非所有数据对持续预训练都同等重要;
    • Efficient DACP 方法使用的所有数据(10%)都是 DACP 数据的子集
    • 由于 DACP(100%)的性能低于 ETS-DACP 或 ETA-DACP-ent,加入不相关数据和低熵数据会损害性能
      • 注:硬采样和软采样结果之间的差异进一步支持了这一观察
    • 不同任务间表现不完全相同,但可以确定的是加入不相关数据和低熵数据会损害性能(PPL 采样的数据效果不好)
    • 核心结论:领域持续预训练的数据应精心筛选
  • 需要注意的是,10% 的领域数据(2.39B token)仅占基础 Pythia 训练数据(3000 亿 token)的不到 1%
    • 结论:在持续预训练的数据筛选过程中选择性更强,可以以较低成本显著提升领域性能
    • 这些结果证明了在领域和任务(子领域)上进行持续预训练的有效性
  • 一个自然的问题是:LLM 是否会因为专注于狭窄领域而丧失其通用性? 即LLM 是否会因成为专家而牺牲通用性?
    • 论文通过测量持续预训练的 LLM 变体在 Pythia 评估的非领域任务上的性能来回答这个问题
    • 表4 展示了四个非金融标准任务的表现,论文没有观察到这四个非领域任务的性能有显著变化
      • 理解:实际上还是有微弱降低的,且 ppl 采样方式可提升通用任务的效果
      • 注:结合整体来看,ETS-DACP-com 效果是最好的,通用任务和领域任务效果均不错

Ablation on Percentage of Pre-training Data Selected

  • 论文在图2 中展示了预训练数据比例的消融实验
  • 论文发现:
    • ETS-DACP 和 ETA-DACP-ent 方法在 5% 的预训练数据时平均 F1 分数接近 59%,并在使用 10% 的预训练数据后开始下降
      • 这表明,添加信息量较少的样本会降低性能 ,因为 LLM 会学习不那么有用的示例,从而调整其分布
    • 对于 DACP,论文观察到性能持续提升
    • 困惑度选择的数据(ETA-DACP-perplexity)在 1% 时表现出高于 DACP 的性能,之后显著下降,在 5% 时达到最低性能,随后恢复
      • 通过进一步调查 1%-5% 预训练数据区域中基于困惑度选择的样本,论文发现其中包含大量缺乏自然语言文本的长表格
      • 这种分布变化可能是基于困惑度的数据选择性能下降的原因
  • 数据选择指标的比较(Comparison of Data Selection Metrics)
    • 从表1 和图2 的结果中可以看出
      • 基于任务相似性的选择效果最佳 :训练数据与任务数据的相似性对(预)训练最有益
      • 熵是第二优但有效的任务无关领域预训练数据选择技术
    • 最高熵样本基于命名实体分布选择,这些样本会包含更多领域特定实体(如名称),而低熵样本的实体类型较少
      • 论文的假设是,这些样本让 LLM 接触到更多领域知识,而低熵样本的信息量较少
    • 困惑度表现出一个有趣的现象:初始 1% 的高困惑度样本有益,但之后无益
      • 高困惑度样本对模型来说更新颖,但新颖性可能来自分布外或低质量样本
      • 在困惑度前 1% 的样本中,论文观察到高质量的金融文章,而在 1% 到 5% 的范围内,论文发现了包含长表格的样本,这些样本可能对基础模型的训练来说是噪声
    • 困惑度更易受数据噪声的影响 ,而熵度量则避免了这些噪声样本
  • 由于大多数大型数据集可能包含噪声样本 ,基于困惑度的数据选择不是一个好方法
  • 困惑度与其他两种度量(相似性 0.21,熵 0.14)之间的相关性较低 ,其他两种度量避免了选择噪声样本
  • 鉴于论文通常希望领域 LLM 在未见任务上表现良好,将预训练适应于任务无关框架更为合适
  • 核心结论:基于论文的实验,熵度量在任务无关性和下游任务性能上均表现优异

Related Work

  • 领域特定大语言模型(Domain-specific LLMs) :
    • 尽管大多数发布的 LLM 是通用模型,领域特定的 LLM 已成为有价值的对应物
      • MedPaLM 在医学语料库上训练,在医学基准测试中取得了 SOTA 结果 (2022, 2023)
      • Bloomberg 则从头开始在金融语料库上开发了金融 LLM (2023b)
    • 持续预训练提供了一种替代从头开始构建领域特定 LLM 的方法
      • Wu 等 (2023a) 通过在医学论文上持续预训练 LLaMA (2023) 构建了医学 LLM
  • 语言模型的持续预训练(Continual Pre-training of LMs)
    • 在无标签数据上持续预训练 LM 已被证明对任务性能有益 (2020; 2020)
      • Aharoni and Goldberg (2020) 指出,在相似领域上持续预训练有助于任务性能
      • 最接近论文工作的是 Data Selection for Language Models via Importance Resampling, NeurIPS 2023, Stanford
        • 他们基于与目标任务数据分布的相关性,通过重要性采样方案选择数据
    • 以上这些工作仅使用任务数据,论文还提出了一种任务无关的方法 ETA-DACP,因为任务相似性并不总是可行
    • 其他方法如 DAS (2023) 不预先选择数据,而是在训练过程中动态进行重要性采样,这使得其成本是普通预训练的 3 倍
      • 此外,DAS 使用两个模型副本之间的对比学习,增加了内存需求
    • 与所有这些在小语言模型(如 BERT/RoBERTa)上进行实验的方法不同,据论文所知,论文是第一个探索 LLM 持续预训练数据选择的工作
  • 数据选择(Data Selection)
    • 持续预训练的数据选择在选择最有价值的训练样本中起着关键作用
    • 各种独立于特定领域或任务的语言特征已被证明对数据选择和学习课程有益 (2017; 2016)
    • 在 LLM 的背景下,对于如何筛选预训练数据,尤其是持续预训练数据的理解仍然有限
    • 据论文所知,论文是第一个在 LLM 持续预训练背景下尝试数据选择的工作

Limitations

  • 巨大的计算需求(Huge Computational Requirements) :论文使用 AWS 上的 p4d.24xlarge 实例运行实验,成本非常高(每天 800-1000 美元)
    • 因此,运行这些实验非常昂贵,很少有研究人员有资源进行此类实验
    • 然而,由于论文的方法正是通过降低预训练成本来解决这一问题,作者相信论文的工作将有助于 LLM 的民主化,尽管成本仍然较高
  • 领域泛化(Domain Generalization) :论文的结果和实验完全基于金融领域
    • 这些结果可能无法推广到其他领域
    • 由于预训练实验的高昂成本,论文无法将其扩展到其他领域
  • 模型泛化(Model Generalization) :论文的数据选择方法已在 Pythia-1B 模型上测试,但可能无法推广到更大规模的模型
    • 在 7B 等更大模型上展示论文讨论的四种数据选择策略变体的计算成本过高
    • 然而,表2 中显示在 7B 模型上持续预训练的效果(+8.27%)远高于 1B 模型(+2.82%),这一结果令人鼓舞
  • 与从头训练领域 LLM 的对比(Comparison with training a Domain LLM from scratch) :
    • 尽管论文提出了一种比从头训练领域 LLM 更便宜的替代方案,但目前尚不清楚这两种策略中哪一种更适合创建领域 LLM:从头训练领域 LLM 还是持续预训练

附录A BloombergGPT 性能基准测试(Benchmark BloombergGPT’s Performance)

  • 注:BloombergGPT 是一个用于金融的大型语言模型,是彭博社(Bloomberg)和约翰霍普金斯大学联合开发的
  • 由于 BloombergGPT 使用内部数据分割进行评估,且报告指标的计算细节可能不一致,因此无法直接将其结果与论文的结果进行比较
  • 为了充分评估持续预训练的效果,论文基于 FLARE 框架对 BloombergGPT 进行基准测试
    • 具体包括评估 OPT-66B 和 GPT-NeoX-20B 在 FLARE 中的性能,并与Wu等人(2023b)报告的结果进行对比
    • 这种严格的基准测试确保了评估的公平性和全面性,为论文的持续预训练方法与从头训练的金融 LLM 的效果比较提供了有价值的见解
  • 表5展示了对比结果
    • GPT-NeoX 在两种评估框架下的平均任务性能相似,但在单个任务上的表现存在差异
      • 例如,FLARE 评估的 FiQA SA 任务的 F1 分数比 BloombergGPT 的评估结果高出 46%,而 Headline 和 NER 任务的 F1 分数则较低
    • OPT-66B 在 FLARE 上的所有4个任务结果均低于 BloombergGPT 的评估结果,平均任务性能低了20%
      • 这些结果表明,BloombergGPT 的评估结果相较于 FLARE 可能存在高估。除非 BloombergGPT 在 FLARE 上进行基准测试或其评估配置公开,否则这一比较仍无法定论

附录B Intuition behind Domain Task Performance and Data Selection

  • 本节论文将问题形式化,并从数学角度解释为何基于相似性的方法效果最佳
  • 问题形式化 :给定一个未标注的领域预训练语料库 \(\mathcal{U}\)(图1中的绿色区域),接下来分为两种场景:是否存在未标注的任务语料库
    • 第一种场景是存在任务语料库(单个或多个任务)\(\mathcal{T}\)(图1中的红色区域)
    • 通常,任务语料库是领域语料库的子集,即 \(\mathcal{T} \subset \mathcal{U}\),且 \(|\mathcal{U}| \gg |\mathcal{T}|\)
    • 数据选择的目标是从 \(\mathcal{U}\) 中选择一个子集 \(\mathcal{D}\),以最有助于预训练 LLM 模型
    • 论文假设所选领域语料库子集远大于任务语料库,即 \(|\mathcal{D}| \gg |\mathcal{T}|\)
    • 数据选择问题可以形式化为选择最优子集 \(\mathcal{D}^* \subset \mathcal{U}\):
      $$
      \mathcal{D}^* = \mathop{argmin}_{\mathcal{D} \subset \mathcal{U} } \mathbb{E}_{x \in \mathcal{T} }[\mathcal{L}_t(y|f(\theta^*;x))]
      $$
      • \(f(\theta;\cdot)\) 是参数为 \(\theta\) 的 LLM
      • \(y\) 是任务输出,\(x\) 是目标任务数据 \(\mathcal{T}\) 的输入
      • \(\mathcal{L}_t\) 是目标任务损失或指标
      • \(\theta^*\) 通过预训练任务计算:
        $$
        \theta^* = \operatorname*{argmin}_{\theta} \mathbb{E}_{x_u \in \mathcal{D} }[\mathcal{L}_{\text{pre-train} }(f(\theta;x_u))]
        $$
        • \(\mathcal{L}_{\text{pre-train} }\) 是预训练损失
        • \(x_u\) 是 \(\mathcal{D}\) 中的未标注样本
  • 论文的领域自适应持续预训练可以从无监督领域自适应(2016)的角度理解
    • 源数据是大型无监督领域语料库,目标数据是目标任务数据
    • 通过预训练,论文无法直接控制与任务训练数据的对齐;论文的思路是通过在预训练中与领域对齐,使LLM与任务对齐
    • 这一直觉得到了LLM预训练在开放领域任务上提升性能的证据支持
  • 论文使用(2016;2010)的泛化界,因为论文的问题与无监督领域自适应类似
    • 给定假设空间为 \(\mathcal{H}_p\),其中 \(f \in \mathcal{H}_p\);
    • 在源数据 \(\mathcal{D}\) 和任务数据 \(\mathcal{T}\) 上的泛化误差分别为 \(\epsilon_{\mathcal{D} }\) 和 \(\epsilon_{\mathcal{T} }\)
    • 泛化界可以表示为:
      $$
      \epsilon_{\mathcal{T} }(f) \leq \epsilon_{\mathcal{D} }(f) + \frac{1}{2} d_{\mathcal{H}_p \Delta \mathcal{H}_p}(\mathcal{D}, \mathcal{T}) + \mathcal{C}
      $$
      • 其中,\(d_{\mathcal{H}_p \Delta \mathcal{H}_p}\) 是 \(\mathcal{D}\) 和 \(\mathcal{T}\) 之间的分布差异距离,由(Ganin等,2016)界定:
        $$
        d_{\mathcal{H}_p \Delta \mathcal{H}_p}(\mathcal{D}, \mathcal{T}) \leq 2 \sup_{\alpha(h) \in \mathcal{H}_d} [\alpha(h) - 1]
        $$
        • \(\alpha(h)\) 是最优领域分类器
        • \(\mathcal{H}_d\) 是领域分类器的假设空间
  • Zhao等(2017)证明,当领域分类器具有随机预测(达到最高熵状态)时,差异距离 \(d_{\mathcal{H}_p \Delta \mathcal{H}_p}(\mathcal{D}, \mathcal{T})\) 最小
  • 作者认为,当两个领域样本的表示最相似时,领域分类器无法区分两个数据集的分布,从而实现这一状态。
  • 基于这一直觉,我们可以使用与任务数据集 \(\mathcal{T}\) 表示最相似的样本选择策略
  • 论文使用 Embedding 相似性作为数据集相似性的代理,因为在大型语料库中获取最优表示具有挑战性且不切实际

附录C Qualitative Evaluation

  • 表6 展示了 Pythia-6.9B 和 FinPythia-6.9B 生成的定性示例
  • 通过观察发现,FinPythia-6.9B 在回答金融相关问题时能够生成更相关且详细的响应
    • 例如,在第一个示例中,Pythia 对金融领域术语“SPAC”一无所知并开始产生幻觉,而 FinPythia 给出了 SPAC 的正确定义
    • 其他三个示例也表现出相同的趋势
  • 这些结果表明,持续预训练帮助 FinPythia-6.9B 获得了 Pythia 所缺乏的领域知识

附录D Train and Test Loss of Continual Pre-training Methods

  • 为了监控预训练过程,论文从金融语料库中随机抽取 0.1% 作为金融测试数据集,并在 Pile 测试数据集上评估模型
    • 理解:相当于 金融数据集 + Pile 数据集(开放领域)同时做测试
    • 注:Pile 数据集是一个用于大语言模型训练的多样性大规模文本语料库,由 22 个不同的高质量子集构成,包括现有的和新构建的,许多来自学术或专业来源。这些子集包括 Common Crawl、Wikipedia、OpenWebText、ArXiv、PubMed 等(Pile 数据集总计规模大小有825GB 英文文本)
  • 图3 展示了 FinPythia-6.9B 的损失轨迹(图中的训练损失通过 50 个优化步骤的移动平均平滑处理)
    • 论文观察到,在持续预训练的早期阶段,金融测试(Fin test)损失急剧下降,随后逐渐趋于饱和,这与从头训练的损失轨迹类似(2023b;)
    • 损失日志表明,领域自适应持续预训练成功地将 Pythia 适配到金融领域,同时 Pile 测试(Pile test)损失仅有轻微增加
  • 图5 展示了论文的高效 DACP 方法在金融领域损失(Fin Test)和开放领域损失(Pile Loss)上的表现
    • ETS-DACP-com(硬采样)的 Fin Test 损失最低
      • 因为它结合了任务知识以及金融语料库中高熵/高困惑度的样本(这种选择差异如 图4 所示)
    • 软采样方法的所有 Fin Test 损失相似
      • 因为论文对整个金融语料库空间进行采样,使模型能够看到语料库的完整空间(图1中的绿点),类似于图4(b)
    • 硬采样的 ETS-DACP 上 Fin Test 损失和 Pile Test 损失较高
      • 因为它局限于任务分布(图4(a)中的蓝色区域),而任务无关方法则覆盖了更广泛的金融语料库分布(图4(b))
    • ETA-DACP-ent 和 ETA-DACP-ppl 的损失曲线相似
      • 因为它们都从整个金融语料库中采样
    • ETS-DACP-com 的损失高于这两者但低于 ETS-DACP
      • 因为它是三种采样技术的混合
  • ETS-DACP 在开放领域 Pile Loss 上的损失最高
    • 然而,论文并未观察到 ETS-DACP 在开放领域任务上的性能显著下降(注:其实是降低了的,-2.85% 不算太低了吧)
  • ETA-DACP-ent 和 ETA-DACP-ppl 的损失高度相关(各个测试集上表现都差不多),而 ETA-DACP-ppl 在论文的任务上表现始终明显较差
    • 这说明:实际任务性能与损失曲线之间相关性较低(损失函数不能作为衡量实际任务性能的唯一指标),使用未标注数据的验证/测试损失作为任务性能的代理(proxy)并不理想(至少在该领域中如此)
      • 这与(Liu等,2023)关于任务性能与预训练损失低相关性的观察一致

附录E 困惑度、相似性与多样性(Perplexity, Similarity, and Diversity)

  • 本节论文深入分析金融语料库中困惑度、相似性和多样性的分布。论文发现,这三个指标均呈现高度偏态分布。具体而言,如图7顶部所示,相似性指标呈现双峰模式,可能是由于金融语料库中存在两个不同的数据源
  • 图6 展示了三个指标的 Spearman 秩相关性
    • 三个指标的相关性较低,表明通过这三个指标排序选择的数据子集重叠度不高
    • 这启发论文创建 ETS-DACP-com 方法,将三个指标结合起来以平衡不同维度
  • 图8 展示了硬采样下各高效 DACP 方法所选子集的三个指标分位数分布

附录F ETS-DACP-com vs ETS-DACP

  • ETS-DACP-com 有效平衡了领域特定 LLM 和任务特定 LLM 的构建
    • 为证明其有效性,论文使用相似性、知识新颖性和多样性的平均分位数作为采样权重,通过加权采样选择 10% 和 20% 的金融语料库(无放回)构建训练数据
  • 图8 展示了金融语料库各子集的平均样本分位数
  • 作者认为,对三个指标的分位数取简单平均可以在三个维度之间实现良好平衡——每个子集的三个维度平均分位数处于相近范围
  • 相比之下,ETS-DACP 的子集表现出更高的困惑度和较低或中等的熵,表明未标注任务数据包含新知识但多样性较低
  • 对于 ETA-DACP-ppl 和 ETA-DACP-ent,样本在其他两个维度上分布均匀

附录G Financial Dataset Curation

  • 常见的金融语料库包括SEC文件(2018)、电话会议记录(2019)、分析师报告、金融推文(2022)、金融新闻(2018)等
  • 论文使用来自Financial News CommonCrawl和SEC文件的金融新闻和文件构建金融领域语料库,具体步骤如下:
  • Financial News CommonCrawl [13.2B词,83.5%]
    • 论文通过预处理 AWS S3 上公开的 2016年 至 2022年 News CommonCrawl 数据转储,构建英文金融新闻数据集
    • 为从大量新闻数据中识别金融新闻文章,论文采用两种过滤机制:域名过滤和 URL 关键词过滤
    • 首先,论文建立了一个全面的金融新闻网站域名组合,例如 CNBC,保留这些来源的新闻文章,它们构成了金融语料库的主要部分
    • 其次,为从一般新闻媒体中捕获金融文章,论文观察到许多媒体为商业、经济或金融新闻设置了专门板块或子域名(例如Fox Business)。论文采用基于关键词的方法有效识别这些金融文章
    • 过滤过程确保选择适合金融领域持续预训练的语料库
  • SEC文件 [3.3B words,16.5%] :
    • 美国上市公司需定期提交财务报表
    • 美国证券交易委员会(SEC)通过电子数据收集、分析和检索(Electronic Data Gathering, Analysis, and Retrieval,EDGAR)系统公开这些文件
    • 论文纳入了 1993年 至 2022年 的 10K 文件,并使用 Loukas等人(2021)的包进行解析和预处理
    • 此外,论文删除了少于 20 words 的报告部分以提升语料库质量
  • 用于过滤金融新闻的域名列表(List of Domains used to Filter Financial News) :
    • 论文使用以下关键词识别子域名和 URL:economy、market、finance、money、wealth、invest、business、industry

RS——COBRA

Cascaded Organized Bi-Represented generAtive retrieval, COBR

  • 参考链接:
    • (COBRA)Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations, 202503, Baidu

整体思路

  • 现有召回方案的问题 :生成模型能够直接从用户交互序列中预测 item ID,但现有方法难以达到 sequential Dense 召回技术的建模精度(原因是量化、序列建模等阶段的分离导致严重的信息损失),整合生成式与 Dense 召回方法仍是一个关键挑战
  • 论文提出一种生成式召回方法COBRA(Cascaded Organized Bi-Represented generAtive retrieval):
    • 核心亮点 :通过级联过程(Cascading Process)创新性地整合 Sparse 语义 ID 与 Dense 向量,提升召回准确性和多样性
    • 具体思路 :交替生成 Sparse 语义 ID 与 Dense 向量这两种表示,先生成 Sparse ID ,再将其作为条件辅助生成 Dense 向量(Sparse ID 是 Dense 向量的生成条件)
      • 训练时 :端到端训练实现了 Dense Representation 的动态优化,同时捕捉 user-item 交互中的语义信息与协同信号
      • 推理时 :COBRA 采用 Coarse-to-Fine的策略,首先生成 Sparse ID,再通过生成模型将其细化为 Dense 向量
    • 论文还提出了 BeamFusion 方法,结合 Beam Search 与最近邻分数(Nearest Neighbor Scores)以提升推理灵活性与推荐多样性
  • 实验 :离线+在线实验

一些讨论

  • 序列推荐(Sequential Recommendation)方法,利用用户交互的时序特性提升推荐性能。SASRec 和 BERT4Rec 等模型证明了序列模型在捕捉用户行为模式上的有效性
  • 生成模型可直接基于用户行为序列预测目标 item(与传统序列推荐方法不同)
    • 生成模型能处理复杂的 user-item 交互,并具备推理和小样本学习(few-shot learning)等新兴能力,显著提升推荐准确性与多样性
    • TIGER 是生成式推荐领域的开创性工作。如图1(左下)所示,TIGER利用残差量化变分自 Encoder (RQ-VAE)将 item 内容特征编码为分层语义 ID,使模型能在语义相似 item 间共享知识和 Embedding(不是独立的 item Embedding)
    • 除 TIGER 外,其他方法也探索了生成模型与推荐系统的融合
      • LC-Rec 通过一系列对齐任务将语义与协同信息结合;
      • ColaRec 从预训练推荐模型中获得(deriving)生成式标识符,整合协同过滤信号与内容信息;
      • IDGenRec 利用大语言模型生成独特、简洁且语义丰富的文本标识符,在零样本(zero-shot)场景中展现出强大潜力
  • 现有生成式推荐方法的挑战 :(相比序列 Dense 召回方法的挑战)
    • 问题 :序列 Dense 召回方法依赖每个 item 的 Dense 嵌入,具有高准确性和鲁棒性,但需要大量存储和计算资源;生成式方法高效,却常难以建模细粒度相似性
      • 理解:细粒度相似性指的是一些 item 的统计信息相似,但是 ID 完全不想关?
    • 解决思路 :为有效结合两种召回范式的优势,论文提出 COBRA(协同生成式与 Dense 召回的框架),图1(右)展示了 COBRA 中级联 Sparse-Dense Representation 的结构
      • 该方法通过交替生成 Sparse ID 与 Dense 向量的级联生成式召回框架,缓解了基于 ID 方法固有的信息损失
    • 具体实现 :COBRA 的输入是由用户交互历史中 item 的 Sparse ID 和 Dense 向量组成的级联表示(Cascaded Representations)序列
      • 训练时,Dense Representation 通过端到端的对比学习目标进行学习
        • 先生成 Sparse ID 再生成 Dense Representation ,降低了 Dense Representation 的学习难度并促进两种表示间的相互学习
      • 推理时,COBRA 采用 Coarse-to-Fine 生成过程:
        • 先生成 Sparse ID 以捕获 item 的高层类别特征 ,随后将该 ID 追加至输入序列并反馈至模型中以预测捕捉细粒度细节的 Dense 向量 ,从而实现更精准的个性化推荐
      • 此外,为确保灵活推理,论文引入 BeamFusion 采样技术,结合 Beam Search 与最近邻分数,确保召回 item 的多样性可控
        • 与仅依赖 Sparse ID 的 TIGER 不同,COBRA 同时利用了 Sparse 与 Dense Representation 的优势
  • 论文的主要贡献如下:
    • 提出 COBRA 框架 :交替生成 Sparse 语义 ID 与 Dense 向量,将 Dense Representation 融入 ID 序列,补充了基于 ID 方法的信息损失;以 Sparse ID 为条件生成 Dense 向量,降低了 Dense Representation 的学习难度
    • 端到端训练的可学习 Dense Representation :COBRA 利用原始 item 数据作为输入,通过端到端训练生成 Dense Representation。不同于静态嵌入,COBRA 的 Dense 向量是动态学习的,能捕捉语义信息与细粒度细节
    • Coarse-to-Fine 生成过程 :推理时,COBRA 先生成 Sparse ID,再将其反馈至模型生成优化的 Dense Representation,提升向量的细粒度。此外,论文提出 BeamFusion 以实现灵活多样的推荐
    • 实验 :离线+在线

相关工作(直译)

  • 序列 Dense 推荐 :序列 Dense 推荐系统利用用户交互序列学习用户与 item 的 Dense Representation [8, 15, 21],捕捉长期偏好与短期动态[25, 51, 22, 10]
    • 早期模型如 GRU4Rec[14]使用循环神经网络(RNN)[49]捕捉用户行为的时间依赖性
    • Caser[39]将序列视为“图像”,应用卷积神经网络(CNN)[36]提取空间特征
    • Transformer 相关模型如 SASRec[18]和 BERT4Rec[37]显著推动了该领域发展,这些模型采用自注意力机制捕捉复杂用户行为,其中 SASRec 专注于自回归任务,BERT4Rec侧重双向上下文建模
    • PinnerFormer[30]和 FDSA[52]等更先进的模型通过利用 Transformer 进行长期行为建模与特征整合,进一步提升了用户表示
    • ZESRec[8]、UniSRec[15]和 RecFormer[21]等近期工作通过融合文本特征和对比学习技术,强调了跨领域可迁移性,RecFormer 尤其通过双向 Transformer 统一了语言理解与序列推荐
  • 生成式推荐 :生成模型在各领域的普及推动了推荐系统从判别式向生成式模型的范式转变[17, 44, 26, 27, 42, 46]。生成模型直接生成 item 标识符而非计算每个 item 的排序分数[11, 34, 38, 54]
    • P5[11]将多种推荐任务转化为自然语言序列,通过独特训练目标和提示为推荐补全提供通用框架
    • TIGER[33]首创将生成式召回应用于推荐,利用残差量化自 Encoder 创建语义丰富的索引标识符,随后由基于Transformer的模型从用户历史中生成 item 标识符
    • LC-Rec[53]通过额外对齐任务将语义标识符与协同过滤技术结合以增强效果
    • IDGenRec[38]将生成式系统与大语言模型结合,生成独特且语义 Dense 的文本标识符,在零样本场景中表现优异
    • SEATER[34]通过平衡的k叉树结构索引保持语义一致性,并结合对比与多任务学习优化
    • ColaRec[45]对齐基于内容的语义空间与协同交互空间以提升推荐效果
    • 以上现有的生成式方法仍面临挑战,例如:
      • 基于离散 ID 的方法:可能缺乏细粒度细节并存在信息损失 ,限制其准确捕捉用户偏好的能力[48]
      • 依赖自然语言的方法:可能难以将语言表达与推荐任务需求对齐 ,导致性能欠佳[25]
    • 为解决以上这些问题,LIGER[48]提出结合生成式与 Dense 召回优势的混合模型,同时生成 Sparse ID 与 Dense Representation ,将其视为同一对象粒度的互补表示
      • 该混合方法在一定程度上缩小了生成式与 Dense 召回间的差距;
      • 但 LIGER 的 ID 与 Dense Representation 共享相同粒度,且 Dense Representation 是预训练且固定的。因此,如何更灵活地结合生成式与 Dense 召回仍是待探索的开放问题

COBRA框架方法

  • 本节介绍 COBRA(Cascaded Organized Bi-Represented generAtive Retrieval)框架,该框架通过级联 Sparse-Dense Representation 和 Coarse-to-Fine 生成过程提升推荐性能。图2展示了 COBRA 的整体框架

Sparse-Dense Representation

Sparse 表示
  • COBRA 使用残差量化变分自 Encoder (RQ-VAE)生成 Sparse ID,灵感来源于 TIGER[33]的方法。对于每个 item ,提取其属性生成文本描述,将其嵌入 Dense 向量空间并量化生成 Sparse ID。这些 ID 捕捉 item 的类别本质,为后续处理奠定基础
  • 注:为简洁起见 ,后续方法描述假设 Sparse ID 仅包含单层,但该方法可轻松扩展至多层场景
Dense Representation
  • 端到端可训练的 *Dense Encoder * :用于对 item 文本内容进行编码(可捕捉细粒度的属性信息)
    • 每个 item 的属性被展平为文本句子,前缀为 [CLS] token,并输入基于 Bidirectional Transformer 的文本 Encoder Encoder
    • Dense Representation \(\mathbf{v}_{t}\) 从 [CLS] token 对应的输出中提取,捕捉 item 文本内容的细粒度细节
  • 如图2下半部分所示,论文加入位置 Embedding 和类型 Embedding 以建模序列中 token 的位置和上下文。这些 Embeddings 以加法方式与 token Embedding 结合,增强模型区分不同 token 及其在序列中位置的能力
    • 注:文中未指明类型(type) Embedding是什么
Cascaded Representation
  • 思路 :Cascaded Representation(级联表示)将 Sparse ID 和 Dense 向量整合到统一的生成模型中
  • 具体方案 :对于每个 item,论文将其 Sparse ID \( ID_{t}\) 和 Dense 向量 \(\mathbf{v}_{t}\) 组合为级联表示 \(( ID_{t},\mathbf{v}_{t})\)
    • 该方法结合两种表示的优势,提供更全面的 item 表征:Sparse ID 通过离散约束提供稳定的类别基础,而 Dense 向量保持连续特征分辨率,确保模型同时捕捉高层语义和细粒度细节

序列建模(Sequential Modeling)

概率分解(Probabilistic Decomposition)
  • 思路 :目标 item 的概率分布建模分为两个阶段,利用 Sparse 和 Dense Representation 的互补优势
  • 具体方案 :COBRA 不直接基于历史交互序列 \(S_{1:t}\) 预测 next item \(s_{t+1}\),而是分别预测 Sparse ID \( ID_{t+1}\) 和 Dense 向量 \(\mathbf{v}_{t+1}\):
    $$P( ID_{t+1},\mathbf{v}_{t+1}|S_{1:t})=P( ID_{t+1}|S_{1:t})P(\mathbf{v}_{t+1}| ID_{t+1},S_{1:t})$$
    • \(P( ID_{t+1}|S_{1:t})\) 表示基于历史序列 \(S_{1:t}\) 生成 Sparse ID \( ID_{t+1}\)的概率,捕捉下一个 item 的类别本质;
    • \(P(\mathbf{v}_{t+1}| ID_{t+1},S_{1:t})\) 表示在给定 Sparse ID \( ID_{t+1}\) 和历史序列 \(S_{1:t}\) 下生成 Dense 向量 \(\mathbf{v}_{t+1}\) 的概率,捕捉下一个 item 的细粒度细节
    • 这种分解使 COBRA 能够同时利用 Sparse ID 提供的类别信息和 Dense 向量捕捉的细粒度细节
    • 注:论文中未明确,但根据上下文信息可以推测 \(s_{t}\) 的定义为 \(s_{t} = ( ID_{t},\mathbf{v}_{t})\)
统一生成模型的序列建模(Sequential Modeling with a Unified Generative Model)
  • 使用基于 Transformer 架构的统一生成模型做序列建模,有效捕捉 user-item 交互中的序列依赖关系:
    • Transformer 接收级联表示的输入序列,每个 item 由其 Sparse ID 和 Dense 向量表示
  • Sparse ID 嵌入 :Sparse ID \( ID_{t}\)通过嵌入层转换为 Dense 向量空间:\(\boldsymbol{e}_{t}=\textbf{Embed}( ID_{t})\)。该 Embedding \(\boldsymbol{e}_{t}\) 与 Dense 向量 \(\mathbf{v}_{t}\) 拼接形成模型在每一步的输入:
    $$\mathbf{h}_{t}=[\boldsymbol{e}_{t};\mathbf{v}_{t}]$$
  • Transformer建模 :论文的Transformer Decoder 模型包含多层,每层具有自注意力机制和前馈网络
    • 如图2上半部分所示, Decoder 的输入序列由级联表示组成
    • 为增强序列和上下文信息建模,这些表示加入了 item 位置和类型 Embedding
    • 为简洁起见,后续数学公式聚焦于级联序列表示,省略位置和类型嵌入的显式 token
    • Decoder 处理这一增强的输入,生成用于预测后续 Sparse ID 和 Dense 向量的上下文表示
  • Sparse ID 预测 :给定历史交互序列\(S_{1:t}\),为预测 Sparse ID \( ID_{t+1}\),Transformer的输入序列为:
    $$S_{1:t}=[\mathbf{h}_{1},\mathbf{h}_{2},\ldots,\mathbf{h}_{t}]=[\boldsymbol{e}_{1},\mathbf{v}_{1},\boldsymbol{e}_{2},\mathbf{v}_{2},\ldots,\boldsymbol{e}_{t},\mathbf{v}_{t}]$$
    • 其中每个 \(\mathbf{h}_{i}\) 是第 \(i\) 个 item 的 Sparse ID 嵌入和 Dense 向量的拼接
    • Transformer 处理该序列生成上下文表示,随后用于预测下一个 Sparse ID 和 Dense 向量。Transformer Decoder 处理序列 \(S_{1:t}\),生成向量序列\(\mathbf{y}_{t}=\textbf{TransformerDecoder}(S_{1:t})\)。Sparse ID 预测的logits通过下式得到:
      $$\mathbf{z}_{t+1}=\textbf{SparseHead}(\mathbf{y}_{t})$$
      • 其中 \(\mathbf{z}_{t+1}\) 表示预测 Sparse ID \( ID_{t+1}\) 的logits
  • Dense 向量预测 :为预测 Dense 向量\(\mathbf{v}_{t+1}\),Transformer的输入序列为:
    $$\tilde{S}_{1:t}=[S_{1:t},\boldsymbol{e}_{t+1}]=[\boldsymbol{e}_{1},\mathbf{v}_{1},\boldsymbol{e}_{2},\mathbf{v}_{2},\ldots,\boldsymbol{e}_{t},\mathbf{v}_{t},\boldsymbol{e}_{t+1}]$$
    • Transformer Decoder 处理\(\tilde{S}_{1:t}\),输出预测的 Dense 向量:
      $$\hat{\mathbf{v} }_{t+1}=\textbf{TransformerDecoder}(\tilde{S}_{1:t})$$

端到端训练(End-to-End Training)

  • 在 COBRA 中,端到端训练过程旨在联合优化 Sparse 和 Dense Representation 预测。训练过程由组合损失函数控制,该函数结合了 Sparse ID 预测损失和 Dense 向量预测损
  • Sparse ID 预测损失 \(\mathcal{L}_{\textrm{Sparse} }\) 确保模型能够基于历史序列 \(S_{1:t}\) 熟练预测下一个 Sparse ID:
    $$\mathcal{L}_{\textrm{Sparse} }=-\sum_{t=1}^{T-1}\log\left(\frac{\exp(\mathbf{z}_{t+1}^{ ID_{t+1} })}{\sum_{j=1}^{C}\exp(\mathbf{z}_{t+1}^{j})}\right)$$
    • \(T\) 是历史序列的长度
    • \( ID_{t+1}\) 是时间步 \(t+1\) 交互 item 对应的 Sparse ID
    • \(\mathbf{z}_{t+1}^{ ID_{t+1} }\) 表示 Transformer Decoder 在时间步 \(t+1\) 生成的真实 Sparse ID \( ID_{t+1}\)的预测 logit
    • \(C\) 表示所有 Sparse ID 的集合
    • 注:Sparse ID 预测损失本质是个交叉熵损失函数
  • Dense 向量预测损失 \(\mathcal{L}_{\textrm{Dense} }\) 聚焦于优化 Dense 向量,使其能够区分相似和不相似的 item,损失定义为:
    $$\mathcal{L}_{\textrm{Dense} }=-\sum_{t=1}^{T-1}\log\frac{\exp(\cos(\hat{\mathbf{v} }_{t+1}\cdot\mathbf{v}_{t+1}))}{\sum_{item_{j}\in\textrm{Batch} }\exp(\cos(\hat{\mathbf{v} }_{t+1},\mathbf{v}_{item_{j} }))}$$
    • \(\hat{\mathbf{v} }_{t}\) 是预测的 Dense 向量
    • \(\mathbf{v}_{t}\) 是正样本的真实 Dense 向量
    • \(\mathbf{v}_{j}\) 表示批次内 item 的 Dense 向量
    • \(\cos(\hat{\mathbf{v} }_{t+1}\cdot\mathbf{v}_{t+1})\) 表示预测和真实 Dense 向量之间的余弦相似度,较高的余弦相似度表明向量在方向上更相似,这对于准确的 Dense 向量预测是理想的
    • Dense 向量由端到端可训练的 Encoder Encoder生成,该 Encoder 在训练过程中优化,确保 Dense 向量动态调整并适应推荐任务的特定需求
    • 注:Dense 向量预测损失本质是个 InfoNCE
  • 总体损失函数为:
    $$\mathcal{L}=\mathcal{L}_{\textrm{Sparse} }+\mathcal{L}_{\textrm{Dense} }$$
  • 双目标损失函数实现了平衡的优化过程,模型在 Sparse ID 的引导下动态优化 Dense 向量。这种端到端训练方法同时捕捉高层语义和特征级信息,联合优化 Sparse 和 Dense Representation 以获得卓越性能
  • 问题:图2中的 上层 Bidirectional Transformer 和 (Casual) Transformer Decoder 是同时训练的吗?
    • 看起来是的,这也是论文所说的端到端训练

Coarse-to-Fine Generation

  • 在推理阶段,COBRA 实现 Coarse-to-Fine 生成过程,依次生成 Sparse ID 并级联优化 Dense 向量(如图3所示)
  • COBRA 中的 Coarse-to-Fine 生成过程旨在捕捉 user-item 交互的类别本质和细粒度细节。该过程包含两个主要阶段:
  • Sparse ID 生成 :给定用户序列 \(S_{1:T}\),论文利用 Transformer Decoder 建模的 ID 概率分布 \(\hat{\textit{ ID } }_{T+1}\sim P(t_{T+1}|S_{1:T})\),并采用 Beam Search 算法得到前 \(M\) 个 ID:
    $$\{\hat{\textsf{ ID } }^{k}_{T+1}\}_{k=1}^{M}=\textrm{BeamSearch}(\textbf{TransformerDecoder}(\textrm{S}_{1:T}),M)$$
    • \(k\in\{1,2,\ldots,M\}\)
    • 每个生成的 ID 关联一个 Beam 分数 \(\phi_{\hat{\textsf{ ID } }^{k}_{T+1} }\)
  • Dense 向量精细化(Dense Vector Refinement) :每个生成的 Sparse ID \(\hat{\textsf{ ID } }^{k}_{T+1}\) 随后转换为嵌入并追加到先前的级联序列嵌入 \(\textrm{S}_{1:T}\) 中,然后生成对应的 Dense 向量 \(\mathbf{\hat{v}}^{k}_{T+1}\):
    $$\mathbf{\hat{v}}^{k}_{T+1}=\textbf{TransformerDecoder}(\{\textrm{S}_{1:T},\textbf{Embed}(\hat{\textsf{ ID } }^{k}_{T+1})\})$$
  • ANN 搜索候选 item :对每一个 Sparse ID \(\hat{\textsf{ ID } }^{k}_{T+1}\),论文使用近似最近邻(ANN)搜索检索前 \(N\) 个候选 item :
    $$\mathcal{A}_{k}=\textrm{ANN}(\hat{\textsf{ ID } }^{k}_{T+1},C(\hat{\textsf{ ID } }^{k}_{T+1}),N)$$
    • \(C(\hat{\textsf{ ID } }^{k}_{T+1})\) 是与 Sparse ID \(\hat{\textsf{ ID } }^{k}_{T+1}\) 关联的候选 item 集合
    • \(N\) 表示要召回的 top item 数量
    • 理解:这里的 ANN 搜索是为 Beam Search 生成的每一个 \(k\),即 Sparse ID \(\hat{\textsf{ ID } }^{k}_{T+1}\) 都生成一个候选集合 \(\mathbf{\hat{v}}^{k}_{T+1}\)
    • 注:这里原论文未给出 ANN 的具体方法(是否与 Dense 向量 \(\mathbf{\hat{v}}^{k}_{T+1}\) 有关还未知)
  • BeamFusion 机制合并结果 :为实现精度和多样性的平衡,论文为每个 Sparse ID 对应的 item 设计全局可比分数。该分数能反映不同 Sparse ID 之间的差异以及同一 Sparse ID 下 item 间的细粒度差异。为此,论文提出 BeamFusion 机制:
    $$\Phi^{(\mathbf{\hat{v}}^{k}_{T+1},\hat{\textsf{ ID } }^{k}_{T+1},\mathbf{a})}=\textrm{Softmax}(\tau\phi_{\hat{\textsf{ ID } }^{k}_{T+1} })\times\textrm{Softmax}(\psi\cos(\mathbf{\hat{v}}^{k}_{T+1},\mathbf{a}))$$
    • \(\mathbf{a}\) 表示候选 item(理解:文章未明确说明,但通过上下文可推测:\(\mathbf{a} \in \mathcal{A}_{k}\))
    • \(\tau\) 和 \(\psi\) 是系数
    • \(\phi_{\hat{\textsf{ ID } }^{k}_{T+1} }\)表示 Beam Search 过程中获得的 Beam 分数
  • 最后,基于 BeamFusion 分数对所有候选 item 排序 ,并选择前 \(K\) 个 item 作为最终推荐:
    $$\mathcal{R}=\textrm{TopK}\left(\bigcup_{k=1}^{M}\mathcal{A}_{k},\Phi,K\right)$$
    • \(\mathcal{R}\) 表示最终推荐集合
    • TopK 表示选择具有最高 BeamFusion 分数的前 \(K\) 个 item 的操作

相关实验(离线+在线)

  • 数据:公开数据集 + 工业数据集
  • 指标:重点关注 COBRA 在提升推荐准确性和多样性方面的能力
  • 实验方式:离线 + 在线

公开数据集实验

数据集与评估指标
  • 采用 Amazon 产品评论数据集[13,29](注:该数据集是推荐任务的经典基准)
  • 该数据集包含从 1996年5月 至 2014年9月 收集的产品评论及相关元数据。论文选取了三个特定子集:”Beauty”、”Sports and Outdoors”和”Toys and Games”
  • 对于每个子集,论文利用标题、价格、类别和描述等属性构建 item 嵌入。为确保数据质量,论文应用了5-core过滤处理,剔除了交互次数少于5次的 item 和用户。数据集统计信息详见表1
  • 为评估推荐准确性和排序质量,论文采用 Recall@K(准确性)和 NDCG@K(排序质量)指标,其中 \(K=5\) 和 \(K=10\)
基线方法
  • 为全面评估 COBRA 的性能,论文将其与以下 SOTA 推荐方法进行比较(这些方法代表了多种推荐技术,包括序列 Dense 推荐和生成式推荐):
    • P5[11]:将推荐任务转化为自然语言序列
    • Caser[39]:使用卷积层捕捉序列模式
    • HGN[28]:通过分层门控网络建模用户长短期兴趣
    • GRU4Rec[14]:利用门控循环单元建模用户行为
    • SASRec[18]:基于 Transformer 的模型,用于捕捉长期依赖关系
    • FDSA[52]:自注意力模型,用于 item 特征转移
    • BERT4Rec[37]:结合双向自注意力与掩码目标函数
    • S³-Rec[55]:通过对比学习提升推荐效果
    • TIGER[33] :使用 RQ-VAE 编码 item 内容特征,并利用 Transformer 进行生成式召回
实现细节
  • 论文采用与 TIGER 类似的语义 ID 生成方法,但与其配置不同,论文使用 3 层语义 ID 结构,每层对应 Codebook 大小为32
  • 这些语义 ID 通过 T5 模型生成
    • 理解:这里原文表达有误,应该是需要从 item 文本描述中提取 Embedding,再进入 RQ-VAE 编码为离散 Code(也就是语义 ID),TIGER 中也使用了 Sentence-T5 作为第一步的文本编码器的
  • COBRA 采用轻量级架构实现,包含 1 层 Encoder 和 2 层 Decoder
结果
  • 如表2所示,COBRA 在各项指标上均超越所有基线模型

工业规模实验(Industrial-scale Experiments)

数据集与评估指标
  • 在百度工业数据集上进行实验,该数据集源自百度广告平台的用户交互日志,涵盖列表页、双栏和短视频等多种推荐场景
  • 数据集包含500万用户和200万广告,全面反映了真实世界的用户行为和广告内容
  • 广告和广告主通过标题、行业标签、品牌和活动文本等属性表示,这些属性被处理并编码为两层 Sparse ID 和 Dense 向量,捕捉粗粒度和细粒度语义信息。这种双重表示使 COBRA 能够有效建模用户偏好和 item 特征
  • 数据集分为两部分: \(D_{\text{train} }\) 和 \(D_{\text{test} }\)
    • 训练集 \(D_{\text{train} }\) 包含前60天的用户交互日志,覆盖该期间的推荐内容交互
    • 测试集 \(D_{\text{test} }\) 构建自 \(D_{\text{train} }\) 之后一天的日志,作为评估模型性能的基准
    • 离线评估采用 Recall@K 指标,测试 \(K \in \{50,100,200,500,800\}\),该指标衡量模型在不同阈值下准确召回推荐内容的能力
基线方法
  • 论文将 COBRA 与其变体进行比较:
    • COBRA w/o ID :移除 Sparse ID,仅依赖 Dense 向量。该变体类似于 RecFormer[21],使用轻量级 Transformer 进行序列建模
    • COBRA w/o Dense :移除 Dense 向量,仅使用 Sparse ID。由于 ID 的粗粒度特性,该变体采用类似 TIGER[33]的生成式召回方法,利用语义 ID 进行召回
    • COBRA w/o BeamFusion :移除 BeamFusion 模块,使用 top-1 Sparse ID 和最近邻召回获取 top-\(k\) 结果
实现细节
  • COBRA 基于 Transformer 架构实现
  • Encoder 将广告文本处理为序列,随后由 Sparse ID 头部预测2层语义 ID,配置为 \(32 \times 32\)
  • 变体 COBRA w/o Dense 采用 3 层语义 ID ( \(256 \times 256 \times 256\) ),以更细粒度地建模广告
结果
  • 如表3所示,COBRA 在所有评估指标上均优于其变体
  • 值得注意的是,在较小的 \(K\) 值时,缺少 Dense 或 Sparse 表示会导致更明显的性能下降,这凸显了级联表示对于实现粒度和精度的重要性。相反,随着召回规模 \(K\) 的增加,BeamFusion 的性能优势愈发明显,证明了其在工业召回系统中的有效性
  • 结果进一步凸显了特定组件的贡献:
    • 移除 Sparse ID(COBRA w/o ID)导致召回率下降 26.7%至41.5%,表明语义分类的关键作用
    • 移除 3 层语义 ID(COBRA w/o Dense)导致性能下降 30.3%至48.3%,说明细粒度建模的重要性
    • 移除 BeamFusion 导致召回率下降 27.5%至36.1%,强调了其在 Sparse ID 内部和 Sparse ID 之间的信息整合的重要性

进一步分析

表示学习分析
  • 为评估 COBRA 模型的表示学习能力,论文构建了广告 Dense 嵌入的相似度矩阵,如图4所示
  • 图4相关结论:
    • 图4a:COBRA 模型展现出显著的 ID 内凝聚性(intra-ID cohesion) 和 ID 间分离性(inter-ID separation) ,表明其 Dense 嵌入能够有效捕捉 item 细节特征,同时保持类别内的语义一致性
    • 图4b:无 Sparse ID 的模型变体显示出较弱的类别分离性,凸显了 Sparse ID 在保持语义结构中的重要性
    • 图4c:差异矩阵定量验证了 Sparse ID 对增强内聚性和分离性的作用
  • 通过 t-SNE 将广告嵌入分布可视化,进一步验证 COBRA 嵌入的效果。随机采样 10,000 个广告后,可观察到不同类别的明显聚类中心。图5显示广告按类别有效聚类,表明类别内的强内聚性。紫色、青色、浅绿色和深绿色聚类分别主要对应小说、游戏、法律服务和服装类广告,表明广告表示有效捕捉了语义信息
召回-多样性平衡
  • 在推荐系统的召回阶段,平衡准确性和多样性是一项挑战,为分析 COBRA 的这种权衡,论文研究了召回-多样性曲线(recall-diversity curves)
    • 该曲线描述了在固定 \(\phi=16\) 时,Recall@2000 和多样性指标如何随 BeamFusion 机制中的系数 \(\tau\) 变化
    • 如图6所示,增加 \(\tau\) 通常会导致多样性下降
  • COBRA 在 \(\tau=0.9\) 和 \(\phi=16\) 时达到召回与多样性的最佳平衡,此时模型在保持高准确性的同时确保推荐 item 覆盖足够多样的集合
    • 多样性指标定义 :召回 item 中不同 ID 的数量,反映模型避免冗余和为用户提供更广泛选择的能力
    • 通过精细控制 \(\tau\) 和 \(\phi\),实现业务目标

在线结果

  • 论文于 2025年1月 在百度工业数据集上进行了在线A/B测试
  • 测试覆盖 10% 的用户流量 ,确保统计显著性(ensuring statistical significance)
  • 主要评估指标 :转化率(用户参与度)和用户平均收入(ARPU,经济价值)
  • 在论文策略覆盖的领域中,COBRA 实现 转化率+3.60%,ARPU+4.15%

RS——HLLM

HLLM : Hierarchical Large Language Model

  • 参考链接:
    • HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling, 202409, ByteDance

整体说明

  • 大语言模型(LLMs)在推荐系统的应用中,有三个关键问题尚未得到充分探讨:
    • 第一 :LLMs 预训练权重通常被认为蕴含了世界知识,但其实际价值未得到验证;
    • 第二 :针对推荐任务进行微调的必要性;
    • 第三 :LLMs 在推荐系统中是否能展现出与其他领域相同的可扩展性优势(scalability benefits)
      • 理解:也就是 LLM 在 推荐系统中的 Scaling Law 需要探索(问题:Meta-GRs 已经探索过了吧)
  • 论文提出了分层大语言模型(Hierarchical Large Language Model,HLLM)架构来增强序列推荐系统
  • 论文的方法采用双层模型:
    • 第一层的 Item LLM 从 item 的详细文本描述中提取丰富的特征,输入是 item 的文本特征,输出是 item 的 Embedding
    • 第二层的 User LLM 利用这些特征,基于用户的历史交互预测其未来兴趣,输入和输出都是 item 的 Embedding
  • 一些其他细节:
    • 论文的方法有效利用了开源 LLMs 的预训练能力,进一步的微调显著提升了性能
    • HLLM 展现出优秀的可扩展性,在最大配置下,item 特征提取和用户兴趣建模中均使用了 7B 参数
    • HLLM 具有高效的训练和服务效率,使其在实际应用中具有实用性
  • 离线+在线实验+开源
    • 离线:在两个大规模数据集(PixelRec 和 Amazon Reviews)上的评估显示,HLLM 显著优于传统的 ID-based Model
    • 在线A/B测试中,HLLM 表现出显著的增益
    • 特别地:代码已开源:https://github.com/bytedance/HLLM

一些讨论

  • 推荐算法问题是:通过理解用户兴趣来预测其在各种 item 上的未来行为,有效推荐的关键在于准确建模 item 和用户特征
  • 目前推荐系统的主流方法:
    • 主流方法主要基于 ID:将 item 和用户转换为 ID 并创建相应的 Embedding 表进行编码
    • 序列建模方法:可捕捉多样且随时间变化的用户兴趣,并在序列推荐中取得了显著成功
    • 以上方法通常以 Embedding 参数为主,模型规模相对较小,导致两大缺陷:
      • 缺陷一 :对 ID 特征的依赖性强,在冷启动场景中表现不佳;
      • 缺陷二 :以及较浅的神经网络难以建模复杂多样的用户兴趣
  • 将 LLMs 整合到推荐系统中探索可分为三类 :
    • (1) 利用 LLMs 为推荐系统提供精炼或补充信息,例如用户行为摘要和 item 信息扩展;
    • (2) 将推荐系统数据转化为对话形式以适应 LLMs ;
    • (3) 修改 LLMs 以处理超越文本输入输出的推荐任务,包括将ID特征输入 LLMs,以及直接用 LLMs 替代现有模型并优化 CTR 等目标
  • 将 LLMs 与推荐系统整合仍面临复杂性和有效性方面的显著挑战:
    • 复杂性(效率低)方面 :将用户行为历史作为文本输入 LLMs 会导致输入序列非常长,导致LLMs 需要更长的序列来表示相同时间跨度的用户行为
      • LLMs 中自注意力模块的复杂度随序列长度呈二次方增长;
      • 推荐单个 item 需要生成多个文本 token(RQ-VAE的方法),导致多次前向传播,效率较低
    • 有效性方面 :现有基于LLM的方法相比传统方法的性能提升并不显著 ,这引发了对 LLMs 潜力是否被充分挖掘的疑问
  • 此外,一些关键问题仍未得到充分探讨:
    • 第一:LLMs 预训练权重通常被认为蕴含了世界知识,但其实际价值未得到验证
    • 第二:针对推荐任务进行微调的必要性存疑
    • 第三:LLMs 的 Scaling Law 在其他领域已被证明,但在推荐系统中的表现仍需验证
      • 注:尽管一些研究在推荐领域验证了 Scaling Law [Shin 等, 2023; Zhai 等, 2024],但这些模型的参数量远小于 LLMs。参数量超过10亿的模型在推荐领域是否具有良好的可扩展性仍是一个开放问题
  • 为解决这些挑战,论文提出了分层大语言模型(HLLM)架构
    • 先使用 Item LLM 提取 item 特征:在每个 item 的文本描述末尾添加一个特殊 token [ITEM],并将增强后的描述输入 Item LLM ,将特殊 token 对应的输出作为 item 特征
    • 再使用 User LLM 建模用户兴趣并预测未来行为:User LLM 的输入是 Item LLM 输出的 item 特征,通过将长文本描述转换为简洁的 Embedding,行为序列的长度被缩减至与 ID-based Model 相当,显著降低了计算复杂度
  • 验证效率 :论文还验证了 HLLM 在训练效率上的优势,仅需少量训练数据即可超越 ID-based Model
  • 预训练的价值探讨 :通过大量实验,论文探讨了预训练的价值
    • HLLM 未以标准 LLMs 的文本交互方式使用(Item LLM 被设计为特征提取器;User LLM 的输入输出均为 item Embedding),但预训练权重对两类 LLM 均有益 ,这表明 LLMs 中蕴含的世界知识确实对推荐任务有价值
  • 针对推荐目标进行微调的必要性 :实验表明这种微调对超越传统方法至关重要
  • 可扩展性验证 :(离线验证)参数量达 7B 的模型仍能随规模扩大持续提升性能
  • 论文的主要贡献总结如下:
    • 提出了分层LLM(HLLM)框架用于序列推荐(实现优秀的训练和推理效率,拿到离线+在线收益)
    • HLLM 有效将 LLM 预训练阶段编码的世界知识迁移至推荐模型,涵盖 item 特征提取和用户兴趣建模,并证明针对推荐目标的特定任务微调仍是必要的
    • HLLM 展现出优秀的可扩展性,性能随数据量和模型参数增加持续提升

相关工作(直译)

传统推荐系统

  • 传统推荐系统主要依赖基于ID的 Embedding,主要有以下迭代方向
    • 特征交叉
      • DeepFM通过FM建模低阶特征交互,通过DNN建模高阶特征交互
      • DCN通过显式特征交叉建模更高阶交互
    • 用户行为建模
      • DIN和DIEN引入注意力机制捕捉用户多样化兴趣
      • SASRec[Kang and McAuley, 2018]将自注意力机制应用于序列推荐
      • CLUE[Shin 等, 2023]和HSTU[Zhai 等, 2024]表明参数量在数亿内的模型遵循扩展定律
  • 一些工作还将内容特征(content features)引入推荐模型,展现出一定的泛化优势[Baltescu 等, 2022; Li 等, 2023b; Cheng 等, 2024]

基于语言模型的推荐

  • LLMs 在推荐系统中应用的探索可分为三类:
    • 首先,LLMs 被用于总结或补充用户或 item 信息[Zhang 等, 2024a; Ren 等, 2024; Xi 等, 2023]
      • RLMRec[Ren 等, 2024]开发了一种由LLM支持的 user/item 画像范式,并通过跨视图对齐框架将 LLMs 的语义空间与协作关系信号的表示空间对齐
      • LLMs 还被用于生成冷启动 item 的增强训练信号[Wang 等, 2024]
    • 其次,一些工作将推荐领域数据适配为对话格式[Bao 等, 2023; Friedman 等, 2023; Zhang 等, 2023; Yang 等, 2023]
      • 部分方法将推荐任务视为一种特殊的指令跟随任务 ,将用户历史行为以文本形式输入 LLM 以预测后续行为[Zhang 等, 2023]
    • 最后,还有一些工作对 LLMs 进行适配以处理超越文本形式的推荐任务
      • LLaRA[Liao 等, 2024]提出了一种混合提示方法,将基于ID的 item Embedding 与文本 item 特征结合
      • LEARN[Li 等, 2023a]利用预训练 LLMs 提取 item 特征
  • 其他方面,LLMs 还被适配为多分类或回归任务用于评分预测[Kang 等, 2023]
  • 然而,以上这些方法相比传统推荐模型的改进有限

HLLM 方法介绍

问题定义

  • 论文将序列推荐任务定义为:给定用户 \( u \in \mathcal{U} \) 及其 按时间顺序排列的历史交互序列 \( U = \{I_1, I_2, \ldots, I_n\} \),预测 next item \( I_{n+1} \)
    • 其中 \( n \) 为序列长度
    • 每个 item \( I \)(\( I \in \mathcal{I} \))包含对应的 ID 和文本信息(如标题、标签等),但论文方法仅使用文本信息

分层大语言模型架构

  • 现有方法的性能问题 :许多 LLM-based 推荐模型将用户历史行为扁平化为纯文本输入,导致输入序列过长,这种设计会带来巨大计算负担(因为 LLM 中自注意力模块的复杂度与序列长度呈平方关系)
  • 为减轻用户序列建模的负担 ,论文采用分层建模方法,称为分层大语言模型(HLLM) ,将 item 建模与用户建模解耦,如图1所示
    • 首先通过 Item LLM 提取 item 特征,将复杂文本描述压缩为 Embedding 表示;
    • 随后基于这些特征通过 User LLM 建模用户画像
    • 此外,为确保与预训练LLM的兼容性并提升可扩展性,论文仅引入最小结构调整,并设计简单高效的训练目标
Item LLM:
  • Item LLM 用于提取 item 特征,其输入为 item 的文本描述,输出为 Embedding 表示
  • LLM在文本理解方面表现出色,但其应用多限于文本生成场景,鲜少作为特征提取器。受前人工作[5, 21]启发,论文在 item 文本描述末尾添加特殊 token \(\lceil \text{ITEM} \rceil\) 以提取特征
  • 如图1所示,对于 item \( I \),首先将其文本属性拼接为句子 \( T \),并在开头添加固定提示词。通过 LLM 分词器处理后,额外在末尾添加特殊 token \(\lceil \text{ITEM} \rceil\),因此 Item LLM 的输入 token 序列可表示为 \(\{t_1, t_2, \ldots, t_m, \lceil \text{ITEM} \rceil\}\),其中 \( m \) 为文本 token 长度。最后一层对应 \(\lceil \text{ITEM} \rceil\) token 的隐藏状态即为 item Embedding
User LLM
  • User LLM用于建模用户兴趣
  • 原始用户历史序列 \( U = \{I_1, I_2, \ldots, I_n\} \) 可通过 Item LLM 转换为特征序列 \(\{E_1, E_2, \ldots, E_n\}\),其中 \( E_i \) 表示 \( I_i \) 的 item Embedding。User LLM 以该特征序列为输入,基于历史交互预测 next item 的 Embedding
  • 如图1所示,User LLM 对 \( E_i \) 的 输出为 \( E’_{i+1} \) ,期望其为 \( I_{i+1} \) 的 Embedding
  • 与传统 LLM 的 “text-in and text-out” 格式不同,此处 User LLM 的输入和输出均为 item Embedding。因此,论文舍弃预训练 LLM 的词 Embedding 层 ,但保留其余预训练权重。实验表明,这些预训练权重对推理用户兴趣非常有效
    • 问题:模型的 Embedding 都变了,不会出现问题吗?

面向推荐目标的训练

  • 现有 LLM 均基于通用自然语料库预训练,虽具备丰富的世界知识和强大推理能力,但其能力与推荐系统的需求仍存在显著差距。遵循其他工作的最佳实践[Zhou 等, 2024; Touvron 等, 2023],论文在预训练 LLM 基础上进行监督微调
  • 推荐系统可分为生成式和判别式两类,HLLM 架构对两者均适用,仅需调整训练目标即可。以下分别介绍两类任务的训练目标
生成式推荐
  • Meta-GRs 提出了成功的生成式推荐方案,涵盖检索和排序。论文的方法与其主要差异在于:模型架构升级为带预训练权重的大语言模型,输入特征从 ID 改为 LLM 的文本特征。这些差异对训练和服务策略影响较小,因此论文基本遵循 Meta-GRs 的方法
  • 生成式推荐的训练目标采用 next item 预测,即根据用户历史 item Embedding 生成 next item 的 Embedding。具体采用 InfoNCE 损失[Oord 等, 2018]。对于 User LLM 输出序列中的每个预测 \( E’_i \),正样本为 \( E_i \),负样本从数据集中随机采样(排除当前用户序列)。损失函数如下:
    $$
    \mathcal{L}_{gen} = -\sum_{j=1}^{b} \sum_{i=2}^{n} \log \frac{e^{s(E’_{j,i}, E_{j,i})} }{e^{s(E’_{j,i}, E_{j,i})} + \sum_{k}^{N} e^{s(E’_{j,i}, E_{j,i,k})} }
    $$
    • \( s \) 为带可学习温度参数的相似度函数
    • \( E_{j,i} \) 表示第 \( j \) 个用户历史交互中第 \( i \) 个 item 的 Item LLM Embedding
    • \( E’_{j,i} \) 表示 User LLM 为第 \( j \) 个用户预测的第 \( i \) 个 item Embedding
    • \( N \) 为负样本数量,\( E_{j,i,k} \) 表示 \( E’_{j,i} \) 的第 \( k \) 个负样本 Embedding
    • \( b \) 为批次内用户总数
    • \( n \) 为用户历史交互长度
判别式推荐
  • 由于判别式推荐模型在工业中仍占主导地位,论文亦提出 HLLM 在判别式模型下的应用方案
  • 判别式模型的优化目标是:给定用户序列 \( U \) 和目标 item \( I_{tgt} \),判断用户是否对目标 item 感兴趣(如点击、喜欢、购买等)
  • 如图2所示,判别式推荐有两种 User LLM 变体,Item LLM 保持不变
    • 早期融合(Early fusion) :将目标 item 的 Embedding \( E_{tgt} \) 追加到用户历史序列末尾,通过 User LLM 生成高阶交叉特征,最后将该特征输入预测头生成最终 logits
    • 晚期融合(Late fusion) :则先通过 User LLM 提取与目标 item 无关的用户特征(类似 Item LLM 的特征提取方式),在用户序列末尾添加特殊 token \(\lfloor \text{USER} \rfloor\) 以提取用户表示,再将用户 Embedding 与目标 item Embedding 一同输入预测头生成 logits
  • 对比来看:
    • 早期融合因深度融合用户兴趣与目标 item ,效果更优但难以同时应用于多候选 item;
    • 晚期融合因不同候选共享同一用户特征 ,效率更高但效果通常略低
  • 判别式推荐的训练目标通常为分类任务(如预测用户是否点击等)。以二分类为例,训练损失如下:
    $$
    \mathcal{L}_{cls} = -\left( y \cdot \log(x) + (1 - y) \cdot \log(1 - x) \right)
    $$
    • 其中 \( y \) 为样本标签,\( x \) 为预测 logit
  • 实验表明,next item 预测亦可作为判别式模型的辅助损失以进一步提升性能。因此,最终损失为:
    $$
    \mathcal{L}_{dis} = \lambda \mathcal{L}_{gen} + \mathcal{L}_{cls}
    $$
    • 其中 \( \lambda \) 控制辅助损失权重

实验设计及结论

  • 论文的实验主要回答以下研究问题:
    • RQ1 :LLM 的通用预训练和针对推荐目标的微调是否能提升最终的推荐性能?
    • RQ2 :HLLM 是否具有良好的可扩展性?
    • RQ3 :与其他模型相比,HLLM 的优势是否显著?
    • RQ4 :HLLM 的训练和服务效率与 ID-based Model 相比如何?

数据集与评估设置

  • 在离线实验中,论文在两个大规模数据集上评估 HLLM:PixelRec(包含三个子集:200K、1M和8M)[5]和Amazon Book Reviews(Books)[13]。与先前工作[5,19]一致,论文采用相同的数据预处理和评估协议以确保公平比较。表1和图5展示了预处理后数据集的详细分析
  • 论文使用留一法(leave-one-out approach)将数据划分为训练集、验证集和测试集,性能指标采用Recall@K(R@K)和NDCG@K(N@K)。所有开源数据集仅用于离线实验的训练和评估

基线模型与训练设置

  • 基线模型包括两种基于 ID 的序列推荐模型 SASRec[15] 和 HSTU[19],它们均面向工业应用并自称(boast)具有 SOTA 性能
  • 离线实验采用生成式推荐以与其他方法保持一致,而在在线A/B测试中采用判别式推荐以更好地与在线系统对齐(注意,关于数据集:Experiments demonstrated that most conclusions drawn from the academic dataset still hold true on large-scale industrial benchmarks.)
    • 在 HLLM-1B 中,论文使用 TinyLlama-1.1B[19] 作为 Item LLM 和 User LLM 的模型;
    • 在 HLLM-7B 中,则采用 Baichuan2-7B[2]
    • 由于资源限制,HLLM 在 PixelRec 和 Amazon Reviews 上仅训练 5 轮,而其他模型分别训练 50 轮和 200 轮
    • 学习率设为 1e-4
    • 每个 item 的文本长度截断为最多256
    • 在PixelRec上,遵循PixelNet[5],论文使用批量大小为512,最大序列长度为10,正负样本比例为1:5632
    • 在Books上,批量大小为128,最大序列长度为50,负样本数量为512
  • 为公平比较,论文还实现了 SASRec-1B(将其网络结构替换为TinyLlama-1.1B)和 HSTU-1B(隐藏层大小和层数与 TinyLlama-1.1B 相同,但因移除了传统 FFN,参数量仅为 462M)

预训练与微调(RQ1)

  • 从 表2 可以明显看出,预训练权重对 HLLM 有益,包括 item 特征提取和用户兴趣建模两方面
  • 表3 显示性能与预训练 token 数量呈正相关,表明预训练权重的质量对推荐任务也有影响
    • 然而,在对话数据上进行 SFT 可能带来轻微的负面影响 ,这可能是因为世界知识主要在预训练阶段获得,而 SFT 主要提升指令跟随能力,对推荐任务帮助有限[19]
    • 理解:这里的 +chat 是指使用 chat 版本作为基座 ,再在 推荐系统上进行 SFT
  • 表4 的消融实验表明,微调 Item LLM 和 User LLM 对超越 ID-based Model 至关重要
    • 若冻结 Item LLM 仅微调 User LLM,并使用 TinyLlama-1.1B 最后一层所有 token 输出的均值作为 item 特征,性能极差,表明训练用于预测 next token 的 LLM 并不适合直接作为特征提取器(理解:Item LLM 中输入文本内容变成了 item 的描述了,确实可能效果不好; User LLM 中则词表都变了,不微调效果会更差)
    • 类似地,若使用在 Pixel200K 上微调的 Item LLM 并冻结预训练的 User LLM,性能仍然极低

模型扩展(RQ2)

  • 表5 和 表6 展示了模型参数量增加的实验结果。可以看出,Item LLM 和 User LLM 的参数增长均能持续提升性能。最终,在 Amazon Books 上将 Item LLM 和 User LLM 的参数量从 10亿 扩展到 70亿,如 表7 所示,进一步提升了性能,证明 HLLM 具有出色的可扩展性
  • 为探索数据量的可扩展性,论文从 Pixel8M 中采样了不同规模的数据进行训练,范围从 0.1M 到 8M。图3 显示,HLLM 在不同数据量下均表现出显著的可扩展性。随着数据量增加,性能显著提升,且在当前数据规模下未观察到性能瓶颈
  • 论文还针对工业推荐数据集进行了更全面的扩展实验,详细结果见附录

HLLM 与最先进模型的对比(RQ3)

  • 表7 比较了 HLLM 与当前最先进模型的性能,包括 ID-based Model (如SASRec[15]和HSTU[24])以及基于文本的模型 LEARN[17]。在所有数据集和指标上,HLLM 均显著优于其他模型。在相同实验设置下,HLLM-1B 在 Pixel8M 上平均提升22.93%,在 Books 上平均提升108.68%。而 ID-based Model 在 Pixel8M 上最大仅提升5.37%,在 Books 上最大提升64.96%
  • 重点 :当 ID-based Model 增加负样本数量和批量大小时,性能提升相对有限(如 HSTU-large 在 R@200 上仅提升 0.76,而 HLLM-1B 在相同设置下提升 2.44)。进一步增加模型参数后,HLLM-7B相比基线实现了169.58%的显著提升
  • 表7 还显示,即使 ID-based Model 完全收敛,增加参数带来的增益也较小。例如,在Pixel8M上,SASRec-1B和HSTU-1B的性能提升有限;而在Books上,SASRec-1B的所有指标甚至下降。相比之下,HLLM 从1B扩展到7B仍能持续提升推荐任务性能,凸显了 HLLM 架构的优越性

训练与服务效率(RQ4)

  • HLLM 展现出比 ID-based Model 更高的训练数据效率。如图3所示,HLLM 仅需 1/6 到 1/4 的数据量即可达到与基于 ID 方法相当的性能
  • 先前实验表明,完全微调整个 HLLM 能显著提升性能,但推理时需要实时编码所有 item,效率较低。得益于 HLLM 中 item 与用户编码的解耦,我们可以通过预缓存 item Embedding 降低计算复杂度
  • 为验证 item 缓存的可行性,论文在 Pixel8M 数据集上预训练 HLLM (序列长度截断为 10 以避免数据泄露,覆盖 300万 用户),随后冻结 Item LLM 并仅在 Pixel8M 上微调 User LLM。表8 结果显示,尽管冻结 Item LLM 会导致部分指标下降,但性能仍超越 ID-based Model,证明 item 缓存是有效的
  • 考虑到工业场景中用户行为数量远多于 item 数量,HLLM 的训练和服务成本可与 ID-based Model 相当。值得注意的是,论文的预训练数据不到 Pixel8M 的一半,且部分 item 未出现在预训练数据中,但仍取得了可观的性能。工业数据实验表明,随着预训练数据量增加,item 缓存与完全微调之间的差距会显著缩小

在线A/B测试

  • 除离线实验外,HLLM 还成功应用于实际工业场景。为简化流程、提升灵活性并与在线系统更好对齐,论文采用 HLLM-1B,使用判别式推荐的“后期融合”变体进行优化。训练过程分为以下三个阶段:
    • 阶段I :端到端训练所有 HLLM 参数(包括 Item LLM 和 User LLM),采用判别式损失。用户历史序列长度截断为 150 以加速训练
    • 阶段II :使用 阶段I 训练的 Item LLM 编码并存储推荐系统中所有 item 的 Embedding,随后仅训练 User LLM(从存储中检索所需 item Embedding)。此阶段仅训练 User LLM,显著降低训练需求,并将用户序列长度从 150 扩展到 1000,进一步提升 User LLM 的效果
    • 阶段III :在前两阶段大量数据训练后,HLLM 模型参数不再更新。论文提取所有用户的特征,与 Item LLM Embedding 及其他现有特征结合,输入在线推荐模型进行训练
  • 在服务阶段(如图4所示),item Embedding 在创建时即被提取,用户 Embedding 仅针对前一天活跃的用户每日更新一次。item 与用户的 Embedding 存储后供在线模型训练和服务使用。此方案下,在线推荐系统的推理时间几乎不变
  • 最终,论文在排序任务的在线A/B测试中验证 HLLM,关键指标显著提升0.705%

附录A:学术数据集上的更多实验

文本输入长度与Item LLM的丰富性

  • 默认情况下,论文输入所有类型的文本信息,长度为256。此处论文对文本长度和丰富性进行消融实验。表9 显示,文本内容对最终性能有显著影响。更丰富的文本内容和更长的文本长度使得 Item LLM 能够提取更详细的 item 特征,更好地区分 item,并更有效地帮助 User LLM 建模用户兴趣

Item LLM特征提取方法

  • 为了使训练在 next token prediction 任务上的 LLM 具备特征提取能力,论文在文本输入末尾添加了一个特殊 token [ITEM]。另一种可行的特征提取方法是取 LLM 最后一层隐藏状态的平均值来表示整个句子的特征
  • 表10 展示了这两种方法的对比结果。可以看出,使用 [ITEM] token 比均值池化效果更好
    • 问题:这个原因是什么呢?理论上两者都能捕捉到句子的整体信息
    • 理解:猜测是自回归模型带来的 next token 含义对未来动作意图的信息优势

User LLM的序列长度

  • 表11探讨了 User LLM 输入序列长度对 HLLM 推荐性能的影响。与其他序列推荐模型类似,HLLM 也能从扩展输入序列长度中受益
  • 尽管表中显示随着序列长度的增加性能提升有限,但论文推测这可能是因为学术数据集中用户序列长度普遍较短,如图5所示。如 附录B 所示,在真实工业场景中,用户行为序列通常非常长,扩展序列长度可以让 HLLM 实现稳定的性能提升

与ID特征的兼容性

  • 在前文中,论文主要基于 item 的文本描述建模 item 和用户特征。然而,当前大多数推荐系统仍依赖 ID 特征,不仅包括 item ID,还包括行为、时间戳和 item 类别等 ID 形式的特征。此处论文提出一种将 HLLM 与 ID 特征结合的兼容方案,并证明互补的 ID 特征与 item 描述结合能为 HLLM 带来显著提升,进一步凸显其在工业环境中的应用价值
  • 论文选择原始 item ID 和时间戳作为 ID 特征进行验证
    • item ID 通过 Embedding 查找表转换为 ID Embedding
    • 行为的时间戳首先拆分为具体的年、月、日、时、分和秒组件,其 Embedding 表示如算法1所示(见附录)
    • 在输入 User LLM 之前,论文将 ID 特征与 Item LLM 提取的 Embedding 进行求和池化
  • 训练时的预测目标仍然是 Item LLM 提取的 item Embedding,实验结果如 表12 所示
  • 实验结论:
    • 引入 item ID 实际上会导致性能轻微下降 ,可能是因为 item ID 未能提供超出文本描述之外的增量信息,而文本描述已全面覆盖 item 特征并被 Item LLM 充分提取
    • 然而,引入时间戳带来的提升非常显著 ,因为时间戳是对文本描述的补充。这也表明论文的方法能够兼容ID特征
      • 理解:这里时间戳能拿到收益相当于加入了对 token 加入了绝对位置编码信息,比如 8 月份买裙子和 12 月份买裙子的动作是不等价的

附录B:工业数据集上 HLLM 的扩展实验

  • 论文在大型工业数据集上进行了更广泛的实验,以评估 HLLM 的可扩展性
  • 抖音拥有海量用户和推荐候选 item,以及丰富的用户行为记录。论文从过去 3 年的日志中构建了一个包含 3000万 样本的数据集。每个样本仅包括用户的历史点击序列、目标 item 以及一个表示是否点击的标签。论文在判别式推荐系统中验证 HLLM 的有效性,使用 AUC 作为评估指标,并从两个方面验证可扩展性:User LLM 的序列长度,以及 Item LLM 和 User LLM 的参数规模

User LLM的序列长度

  • 工业数据集中用户行为序列的长度如图5所示。表13 展示了用户序列长度的影响,随着序列长度的增加,HLLM 的性能稳步提升。这表明 HLLM 在建模长序列用户方面具有巨大潜力

Item LLM和User LLM的参数规模

  • 表14展示了工业场景中 HLLM 参数规模的影响。对于 Item LLM 和 User LLM,AUC 均随着参数数量的增加而持续提升
  • 问题:有超过线上现在的 CTR 模型吗?

附录-算法1:timestamp processing 的伪代码

  • Algorithm 1: Pseudo code of timestamp processing in a PyTorch-like style:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    class TSEmbedding(nn.Module):
    def__init__(self, time_num=6, time_dim=512, user_dim=2048):
    super().__init__()
    # 控制时间精度,例如4表示到小时,6表示到秒
    self.time_num = time_num
    self.time_embeddings = nn.ModuleList(nn.Embedding(x, time_dim) for x in [2100, 13, 32, 24, 60, 60])
    # 从time_dim投影到user_dim
    self.merge_time = MLP(time_dim * time_num, user_dim)

    def split_time(self, timestamps: List) -> List:
    # 将时间戳拆分为具体组件(年月日等)
    # (seq) -> (seq, 6)
    split_time = []
    for time in timestamps:
    dt = datetime.datetime.fromtimestamp(time)
    split_time.append((dt.year, dt.month, dt.day, dt.hour, dt.minute, dt.second))
    return split_time

    def forward(self, timestamps: List) -> torch.tensor:
    # 输入:时间戳列表,格式为(bs, seq)
    # (bs, seq) -> (bs, seq, 6)
    time_seq = torch.tensor([self.split_time(x) for x in timestamps])
    # (bs, seq, 6) -> [(bs, seq, time_dim)] * time_num
    time_emb = [self.time_embeddings[i](time_seq[..., i]) for i in range(self.time_num)]
    # [(bs, seq, time_dim)] * time_num -> (bs, seq, time_dim * time_num)
    time_emb = torch.cat(time_emb, dim=-1)
    # (bs, seq, time_dim * time_num) -> (bs, seq, user_dim)
    time_emb = self.merge_time(time_emb)
    return time_emb

RS——LEARN

LEARN:Llm-driven knowlEdge Adaptive RecommeNdation

  • 参考链接:
    • LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application, AAAI 2025, Kuaishou
      • 相关博客:AAAI’25 | 快手LEARN:使用LLM做特征增强用于电商广告推荐

整体思路说明

  • 当前推荐系统问题 :主要依赖 ID embedding 来捕捉用户与 item 之间的潜在关联。然而,这种方法忽视了 item 文本描述中丰富的语义信息 ,导致性能欠佳和泛化能力不足
  • LLM :LLM 具备理解与推理文本内容的能力,为推荐系统的进步提供了新的可能
  • 论文提出了一种 LLM-based 知识自适应推荐框架(Llm-driven knowlEdge Adaptive RecommeNdation,LEARN):
    • 通过协同融合开放世界知识与协作知识(synergizes open-world knowledge with collaborative knowledge)来解决这一问题
    • 针对计算复杂度问题,论文采用预训练的LLM作为 item 编码器,并冻结其参数以避免灾难性遗忘(catastrophic forgetting),从而保留开放世界知识
    • 为了弥合开放世界与协作领域之间的鸿沟,论文设计了一种双塔结构(twin-tower structure),以推荐任务为监督目标,并适配实际工业应用需求
  • 通过在真实工业级大规模数据集上的实验和在线A/B测试 ,论文验证了该方法的有效性。此外,论文在六个 Amazon 评论数据集上取得了 SOTA 性能,进一步证明了LEARN的优越性

Introduction and Discussion

  • 近年来, LLM 展现出卓越的能力并快速发展,如何将其开放的领域知识和强大的逻辑推理能力引入推荐系统(RS)成为学术界和工业界关注的焦点。
  • 当前的推荐系统严重依赖独立的 ID Embedding,并侧重于基于历史交互捕捉用户与 item 的潜在关联。这种方法忽略了 item 文本描述中的语义信息,难以泛化到未见数据,导致工业冷启动场景和长尾用户推荐中的性能不佳。此外,与计算机视觉(CV)和自然语言处理(NLP)领域不同,推荐系统中基于 ID Embedding 的建模方法难以开发出适用于下游任务和子场景的预训练模型。
  • 为了改善当前推荐系统的泛化能力,已有研究尝试利用文本信息或结合LLM生成文本预测,例如用户兴趣(Ren等, 2024)、 next item 信息(Li等, 2023)和推荐理由(Zhang等, 2023b)。
  • 先前关于LLM与推荐系统结合的研究通常遵循一种统一策略,论文称之为“Rec-to-LLM”适配(adaptation)
    • 该策略将推荐领域的 user-item 交互数据(目标领域)转换为LLM开放世界领域(源领域)的文本格式,如图1所示
    • 具体而言,这些方法设计任务特定的提示(prompt),将推荐数据转化为对话形式,并采用 next token 预测损失,使输入组织和目标任务与LLM预训练阶段对齐。
  • 然而,论文的实证研究表明,“Rec-to-LLM”适配在真实工业应用中未能带来实际效益。这种低效性源于该方法的固有缺陷:
    • 计算复杂度高 :由于LLM的输入长度限制(2K至128K)和计算复杂性,在工业场景中无法负担对文本化交互数据进行推理或微调
      • 例如,在论文的短视频平台中,用户平均每周与近800个短视频交互,因此用LLM处理数月内的全局用户历史交互数据会带来巨大的计算负担。
    • 灾难性遗忘 :用推荐数据微调LLM会导致开放世界知识的灾难性遗忘(catastrophic forgetting),因为推荐系统的协作知识与LLM的开放世界知识之间存在显著领域差距。
    • 目标不对齐 :LLM的训练目标与推荐任务的不匹配进一步限制了已有方法的性能。
  • 为克服上述限制,论文提出了一种基于语言模型的知识自适应推荐方法(LEARN) ,旨在协同融合LLM的开放世界知识与推荐系统的协作知识。与“Rec-to-LLM”适配不同,论文的方法遵循“LLM-to-Rec”适配(如图1所示),将LLM作为内容提取器,并以推荐任务为训练目标。
  • LEARN框架由用户塔(User Tower)和 item 塔(Item Tower)组成,二者均包含内容提取模块(Content EXtraction,CEX)和偏好对齐模块(Preference ALignment,PAL)
    • 内容提取模块(CEX) :为降低处理大规模用户历史交互的计算开销,CEX模块采用预训练LLM作为 item 编码器而非用户偏好编码器。为避免开放世界知识的灾难性遗忘,论文在训练阶段冻结LLM参数
    • 偏好对齐模块(PAL) :为弥合开放世界与协作领域之间的鸿沟,论文设计了PAL模块,并采用推荐任务的自监督训练目标指导模型优化。LEARN生成的用户和 item 嵌入将作为在线排序模型的输入。
  • 为验证方法在工业实践中的有效性,论文从真实推荐场景中构建了大规模数据集,并通过在线A/B测试进行评估。同时,论文在六个 Amazon 评论数据集(Ni等, 2019)上进行了实验,与已有方法进行公平对比。实验结果表明,LEARN在六个数据集的三项指标中均达到最先进性能,尤其在Recall@10上平均提升13.95%
  • 论文的主要贡献如下:
    • 提出LEARN框架,高效地将LLM的开放世界知识聚合到推荐系统中。
    • 提出CEX和PAL模块,解决LLM的灾难性遗忘问题,并通过推荐任务弥合开放世界与协作领域的鸿沟。
    • 在工业级数据集和在线A/B测试中验证了方法的实用性。
    • 在六个公共数据集上取得最先进性能,Recall@10平均提升13.95%。

相关工作(直译,包含引用信息)

基于内容的推荐

  • 传统推荐系统主要基于 ID Embedding,其泛化能力有限。为此,大量研究通过深化对用户和 item 内容的理解来增强推荐系统的泛化能力
    • Wu等人(2020)为新闻推荐任务构建了大规模文本数据集MIND,推动了文本内容理解对推荐系统影响的研究
    • 随后,多项研究利用BERT模型(Devlin等, 2018)改进内容理解,例如ZESRec(Ding等, 2021)、UniRec(Hou等, 2022)和TBIN(Chen等, 2023)采用预训练BERT模型作为编码器提取 item 文本描述的内容嵌入
    • RecFormer(Li等, 2023)结合掩码语言模型损失(MLM)和对比损失,并重新设计分词器以编码 item 的文本信息
    • 除文本信息外,部分方法还尝试将视觉信息融入推荐模型,例如SimRec和MAKE(Wang等, 2023)采用CLIP(Radford等, 2021)和MoCo(He等, 2020)提取图像特征,MoRec(Yue等, 2023)和MISSRec(Wang等, 2023)则利用ResNet(He等, 2016)和ViT(Dosovitskiy等, 2020)在序列推荐中融入 item 图像内容。

基于LLM的推荐

  • 由于LLM在文本理解和常识推理上的强大能力,越来越多的研究探索如何将其整合到推荐系统中(Fan等, 2023; Lin等, 2023a)
  • 第一类方法冻结LLM参数 ,将其直接作为推荐器
    • 部分研究(Li等, 2023; Zhang等, 2023b; Yue等, 2023; Xi等, 2023)设计任务特定提示构建推荐对话,并利用ChatGPT生成候选 item ;
    • RLMRec(Ren等, 2023)则通过ChatGPT生成用户/ item 画像
  • 第二类方法在推荐领域的特定文本数据集上微调LLM
    • LlamaRec(Yue等, 2023)以 item 标题为文本数据,通过排序分数优化LLM;
    • TALLRec(Bao等, 2023b)提出两阶段微调框架,并采用LoRA(Hu等, 2021)进行少样本推荐;
    • LLARA(Liao等, 2023)将LLM提示与 ID Embedding 结合,对齐LLM与序列推荐器;
    • ReLLa(Lin等, 2023b)提出检索增强的指令微调方法,并在混合数据集上微调Vicuna(Chiang等, 2023)。
  • 上述研究均将推荐系统的 user-item 交互数据适配为LLM的文本对话格式,并利用LLM的训练损失微调模型。这些方法将数据和任务从推荐领域(目标领域)迁移到LLM领域(源领域),因此论文称之为“Rec-to-LLM”方法。

方法

模型架构

  • 给定按时间顺序排列的用户历史交互记录,交互序列根据特定时间戳分为两段:第一段是历史交互序列 \( U^{hist} \),第二段是目标序列 \( U^{tar} \)。历史交互和目标交互的长度分别记为 \( H \) 和 \( T \)。论文提出LEARN框架,旨在从历史交互中捕捉用户兴趣,并预测用户可能感兴趣的 next item。LEARN框架由用户塔(User Tower)和 item 塔(Item Tower)组成,如图2所示
  • 用户塔 :用户塔包含内容提取(Content EXtraction, CEX)模块和偏好对齐(Preference ALignment, PAL)模块,如图3所示
    • 用户塔的输入 :与用户交互的历史 item 序列。每个 item 根据图3所示的提示模板进行文本描述。提示设计非常简洁,以有效评估文本描述的信息量
    • CEX模块 :使用预训练的 LLM 和一个平均池化层处理这些 item 描述,生成内容嵌入 \( E^c \)。在训练过程中,预训练LLM的参数保持冻结状态,最终解码器层的隐藏状态作为输出嵌入,随后送入池化层,如图3(a)所示。对于整个历史交互序列 \( U^{hist} \),CEX模块将每个 item 的文本描述转换为内容嵌入 \( E^c \),形成内容嵌入序列。每个 item 由CEX模块独立处理
    • 偏好对齐(PAL)模块 :基于内容嵌入序列捕捉用户偏好,并输出用户嵌入。PAL模块首先通过内容适配器进行维度转换,随后采用12层Transformer作为主干网络,其配置与BERT-base模型(Devlin等, 2018)一致。该Transformer专门设计用于学习隐含的 item 关系并建模用户偏好。与BERT的双向注意力机制不同,论文的模块采用因果注意力机制(causal attention),仅关注过去的 item ,以符合用户偏好的时序特性。Transformer的输出嵌入通过在线投影层进一步处理,生成用户嵌入 \( E^{user} \in \mathbf{R}^{64} \),直接用于图5所示的在线电商推荐系统
  • item 塔 :item 塔处理 item 内容的文本描述,并输出适用于推荐领域的 item 嵌入 \( E^{item} \)。如图2所示,论文提出了三种 item 塔变体:
    • item 塔(a) 采用与用户塔相同的因果注意力机制。
    • item 塔(b) 采用自注意力机制(self-attention),每个 item 仅关注自身内容。尽管存在这一差异,两种变体的模型架构相同,且与用户塔共享权重。
    • item 塔(c) 直接使用内容嵌入 \( E^c \) 作为 item 嵌入 \( E^{item} \),以“Rec-to-LLM”方式指导用户偏好学习。
  • 在训练阶段,item 塔(a)将整个用户目标序列 \( U^{tar} \) 作为输入,而 item 塔(b)和 item 塔(c)独立处理单个 item。在推理阶段,所有三种变体均以单个 item 为输入,独立生成 item 嵌入。根据表5的结果,item 塔(a)因其性能优势被选为默认配置

训练目标

  • 为了弥合LLM开放世界领域的内容嵌入与推荐系统协作领域 user/item 嵌入之间的差距,论文将训练目标与在线排序模型对齐。在在线推荐系统中,排序模型计算用户嵌入与所有候选 item 嵌入之间的相似度,相似度最高的前k个 item 被视为用户可能感兴趣的内容。因此,论文采用自监督对比学习机制建模用户偏好,与在线推荐系统的目标一致。该方法最大化用户嵌入与相关 item 嵌入之间的相似度,同时最小化与无关 item 的相似度
  • 论文从用户历史序列中采样用户嵌入,从同一用户的目标序列中采样 item 嵌入,构建正样本对。同一批次中其他用户的目标 item 嵌入被采样为负样本。为充分利用用户交互并捕捉用户长期兴趣,论文采用密集全动作损失(dense all action loss)。从历史序列中采样 \( N_h \) 个用户嵌入,从目标序列中采样 \( N_t \) 个 item 嵌入,从而构建 \( N_h \times N_t \) 个正样本对以应用密集全动作损失。默认情况下,\( N_h \) 和 \( N_t \) 均设置为10

采样策略

  • 尽管在构建工业数据集时已根据行为重要性对 item 进行了采样,但由于训练资源限制,用户序列长度仍然过长。为此,论文在训练阶段设计了两阶段采样策略:
    • 第一阶段 :从完整用户历史/目标交互中随机采样,作为用户塔的输入,确保建模用户兴趣的数据无偏。
    • 第二阶段 :构建正负样本对时,采用加权采样策略,优先选择近期交互的 item。历史/目标序列中第 \( i \) 个 item 的权重 \( \tilde{w}_i \) 计算如下:
      $$
      \tilde{w}_i = \frac{w_i}{\max(w)}, \quad \text{ Where } \quad w_i = \log(\alpha + i \cdot \frac{\beta - \alpha}{N - 1}).
      $$
      • 超参数 \( \alpha \) 和 \( \beta \) 分别设置为10和10000,\( N \) 为第一阶段采样的用户历史/目标交互长度
  • 通过这种策略,模型能够更有效地捕捉用户当前兴趣,提升推荐性能

Experiments

Experiment Setup

  • 数据集 :为了工业应用,论文从短视频应用的电商平台构建了一个大规模的实际推荐数据集。该工业数据集包含从2022年6月到2023年4月共10个月内1200万用户与3100万商品的交互记录。前9个月的交互数据作为历史数据,最后1个月的交互数据作为目标数据。论文收集了六类信息(标题、类别、品牌、价格、关键词、属性)来构成商品描述。为了公平比较,论文采用了广泛使用的Amazon Review数据集,并遵循RecFormer的设置。选取七个类别作为预训练数据,另外六个类别作为微调数据以评估论文的方法。商品描述由三类信息(标题、类别、品牌)构成。公开数据集和工业数据集的统计信息分别如表1和表2所示
  • 实现细节 :论文采用Baichuan2-7B作为 LLM 来提取商品文本描述的内容嵌入,因其在中文和英文文本理解上的强大能力。训练阶段冻结LLM的参数。所有实验默认采用AdamW优化器和余弦调度器。对于工业数据集,由于内存限制,训练批次大小设为240,用户历史交互和目标交互长度分别设为80和40,训练轮次为10。评估指标采用Top50和Top100的命中率(H@50、H@100)和召回率(R@50、R@100)。对于Amazon Review数据集,预训练阶段批次大小为1024,微调阶段为16,学习率分别为5e-5和2e-5。预训练和微调的训练轮次分别为20和200。论文遵循RecFormer的评估设置,采用留一策略进行评估,使用NDCG@10(N@10)、Recall@10(R@10)和MRR三个指标以确保公平比较。由于Amazon Review数据集的交互序列长度有限,论文在LEARN的训练阶段未采用任何采样策略

在Amazon Review数据集上的性能

  • 整体性能 :为了验证方法的有效性,论文在Amazon Review数据集上的性能如表3所示。论文将LEARN与三类方法进行比较:仅ID方法(GRU4Rec、SASRec、BERT4Rec、RecGURU)、ID-文本方法(FDSA、S³-Rec)和纯文本方法(ZESRec、UniSRec、RecFormer)。论文的方法在仅ID、ID-文本和纯文本方法中均取得了显著提升。具体而言,与 SOTA RecFormer相比,LEARN在Scientific、Instruments、Arts、Office、Games和Pet数据集上的Recall@10分别提升了10.08%、17.87%、5.39%、10.41%、29.45%和10.50%。RecFormer采用掩码语言建模(MLM)损失和两阶段微调过程,而LEARN仅通过 user-item 对比损失在单阶段微调中实现显著性能提升,进一步证明了论文框架的有效性。论文还按照RecFormer的设置进行了零样本实验(仅预训练阶段)
  • 图4结果显示,LEARN框架可以作为预训练推荐模型,在下游子场景中表现优异
  • 消融研究 :论文性能提升的核心在于推荐系统协作域与LLM开放域之间存在显著差距。通过将 user-item 交互作为对齐目标,将内容嵌入转换为用户/商品嵌入,可以有效弥合这一差距。表4展示了论文的发现。首先,论文通过平均用户交互商品的内容嵌入生成用户嵌入,并直接使用商品的内容嵌入作为商品嵌入(称为“w/o Align”)。由于LLM与推荐域之间缺乏对齐,其性能极差,验证了论文的假设。其次,论文采用LLM生成的内容嵌入作为对齐目标(ItemTower(c)),通过将推荐域转换为LLM域实现对齐(与之前工作的“Rec-to-LLM”方法一致)。实验表明,ItemTower(c)性能低于LEARN,因为推荐知识的特性未在LLM开放域中充分体现。相比之下,LEARN通过将源域投影到目标域空间,更贴合推荐分布的复杂性,从而提升性能。值得注意的是,在Amazon Review数据集中,由于留一设置,ItemTower(a)与ItemTower(b)等效

在工业数据集上的性能

  • 消融研究 :为了验证模型设计的合理性,论文在实际工业场景构建的大规模数据集上进行了消融实验。如表5所示,“w/o Align”因LLM与推荐域之间的显著差距表现最差。在对齐策略中,采用ItemTower(a)的LEARN性能最佳,其次是ItemTower(b),ItemTower(c)最差。ItemTower(a)通过序列到序列对齐更好地捕捉用户长期兴趣,而ItemTower(c)的“Rec-to-LLM”对齐性能较差,与Amazon Review数据集的结论一致。由于用户交互序列长达十个月以上,论文采用式(1)的样本加权策略,与随机采样相比,H@100和R@100分别提升了7.13%和7.18%
  • ID Embedding 与内容嵌入对比 :鉴于 ID Embedding 在语义表示和泛化上的局限性,论文探索了在大规模工业场景中替代 ID Embedding 的可行性。论文采用三种商品表示方法:可学习的 ID Embedding 、从预训练BERT和LLM提取的冻结内容嵌入。 ID Embedding 维度设为64以匹配在线系统。表6显示,基于LLM的内容嵌入相比 ID Embedding 显著提升了性能,H@100从0.0504提升至0.0751(提升49.01%);相比BERT嵌入,LEARN进一步提升了30.38%。这表明LLM嵌入因训练于大规模文本语料而蕴含更丰富的信息,为替代 ID Embedding 提供了可行方向
  • PAL模块消融研究 :考虑到LLM在文本理解和常识推理上的优势,论文尝试用预训练LLM(Baichuan2-7B)替换PAL模块中从头训练的Transformer层。为避免遗忘开放域知识,论文采用LoRA微调LLM,并调整可训练参数量。如表7所示,随着可训练参数从134M增至572M,“w/ LLM”变体性能从0.0376提升至0.0513,但仍低于LEARN(采用12层Transformer)。由于LLM的冻结参数远多于LoRA可训练参数,原始特征(基于开放域和下一词预测损失)主导了混合特征,导致其无法达到最优性能

在线A/B实验

  • 论文在拥有4亿日活跃用户(DAU)的短视频平台的排序模型上进行了在线A/B测试。自2024年1月起,论文的方法已部署在短视频信息流广告场景中
  • 带LEARN适配器的排序模型 :为了更好地将LEARN生成的用户和商品嵌入与在线排序模型对齐,论文在基线模型上引入了LEARN适配器。如图5所示,基线模型包含原始排序模型(输入为现有在线特征)。LEARN适配器模块通过融合模块(两个线性层)和MLP,将用户和商品嵌入聚合为融合嵌入(基于CVR损失)。融合嵌入与LEARN的用户/商品嵌入及现有在线特征拼接后输入排序模型
  • AUC评估 :论文在短视频应用电商平台的十亿级数据集上进行了AUC评估。采用UAUC和WUAUC指标以更准确评估每用户的排序性能。如表8所示,论文的方法优于基线模型,UAUC和WUAUC分别提升0.84和0.76个百分点。这一提升归功于LEARN框架的泛化能力,能够有效捕捉长尾用户兴趣。进一步分析显示(表9),LEARN对冷启动和长尾用户及商品的性能提升尤为显著,验证了其在稀疏交互数据上的泛化能力

结论

  • 论文探讨了如何将 LLM 与推荐系统相结合,并提出了LEARN框架以实现显著的商业效益。LEARN框架包含内容提取(CEX)和偏好对齐(PAL)模块。CEX模块利用预训练的LLM为每个项目提取内容嵌入,而PAL模块将这些嵌入从开放世界领域投影到推荐领域的用户/项目嵌入中。在工业数据集和公开的Amazon Review数据集上取得的领先性能,证明了论文的LEARN框架具有卓越的表现
1…789…67
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

662 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4