注:本文包含 AI 辅助创作
Paper Summary
- LLM 不适合频繁重新训练 :LLM 由于其庞大的规模导致训练成本高昂,因此不适合频繁重新训练
- 更新是必要的 :但为了便赋予 LLM 新的技能,并使其与快速演变的人类知识保持同步,更新是必要的
- 论文综述了 LLM 持续学习(Continual Learning)的最新研究成果
- 根据 LLM 的独特性,论文以一种新颖的多阶段分类方案对持续学习技术进行分类 ,包括:持续预训练(Continual Pretraining,CPT)、持续指令微调(Continual Instruction Tuning,CIT)和持续对齐(Continual Alignment,CA)
- 论文将 LLM 的持续学习与以下增强策略进行对比:
- 较小模型使用的简单适应方法(simpler adaptation methods used in smaller models)
- 检索增强生成(Retrieval-Augmented Generation,RAG)
- 模型编辑(Model Editing)
Introduction and Discussion
- 近年来, LLM 在解决多样化问题方面的能力取得了快速进展
- 为了使 LLM 能够准确反映不断演变的人类知识、价值观和语言模式,定期更新变得至关重要,这促使了对 LLM 持续学习的研究
- 虽然持续学习与其他模型改进策略(如 RAG [21] 和模型编辑 [26])有相似之处,但它们的主要目的不同(见表1)
- 其他模型改进策略 :主要关注点是提高领域特定准确性或扩展模型的事实知识库
- 持续学习 :目标是提升 LLM 的整体语言和推理能力
/CL4LLM-Survey-Table1.png)
- 这一区别至关重要,因为它将焦点从仅仅更新信息转移到开发模型以更全面和细致的方式处理和生成语言的能力 [27]
- LLM 的持续学习也不同于其在较小模型(包括较小的预训练语言模型(PLM,Pretrained Language Model))中的应用
- 由于其庞大的规模和复杂性, LLM 需要多方面的持续学习方法。论文将其分为三个不同的阶段:
- 持续预训练(Continual Pretraining,CPT) :扩展模型对语言的基本理解 [8];
- 持续指令微调(Continual Instruction Tuning,CIT) :改进模型对特定用户指令的响应 [27];
- 持续对齐(Continual Alignment, CA) :确保模型的输出符合价值观、伦理标准和社会规范 [27]
- 这一多阶段过程与较小模型使用的更多线性适应策略(more linear adaptation strategies used in smaller models)不同,如图1 所示,突显了将持续学习应用于 LLM 的独特挑战和要求
/CL4LLM-Survey-Figure1.png)
- 本综述通过其独特的焦点和结构与之前的研究区分开来,虽然该领域的先前综述通常围绕各种持续学习策略 [4] 组织,但论文的研究首次专门针对 LLM 的持续学习
- 论文围绕持续更新的信息类型和 LLM 涉及的不同学习阶段构建分析
- 本综述提供了关于*持续学习如何应用于 LLM *的详细和新颖的视角,揭示了这一应用的特定挑战和机遇
- 论文的目标是为 LLM 中持续学习的有效实施提供全面理解 ,为未来开发更先进和适应性更强的语言模型做出贡献
Preliminary and Categorization
LLM (Large Language Model)
- LLM 如 ChatGPT 和 LLaMa [26] 在许多任务中表现出卓越性能
- 它们通常通过多个阶段进行训练,包括预训练(Pretraining)、指令微调(Instruction Tuning)和对齐(Alignment),如图1 所示
- 预训练阶段 : LLM 以自监督方式在大规模语料库上进行训练 [7],其中训练文本被随机掩码,模型被要求预测被掩码的标记
- 个人补充:这里表述有点不够严谨,MLM 的方式确实是这样的,但是现在大多都是自回归模型(Autoregressive Model),采用的是 NTP 的形式
- 指令微调阶段 : LLM 以监督方式在一组指令-输出(instruction-output)对上微调 [38]
- 给定特定任务的指令作为输入,要求模型生成相应的输出
- 对齐阶段 : LLM 通过人类反馈进一步微调,使其输出与人类期望对齐 [35]
- 这里涉及到人类标注者对模型的输出进行评分,模型被更新以生成更符合人类期望的响应
- 预训练阶段 : LLM 以自监督方式在大规模语料库上进行训练 [7],其中训练文本被随机掩码,模型被要求预测被掩码的标记
Continual Learning
- 持续学习专注于开发学习算法以积累非平稳数据的知识,通常按类别、任务、领域或实例划分
- 在监督持续学习中,任务序列 \(\{\mathcal{D}_{1},\ldots,\mathcal{D}_{\mathcal{T} }\}\) 以流式方式到达
- 每个任务 \(\mathcal{D}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{nt}\) 包含一个独立的目标数据集,其中 \(x_{i}^{t}\in\mathcal{X}_{t}\),\(y_{i}^{t}\in\mathcal{Y}_{t}\)
- 单个模型需要依次适应这些任务,且在第 \(t\) 个任务时仅能访问 \(\mathcal{D}_{t}\)(注:特别是无法访问 \(t\) 时刻之前的任务),这一设置要求模型在其生命周期中获取、更新、积累和利用知识 [4]
- 传统持续学习的主要挑战是灾难性遗忘(Catastrophic Forgetting) ,即模型在训练新数据时对旧任务的性能显著下降
- 现有研究大致可分为三类:
- 经验回放方法(Experience Replay)[8, 37]
- 基于正则化的方法(Regularization-based)[19, 9]
- 动态架构方法(Dynamic Architecture)[28]
- 最近,研究人员设计了一些结合上述技术的混合方法 [5, 16]
Continual Learning for LLMs
- LLM 的持续学习 :旨在使 LLM 能够从随时间变化的连续数据流中学习
- 直接将现有的持续学习设置应用于 LLM 并非易事。论文现在提出一个 LLM 持续学习的框架,并对该领域的研究进行分类
Framework
- 论文的框架如图 2 所示。论文将 LLM 的持续学习与不同的训练阶段对齐,包括持续预训练(CPT,Continual Pre-training)、持续指令微调(CIT,Continual Instruction Tuning)和持续对齐(CA,Continual Alignment)
- 持续预训练阶段 :旨在通过自监督方式在一系列语料库上进行训练,以丰富 LLM 的知识并适应新领域
- 持续指令微调阶段 :在监督的指令跟随数据流上微调 LLM ,目标是使 LLM 能够遵循用户指令,同时将已获取的知识迁移到后续任务中
- 持续对齐阶段 :响应人类价值观和偏好的演变,持续对齐(CA)试图随时间推移使 LLM 与人类价值观保持一致
- 虽然 LLM 的持续学习可以依次在每个阶段进行,但持续学习的迭代应用也使得跨阶段迁移而不遗忘先前阶段学习的能力和知识变得至关重要
- 例如,我们可以基于指令微调模型或对齐模型进行持续预训练,但不希望 LLM 失去其遵循用户指令和与人类价值观对齐的能力
- 因此,如图 2 所示,论文使用不同颜色的箭头表示阶段间的迁移
Categorization
- 为了更好地理解该领域的研究,论文为框架的每个阶段提供了细粒度的分类
- 持续预训练(CPT)
- 更新事实的 CPT :包括使 LLM 学习新事实知识的研究
- 更新领域的 CPT :包括将 LLM 定制到特定领域(如医学和法律领域)的研究
- 语言扩展的 CPT :包括扩展 LLM 支持语言的研究
- 持续指令微调(CIT)
- 任务增量 CIT :包含在一系列任务上微调 LLM 并获取解决新任务能力的研究
- 领域增量 CIT :包含在指令流上微调 LLM 以解决领域特定任务的方法
- 工具增量 CIT :包含持续教授 LLM 使用新工具解决问题的研究
- 持续对齐(CA)
- 持续价值对齐 :包括持续使 LLM 与新伦理准则和社会规范对齐的研究
- 持续偏好对齐 :包括使 LLM 动态匹配不同人类偏好的研究
- 除了基于训练阶段分类外,论文还提供了基于持续学习期间更新信息的替代分类(alternative categorization)
- 表2 列出了一些代表性的更新信息,例如事实、领域、任务、价值观和偏好
- LLM-based 训练目标,这些信息可以在持续学习的不同阶段更新
/CL4LLM-Survey-Table2.png)
- LLM-based 训练目标,这些信息可以在持续学习的不同阶段更新
- 图 3 的分类法展示了论文的分类方案以及每个类别中的代表性研究
Continual Pre-training, CPT
- LLM 的 CPT 对于保持其相关性和有效性至关重要
- 这一过程包括定期用最新信息更新模型 [26]、使其适应特定领域 [19]、增强其编码能力 [28],以及扩展其语言范围 [3]
- 通过持续预训练, LLM 可以紧跟新动态,适应不断变化的用户需求,并在多样化的应用中保持高效
- 持续预训练确保 LLM 不仅知识丰富,还能灵活应对世界的变迁
CPT for Updating Facts
- LLM 整合和适应最新信息的能力至关重要
- 此处的核心策略是使用动态数据集,从多种来源(如新闻推送 [9]、学术论文 [14] 和社交媒体 [22])实时吸收数据
- [35] 提出了 ERNIE 2.0,这是一个持续预训练框架,通过逐步构建和学习多个任务,最大化从训练数据中提取知识
- [13] 引入了持续知识学习(continual knowledge learning)方法,用于更新 LLM 中的时序知识,在获取新信息的同时减少遗忘
- [22] 研究表明,使用不同数据进行持续学习,其语言模型的困惑度(perplexity)与在整个数据快照上训练的结果相当甚至更好,这证实了只需最小量的训练数据即可高效更新语言模型中的事实知识
- 此外,自动化系统对新获取数据的验证是确保信息准确性和可靠性的关键
CPT for Updating Domains
- 持续预训练通过两种方法更新领域知识:
- 1)领域增量预训练(domain-incremental pre-training)跨多个领域积累知识;
- 2)领域特定持续学习(domain-specific continual learning),通过在领域特定数据集和任务上训练,将通用模型逐步转化为领域专家
- 在领域增量预训练中,[8] 探索了如何在新数据流上持续预训练语言和视觉模型,为下游任务做准备
- [26] 通过参数初始化和知识蒸馏(knowledge distillation)评估模型兼容性和可回收调优(recyclable tuning)的优势
- [19] 提出了一种软掩码机制(soft-masking mechanism),用领域语料更新语言模型(LM),旨在提升性能的同时保留通用知识
- 在领域特定持续学习中
- [26] 开发了 FinPythia-6.9B,通过金融领域的自适应预训练实现
- [36] 研究了电子商务领域中持续预训练的效果
- 这些研究共同展现了持续预训练在提升模型跨领域适应性和专业性方面的广阔前景
CPT for Language Expansion
- 扩展 LLM 理解和处理的语言范围对于提升其普适性至关重要 [3]
- 这种扩展不仅包括支持更多语言(尤其是 underrepresented 语言),还需将文化背景融入语言处理中
- 一个关键挑战是模型识别和解释地区方言及当代俚语的能力 [11],这对于跨种族、社会和文化的有效沟通至关重要
- 除了自然语言,LLM 在理解和生成编程语言方面也取得了显著进展
- [28] 提出了 CodeTask-CL,一个持续代码学习的基准测试,涵盖多种编程语言的任务和输入输出格式
- [29] 探索了使用未标记代码语料库训练模型进行面向库的代码生成,解决了由于程序员广泛复用库导致的文本-代码对稀缺问题,他们提出了 CERT 方法,其中“草图生成器”(sketcher)勾勒代码结构,“生成器”(generator)完成代码,两者通过持续预训练未标记数据来捕捉库导向代码片段的常见模式
- 这些进展突显了 LLM 在变革自然语言和编程语言处理方面的潜力,从而推动更高效的编码实践
Continual Instruction Tuning, CIT
- LLM 展现了强大的指令跟随能力,能够通过少量示例完成任务
- 持续指令调优(CIT)通过持续微调 LLM,使其学会遵循指令并将知识迁移到未来任务中 [30]
- 根据指令调优中更新的能力和知识,CIT 可进一步分为三类:
- 1)任务增量 CIT(task-incremental CIT)
- 2)领域增量 CIT(domain-incremental CIT)
- 3)工具增量 CIT(tool-incremental CIT)
Task-incremental CIT
- 任务增量持续指令调优(Task-incremental CIT)旨在通过一系列任务特定指令持续微调 LLM ,使其获得解决新任务的能力
- 一种直接的方法是持续为新任务生成指令调优数据并直接微调模型 [35]
- 然而,研究表明,持续在任务特定数据上微调 LLM 会导致对已学知识和问题解决能力的灾难性遗忘(catastrophic forgetting)[24]
- TAPT [16] 提出了一种简单的数据选择策略,从领域内语料库中检索未标记文本,使其与任务分布对齐,随后用于微调 LLM,以缓解灾难性遗忘并提升性能
- 为减少遗忘,Continual-T0 [25] 采用记忆回放(rehearsal with a memory buffer)[22] 存储先前任务数据并在训练中重放
- ConTinTin [26] 提出了 InstructionSpeak,包含两种策略:一是从负输出中学习,二是重新审视先前任务的指令
- RationaleCL [26] 采用对比性原理回放(contrastive rationale replay)减轻遗忘
- DynaInst [19] 提出了一种混合方法,结合动态指令回放(Dynamic Instruction Replay)和局部极小值诱导正则化器(local minima-inducing regularizer),提升 LLM 的泛化能力并减少回放模块的内存和计算开销
- 与以往的回放或正则化方法不同,SLM [1] 将向量空间检索(vector space retrieval)融入语言模型,支持可扩展的知识扩展和管理,使 LLM 快速适应新任务且不因遗忘而降低性能
- LLM 参数规模庞大,持续学习带来巨大计算负担。为解决这一问题
- Progressive Prompts 技术 [15] 冻结大部分参数,仅为每个新任务学习固定数量的标记(prompts),显著降低计算成本的同时缓解遗忘并提升知识迁移
- ELM [13] 首先为每个任务训练一个小型专家适配器(expert adapter),随后采用检索方法为每个新任务选择最相关的专家 LLM
- 基于参数高效调优(PET)框架,O-LoRA [26] 提出了正交低秩适应(orthogonal low-rank adaptation)方法,在正交子空间中增量学习新任务,同时固定已学任务的 LoRA 参数以最小化遗忘
- DAPT [27] 提出双注意力框架(Dual Attention Framework),通过双注意力学习与选择模块(Dual Attentive Learning&Selection module)对齐 LoRA 参数的学习与选择
- LLaMA PRO [29] 提出了一种新颖的块扩展技术(block expansion technique),将新知识注入 LLM ,同时通过高效后训练保留初始能力
Domain-incremental CIT
- 领域增量持续指令调优(Domain-incremental CIT)旨在通过一系列领域特定指令持续微调 LLM ,使其获得解决新领域任务的能力
- TAPT [16] 在生物医学、计算机科学、新闻和购物评论等领域数据上自适应调优 LLM ,随后评估其在各领域的文本分类能力
- ConPET [28] 将先前为小模型设计的持续学习方法应用于 LLM ,结合 PET 和动态回放策略,显著降低调优成本并缓解过拟合和遗忘问题。在典型持续学习场景(新知识类型逐步出现)下的实验证明了 ConPET 的优越性能
- AdaptLLM [4] 通过将原始训练语料转化为一系列与其内容相关的阅读理解任务,使 LLM 适应不同领域,同时提升提示性能
- PlugLM [4] 使用可微分插件内存(DPM)显式存储领域知识,通过插入领域内存轻松适配不同领域
- [27] 设计了一种“适配-检索-修订”(adapt-retrieve-revise)流程,使 LLM 适应新领域:首先利用初始响应从领域数据库中检索知识,随后用检索到的知识修订初始响应以获得最终答案
- [5] 分析了在不同领域持续调优的 LLM ,发现训练数据顺序对性能有显著影响,并提出混合微调(DMT)策略以学习跨领域的多种能力
Tool-incremental CIT
- 工具增量持续指令调优(Tool-incremental CIT)旨在通过持续微调 LLM,使其能够与现实世界交互并通过集成工具(如计算器、搜索引擎和数据库)增强能力 [17]
- 随着新工具(如高级软件库、新型 API 或领域特定工具 [11, 12])的快速涌现,持续更新 LLM 以快速适应和掌握这些工具的需求日益增长
- Llemma [2] 在混合数学文本和代码的数据集上持续调优 LLM ,使其能够使用外部工具解决数学问题
- ToolkenGPT [9] 将每个工具表示为一个新标记(toolken),其嵌入在指令调优中学习,为 LLM 提供了一种高效掌握工具并快速适应新工具的方法
Continual Alignment, CA
- LLM 需要适应不断变化的社会价值观、社会规范和伦理准则。此外,不同人口群体(demographic groups)之间的偏好存在显著差异,个体的偏好也会随时间变化
- 为了应对这些变化,持续对齐应运而生。在持续对齐的背景下,存在两种主要场景:
- (i) 更新 LLM 以反映社会价值观的变化;
- (ii) 将新的人口群体(demographic groups)或价值类型整合到现有的 LLM 中
- 以下将分别描述这两种场景
Continual Value Alignment
- 持续价值对齐的目标是持续整合伦理准则或适应文化敏感性和规范
- 它需要通过更新来摒弃过时的观念并融入新的价值观 ,类似于模型编辑和知识遗忘任务
- 模型编辑和知识遗忘已在预训练和指令微调阶段得到研究 [25],但在偏好学习领域尚未深入探索
Continual Preference Alignment
- 添加新的人口群体(demographic groups)或价值类型与持续学习问题一致,旨在引导 LLM 生成符合新兴价值观的响应,同时遵守已学习的偏好
- 例如,许多开源对齐的 LLM 采用基于人类反馈的强化学习(RLHF)来确保安全性
- 论文可能还需要为 LLM 增加其他属性(如帮助性和可信度)的对齐
- 除了在保留过去偏好的同时最大化新偏好奖励的挑战外,持续偏好学习还面临在大动作空间(词汇量)和大量参数下实现稳定高效训练的困难
- 先前的研究已经展示了此类代理的概念验证,但缺乏标准化基准来系统评估新偏好随时间的学习能力
- 持续近端策略优化(CPPO)[1] 在近端策略优化(PPO)算法 [17] 上采用样本级加权,以平衡策略学习和模仿旧策略输出的知识保留
- 另一方面,[26] 将直接偏好优化(DPO)算法 [18] 扩展到持续学习场景,通过蒙特卡洛估计推导出给定任务序列的最优策略序列,并将其用于正则化新任务上的策略学习
Benchmarks
- 系统评估 LLM 的持续学习性能需要高质量数据源和多样化内容的基准测试
CPT 的基准测试
- TemporalWiki[13]:是一个终身学习基准,通过使用维基百科和 Wikidata 的连续快照来训练和评估语言模型,帮助评估语言模型在保留过去知识和学习新知识方面的能力
- Firehose[9]:是一个社交媒体数据集,包含六年内来自一百万用户的一亿条推文
- CKL[14]:专注于网络和新闻数据,旨在通过在不同语料库上的持续预训练,保留初始预训练中的时间不变世界知识并高效学习新知识
- TRACE[25]:包含八个多样化数据集,涵盖专业领域、多语言任务、代码生成和数学推理,这些数据集被统一为标准格式,便于对 LLM 进行自动化评估
- 由于数据的快速变化,时间敏感的数据集会很快过时,因此需要频繁更新持续预训练的基准测试以评估模型性能
CIT 的基准测试
- 持续指令微调基准(CITB)[26]:基于 SuperNI,包含超过 1,600 个自然语言处理(NLP)任务,涵盖 76 种类型(如语言生成和分类),所有任务均以文本到文本格式呈现
- ConTinTin[24]:是另一个基于 NATURAL-INSTRUCTIONS 的基准,包含 61 个任务,分为六类(如问题生成和分类)
在使用这些基准测试评估无法访问训练数据的黑盒语言学习模型时,数据集的选择至关重要,以避免任务污染并确保持续指令微调性能评估的可靠性
CA 的基准测试
- COPF[26]使用斯坦福人类偏好数据集(SHP)[5] 和 Helpful & Harmless(HH)数据集 [2] 进行持续对齐实验
- SHP 数据集 :包含 18 个主题(从烹饪到法律建议)的 385,000 条人类偏好
- HH 数据集 :分为两部分:一部分是众包工作者与 AI 模型交互以获得有帮助的响应,另一部分是引出有害响应并在每种情况下选择更具影响力的响应
- 尽管该领域的研究兴趣日益增长,但目前仍缺乏专门用于持续对齐的基准测试,这为未来研究提供了发展机会
Evaluation
Evaluation for Target Task Sequence
- LLM 的持续学习涉及对模型在任务序列上的性能评估。性能可以通过三种典型的持续学习指标衡量:
- 1)平均性能(Average Performance)
- 2)前向迁移率(Forward Transfer Rate, FWT)
- 3)后向迁移率(Backward Transfer Rate, BWT)[11, 22]
- FWT :评估从先前任务中获得的知识对执行新任务初始能力的影响(在针对新任务进行专门训练之前):
$$
FWT = \frac{1}{T-1} \sum_{i=2}^{T-1} A_{T,i} - \tilde{b}_i
$$ - BWT 通过比较模型在学习新任务前后对旧任务的性能,衡量灾难性遗忘:
$$
BWT = \frac{1}{T-1} \sum_{i=1}^{T-1} A_{T,i} - A_{t,i}
$$ - 平均性能(如平均准确率)评估模型或算法在时间序列数据流或任务中有效学习和适应的能力:
$$
Avg.\ ACC = \frac{1}{T} \sum_{i=1}^{T} A_{T,i}
$$- 其中,\( A_{t,i} \) 是模型在第 \( i \) 个任务测试集上的准确率(模型在第 \( i \) 个任务上学习后),\( \tilde{b}_i \) 是随机初始化时任务 \( i \) 的测试准确率
Evaluation for Cross-stage Forgetting
- 在不同阶段持续训练的 LLM 可能会遇到无意识遗忘问题 [8],这表明持续指令微调可能会削弱 LLM 的通用知识
- 此外,先前研究 [15] 还表明,安全对齐的 LLM 的行为很容易受到指令微调的影响而退化
- 为了量化这些限制,TRACE[25] 提出了三种新颖的评估指标:
- 通用能力差异(General Ability Delta, GAD) :评估 LLM 在通用任务上的性能差异(经过连续目标任务训练后)
$$
GAD = \frac{1}{T} \sum_{i=1}^{T} (R^{G}_{t,i} - R^{G}_{0,i})
$$ - 指令跟随差异(Instruction Following Delta, IFD) :评估模型在连续不同任务训练后指令跟随能力的变化
$$
IFD = \frac{1}{T} \sum_{i=1}^{T} (R^{I}_{t,i} - R^{I}_{0,i})
$$ - 安全性差异(Safety Delta, SD) :评估模型响应在连续训练后的安全性变化
$$
SD = \frac{1}{T} \sum_{i=1}^{T} (R^{S}_{t,i} - R^{S}_{0,i})
$$- 其中,\( R_{0,i} \) 表示初始 LLM 在第 \( i \) 个任务上的基线性能,\( R_{t,i} \) 表示在增量学习到第 \( t \) 个任务后第 \( i \) 个任务的得分
- \( R^{G} \)、\( R^{I} \) 和 \( R^{S} \) 分别表示 LLM 在通用任务(评估从预训练中获得的信息)、指令跟随任务和对齐任务上的性能。这些指标通过关注固有技能的保持和与人类偏好的对齐,超越了传统基准测试的范围
Challenges and Future Works
Computation-efficient Continual Learning
- 在计算效率领域,重点是以最小化计算资源的方式增强持续预训练过程 [33]
- 这涉及开发能够处理预训练任务日益复杂性的创新架构,而无需按比例增加计算需求
- 算法和数据结构的效率至关重要,尤其是在管理预训练中涉及的大量数据时
- 此外,节能学习模型(energy-efficient learning models)对于 LLM 的可持续扩展至关重要,需符合绿色 AI 倡议。这一领域需要在计算成本与模型性能和能力收益之间取得平衡
社会公益(Social Good)Continual Learning
- 持续学习的社会责任包括确保隐私和数据安全,尤其是在持续指令微调的背景下 [7]
- 随着 LLM 通过更具体的指令或任务进行微调,必须安全且合乎道德地处理敏感或个人数据
- 与人类价值观和文化的对齐也至关重要,尤其是在持续偏好学习领域
- 这需要融入伦理 AI 原则和文化敏感性,以确保模型的输出符合社会规范和价值观
Automatic Continual Learning
- 一个重大挑战在于创建能够自主监督其学习过程的系统,无缝适应新任务(指令微调)和用户偏好(对齐),同时仅依赖 LLM 的固有能力,无需人工干预 [12]
- 自动持续学习包括能够协作学习的多智能体系统和基于性能反馈自主调整学习策略的自规划算法
- 此类系统将代表 LLM 自主性的重大进步
Continual Learning with Controllable Forgetting
- 可控遗忘(Controllable Forgetting)与持续预训练尤为相关
- 随着模型接触新的数据流,选择性保留或遗忘信息的能力可以防止灾难性遗忘 [15] 并增强模型的适应性 [35]
- 这一挑战还包括管理错误信息和遗忘不正确或过时的信息 [9],以确保 LLM 随时间推移的准确性和可靠性
Continual Learning with History Tracking
- 有效的历史追踪对于理解 LLM 通过预训练、指令微调和偏好学习阶段的演变至关重要
- 管理模型参数中的历史记录和使用外部记忆架构有助于追踪过去学习对当前模型行为和决策的影响 [26]
- 这对于分析持续学习过程的有效性并做出明智调整至关重要
Theoretical Insights on LLM in Continual Learning
- 许多评估研究已经探讨了跨阶段遗忘问题 [17],并证明了对齐 LLM 的弱鲁棒性 [15],但关于多阶段训练如何影响 LLM 在后续持续学习任务中性能的理论分析仍然稀缺
- 这一空白凸显了需要更深入地理解多阶段训练为 LLM 的学习能力和长期性能带来的具体变化