NLP——数据选择相关论文汇总

注：本文包含 AI 辅助创作

整体说明

数据选择包含多个技术点和方向
- Instruction Tuning 数据选择
- Prompt Compression
- Token Selection
- Uncertainty Quantification
- Perplexity 评估

文章总结

文章总结情况：

#	论文	核心方法	选择粒度	是否需外部模型
1	D3	多维度综合评分	样本级	部分需要
2	Data Whisperer	ICL-based 评估	样本级	否（自身ICL）
3	DONOD	模型内在信号剪枝	样本级	否
4	Macro to Micro	多层次多样性分析	分析性工作	N/A
5	Quantity→Quality	自引导质量评估	样本级	是（LLM评分）
6	Importance-Aware	动态重要性感知	样本级	否
7	Measuring Diversity	多样性度量框架	数据集级	N/A
8	QuaDMix	质量-多样性平衡	样本级	小模型
9	Superfiltering	弱→强 IFD 筛选	样本级	小模型
10	T-SHIRT	Token-level 层次化选择	Token-level	参考模型
11	LLMLingua-2	蒸馏+Token分类	Token-level	GPT-4蒸馏
12	ssToken	自调制+语义感知	Token-level	否
13	SAR	语义加权UQ	Token-level	否
14	What’s Wrong w/ PPL	LongPPL+LongCE	Token-level	否

D3: Diversity, Difficulty, and Dependability-Aware Data Selection for Sample-Efficient LLM Instruction Tuning

原始论文：D3: Diversity, Difficulty, and Dependability-Aware Data Selection for Sample-Efficient LLM Instruction Tuning, 20250519, NJU & Taobao

背景 & 问题

LLM 的指令微调通常需要大量高质量数据，但收集和标注成本高昂
现有研究表明少量精心选择的数据可以达到甚至超过全量数据的效果，但如何系统性地从大规模数据集中选择最优子集 仍是挑战
现有方法往往只关注某一个维度（如质量或多样性），缺乏综合考虑多维度特征的选择框架

思路 & 方法流程

D3 提出同时考虑三个维度的数据选择框架：
- 1）Diversity（多样性） ：通过 embedding 聚类保证选出子集在语义空间中的覆盖度
- 2）Difficulty（难度） ：通过 perplexity/loss 评估，选择中等到较高难度的样本
- 3）Dependability（可靠性） ：通过多次训练或交叉验证评估样本标注质量
流程：
- 全量数据计算各维度得分
- 多目标优化综合三个维度
- 贪心/子模函数优化选出子集
- 指令微调
实验表明仅 1-5% 数据即可达到全量水平

Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning

原始论文：Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning, 202507, SJTU & NTU & NUS

背景 & 问题

针对特定下游任务微调 LLM 时，通用数据集中只有少量数据与目标任务相关，且传统 embedding 相似度方法可能无法准确捕获任务语义
本文利用 LLM 自身的 ICL 能力进行高效数据选择，特别适用于仅有少量目标任务示例的场景

思路 & 方法流程

核心思想：利用 LLM 的 Few-Shot ICL 能力作为”数据选择器”，让 LLM 自己判断哪些训练数据对目标任务最有帮助
流程：
- 用户提供 few-shot 示例
- 将示例作为上下文让 LLM 对候选数据评分
- 先粗筛（embedding retrieval）再精筛（ICL scoring）
- 选择 top-k 子集
- 任务特定微调
优势在于不需额外训练数据选择模型

DONOD: Efficient and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning

原始论文：DONOD: Efficient and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning, 20250808, Shanghai AI Lab & UCL

背景 & 问题

数据集剪枝旨在去除冗余和低质量样本以提升训练效率，现有方法通常依赖外部模型（如 GPT-4）评分，带来额外成本和偏差
DONOD 提出利用待训练模型自身的内在信号来进行数据剪枝

思路 & 方法流程

核心思想：模型训练过程中产生的梯度、损失等信号可以反映数据价值，无需外部评估器
流程：
- 1）全量数据上短暂预热训练（~1 epoch），收集内在信号（损失变化率、梯度范数、EL2N 分数等）
- 2）基于信号计算样本重要性得分
- 3）自适应阈值剪枝（去除过简单和过难的样本）
- 4）在剪枝后数据集上完整微调

From Macro to Micro: Probing Dataset Diversity in Language Model Fine-Tuning

原始论文：From Macro to Micro: Probing Dataset Diversity in Language Model Fine-Tuning, AAAI 2026, Baidu & Peking University

背景 & 问题

“数据多样性”是数据选择研究中反复被提及的重要特征，但现有文献对”多样性”的定义和度量缺乏系统性研究
不同粒度的多样性对微调效果的影响可能截然不同

思路 & 方法流程

建立多层次多样性度量框架：
- 1）宏观多样性（Macro） ：任务/领域类别覆盖广度
- 2）中观多样性（Meso） ：同一类别内子主题覆盖
- 3）微观多样性（Micro） ：单个样本的语言表达、格式、风格差异
流程：
- 为每层设计量化指标（类别熵、embedding 覆盖率、n-gram 多样性等）
- 控制实验分别操纵各层多样性
- 验证微调效果
Insight：宏观多样性对通用能力至关重要，微观多样性增强泛化和鲁棒性，存在最优多样性水平

From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning

原始论文：From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning, Ping An Technology & University of Maryland

背景与问题

主流做法是”越多越好”收集指令数据，但数据量增加并不总能提升性能，低质量和冗余数据反而可能损害效果
核心问题：能否自动选出高质量子集实现”以质量换数量”？

核心思想与方法流程

自引导数据选择（Self-Guided Data Selection） ：利用 LLM 自身来评估指令数据质量
流程：
- 定义评估维度（指令质量/回复质量/复杂度）
- LLM 多维度评分
- 质量排序选择 top-k%
- 可选迭代优化
- 在高质量子集上微调
使用约 5-10% 数据即可匹配全量效果

Importance-Aware Data Selection for Efficient LLM Instruction Tuning

原始论文：Importance-Aware Data Selection for Efficient LLM Instruction Tuning, AAAI 2026, Alibaba Cloud Computing

背景 & 问题

现有数据选择方法往往只考虑单一维度（如质量或多样性），未能有效衡量每条数据对模型训练的实际贡献度
本文设计一种能够感知数据重要性的选择策略

思路 & 方法流程

1）重要性度量 ：基于模型反馈的评分机制，利用训练中模型对样本的 loss reduction 或梯度信号估计学习价值
2）动态选择策略 ：训练中动态更新重要性分数，优先选择对当前状态贡献最大的样本
流程：
- 小规模预训练获取初始模型
- 计算重要性分数
- 按排序选取子集
- 指令微调
支持多轮迭代，5%-10% 数据即可达全量水平

Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric

原始论文：Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric, Fudan, 202507

背景 & 问题

“多样性”被认为是影响模型泛化能力的关键因素，但学界缺乏系统性定义和可靠度量方式
现有启发式代理指标与实际训练效果的相关性未被验证

思路 & 方法流程

1）系统分析 ：从语义多样性、任务多样性、格式多样性、长度分布等维度拆解，分析各维度与下游性能的相关性
2）可靠度量 ：设计基于嵌入空间的多样性指标，利用预训练模型表示空间计算覆盖范围和分散程度（如 Vendi Score）
实验验证：
- 构建不同多样性水平的子集
- 分别训练
- 多 benchmark 评估
Insight ：语义层面的 embedding diversity 比表面特征更能预测泛化能力

QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining

原始论文：QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining, ByteDance, 20250426

背景 & 问题

LLM 预训练数据选择面临质量与多样性的两难：
- 仅选高质量数据导致分布偏窄、多样性不足；
- 保留多样性又引入低质量数据

思路 & 方法流程

1）双维度评分 ：同时计算质量分数（小模型打分器/困惑度）和多样性贡献分数（与已选集合的相似度）
2）联合优化 ：score = α * quality + (1-α) * diversity
流程：
- 质量评估器打分
- 聚类/嵌入评估多样性
- 可调参数平衡
- 贪心选择子集
效果：相同数据量下优于纯质量筛选或随机采样

Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning

原始论文：Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning, University of Maryland & Ping An Technology

背景 & 问题

现有数据筛选方法依赖强大模型（如 GPT-4）进行质量评分，成本高、速度慢
本文探究：是否可以用小模型（弱模型）的评分来替代大模型的评分进行筛选？

思路 & 方法流程

论文核心发现：小模型（如 GPT-2）对指令数据的 perplexity 排序与 GPT-4 质量评分高度一致
方法流程 ：
- 1）使用小型 LM（如 GPT-2, 125M）计算每条数据的 IFD 分数
- 2）IFD = perplexity(response | instruction) / perplexity(response) ，衡量指令对回复生成的引导程度
- 3）选择 IFD 适中的数据（过低=太简单，过高=噪声）
- 4）流程：
  - 小模型前向推理
  - IFD 筛选
  - 子集微调大模型
优势：比 GPT-4 打分快数百倍，在 Alpaca 上用 6% 数据匹配全量性能

T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning

原始论文：T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning, University of Maryland, NeurIPS 2025

背景 & 问题

传统方法将每条样本视为整体评估，忽略了 Token-level 信息价值差异
一条数据中不同 token 对模型学习的贡献不同（关键推理步骤 vs. 模板化表述）

思路 & 方法流程

层次化选择框架 ：
- 1）第一层（样本级） ：基于质量/多样性指标筛选高价值候选
- 2）第二层（ Token-level ） ：对入选样本内部 token 进行重要性评估，施加不同 loss 权重
Token 重要性评估 ：利用未微调基座模型与目标模型的 token-level loss 差异
- 差异 token = 模型尚未掌握、值得重点学习
流程：
- 样本级分数
- 选子集
- token-level 权重
- 加权损失训练

LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

原始论文：LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression, THU & Microsoft, ACL 2024

背景 & 问题

LLM 应用中 prompt 往往很长且包含大量冗余，需要压缩以降低推理成本
现有方法（如 LLMLingua）使用因果语言模型的信息熵决定保留哪些 token，但信息熵仅用单向上下文，且与压缩目标不对齐，可能丢失关键语义

思路 & 方法流程

核心思想：将 prompt 压缩建模为 token 分类问题（保留/删除），通过数据蒸馏从 GPT-4 获取压缩知识，训练小型双向 Transformer encoder
流程：
- 1）GPT-4 对原始文本压缩，生成 Token-level “保留/删除”标注
- 2）以 XLM-RoBERTa-large 为 backbone 训练 token 二分类模型
- 3）推理时预测每个 token 保留概率，按压缩比选 top-k
效果：比现有方法快 3x-6x，端到端延迟加速 1.6x-2.9x

ssToken: Self-Modulated and Semantic-Aware Token Selection for LLM Fine-Tuning

原始论文：ssToken: Self-Modulated and Semantic-Aware Token Selection for LLM Fine-Tuning, 20251021, SJTU & Shanghai Innovation Institute

背景 & 问题

Token-level 数据选择是 SFT 的细粒度优化方向，但现有方法有两个局限：
- (1) 需要额外参考模型；
- (2) 仅依赖 loss 信息，无法保留语义重要但 loss 不高的 token

思路 & 方法流程

无需额外参考模型、结合 loss 信号和语义信号的 token 选择方法：
- 1）Self-Modulated Selection ：利用训练过程中模型自身的历史 checkpoint，计算当前与历史模型在每个 token 上的 loss 差值——重点关注”当前还未学好”的 token
- 2）Semantic-Aware Selection ：引入 attention-based token 重要性估计，识别语义关键 token，与 loss-based 选择正交互补
- 3）联合策略 ：融合两个信号综合决定哪些 token 参与梯度更新
效果：单独任一信号均优于全数据微调；融合后进一步超越现有 token 选择方法

Shifting Attention to Relevance (SAR): Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models

原始论文：Shifting Attention to Relevance (SAR): Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models, 20240811, Drexel University & AWS AI Lab

背景 & 问题

LLM 自由形式文本生成中常产生幻觉，需要不确定性量化（UQ）评估输出可靠性
- 但现有 UQ 方法对所有 token 等权处理，忽视”语言冗余性”——少数关键词即可传达核心语义，功能词被过度加权降低了 UQ 准确性

思路 & 方法流程

核心思想：在 UQ 中将注意力转移到语义相关的成分（Shifting Attention to Relevance）
- 1）Token-level SAR ：根据语义贡献度加权每个 token，降低功能词权重、提升内容词权重
- 2）Sentence-level SAR ：多句生成中评估每句与问题的相关性并加权
- 3）不确定性聚合 ：基于加权概率分布计算最终不确定性分数
效果：在幻觉检测和选择性预测任务上显著优于基线 UQ 方法

What is Wrong with Perplexity for Long-context Language Modeling?

原始论文：What is Wrong with Perplexity for Long-context Language Modeling?, PKU & MIT & Alibaba, ICLR 2025

背景 & 问题

PPL 是评估语言模型的标准指标，但在评估长上下文能力时不可靠
- PPL 低的模型不一定在长上下文任务上表现好
- 这个根本原因此前未被清晰解释

思路 & 方法流程

核心思想：PPL 对所有 token 取平均，掩盖了”关键 token”（真正需要长上下文信息才能正确预测的 token）的表现
方法流程：
- 1）识别关键 Token ：分别用长/短上下文计算每个 token 的预测概率，长上下文下预测概率显著更高的 token 为”关键 token”
- 2）LongPPL 指标 ：仅在关键 token 上计算 PPL。与长上下文 benchmark 的 Pearson 相关系数达 -0.96
- 3）LongCE Loss ：微调时对关键 token 赋予更高 loss 权重，聚焦学习长距离依赖
效果：LongPPL 能准确预测模型的长上下文实际表现；LongCE 带来一致性能提升