DL——模型压缩技术

线性量化(linear quantization)，也叫仿射量化(affine quantization)或者均匀量化
- 我们很容易给出量化公式：
  其中，r(real value)值得是量化前的值，q(quantized value)是量化后的值，s(scale)是放缩比例，z(zero point)相当于是一个偏移量
非线性量化（nonlinear quantization），也叫作非均匀量化

Per-Tensor Quantization（逐张量量化）：
- 这是最简单的量化方式，对整个张量（即模型中的一个参数矩阵或输入数据）使用相同的量化参数（比如最小值和最大值，或者量化因子）
- 由于所有值共享相同的量化参数，因此这种方法的精度较低，但计算简单，存储和传输效率高
Per-Channel Quantization（逐通道量化）：
- 在这种量化方式中，每个通道（对于卷积神经网络中的滤波器来说，通道通常指的是滤波器输出的不同颜色或特征）使用不同的量化参数
- 这种方法比逐张量量化更精细，因为不同的通道可能具有不同的值范围，因此可以独立地进行量化，以保持每个通道的精度
- 因为有研究发现不同Channel的参数量级差距较大
Per-Layer Quantization（逐层量化）：
- 逐层量化意味着网络中的每一层都有自己的量化参数集
- 这种方法允许每一层根据其激活值的范围独立地进行量化，这可能比逐张量量化提供更好的精度，但比逐通道量化的计算成本要低
Per-Axis Quantization（逐轴量化）：
- 这种量化方式通常用于多维张量，比如二维的权重矩阵。在这种情况下，”axis”可以指特定的维度，比如行或列
- 逐轴量化意味着沿着张量的一个或多个维度，量化参数是不同的。例如，在二维张量中，可以对每一行或每一列使用不同的量化参数

PTQ(Post training quantization)，后训练量化，训完的模型直接量化，然后进行推理
QAT(Quantization aware training)，量化感知训练，训练完的模型加载到内存，进行微调后再用于推理
- LLM常用的思路就是float16训练base模型并存储，SFT时使用INT8量化并使用LoRA微调模型，然后存储LoRA参数，推理时加载base模型(INT8量化加载)和LoRA参数一起推理

模型蒸馏通常也叫作知识蒸馏（Knowledge Distillation），模型蒸馏泛指整个蒸馏技术框架，两者通常可以视作同一概念，但在一些特定的场景上会有微小差别
- 模型蒸馏更倾向于表达模型压缩的思想，强调从大模型（教师模型）迁移知识到小模型（学生模型）的过程
- 知识蒸馏更专注于将教师模型的知识（如输出分布、中间特征）传递给学生模型，不强调模型压缩，目标是提升学生模型的泛化能力
模型蒸馏（Model Distillation），主要包含Logits蒸馏和特征蒸馏两大类
参考链接：知识蒸馏算法汇总

知识蒸馏有两大类：一类是logits蒸馏，另一类是特征蒸馏。logits蒸馏指的是在softmax时使用较高的温度系数，提升负标签的信息，然后使用Student和Teacher在高温softmax下logits的KL散度作为loss。中间特征蒸馏就是强迫Student去学习Teacher某些中间层的特征，直接匹配中间的特征或学习特征之间的转换关系。例如，在特征No.1和No.2中间，知识可以表示为如何模做两者中间的转化，可以用一个矩阵让学习者产生这个矩阵，学习者和转化之间的学习关系。这篇文章汇总了常用的知识蒸馏的论文和代码，方便后续的学习和研究

关注输出层
也叫作基于反馈的知识蒸馏
学生模型被训练以模仿教师模型的输出概率分布。通过最小化两个模型输出概率分布之间的KL散度（或其他相似性度量），学生模型学习教师模型的“软目标”，即对每个类别的概率预测，而不是单一的预测标签
损失函数 ：一般实现时，除了损失函数一般还会考虑真实的预测标签，以多分类模型为例，输出是一个概率分布（例如，经过 softmax 后的 $ K $ 维向量），教师模型和学生模型的输出概率分布可以表示为：
- 教师模型的输出：$ P_T = [p_T^1, p_T^2, \dots, p_T^K] $
- 学生模型的输出：$ P_S = [p_S^1, p_S^2, \dots, p_S^K] $
- 损失函数包括：
  - KL散度损失 ：
    $$
    L_{KD} = T^2 \cdot D_{KL}(P_T || P_S) = T^2 \cdot \sum_{i=1}^K p_T^i \log \frac{p_T^i}{p_S^i}
    $$
    - 其中 $T$ 为维度系数
  - 交叉熵损失 ：
    $$
    L_{CE} = - \sum_{i=1}^K y_i \log p_S^i
    $$
    - 其中，$ y_i $ 是真实标签的 one-hot 编码
  - 总损失 ：
    $$
    L = \alpha \cdot L_{KD} + (1 - \alpha) \cdot L_{CE}
    $$

在A Survey on Model Compression for Large Language Models中，将知识蒸馏分为黑盒知识蒸馏和白盒知识蒸馏两类
黑盒知识蒸馏 ：通常表示对ChatGPT，GPT4等黑盒LLM模型教师模型进行蒸馏，黑盒蒸馏使用教师模型的输出token作为监督来优化学生模型，蒸馏手段包含了基于CoT（Chain-of-Thought）的知识蒸馏、基于语境学习（In-Context Learning）的蒸馏和基于指令跟随（Insruction Following）的知识蒸馏
白盒知识蒸馏 ：通常表示对白盒LLM教师模型内部的结构和知识进行蒸馏
Deepseek-R1技术报告中的蒸馏是直接采用Deepseek-R1训练过程中收集到的80W数据对开源的模型（如qwen，llama等）做SFT