DL——深度学习并行技术总结

整体说明

并行化技术一般在训练大型深度学习模型时使用
并行化技术氛围三种：
- 数据并行 (Data Parallelism)
- 模型并行 (Model Parallelism)
- 流水线并行 (Pipeline Parallelism)，有的地方也翻译为管道并行

各种并行方法之间的关系总结

整体可分为 模型并行 (Model Parallelism) 和 数据并行
- 数据并行 ：每个 GPU 都拥有一个完整的模型副本，但处理不同的数据批次
- 模型并行 ：每个 GPU 只负责模型的一部分，所有 GPU 共同处理一个完整的数据批次，包括 张量并行 和 流水线并行 两种具体实现
模型并行的进一步介绍：当模型太大无法放入单个 GPU 时，就需要使用模型并行
- 将模型的不同部分分配给不同的 GPU
- 优点是可以训练显存无法容纳的巨大模型
- 缺点是实现相对复杂，且由于不同 GPU 间的通信和等待，可能会导致 GPU 利用率不高
实际应用中，为了充分利用资源并训练超大模型，通常会结合多种并行化技术，形成 混合并行 策略，例如同时使用数据并行、流水线并行和张量并行

数据并行 (Data Parallelism)

最常见、也最容易理解的并行化方法
数据并行的工作方式 ：
- 训练数据集被分成多个子集（例如，一个 128 张图片的批次被分成 4 个 32 张图片的子批次）
- 每个 GPU 拥有一个完整的模型，并独立处理一个子批次的数据
数据并行的训练过程 ：
- 1）每个 GPU 计算其子批次的前向传播和反向传播，得到各自的梯度
- 2）通过 All-Reduce 这样的通信操作，将所有 GPU 的梯度进行汇总和平均
- 3）每个 GPU 用这个平均后的梯度来更新自己的模型参数，从而确保所有模型副本保持同步
优点是实现简单，对模型结构无特殊要求 ，比如使用 PyTorch 的 DP 类就可以实现
缺点是每个 GPU 都需要存储完整的模型 ，当模型参数量非常大时，会超出单个 GPU 的显存限制 ，此时数据并行就无法使用

流水线并行 (Pipeline Parallelism)

流水线并行将模型的不同“层”（或一组层）分配给不同的 GPU，形成一个“流水线”
- 例如，GPU 1 负责模型的第 1-4 层，GPU 2 负责第 5-8 层，以此类推
数据并行的训练过程 ：
- 一个数据批次被分解成更小的“微批次”（micro-batches）
- GPU 1 处理第一个微批次，完成后将输出传给 GPU 2
- 当 GPU 1 开始处理第二个微批次时，GPU 2 就可以同时处理第一个微批次
优点是部分解决了模型过大的问题（单层过大仍然无法解决）
缺点是存在 “流水线气泡”（pipeline bubble） 问题，即流水线开始和结束时，部分 GPU 会处于空闲等待状态，导致 GPU 利用率并非 100%
- 注：通过流水线的方式（即错位并行处理不同微批次的方式），可以一定程度上重叠不同 GPU 的计算，提高整体效率

张量并行 (Tensor Parallelism)

张量并行不按层切分模型，而是将模型中某个操作内部的张量（例如一个大型矩阵）切分到不同的 GPU 上
举例来说：一个 \(A \times B\) 的矩阵乘法，可以把矩阵 B 按列切分，每个 GPU 分别计算，最后再通过通信操作将结果合并
优点是：
- 可以进一步解决单个层或单个操作的参数过大的问题，从根本上解决了模型过大的问题
- 因为所有 GPU 都在同一时间处理同一个微批次，所以不会有流水线气泡问题 ，GPU 利用率通常更高
缺点是
- 对模型结构有要求，通常只能在某些特定操作（如矩阵乘法、线性层）中应用
- 需要频繁的 GPU 间通信来同步切分后的张量，这要求非常高速的 GPU 互联（例如 NVLink）