| Jiahong 的个人博客

这是一个非常深刻的问题，直指两种方法在统计效率上的核心差异。方差的变化规律，是理解为什么几何平均在工程上更受青睐的关键

为了清晰地对比，作者依然沿用之前的设定：每个 token 的重要性比率 $r_t$ 是独立同分布的随机变量，其均值为 $\mu$，方差为 $\sigma^2$。作者考察随着序列长度 $T$ 的增加，直接乘积 $P_T$ 和几何平均 $G_T$ 的方差如何变化

1. 直接乘积 $P_T = \prod_{t=1}^T r_t$ 的方差

数学推导

由于 $r_t$ 相互独立，乘积的期望等于期望的乘积。方差的计算稍微复杂一些，但作者可以利用独立随机变量乘积的方差公式：
$$
\text{Var}(P_T) = \mathbb{E}_[P_T^2] - (\mathbb{E}_[P_T])^2
$$
其中：
$$
\mathbb{E}_[P_T] = \prod_{t=1}^T \mathbb{E}_[r_t] = \mu^T
$$
$$
\mathbb{E}_[P_T^2] = \prod_{t=1}^T \mathbb{E}_[r_t^2] = \prod_{t=1}^T (\text{Var}(r_t) + (\mathbb{E}_[r_t])^2) = (\sigma^2 + \mu^2)^T
$$
因此：
$$
\text{Var}(P_T) = (\sigma^2 + \mu^2)^T - \mu^{2T}
$$

方差随 $T$ 的增长规律

核心观察： 方差由两个指数项构成
当 $\mu > 1$ 时： 两项都指数级增长，但 $(\sigma^2 + \mu^2) > \mu^2$，所以第一项增长更快。$\text{Var}(P_T)$ 随着 $T$ 增加而指数级爆炸式增长
当 $\mu < 1$ 时： 两项都指数级衰减到 0。但相对而言，$\text{Var}(P_T)$ 也随着 $T$ 增加而指数级衰减
当 $\mu = 1$ 时： 这是重要性采样中最理想但也最脆弱的情况。此时 $\text{Var}(P_T) = (1 + \sigma^2)^T - 1$。只要 $\sigma^2 > 0$（即 $r_t$ 不是恒为 1），方差依然随着 $T$ 增加而指数级增长

结论： 除非 $r_t$ 恒等于 1（即 $p$ 和 $q$ 完全相同），否则直接乘积 $P_T$ 的方差会随着序列长度 $T$ 的增加而指数级增长。这就是重要性采样在实际应用中面临的“方差爆炸”问题，导致估计量极其不稳定，几乎不可用

2. 几何平均 $G_T = \left( \prod_{t=1}^T r_t \right)^{1/T}$ 的方差

数学推导

分析几何平均的方差，更自然的方式是在对数空间进行。令 $Y_t = \log r_t$，并假设 $Y_t$ 独立同分布，其均值为 $\mu_y$，方差为 $\sigma_y^2$
那么：
$$
\log G_T = \frac{1}{T} \sum_{t=1}^T Y_t
$$
$$
\mathbb{E}_[\log G_T] = \mu_y
$$
$$
\text{Var}(\log G_T) = \frac{\sigma_y^2}{T}
$$

现在作者想求 $G_T = \exp(\log G_T)$ 本身的方差。这需要用到对数正态分布的性质。如果 $\log G_T$ 是正态分布（根据中心极限定理，当 $T$ 较大时近似成立），那么 $G_T$ 近似服从对数正态分布。对于一个对数正态变量，其方差为：
$$
\text{Var}(G_T) \approx \left( \exp(\sigma_y^2 / T) - 1 \right) \cdot \exp(2\mu_y + \sigma_y^2 / T)
$$

方差随 $T$ 的增长规律

核心观察： 方差公式中的关键项是 $\sigma_y^2 / T$，它出现在指数函数的参数中
当 $T$ 很小时： $\sigma_y^2 / T$ 可能比较大，$G_T$ 的方差可能较大
当 $T$ 增大时： $\sigma_y^2 / T$ 趋向于 0
- 利用近似 $e^x \approx 1 + x$（当 $x$ 很小时），作者有：
  $$
  \text{Var}(G_T) \approx \left( (1 + \frac{\sigma_y^2}{T}) - 1 \right) \cdot \exp(2\mu_y) = \frac{\sigma_y^2}{T} \cdot \exp(2\mu_y)
  $$
关键结论： 随着 $T$ 的增加，几何平均 $G_T$ 的方差以 $1/T$ 的速度衰减到 0

3. 直观对比与总结

为了让你更直观地感受这种差异，作者来看一张对比表（假设 $\mu = 1, \sigma^2 = 0.1$，即 $r_t$ 围绕 1 波动）：

序列长度 $T$	直接乘积 $P_T$ 的方差	几何平均 $G_T$ 的方差	对比
1	$0.1$	$0.1$	相同
10	$(1.1)^{10} - 1 \approx 1.59$	$\approx 0.1 / 10 = 0.01$	乘积方差是几何平均方差的 159倍
100	$(1.1)^{100} - 1 \approx 13780$	$\approx 0.1 / 100 = 0.001$	乘积方差是几何平均方差的 1378万倍
1000	$(1.1)^{1000} - 1 \approx 2.5 \times 10^{41}$	$\approx 0.1 / 1000 = 0.0001$	乘积方差是几何平均方差的 $2.5 \times 10^{45}$倍

最终结论

特性	直接乘积 $P_T$	几何平均 $G_T$
方差随 $T$ 的变化	指数级增长（除非 $p=q$ 精确成立）	以 $1/T$ 速率衰减到 0
统计含义	随着序列变长，估计量越来越不可靠，单个样本就能主导整个估计。	随着序列变长，估计量越来越稳定，收敛到真实平均值。
工程后果	训练不稳定，梯度更新被个别长序列的极端权重支配。	训练稳定，长短序列贡献均衡，模型收敛更平滑。

为什么 LLM 的 GSPO 倾向于使用几何平均（或其变体）？
这张方差对比表就是最直接的答案。在长序列（如 $T=1024$ 或更长）的场景下，直接乘积的方差会天文数字般地爆炸 ，导致任何基于它的学习算法都无法收敛。而几何平均的方差随着序列增长反而越来越小 ，提供了统计学习所需的稳定性。虽然几何平均会引入一些偏差，但在“有偏但稳定”和“无偏但发散”之间，工程实践几乎总是选择前者

序列长度 \(T\)	直接乘积 \(P_T\) 的方差	几何平均 \(G_T\) 的方差	对比
1	\(0.1\)	\(0.1\)	相同
10	\((1.1)^{10} - 1 \approx 1.59\)	\(\approx 0.1 / 10 = 0.01\)	乘积方差是几何平均方差的 159倍
100	\((1.1)^{100} - 1 \approx 13780\)	\(\approx 0.1 / 100 = 0.001\)	乘积方差是几何平均方差的 1378万倍
1000	\((1.1)^{1000} - 1 \approx 2.5 \times 10^{41}\)	\(\approx 0.1 / 1000 = 0.0001\)	乘积方差是几何平均方差的 \(2.5 \times 10^{45}\)倍

1. 直接乘积 \(P_T = \prod_{t=1}^T r_t\) 的方差

数学推导

方差随 \(T\) 的增长规律

2. 几何平均 \(G_T = \left( \prod_{t=1}^T r_t \right)^{1/T}\) 的方差

数学推导

方差随 \(T\) 的增长规律

3. 直观对比与总结

最终结论