Math——相关性指标

皮尔逊线性相关系数主要用于衡量预测值与真实值之间的线性相关程度
PLCC 反映了预测结果在数值上的准确性
$$ PLCC = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2} } $$
- $x_i$ 是第 $i$ 个样本的预测值
- $y_i$ 是第 $i$ 个样本的真实值（如 MOS 分数）
- $\bar{x}$ 和 $\bar{y}$ 分别是预测值和真实值的平均值
PLCC 的特点：
- 对数值大小敏感
- 要求数据呈正态分布或接近正态分布效果最好
- 在计算前，通常需要对预测值进行非线性回归（如 Logistic 映射），以消除模型输出范围与 MOS 分数范围不一致的影响
取值范围：[-1, 1]
- 1 ：完全正线性相关
- 0 ：无线性相关
- -1 ：完全负线性相关
一般在 打分、评估、质量预测、对比两个分数 的场景里：
- 0.9 ~ 1.0 ：极强线性相关
- 0.7 ~ 0.9 ：强线性相关
- 0.5 ~ 0.7 ：中等线性相关
- 0.3 ~ 0.5 ：弱线性相关
- < 0.3 ：几乎无线性相关

斯皮尔曼等级相关系数主要用于衡量预测值与真实值之间的单调性相关程度
SROCC 只关注数据的相对排序，而不关注具体的数值差异
$$ SROCC = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)} $$
- $d_i = rank(x_i) - rank(y_i)$ 是第 $i$ 个样本的预测值排名与真实值排名之差
- $n$ 是样本数量
特点
- 非参数指标，不要求数据分布
- 对异常值（Outliers）更具鲁棒性
- 只要预测值随真实值单调递增，SROCC 就会接近 1，即便它们之间不是线性关系
取值范围：[-1, 1]
- 1 ：完全单调正相关
- 0 ：无单调相关
- -1 ：完全单调负相关
一般分数含义：
- 0.8 ~ 1.0 ：极强单调相关
- 0.6 ~ 0.8 ：强单调相关
- 0.4 ~ 0.6 ：中等单调相关
- 0.2 ~ 0.4 ：弱单调相关
- < 0.2 ：几乎无单调相关

肯德尔等级相关系数 主要用于衡量预测值与真实值之间 排序的一致性程度
KROCC 基于成对样本的顺序一致性来度量相关性，关注的是变量之间的序数关联而非数值线性关系
$$
KROCC = \frac{n_c - n_d}{\sqrt{(n_0 - n_1)(n_0 - n_2)} }
$$
- $n_c$ 为一致对数量：预测值与真实值相对顺序相同的样本对
- $n_d$ 为不一致对数量：预测值与真实值相对顺序相反的样本对
- $n_0 = \frac{n(n-1)}{2}$ 为总样本对数量
- $n_1$、$n_2$ 分别为预测值与真实值中存在并列秩的修正项
- $n$ 为样本总数
特点：
- 非参数指标，不依赖数据分布
- 对异常值不敏感 ，鲁棒性强
- 更适合小样本、存在并列排名的场景
- 相比 SROCC，KROCC 对局部排序错误更敏感，解释更直观
取值范围：[-1, 1]
- 1 ：预测值与真实值完全一致排序
- 0 ：随机无序 ，无等级相关
- -1 ：完全相反排序
在质量评估、打分预测、偏好排序等场景中：
- ≥ 0.60 ：极强等级相关
- 0.40 ~ 0.60 ：强等级相关
- 0.20 ~ 0.40 ：中等等级相关
- 0.10 ~ 0.20 ：弱等级相关
- < 0.10 ：几乎无等级相关

PLCC 和 SROCC 分别从不同的维度衡量预测值与真实值（Ground Truth）之间的相关性
- 通常一个优秀的模型应该在两个指标上都接近 1

对比表格：