PLCC (Pearson Linear Correlation Coefficient)
- 皮尔逊线性相关系数主要用于衡量预测值与真实值之间的线性相关程度
- PLCC 反映了预测结果在数值上的准确性
$$ PLCC = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2} } $$- \(x_i\) 是第 \(i\) 个样本的预测值
- \(y_i\) 是第 \(i\) 个样本的真实值(如 MOS 分数)
- \(\bar{x}\) 和 \(\bar{y}\) 分别是预测值和真实值的平均值
- PLCC 的特点:
- 对数值大小敏感
- 要求数据呈正态分布或接近正态分布效果最好
- 在计算前,通常需要对预测值进行非线性回归(如 Logistic 映射),以消除模型输出范围与 MOS 分数范围不一致的影响
- 取值范围:
[-1, 1]- 1 :完全正线性相关
- 0 :无线性相关
- -1 :完全负线性相关
- 一般在 打分、评估、质量预测、对比两个分数 的场景里:
- 0.9 ~ 1.0 :极强线性相关
- 0.7 ~ 0.9 :强线性相关
- 0.5 ~ 0.7 :中等线性相关
- 0.3 ~ 0.5 :弱线性相关
- < 0.3 :几乎无线性相关
SROCC (Spearman Rank-Order Correlation Coefficient)
- 斯皮尔曼等级相关系数主要用于衡量预测值与真实值之间的单调性相关程度
- SROCC 只关注数据的相对排序,而不关注具体的数值差异
$$ SROCC = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)} $$- \(d_i = rank(x_i) - rank(y_i)\) 是第 \(i\) 个样本的预测值排名与真实值排名之差
- \(n\) 是样本数量
- 特点
- 非参数指标,不要求数据分布
- 对异常值(Outliers)更具鲁棒性
- 只要预测值随真实值单调递增,SROCC 就会接近 1,即便它们之间不是线性关系
- 取值范围:[-1, 1]
- 1 :完全单调正相关
- 0 :无单调相关
- -1 :完全单调负相关
- 一般分数含义:
- 0.8 ~ 1.0 :极强单调相关
- 0.6 ~ 0.8 :强单调相关
- 0.4 ~ 0.6 :中等单调相关
- 0.2 ~ 0.4 :弱单调相关
- < 0.2 :几乎无单调相关
KROCC (Kendall Rank Correlation Coefficient)
- 肯德尔等级相关系数 主要用于衡量预测值与真实值之间 排序的一致性程度
- KROCC 基于成对样本的顺序一致性来度量相关性,关注的是变量之间的序数关联而非数值线性关系
$$
KROCC = \frac{n_c - n_d}{\sqrt{(n_0 - n_1)(n_0 - n_2)} }
$$- \(n_c\) 为一致对数量:预测值与真实值相对顺序相同的样本对
- \(n_d\) 为不一致对数量:预测值与真实值相对顺序相反的样本对
- \(n_0 = \frac{n(n-1)}{2}\) 为总样本对数量
- \(n_1\)、\(n_2\) 分别为预测值与真实值中存在并列秩的修正项
- \(n\) 为样本总数
- 特点:
- 非参数指标,不依赖数据分布
- 对异常值不敏感 ,鲁棒性强
- 更适合小样本、存在并列排名的场景
- 相比 SROCC,KROCC 对局部排序错误更敏感,解释更直观
- 取值范围:
[-1, 1]- 1 :预测值与真实值完全一致排序
- 0 :随机无序 ,无等级相关
- -1 :完全相反排序
- 在质量评估、打分预测、偏好排序等场景中:
- ≥ 0.60 :极强等级相关
- 0.40 ~ 0.60 :强等级相关
- 0.20 ~ 0.40 :中等等级相关
- 0.10 ~ 0.20 :弱等级相关
- < 0.10 :几乎无等级相关
附录:SROCC vs PLCC 核心差异对比
- PLCC 和 SROCC 分别从不同的维度衡量预测值与真实值(Ground Truth)之间的相关性
- 通常一个优秀的模型应该在两个指标上都接近 1
- 对比表格:
特性 PLCC SROCC 衡量目标 线性相关性 (Linearity) 单调相关性 (Monotonicity) 计算基础 原始数值 (Raw Values) 排名/等级 (Ranks) 对异常值敏感度 高(异常值会显著拉低分数) 低(排名变化较小) 数据分布要求 通常要求正态分布 无要求(非参数统计) 应用场景 衡量预测精度(数值准不准) 衡量排序能力(好坏顺序对不对)