各种模型评估指标总结,持续更新
分类模型
Accuracy,准确率
- 公式:$$ \text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} $$
- 直观,但不利于不平衡样本
Recall,召回率
- 公式:$$ \text{Recall} = \frac{TP}{TP+FN} $$
Precision,精确率
- 公式:$$ \text{Precision} = \frac{TP}{TP+FP} $$
F1 Score
- 公式:$$ \text{F1 Score} = \frac{2 * \text{Precision} * \text{Recall}}{\text{Precision}+\text{Recall}} $$
- 综合考虑模型”求精“和”求全“的能力
AUC
- 形式化定义:AUC是ROC曲线下方的面积,其中ROC曲线的横坐标是伪阳性率(也叫假正类率,False Positive Rate),纵坐标是真阳性率(真正类率,True Positive Rate)
- 本质:任意取两个样本,一个正样本和一个负样本(\( \forall x^+, x^-\)),模型预测正样本为正的概率分为\(Score_\theta(y=1|x^+)\),模型预测正样本为正的概率分为\(Score_\theta(y=1|x^-)\),则AUC为:
$$ AUC_\theta = P(Score_\theta(y=1|x^+)>Score_\theta(y=1|x^-))$$ - 真实实现时,可以统计所有正负样本对,若正样本预估值大于负样本,则累计分数+1,最后用累计分数除以所有可能的正负样本对数量
$$ AUC_\theta = \frac{Count(S_+>S_-)}{Count(S_+) * Count(S_-)}$$ - 具体代码实现:
- 将样本按照预估分数倒序排列,从大到小
- 定义四个变量:正样本总数\(M\),负样本总数\(N\),已访问负样本数量\(X=0\),正样本大于负样本的样本对数量\(Z=0\)
- 依次访问所有样本:
- 若为正样本,则\(Z = Z + (N-X)\)
- 若为负样本,则\(X = X + 1\)
- 最后计算:\(AUC = \frac{Z}{M * N}\)
回归模型
- 参考:https://www.cnblogs.com/HuZihu/p/10300760.html
- 参考:https://blog.csdn.net/guolindonggld/article/details/87856780
MSE
- MSE (Mean Square Error,均方误差)
- 也常用作损失函数
RMSE
- EMSE (Root Mean Square Error,根均方误差)
MAE
- MAE (Mean Absolute Error,平均绝对误差)
MAPE
- MAPE (Mean Absolute Percentage Error,平均绝对百分比误差)
SMAPE
- MAPE (Symmetric Mean Absolute Percentage Error,对称平均绝对百分比误差)
排序模型
- 参考:https://www.cnblogs.com/by-dream/p/9403984.html
DCG
- DCG(Discounted Cumulative Gain, 累计收益折扣)
NDCG
- (NDCG)Normalized Discounted Cumulative Gain
校准模型
COPC
- COPC(Click over Predicted Click)
- COPC = 实际的点击率/模型预测的点击率,主要衡量model整体预估的偏高和偏低,同样越接近1越好,一般情况下在1附近波动。这个指标在展示广告上应用多一些
PCOC
- PCOC(Predicted Click over Click)
- PCOC = 模型预估的点击率/实际点击率,与COPC用途相同
- COPC的倒数
PCOC指标是校准之后的点击率与后验点击率(近似真实概率)的比值,越接近于1,意味着在绝对值上越准确,大于1为高估,小于1为低估,是一种常用的高低估评价指标。但是PCOC存在一定局限性,举个例子:2万个样本,其中1万个样本的预估概率是0.2,后验概率是0.4,计算出PCOC是0.2/0.4=0.5,是显著低估的,另1万个样本PCOC是0.8/0.6= 1.3,明显是高估的。所以校准效果并不好,但是样本放一起看,校准后概率是(0.2+0.8)/2=0.5,后验概率是(0.4+0.6)/2=0.5,整体PCOC是1.0,表现完全正常。所以单一PCOC指标不能表征样本各维度下的校准水平。
净胜率模型
- ANLP
- 参考:论文《Scalable Bid Landscape Forecasting in Real-time Bidding》
- 链接:https://arxiv.org/pdf/2001.06587.pdf