ML——模型的方差与偏差

本文讲解机器学习中模型的方差偏差关系


偏差与方差的定义

  • 方差:模型的预测值之间的离散程度
  • 偏差:模型整体的预测值与真实值的偏离程度

正则化与方差和偏差

总结

  • \(\lambda\)为正则化系数
  • 当\(\lambda\)很小时,模型处于“高方差”状态,“训练误差”很小,“交叉验证误差”较大
  • 当\(\lambda\)很大时,模型处于“高偏差”状态,“训练误差”和“交叉验证误差”都很大

集成学习与方差和偏差

总结

集成学习分两类
  • 平均方法:例如随机森林, Bagging methods。在平均方法中,系统分别去建立多个基分类器,分类器之间没有任何联系。然后在分类或者回归阶段,各个分类器根据测试数据给出自己的答案,然后系统根据各个分类器给出的结果去综合出最后的结果,比如可以使投票的形式。
  • 提升方法:例如梯度提升决策树GBDT,AdaBoost。在提升方法中,系统模型在训练过程中会先后建立一系列分类器,这些分类器单个可能是弱分类器,但是组合起来就成为一个强分类器。
  • Stacking方法:
不同类别的偏差与方差
  • 平均方法尝试去降低模型的方差
    • 所以平均方法通常比其任何一个基分类器效果好
  • 而提升方法尝试去降低模型的偏差