Jiahong的个人博客

凡事预则立不预则废

ML——模型的方差与偏差

Posted on 2018-03-15

本文讲解机器学习中模型的方差偏差关系

偏差与方差的定义

方差：模型的预测值之间的离散程度
偏差：模型整体的预测值与真实值的偏离程度

正则化与方差和偏差

参考博客：https://www.cnblogs.com/qkloveslife/p/9885500.html

总结

\(\lambda\)为正则化系数
当\(\lambda\)很小时，模型处于“高方差”状态，“训练误差”很小，“交叉验证误差”较大
当\(\lambda\)很大时，模型处于“高偏差”状态，“训练误差”和“交叉验证误差”都很大

集成学习与方差和偏差

参考博客：https://blog.csdn.net/xmu_jupiter/article/details/47314927

总结

集成学习分两类

平均方法：例如随机森林， Bagging methods。在平均方法中，系统分别去建立多个基分类器，分类器之间没有任何联系。然后在分类或者回归阶段，各个分类器根据测试数据给出自己的答案，然后系统根据各个分类器给出的结果去综合出最后的结果，比如可以使投票的形式。
提升方法：例如梯度提升决策树GBDT，AdaBoost。在提升方法中，系统模型在训练过程中会先后建立一系列分类器，这些分类器单个可能是弱分类器，但是组合起来就成为一个强分类器。

不同类别的偏差与方差

平均方法尝试去降低模型的方差
- 所以平均方法通常比其任何一个基分类器效果好
而提升方法尝试去降低模型的偏差