ML——归纳偏置概念理解


整体说明

  • 在机器学习和深度学习中,归纳偏置(Inductive Bias)是指学习算法在面对未知数据时所倾向的特定类型的假设或规律
  • 当模型去预测其未遇到过的输入的结果时,会做一些假设,而学习算法中的归纳偏置就是这些假设的集合
  • 归纳偏置是机器学习算法在学习过程中对某种类型假设的偏好

归纳偏置的作用

  • TLDR:没有归纳偏置的模型在面对新数据时无法有效泛化。归纳偏置通过引入合理的先验知识,缩小假设空间,提高学习效率
    • 例如“无免费午餐定理”指出,没有任何算法在所有问题上表现最优
  • 数据效率 :在少量数据下,合理的偏置能快速收敛到可行解
  • 泛化能力 :避免过拟合,例如奥卡姆剃刀原则(偏好简单假设)
  • 领域适配 :针对问题设计合适的偏置(如CNN对图像、RNN对序列)

有哪些常见归纳偏置?

  • 模型架构 :如卷积神经网络(CNN)的“局部性假设”(相邻像素关联性强),位移不变性
  • 正则化 :L1正则化偏好稀疏解,L2偏好小权重
  • 优化目标 :支持向量机(SVM)追求最大化分类间隔
  • 特征选择 :决策树优先选择信息增益高的特征
  • 一些算法自带归纳偏置
    • 线性回归 :假设数据关系是线性的
    • K近邻(KNN) :假设相似输入有相似输出
    • 贝叶斯模型 :依赖先验概率分布假设

归纳偏置带来的问题

  • 若偏置与真实数据分布不符(如用线性模型拟合非线性关系),会导致欠拟合。此时需调整模型假设