Math——样本均值方差和总体均值方差的关系

本文介绍随机变量样本均值方差和整体均值方差的关系,同时还介绍样本和均值的方差和总体方差的关系

样本均值的方差与总体方差的关系

  • 其他证明方式:
    • 上式中,如果总体方差未知,想要用样本方差来作为总体方差的无偏估计,则样本方差的定义是应该是 \(S^2 = \frac{1}{n-1}\sum_i^n(X_i-\bar{X})^2\),(此时样本方差是总体方差的无偏估计)

样本方差为什么要除以n-1?

  • 样本方差的定义:
    $$
    \sigma^2 \approx S^2 = \frac{1}{n-1}\sum_i^n(X_i-\bar{X})^2
    $$
  • 为什么样本方差是乘以\(\frac{1}{n-1}\)而不是\(\frac{1}{n}\)?
    • 因为这样使用\(\frac{1}{n}\)会低估总体方差,此时样本方差不是总体方差的无偏估计
    • 样本方差低估了总体方差的原因是因为从总体里面抽出来的数据会更倾向于集中,极端情况下,一个样本对应的方差为0
  • 换个视角想,是因为我们不知道总体的均值,所以计算方差时使用的均值也是从样本中求平均得到的,这使得我们基于该均值得到的方差不够离散(因为使用了样本均值,所以自由度需要减一),也就是低估了总体方差
    • 怎么理解自由度?
      • 采样一个样本以后无法计算方差,此时方差为0,因为此时均值就等于样本本身,此时自由度为0
      • 采样两个样本以后得到的方差只根第二个样本到第一个样本的距离有关(样本均值与这两个样本强相关),此时自由度为1
      • 当采样的样本数非常多(假设为n)时,实际上单个样本与均值的关系很小了,此时自由度为n-1
  • 当已知总体均值\(\mu\)时(个人理解:这里的\(\mu\)可以是其他采样方式下获得的近似均值,只要不跟当前用于计算方差的样本相关即可),样本方差可以使用:
    $$
    \sigma^2 \approx S^2 = \frac{1}{n-1}\sum_i^n(X_i-\mu)^2
    $$
  • 样本方差经过\(\frac{1}{n-1}\)修正以后可以用来估计总体方差(修正以后是总体方差的无偏估计)
    • 这个修正叫做贝塞尔修正
  • 证明 from :Bilibili-样本方差为什么除以n-1?