8.2 方差估计

我们依然从上一节那个游戏出发,现在我想到的是个正态分布,也得到了一批样本:

{-0.441, 1.774, -0.101, -1.138, 2.975, -2.138}

那么这个分布的方差是多少?同样地,直观的想法是用样本方差来估计分布的方差。我们用S2S^2来表示样本方差,并将其同分布方差σ2\sigma^2区分开。 S2=1n(xix¯)2 S^2 =\frac{1}{n}\sum(x_i-\bar{x})^2 在样本数量足够多的情况下,S2S^2是一个很好的估计量;但是如果样本数量很少,那么S2S^2会低估σ2\sigma^2。因为这个不幸的性质,S2S^2只是σ2\sigma^2的一个有偏估计。

如果在进行很多次游戏之后,我们发现估计量与真实参数的误差的平均值为0,那么我们就称这个估计量是无偏的(unbiased)。σ2\sigma^2的一个无偏估计Sn12S_{n-1}^2是: Sn12=1n1(xix¯)2 S_{n-1}^2 = \frac{1}{n-1}\sum(x_i-\bar{x})^2 这里有个麻烦是“样本均值”可以是S2S^2, 也可以是Sn12S_{n-1}^2,并没有区分,有时会带来混乱。

http://wikipedia.org/wiki/Bias_of_an_estimator解释了为什么S2S^2是有偏的,同时证明了Sn12S_{n-1}^2的无偏性。

习题8-2

编写一个函数,从一个均值为0、方差为1的正态分布中产生6个随机数,利用样本方差去估计σ2\sigma^2,并计算估计误差S2σ2S^2-\sigma^2。运行这个函数1000次,计算平均的误差(这里没有对误差进行平方)。

接下来修改一下函数,用无偏估计量Sn12S_{n-1}^2来估计方差,并计算估计的平均误差。当模拟次数增加,估计的平均误差是否收敛到0?