8.5 置信区间

到目前为止,我们学习了用估计量产生一个值来估计参数,这种方法称为点估计(point estimation)。在很多问题中,有时我们更希望知道一个有上界和下界的区间,这个区间能够覆盖未知的参数。

更一般地,我们想知道整个分布的情况,也就是分布参数所有取值的范围,在此范围内的每一个值,以及每个值的可能性。

我们从置信区间(confidence interval)这个概念开始。

回到我们之前的游戏。我想到一个指数分布,然后告诉你一组样本:

{5.384, 4.493, 19.198, 2.790, 6.122, 12.844}

接下来,我想让你给我一个范围,这个范围有很大的可能性覆盖未知参数λ。更具体地说,我想要一个90%的置信区间,也就是如果我重复地进行这个游戏,平均而言这个区间能90%包含λ。

这样的游戏有点太难了,所以这里直接给出了答案,读者可以试着去验证一下结果。

我们通常以缺失率(miss rate)α来描述置信区间,90%的置信区间对应的α=0.1。指数分布的参数λ的置信区间为: λ^X2(2n,1α2)2n,λ^X2(2n,α2)2n \lgroup \hat{\lambda}\frac{\mathcal{X}^2(2n,1-\frac{\alpha}{2})}{2n},\hat{\lambda}\frac{\mathcal{X}^2(2n,\frac{\alpha}{2})}{2n} \rgroup 这里n表示样本数量,λ^\hat{\lambda}是上一节提到的参数的均值估计。 X2(k,x)\mathcal{X}^2(k, x)是自由度为k的卡方分布的累积分布函数在x处的值(卡方分布请参http://wikipedia.org/wiki/Chi-square_distribution)。

一般说来,很难用分析的方法推导出参数的置信区间,但用模拟的形式来估计它相对容易很多。接下来我们从贝叶斯统计的角度来讨论参数的估计。