8.5 置信区间

到目前为止，我们学习了用估计量产生一个值来估计参数，这种方法称为点估计（point estimation）。在很多问题中，有时我们更希望知道一个有上界和下界的区间，这个区间能够覆盖未知的参数。

更一般地，我们想知道整个分布的情况，也就是分布参数所有取值的范围，在此范围内的每一个值，以及每个值的可能性。

我们从置信区间（confidence interval）这个概念开始。

回到我们之前的游戏。我想到一个指数分布，然后告诉你一组样本：

{5.384, 4.493, 19.198, 2.790, 6.122, 12.844}

接下来，我想让你给我一个范围，这个范围有很大的可能性覆盖未知参数λ。更具体地说，我想要一个90%的置信区间，也就是如果我重复地进行这个游戏，平均而言这个区间能90%包含λ。

这样的游戏有点太难了，所以这里直接给出了答案，读者可以试着去验证一下结果。

我们通常以缺失率（miss rate）α来描述置信区间，90%的置信区间对应的α=0.1。指数分布的参数λ的置信区间为： $\lgroup \hat{\lambda}\frac{\mathcal{X}^2(2n,1-\frac{\alpha}{2})}{2n},\hat{\lambda}\frac{\mathcal{X}^2(2n,\frac{\alpha}{2})}{2n} \rgroup$ 这里n表示样本数量， $\hat{\lambda}$ 是上一节提到的参数的均值估计。 $\mathcal{X}^2(k, x)$ 是自由度为k的卡方分布的累积分布函数在x处的值（卡方分布请参http://wikipedia.org/wiki/Chi-square_distribution）。

一般说来，很难用分析的方法推导出参数的置信区间，但用模拟的形式来估计它相对容易很多。接下来我们从贝叶斯统计的角度来讨论参数的估计。