7.4 解释统计检验结果

本章开头,我们提到了一个问题:如何确定观测到的表观效应是否真实存在?我们是这样来处理的。首先,定义原假设(效应不存在)为H0;然后定义p值为P(E|H0),这里的E表示的是与表观效应相符以及比表观效应更显著的效应。最后我们可以计算得到p值,并将其与阈值α作比较。

这些步骤非常重要,但是并没有回答我们原来的问题,即这个效应是否真实存在。所以我们应该对假设检验的结果进行解释。一般说来有如下的几种解释。

  • 古典解释 在古典的假设检验中,如果p值小于阈值α,那么我们可以说效应在统计学上是显著的,但是不能得到效应真实存在的结论。这种解释很谨慎,避免提到结论,但无法让人满意。
  • 实际解释 在实际应用中,人们并没有像上述那样正式地处理假设检验。在绝大多数科学杂志中,研究者毫无节制地报道p值,读者也将它们作为表观效应真实存在的证据。p值越低,就越能使他们相信结论的正确性。
  • 贝叶斯统计解释 实际上我们想知道的是P(HA|E),这里HA是与H0相对的假设,即效应是真实存在的。由贝叶斯定理可得 P(HA|E) = P(E|HA)P(HA)/P(E) 这里P(HA)是在我们观测到这个效应之前的先验概率。P(E|HA)是在HA成立的条件下观测到效应E的概率。P(E)是在任意情况下观测到效应E的概率。效应要么存在,要么不存在,所以这里P(E)可以表示为 P(E) = P(E|HA)P(HA) + P(E|H0)P(H0)

例如,我们要计算NSFG数据中怀孕周期的P(HA|E)。已经知道P(E|H0)=0.166,所以接下来要做的就是计算P(E|HA),并为HA选择一个先验概率。

为了计算P(E|HA),我们假设效应是真实存在的,且两个分组均值的差(等于0.078)反映的是真实的效应。(这样的处理实际上并不严谨,下一节会解释如何解决这个问题。)

在两个分组中单独地抽取样品,构建每个分组的分布。重复1000次这样的试验,我们得到P(E|HA)的估计为0.494。假设P(HA)的先验概率为0.5,得到HA的后验概率为0.748。

因此,若P(HA)的先验概率为50%,用观测到的证据更新之后得到的后验概率接近75%。后验概率高于先验概率,这个结果是有意义的,因为这表明了观测到的数据在一定程度上支持了HA。不过这个结果看起来多少有点使人惊讶,先验概率和后验概率会差别这么大,而且还是在两个分组均值差异并不具备统计显著性的情况下。

实际上,这一节中所用的方法并不严谨,上述方法倾向于夸大了观测到的差异的影响。下一节我们修正这一倾向。

习题7-3

在NSFG的数据中,第一胎婴儿体重的分布与非第一胎婴儿体重的分布不同的后验概率是多少?

读者可以从 http://thinkstats.com/hypothesis.py下载本节用到的代码。