第7章 假设检验

从NSFG(美国全国家庭成长调查)提供的数据中,我们可以发现一些很明显的现象,例如第一胎婴儿与非第一胎婴儿相比有很多不同的地方。到目前为止,我们仅从数值大小的角度比较了这些效应(effect)。接下来我们将对这些效应进行统计检验。

最基本的问题是这些效应是真实存在的还是随机引起的。例如,我们发现孕妇第一胎的怀孕周期和非第一胎的不同,那么这个差异是确实存在的还是偶然引起的呢?

我们难以直接回答上述问题,但可以将其拆成两部分:首先检验这个效应是否具有显著性,然后通过解释统计检验的结果来回答上述问题。

在统计学上,显著性(significant)有专门定义,与通常语义下的用法不同。如本书前面提到的,我们说一个效应在统计学上具有显著性,是指这种情况在一次试验中不大可能(unlikely)发生。

为了让上述表述更加精确,我们必须回答如下三个问题。

  1. 什么是“偶然”?
  2. 什么是“不大可能发生”?
  3. 什么是“效应”?

这三个问题要比看起来难很多, 但是人们已经发展出了一套方法来进行统计显著性检验。

  • 原假设(Null hypothesis) 基于一种假设的系统模型,在这种假设下我们认为观测到的效应是由偶然因素造成的。
  • p值(p-value) 在原假设下,出现直观效应的概率。
  • 解释(Interpretation) 基于p值的大小,推断观测到的效应是否具有统计显著性。

上述过程称为假设检验(hypothesis testing)。这里潜在的逻辑类似于数学上的反证法:为了证明数学命题A是正确的,我们先假设A是错误的,如果基于这个假设得出了矛盾的结果,那么我们就证明了A是正确的。

同样地,为了检验某个直观效应是否真实存在,我们首先假设这个效应不是真实存在的,即偶然造成的(原假设)。然后基于这个原假设计算出发生这种效应的概率(p值)。如果p值非常小,我们就可以认为原假设不大可能是真的。