7.7 卡方检验
7.2节中我们得出了以下结论:第一胎婴儿的平均怀孕周期与非第一胎婴儿的平均怀孕周期的差别不具备统计显著性。但在2.10节我们计算相对风险时,发现第一胎婴儿倾向于更早或者更晚出生,而较少准时出生。
综上,或许这两个分布有相同的均值,但却有不同的方差。我们本来应该检验方差的差异是否具有显著性,但方差相对均值而言鲁棒性较差,针对方差的统计检验通常表现较差。
这里我们采取的方法是直接检验这种趋势是否具有统计学意义上的差别,即第一胎婴儿倾向于更早或者更晚出生而较少准时出生,这种差异具有统计学意义。
我们分五步来完成这个检验。
- 按2.10节中的标准把数据按怀孕周期分成三个分组(提前出生、准时出生和延后出生)。因为我们有两组数据,所以总共有6个单元格(cell)。
- 计算每个单元格期望出现的数字。在原假设下两个分组是相同的,所以我们将两组数据混在一起,来估计P(提前出生)、P(准时出生)和P(延后出生)。 我们有n=4413个第一胎婴儿的数据,在原假设下,我们期望会有nP(提前出生)个婴儿提前出生,nP(准时出生)个婴儿准时出生,等等。同样地,对m=4735个非第一胎婴儿样本,我们可以计算出每个单元格的期望数值。
- 对每个单元格,计算观测到的数值()与期望数值()的离差,即。
- 计算某种形式的离差和,将这个量称为检验的统计量。通常我们会选择卡方统计量:
- 利用蒙特卡罗模拟来计算p值,这个p值表示的是在原假设下出现比观测值(即我们在第4步中计算得到的统计量的值)更高的卡方统计量的概率。
当检验中用到的统计量是卡方统计量时,我们称该统计检验为卡方检验(chi-square test)。卡方统计量服从卡方分布,据此我们可直接计算出统计检验的p值。
在NSFG的数据中,我们计算得到, p值小于0.0001。这样我们可以认为该结果具有统计显著性。需要注意到的一点是:我们仍然在用同一批数据进行检验,最好能在另一批数据上验证一下我们的结果。
读者可以从http://thinkstats.com/chi.py下载到本节所用的代码。
习题7-6
假设你是一家赌场的老板,你怀疑有个赌客对骰子做了手脚。你已经将赌客抓了起来并且没收了他的骰子。现在你必须证明他的骰子是有问题的。
你掷了60次骰子,记录结果如下所示:
点数 1 2 3 4 5 6
频数 8 9 19 6 8 10
用上述结果计算的卡方统计量等于多少?在骰子没有问题的情况下,卡方统计量比这个值更大的可能性是多少?