1.5 显著性

在前面的练习中,我们比较了第一胎宝宝和其他宝宝的妊娠期。如果一切顺利,读者会发现第一胎宝宝的出生时间比其他宝宝的出生时间平均晚13个小时。

类似这样的差异称为直观效应(apparent effect),意思就是似乎发生了有意思的事情,但还不确定。我们还需要考虑以下问题。

  • 如果两组的均值不一样,其他汇总统计量如何,比如中值和方差?我们能更精确地描述它们之间的差异吗?
  • 有没有可能这两组实际上是一样的,而我们所观察到的这种差异只是随机产生的?如果是,那这个结论就不是统计显著的。
  • 这种直观效应有没有可能是因为选择偏差或是实验设置中的错误导致的?如果是,那么这种直观效应就是人为的,也就是我们意外创造的,而并非发现了事实。

本书接下来的大部分内容都是为了回答这些问题。

习题1-4

学习统计学的最好方法就是从一个自己感兴趣的项目开始。有没有“第一胎宝宝出生较晚”这类吸引你的问题来研究?

思考自己感兴趣的问题,例如传统观念、有争议的话题或是有社会影响的问题,看看你能否将这些问题转换成统计学问题。

寻找能解决该问题的数据。国外政府是很好的数据来源,因为公共研究的数据通常都是免费的〔1〕。另一个查找数据的好去处是Wolfram Alpha,其中收集了很多经过验证的高质量的数据集,网址是http://wolframalpha.com 。Wolfram Alpha的搜索结果是有版权限制的,在使用之前应该阅读一下协议。

〔1〕在撰写这段内容的时候,英国某法院规定“信息自由法案”(Freedom of Information Act)也适用于科学研究数据。

Google和其他的一些搜索引擎也能帮你寻找数据,但网络上各种资源的质量高低不一,判断起来不容易。

如果发现已经有人回答了你的问题,要仔细看看回答是否合理。数据和分析中的缺陷可能会导致结论不可靠。如果是这样,你应该采用不同的方法来分析数据,或者是寻找其他更好的数据来源。

如果已发表的论文回答了你的问题,那就应该能弄到原始数据,很多作者都会在网上提供。但如果数据涉及个人隐私,最好联系一下作者,告诉他你要如何使用数据,或是接受特定的使用协议。坚持到底!