5.6 连胜和手感
人们对随机过程的直觉往往跟事实有一定差距。如果要某人生成一些随机数,他可能会给你一些看上去随机,但实际上要比真正的随机数列有序得多的数字。反之,给他一个真正的随机数列,他也能从中找出一些并不存在的模式。
第二个现象的一个例子是很多人在体育运动中相信连胜或连败:大家往往认为一段时间比较成功的运动员“手感好”,而不成功的运动员则是“走霉运”。
统计学家在各种体育运动中测试了这些假设,但所有的结果都是一致的:不存在诸如连胜、连败一类的东西〔1〕。假设每次比赛都是独立事件,看到多次连胜或者连败的情况也很正常。这并不能说明这次获胜和下次获胜之间有什么联系。
〔1〕例如,参见Gilovich、Vallone和Tversky的“The hot hand in basketball: On the misperception of random sequences,”1985。
另一个类似现象是聚类错觉(clustering illusion),指看上去好像有某种特点的聚类实际上是随机的(参见http://wikipedia.org/wiki/Clustering_illusion)。
要检查某个聚类结果是否有意义,可以使用模拟随机系统,看看在随机情况下产生类似聚类的概率。这个过程就叫做蒙特卡罗模拟(Monte Carlo simulation),因为生成随机数的方法源自赌场(蒙特卡罗是有名的赌城)。
习题5-11
如果一场篮球比赛的10名参赛选手每人都投了15次篮,每次命中的概率是50%,那么一场比赛中至少有一名球员投篮命中10次的概率是多少?另假设一个赛季是82场比赛,如果你看完整个赛季,那么至少看到一次连续10次命中或连续10次不命中的概率是多少?
这个问题说明了蒙特卡罗模拟的优缺点。其优点是编写模拟简单快速,不需要对概率有深入理解,缺点则是对于罕见事件的模拟需要很长的时间。稍做点儿分析可以省下大量的计算资源。
习题5-12
1941年,Joe DiMaggio在连续56场比赛中都有得分记录〔2〕。很多棒球爱好者都觉得这是体育史上一项伟大的成就,因为这太少见了。
用蒙特卡罗模拟估计接下来的一个世纪中,棒球大联盟比赛中有球员在连续57场或更多场比赛中有得分记录的概率。
习题5-13
根据疾控中心(CDC)的定义,癌症聚集(cancer cluster)指的是“在一段时间内,某个地区的人群中的癌症病例高于预期值”。〔3〕
很多人觉得癌症聚集是环境恶化的证据,但很多科学家和统计学家觉得研究癌症聚集纯属浪费时间。〔4〕为什么?其中一个原因就是癌症聚集是神枪手谬误的典型例子(Sharpshooter Fallacy,详见http://wikipedia.org/wiki/Texas_sharpshooter_fallacy)。
〔4〕参见 Gawande, “The Cancer Cluster Myth,” New Yorker, Feb 8, 1997。
不过,只要有人报告癌症聚集,CDC还是有责任进行调查。根据他们的网页:
调查员先确定“病例”的定义,所关注的时间段,以及有风险的人群。然后计算预期值,并将其与实际观察到的值作比较。如果观察值和预期值的比值大于1且差异是统计显著的,就确认了存在聚集现象。
- 假设某种癌症每年的发病率是千分之一。如果对100个人跟踪10年,应该能观察到一例病人。如果有两例也并不奇怪,但超过两例就比较少见了。 写个程序模拟大量人群的10年期发病情况,估计出总病例数的分布。
- 当某个观察值在完全随机的情况下出现的概率(即p值)小于5%时,我们就说它是统计显著的。在100个人历经10年的观察数据中,要出现多少病例才能满足这个要求?
- 现在将10 000个人分为100个由100人组成的人群,跟踪10年。其中至少有一个人群出现“统计显著”聚集的概率是多少?如果把p值的要求改成1%呢?
- 现在将10 000人放到100乘100的格子中,跟踪10年。其中至少有一个10乘10的方块出现统计显著聚集的概率是多少?
- 最后,对方格中的10 000个人跟踪30年。其中某个10乘10的方块在某10年间隔中出现统计显著聚集的概率是多少?