5.6 连胜和手感

人们对随机过程的直觉往往跟事实有一定差距。如果要某人生成一些随机数,他可能会给你一些看上去随机,但实际上要比真正的随机数列有序得多的数字。反之,给他一个真正的随机数列,他也能从中找出一些并不存在的模式。

第二个现象的一个例子是很多人在体育运动中相信连胜或连败:大家往往认为一段时间比较成功的运动员“手感好”,而不成功的运动员则是“走霉运”。

统计学家在各种体育运动中测试了这些假设,但所有的结果都是一致的:不存在诸如连胜、连败一类的东西〔1〕。假设每次比赛都是独立事件,看到多次连胜或者连败的情况也很正常。这并不能说明这次获胜和下次获胜之间有什么联系。

〔1〕例如,参见Gilovich、Vallone和Tversky的“The hot hand in basketball: On the misperception of random sequences,”1985。

另一个类似现象是聚类错觉(clustering illusion),指看上去好像有某种特点的聚类实际上是随机的(参见http://wikipedia.org/wiki/Clustering_illusion)。

要检查某个聚类结果是否有意义,可以使用模拟随机系统,看看在随机情况下产生类似聚类的概率。这个过程就叫做蒙特卡罗模拟(Monte Carlo simulation),因为生成随机数的方法源自赌场(蒙特卡罗是有名的赌城)。

习题5-11

如果一场篮球比赛的10名参赛选手每人都投了15次篮,每次命中的概率是50%,那么一场比赛中至少有一名球员投篮命中10次的概率是多少?另假设一个赛季是82场比赛,如果你看完整个赛季,那么至少看到一次连续10次命中或连续10次不命中的概率是多少?

这个问题说明了蒙特卡罗模拟的优缺点。其优点是编写模拟简单快速,不需要对概率有深入理解,缺点则是对于罕见事件的模拟需要很长的时间。稍做点儿分析可以省下大量的计算资源。

习题5-12

1941年,Joe DiMaggio在连续56场比赛中都有得分记录〔2〕。很多棒球爱好者都觉得这是体育史上一项伟大的成就,因为这太少见了。

〔2〕详见http://wikipedia.org/wiki/Hitting_streak

用蒙特卡罗模拟估计接下来的一个世纪中,棒球大联盟比赛中有球员在连续57场或更多场比赛中有得分记录的概率。

习题5-13

根据疾控中心(CDC)的定义,癌症聚集(cancer cluster)指的是“在一段时间内,某个地区的人群中的癌症病例高于预期值”。〔3〕

〔3〕源自http://cdc.gov/nceh/clusters/about.htm

很多人觉得癌症聚集是环境恶化的证据,但很多科学家和统计学家觉得研究癌症聚集纯属浪费时间。〔4〕为什么?其中一个原因就是癌症聚集是神枪手谬误的典型例子(Sharpshooter Fallacy,详见http://wikipedia.org/wiki/Texas_sharpshooter_fallacy)。

〔4〕参见 Gawande, “The Cancer Cluster Myth,” New Yorker, Feb 8, 1997。

不过,只要有人报告癌症聚集,CDC还是有责任进行调查。根据他们的网页:

调查员先确定“病例”的定义,所关注的时间段,以及有风险的人群。然后计算预期值,并将其与实际观察到的值作比较。如果观察值和预期值的比值大于1且差异是统计显著的,就确认了存在聚集现象。

  1. 假设某种癌症每年的发病率是千分之一。如果对100个人跟踪10年,应该能观察到一例病人。如果有两例也并不奇怪,但超过两例就比较少见了。 写个程序模拟大量人群的10年期发病情况,估计出总病例数的分布。
  2. 当某个观察值在完全随机的情况下出现的概率(即p值)小于5%时,我们就说它是统计显著的。在100个人历经10年的观察数据中,要出现多少病例才能满足这个要求?
  3. 现在将10 000个人分为100个由100人组成的人群,跟踪10年。其中至少有一个人群出现“统计显著”聚集的概率是多少?如果把p值的要求改成1%呢?
  4. 现在将10 000人放到100乘100的格子中,跟踪10年。其中至少有一个10乘10的方块出现统计显著聚集的概率是多少?
  5. 最后,对方格中的10 000个人跟踪30年。其中某个10乘10的方块在某10年间隔中出现统计显著聚集的概率是多少?