5.6 连胜和手感

人们对随机过程的直觉往往跟事实有一定差距。如果要某人生成一些随机数，他可能会给你一些看上去随机，但实际上要比真正的随机数列有序得多的数字。反之，给他一个真正的随机数列，他也能从中找出一些并不存在的模式。

第二个现象的一个例子是很多人在体育运动中相信连胜或连败：大家往往认为一段时间比较成功的运动员“手感好”，而不成功的运动员则是“走霉运”。

统计学家在各种体育运动中测试了这些假设，但所有的结果都是一致的：不存在诸如连胜、连败一类的东西〔1〕。假设每次比赛都是独立事件，看到多次连胜或者连败的情况也很正常。这并不能说明这次获胜和下次获胜之间有什么联系。

〔1〕例如，参见Gilovich、Vallone和Tversky的“The hot hand in basketball: On the misperception of random sequences，”1985。

另一个类似现象是聚类错觉（clustering illusion），指看上去好像有某种特点的聚类实际上是随机的（参见http://wikipedia.org/wiki/Clustering_illusion）。

要检查某个聚类结果是否有意义，可以使用模拟随机系统，看看在随机情况下产生类似聚类的概率。这个过程就叫做蒙特卡罗模拟（Monte Carlo simulation），因为生成随机数的方法源自赌场（蒙特卡罗是有名的赌城）。

习题5-11

如果一场篮球比赛的10名参赛选手每人都投了15次篮，每次命中的概率是50%，那么一场比赛中至少有一名球员投篮命中10次的概率是多少？另假设一个赛季是82场比赛，如果你看完整个赛季，那么至少看到一次连续10次命中或连续10次不命中的概率是多少？

这个问题说明了蒙特卡罗模拟的优缺点。其优点是编写模拟简单快速，不需要对概率有深入理解，缺点则是对于罕见事件的模拟需要很长的时间。稍做点儿分析可以省下大量的计算资源。

习题5-12

1941年，Joe DiMaggio在连续56场比赛中都有得分记录〔2〕。很多棒球爱好者都觉得这是体育史上一项伟大的成就，因为这太少见了。

〔2〕详见http://wikipedia.org/wiki/Hitting_streak。

用蒙特卡罗模拟估计接下来的一个世纪中，棒球大联盟比赛中有球员在连续57场或更多场比赛中有得分记录的概率。

习题5-13

根据疾控中心（CDC）的定义，癌症聚集（cancer cluster）指的是“在一段时间内，某个地区的人群中的癌症病例高于预期值”。〔3〕

〔3〕源自http://cdc.gov/nceh/clusters/about.htm。

很多人觉得癌症聚集是环境恶化的证据，但很多科学家和统计学家觉得研究癌症聚集纯属浪费时间。〔4〕为什么？其中一个原因就是癌症聚集是神枪手谬误的典型例子（Sharpshooter Fallacy，详见http://wikipedia.org/wiki/Texas_sharpshooter_fallacy）。

〔4〕参见 Gawande, “The Cancer Cluster Myth,” New Yorker, Feb 8, 1997。

不过，只要有人报告癌症聚集，CDC还是有责任进行调查。根据他们的网页：

调查员先确定“病例”的定义，所关注的时间段，以及有风险的人群。然后计算预期值，并将其与实际观察到的值作比较。如果观察值和预期值的比值大于1且差异是统计显著的，就确认了存在聚集现象。

假设某种癌症每年的发病率是千分之一。如果对100个人跟踪10年，应该能观察到一例病人。如果有两例也并不奇怪，但超过两例就比较少见了。写个程序模拟大量人群的10年期发病情况，估计出总病例数的分布。
当某个观察值在完全随机的情况下出现的概率（即p值）小于5%时，我们就说它是统计显著的。在100个人历经10年的观察数据中，要出现多少病例才能满足这个要求？
现在将10 000个人分为100个由100人组成的人群，跟踪10年。其中至少有一个人群出现“统计显著”聚集的概率是多少？如果把p值的要求改成1%呢？
现在将10 000人放到100乘100的格子中，跟踪10年。其中至少有一个10乘10的方块出现统计显著聚集的概率是多少？
最后，对方格中的10 000个人跟踪30年。其中某个10乘10的方块在某10年间隔中出现统计显著聚集的概率是多少？