6.6 中心极限定理

到目前为止,我们已经知道:

  • 如果将一些服从正态分布的数据加起来,得到的和也服从正态分布;
  • 如果将一些不服从正态分布的数据加起来,那么得到的结果一般情况下不会服从前面讲过的连续分布。

理论上我们已经证明了:如果将大量服从某种分布的值加起来,所得到的和会收敛到正态分布。

假设随机变量X的均值和标准差为μ和σ,那么n个随机变量X的和渐进地服从N(nμ,nσ2)\mathcal{N}(n\mu,n\sigma^2)

上述理论称为中心极限定理(Central Limit Theorem),它是统计分析中非常重要的工具。但是这个定理的成立要求满足一些条件。

  • 用于求和的数据必须满足独立性。
  • 数据必须服从同一个分布(这个要求可以被适当地放松)。
  • 产生这些数据分布的均值和方差必须是有限的(所以帕累托分布就不能满足这个条件了)。
  • 收敛的速度取决于原来分布的偏度。如果数据服从指数分布,那么这些数据的和将会很快收敛;但如果数据服从对数正态分布,那么收敛速度就没那么快了。

中心极限定理部分解释了为什么正态分布在自然界中广泛存在。绝大多数动物(或者其他生命形式)的特征,如体重,都会受到大量遗传和环境因素的影响,而且这些影响是具有可加性的。我们观测到的这些特征是大量微效因素的加和,所以它们都近似地服从正态分布。

习题6-12

假设x1,,xnx_1, \cdots , x_n是服从同一分布的独立数据,且均值μ\mu和方差σ2\sigma^2都是有限的,那么样本均值服从什么分布呢?

x¯=1nxi \bar{x} = \frac{1}{n}\sum x_i

样本均值的方差会随着n的增大发生什么样的变化?提示:可以回想一下6.5节的开头。

习题6-13

从指数分布、对数正态分布、帕累托分布中选择一个分布函数,然后产生一组随机数(个数为2、4或8等),计算它们和的分布。画出分布图看看是否接近正态分布?当随机序列的长度多长时会收敛到正态分布?

习题6-14

如果我们不计算它们的总和,而是改成计算它们的乘积,那么随着项数增多,结果会怎么样? 提示:看看乘积对数的分布。