9.2 协方差

协方差(covariance)可以用来衡量相关变量变化趋势是否相同。假设我们有两列序列X和Y,它们与其均值离差为: dxi=xiμX dx_i = x_i-\mu_X dyi=yiμY dy_i = y_i-\mu_Y 这里μX\mu_X是X的均值,μY\mu_Y是Y的均值。如果X和Y的变化方向一致,那么它们与均值的离差应有相同的正负号。

如果我们将二者的离差相乘,那么当二者的符号相同时,乘积为正数。所以这些乘积加和的结果可以用来衡量两个序列变化是否一致。

协方差就是这些乘积结果的平均值: cov(X,Y)=1Ndxidyi \mathcal{cov}(X,Y)=\frac{1}{N}\sum dx_idy_i 这里n表示序列的长度(X和Y必须有相同的长度)。

协方差的计算比较简单,但我们一般较少使用,因为这个值很难解释。另一个问题是,协方差的单位是X和Y的单位的乘积。在前面的那个例子里,这个单位就是千克*厘米,我们还很难说这个单位有什么意义。

习题9-1

请编写一个计算两个数据序列协方差的函数Cov,为了测试你写的函数,可以计算两个相同序列的协方差,确保有Cov(X,X)=Var(X)\mathcal{Cov}(X, X)=\mathcal{Var}(X)

读者可以从http://thinkstats.com/correlation.py下载到答案。