9.2 协方差
协方差(covariance)可以用来衡量相关变量变化趋势是否相同。假设我们有两列序列X和Y,它们与其均值离差为: 这里是X的均值,是Y的均值。如果X和Y的变化方向一致,那么它们与均值的离差应有相同的正负号。
如果我们将二者的离差相乘,那么当二者的符号相同时,乘积为正数。所以这些乘积加和的结果可以用来衡量两个序列变化是否一致。
协方差就是这些乘积结果的平均值: 这里n表示序列的长度(X和Y必须有相同的长度)。
协方差的计算比较简单,但我们一般较少使用,因为这个值很难解释。另一个问题是,协方差的单位是X和Y的单位的乘积。在前面的那个例子里,这个单位就是千克*厘米,我们还很难说这个单位有什么意义。
习题9-1
请编写一个计算两个数据序列协方差的函数Cov,为了测试你写的函数,可以计算两个相同序列的协方差,确保有。
读者可以从http://thinkstats.com/correlation.py下载到答案。