9.1 标准分数

本章我们将开始关注变量与变量之间的关系。例如,我们会觉得一般而言身高越高的人体重越重。相关(correlation)就是用来描述这种类型的关系的。

在衡量相关关系的时候会出现的一个问题是,两个变量有不同的度量衡。如身高是用厘米度量的,而体重则是用千克衡量的。还有一个问题,即使两个变量有相同的单位,它们的分布也不同。

有两种方法可以解决这些问题。

  1. 将所有的值转换成标准分数(standard score),这就引出了皮尔逊相关系数。
  2. 将所有的值转换成百分等级,这就引出了斯皮尔曼相关系数。

假设X是一个序列,xix_i是其中的一个值,我们定义标准分数的转换公式为Zi=(xiμ)/σZ_i=(x _i-\mu)/\sigma,这里μ\mu表示序列的均值,σ\sigma表示标准差。

转换公式的分子表示一个离差,是xix_i与均值的差异。除以σ\sigma是为了标准化偏差。这样Z的单位就为1,而且均值为0,方差为1。

Z的分布形状与X相似,即如果X是一个正态分布,那么Z也是一个正态分布;如果X的分布函数非对称,或者有一些异常值,那么Z也是如此。这类情况下,百分等级转换会提供更为鲁棒的结果。如R是X的一个百分等级转换结果,那么不论X服从什么类型的分布,R都服从0到100上的均匀分布(R的单位为%)。