6.1 偏度
偏度(skewness)是度量分布函数不对称程度的统计量。对于一个给定的序列,样本偏度的定义为:
这里是均方离差(即方差),是平均的立方离差。
负的偏度表示分布向左偏(skews left),此时分布函数的左边会比右边延伸得更长;正的偏度表示分布函数向右偏。
上述计算样本偏度的公式在实际应用中使用得并不多。因为如果样本中存在异常值,那么这些异常值可能对偏度的值产生非常大的影响。
另外一个评价分布函数非对称程度的方法是比较均值和中位数的大小。相比于中位数而言,均值更容易受极端值的影响,所以如果一个分布函数是向左偏的,那么该分布的均值就会小于中位数。
皮尔逊中值偏度系数(Pearson's median skewness coefficient)就是一个基于这种思想的偏度度量(其中μ为均值,为中位数):
该统计量是偏度的一个鲁棒估计,它对异常值的影响不敏感。
习题6-1
请编写一个Skewness函数,计算一组样本数据的。
请计算怀孕周期和出生体重分布的偏度,这两个结果是否与分布的形状一致?
请编写一个PearsonSkewness函数,并用这个函数计算这些分布的。请比较和计算结果的差别。
习题6-2
乌比冈湖效应〔1〕(Lake Wobegon effect)是一种有趣的心理学现象,也称虚幻的优越性( illusory superiority),是指人们通常会觉得自己各方面的能力都比社会上的平均水平高的一种心理倾向。例如,在一些研究中,超过80%的受调查者认为他们的驾驶技术高于平均水平(参见http://wikipedia.org/wiki/Illusory_superiority )。
假如社会平均水平指的是中位数,那么上述结果在逻辑上是不可能出现的。但是如果我们将平均水平定义为均值,那么上述结果就有可能出现,虽然可能性不大。
想想,长两条腿以上的人会占总人口的多少呢?
习题6-3
美国国税局(IRS)在其网站http://irs.gov/taxstats上提供了包括收入所得税在内的一些统计数据。如果做过习题4-13,你应该已经接触过这些数据;如果没有做过,那么请按习题4-13的说明从数据集中提取收入的分布信息。
请问有多大比例的人申报的应纳税收入低于均值?
请计算收入数据的均值、中位数、偏度和皮尔逊中值偏度系数。由于数据已经按一定的区间进行了划分,这里的结果是一些近似值。
基尼系数(Gini coefficient)是一个衡量收入不平衡程度的指标。参考 http://wikipedia.org/wiki/Gini _coefficient的信息编写一个名为Gini的函数,用于计算收入分布的基尼系数。
提示:可用PMF计算相对平均差(relative mean different),参考http://en.wikipedia.org/wiki/Mean _difference 。
可以从这里下载到该问题的参考答案 http://thinkstats.com/gini.py 。