2.8 异常值

异常值就是远离集中趋势的值。异常值有可能是采集和处理数据过程中的错误导致的,也有可能是罕见的正确结果。很有必要检查异常值,有时对这些异常值修剪(trim)既恰当又十分有用。

在活婴的怀孕周期数据中,最低的十个值是{0, 4, 9, 13, 17, 17, 18, 19, 20, 21}。低于20周的值肯定是错误的,只有高于30周的值正确的可能性才比较大。介于两者之间的值就很难解释了。

另一方面,最大的几个值分别是:

weeks count 
43 148 
44 46 
45 10 
46 1 
47 1 
48 7 
50 2

强调一下,有些值很有可能是错误的,但不好说。一种处理方法是对一定比例的最高和最低值修剪(参见http://wikipedia.org/wiki/Truncated_mean)。