2.8 异常值
异常值就是远离集中趋势的值。异常值有可能是采集和处理数据过程中的错误导致的,也有可能是罕见的正确结果。很有必要检查异常值,有时对这些异常值修剪(trim)既恰当又十分有用。
在活婴的怀孕周期数据中,最低的十个值是{0, 4, 9, 13, 17, 17, 18, 19, 20, 21}。低于20周的值肯定是错误的,只有高于30周的值正确的可能性才比较大。介于两者之间的值就很难解释了。
另一方面,最大的几个值分别是:
weeks count
43 148
44 46
45 10
46 1
47 1
48 7
50 2
强调一下,有些值很有可能是错误的,但不好说。一种处理方法是对一定比例的最高和最低值修剪(参见http://wikipedia.org/wiki/Truncated_mean)。