1 箱型图介绍
箱型图,用作显示一组数据分散情况资料的统计图。
优点:不受异常值的影响,可以准确稳定的描述数据的离散分布情况
一个例子:一组数12,15,17,19,20,23,25,28,30,33,34,35,36,37 (共14个)
重要参数:
1. 下四分位数Q1:等于该样本中所有数值由小到大排列后第25%的数字
Q1所在的位置=(14+1)/4=3.75【第3个的0.75+第4个的0.25】
Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;、
2. 中位数(第二个四分位数)Q2:该样本中所有数值由小到大排列后第50%的数字
Q2所在的位置=2×(14+1)/4=7.5
Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5;
3. 上四分位数Q3:等于该样本中所有数值由小到大排列后第75%的数字
Q3所在的位置=3×(14+1)/4=11.25
Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25;
4. 四分位距(interquartile range, IQR):
IQR=Q3-Q1
5. 上限:非异常范围内的最大值
上限=Q3+1.5IQR
6. 上限:非异常范围内的最大值
下限=Q1-1.5IQR
7. 异常值:内限与外限之间的异常值为温和的异常值【mild outliers】||||外限以外的异常值为极端的异常值【extreme outliers】
2 箱型图分析
- 异常值的识别
- 判断数据的偏态和尾重
对于标准正态分布的样本,只有极少值为异常值,异常值越多说明尾部越重,自由度越小。
**偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。 - 根据不同的箱型图比较几批数据的形状
从箱型图中可以看出数据的【平均值、中位数、分布区间、异常值】
学习链接: