箱线图Boxplot-统计学解读

箱线图顾名思义最重要的两个成分就是箱和线。那么箱和线分别代表什么呢?我们首先来看中间这个箱子以及中间那条粗线:

中间粗线代表中位数(如果是标准正态分布,中位数和平均值是一样的,位置在小箱子的中间位置)。箱子大小代表的是四分位数间距(IQR),也称为中间50%间距,是统计离散度的度量(越离散越长),等于第75和第25百分位数之间的差异,或者说是在上下四分位数之间,即:IQR = Q3-Q1。(这一句话中出现的分位数,四分位数,和百分位数在英语中对应了三个单词quantile,quartile,和percentile)。

接下来谈一下小箱子伸出去的两根线,在“标准正态分布”的箱线图中,这两根线是等长的,代表的是1.5倍的IQR区间,所以箱线图的下限就是Q1-1.5IQR,上限是Q3+1.5IQR。

最后是如果有超出上下限的值(大概是2.7个标准差之外),就被叫做异常值了。

下图非常好的展现了一个箱线图中小箱子,上下限,以及异常值跟正态分布图中方差分布之间相互对应的关系。

图片

上面介绍了最标准的箱线图,但在实际应用过程中,由于数据的分布会稍微偏离或者不符合正态分布,这也就造成了箱线图的不同表达方式:主要是两根线的千变万化以及中位线在小箱子中位置的变化。

Outlier Box Plot (异常值类型,也是Excel 中的默认类型)

这种类型多用于符合正态分布的数据中,借用这种图可以很快的鉴定出异常值。

在这种类型中,一般上下限值等于我们上边说的Q1-1.5IQR和Q3+1.5IQR,但是当数据中没有达到上下限的数值,那就用最大值和最小值来替换,这也是造成两个线经常不等长的原因之一。比如在下图中,由于数据中最小值要大于下限值,所以下限值那条线就用此数据中的最小值来代替,而不是Q1-1.5IQR。而对于上限来说,由于数据中包含等于上限值的数,所以就用Q3+1.5IQR来表示。而对于大于上限值的一个数据,属于2.7个方差之外的数值,被视为异常值。

注:数据中达不到上下限的数值,意思是数据中的最大最小值其中之一或者两者都在区间(Q1对应的数值-2.7标准差,Q3对应的数值+2.7标准差)。达不到就用实际的最大最小值替换上下限。如果超出区间(Q1对应的数值-2.7标准差,Q3对应的数值+2.7标准差),则为异常点,此时的最大值(上限)为Q3对应的数值+2.7标准差,或最小值(下限)为Q1对应的数值-2.7标准差

在这里插入图片描述

分位数类型

这种类型多用于不符合正态分布的数据,借用这种图可以快速的鉴定数据中各种分位数,最大值,最小值等等,从而快速知道某个数值在整个数据中所占的位置(百分位位置)。

在这种类型中,“上下限值”就是数据中的最大值和最小值,然后中间几条小线代表自定义的分位数。如下图中左边的箱线图就是分位数类型,大家也可以比较这个图和直方图以及异常值箱线图的区别。另外,下面两个箱线图箱子里的菱形代表平均值以及上下95%的置信区间。此类型箱线图完美的结合了描述统计学和比较统计学两大功能。

在这里插入图片描述在这里插入图片描述

  • 3
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值