箱线图的思考

背景

工作中突然要用到箱线图, 但是对这个概念又有点模糊了, 所以自己重新梳理一遍箱线图的基本知识, 做好笔记下次忘了再回查.主要的有关内容如下:

  1. 箱线图的作用
  2. 分位数的计算
  3. 为什么是1.5?
  4. excel中两个计算分位数函数的差别
  5. 箱线图陷阱

箱线图的作用

箱线图(boxplot)属于到描述性统计(descriptive statistics), 描述性统计的作用简单的来说就是用数值来描述数据有何相同的地方又有何不同的地方,就是对数据做总结归纳. 而箱线图是一种使用五个数值(下边缘,第一分位数,中位数,第三分位数,上边缘)来描述数据集分布的方法, 就是观察数据集大概是集中再什么区域, 分布的情况是否是对称的还是说向左或向右偏, 有没有一些数据偏离的很离谱等等.

分位数(interquartile number)的计算

第一分位数(Q1):把数据集从小到大排序, 排在第25%位的数据 ;
中位数(Q2):把数据集从小到大排序, 排在中间也就是50%的数据 ;
第三分位数(Q3):把数据集从小到大排序, 排在第75%位的数据 ;
四分位距(interquartile range)IQR:Q3-Q1,这个数的意义是把75%的数减去25%的数就剩下50%的数,而且还是在中位数附近的 ;
下边缘(minimum): Q1-1.5IQR, 为什么系数是1.5?后面会稍微讲一下个人的见解 ;
上边缘(maximum): Q3+1.5IQR .

为什么是1.5?

如果我们把数据集当成是服从正态分布的数据集,那么上下边缘的计算公式中的系数取1.5时,上边缘与下边缘这段区间的概率分布为99.3%,也就是数只有1%的可能会落在这个区间之外,是非常小的概率, 如果出现了这种情况,我们就可以认为这个数据的出现是会伴随着某些问题的出现. 也就是为什么在这个区间之外的点我们称为异常点(outliers)

excel中两个计算分位数函数的差别

在excel当中有两个函数用来计算分位数, 分别为quartile.exc()和quartile.inc(). 要解释它们之间的区别, 首先要了解一点,那就是对于离散分布而言, 如何选取分位数还存在不一致的声音.也就是有两种方法 : #

方法1
  • 使用中位数把一个有序数据集分成两个部分
    • 如果是奇数集,那么用中位数把集合分成两部分后,中位数剔除掉左右两个数据集都包含中位数
    • 如果是偶数集,那么就刚好分成两半
  • 第一分位数就是分成两半后的较小的集合的中位数继续将较小的集合进行划分
方法2
  • 使用中位数把一个有序数据集分成两个部分
    • 如果是奇数集,那么用中位数把集合分成两部分后,中位数剔除掉左右两个数据集都包含中位数
    • 如果是偶数集,那么就刚好分成两半
  • 第一分位数就是分成两半后的较小的集合的中位数继续将较小的集合进行划分

箱线图陷阱

当数据的分布是双峰分布的时候, 用箱线图来看数据分布会给人带来误导 .

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值