箱形图的优缺点,python绘制箱形图

箱形图是一种用于展示数据分布情况的统计图表,尤其适合识别异常值。它不能精确衡量数据的偏态和尾重,但能快速概览数据集中枢趋势。Python中可以通过绘制箱形图进行数据可视化分析。本文详细介绍了箱形图的五要素:中位数、上四分位数、下四分位数、上限和下限,并提供了计算示例。
摘要由CSDN通过智能技术生成

在这里插入图片描述
箱形图图示1

箱形图优点

箱形图常用于检测并展现出数据中的异常值,可进行数据清洗,可以判断数据的偏态和尾重。(即观测数据的整体集中分布情况,当数据分布较为集中的时候,箱形图中的“箱子”会更小,对应的两个线也会更小;反之,则越大。)

箱形图缺点

箱形图不能精确地衡量数据分布的偏态和尾重程度,并且对于批量比较大的数据,其反映的信息更加模糊(如果一批数据用中位数代表总体评价水平不行的话,则其箱形图的表现也具有一定的局限性)

箱形图的五要素

箱形图包含五个要素,分别为中位数、上四分位数、下四分位数、上限以及下限。

中位数

中位数(从小到大排序后的最中间的数/最中间两个数的平均值)。

上四分位数Q3

上四分位数Q3的求法,是将序列平均分成四份,然后取(1+n)*3/4的数。

假设一个有序序列为data = [1,2,3,4,5,6,7,8],序列长度n=8,(1+n) /4 * 3=6.75,则该上四分位数Q3介于第6个数和第7个数之间,假设第6个数和第7个数是均匀分布的,那么第6.75个数就是: 第6个数 * 0.75 + 第7个数 * 0.25 ,此处为:6 * 0.75 + 7 * 0.25 = 6.25。因此,这边的Q3 = 6.25。

下四分位数Q1

下四分位数Q1的求法,是将序列平均分成四份,然后取(1+n)/4的数。

假设一个有序序列为:data = [1,2,3,4,5,6,7,8],序列长度n=8,(1+n)/4=2.25,则该下四分位数Q1介于第2个数和第3个数之间,假设第2个数和第3个数是均匀分布的,那么第2.25个数就是: 第2个数 * 0.25 + 第3个数 * 0.75 ,此处为:2 * 0.25 + 3 * 0.75 = 2.75。因此,这边的Q1 = 2.75。

上限

上面的T形线段所延伸到的极远处,是Q3+1.5IQR(其中,IQR=Q3-Q1)与剔除异常值后的极大值两者取最小,是Q3+1.5IQR与剔除异常值后的极大值两者取最小。
(由于本例中

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值