箱形图图示1
箱形图优点
箱形图常用于检测并展现出数据中的异常值,可进行数据清洗,可以判断数据的偏态和尾重。(即观测数据的整体集中分布情况,当数据分布较为集中的时候,箱形图中的“箱子”会更小,对应的两个线也会更小;反之,则越大。)
箱形图缺点
箱形图不能精确地衡量数据分布的偏态和尾重程度,并且对于批量比较大的数据,其反映的信息更加模糊(如果一批数据用中位数代表总体评价水平不行的话,则其箱形图的表现也具有一定的局限性)
箱形图的五要素
箱形图包含五个要素,分别为中位数、上四分位数、下四分位数、上限以及下限。
中位数
中位数(从小到大排序后的最中间的数/最中间两个数的平均值)。
上四分位数Q3
上四分位数Q3的求法,是将序列平均分成四份,然后取(1+n)*3/4的数。
假设一个有序序列为data = [1,2,3,4,5,6,7,8],序列长度n=8,(1+n) /4 * 3=6.75,则该上四分位数Q3介于第6个数和第7个数之间,假设第6个数和第7个数是均匀分布的,那么第6.75个数就是: 第6个数 * 0.75 + 第7个数 * 0.25 ,此处为:6 * 0.75 + 7 * 0.25 = 6.25。因此,这边的Q3 = 6.25。
下四分位数Q1
下四分位数Q1的求法,是将序列平均分成四份,然后取(1+n)/4的数。
假设一个有序序列为:data = [1,2,3,4,5,6,7,8],序列长度n=8,(1+n)/4=2.25,则该下四分位数Q1介于第2个数和第3个数之间,假设第2个数和第3个数是均匀分布的,那么第2.25个数就是: 第2个数 * 0.25 + 第3个数 * 0.75 ,此处为:2 * 0.25 + 3 * 0.75 = 2.75。因此,这边的Q1 = 2.75。
上限
上面的T形线段所延伸到的极远处,是Q3+1.5IQR(其中,IQR=Q3-Q1)与剔除异常值后的极大值两者取最小,是Q3+1.5IQR与剔除异常值后的极大值两者取最小。
(由于本例中