盒须图(Boxplot)是一种用来展示一组数据分布情况的图表。它由五个数值点构成,包括最小值、最大值、中位数(或者叫二分位数)、下四分位数和上四分位数,如下图所示:
+--------+--------+--------+--------+--------+
| min | Q1 | median | Q3 | max |
+--------+--------+--------+--------+--------+
其中,最小值是数据集中最小的数据点,最大值是数据集中最大的数据点;中位数是数据集中位于中间的数值,也就是第50个百分位数;下四分位数(Q1)是将数据分成四个等分后位于第一个区间的数值点,也就是第25个百分位数;上四分位数(Q3)是将数据分成四个等分后位于第三个区间的数值点,也就是第75个百分位数。
在盒须图中,将中位数用一条粗线表示,将上下四分位数用一个长方形框起来,上下边缘分别代表着上四分位数和下四分位数,也就是所谓的盒子。将数据集中的异常值用一个小圆圈标出来,将最大值和最小值之外的数据点用一条横线连接到盒子的外侧,这些线段称为“须子”,它们代表着数据集的范围。
盒须图可以用来展示一组数据的中位数、分位数、最小值、最大值以及异常值等信息。通过观察盒须图,我们可以了解到数据的分布情况,判断数据是否存在异常值,以及了解数据的偏态和离群情况等。个数据集的中心位置和分散程度。