盒须图(箱线图)是一种常用的统计图形,用来显示数据的位置、分散程度和异常值等。箱线图主要包括6个统计量:下线、第一四分位数、中位数、第三四分位数、上限和异常值。通过绘制盒须图,观测数据在同类群体中的位置,我们可以知道哪些表现好,哪些表现差,比较四分位全距以及线段的长短,可以看出哪些群体分散,那些群体更集中。
- 第一四分位数:数据按照大小顺序排列,处于总观测数25%位置的数据
- 中位数:数据按照大小顺序排列,处于中间位置,即总观测数50%的数据。
- 第三四分位数:数据按照大小顺序排列,处于总观测数75%位置的数据为第三分位数
- 下限:第一四分位数 - 1.5 * IQR
- 上限:第三四分位数 + 1.5 * IQR
- 异常值:在上限和下限之外的数据
- IQR:表示四分位全距,计算方式是用第三分位数减去第一分位数得到的数值
盒须图的制作很简单,我们需要三列数据就能进行制作啦,
有两列是观测的维度值:比如年月日的日期、订单ID、客户ID、地理纬度等,可连续也可发散,横坐标上的尽量还是连续的维度比较好,比如日期
有一列的度量值:比如销售额,利润,数量这些的,是可以进行实际计算的数字构成。
数据准备好,那么我们现在就可以开始制作啦!
第一步:把维度拖动到列,度量拖动到行
这样我们就做出了一个基本折线图了
第二步:把另一个维度拖动到标记中的详细信息
得到一个散点图啦
第三步:智能推荐区选择盒须图
Duang!!完成啦
可以看出有很多的产品是存在异常值的,这些值反映出有些产品的销售比较分散,需要进一步研究,鼠标悬停在异常的三点上面就可以看到异常值的属性啦!