这里写目录标题
直方图(Histogram)
数据是单一的连续变量
回答数据按照何种形状分布的问题
箱(bin)宽度:
峰值
单峰、双峰、三峰
是否对称
发现模式:峭度(kurtosis):根据离群值的不同数量来判断
箱型图
当拥有连续的变量,并且连续变量被分类变量所分割的时候。
当需要对连续变量在不同分类区间进行数据分布的比较的时候。
中值(median)——中位数
下四分位数(Lower Quartile)有四分之一的数值低于它
上四分位数(Upper Quartile)
高四分位和第四分位数之间的差值,称为四分位数间距(inter-Quartile Range)
箱须:
- 水平的线段成为“箱须(Whisker)”
- 每个箱体首先沿着各自的方向,延长1.5倍于“四分位数间距”,但是它们延长至最远不超过实际最远的数据点。
特点:
- 提供了识别异常值的标准:异常值被定义为[Q1-1.5IQR,Q3+1.5IQR]之外的值,来源于经验判断
- 偏态和尾重:
对于标准正态分布的大样本,只有 0.7%的值是异常值,中位数位于上下四分位数的中央,箱形图的方盒关于中位线对称。 - 数据的形状:
同一数轴上,几批数据的箱形图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便一目了然。