一、概念
数值型数据围绕其平均值分布的分数与集中程度,称为数据的离差或者变差。
二、根据不同的度量可以定义不同的离差(或者变差)
最常用的有:全距、平均偏差、半内四分位数间距、10-90百分位数间距和标准差。
1)全距:一组数中的最大数与最小数和差。
2)平均偏差:N个数x1,x2,……,xn的平均偏差,简记为MD
3)半内四分位数间距:Q*=(Q3-Q1)/2
4)10~90百分位数间距来作为离差的度量p=p90-p10
5)标准差:S=sqrt(xi-mean(x))2/n)
在做聚类分析时,可以根据离差值的大小,将数据聚为一类。