第二章:集中趋势的度量——均值、中位数、众数
1.均值μ
- 存在异常值时会偏离大部分数据所在的位置;
- 数据非常对称,且呈现一种趋势时使用;
2.中位数
- 从小到大排序在最中间的值,不受异常值影响,数值对称时等于均值,但随数据量增大会降低参考价值;
- 在数据由于异常值而发生偏移时使用;当右边线比较长时,数据向右偏斜,均值大于中位数。
3.众数
- 频数最大,且必须是数据集中的数值;是唯一能用于类别数据的平均数。
- 遇到类别数据时使用、当数据可以分为多个组时使用。
第三章:分散性与变异性(全距/分位距、方差/标准差/标准分)
1.分散性
全距(极差):
- 作用:用于量度数据集的分散程度,算法为max-min
- 局限性:仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。如果数据中存在异常值,全距会极具误导性。
分位距:
- 利用四分位距剔除异常值:50%中间数值形成的一个间距,四分位距=上四分位数-下四分位数,一个不受异常值影响的“迷你距”。
– 上四分位数:当n/4结果为整数时,下四分位数等于n/4位置和下一个位置的中间,取这两个数值的均值;当n/4不为整数,n/4结果进一法所得即为上四分位数的位置。
– 下四分位数(第三四分位数):3n/4同理 - 百分位数,第k百分位Pk表示位于数据范围k%处的数值。
- 箱形图(箱线图),箱显示四分位数和四分位距的位置,线显示上下界。能在一张图上体现多批数据,有利于比较。
2.变异性
方差和标准差通过观察数值与均值的距离量度数值的分布形态。
方差σ2:
- 数值与均值距离的平方的均值。σ2=Σ(x-μ)2/n
- 速算法:σ2=(Σx2)/n-μ2
标准差σ:
粗略描述平均情况下数值与均值的距离。
标准分z:
- 将数据集转换成一个均值为0、标准差为1的新分布,这是一种可用于进行比较的通用分布。
- 以标准差为单位,计算原始分数和总体均值之间的距离。
- 算法:z=(x-μ)/σ
https://baike.baidu.com/item/%E6%A0%87%E5%87%86%E5%88%86%E6%95%B0/1694868?fr=aladdin