一、集中趋势的度量
集中趋势:
1.一组数据向其中心值靠拢的倾向和程度
2.测量集中趋势就是寻找数据水平的代表值和中心值
3.不同数据类型用不同的集中趋势测量值
4.低层次的测量值适用于高层次的测量数据;高层次的测量值不适用于低层次的测量数据
1.1 分类数据:众数(M0)
1.一组数据中出现次数最多的变量值
2.适用于数据较多的情况
3.不受极端值影响
4.一组数据可能没有众数,也可以有多个众数
5.主要用于分类数据,也可以用于数值数据和顺序数据
1.2 顺序数据:中位数(Me)和分位数
1.排序后位于中间位置的值
2.不受极端值影响
3.主要用于顺序数据,也可用于数值数据,不能用于分类数据
4.各变量值与中位数的差绝对值之和最小
当n为奇数,中位数为中间的数
当n为偶数,中位数为中间两个数的均值
四分位数:
1.排序后处于25%和75%位置上的值
2.不受极端值影响
1.3 数值型数据:平均数
1.集中趋势最常用的测量值
2.一组数据的均衡点所在
3.体现数据的必然性特征
4.易受极端值影响
5.有简单平均数和加权平均数之分
6.根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,为样本平均值记为X拔。
总体平均值是个定值,而样本平均值会随抽样改变
几何平均数:
1.n个变量乘积的n次方根
2.适用于对比率数据的平均
3.主要用于计算平均增长率
4.可看作平均数的一种变形,即两边取log
众数、中位数、均值关系
众数、中位数、均值 特点及应用场景
二、离散程度的度量
离中趋势:
1.反映各变量值远离其中心值的程度(离散程度)
2.从另一个侧面说明了集中趋势测量值的代表程度
3.不同类型的数据有不同的离散程度测量值
2.1 分类数据:异众比率
1.对分类数据离散程度的测量
2.非众数组的频数占众数的比例
3.用于衡量众数的代表性
2.2 顺序数据:四分位差
1.也叫内距、四分间距
2.对顺序数据离散程度的测量
3.上四分位数与下四分位数的差
4.反映中间50%数据的离散程度
5.不受极端值影响
6.衡量中位数的代表性
2.3 数值型数据:方差和标准差
极差:
1.一组数据最大值和最小值之差
2.离散程度最简单的测量值
3.易受极端数据影响
4.未考虑数据的分布
方差标准差
1.数据离散程度常用测量值
2.反映各变量值与均值的平均差异
3.根据总体数据计算的 为总体方差 (标准差);根据样本数据计算的为样本方差(标准差)
2.4 相对离散程度:离散系数
1.标准差与对应均值之比
2.对数据相对离散程度的测量
3.消除了数据量级的影响
4.用于对不同组别数据离散程度的比较
三、偏态和峰态的度量
3.1 偏态
1.数据分布倾斜程度的测量
2. =0,为对称分布;>0,右偏分布; <0,左偏分布
3. >1或<-1,为高度偏态分布;0.5·1或-1~-0.5,中等偏态分布
4.偏态系数已经是去除量纲之后的参数
5.计算公式:
3.2 峰态
1.数据分布扁平程度的测量
2.=0,扁平峰度适中;<0,扁平分布;>0,尖峰分布
3.去除了量纲