数据的描述性统计

一、集中趋势的度量

集中趋势:

1.一组数据向其中心值靠拢的倾向和程度
2.测量集中趋势就是寻找数据水平的代表值和中心值
3.不同数据类型用不同的集中趋势测量值
4.低层次的测量值适用于高层次的测量数据;高层次的测量值不适用于低层次的测量数据

1.1 分类数据:众数(M0)

1.一组数据中出现次数最多的变量值
2.适用于数据较多的情况
3.不受极端值影响
4.一组数据可能没有众数,也可以有多个众数
5.主要用于分类数据,也可以用于数值数据和顺序数据

1.2 顺序数据:中位数(Me)和分位数

1.排序后位于中间位置的值
2.不受极端值影响
3.主要用于顺序数据,也可用于数值数据,不能用于分类数据
4.各变量值与中位数的差绝对值之和最小

当n为奇数,中位数为中间的数
当n为偶数,中位数为中间两个数的均值

四分位数:

1.排序后处于25%和75%位置上的值
2.不受极端值影响

1.3 数值型数据:平均数

1.集中趋势最常用的测量值
2.一组数据的均衡点所在
3.体现数据的必然性特征
4.易受极端值影响
5.有简单平均数和加权平均数之分
6.根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,为样本平均值记为X拔。

总体平均值是个定值,而样本平均值会随抽样改变

几何平均数:

1.n个变量乘积的n次方根
2.适用于对比率数据的平均
3.主要用于计算平均增长率
4.可看作平均数的一种变形,即两边取log

众数、中位数、均值关系
在这里插入图片描述
众数、中位数、均值 特点及应用场景
在这里插入图片描述

二、离散程度的度量

离中趋势:

1.反映各变量值远离其中心值的程度(离散程度)
2.从另一个侧面说明了集中趋势测量值的代表程度
3.不同类型的数据有不同的离散程度测量值

2.1 分类数据:异众比率

1.对分类数据离散程度的测量
2.非众数组的频数占众数的比例
3.用于衡量众数的代表性

2.2 顺序数据:四分位差

1.也叫内距、四分间距
2.对顺序数据离散程度的测量
3.上四分位数与下四分位数的差
4.反映中间50%数据的离散程度
5.不受极端值影响
6.衡量中位数的代表性

2.3 数值型数据:方差和标准差

极差:

1.一组数据最大值和最小值之差
2.离散程度最简单的测量值
3.易受极端数据影响
4.未考虑数据的分布

方差标准差

1.数据离散程度常用测量值
2.反映各变量值与均值的平均差异
3.根据总体数据计算的 为总体方差 (标准差);根据样本数据计算的为样本方差(标准差)

2.4 相对离散程度:离散系数

1.标准差与对应均值之比
2.对数据相对离散程度的测量
3.消除了数据量级的影响
4.用于对不同组别数据离散程度的比较

三、偏态和峰态的度量

3.1 偏态

1.数据分布倾斜程度的测量
2. =0,为对称分布;>0,右偏分布; <0,左偏分布
3. >1或<-1,为高度偏态分布;0.5·1或-1~-0.5,中等偏态分布
4.偏态系数已经是去除量纲之后的参数
5.计算公式:

在这里插入图片描述

3.2 峰态

1.数据分布扁平程度的测量
2.=0,扁平峰度适中;<0,扁平分布;>0,尖峰分布
3.去除了量纲
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值