3. 描述性统计分析

描述性统计分析

描述定性数据的图形法和数值法

对给定的类,类(或组)频数是指落入这个类中的观测值的个数。

对给定的类,类(或组)相对频率是指落入这个类中的观测值个数相对于观测值总数的比例。

定性数据的图形描述常用条形图饼图帕雷托图

条形图:给出相应每一类的频数(或相对频率),长方形的高度或长度与类频数(或相对频率)成比例。

饼图:把一个整圆(饼)分成几份,每一份代表一个类,每份中心角与类相对频率成比例。

帕雷托图:将定性变量(即长方形)的类(组)按照高度从左向右降序排列的条形图。

帕雷托图以意大利经济学家 Vilfredo Pareto 命名。

描述定量数据的图形法

定量数据集是由某种有意义的数值标度的数据组成。为了描述、总结和检测这些数据的模型,我们可以采用三种图形法:点图、茎叶图和直方图。

点图

数据集中每一个定量测量的数值表示为水平刻度尺上的一个点,当数值重复时,点垂直画在另一个点之上。

茎叶图

定量变量的数值分为茎和叶两部分,可能的茎按顺序排在一列中,数据集中每一定量测量值的叶放在相应茎的行上,有相同茎的观测值的叶在水平方向按升序排列。

茎是测量值小数点左边的部分,叶是剩下的小数点右边的部分。

直方图

定量变量的可能数值被分成若干组区间,其中每一区间有相同的宽度,这些区间构成了水平轴刻度。确定落在每一组区间中的观测值的频数或相对频率。每一组区间上放一个垂直的长方形,它的高度或者等于频数或者等于相对频率。

描述定量数据的数值法

三种类型的度量

  • 中心趋势度量:帮助确定相对频率分布中心位置的度量
  • 变异的度量:围绕中心波动的度量
  • 相对位置的度量:描述数据集中一个观测值相对位置的度量

两个定义

  • 统计量:有样本数据计算得到的数值描述性度量
  • 参数:总体的数据描述性度量

中心趋势的度量

算数平均中位数众数是三种最常用的中心趋势度量。

变异性的度量

数据变异性最常用度量是极差方差标准差

  • 极差:等于y一个数据集合中最大测量值和最小测量值的差。
  • 方差
  • 标准差

经验法则

若一个数据集有近似丘形的对称分布,则可用以下的经验法则描述数据集:
1. 大约68%的测量值位于均值的1个标准差范围内
2. 大约95%的测量值位于均值的2个标准差范围内
3. 几乎所有的测量值位于均值的3个标准差范围内

相对位置的度量

观测值相对位置的两个度量是百分位数和 z z 得分。

百分位数

定义
数据集的第 100 p 百分位数是这样一个 y y 值:使得在数据集的相对频率分布中有 100 p % 的面积位于它的左边,有 100(1p)% 100 ( 1 − p ) % 的面积位于它的右边(其中, 0p1

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值