描述性统计分析

描述性统计分析

1.统计分析的目的
2.统计分析的关键概念

  • 4种测量尺度
  • 集中趋势
  • 离散趋势

1.统计分析的目的

借助统计指标的结果,分析趋势,找出变化规律和特征,作出有利于发展的决策.以达到预测未来的目的

2.统计分析的关键概念
4测量尺度
分类变量:
名义(定类)尺度、
顺序(定序)尺度、
连续变量:
间距(定距)尺度、
比例(定比)尺度

定类尺度的数据
例如:性别、喜欢的艺人
频数分布表的制作–次数(频数)的计算和构成比
男性70人(35%)、女性130人(65%)
定序尺度的数据
例1:喜欢的宠物的顺序
例2:想去的国家的顺序
频数分布表(例:按顺位划分的频数分布表)
第1位…选猫的60人(0%)
第2位…选狗的45人(0%)等
顺位的平均值
定距尺度的数据
例1:10分满分(0-10分)评价
例2:满意度(把顺序尺度设想为间隔尺度)
频数分布表
平均值
标准差等
定比尺度的数据
体重、身高、年龄、年收入等
频数分布表、平均值、标准差

集中趋势

  • 均值
    (通常用在分类变量)

概念:
在平均中,在1算数平均,2几何平均,3调和平均以及4调整平均(trim平均)4种。

1.作为平均的基础形式的“算数平均

通常所说平均指的是算数平均(也称作和平均)
算数平均=数据的合计÷数据的个数

2.在计算销售增长率和价格变动率等的时候使用几何平均

几何平均(也称作相乘平均),作为销售增长率和价格变动率等比例数的集中趋势的度量来加以使用。
几何平均是N个数字乘积的n次方根的正数值,只有在数据为正数时才能计算。

几何平均= 数 据 的 乘 积 n =   数 据 的 乘 积 1 / n \sqrt[n]{ 数据的乘积}=\ 数据的乘积^{1/n} n = 1/n
n:数据的个数

3.计算速度的平均等的使用“调和平均

调和平均是把n个数字的倒数(1÷数字)的和作为分母,把n作为分子的值,只要在数据为正值时才能计算。
调和平均在计算速度的平均时和当下限值(最低值)附近的频数较高时使用。

调和平均=数据的个数÷数据的倒数的和

使用相同的数据进行计算的结果 ,算数平均、几何平均、调和平均依次由大到小地变化或者相等。

4.数据的上限和下限相差较大时使用“调整平均

调整平均(或称trim平均)是指从上限值和下限值中去掉一定的比例的数据后剩下的数据的算数平均。

  • 中位数
    (通常用在分类变量)

是指把数据由小到大排列时居于中间的值。

中值在年收入和储蓄金额等的集中趋势的度量中被使用。虽然年收入和储蓄额多的人只是少数,但由于金额极大,

平均值也很大,能看出与老百姓的感觉有距离。这时就可以使用中值。

  • 众数
    (通常用在分类变量)

是指在频数分布中集中了最多人的选择的项目的频数值。通常通过频数分布来表示。

新建公寓开始出售时销售最多的价格带 等可以说是众数的代表性例子


调查对象的特征、家庭类型的频数和构成比(%)

样本量只有夫妻的家庭户夫妻和孩子的家庭户单亲和孩子的家庭户夫妻及其双亲的家庭户祖孙三代的家庭户
构成比%100.028.949.05.03.613,1
频数(家庭类型)10433015155238137

这种情况的众数是“夫妻和孩子的家庭户”


商品拥有状况的频数和构成比(%)

样本量整体厨房热水器(煤气热水器除外)单亲和孩子的家庭户夫妻及其双亲的家庭户祖孙三代的家庭户
构成比(%)100.044.453.950.251.111.7
频数(拥有)1043463562524524122

这种情况的众数是“热水器”


离散趋势

频数分布、标准差、方差、四分位差、百分位数、极差、离差平方和、离散系数

只要对数据的离散状态进行确认,这些数据是何种性质的数据就清楚了。

  • 分布大,可设想为在分布的位置,集中趋势的度量值的周围,广泛地分布着各种各样的数据。

  • 分布小,可以设想数据为密集的、性质相同的数据。表示分布的大小的代表性指标有价差和标准差(或者方差)两个。

  • 极差

指分布的最大值和最小值的距离,在决定频率分布的组距,也可以使用。
极差的性质随样本量的变化而变化。
即使从相同的抽样总体中抽取样本,一般来说,极差在样本量多的时候要比
样本量小的时候大。比较2个以上的组的极差时,要力求做到各组的样本量相等。

  • 标准差

作为表示个数据相对于平均值的离散程度的指标,“数据的平均值与各个数据的差(称之为偏差)”的平方
的平均值以及这个平均值的平方根都可以考虑。这时,差的平方的平均值叫做“方差”,而这个
平均值的平方根则叫作“标准差”

例如:看一看1、5、9这3个数据的情况

平均

(1+5+9)÷3=15÷3=5

平均与各数据的差的平方的平均

[ ( 5 − 1 ) 2 + ( 5 + 5 ) 2 + ( 5 + 9 2 ) ] ÷ 3 = [ 4 2 + 0 2 = ( − 4 ) 2 ] ÷ 3 = ( 16 + 0 + 16 ) ÷ 3 = 32 ÷ 3 ≈ 10.7 [(5-1)^{2}+(5+5)^{2}+(5+9^{2})]÷3=[4^{2}+0^{2}=(-4)^{2}]÷3=(16+0+16)÷3=32÷3≈10.7 [(51)2+(5+5)2+(5+92)]÷3=[42+02=(4)2]÷3=(16+0+16)÷3=32÷310.7

标准差为0(方差也为0),意味着没有离散值,及数据的值全部相同。

求标准差的公式,是用平均值与各个数据的差除以数据的个数n,还是用他们除以n-1,是有所不同的。

用n去除的公式适合于整个总体数据的场合,而用n-1去除的公式则适合于从总体中抽取样本的场合。
由于问卷调查多为抽取样本的情形,可以使用n-1去除的公式。

从问卷调查数据中推测总体的标准差的时候,如果用n去除,由于会出现比真值海啸的偏差而不能令人满意,为了填补这个偏差,用n-1去除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值