stata学习笔记(六):描述性统计核心参数及stata应用

本文详细介绍了在Stata中进行描述性统计分析的方法,包括中心位置度量(均值、中位数、众数)、波动情况度量(极差、方差、标准差)、定性和定量变量处理,以及如何使用tabstat和summarize函数获取和可视化数据。
摘要由CSDN通过智能技术生成

今天之后将要开启stata的进阶部分,即利用stata分析,需在掌握理论的基础上熟练应用

9c616801ea3b458797c3f37f68103e8b.png


描述性统计的基本原理及核心参数

量化研究所收集的数据十分庞大,描述性统计分析致力于以简单明白的统计量来描述庞大的数据

三类
描述中心位置的度量→ 算术平均,中位数,众数

描述波动情况的度量→极差、方差和标准差

描述数据集中一个观测位置的度量→百分位数,z得分

定性变量

定性观测值,用两个参数来反映:频数,频率

频数:落入某一类数中的特定观测值的个数

频率:落入某一类数中的特定观测值的个数占总数的比例

定量变量

定量观测值

描述中心位置的度量

描述波动情况的度量

描述数据集中一个观测位置的度量

集中趋势的度量

均值,算术平均

特点

信息利用充分

易受极端值影响

eg.  codebook comments

44fae0f5aecb4edb952c918f0951fde6.png

众数

特点

不受极端值的影响

可能没有众数或很多众数

函数内容

4adc94e8797e4ccd96f92a21b769101e.png

eg.  egen m=mode(comment)

1e815ee8a41c4300a140b94f4320e260.png

中位数

特点

不受极端值的影响

eg.  codebook price

2a82ff86d3d24cc3b02866d8b89ed563.png

三种值的关系

2f8b7c4a5ad74b01b72555d0e53523de.png

变异程度及相对位置的度量

变异程度的度量

用于衡量数据波动的情况,主要有三个值:极差、方差和标准差

极差

=一个数据集合中最大观测值和最小观测值之差

特点

离散程度的最简单测度值
易受极端值影响
未考虑数据分布

方差与标准差

N个测量值y1,y2,y3,....,yn的样本方差定义为:

S^2为方差

S=(S2)^0.5为标准差d84ca02ef52c4367b81d950cb986e434.png

eg.  codebook price

377e96935b074c6392d920d355bc1bc5.png

切比雪夫法则

可用于任意一个数据,无论其分布是什么形状:

任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/m2,其
中m为大于1的任意正数。

对于m=2, m= 3和m=5有如下结果:

所有数据中,至少有3/4 (或75% )的数据位于平均数2个标准差范圈内,

所有数据中,至少有8/9 (或88.9% )的数据位于平均数3个标准差范圈内。

所有数据中,至少有24/25 (或96%)的数据位于平均数5个标准差范圈内

以此规则在后面判断异常值

相对位置的度量

测验分数与通常以一个观测值在分布中相对于其他测验分数位置的方式来描述,主要的两个度量:百分位数、Z值

百分位数

数据集的第100p百分位数是这样的y值:使得在数据集的相对频率分布中有100p%的面积位于它的左边,有100(1-p)%的面积位于它的右边

egen newvar=pctile(exp)[,p(#)]      #指具体哪个百分位

eg.  egen n=pctile(price),p(75)   计算price中的75分位数

1f0966c307994312bb90e66b10b87512.png

eg.  codebook price

c1d56db07fa34c33ac82b4a53cafcf46.png

什么是Z值?

我来举个栗子

现在有两个水平类似的班(1班和2班)上同一门课,由于老师的评分标准不同,使得两个班的成绩均

值和标准差都不一样

1班的分数均值和标准差分别为: 78.53和9.43,
2班的分数均值和标准差分别为 : 70.19和7.00;

1班得到90分的A同学,和2班得到82分的B同学,如何比较呢?

首先,这是两组数据,然后由于均值和标准差不同。其数据不能直接比较,应该首先变成标准化的

数据再比较。所以这里使用标准得分,也就是Z-score
704ef748fe814ee498840cc092b031b1.png
某样本观测值(也就是得分,score )和样本均值之差,除以样本的标准差

所以A同学的分数: Za= ( 90-78.53) /9.43=1.22
B同学的分数:  Zb= ( 82-70.19)/7=1.69
所以B同学虽然82分,但还是优异于A同学

一个重要的点! !

Z得分同时描述了以标准差为单位,观测值y相对于均值的位置:负的z表明观测值位于均值的左边,

正的z表明位于右边,由经验法则可知,一个数据集中大部分观测值都在距离均值2个标准差之内

(即z得分绝对值小于2) , 且几乎所有的观测值都在距离均值3个标准差之内(即z得分绝对值小于3 )

参考切比雪夫法则

eg.  egen pricemean=mean(price)

egen pricesd=sd(price)

gen z=(price-pricemean)/pricesd

eae5ad61d70f4573acb252f3958bdba7.png

d3c2bd75186140b89b2d290211811afb.png

描述性统计的stata实现

实现函数

在stata中,table和tabulate可以实现对定性变量的频数和频率的统计,tabstatsummarize命令

可以实现连续变量的统计描述

这里先介绍tabstat和summarize

先查看数据的整体概况,data0301

93171a6327084a0782c76f676042971d.png

查看变量price)


浮点式      无缺失值,0/94     区间15-818      均值111         标准差99.429

3f310d2efbe645c5aadb5e95fb2d721b.png

summarize

函数内容

200d61a7bb92444eb70a12f674f3dc44.png

eg.  summarize S5 S4 S3

55ab13d2a35d49d8b7701b8025a76b3d.png

eg.  summarize price,detail

summarize flavor if area=="渝北区"

1ce4d64e8f0543cb8579b7974cde9e4c.png

eg.  sort price

summarize flavor in 1/50

bfb6dc14b96248069c4c1693c37c290d.png

tabstat

与summarize相似,但提供了更加灵活的统计量组合

函数内容

7897f450e9d04977aad9ce52974e211b.pngdc379e3f32354769a35a5bf96814f943.png

By(var):根据不同的取值分别计算描述性统计量

Statistics(XX):相关命令报表统计量

eg.  tabstat price

tabstat price if area=="南岸区"

tabstat price if area=="渝中区"

tabstat price,by (area)

602b5e57931540af94550ad0accc61d8.png

tabstat price,s(mean count sum sd iqr)by(area)

228a649399b94699af33e9382a2c959d.png

感谢收看,共勉~

2ce4f93d79bf4e989e664532f7b32f12.jpeg

  • 44
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值