Stata入门教学-统计描述(集中趋势和离散趋势)

首先介绍最常见的统计描述,主要包括集中趋势和离散趋势

集中趋势的统计描述,最常见的就是算数均数

跟上次一样使用系统自带的汽车数据sysuse auto

基本语法:summarize 变量名

summarize price

就可以出现记录值、算数均数、标准差、最小和最大值

那么我们也可以简写sum

xtsum包括组间、组内以及整体的均数,主要是针对面板数据

可信区间,如95%CI:ci mean 变量名,level(99)

其次是几何均数,G 常见于原始数据分布不对称,但对数转换后对称的,这在医学统计学中比较常见,比如抗体血清滴度等

基本语法:ameans 变量名

ameans price

分别出现算数均数、几何均数、调和均数,以及95%的可信区间

中位数,也就是排在中间位置的那个值,也常见于偏态分布资料的集中趋势描述

基本语法:summarize 变量名,detail

summarize price, detail

就可以依次出现1、50、99的百分位数,其中50%就是中位数,也会报告观测值、权重合计、算术均数mean、标准差、方差variance、偏度、峰度。

众数,一组变量中出现频数最大的那个数值,

基本语法:tabulate 变量名,sort

tabulate price, sort

就会出现这个变量的频数、%、合计%

这里如果是多个分类变量的统计描述,则

基本语法:tabulate 变量名,row

计量资料的离散趋势

比如极差range、方差variance、标准差SD、四分位数间距IQR、变异系数CV

基本语法:tabstat变量名,statistic(range variance sd iqr cv)

tabstat price, statistic(range variance sd iqr cv)

这个语法还可以分组进行描述,通过by实现

基本语法:tabstat 变量名,by(变量名)statistic(mean sd min max)

举例:tabstat price, by(foreign) statistic(range variance sd iqr cv)

或者tabstat x, by(group) statistic(mean sd min max )

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值