stata数据清洗

小结

变量按照升序还是降序排列,用sort或gsort

两个变量谁排前谁排后,用order

变量展示tabstat或sum

list命令中in,可用于展示哪些到哪些变量。若list year 8/10,是把year排在第8-10的列示出来

bys,用于指定分组变量。如bys year : sum weight length

*- 代码实现,so easy
sysuse auto , clear
sort price
gsort -price
order price mpg
list price in 8/10
tabstat price mpg, s(n mean p50 max min sd)
bys rep78: sum price

1 sort命令

在将数据录入Stata后,如果想按照某一个或多个变量来对样本数据进行升序排序,可以使用sort命令。

按照id对数据进行排序:

sort id

按照id和year对数据进行排序:

sort id year

如果排序变量存在重复数据,为了使非排序变量保持原有的顺序,需要加入stable选项。

按照prov对数据进行排序,其他变量保持原先顺序:

sort prov,stable

如果不加stable,由于prov变量有相同的取值,相同取值对应的其他变量顺序将随机排列。

2 gsort命令

sort命令仅支持升序排列,如果想降序排列,需要使用gsort命令!

按照prov升序,year降序对数据进行排序:

gsort prov -year

按照year降序,gdp升序对数据进行排序,同时生成次序变量ob:

gsort -year gdp,g(ob)

3 order命令

order命令可以对变量的前后次序进行排列

将id和year变量放到第一位和第二位:

order id year

将prov变量放gdp变量后面:

order prov ,a(gdp)        
*after,prov在gdp之后

将prov变量放gdp变量前面:

order prov ,b(gdp)  
*before,prov在gdp之前

4 list命令

list命令可以在结果窗口按条件列出相关变量。

列出gdp和export变量:

list gdp  export

列出第8到第42位置上的gdp变量:

list gdp  in 8/42

列出2020年的year和income变量:

list year income  if year==2020

列出2015年到2018年的year和income变量:

list year income  if (year>=2015 & year<=2018)

列出2015年和2018年的year和income变量:

list year income  if (year==2015 | year==2018)

5 tabstat命令

tabstat可以对变量进行描述性统计

列出gdp、export和income变量的均值:

tabstat gdp export income

列出gdp、export和income变量的样本数、均值、最大值、最小值和方差:

tabstat gdp export income,s(n mean max min sd)

列出按年份分组的gdp、export和income变量的样本数、均值、最大值、最小值和方差:

tabstat gdp export income,by(year) s(n mean max min sd)

6 sum命令

su可以直接给出变量的描述性统计结果

列出gdp、export和income变量的描述性统计结果:

su gdp export income      

列出按年份分组的gdp、export和income变量的描述性统计结果:

bys year:su gdp export income
*bys用于指定分组变量!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值