第 2 章 Stata
2.1 为什么使用Stata
1、操作简单且功能强大;
2、留有“用户接口”,允许用户自己编写命令与函数, 并上传到网上实现共享——“非官方命令”。
2.2 安装、打开
1、安装了X,就显示X。
双击此 Stata 图标,即可打开 Stata。
2、窗口
结果窗口、命令窗口、历史命令、变量窗口(内容+标签)、性质窗口。
2.3 操作实例
(一)
数据集:grilic_small.xls
1、导入数据
1)复制
2)点菜单
2、保存
将数据存为 Stata 格式的数据文件(扩展名 dta,为 data 的缩写),
3、打开
1)点菜单
2)路径
use '目录.dta',clear
逗号“,”之后的“clear”为“选择项”(option),表示可替代内 存中的已有数据。
4、关闭数据集
clear
内存中数据将被清空,然后可再打开另一数据集。
(二)变量标签
方便理解、分享
大小写区分
(三)审视数据
1)显示数据集中的变量名称、标签
print('1、显示数据集中的变量名称、标签')
describe
d
Observations:样本容量(观测值个数)
Variables:变量个数
2)变量的具体数据
print('2、变量的具体数据')
>>>list s lnw expr
>>>l
print('数据多了,只显示一部分')
print('连续滚屏显示命令运行结果')
>>>set more off
print('恢复分页显示运行结果,')
>>> set more on
print('只对数据集的一部分子集执行命令')
>>>list X Y in n/N
print('通过逻辑关系来定义数据集的子集')
>>> list s lnw if s>=16
3)表示关系的逻辑符号
“>=”表示“大于等于”,
“= =”(等 于),
“>”(大于),
“<”(小于),
“<=”(小于等于),
“~=”(不等于, 也可用“!=”表示)
4)查看数据
左侧:可查、可编辑
右侧:只浏览
5) 删除
(((((((((不可撤销))))))))))
慎重删除数据,将原始数据备份
print('要删除满足“s 16”条件的观测值,')
>>> drop if s>=16
print('只想保留满足“s 16”条件的观测值')
>>> keep if s>=16
6)排序
升序
print('升序')
print('将数据按照变量 s 的升序排列')
>>>sort s
print('降序')
print('命令 sort 无法按照变量的降序排列')
>>> gsort -s
(四)画图
1、直方图
print('变量分布情况——画直方图')
>>> histogram(直方图) s, width(1)(组宽大小,系统会默认分组) frequency(纵坐标频数,默认使用密度)
>>>histogram s, width(1) frequency
>>>hist s, w(1) freq
>>>bin():几组
>>>widtn():组宽
>>>start():第一组下线
>>>density:密度,纵轴单位(den)
>>>fraotion:分数,所占比重(frao)
>>>frequency:频数(freq)
2、散点图
1)简单散点图
print('如想考察X、Y之间的关系——画散点图')
>>>scatter lnw s
>>>sc lnw s
2)加观测值散点图
print('散点图上标注出每个点对应于哪个观测值')
print('定义变量n:第n个观测值:')
>>>gen n=_n
print('“_n”表示第n个观测值')
>>>scatter lnw s,mlabel(n)
# 选择项“mlabel(n)”表示,以变量 n 作为标签(mark label)。
(五)统计分析
1、变量的统计特征
>>>summarize (<变量名>)
>>>su (<变量名>)
Variable:变量名
Obs:样本容量
Mean:平均值
Std. Dev.:标准差
Min:最小值
Max:最大值
2、变量的经验累积分布函数
>>>tabulate <变量名>
>>>ta <变量名>
“Freq”:频数,
“Percent”:百分比,
“Cum.”:累积百分比。
3、显示变量之间的相关系数
>>>pwcorr <变量1> <变量2> <变量3>,sig star(a)
“ pwcorr”:两两相关,
“sig”:显示相关系数的显著性水平(即 p值,列在相关系数的下方)。
“star(.05)”:给所有显著性水平小于或等于 5%的相关系数打上星号。
(六)生成新变量
generate
1、取对数
generate <变量名2>=log(<需要取对数的变量名1>)
2、取平方
g <变量2> = <变量1>^n
3、互动、交互项
g <变量3> = <变量1> * <变量2>
4、幂函数
g <变量2> = exp(<变量1>)
5、虚拟函数(哑变量)
取值只能为 0 或 1 的变量(性别、非是即否)
g <虚拟变量> = (< 变量1> <逻辑符号> <数值>)
如果此式为真,则取值为 1;如果为假,则取值为 0。
(七)Stata的计算器功能
display <expression表达式>
di <expression表达式>
(八)调用命令与终止命令
1、调用
1)““Pg Up”:上一条、“Pg Dn”:下一条
2)历史窗口:单击——调用;双击——运行
2、终止命令
Break、ctrl+Break
(九)Stata 的日志
1、定义
>>>log using <名称>
2、暂停
>>>log off
3、恢复使用
>>>log on
4、退出
log close
2.4 Stata 命令库的更新
1、更新
>>>update all
2、从 SSC 下载 Stata 程序的命令为
>>>ssc install newcommand