目录
1.打开数据
- sysuse:理解为 系统打开,使用,调用
- auto: 文件名,stats自带的
- clear:因stata 每次只能打开一个文件,所以每次导入数据前要清除前一个;
一般使用
sysuse auto, clear
- browse:br 浏览数据。横的变量,纵向为观测值;红色的是字符串-代表文本内容;蓝色的可能是虚拟变量;
- describe:描述数据
- Obs 观测值数量;
- vars变量12个;
- size大小;
- str字符型数据;
- int 整型数据;
- float 浮点型数据;
- Notes: 可以打开笔记-来源
- summarize--sum :对所有的变量进行 观测值、均值、分析
- Std Dev:标准偏差;Std.Err:标准误
标准差描述一组变量离散程度,是总体标准差的点估计。标准差越小,说明变量围绕均数分布越紧密,均数的代表性越高。标准差用来估计个体值范围。
标准误描述的是样本均数的离散程度,是均数的标准差;标准误越小,说明样本均数估计总体均数的可靠性越高;标准误用来估计总体均数置信区间
reg y x1 x2 ,beta#标准化系数
- codebook 变量:可以具体看某一个变量的情况:
- label标签
- type类别
- range范围
- units单位
- missing缺失值
- freq频次
- br if missing(rep78)/ br if rep78 ==.:查看缺失值
- list : 列示
- summarize x, detail: 看具体内容
- tabulate--tab: 制表、列成表格,汇总数据
- if——条件命令
- by——前置命令,确定其中一个变量,
- sort:分类
- t-test:T检验:已知样本标准差 未知总体标准差的情况下,检验样本差异的显著性(有没有区别)。H0原假设;Ha备择假设
- ttest 要检验的变量,by (对象/组别)
- variance-方差/差额/差异
- correlate x y... :变量之间的相关性,相关性强弱
- twoway -二维作图
- twoway (scatter x y):只画一个散点图
- twoway (scatter x y) (lfit x y ) :散点图和直线拟合图,在一张图上,几个括号就会有几个图
- twoway(scatter x y)(lfit x y), by(something) 分类看图;根据不同的类别
2.生成新变量
- keep x y ..:保留变量
- generate-gen x=y,生成全新变量
- gen model =substr(make , strpos(make , "")+1,.)
- squrt(x)...—新系列 stata函数
- replace替换:把model的前20个替换成了make
replace model =make in 1/20
虚拟变量
xi reg y x1 x2 i:x x3
- 二分变量(参考项xi)
-
>3个选项的变量(东部0,西部1,中部2)
3.删除变量和观测值
- clear:
- drop:删除变量和观测值
- drop x y:删除变量xy
- drop in 1/20:删除前20个
- keep:保留某变量,删除其他变量
4.作图
- twoway -二维作图
- lfit: 直线拟合
- qfit: 曲线拟合
- twoway (scatter x y):只画一个散点图
- twoway (scatter x y) (lfit x y ) :散点图和直线拟合图,在一张图上,几个括号就会有几个图
- twoway(scatter x y)(lfit x y), by(something) 分类看图;根据不同的类别
- title("") 命名
- 然后是介绍一个拟合良好的新方式hhh
- surface ///graph3d
- help-install下载安装
5.记录
- log using " " , replace text 修改保存的路径
- log close 记录结束