【Stata】Stata做实证分析的预处理阶段

文章介绍了如何进行实证分析,重点在使用Stata软件进行数据处理,包括数据导入、异常值处理(如直接删除和winsorize方法)以及基本的Stata命令。还提到了数据来源和处理的常见步骤,适合初学者快速入门。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

计量经济学是绕不过去的坎,但是在校期间的课程很多都是以晦涩的理论作为讲解,然而对于完成一篇课程论文而言,理论基础固然重要,但并不是必须,如果从走捷径的角度而言,完成一篇论文的实证部分并不需要你从头到尾把理论知识弄懂,仅需要以下三个步骤即可:

(1)下载软件、下载论文所需数据

(2)照葫芦画瓢完成软件操作(不需要懂为什么,只要按照步骤把结果做出来就行)

(3)对于所得结果进行分析(有模板参考)

二、下载Stata

这一步相信大家都已经完成,后面出一期详细的教程来讲解!

三、下载所需数据

经管类的数据一般在国泰安数据库下载,先挂学校vpn,然后直接搜索国泰安可找到,进入过后选择数据中心——单表查询(跨表查询需要个人账户,一般用单表查询后用excel进行数据合并),然后选择右上角的搜索框,输入想要查询的数据即可。
在这里插入图片描述

多下载几年的数据,比如10年,这样后续处理过程如果样本量太少,不用重复下载。输出类型一般默认为excel2007。

如果学校没有购买该数据库或者查不到自己要的数据,此时可以通过闲鱼代查,淘宝购买某某图书馆账号等,也很方便不再赘述。

三、Stata基础操作

3.1 导入数据

3.1.1 直接复制粘贴(推荐)

将下载好的数据保存在Excel中,然后直接复制粘贴到stata中,但是要注意将第一行作为变量名。

3.1.2 直接导入xls文件

拖拽进去即可!

3.2 处理数据

导入数据后,需要进行一些初步的处理,包括更改变量名,生成一些新字段,删除重复数据,合并数据等。这里学长介绍一些常用的数据处理方式。

3.2.1 异常值处理

3.2.1.1 直接删除

这是一种非常粗暴的方法。由于异常值对于统计推断的影响巨大,因此如果数据量样本足够大而异常值并不多的情况下,可以考虑直接删掉异常值

3.2.1.2 winsorize命令

winsorize是用相应分位数的值替代分位数之外的值,而不是删掉,这样可以最大限度的保存数据信息。Stata里有现成的winsorize程序,打开Stata,在命令行输入ssc install winsor2,replace,自动安装 winsor2。安装完之后,winsor2命令的基本格式为:

winsor2 变量名 变量名, replace cuts(1 99)

3.2.2 数值显示红色的处理

若发现某个指标的数据显示为红色,需要更改该指标的数据类型。红色代表字符串,若要转成数值型,可以试试destring命令。

四、常见命令含义

help 帮助

clear 清空内存数据

use 打开STATA格式的数据文件

save 保存内存中的数据

input 录入数据

edit 编辑数据

merge 将两个数据文件横向拼接

generate 生成新的数据

rename 变量重命令

drop 删除变量或观察值

sort 对观察值按从小到大顺序重新排列

describe 总体展示数据情况

list 列示内存中的数据

count 报告共有多少观察值

table 数据列表

tabulate 联列表

display 显示计算结果

log 将输出结果存放入结果文件

具体细节可以看其他书籍!

在这里插入图片描述

### 使用 Stata 进行数据预处理 #### 将字符型变量转换为数值型变量 当遇到某些情况下,尽管输入的数据应为数字形式,但在Stata中却被识别成字符串类型。此时可利用`destring`命令来完成这种类型的转换操作[^2]。 ```stata destring year, replace force ``` 上述代码片段展示了如何强制将名为 `year` 的字段由字符串格式转变为数值格式,并覆盖原有变量。 #### 导入 Excel 文件并指定首行为列名 对于来自Excel文件的数据集,在导入时可以通过特定参数确保第一行作为变量名称被正确读取。这有助于后续分析过程中的变量管理和理解[^4]。 ```stata import excel "path_to_file.xlsx", firstrow clear ``` 此段脚本说明了怎样加载位于给定路径下的Excel文档至工作环境中,同时清除了之前存在的任何数据以便于新数据的载入。 #### 输出整理后的数据到 Excel 表格 经过一系列清理和调整之后,可能需要保存修改过的结果供其他软件进一步加工或者存档用途。这时可以采用如下方式导出当前内存里的数据框至外部Excel文件中去[^3]: ```stata export excel using "exported_data.xlsx", firstrow(variables) ``` 这段指令实现了把现有关联的所有观测值连同它们各自的标签一起写入目标位置的新创建的工作簿里;其中`firstrow()`选项指定了输出表头信息的方式。 #### 处理异常值 为了提高统计模型的质量以及结果解释的有效性,在正式建模前应当考虑去除那些明显偏离正常范围内的极端样本点。一种简单直接的办法就是依据领域常识设定阈值条件从而筛选掉不符合逻辑关系的部分记录[^1]。 ```stata drop if variable_name > upper_limit | variable_name < lower_limit ``` 这里给出了一种基于上下限判断原则剔除离群点的具体实现方法,即凡是超出预定界限之外的对象都将被淘汰出局不再参与接下来的研究环节之中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值