1、面板介绍
如上所示有五大窗口。
在命令窗口上面提交命令,从而让stata执行。
sysuse auto,clear
sysuse auto:这是一个用来加载 Stata 内置示例数据集 “auto” 的命令。这个数据集包含有关1978年生产的74辆汽车的各种信息,如价格、里程、重量等。
, clear:这是一个选项,用来在加载新数据集之前清除当前内存中的数据。如果当前内存中已经有数据集,那么执行这个命令时将其清除,防止数据冲突。
(1)自动补全与历史命令
(2)在结果窗口查找字符
例如:在结果窗口查找“reg”
(3)清屏
(4)历史窗口
搜索不区分大小写。
单击记录在命令窗口显示,双击会自动执行。
倒序-》正序-》原状态
(5)修改变量的属性
(6)小例子:线性回归
regress price mpg rep78 是一个在 Stata 统计软件中使用的命令,用于执行线性回归分析。
具体来说:
regress:这是线性回归的命令。
price:这是因变量,也就是你想要预测或解释的变量。在这个例子中,price 代表汽车的价格。
mpg 和 rep78:这是自变量,也就是用于预测因变量的变量。在这个例子中,mpg 代表每加仑英里数(燃油效率),rep78 代表1978年的维修记录(一个类别变量,通常范围是1到5)。
这个命令的整体效果是执行一个线性回归分析,用燃油效率 (mpg) 和维修记录 (rep78) 来解释汽车价格 (price) 的变化。Stata 会输出回归模型的结果,包括系数估计、标准误、t值、p值和模型的R平方等统计信息。
回归模型输出解释
模型摘要:
Number of obs = 69:表示样本数据中有69个观测值。
F(2, 66) = 11.06:F统计量的值为11.06,表示该模型整体的显著性。
Prob > F = 0.0001:F检验的p值为0.0001,表示模型整体显著性极高,拒绝零假设(说明自变量对因变量有显著解释力)。
R-squared = 0.2510:决定系数(R平方)为0.2510,表示自变量解释了因变量25.10%的变异。
Adj R-squared = 0.2283:调整后的R平方为0.2283,考虑了自变量个数对模型的调整。
Root MSE = 2558.5:均方根误差(Root Mean Squared Error)为2558.5,表示预测误差的标准差。
回归系数:
1、mpg (每加仑英里数):
Coef. = -271.6425:每增加一个单位的 mpg(每加仑英里数),汽车价格 price 平均减少271.6425美元。
Std. Err. = 57.77115:系数的标准误为57.77115。
t = -4.70:t统计量为-4.70,表示该系数与0的偏离程度。
P>|t| = 0.000:p值为0.000,表示该系数显著性极高,拒绝零假设(即mpg对price有显著影响)。
95% Conf. Interval = [-386.9864, -156.2987]:95%置信区间范围为[-386.9864, -156.2987],表示mpg对price的影响范围。
2、rep78 (1978年维修记录)
Coef. = 666.9568:每增加一个单位的 rep78(1978年维修记录),汽车价格 price 平均增加666.9568美元。
Std. Err. = 342.3559:系数的标准误为342.3559。
t = 1.95:t统计量为1.95。
P>|t| = 0.056:p值为0.056,略大于0.05的显著性水平,表示该系数在0.05显著性水平下不显著,但在0.10显著性水平下是显著的。
95% Conf. Interval = [-16.5789, 1350.492]:95%置信区间范围为[-16.5789, 1350.492],跨越0,表示不确定性较大。
3、_cons (常数项)
Coef. = 9657.754:常数项为9657.754,表示当所有自变量为0时,汽车的基本价格为9657.754美元。
Std. Err. = 1346.54:常数项的标准误为1346.54。
t = 7.17:t统计量为7.17,表示常数项与0的偏离程度。
P>|t| = 0.000:p值为0.000,表示常数项的显著性极高。
95% Conf. Interval = [6969.3, 12346.21]:95%置信区间范围为[6969.3, 12346.21]。
总结:从结果中可以看出模型整体显著,但解释力(R平方)较低,仅为25.10%。
mpg(每加仑英里数)对汽车价格 price 有显著的负向影响,每增加一个单位的 mpg,汽车价格平均减少271.6425美元。
rep78(1978年维修记录)对汽车价格 price 有正向影响,但在0.05显著性水平下不显著(p = 0.056)。
如果使用面板进行操作而不使用代码:
点击确定之后会生成一个一样的代码:
在窗口操作与直接写命令是等效的。
(7)定义工作路径
2、数据处理
(1)查看内置数据集
红色变量:字符串。黑色变量:数字。蓝色变量:值标签。
(2)数据描述 describe、summarize
describe
summarize
上面的make是空白是因为字符串类型不参与统计分析。
codebook rep78
更详细的查看某个变量
summarize price
更详细的:
summarize price,detail
(3)查看某个变量的缺失值 if
br if missing(rep78)
或者
br if rep78== .
(4)频数统计与交叉表 tabulate
tabulate foreign
tabulate foreign 是在 Stata 中用来对 foreign 变量进行频数统计的命令,通常用于查看分类变量的分布情况。foreign 变量通常用于标识汽车的产地(例如,0 代表本国产,1 代表进口)。
tabulate rep78 foreign
在 Stata 中,tabulate rep78 foreign 命令用来生成一个交叉表,以显示 rep78 和 foreign 变量之间的分布关系。rep78 通常表示1978年的维修记录,foreign 表示汽车的产地。
解释:
Repair Record 1978 (维修记录 1978):
1: 有2辆国内生产的汽车,0辆进口的汽车,总计2辆。
2: 有8辆国内生产的汽车,0辆进口的汽车,总计8辆。
3: 有27辆国内生产的汽车,3辆进口的汽车,总计30辆。
4: 有9辆国内生产的汽车,9辆进口的汽车,总计18辆。
5: 有2辆国内生产的汽车,5辆进口的汽车,总计7辆。
Total (总计):
foreign(产地):
Domestic (本国产): 总计48辆汽车。
Foreign (进口): 总计17辆汽车。
Total (总计): 65辆汽车。
这个交叉表显示了不同维修记录等级下本国产和进口汽车的分布情况。例如,在维修记录等级为4的情况下,本国产和进口汽车的数量是相同的(各9辆)。这个信息有助于分析不同产地汽车在不同维修记录等级上的分布差异。
by foreign,sort:sum mpg
在 Stata 中,by foreign, sort: sum mpg 命令用于分别计算 foreign 变量的不同类别(即本国产和进口)的 mpg(每加仑英里数)的描述性统计。sort 选项确保在执行 sum 命令之前先对数据按 foreign 变量进行排序。
(5)t检验 ttest
ttest mpg,by(foreign)
在 Stata 中,ttest mpg, by(foreign) 命令用于进行独立样本 t 检验,以比较两个独立组(在本例中是本国产和进口汽车)的平均数是否存在显著差异。这个命令将使用 foreign 变量将数据分为两个组(foreign=0 和 foreign=1),并比较这两个组的 mpg(每加仑英里数)是否有统计学上的显著差异。
解释
Group (组别):
0: 本国产汽车
Obs (观测值): 52
Mean (均值): 19.83
Std. Err. (标准误差): 0.6599
Std. Dev. (标准差): 4.7433
[95% Conf. Interval (95% 置信区间)]: 18.50 至 21.15
1: 进口汽车
Obs (观测值): 22
Mean (均值): 24.77
Std. Err. (标准误差): 1.4092
Std. Dev. (标准差): 6.6112
[95% Conf. Interval (95% 置信区间)]: 21.85 至 27.69
Combined (合并):
样本总数为74,整体的均值为21.30,标准误差为0.6272,标准差为5.7855。
Diff (差异):
两组之间的均值差异为 -4.9458,标准误差为1.5259。负值表示进口汽车的平均燃油效率高于本国产汽车。
t 统计量: -3.2405
P 值 (Pr(|T| > |t|)): 0.0018
结论
P 值(0.0018)远小于常用的显著性水平(如0.05),因此我们可以拒绝零假设(即认为本国产和进口汽车的燃油效率没有显著差异)。这意味着本国产和进口汽车的燃油效率之间存在显著差异,且进口汽车的平均燃油效率显著高于本国产汽车。
(6)相关性矩阵 correlate
correlate mpg weight
在 Stata 中,correlate mpg weight 命令用于计算两个变量(在本例中是 mpg 和 weight)之间的皮尔逊相关系数。相关系数衡量的是两个变量之间线性关系的强度和方向,取值范围从 -1 到 1。
解释
mpg 和 weight 的相关系数: -0.8072
相关系数为 -0.8072 表明 mpg(每加仑英里数)和 weight(重量)之间存在强负相关关系。
这意味着,随着汽车重量的增加,其燃油效率(mpg)通常会下降。负相关系数的绝对值越接近 1,说明这种关系越强。
总结
这个相关系数结果表明,在这个数据集中,汽车的重量和燃油效率之间存在显著的负相关关系。也就是说,较重的汽车通常燃油效率较低,而较轻的汽车通常燃油效率较高。
by foreign,sort: correlate mpg weight
在 Stata 中,by foreign, sort: correlate mpg weight 命令用于分别计算数据中不同类别(本例中是 foreign 变量)下的 mpg 和 weight 之间的相关系数。sort 选项确保在执行 correlate 命令之前按 foreign 变量对数据进行排序。
解释
对于 foreign = 0 (本国产汽车):
mpg 和 weight 的相关系数: -0.8676
这表示在本国产汽车中,汽车的重量与燃油效率(mpg)之间有很强的负相关关系。随着重量的增加,燃油效率通常降低。
对于 foreign = 1 (进口汽车):
mpg 和 weight 的相关系数: -0.5912
这表示在进口汽车中,汽车的重量与燃油效率之间有中等强度的负相关关系。虽然这种关系不如本国产汽车中的强,但仍然表明较重的汽车通常燃油效率较低。
总结
这两个相关系数表明,无论是本国产汽车还是进口汽车,重量和燃油效率之间都存在负相关关系。然而,这种关系在本国产汽车中更强,可能是由于两类汽车在设计、制造或技术上的差异导致的。
(7)语法 by
语法为 by varname, sort: command,其中 varname 是分类变量,command 是要执行的命令。上面的例子具体为 by foreign, sort: correlate mpg weight。
(8)绘制散点图
twoway (scatter weight length)
在 Stata 中,使用 twoway (scatter weight length) 命令可以创建一个散点图,将数据集中 weight(重量)和 length(长度)两个变量的值绘制在图上。散点图是展示两个数值变量之间关系的常用工具。
twoway (scatter weight length) (lfit weight length)
解释
twoway 指定了图形类型为双变量图。
(scatter weight length) 创建一个散点图,将 weight 变量绘制在 y 轴上,length 变量绘制在 x 轴上。
(lfit weight length) 添加一个线性拟合线,显示 weight 和 length 之间的线性关系。
twoway (scatter weight length) (lfit weight length), by(foreign)
最后加by来区分国内国外