回归分析模型——线性回归（二）

白云黑土666

已于 2024-05-29 13:54:49 修改

阅读量1.3k

点赞数 24

文章标签：回归线性回归数据挖掘机器学习数据分析数学建模

于 2024-05-28 14:35:10 首次发布

本文链接：https://blog.csdn.net/weixin_44781446/article/details/139066229

版权

1.Stata软件介绍

Stata是一个统计分析软件，但它也具有很强的程序语言功能。 Stata的ado文件（高级统计部分）都是用Stata自己的语言编写的。 Stata其统计分析能力远远超过了SPSS，在许多方面也超过了SAS！由于Stata在分析时是将数据全部读入内存，在计算全部完成后才和磁盘交换数据，因此计算速度极快（一般来说， SAS的运算速度要比 SPSS至少快一个数量级，而Stata的某些模块和执行同样功能的SAS模块比，其速度又比SAS快将近一个数量级！）Stata也是采用命令行方式来操作，但使用上远比SAS简单。其生存数据分析、纵向数据（重复测量数据）分析等模块的功能甚至超过了SAS。用Stata绘制的统计图形相当精美，很有特色。

2.回归实例

2.1导入数据

文件-导入-excel

import excel "C:\Users\hp-tq\Desktop\课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") 
firstrow

2.2数据描述性统计（不要直接把图表截图放在论文中，不美观还可能模糊）

描述统计是用来描绘或总结观察量的基本情况，反映客观现象的规律性数量特征。描述统计可以对数据资料进行图像化处理，也可以通过分析数据资料，了解变量内各观测值的集中趋势、离散程度。

2.2.1定量数据

summarize 商品毛重kg 团购价元 评价量

2.2.2定性数据

tabulate 商品名称,gen(A)
tabulate 配方,gen(B)

返回对应的这个变量的频率分布表，并生成对应的虚拟变量(以A、B等开头)，tabulate每次只能对一个定性变量进行分析，gen生成虚拟变量，还可使用excel表中的数据透视表功能进行分析。

下表是11个指标的总体情况介绍

2.3回归分析

 regress y x1 x2 … xk   %%stata中默认使用OLS，普通最小二乘法
 regress 评价量 团购价 商品毛重kg
 regress 评价量 团购价 商品毛重kg B1 B2 B3%%引入虚拟变量

model是回归平方和SSR，residual是残差平方和SSE，Total总平方和SST.df自由度，MS=SS/DF. F(2,843)、Prob>F是联合显著性检验值和P值结果（参考2.5），P<0.05,回归模型有一定的意义。在多元线性回归中，R平方的值会受到变量多少的影响所以用调整后R的平方。

在明确自变量和因变量后，构建多元线性回归模型，并用stata运行结果。即对评价量的估计方程为 $\widehat{y}=26255.38-35.398x_{1}+2410.301x_{2}$ ，回归系数-35.398表示其他变量保持不变的情况下，团购价每增加1元，评价量减少大概35条。回归系数coef，std标准误，t值coef/std

加入虚拟变量B，B3为对照组，B1、B2与它比较。接下来分析B1回归系数，在其他变量保持不变的情况下，配方1的评价量比配方3的评价量平均多8714.运行结果不要直接截图，放在表格里去调整三线表，stata中，可以运行代码把结果放在word里

ssc install reg2docx,all replace%%使用前运行这个来安装功能包
regress 评价量 团购价元 商品毛重kg B1 B2 B3
est store m1
reg2docx m1 using m1.docx,replace
//  ***p<0.01   **p<0.05  *p<0.1

我们回到问题2，研究影响评价量的重要因素，

2.4回归直线拟合优度检验（判定系数、估计标准误差）

在2.3中我们拟合一条直线描述自变量和因变量之间的数量关系，根据这一方程可以根据自变量估计或预测因变量y的值。但是精度如何取决于回归直线对观测数据的拟合程度。简单来说，观测点越是紧密围绕这条直线，说明拟合效果越好。

2.4.1判定系数

在2.3中结果，表明，评价量总变差中，有3.4%可以由线性关系解释。

//概率分布，下图可以看出数据分布不均匀，
summarize 评价量,d
//概率密度估计图
kdensity 评价量

以下是多元线性回归中，拟合优度——多重判定系数

2.4.2估计标准误差

2.5 显著性检验（线性关系检验、回归系数检验）

在建立了估计方程后还不能马上进行估计或预测，因为估计方程根据样本数据得出，是否真实反映变量x和y的关系需要进行检验才能证实。

多元线性回归模型线性关系检验：

注意：这两种检验的意义不同，F检验只是用来检验总体回归关系的显著性，而t检验则是检验各个回归系数的显著性。

2.6残差分析

graph export a1.png,replace%%保存运行结果的图片

为了消除量纲影响，也可以通过对标准化残差的分析完成对误差项正态性假定的检验。

2.7回归分析结果评价

3.回归分析可能遇到的问题（这里只简单介绍）

3.1异方差（参考2.6）

3.2多重共线性

（5）增加或减少解释变量使得系数的估计值发生较大变化（也可能内生性）

3.3内生性

在（一）4.2中，大家有没有观察到，在引入新的自变量后，对 $x_{1i}$ 回归系数的影响非常大。因为遗漏变量导致的内生性！在知乎看到一个帖子的解释非常棒：在一个模型中，有些变量的值是在模型内部决定的，是内生的；有些变量的值是被模型外界决定的，是外生的。在一般模型中，被解释变量应该是内生的，解释变量应该是外生的，解释变量的取值是不能被我们的模型所决定的。内生性问题字面意思指的是解释变量不是完全外生了，有了内生性了。此种内生性问题的一个常见症状就是解释变量和误差项存在相关关系。