简介
回归的目的是通过研究自变量X与因变量Y之间的相互关系
- 识别重要的变量,剔除次要的变量,即逐步回归的思想
- 判断相关性的方向,正还是负
- 估计变量的权重,即回归系数
- 在x=x0处对y做预测,对y做区间估计
常见的回归分析有五类:线性回归(OLS, GLS)、0-1回归(Logistic 回归)、定序回归(probit 定序回归)、计数回归(Possion 回归)和生存回归,其划分的依据均为因变量Y的类型。
因变量的类型:
连续数值型,如GDP
0-1型:如是否按时还款
定序变量:如客户的满意程度
计数变量:如一定时间内的车流量
数据获取
https://search.chongbuluo.com/
一元线性回归
一元线性回归模型,
包含了所有与y相关,但未添加到回归模型中的变量,如果这些变量和我们已经添加的自变量相关,则存在内生性,导致回归系数估计的不准确。
但通常来说满足外生性的条件极为苛刻,我们可以弱化该条件。
将解释变量区分为核心解释变量和控制变量两类。
- 核心解释变量:最感兴趣的变量,即希望对其回归系数进行无偏估计
- 控制变量:我们可能对于这些变量本身无太大兴趣;而之所以把它们也放入回归方程,主要是为了“控制住”那些对被解释变量有影响的遗漏因素
因此我们只需要保证核心解释变量与扰动项不相关即可
对数据进行取对数的好处
- 减弱数据的异方差性
- 如果变量不符合正态分布,取对数之后可能渐进服从正态分布
- 模型的需要,使之更具有经济学意义
一元线性回归
y=ax+b,解释为x每增加1个单位,y平均变化b个单位
双对数模型
lny=a+blnx+u,解释为x每增加1%,y平均变化b%
半对数模型
y=a+blnx,解释为x每增加1%,y平均变化b/100个单位
lny=a+bx,解释为x每增加1个单位,y平均变化(100b)%
特殊的自变量——虚拟变量X
如果自变量中有定性的变量,如性别,地域等
回归方程的显著性检验
对回归方程,检验回归系数显著不为零。
MATLAB实现
使用matlab的regress函数可以方便的对数据进行回归分析
[b,bint,r,rint,stats]=regress(X,Y,alpha);%
% b返回回归系数,bint返回回归系数的置信区间
% r返回残差,rint返回残差的置信区间
% stats返回拟合优度,F统计量,p检验值和均方误差
rcoplot(r,rint)%可以画出残差图,进行离群检验,剔除异常值