回归分析的任务是:
通过研究自变量x与因变量y的相关关系,去解释y的形成机理,进而 达到通过x预测y的目的
常见的回归分析有5类:
线性回归,0-1回归,定序回归,计数回归和生存回归
关键词:
相关性
注意,不要把相关性和因果性混淆!!
比如在夏天,游泳死亡人数与雪糕销量有正相关。但是他们之间没有因果关系。
Y:因变量(被解释变量),也是我们研究的核心变量
根据因变量的不同,回归问题的类别也不同
比如:
(1)经济学家研究影响GDP增长的因素,选择GDP增长率为因变量,那么Y为连续型数值变量。
(2)P2P公司研究贷款人能否按时还款,取Y为二值变量(0-1变量),则为0-1回归(使用逻辑回归解决)
(3)消费者调查得到的数据(1-不喜欢,2-一般喜欢,3-很喜欢),此时Y为定序数据
(4)管理学中RFM模型,F表示一定时间内客户到访的次数,次数实际上指的是一个非负的整数,这就是计数变量
(5)研究产品的寿命,人的寿命。比如选取一个样本,老王为60岁,我们不可能等到他去世再研究,比如他现在的年龄为60岁,那我们计他的寿命为60+,这是一个截断的数据,也就是生存变量
X:自变量,也称为解释变量
回归分析的步骤
- 回归分析要去识别,哪些变量X是真的与因变量Y有关
- 接下来,回归分析要去回答,剩下的变量X中,哪些与Y成正相关,哪些成负相关
- 在确定了重要的X的前提下,要给不同的X分配一个权重(回归系数),依次来确定X之间的相对重要性
总结:三个使命为(1)识别重要变量(2)判断相关方向(3)估计相关系数
数据的分类:
(1)横截面数据(cross section data):在同一时间上得到的不同对象的数据
比如:发放问卷得到的数据、2018年各省份的GDP数据、大一新生体侧得到的数据
(2)时间序列数据(time series data):同一对象在不同时间连续观察到的数据
比如:从出生到现在,你的体重的数据(每年测一次)
中国每年GDP的数据,某地方每隔一个小时测得温度的数据
(3)面板数据(panel data):横截面数据与时间序列数据综合得到的数据
比如2008到2018年中国各省份的GDP
常见建模方法
见下表
横截面数据 | 时间序列数据 | 面板数据 |
---|---|---|
多元回归分析 | AR,MA,ARMA,ARIMA 等 | 固态效应和随机效应,动态面板和静态面板 |
一元线性回归:
一元线性函数拟合:
假设有一堆样本点为 ( x i , y i ) , i = 1 , 2 , 3 , . . . n (x_{i},y_{i}),i=1,2,3,...n (xi,yi),i=1,2,3,...n
我们设置拟合曲线为 y = k x + b y = kx+b y=kx+b
问题:k和b为何值时,拟合曲线与样本点最接近?
在一元线性回归模型中:
假设x为自变量,y为因变量,且满足下列线性关系
y i = β 0 + β 1 x i + μ 0 y_{i} = \beta_{0}+\beta_{1}x_{i}+\mu_{0} yi=β0+β1xi+μ0
β 0 和 β 1 是 回 归 系 数 , μ 0 \beta_{0}和\beta_{1}是回归系数,\mu_{0} β0和β1是回归系数,μ0是无法观测的且满足一定条件的扰动项。
令预测值 y ^ = β 0 ^ + β 1 ^ x \hat{y}=\hat{\beta_{0}}+\hat{\beta_{1}}x_{} y^=β0^+β1^x
其中 β 0 ^ , β 1 ^ = arg β 0 , β 1 min ( ∑ i = 1 n ( y i − y i ^ ) 2 ) = arg β 0 , β 1 min ( ∑ i = 1 n ( y i − β 0 ^ − β 1 ^ x i ) 2 ) \hat{\beta_{0}},\hat{\beta_{1}}=\arg \limits_{\beta_{0},\beta_{1}}\min(\sum\limits_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2})=\arg \limits_{\beta_{0},\beta_{1}}\min(\sum\limits_{i=1}^{n}(y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i})^{2}) β0^,β1^=β0,β1argmin(i=1∑n(yi−yi^)2)=β0,β1argmin(i=1∑n(yi−β