回归分析的分类
数据的分类
1.横截面数据: 在某一时点收集的不同对象的数据。
例:
我们自己发放问卷得到的数据。
全国各省份2018年GDP的数据。
大一新生今年体测的得到的数据。
2.时间序列数据: 对同一对象在不同时间连续观察所取得的数据。
例:
从出生到现在,你的体重的数据(每年生日称一次)。
中国历年来GDP的数据。
在某地方每隔一小时测得的温度数。
3.面板数据: 横截面数据与时间序列数据综合起来的一种数据。
例:
2008‐2018年,我国各省份GDP的数据。
处理方法:
一元线性回归模型
回归系数的解释
内生性的探究
误差项包含了所有与y相关,但未添加到回归模型中的变量如果这些变量和我们已经添加的自变量相关,则存在内生性。
核心解释变量和控制变量
核心解释变量: 我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
控制变量: 我们可能对于这些变量本身并无太大兴趣;而之所以把它们也放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。
在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。
什么时候取对数
伍德里奇的《计量经济学导论,现代观点》里,第六章176-177页有详细的论述;取对数意味着原被解释变量对解释变量的弹性,即百分比的变化而不是数值的变化;目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
(1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
(2)以年度量的变量,如受教育年限、工作经历等通常不取对数;
(3)比例变量,如失业率、参与率等,两者均可;
(4)变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);
取对数的好处: (1)减弱数据的异方差性。(2)如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布。(3)模型形式的需要,让模型具有经济学意义。
四类模型回归系数的解释
1.一元线性回归: 𝑦 = 𝑎 + 𝑏𝑥 + 𝜇, x每增加1个单位, y平均变化b个单位。
2.双对数模型: 𝑙𝑛𝑦 = 𝑎 + 𝑏𝑙𝑛𝑥 + 𝜇, x每增加1%, y平均变化b%。
特殊的自变量:虚拟变量X
如果自变量中有定性变量,例如性别、地域等,在回归中要怎么处理呢?
例如:我们要研究性别对于工资的影响(性别歧视)。