考完试了,来把线性回归写写完,前面写完了六个assumption, 再加以前面Hypothesis test的内容就差不多可以表现出一般的线性回归了。
simple regression
单元的线性回归简单的说就是检验两个变量的关系,详细一点就是在用最小二乘法拟合之后对拟合的斜率做一次Hypothesis test,就得到结论了,想知道更多信息可以把p-value搞出来看一看。这与Hypothesis test对单一变量的统计是一样的,只不过这里换成了slope。
multiply regression
但现实中更有意义的往往是多元变量的处理,可以这样想,你对于单元变量,怎么回归都能做出点关系来,因为你的假设或多或少还是和因变量相关的,但是得出来的线性回归实际上价值并不高,第一是观测数据是内生变量是有bias的,也就是说可能是别的变量通过影响它来影响结果,这就是很迷惑的东西,基本就没有价值了。
那怎么办,我们总得用观测数据,不可能做一个研究就去搞千百次实验。这时候就用到了一个初中生就知道的东西,控制变量法,初中的时候我们就学到过,用控制单一变量才能得出有意义的结论。这里在他的基础上扩张。举个例子,怎么研究学历对你将来收入的影响。我们首先要列出影响的它因子(这里只可能是假设),就比如所有影响的因子只有父母收入和你本身学历,考虑其他变量没有直接影响(其实是可以通过R判断还有没有其他重要的因子)。这时候就得控制变量了。 先将这三个变量与未来收入做一个线性回归,可以得到SSE等数据,然后再将父母收入这两个变量做一个线性回归。那么两个回归一起看应该就可以得到结论了。
怎么得到呢?数学模型呗。其实单元变量线性回归就是特殊的一种,以上对照可以看成两种线性模型,单元中不受变量影响的叫unrestricted version,受影响的叫restricted version。然后带入
F
=
S
S
E
R
−
S
S
E
U
/
(
p
U
−
p
R
)
S
S
E
U
/
(
n
−
p
u
)
F = \frac{SSE_{R}-SSE_{U}/(p_{U}-p_{R})}{SSE_{U}/(n-p_{u})}
F=SSEU/(n−pu)SSER−SSEU/(pU−pR)
公式怎么来的,Ftest 本质就是检验两个独立变量的关系,同样有Ftable可以查
F
(
α
;
q
,
n
−
k
−
1
)
F(\alpha;q,n-k-1)
F(α;q,n−k−1)的值,上述F公式实际就是它的变形。
结语
感觉这篇写的不好,线性回归是个应用很大模型很大的概念,相关数学公式都需要一定时间去了解,但个人认为更为重要的是它本身做的是件什么事情。