数据分析模型 第六章

线性回归,浅谈其他回归模型,结语

一. 线性回归(linear regression)

线性回归是属于监督学习范畴内的。我们在此先简单的介绍下监督学习.
监督学习(Supervised Learning):
假如我们有n组数据,每组数据有对应的 p + 1 p+1 p+1个变量.我们现在要预测其中一个变量,利用剩余的p个变量.如下图:
在这里插入图片描述
该图中,我们的n就是行,这里有20行,即为20个人,所以n组数据为n个个体。每个个体都有自己对应的具体变量值:Pt(相当于ID), BP(血压),Age(年纪),Weight(体重), 等等.
假如我们的任务是预测BP血压这个变量,那么我们就要用剩下的变量即Age,Weight等等的数据来预测这个BP血压这个变量的具体数值。

如果我们要预测的这个变量是分类数据(categorical),那么我们预测方法为分类
:例如簇,判断是否为男生或女生.

如果我们要预测的这个变量是数值数据(numerical),那么我们要用回归(regression):
例如线性回归,预测房价.

正如小弟第一章所述,监督学习,相当于有一份标准答案,假如我们预测BP血压,我们利用我们预测的血压值和标准答案的血压值进行比对,从而估计出参数,使我们的预测值更准确。还记得第三章的MSE么,如果我们估计的参数偏差过小,那么我们的模型很有可能饱和估计,也就是说我们的模型这能预测我们给定的这堆数据(训练数据)里的BP,如果我们估计的参数偏差过大,那模型可能是非饱和估计,我们的模型连我们给定的这推数据(训练数据)里的BP都预测不了.

我们言归正传,来介绍下监督学习的写法:
假如我们的预测变量 y i y_i yi和我们的变量 x i , 1 , x i , 2 , x i , 3 , . . . , x i , p x_{i,1},x_{i,2},x_{i,3},...,x_{i,p} xi,1,xi,2,xi,3,...,xi,p有关系,即i∈(1,n)
那么:
y i = f ( x i , 1 , x i , 2 , x i , 3 , . . . , x i , p ) y_i=f(x_{i,1},x_{i,2},x_{i,3},...,x_{i,p}) yi=f(xi,1,xi,2,xi,3,...,xi,p)
我们这里的 f ( ⋅ ) f(·) f()即为我们的预测 y ˉ i \bar y_i yˉi,显然我们的预测 y ˉ i \bar y_i yˉi肯定不会和真值 y i y_i yi一模一样,所以在 f ( ⋅ ) f(·) f()里会有一个 ε i \varepsilon_i εi即为误差(error)。

简单线性回归(simple linear regression)
线性模型是属于监督学习,在这里我们认为 f ( ⋅ ) f(·) f()为线性的,即为:
Y = β 0 + β 1 x 1 + . . . . + β p x p + ε Y=\beta_0+\beta_1x_1+....+\beta_px_p+\varepsilon Y=β0+β1x1+....+βpxp+ε
当然了根据上述,假如我们有n组数据,i∈(1,n),你也可以写成:
Y i = β 0 + β 1 x i , 1 + . . . . + β p x i , p + ε i Y_i=\beta_0+\beta_1x_{i,1}+....+\beta_px_{i,p}+\varepsilon_i Yi=β0+β1xi,1+....+βpxi,p+εi
当p=1时,为简单的线性回归(simple linear regression),当p>1时,为多元线性回归(multiple linear regression).这公式翻译过来的意思为,基于独立变量 x 1 , . . , x p x_1,..,x_p x1,..,xp关于 Y Y Y的回归. β 0 , β 1 , . . , β p \beta_0,\beta_1,..,\beta_p β0,β1,..,βp为回归系数(regression coefficients)

我们一般会假设 ε \varepsilon ε即随机误差(random error)的均值/期望为0,那么也可以写成:
E [ Y ∣ x ] = Y ˉ = β 0 + β 1 x 1 + . . . . + β p x p E[Y|x]=\bar Y=\beta_0+\beta_1x_1+....+\beta_px_p E[Yx]=Yˉ=β0+β1x1+....+βpxp
E [ Y ∣ x ] E[Y|x] E[Yx]意味着,基于x,Y的期望,即我们的预测
当然你也可以写成这样:
E [ Y i ∣ x i , 1 , . . x i , p ] = y ˉ i = β 0 + β 1 x i , 1 + . . . . + β p x i , p E[Y_i|x_{i,1},..x_{i,p}]=\bar y_i=\beta_0+\beta_1x_{i,1}+....+\beta_px_{i,p} E[Yixi,1,..xi,p]=yˉi=β0+β1xi,1+....+βpxi,p

线性模型是统计里很重要的模型,因为线性模型具有这么三个优点:
1.线性模型具有很高的解释性,例如 y = − 3 x 1 + 2 x 2 y=-3x_1+2x_2 y=3x1+2x2,y为房价,x1为噪音音呗,x2为附近的商场数量,那么随着噪音的增大y房价会减少,但随着商场数量增多,房价还会提高.
2.线性模型很灵活,它甚至可以处理非线性的变量关系。例如我们可以把logx当成一个变量,而不是把x当成一个变量,这样可以把非线性转换为线性。
3.线性模型即使有大量的变量,计算机计算估计参数也会很快。这一点小弟深有体会,小弟当时做了一个卷积层神经网络来分类垃圾,参数很多,调参,估计参数,一上午就没了(计算机算了一上午)。而线性模型估计参数则会很快。

那么如何判断我们的模型预测是好是坏呢?我们通过预测误差(predication error).
e i = y ˉ i − y i e_i=\bar y_i-y_i ei=yˉiyi
对没错,这里的 e i e_i ei和我们上述的 ε i \varepsilon_i εi是一个意思,只是写法不同罢了。这也称为残差(residual error).那么,如果有n组数据,那么对应的会有n组 y i y_i yi,那么它的总共的残差平方和为:
R S S = ∑ i = 1 n e i 2 RSS=\sum_{i=1}^{n}e_i^2 RSS=i=1nei2
这也被称为残差平方和(residual sum-pf-squared errors)
残差平方和越小,那说明我们的模型越能诠释我们的数据,能诠释我们的Y与剩下 x 1 , . . . x p x_1,...x_p x1,...xp变量的关系。至于为什么用平方和的形式,请看第三章估计的均方误差(mean squared error,简写MSE),大同小异。

对于简单的线性模型来说,那我们可以利用上述这个特点,来估计我们的回归系数即参数,即:
( β ˉ 0 , β ˉ 1 ) = m i n { R S S } = a r g m i n β o , β 1 { ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 } (\bar \beta_0,\bar \beta_1)=min\{RSS\}=arg min_{\beta_o,\beta_1}\{\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2\} (βˉ0,βˉ1)=min{RSS}=argminβo,β1{i=1n(yiβ0β1xi)2}
这就是最小二乘法估计(LS estimates)
那么:
∂ R S S ( β 0 , β 1 ) ∂ β 0 = − 2 ∑ i = 1 n ( y i − β 0 − β 1 x i ) = 0 \frac{\partial RSS(\beta_0,\beta_1)}{\partial \beta_0}=-2\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)=0 β0RSS(β0,β1)=2i=1n(yiβ0β1xi)=0
∂ R S S ( β 0 , β 1 ) ∂ β 1 = − 2 ∑ i = 1 n x i ( y i − β 0 − β 1 x i ) = 0 \frac{\partial RSS(\beta_0,\beta_1)}{\partial \beta_1}=-2\sum_{i=1}^{n}x_i(y_i-\beta_0-\beta_1x_i)=0 β1RSS(β0,β1)=2i=1nxi(yiβ0β1xi)=0
得:
β ˉ 0 = ( ∑ i = 1 n y i ) ( ∑ i = 1 n x i 2 ) − ( ∑ i = 1 n y i x i ) ( ∑ i = 1 n x i ) n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 \bar\beta_0=\frac{(\sum_{i=1}^{n}y_i)(\sum_{i=1}^nx^2_i)-(\sum_{i=1}^ny_ix_i)(\sum_{i=1}^nx_i)}{n\sum_{i=1}^{n}x_i^2-(\sum_{i=1}^nx_i)^2} βˉ0=ni=1nxi2(i=1nxi)2(i=1nyi)(i=1nxi2)(i=1nyixi)(i=1nxi)
β ˉ 1 = ( ∑ i = 1 n y i x i − β ˉ 0 ∑ i = 1 n x i ) / ∑ i = 1 n x i 2 \bar\beta_1=(\sum_{i=1}^ny_ix_i-\bar\beta_0\sum_{i=1}^{n}x_i)/{\sum_{i=1}^{n}x_i^2} βˉ1=(i=1nyixiβˉ0i=1nxi)/i=1nxi2
当然了,你也可以先算 β ˉ 1 \bar \beta_1 βˉ1,后算 β ˉ 0 \bar \beta_0 βˉ0,均一样,得:
β ˉ 1 = ( ∑ i = 1 n x i Y i − x ˉ ∑ i = 1 n Y i ) / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) \bar \beta_1=(\sum_{i=1}^{n}x_iY_i-\bar x\sum_{i=1}^{n}Y_i)/(\sum_{i=1}^{n}x^2_i-n\bar x^2) βˉ1=(i=1nxiYixˉi=1nYi)/(i=1nxi2nxˉ2)
β ˉ 0 = ∑ i = 1 n Y i n − β ˉ 1 x ˉ \bar \beta_0=\sum_{i=1}^{n}\frac{Y_i}{n}-\bar\beta_1\bar x βˉ0=i=1nnYiβˉ1xˉ
上述的 x ˉ \bar x xˉ为均值。

那么我们的估计的简单线性回归为:
y ˉ i = β ˉ 0 + β ˉ 1 x i \bar y_i=\bar \beta_0+\bar \beta_1x_i yˉi=βˉ0+βˉ1xi
残差为:
e i = y i − y ˉ i e_i=y_i-\bar y_i ei=yiyˉi
根据最小二乘法,拟合出来的简单线性回归有这么个特殊性质,即:
∑ i = 1 n e i = 0 , c o r r ( x , e ) = 0 \sum_{i=1}^{n}e_i=0,corr(x,e)=0 i=1nei=0,corr(x,e)=0
这里的 x = ( x 1 , x 2 , . . . . , x n ) x=(x_1,x_2,....,x_n) x=(x1,x2,....,xn), e = ( e 1 , e 2 , . . . , e n ) e=(e_1,e_2,...,e_n) e=(e1,e2,...,en),也就是说由最小二乘法拟合出来的该简单线性回归的残差均值/期望为0,并且残差与我们的变量x无关.
这部分的推导很简单,利用公式 ∂ R S S ( β 0 , β 1 ) ∂ β 0 \frac{\partial RSS(\beta_0,\beta_1)}{\partial \beta_0} β0RSS(β0,β1)因为:
− 2 ∑ i = 1 n ( y i − β 0 − β 1 x i ) = − 2 ∑ i = 1 n e i = 0 -2\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)=-2\sum_{i=1}^{n}e_i=0 2i=1n(yiβ0β1xi)=2i=1nei=0
所以简单线性回归的残差均值/期望为0,其实多元线性回归也是残差均值/期望=0(小弟先在这提一下),小弟的意思就是想说这也就是为什么每次讨论线性回归的时候,我们总假设残差或者误差( e i = ε i e_i=\varepsilon_i ei=εi这俩写法指的是一个意思就是误差)的均值为0。
还记得 c o v ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] cov(X,Y)=E[XY]-E[X]E[Y] cov(X,Y)=E[XY]E[X]E[Y]么,同理 c o v ( x , e ) = E [ X e ] − E [ X ] E [ e ] cov(x,e)=E[Xe]-E[X]E[e] cov(x,e)=E[Xe]E[X]E[e],因为E[e]=0,又因为 E [ X e ] = ∑ i = 1 n x i e i n E[Xe]=\frac{\sum_{i=1}^{n}x_ie_i}{n} E[Xe]=ni=1nxiei,我们再利用公式 ∂ R S S ( β 0 , β 1 ) ∂ β 1 \frac{\partial RSS(\beta_0,\beta_1)}{\partial \beta_1} β1RSS(β0,β1)知道 ∑ i = 1 n x i e i = 0 \sum_{i=1}^{n}x_ie_i=0 i=1nxiei=0,所以 c o v ( x , e ) = E [ X e ] − E [ X ] E [ e ] = 0 − 0 = 0 cov(x,e)=E[Xe]-E[X]E[e]=0-0=0 cov(x,e)=E[Xe]E[X]E[e]=00=0,所以 c o r r ( x , e ) = 0 corr(x,e)=0 corr(x,e)=0.

简单线性回归和正态分布(simple linear regression and normal distribution)
可能有的同学会问“我们明白残差均值/期望为0,因为 ∑ e i n = 0 \frac{\sum e_i}{n}=0 nei=0,那么残差是否有方差呢?”对没错,我们其实本质一般会令我们的残差/误差 e i ~ N ( 0 , σ 2 ) e_i~N(0,\sigma^2) eiN(0,σ2) σ 2 \sigma^2 σ2是未知的,那么我们的简单线性回归可以写成:
Y i ~ N ( β 0 + β 1 x i , σ 2 ) Y_i~N(\beta_0+\beta_1x_i,\sigma^2) YiN(β0+β1xi,σ2)

这写法很巧妙!!!小弟上学时特别喜欢简单线性回归能写成这样,为什么。因为它将概率和简单线性回归相融合,并且这样的写法基本上不违反小弟上述所说所有简单线性回归的知识点。举个例子, E [ Y i ] = β 0 + β 1 x i E[Y_i]=\beta_0+\beta_1x_i E[Yi]=β0+β1xi它诠释了上述的 E [ Y i ∣ x i , 1 ] = Y ˉ i = β 0 + β 1 x i , 1 E[Y_i|x_{i,1}]=\bar Y_i=\beta_0+\beta_1x_{i,1} E[Yixi,1]=Yˉi=β0+β1xi,1。因为我们的预测 Y ˉ i \bar Y_i Yˉi和真值 Y i Y_i Yi肯定会有误差 e i e_i ei,那么 Y i = Y ˉ i + e i Y_i=\bar Y_i+e_i Yi=Yˉi+ei, Y ˉ i ~ N ( β 0 + β 1 x i , σ u 2 < 0.00001 ) , e i ~ N ( 0 , σ 2 ) \bar Y_i~N(\beta_0+\beta_1x_i,\sigma_u^2<0.00001),e_i~N(0,\sigma^2) YˉiN(β0+β1xi,σu2<0.00001),eiN(0,σ2)那么 Y i ~ N ( β ˉ 0 + β ˉ 1 x i , σ 2 = σ 2 + σ u 2 ) Y_i~N(\bar\beta_0+\bar\beta_1x_i,\sigma^2=\sigma^2+\sigma_u^2) YiN(βˉ0+βˉ1xi,σ2=σ2+σu2)

Y ˉ i ~ N ( β 0 + β 1 x i , σ u 2 < 0.00001 ) \bar Y_i~N(\beta_0+\beta_1x_i,\sigma^2_u<0.00001) YˉiN(β0+β1xi,σu2<0.00001)的意思也很巧妙,为什么,我们都知道正态分布以均值对称往外加减多少个标准差, σ u 2 < 0.00001 \sigma^2_u<0.00001 σu2<0.00001意味着标准差极小,则该正态分布两边快速下降收敛,那么 Y ˉ i = β 0 + β 1 x i \bar Y_i=\beta_0+\beta_1x_i Yˉi=β0+β1xi的概率几乎100%,这不就是我们的预测么。

最小二乘法的无偏性
现在我们来利用上述的 Y i ~ N ( β 0 + β 1 x i , σ 2 ) Y_i~N(\beta_0+\beta_1x_i,\sigma^2) YiN(β0+β1xi,σ2)写法的简单线性回归来证明我们最小二乘法的无偏性和计算对应 β ˉ 0 , β ˉ 1 \bar\beta_0,\bar \beta_1 βˉ0,βˉ1的方差。还记得小弟写的第三章内容里的MSE,对,我们来计算估计参数的期望和方差从而得到它的MSE。
通过最小二乘得到的 β ˉ 1 = ( ∑ i = 1 n x i Y i − x ˉ ∑ i = 1 n Y i ) / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) \bar \beta_1=(\sum_{i=1}^{n}x_iY_i-\bar x\sum_{i=1}^{n}Y_i)/(\sum_{i=1}^{n}x^2_i-n\bar x^2) βˉ1=(i=1nxiYixˉi=1nYi)/(i=1nxi2nxˉ2)
那么:
E [ β ˉ 1 ] = ∑ i = 1 n ( x i − x ˉ ) E [ Y i ] / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) = ∑ i = 1 n ( x i − x ˉ ) ( β 0 + β 1 x i ) / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) = β 0 ∑ ( x i − x ˉ ) + β 1 ∑ x i ( x i − x ˉ ) ( ∑ i = 1 n x i 2 − n x ˉ 2 ) E[\bar \beta_1]=\sum_{i=1}^{n}(x_i-\bar x)E[Y_i]/(\sum_{i=1}^{n}x^2_i-n\bar x^2)=\sum_{i=1}^{n}(x_i-\bar x)(\beta_0+\beta_1x_i)/(\sum_{i=1}^{n}x^2_i-n\bar x^2)=\frac{\beta_0\sum(x_i-\bar x)+\beta_1\sum x_i(x_i-\bar x)}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)} E[βˉ1]=i=1n(xixˉ)E[Yi]/(i=1nxi2nxˉ2)=i=1n(xixˉ)(β0+β1xi)/(i=1nxi2nxˉ2)=(i=1nxi2nxˉ2)β0(xixˉ)+β1xi(xixˉ)
因为 ∑ ( x i − x ˉ ) = 0 \sum(x_i-\bar x)=0 (xixˉ)=0,继续化简得:
E [ β ˉ 1 ] = β 1 E[\bar \beta_1]=\beta_1 E[βˉ1]=β1
我们发现最小二乘法估计 β 1 \beta_1 β1是无偏估计.接下来我们计算它的方差:
V a r ( β ˉ 1 ) = ∑ i = 1 n ( x i − x ˉ ) 2 V [ Y i ] / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) 2 = σ 2 ∑ i = 1 n ( x i − x ˉ ) 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) 2 = σ 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) Var(\bar\beta_1)=\sum_{i=1}^{n}(x_i-\bar x)^2V[Y_i]/(\sum_{i=1}^{n}x^2_i-n\bar x^2)^2=\sigma^2 \sum_{i=1}^{n}(x_i-\bar x)^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2)^2=\sigma^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2) Var(βˉ1)=i=1n(xixˉ)2V[Yi]/(i=1nxi2nxˉ2)2=σ2i=1n(xixˉ)2/(i=1nxi2nxˉ2)2=σ2/(i=1nxi2nxˉ2)
那么:
M S E β 1 ( β ˉ 1 ) = 0 2 + σ 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) MSE_{\beta_1}(\bar \beta_1)=0^2+\sigma^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2) MSEβ1(βˉ1)=02+σ2/(i=1nxi2nxˉ2)

现在同理计算 β ˉ 0 \bar\beta_0 βˉ0的期望和方差,下述公式 x ˉ \bar x xˉ为均值
E [ β ˉ 0 ] = E [ ∑ i = 1 n Y i n − β ˉ 1 x ˉ ] = ∑ i = 1 n E [ Y i ] n − E [ β ˉ 1 ] x ˉ = ∑ i = 1 n β 0 + β 1 x i n − β 1 x ˉ = β 0 + β 1 x ˉ − β 1 x ˉ = β 0 E[\bar\beta_0]=E[\sum_{i=1}^{n}\frac{Y_i}{n}-\bar\beta_1\bar x]=\sum_{i=1}^{n}\frac{E[Y_i]}{n}-E[\bar\beta_1]\bar x=\sum_{i=1}^{n}\frac{\beta_0+\beta_1x_i}{n}-\beta_1\bar x=\beta_0+\beta_1\bar x-\beta_1\bar x=\beta_0 E[βˉ0]=E[i=1nnYiβˉ1xˉ]=i=1nnE[Yi]E[βˉ1]xˉ=i=1nnβ0+β1xiβ1xˉ=β0+β1xˉβ1xˉ=β0
我们发现最小二乘法估计 β 0 \beta_0 β0是无偏估计.接下来我们计算它的方差:
V a r ( β ˉ 0 ) = σ 2 ∑ i = 1 n x i 2 n ( ∑ i = 1 n x i 2 − n x ˉ 2 ) Var(\bar\beta_0)=\frac{\sigma^2\sum_{i=1}^{n}x^2_i}{n(\sum_{i=1}^{n}x^2_i-n\bar x^2)} Var(βˉ0)=n(i=1nxi2nxˉ2)σ2i=1nxi2
那么:
M S E β 0 ( β ˉ 0 ) = 0 2 + σ 2 ∑ i = 1 n x i 2 n ( ∑ i = 1 n x i 2 − n x ˉ 2 ) MSE_{\beta_0}(\bar \beta_0)=0^2+\frac{\sigma^2\sum_{i=1}^{n}x^2_i}{n(\sum_{i=1}^{n}x^2_i-n\bar x^2)} MSEβ0(βˉ0)=02+n(i=1nxi2nxˉ2)σ2i=1nxi2

那么我们用最小二乘法得到的 β ˉ 0 , β ˉ 1 \bar \beta_0,\bar\beta_1 βˉ0,βˉ1也会服从正态分布,将上述的分别计算对应的期望和方差放入正态分布即可,得:
β ˉ 1 ~ N ( β 1 , σ 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ) \bar\beta_1~N(\beta_1,\sigma^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2)) βˉ1N(β1,σ2/(i=1nxi2nxˉ2))
β ˉ 0 ~ N ( β 0 , σ 2 ∑ i = 1 n x i 2 n ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ) \bar\beta_0~N(\beta_0,\frac{\sigma^2\sum_{i=1}^{n}x^2_i}{n(\sum_{i=1}^{n}x^2_i-n\bar x^2)}) βˉ0N(β0,n(i=1nxi2nxˉ2)σ2i=1nxi2)

最小二乘法和似然估计
正如小弟在第三章末尾所说,最小二乘法跟似然估计很像,均是为了追求无偏性,而增加了方差。也就是说,在给定的数据里这样得到的拟合模型准确度是很高的,但在未知数据里即预测方面,因为方差很大所以它的预测变化很大,是我们对于预测没有很大信心。那么有的同学会问:“似然估计可以用在线性回归上么”,对没错,是可以的,在线性回归上,最小二乘法其实就是似然估计。

我们依然用:
残差/误差 e i ~ N ( 0 , σ 2 ) e_i~N(0,\sigma^2) eiN(0,σ2) σ 2 \sigma^2 σ2是未知的
Y i ~ N ( β 0 + β 1 x i , σ 2 ) Y_i~N(\beta_0+\beta_1x_i,\sigma^2) YiN(β0+β1xi,σ2)

那么我们计算似然得:
Π i = 1 n 1 2 π σ e x p ( − ( y i − β 0 − β 1 x i ) 2 / 2 σ 2 ) = 1 ( 2 π ) n 2 σ 2 e x p ( − ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 / 2 σ 2 ) \Pi_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp(-(y_i-\beta_0-\beta_1x_i)^2/2\sigma^2)=\frac{1}{(2\pi)^{\frac{n}{2}}\sigma^2}exp(-\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2/2\sigma^2) Πi=1n2π σ1exp((yiβ0β1xi)2/2σ2)=(2π)2nσ21exp(i=1n(yiβ0β1xi)2/2σ2)
得:
L ( y ∣ β 0 , β 1 , σ 2 ) = n 2 l o g ( 2 π σ 2 ) + R S S ( β 0 , β 1 ) 2 σ 2 L(y|\beta_0,\beta_1,\sigma^2)=\frac{n}{2}log(2\pi\sigma^2)+\frac{RSS(\beta_0,\beta_1)}{2\sigma^2} L(yβ0,β1,σ2)=2nlog(2πσ2)+2σ2RSS(β0,β1)
我们可以清楚得看到,要计算最大似然估计依然需要计算 m i n { ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 } min\{\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2\} min{i=1n(yiβ0β1xi)2},这不就是最小二乘法么,所以说最小二乘法和似然估计在估计线性回归的系数方面上计算方法是一样的。

残差的方差估计
现在还剩下一个问题,当残差/误差 e i ~ N ( 0 , σ 2 ) e_i~N(0,\sigma^2) eiN(0,σ2),估计未知的 σ 2 \sigma^2 σ2,即我们现在来尝试着估计它.
因为我们知道:
R S S = ∑ i = 1 n ( y i − β ˉ 0 − β ˉ 1 x i ) 2 RSS=\sum_{i=1}^{n}(y_i-\bar\beta_0-\bar\beta_1x_i)^2 RSS=i=1n(yiβˉ0βˉ1xi)2
那么:
R S S σ 2 ~ χ n − 2 2 \frac{RSS}{\sigma^2}~\chi_{n-2}^2 σ2RSSχn22
可能大家会有疑问为什么 R S S σ 2 \frac{RSS}{\sigma^2} σ2RSS服从n-2个自由度的卡方.
首先卡方分布小弟就不带大家回顾了,大家可以上网查,或者看小弟第三章内容里卡方分布(chi-square)和第四章内容里置信区间和总体方差(CI & variance)有关卡方的应用.

证明 R S S σ 2 ~ χ n − 2 2 \frac{RSS}{\sigma^2}~\chi_{n-2}^2 σ2RSSχn22
因为 Y i Y_i Yi是正态随机变量,那么
Y i − E [ Y i ] V [ Y i ] ~ N ( 0 , 1 ) \frac{Y_i-E[Y_i]}{\sqrt{V[Y_i]}}~N(0,1) V[Yi] YiE[Yi]N(0,1)
为标准正态随机变量.
那么根据卡方分布定义,得:
∑ i = 1 n ( Y i − E [ Y i ] ) 2 V [ Y i ] = ∑ i = 1 n ( Y i − β 0 − β 1 x i ) 2 σ 2 ~ χ n 2 \sum_{i=1}^{n}\frac{(Y_i-E[Y_i])^2}{V[Y_i]}=\sum_{i=1}^{n}\frac{(Y_i-\beta_0-\beta_1x_i)^2}{\sigma^2}~\chi_n^2 i=1nV[Yi](YiE[Yi])2=i=1nσ2(Yiβ0β1xi)2χn2

再根据我们上述知道的 β ˉ 0 , β ˉ 1 \bar\beta_0,\bar\beta_1 βˉ0,βˉ1服从的正态分布,得
( β ˉ 1 − β 1 ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) / σ 2 ~ χ 1 2 (\bar\beta_1-\beta_1)^2(\sum_{i=1}^{n}x^2_i-n\bar x^2)/\sigma^2~\chi^2_1 (βˉ1β1)2(i=1nxi2nxˉ2)/σ2χ12
( β ˉ 0 − β 0 ) 2 ( n ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ) / ( σ 2 ∑ i = 1 n x i 2 ) ~ χ 1 2 (\bar\beta_0-\beta_0)^2(n(\sum_{i=1}^{n}x^2_i-n\bar x^2))/(\sigma^2\sum_{i=1}^{n}x^2_i)~\chi^2_1 (βˉ0β0)2(n(i=1nxi2nxˉ2))/(σ2i=1nxi2)χ12
可得:
R S S σ 2 = ∑ i = 1 n ( Y i − β 0 − β 1 x i ) 2 σ 2 − ( β ˉ 1 − β 1 ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) / σ 2 − ( β ˉ 0 − β 0 ) 2 ( n ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ) / ( σ 2 ∑ i = 1 n x i 2 ) ~ χ n 2 − χ 1 2 − χ 1 2 = χ n − 2 2 \frac{RSS}{\sigma^2}=\sum_{i=1}^{n}\frac{(Y_i-\beta_0-\beta_1x_i)^2}{\sigma^2}-(\bar\beta_1-\beta_1)^2(\sum_{i=1}^{n}x^2_i-n\bar x^2)/\sigma^2-(\bar\beta_0-\beta_0)^2(n(\sum_{i=1}^{n}x^2_i-n\bar x^2))/(\sigma^2\sum_{i=1}^{n}x^2_i)~\chi_n^2-\chi_1^2-\chi_1^2=\chi_{n-2}^2 σ2RSS=i=1nσ2(Yiβ0β1xi)2(βˉ1β1)2(i=1nxi2nxˉ2)/σ2(βˉ0β0)2(n(i=1nxi2nxˉ2))/(σ2i=1nxi2)χn2χ12χ12=χn22
是不是很头疼,实不相瞒,小弟看到这公式也想吐,上学期间老师说了个类比的方式(也可以说是一种背诵小技巧),在此也分享给大家有助于大家理解和记忆。
大家是否还记的
∑ ( y i − μ ) 2 σ 2 = ∑ ( y i − y ˉ ) 2 σ 2 + n ( y ˉ − μ ) 2 σ 2 ~ χ n 2 = χ n − 1 2 + χ 1 2 \frac{\sum(y_i-\mu)^2}{\sigma^2}=\frac{\sum(y_i-\bar y)^2}{\sigma^2}+\frac{n(\bar y-\mu)^2}{\sigma^2}~\chi_{n}^2=\chi_{n-1}^2+\chi_{1}^2 σ2(yiμ)2=σ2(yiyˉ)2+σ2n(yˉμ)2χn2=χn12+χ12(具体原因请看小弟第三章内容里卡方分布(chi-square)和第四章内容里置信区间和总体方差(CI & variance)有关卡方的应用.)我们会发现有多少个估计参数,那就在原真参数的公式下减多少个自由度,前提是 y i y_i yi服从正态分布!!!
那么回到 R S S σ 2 \frac{RSS}{\sigma^2} σ2RSS,因为有两个估计参数 β ˉ 0 , β ˉ 1 \bar\beta_0,\bar\beta_1 βˉ0,βˉ1需要减去,那么则需要减去两个自由度即n-2个自由度。对没错,可能有的同学想到了,如果是多元线性回归,我们有p个随机变量对应有p个系数参数( β 1 , . . . , β p \beta_1,..., \beta_p β1,...,βp),那么就要减去p+1个自由度了(因为我们还有个 β 0 \beta_0 β0)即n-p-1个自由度。这个说法有点野路子,但没错过。有点像高考数学填空题记个套路,算的快点。另外有的同学会说如果p>=n呢,那岂不0个或负个自由度??这问题小弟还真没细想过,但一般来说参数的数量p是远远小于数据量(训练数据量)n的。你有见过30000个训练数据量模型有30000个参数么,小弟只有在神经网络上面有见过类似的还没有那么多参数,这还是饱和模型的情况下,因为当参数量过大,模型会饱和预测即对于未知预测表现差,但那恐怕也不是在线性回归模型上吧,况且那里的 y i y_i yi还是个矩阵,跟我们现在讲的 y i y_i yi不是一回事,更不会服从正态分布吧。

现在回归正题,那么:
E [ R S S σ 2 ] = n − 2 E[\frac{RSS}{\sigma^2}]=n-2 E[σ2RSS]=n2
我们也可以写成:
E [ R S S n − 2 ] = σ 2 E[\frac{RSS}{n-2}]=\sigma^2 E[n2RSS]=σ2
我们会发现 R S S n − 2 \frac{RSS}{n-2} n2RSS是无偏估计 σ 2 \sigma^2 σ2

简单线性回归的假设检验和置信区间:
正如第五章所述,假设检验和置信区间已经被统一了,什么意思,就是95%置信区间,以外的在假设检验里面被称为阈值,如果p值大于阈值则原假设成立。

β 1 \beta_1 β1的假设检验和置信区间
很多情况下,我们在做假设检验的时候经常写成:
H 0 : β 1 = 0 , v s H 1 : β 1 ≠ 0 H_0:\beta_1=0, vs H_1:\beta_1≠0 H0:β1=0,vsH1:β1=0
小弟以这个假设检验做例子是因为,大部分得时候我们想判断下是否存在 β 1 \beta_1 β1

那么根据我们先前计算的:
β ˉ 1 ~ N ( β 1 , σ 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ) \bar\beta_1~N(\beta_1,\sigma^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2)) βˉ1N(β1,σ2/(i=1nxi2nxˉ2))
那么:
( β ˉ 1 − β 1 ) / σ 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ~ N ( 0 , 1 ) (\bar\beta_1-\beta_1)/\sqrt{\sigma^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2)}~N(0,1) (βˉ1β1)/σ2/(i=1nxi2nxˉ2) N(0,1)
又因为:
R S S σ 2 ~ χ n − 2 2 \frac{RSS}{\sigma^2}~\chi_{n-2}^2 σ2RSSχn22

我们可得;
( β ˉ 1 − β 1 ) / σ 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) R S S σ 2 ( n − 2 ) ~ t n − 2 \frac{(\bar\beta_1-\beta_1)/\sqrt{\sigma^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}{\sqrt{\frac{RSS}{\sigma^2(n-2)}}}~t_{n-2} σ2(n2)RSS (βˉ1β1)/σ2/(i=1nxi2nxˉ2) tn2
至于为什么为n-2自由度的t分布,请看数据分析模型 第四章,t分布。
我们现在有了对应的分布,那么做假设检验和置信区间便容易多了。

假设原假设成立 β 1 = 0 \beta_1=0 β1=0,那么:
v = ( β ˉ 1 ) / σ 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) R S S σ 2 ( n − 2 ) ~ t n − 2 v=\frac{(\bar\beta_1)/\sqrt{\sigma^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}{\sqrt{\frac{RSS}{\sigma^2(n-2)}}}~t_{n-2} v=σ2(n2)RSS (βˉ1)/σ2/(i=1nxi2nxˉ2) tn2
那么计算p值:
p = 2 P { T n − 2 > v } p=2P\{T_{n-2}>v\} p=2P{Tn2>v}

我们是不是算置信区间也容易了,即:
P { − t α / 2 , n − 2 < ( β ˉ 1 − β 1 ) / σ 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) R S S n − 2 < − t α / 2 , n − 2 } = 1 − α P\{-t_{\alpha/2,n-2}<\frac{(\bar\beta_1-\beta_1)/\sqrt{\sigma^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}{\frac{RSS}{n-2}}<-t_{\alpha/2,n-2}\}=1-\alpha P{tα/2,n2<n2RSS(βˉ1β1)/σ2/(i=1nxi2nxˉ2) <tα/2,n2}=1α
得:
( β ˉ 1 − R S S ( n − 2 ) ( ∑ i = 1 n x i 2 − n x ˉ 2 ) t α / 2 , n − 2 < β 1 < β ˉ 1 + R S S ( n − 2 ) ( ∑ i = 1 n x i 2 − n x ˉ 2 ) t α / 2 , n − 2 ) (\bar\beta_1-\sqrt{\frac{RSS}{(n-2)(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}t_{\alpha/2,n-2}<\beta_1<\bar\beta_1+\sqrt{\frac{RSS}{(n-2)(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}t_{\alpha/2,n-2}) (βˉ1(n2)(i=1nxi2nxˉ2)RSS tα/2,n2<β1<βˉ1+(n2)(i=1nxi2nxˉ2)RSS tα/2,n2)

以上是关于 β 1 \beta_1 β1的假设检验和置信区间,

β 0 \beta_0 β0的假设检验和置信区间
真的大同小异,但小弟知道大家都很懒,所以小弟还是多写几笔。

那么根据我们先前计算的:
β ˉ 0 ~ N ( β 0 , σ 2 ∑ i = 1 n x i 2 n ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ) \bar\beta_0~N(\beta_0,\frac{\sigma^2\sum_{i=1}^{n}x^2_i}{n(\sum_{i=1}^{n}x^2_i-n\bar x^2)}) βˉ0N(β0,n(i=1nxi2nxˉ2)σ2i=1nxi2)
那么:
( β ˉ 0 − β 0 ) / σ 2 ∑ i = 1 n x i 2 n ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ~ N ( 0 , 1 ) (\bar\beta_0-\beta_0)/\sqrt{\frac{\sigma^2\sum_{i=1}^{n}x^2_i}{n(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}~N(0,1) (βˉ0β0)/n(i=1nxi2nxˉ2)σ2i=1nxi2 N(0,1)
又因为:
R S S σ 2 ~ χ n − 2 2 \frac{RSS}{\sigma^2}~\chi_{n-2}^2 σ2RSSχn22
同理与关于上述 β 1 \beta_1 β1的计算我们可得:
n ( n − 2 ) ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ∑ i = 1 n x i 2 R S S ( β ˉ 0 − β 0 ) ~ t n − 2 \sqrt{\frac{n(n-2)(\sum_{i=1}^{n}x^2_i-n\bar x^2)}{\sum_{i=1}^{n}x_i^2 RSS}}(\bar\beta_0-\beta_0)~t_{n-2} i=1nxi2RSSn(n2)(i=1nxi2nxˉ2) (βˉ0β0)tn2
如果是假设检验,我们就假设原假设成立将 β 0 \beta_0 β0具体值带入,然后计算p值
如果是置信区间则:
β ˉ 0 ± ∑ i = 1 n x i 2 R S S ( ∑ i = 1 n x i 2 − n x ˉ 2 ) n ( n − 2 ) t α / 2 , n − 2 \bar\beta_0±\sqrt{\frac{\sum_{i=1}^{n}x_i^2 RSS}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)n(n-2)}}t_{\alpha/2,n-2} βˉ0±(i=1nxi2nxˉ2)n(n2)i=1nxi2RSS tα/2,n2

β 0 + β 1 x 0 \beta_0+\beta_1x_0 β0+β1x0的置信区间
这里的 x 0 x_0 x0是未来的数据,我们要利用置信区间来判断预测值的范围。
我们最早不是利用最小二乘法估计出 β ˉ 0 , β ˉ 1 \bar\beta_0,\bar\beta_1 βˉ0,βˉ1么?即:
β ˉ 1 = 1 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ( ∑ i = 1 n x i Y i − x ˉ ∑ i = 1 n Y i ) \bar\beta_1=\frac{1}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}(\sum_{i=1}^{n}x_iY_i-\bar x\sum_{i=1}^{n}Y_i) βˉ1=(i=1nxi2nxˉ2)1(i=1nxiYixˉi=1nYi)
β ˉ 0 = ∑ i = 1 n Y i n − β ˉ 1 x ˉ \bar \beta_0=\sum_{i=1}^{n}\frac{Y_i}{n}-\bar\beta_1\bar x βˉ0=i=1nnYiβˉ1xˉ
这里的 x ˉ \bar x xˉ为xi均值

那么我可以得到:
β ˉ 0 + β ˉ x 0 = ∑ i = 1 n Y i [ 1 n − 1 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ( x i − x ˉ ) ( x ˉ − x 0 ) ] \bar\beta_0+\bar\beta x_0=\sum_{i=1}^{n}Y_i[\frac{1}{n}-\frac{1}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}(x_i-\bar x)(\bar x-x_0)] βˉ0+βˉx0=i=1nYi[n1(i=1nxi2nxˉ2)1(xixˉ)(xˉx0)]
那么:
V [ β ˉ 0 + β ˉ x 0 ] = ∑ i = 1 n [ 1 n − 1 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ( x i − x ˉ ) ( x ˉ − x 0 ) ] 2 V [ Y i ] V[\bar\beta_0+\bar\beta x_0]=\sum_{i=1}^{n}[\frac{1}{n}-\frac{1}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}(x_i-\bar x)(\bar x-x_0)]^2V[Y_i] V[βˉ0+βˉx0]=i=1n[n1(i=1nxi2nxˉ2)1(xixˉ)(xˉx0)]2V[Yi]
因为 Y i ~ N ( β 0 + β 1 x i , σ 2 ) Y_i~N(\beta_0+\beta_1x_i,\sigma^2) YiN(β0+β1xi,σ2), V [ Y i ] = σ 2 V[Y_i]=\sigma^2 V[Yi]=σ2

那么化简后:
V [ β ˉ 0 + β ˉ x 0 ] = σ 2 [ 1 n + ( x ˉ − x 0 ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ] V[\bar\beta_0+\bar\beta x_0]=\sigma^2[\frac{1}{n}+\frac{(\bar x-x_0)^2}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}] V[βˉ0+βˉx0]=σ2[n1+(i=1nxi2nxˉ2)(xˉx0)2]

接下来我们又要做同样操作了:
β ˉ 0 + β ˉ 1 x 0 ~ N ( β 0 + β 1 x 0 , V [ β ˉ 0 + β ˉ x 0 ] = σ 2 [ 1 n + ( x ˉ − x 0 ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ] ) \bar\beta_0+\bar\beta_1 x_0~N(\beta_0+\beta_1 x_0,V[\bar\beta_0+\bar\beta x_0]=\sigma^2[\frac{1}{n}+\frac{(\bar x-x_0)^2}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}]) βˉ0+βˉ1x0N(β0+β1x0,V[βˉ0+βˉx0]=σ2[n1+(i=1nxi2nxˉ2)(xˉx0)2])

又因为:
R S S σ 2 ~ χ n − 2 2 \frac{RSS}{\sigma^2}~\chi_{n-2}^2 σ2RSSχn22

那么:
[ β ˉ 0 + β ˉ 1 x 0 − ( β 0 + β 1 x 0 ) ] / [ 1 n + ( x ˉ − x 0 ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) R S S n − 2 ] ~ t n − 2 [{\bar\beta_0+\bar\beta_1 x_0-(\beta_0+\beta_1 x_0)]/}[{\sqrt{\frac{1}{n}+\frac{(\bar x-x_0)^2}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}\sqrt{\frac{RSS}{n-2}}}]~t_{n-2} [βˉ0+βˉ1x0(β0+β1x0)]/[n1+(i=1nxi2nxˉ2)(xˉx0)2 n2RSS ]tn2
小弟相信大家明白为什么服从n-2自由度的t分布!!
那么我便得到了 β 0 + β 1 x 0 \beta_0+\beta_1x_0 β0+β1x0的置信区间,即:
β ˉ 0 + β ˉ 1 x 0 ± 1 n + ( x ˉ − x 0 ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) R S S n − 2 t α / 2 , n − 2 \bar\beta_0+\bar\beta_1 x_0±\sqrt{\frac{1}{n}+\frac{(\bar x-x_0)^2}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}\sqrt{\frac{RSS}{n-2}}t_{\alpha/2,n-2} βˉ0+βˉ1x0±n1+(i=1nxi2nxˉ2)(xˉx0)2 n2RSS tα/2,n2

但是有的同学会问,虽然我们利用最小二乘法估计,计算 m i n { R S S } min\{RSS\} min{RSS},但怎么着也不可能RSS=0,也就是说在怎么模型的拟合度高,也会有误差 ε \varepsilon ε。对,没错,我们一般会用 Y ( x 0 ) = β 0 + β 1 x 0 + ε Y(x_0)=\beta_0+\beta_1 x_0+\varepsilon Y(x0)=β0+β1x0+ε来计算基于未来数据的预测的置信区间

Y ( x 0 ) = β 0 + β 1 x 0 + ε Y(x_0)=\beta_0+\beta_1 x_0+\varepsilon Y(x0)=β0+β1x0+ε来计算基于未来数据的预测的置信区间

因为:
Y = Y ( x 0 ) ~ N ( β 0 + β 1 x 0 , σ 2 ) Y=Y(x_0)~N(\beta_0+\beta_1 x_0,\sigma^2) Y=Y(x0)N(β0+β1x0,σ2)
又因为:
β ˉ 0 + β ˉ 1 x 0 ~ N ( β 0 + β 1 x 0 , V [ β ˉ 0 + β ˉ x 0 ] = σ 2 [ 1 n + ( x ˉ − x 0 ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ] ) \bar\beta_0+\bar\beta_1 x_0~N(\beta_0+\beta_1 x_0,V[\bar\beta_0+\bar\beta x_0]=\sigma^2[\frac{1}{n}+\frac{(\bar x-x_0)^2}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}]) βˉ0+βˉ1x0N(β0+β1x0,V[βˉ0+βˉx0]=σ2[n1+(i=1nxi2nxˉ2)(xˉx0)2])

所以:
Y − β ˉ 0 − β ˉ 1 x 0 ~ N ( 0 , σ 2 [ 1 + 1 n + ( x ˉ − x 0 ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ] ) Y-\bar\beta_0-\bar\beta_1 x_0~N(0,\sigma^2[1+\frac{1}{n}+\frac{(\bar x-x_0)^2}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}]) Yβˉ0βˉ1x0N(0,σ2[1+n1+(i=1nxi2nxˉ2)(xˉx0)2])
即:
Y − β ˉ 0 − β ˉ 1 x 0 σ n + 1 n + ( x 0 − x ˉ ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) ~ N ( 0 , 1 ) \frac{Y-\bar\beta_0-\bar\beta_1 x_0}{\sigma\sqrt{\frac{n+1}{n}+\frac{(x_0-\bar x)^2}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}}~N(0,1) σnn+1+(i=1nxi2nxˉ2)(x0xˉ)2 Yβˉ0βˉ1x0N(0,1)

又来了,同样的操作:
R S S σ 2 ~ χ n − 2 2 \frac{RSS}{\sigma^2}~\chi_{n-2}^2 σ2RSSχn22
那么:
( Y − β ˉ 0 − β ˉ 1 x 0 ) / [ n + 1 n + ( x 0 − x ˉ ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) R S S n − 2 ] ~ t n − 2 ({Y-\bar\beta_0-\bar\beta_1 x_0})/{[\sqrt{\frac{n+1}{n}+\frac{(x_0-\bar x)^2}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}} \sqrt{\frac{RSS}{n-2}}}]~t_{n-2} (Yβˉ0βˉ1x0)/[nn+1+(i=1nxi2nxˉ2)(x0xˉ)2 n2RSS ]tn2

置信区间:
β ˉ 0 + β ˉ 1 x 0 ± n + 1 n + ( x 0 − x ˉ ) 2 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) R S S n − 2 t α / 2 , n − 2 \bar\beta_0+\bar\beta_1 x_0±{\sqrt{\frac{n+1}{n}+\frac{(x_0-\bar x)^2}{(\sum_{i=1}^{n}x^2_i-n\bar x^2)}} \sqrt{\frac{RSS}{n-2}}}t_{\alpha/2,n-2} βˉ0+βˉ1x0±nn+1+(i=1nxi2nxˉ2)(x0xˉ)2 n2RSS tα/2,n2

我知道,看到这,如果大家没发现小弟上述的推导有一定的规律的话,可能大家会觉得世界很沧桑,为什么要学数学。

真的它不难,只是繁琐,上述所有推导的本质都来源于线性回归和正态分布的结合即 Y i ~ N ( β 0 + β 1 x i , σ 2 ) Y_i~N(\beta_0+\beta_1x_i,\sigma^2) YiN(β0+β1xi,σ2),和我们对于估计 σ 2 \sigma^2 σ2时,得到的 R S S σ 2 ~ χ n − 2 2 \frac{RSS}{\sigma^2}~\chi_{n-2}^2 σ2RSSχn22,从而找到对应得分布,又因为置信区间和假设检验已经被前人统一,那么无论是计算置信区间和p值均很容易。
小弟在此写个汇总给大家吧。

简单线性模型和分布的汇总
模型: Y = β 0 + β 1 x + e Y=\beta_0+\beta_1x+e Y=β0+β1x+e, e ~ N ( 0 , σ 2 ) e~N(0,\sigma^2) eN(0,σ2)
数据(x_i,Y_i), i=1,2,3,…,n

关于谁的推论涉及的分布
β 1 \beta_1 β1 ( β ˉ 1 − β 1 ) / σ 2 / ( ∑ i = 1 n x i 2 − n x ˉ 2 ) R S S σ 2 ( n − 2 ) ~ t n − 2 \frac{(\bar\beta_1-\beta_1)/\sqrt{\sigma^2/(\sum_{i=1}^{n}x^2_i-n\bar x^2)}}{\sqrt{\frac{RSS}{\sigma^2(n-2)}}}~t_{n-2} σ2(n2)RSS (βˉ1β