😕😕😕今天小结一下多元统计里面最简单的线性回归
参考书籍:
概率论与数理统计(第二版)茆诗松
多元统计分析及R语言建模(第五版)王斌会
线性回归是用来确定两种或两种以上变量的相互依赖关系以达到预测的一种统计方法。先回顾一下一元线性回归,再看看多元线性回归😊
🙈一元线性回归模型
- x与y均为随机变量
设y与x之间有相关关系,称x为自变量(预报变量),y为因变量(响应变量)。在知道x的取值后,y的取值并不是确定的,它是一个随机变量,因此有一个分布,这个分布是在知道x的取值后Y的条件密度函数 p ( y ∣ x ) p(y|x) p(y∣x),我们关心的是就的均值 E ( Y ∣ x ) E(Y|x) E(Y∣x),他是x的函数,这个函数是确定性的
f ( x ) = E ( Y ∣ x ) = ∫ − ∞ ∞ y p ( y ∣ x ) d y f(x)=E(Y|x)=\int_{-\infty}^{\infty}yp(y|x)dy f(x)=E(Y∣x)=∫−∞∞yp(y∣x)dy
这便是y关于x的回归函数—条件期望。
- 自变量x是可控变量,只有y是随机变量
它们之间的相关关系:
y = f ( x ) + ε y=f(x)+\varepsilon y=f(x)+ε
其中 ϵ \epsilon ϵ是随机误差,一般假设 ϵ − N ( 0 , δ 2 ) \epsilon-N(0,\delta^2) ϵ−N(0,δ2)
既然说到线性,那它的图像是直线才符合吧。上面这个相关关系的数据结构可以表示成
y = β 0 + β 1 x + ε y=\beta_0+\beta_1x+\varepsilon y=β0+β1x+ε
其中 β ‘ \beta_` β‘是直线的斜率,表示 x x x每增加一个单位, E ( y ) E(y) E(y)的增加量; ϵ \epsilon ϵ是随机误差,通常假定 E ( ϵ ) = 0 , V a r ( ϵ ) = δ 2 E(\epsilon)=0,Var(\epsilon)=\delta^2 E(ϵ)=0,Var(ϵ)=δ2;在对未知区间作区间估计或假设检验时,还需要假定误差服从正态分布,即 y − N ( β 0 + β 1 x , δ 2 ) y-N(\beta_0+\beta_1x,\delta^2) y−N(β0+β1x,δ2)
把未知参数 β 0 , β 1 \beta_0,\beta_1 β0,β1解出来得到估计 β ^ 0 , β ^ 1 \widehat{\beta}_0,\widehat{\beta}_1 β
0,β
1,回归方程:
y ^ = β ^ 0 + β ^ 1 x \widehat{y}=\widehat{\beta}_0+\widehat{\beta}_1x y
=β
0+β
1x
那么用啥子方法来求这两参数呢?往下瞅😁😁
🙉回归系数的最小二乘估计
这是一个直线方程,那么通过两点坐标求斜率在这肯定是行不通的,这很明显与我们解决这个问题的本意不合。首先需要作线性回分析的数据一般不会很少吧。我们作的这条直线至少要体现这些数据点的相关性以及简单预测的作用。既然能预测那肯定是希望越准越好。如何更加准确呢?我们做出的这条线至少与已知的所有数据点误差尽可能小。即
Q ( β 0 , β 1 ) = ∑ i = 1 n ( y i − y i ^ ) 2 Q ( β ^ 0 , β ^ 1 ) = m i n Q ( β 0 , β 1 ) Q(\beta_0,\beta_1)=\sum_{i=1}^{n}(y_i-\widehat{y_i})^2 \\ Q(\widehat{\beta}_0,\widehat{\beta}_1)=minQ(\beta_0,\beta_1) Q(β0,β1)=i=1∑n(yi−yi
)2Q(β
0,β
1)=minQ(β0,β1)
叫做 β 0 , β 1 \beta_0,\beta_1 β0,β1的最小二乘估计。
因为 Q ⩾ 0 Q\geqslant0 Q⩾0,对 β 0 , β 1 \beta_0,\beta_1 β0,β1的导数也存在。通过求偏导并且令其为0
{ ∂ Q ∂ β 0 = − 2 ∑ i = 1 n ( y i − β 0 − β 1 x i ) = 0 ∂ Q ∂ β 1 = − 2 ∑ i = 1 n ( y i − β 0 − β 1 x i ) x i = 0 \left\{ \begin{array}{c} \frac{\partial Q}{\partial \beta_0}=-2\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)=0\\ \frac{\partial Q}{\partial \beta_1}=-2\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)x_i=0 \end{array} \right. {
∂β0∂Q=−2∑i=1n(yi−β0−β1xi)=0∂β1∂Q=−2∑i=1n(yi−β0−β1xi)xi=0
解出来
{ β ^ 1 = ( ∑ x i y i − 1 n ∑ x i ∑ y i ) / ( ∑ x i 2 − 1 n ( ∑ x i ) 2 ) β ^ 0 = y ‾ − β ^ 1 x ‾ \begin{cases} \widehat{\beta}_1=(\sum x_iy_i-\frac{1}{n}\sum x_i\sum y_i)/(\sum x_i^2-\frac{1}{n}(\sum x_i)^2)\\ \widehat{\beta}_0=\overline{y}-\widehat{\beta}_1\overline{x} \end{cases} {
β
1=(∑xiyi−n1∑xi∑yi)/(∑xi2−n1(∑xi)2)β
0=y−β
1x
🙊曲线拟合的最小二乘法
寻找离散数据点的逼近函数 S ∗ ( x ) S^*(x) S∗(x),不要求 S ∗ ( x ) S^*(x) S∗(x)通过所有已知的离散数据点,只要求 S ∗ ( x ) S^*(x) S∗(x)是某已知函数类 H H H的一个函数,并在某种误差标准下, S ∗ ( x ) S^*(x) S∗(x)相对于 H H H中其他函数达到最优。
∑ i = 1 m [ y i − S ∗ ( x i ) ] 2 = min ∀ S ( x ) ϵ H ∑ i = 1 m [ y i − S ( x i ) ] 2 \sum_{i=1}^{m} [y_i-S^{*}(x_i)]^2 = \min_{\forall S(x)\epsilon H}\sum_{i=1}^{m}[y_i-S(x_i)]^2 i=1∑m[yi−S∗(xi)]2=∀S(x)ϵHmini=1∑m[yi−S(xi)]2
称 S ∗ ( x ) S^*(x) S∗(x)是函数类 H H H关于数据点的最小二乘拟合函数,曲线 y = S ∗ ( x ) y=S^*(x) y=S∗(x)是最小二乘拟合曲线。
记
ϕ ( a 0 , a 1 , . . . , a n ) = ∑ i = 1 m [ y i − S ( x i ) ] 2 = ∑ i = 1 m [ y i − ∑ i = 1 m a j φ j ( x j ) ] 2 \phi(a_0,a_1,...,a_n)=\sum_{i=1}^{m}[y_i-S(x_i)]^2=\sum_{i=1}^{m}[y_i-\sum_{i=1}^{m}a_j\varphi_j(x_j)]^2 ϕ(a0,a1,...,an)=i=1∑m[yi−S(xi)]2=i=1∑m[yi−i=1∑majφj(x