机器学习基石---Linear Regression

最新推荐文章于 2023-04-17 17:10:36 发布

维格堂406小队

最新推荐文章于 2023-04-17 17:10:36 发布

阅读量360

点赞数

分类专栏： ★★★机器学习 # ★★台大机器学习

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79261273

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★台大机器学习

13 篇文章 0 订阅

订阅专栏

knitr::opts_chunk$set(echo = TRUE)

前面都是在讲泛化的问题，现在开始讲算法相关。我之前看李航的书大都是怎么构建损失函数以及如何优化损失函数，也没想过泛化的问题。至于线性回归，统计学里讲的比较取巧，先假定存在线性关系，受误差项影响产生一些波动。书归正传，按照Week9的顺序，权当复习。

符号标记

${\rm{x = }}{\left( {{x_0},{x_1},{x_2}, \cdots ,{x_d}} \right)^T}$ ：样本特征，其中 $x_0$ 为常数项，其余为用户特征
$\rm{y}$ ：目标变量，连续型数值变量
${\rm{w}} = {\left( {{w_0},{w_1},{w_2}, \cdots ,{w_d}} \right)^T}$ ：系数向量

线性回归算法

Hypothesis如下：

h (x) = w T X

$h\left( x \right) = {{\rm{w}}^T}X$
线性回归算法的目标就是找到最合适的

w w $\rm{w}$ ，使得训练集误差(

Ein E i n $E_{in}$ )最小。而衡量误差的方式为：

E i n (h) = 1 N \sum n = 1 N (h (x n) - y n) 2

${E_{in}}\left( h \right) = \frac{1}{N}\sum\limits_{n = 1}^N {{{\left( {h\left( {{{\rm{x}}_n}} \right) - {{\rm{y}}_n}} \right)}^2}}$
矩阵表示：

这里写图片描述

矩阵 $X$ 共计 $N$ 行，每一行代表一个样本，每个样本 $d+1$ 个维度。
对于这类线性回归问题，损失函数一般是凸函数。凸函数证明：

\partial f \partial w = 2 N (X T X w - X T y) \partial 2 f \partial w 2 = 2 N X T X

$\begin{array}{l} \frac{{\partial f}}{{\partial {\rm{w}}}} = \frac{2}{N}\left( {{X^T}X{\rm{w}} - {X^T}{\rm{y}}} \right)\\ \frac{{{\partial ^2}f}}{{\partial {{\rm{w}}^2}}} = \frac{2}{N}{X^T}X \end{array}$
易知Hessian Matrix为半正定，所以损失函数是凸函数。此时只要令一阶导为0，求出对应的

w w $\rm{w}$ 即可。

2 N (X T X w - X T y) = 0 X T X w = X T y w L I N = (X T X) - 1 X T y

$\begin{array}{l} \frac{2}{N}\left( {{X^T}X{\rm{w}} - {X^T}{\rm{y}}} \right) = 0\\ {X^T}X{\rm{w = }}{X^T}{\rm{y}}\\ {{\rm{w}}_{LIN}} = {\left( {{X^T}X} \right)^{ - 1}}{X^T}{\rm{y}} \end{array}$
其中

(XTX)−1XT ( X T X ) − 1 X T ${\left( {{X^T}X} \right)^{ - 1}}{X^T}$ 又称伪逆矩阵，记为

X+ X + ${{\rm{X}}^ + }$ 。

XTX X T X ${{X^T}X}$ 的逆矩阵不一定存在，软件总能求出一个替代矩阵。这样我们可以找一个

w w $\rm{w}$ 使得损失函数最小。

泛化问题

又是比较难的部分，线性回归能保证 $E_{in} \approx E_{out}$ 吗？没大看懂，尝试着叙述一下。变换 $E_{in}$ 个形式：

这里写图片描述

用 $W_{LIN}$ 预测时，可以得到预测值 ${\rm{\hat y}} = X{{\rm{w}}_{LIN}} = X{\left( {{X^T}X} \right)^{ - 1}}{X^T}{\rm{y}}$ ，称 $X{\left( {{X^T}X} \right)^{ - 1}}{X^T}$ 为Hat Matrix。
而Hat Matrix的物理意义如下：

这里写图片描述

Hat Matrix相当于对 $\rm{y}$ 做往 $\rm{X}$ 张成的线性空间span投影的操作。那么 ${I - X{X^ + }$ 则是向span垂直方向投影。从几何上讲我们希望找到最短的 ${\rm{y}} - {\rm{\hat y}}$ ，显然向量垂直这个线性空间时，满足要求。(三维的时候容易理解，试验设计教材上的比较清楚)。
考虑noise存在的情况： $y=f(X)+noise$ ，此时 $E_{in}$ 为：

E i n (w L I N) = 1 N ∥ y - X X + y ∥ 2 = 1 N ∥ (I - X X +) y ∥ 2 = 1 N ∥ (I - X X +) f (X) + (I - X X +) n o i s e ∥ 2

$\begin{array}{l} {{\rm{E}}_{in}}\left( {{{\rm{w}}_{LIN}}} \right) = \frac{1}{N}{\left\| {y - X{X^ + }y} \right\|^2}\\ = \frac{1}{N}{\left\| {\left( {I - X{X^ + }} \right)y} \right\|^2}\\ = \frac{1}{N}{\left\| {\left( {I - X{X^ + }} \right)f(X) + \left( {I - X{X^ + }} \right)noise} \right\|^2} \end{array}$

因为 $f(X)$ 在 $X$ 张成的空间上，所以 ${\left( {I - X{X^ + }} \right)f(X)}$ 为0。进一步：

E i n (w L I N) = 1 N ∥ (I - X X +) n o i s e ∥ 2 = 1 N t r a c e (I - X X +) ∥ n o i s e ∥ 2 = 1 N (N - (d + 1)) ∥ n o i s e ∥ 2

$\begin{array}{l} {{\rm{E}}_{in}}\left( {{{\rm{w}}_{LIN}}} \right) = \frac{1}{N}{\left\| {\left( {I - X{X^ + }} \right)noise} \right\|^2}\\ = \frac{1}{N}trace\left( {I - X{X^ + }} \right){\left\| {noise} \right\|^2}\\ = \frac{1}{N}\left( {N - \left( {d + 1} \right)} \right){\left\| {noise} \right\|^2} \end{array}$

推导过程并不懂，noise应该是一个矩阵，每个样本都会有一个随机扰动noise存在。Mr林并没有讲的很细致，就平均而言

E ¯ i n = n o i s e l e v e l * (1 + d + 1 N) E ¯ o u t = n o i s e l e v e l * (1 - d + 1 N)

$\begin{array}{l} {{\bar E}_{in}} = noise\;level * \left( {1 + \frac{{d + 1}}{N}} \right)\\ {{\bar E}_{out}} = noise\;level * \left( {1 - \frac{{d + 1}}{N}} \right) \end{array}$

noise level也不知道什么意思，有的资料上貌似指的是误差项的协方差矩阵。

这里写图片描述
$E_{in}$ 和 $E_{out}$ 都向 ${\sigma ^2}$ (noise level)收敛，他们之间的差异被 $\frac{{2\left( {d + 1} \right)}}{N}$ bound住。所以这时候说明 $N$ 够大时， $E_{in} \approx E_{out}$ 。