线性回归（Linear Regression）_线性回归 w b 闭式解-CSDN博客

本文链接：https://blog.csdn.net/wuzqchom/article/details/57079837

标签（空格分隔）：机器学习

此为笔者在学习过程中的读书笔记，文章主要关于机器学习模型的知识与一些个人感受，不妥之处，请予指正。

文章目录

1. 从一个特征开始

对于银行贷款问题，假如我们要根据顾客的一些属性得到是否可以贷款给顾客，那么二分类问题就可以得到解决。但是试想，如果银行到底应该贷款多少钱给顾客（比如支付宝的蚂蚁花呗）？这个就需要算法的输出的是一个实数值而不是"+1"和"-1"这样的label。

那么银行如何知道一个顾客的贷款额度是多少呢？一个可行的方案就是根据顾客的一些特征（年龄，工资，固定资产等）。我们假设顾客所有的特征集合 $X=(x_{1},x_{2},\cdots,x_{d})$ 。但是这些特征还应该有主次之分，比如工资的权重应该比年龄更大。于是我们设特征的权重 $W=(w_{1},w_{2},\cdots,x_{d})$ 。但是我们还是希望可以有一些波动，即偏置 $b$ 。在 $d = 1$ 的时候有：
$h(x_{i})=wx_{i}+b$
并且使得 $h(x_{i})$ 尽量接近于真实值 $y_{i}$ 。上述的公式和PLA算法很像，但是没有带符号函数。

2. 学习

有了上述学习目标之后，接下来面临着一个问题：如何知道学出来的 $h(x_{i})$ (或者 $w$ 和 $b$ )好坏？记得刚说过要使得 $h(x_{i})$ 尽量接近于真实值 $y_{i}$ ， $y_{i}$ 是真实值（怎么来的？所以我们需训练数据啊！）。注意这里的目标是使得 $h(x_{i})$ 尽量接近于真实值 $y_{i}$ ,但是这个可能会导致过拟合的问题，但在这里我们暂且不考虑。关于如何防止过拟合问题也是一门艺术，有机会再来探讨。

回到正题，要使 $h(x_{i})$ 尽量接近于真实值 $y_{i}$ ，只要找到一个损失函数即可，一般线性回归用的是平方误差： $err(\widehat{y},y)=(\widehat{y}-y)^2$ 。即：

$(w^*,b^*)=argmin_{(w,b)}\sum_{n=1}^{N}(h(x_i)-y_i)^2$ ,
$w^*$ , $b^*$ 表示最优解， $N$ 代表训练集中的样本个数。
接下来如何使得上述式子最小化的问题了，即线性回归模型的参数估计(周志华《机器学习》P54)。可以分别对于 $w$ 和 $b$ 求导得到：
$\frac{\partial{err}}{\partial{w}}=2(w\sum\limits_{i=1}^{N}x_{i}^2-\sum\limits_{i=1}^N(y_{i}-b)x_{i})$
$\frac{\partial{err}}{\partial{b}}=2(Nb-\sum\limits_{i=1}^{N}(y_{i}-wx_{i}))$
于是我们就可以得到 $w$ 和 $b$ 的闭式解：
$w=\frac{\sum\limits_{i=1}^{N}y_i(x_i-\bar{x})}{\sum\limits_{i=1}^Nx_i^2-\frac{1}{N}(\sum\limits_{i=1}^Nx_i)^2}$
$b=\frac{1}{N}\sum\limits_{i=1}^N(y_i-wx_i)$

3. 更多的特征

有了之前一维特征的铺垫，那么多维特征就相对简单了，即将一维的变量换成高维的向量。现在假设我们的特征数 $d > 1$ ，此时我们试图学习： $h(x_{i})=w^Tx_{i}+b$ ，将 $b$ 看成 $w_0$ 有：
$h(x_{i})=w^Tx_{i}$
由前可知我们的目标为：
minimize $E_{in}(w)=\frac{1}{N}\sum\limits_{n=1}^{N}(w^Tx_n-y_n)^2=\frac{1}{N}||Xw-y||^2$
其中 $y$ 为 $N\times1$ 的向量。

对 $w$ 求导，可以得到 $\frac{\partial{err}}{\partial{w}}=\frac{2}{N}(X^TXw-X^Ty)$
令上式为零，则可以得到最优解：
$\hat{w}=(X^TX)^{-1}X^Ty$

注意：
上式的求逆过程必须满足 $X^TX$ 为满秩矩阵或正定矩阵，即为可逆矩阵。

使用上述式子就可以求得最佳的 $w$ ，似乎是一步登天的感觉，我们称这样的解为Analytic Solution。

4. 不止于线性问题

线性回归本质上还是线性的问题，但是假如特征 $x$ 更复杂一点呢？比如可以加一个线性变换 $\phi(x)$ 使其能够解决更加复杂的问题，此时的形式就为 $h(x_{i})=w^T\phi(x_{i})$ ，这个实际上是结构化学习中三大问题之一的Evaluation问题。关于这部分的内容，有时间再写一个相关的帖子吧…