回归问题再梳理

最新推荐文章于 2024-05-24 12:00:00 发布

白桃K

最新推荐文章于 2024-05-24 12:00:00 发布

阅读量647

点赞数

分类专栏：机器学习查缺补漏学习法文章标签：梯度下降机器学习深度学习回归

本文链接：https://blog.csdn.net/zxl55/article/details/101036278

版权

机器学习查缺补漏学习法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基础

回归问题有哪些实际应用

股价预测
无人车（如：方向盘的角度）
推荐系统（如：用户A购买商品B的概率）

如何求解回归问题

构建模型
假定模型的构建基于线性函数f： $y = b + w x$
将收集到的n个数据（每个数据已知 $x, y$ ）分别代入f中，形成model集
用lost function( $L (w, b)$ ) 衡量每一个model的好坏，通过最小化 $L (w, b)$ 找到“最好”的model，也就是“最佳”参数 $w^*, b^*$
如何最小化 $L (w, b)$ ？ -> 利用gradient decent（梯度下降）

梯度下降的具体过程描述如下：
1）随机初始化 $w_0$
2）计算 $L (w, b)$ 在点 $w_0, b_0$ 的偏微分 $\frac{dL}{dw} |_{w=w_0,b=b_0}, \frac{dL}{db} |_{w=w_0,b=b_0}$ (即，梯度方向)
3）更新参数值 $w_1 = w_0 - \eta\frac{dL}{dw} |_{w=w_0,b=b_0}, b_1 = b_0 - \eta\frac{dL}{db} |_{w=w_0,b=b_0}$ ，其中 $\eta$ 是“learning rate”用于控制更新的幅度，减号是因为我们要最小化函数值，即取梯度的反方向
4）循环执行第3步，逐步更新参数值，直到参数无变化。

tips：
1）gradient decent的使用条件是损失函数L可微分
2）gradient 用此符号表示： $\bigtriangledown L = \begin{bmatrix} \frac{\partial L}{\partial w}\\ \frac{\partial L}{\partial b} \end{bmatrix}_{gradient}$
3）在线性回归中没有local optimal，因为在线性回归中loss function是convex(凸)的
4）计算 $\frac{\partial L}{\partial w}, \frac{\partial L}{\partial d}$ :
若： $L(w,b)=\sum_{n=1}^{10}(\hat{y}^{n}-(b+w\cdot x_{cp}^{n})^2$
则： $\frac{\partial L}{\partial w} = 2\sum_{n=1}^{10}(\hat{y}^{n}-(b+w\cdot x_{cp}^{n})(-x_{cp}^{n})$ ； $\frac{\partial L}{\partial b} = 2\sum_{n=1}^{10}(\hat{y}^{n}-(b+w\cdot x_{cp}^{n})(-1)$

如何解决过拟合问题

什么是过拟合
过拟合是指随着模型的复杂度越来越高，训练集上的error越来越小，但在测试集上的error存在先减后增的趋势。
如何解决？ => 利用正则化（regularization）
若： $\sum w_ix_i$
将loss function重写为： $L=\sum_{n}(\hat{y}^{n}-(b+\sum w_ix_{i})^2 + \lambda \sum(w_i)^2$

上式中尾项 $\lambda \sum(w_i)^2$ 为正则化项，是所有参数的平方和乘以一个常数项 $\lambda$ 。根据上式，最小化 $L$ 时，除了最小化error(第一项)之外，同时也期待参数的值越接近0，即找到的参数越小越好。因为，参数值越接近0，得到的function越平滑。

tips：
在做正则化时，是不需要考虑bias的。因为我们正则化的目的是希望找到更加平滑的funciton，但是调整bias跟平滑程度没有关系，调整bias的值只是把funcion上下移动。
为什么平滑的函数好？
因为，对于平滑函数来说，输出对于输入数据的变化比较不敏感。若输入数据中存在噪声，一个平滑的函数能受到更小的影响，从而得到一个较好的结果。
$\lambda$ 越来越大训练误差和测试误差会有怎样的变化？
[图片来源：李宏毅深度学习P1]

上图是李宏毅老师课上展示的一个示例结果，从图中可以看到：
1）训练误差随着 $\lambda$ 的增大逐步增大
分析原因： $\lambda$ 越大，我们约倾向于考虑 $w$ 本来的值，减少考虑error，即 $\lambda$ 越大时考虑error越少，在training data上的error就越大。

2）测试误差随着 $\lambda$ 的增大先减小后增大
分析原因： $\lambda$ 越大，在最小化的前提下， $w$ 就越小，整个函数就越平滑。因此，随着 $\lambda$ 增大，函数越来越平滑，抗噪能力越来越强，但当 $\lambda$ 增大到一定程度，即函数过于平滑，整体效果反而会下降。

进阶

梯度下降小技巧

可视化learning rate与loss的关系图（可以指导learning rate的调整）
自动调整learning rate
1） $w^{t+1}\leftarrow w^t-\eta ^tg^t$ ，其中 $g^t=\frac{\partial L(\theta^t)}{\partial w}, \eta^t=\frac{\eta}{\sqrt{t+1}}$ ， $t$ 为迭代次数。迭代次数越多，leanring rate越小

2）不同的参数给不同的leanring rate => Adagrad
$w^{t+1}\leftarrow w^t-\frac{\eta ^t}{\sigma ^t}g^t$ ，其中 $\sigma ^t$ 是过去所有该参数微分值的均方根 $\sigma ^t=\sqrt{\frac{1}{t+1}\sum_{i=0}^{t}(g^i)^2}$ (推导过程如下图所示)，这个值对于每个参数而言都是不一样的，因此通过此式更新的每个参数learning rate都是不一样的。

[图片来源：李宏毅深度学习P2]
化简:
随机梯度下降(Stochastic Gradient Descent)
一般的梯度下降中loss function定义为所有训练样本的loss和： $L=\sum_n \left( \hat{y}^n - \left(b+\sum w_ix_i^n\right)\right)$
随机梯度下降则选择一个样本 $x^n$ ，每次仅根据这一个样本的loss值更新参数： $L^n= (\hat{y}^n - \left(b+\sum w_ix_i^n\right))^2$
特征缩放（feature scaling）
做法：通过缩放特征值使得特征的取值范围相同
目的：平衡不同特征之间因为取值的量级差别对loss funciton带来的影响
原因：若不同特征的取值存在量级的差距（如： $x_1=1,2,3,...10; x_2=100,200,300,...1000$ ）使得在梯度下降的迭代过程中， $w_2$ 的变化对loss的影响明显大过于 $w_1$ 的变化带来的影响，如下图所示（呈现出椭圆形）。

在将特征缩放至同一范围内之后 $w_1$ 和 $w_2$ 的变化对loss的影响则如下图所示（接近正圆）：

在两种情况下参数迭代更新的轨迹如下图所示，因为每次更新始终向着梯度的反方向，指导更新的原则并不是“向着起始点与最低点的连线方向更新”，但我们知道正圆上任一点梯度的反方向都是向着圆心的，也就是我们追求的最低点。因此对于进行了特征缩放的正圆关系在做参数更新时更有效率，而呈现长椭形关系的数据则需要类似上面提到的Adagrad方法，为不同的特征提供不同的learning rate才会呈现较好结果。
梯度下降为何有效之数学原理—泰勒级数
如果函数 $h (x)$ 在 $x=x_0$ 处无穷阶可导的话，则存在泰勒级数：
$h(x)=\sum_{k=0}^{\infty } \frac{h^{(k)}(x_0)}{k!}(x-x_0)^k=h(x_0)+h'(x_0)(x-x_0)+\frac{h''(x_0)}{2!}(x-x_0)^2+...$

当 $x$ 趋近于 $x_0$ ， $x-x_0)$ 远大于 $x-x_0)^2, (x-x_0)^3,...$

所以此式可以写成： $\approx h(x_0)+h'(x_0)(x-x_0)$

当 $x, y$ 趋近于 $x_0,y_0$ ，多元函数的泰勒级数则可以写成： $\approx h(x_0,y_0)+\frac{\partial h(x_0,y_0)}{\partial x}(x-x_0)-\frac{\partial h(x_0,y_0)}{\partial y}(y-y_0)$

若将以上多元函数的泰勒级数应用于梯度下降的解释中：
如下图右下角图例所示，在梯度下降过程中参数的更新是以初始点(a,b)为圆心的圆形范围内顺着梯度的反方向从圆心(a,b)移动到圆圈范围内一点，并如此反复的过程。

当红圈足够小，在红色圆圈范围内loss function的泰勒级数可表示为下图红框中的式子，用蓝框中的标记符替换式中的常数项后，可简化得到灰框中的式子：

令： $\Delta \theta_1=\theta_1-a, \Delta \theta_2=\theta_2-b$ ，同时，在寻找 $\theta$ 使 $L(\theta)$ 最小化的过程中 $s$ 与 $\theta$ 无关可忽略，则 $L(\theta) \approx s+u(\theta_1-a)+\nu(\theta_2-b)$ 可化简为：
由于是在红色圆圈范围内进行参数更新，因此有：
$\Delta \theta_1^2+\Delta \theta_2^2\leq d^2$ 因此，在忽略 $s$ 的前提下， $L(\theta)$ 可以看成是圆中两个向量 $(\Delta \theta_1,\Delta \theta_2), (u,\nu)$ 点乘的结果：

我们的任务是在已知向量 $(u,\nu)$ 的前提下最小化 $L(\theta)$ ，则 $(\Delta \theta_1,\Delta \theta_2)$ 应取 $(u,\nu)$ 反方向上位于圆上的一点：

可以写成：

式中的 $\eta$ 用于调整向量的长度使其落在圆上。

把 $u,\nu$ 代回式子中，可以得到梯度下降过程中参数的计算公式：

利用泰勒级数去解释梯度下降的过程，有一个前提：红圈足够小。已知 $\eta$ 与红圈半径是成正比的，因此，learning rate 不能大，得趋于无穷小才能使得loss越来越小，但在实际操作过程中learning rate设定为无穷小是不现实的，但此理论给了一个重要的指导：learning rate得往小了设，这样才能保证泰勒级数的有效性。
梯度下降的更多限制
我们做梯度下降理论上的停止条件是对于参数的偏导为0： $\frac{\partial L}{\partial w} =0$
1）除了minimal的位置偏导为0外，“平原”(鞍点)位置偏导也为0，因此除了可能卡在local minimal之外，卡在“平原”(鞍点)位置也是有可能的
2）实际梯度下降收敛到偏导正好等于0的位置通常比较困难，因此在实际coding过程中，我们总是以一个很小的数(如： $10^{-6}$ )作为结束条件，但是这个很小的数到底是在minimal位置的附近还是“平原”位置的附近也无法保证。

减小模型误差之从误差来自哪里说起

误差来自哪里：bias(偏差) 和 variance(方差)

把模型的优化的过程想象成打靶过程，靶心为最优解（如下图所示）。
bias：为靶上点和靶心的距离，即所得函数与目标函数的之间存在的偏差
variance：是靶上所有点的分布情况，点与点之间距离越大则离散程度越大，方差越大
在这里插入图片描述
根据bias和variance的高低情况可以分为如上图所示的四种情况，其中 $\hat{f}$ 为目标函数值，蓝色的小点 $f^*$ 为实际上重复多次实验跑出来的优化结果，我们通常会选择多次重复实验后的均值 $\bar{f}$ 作为最终的预测结果。我们追求的是准确性和稳定性都强的模型，期望的模型分布如上图左上角低方差低偏差的分布图所示。

variance

绘制出重复1000次回归实验的函数图像（如下图所示）：
1）当模型是简单的 $y=b+wx_{cp}$ 时，绘制的函数图像较为集中，variance比较小，每次实验拟合出的函数结果都是差不多的
2）当模型复杂起来，如下图中所示考虑到 $x^5$ 时，图像散布很广，variance比较大，每次实验拟合出的函数图像都“长得不太一样”
原因：简单的模型受数据的影响较小
在这里插入图片描述

bias

bias反映了多次实验结果的平均值 $\bar f$ 与目标函数 $\hat f$ 之间的距离

绘制出重复5000次回归实验的函数图像（如下图所示），红色部分为每次实验绘制的函数 $f^*$ ，黑色曲线为目标函数 $\hat f$ ，蓝色线条为多次实验结果的平均值 $\bar f$ ：
1）当模型是简单的 $y=b+wx_{cp}$ 时，会有较大的bias，且图像较为集中
2）当模型复杂起来，如下图中所示考虑到 $x^5$ 时，虽然每次找出来的函数都“不太一样”，比较分散，但是平均之后，会有较小的bias

原因：把模型看成一个function set， $\hat f$ 是我们拟合的目标函数，所以当然希望 $\hat f$ 包含在这个模型所能搜素的function set中。如果是一个简单模型，它function set的搜索空间就比较小（variance小），没有包含 $\hat f$ 的可能性较大，因此不论在这个funciton set里怎么sample都找不到 $\hat f$ ；如果是一个复杂模型，这个模型的搜索空间就比较大，包含 $\hat f$ 的可能性很大，但由于训练数据有限，每次训练的数据都存在一定的差异，所以导致每次实验结果比较分散，平均之后则会落在 $\hat f$ 附近。
在这里插入图片描述

如何指导误差减小

下图中，关系图的横坐标是 $x$ 的最高次项（项数越高模型越复杂），纵坐标是在测试集上的训练误差值。蓝线是我们实验过程中观察到的图像：随着模型复杂度增大，模型误差先平稳减小后急剧增大。

我们从bias(偏差)和variance(方差)的角度出发解释这一现象：
当 $x$ 的最高次项值较小，即模型比较简单时，存在高偏差低方差的现象，随着横坐标值增大模型越来越复杂，模型会呈现出低偏差高方差。因此随着 $x$ 轴数值增大，bias逐步减小（用红线表示），variance越来越大，随着模型越来越复杂variance的增长速度也越来越快（用绿线表示）。当bias和variance同时被考虑时，则会得到观测出的蓝线。
因此：若误差是因为variance大，则称为overfitting；若误差是因为bias大，则称为underfitting
在这里插入图片描述
做研究应该清楚跑出来的模型是bias大还是variance大，才能知道怎么改进：

1）如果模型在训练集上的误差大，则bias大 $\rightarrow$ underfitting，应该重新设计模型（增加复杂度），因为目标函数都不在你模型的搜索范围内，如果不改动模型而是加大训练数据量也是无效的；
2）如果模型在训练集上的误差小，但在测试集上的误差很大，则variance可能较大 $\rightarrow$ overfitting，应该增加训练数据量或者正则化（使得函数曲线更加平滑）

参考：
李宏毅深度学习视频
 李宏毅课程原网站（有配套的PPT以及HomeWork）（需备梯子）