机器学习基础随笔（2）

追求大牛之人

于 2020-08-01 14:46:52 发布

阅读量4.3k

点赞数 1

本文链接：https://blog.csdn.net/weixin_43895254/article/details/107730665

版权

本文通过预测宝可梦的CP值来介绍机器学习中的回归问题，详细讲解了线性模型、损失函数、梯度下降法，并通过实际例子探讨了模型复杂度、过拟合与正则化的关系。在梯度下降过程中，讨论了单参数和多参数的优化，并分析了不同模型在训练数据和测试数据上的误差表现，强调了模型选择的重要性。

摘要由CSDN通过智能技术生成

回归

参考来源于2020台湾大学李宏毅课程和PPT

问题的导入：预测宝可梦的CP值

根据已有的宝可梦进化前后的信息，来预测某只宝可梦进化后的cp值的大小

supervised

设定具体参数

$X$ ：表示一只宝可梦，用下标表示该宝可梦的某种属性

$X_{cp}$ ：表示该宝可梦进化前的cp值

$X_s$ ：表示该宝可梦是属于哪一种物种，比如妙瓜种子、皮卡丘…

$X_{hp}$ ：表示该宝可梦的hp值即生命值是多少

$X_w$ ：代表该宝可梦的重重量

$X_h$ ：代表该宝可梦的高度

$f ()$ ：表示我们要找的function

$y$ ：表示function的output，即宝可梦进化后的cp值，是一个scalar

Regression的具体过程

回顾一下machine Learning的三个步骤：

定义一个model即function set
定义一个goodness of function损失函数去评估该function的好坏
找一个最好的function

Step1：Model (function set)

如何选择一个function的模型呢？毕竟只有确定了模型才能调参。这里没有明确的思路，只能凭经验去一种种地试

Linear Model 线性模型

$\cdot X_{cp}$

y代表进化后的cp值， $X_{cp}$ 代表进化前的cp值，w和b代表未知参数，可以是任何数值

根据不同的w和b，可以确定不同的无穷无尽的function，而 $\cdot X_{cp}$ 这个抽象出来的式子就叫做model，是以上这些具体化的function的集合，即function set

实际上这是一种Linear Model，但只考虑了宝可梦进化前的cp值，因而我们可以将其扩展为：

$\sum w_ix_i$

x_i： an attribute of input X ( x_i is also called feature，即特征值)

w_i：weight of x_i

b： bias

Step2：Goodness of Function

参数说明

$x^i$ ：用上标来表示一个完整的object的编号， $x^{i}$ 表示第i只宝可梦(下标表示该object中的component)

$\widehat{y}^i$ ：用 $\widehat{y}$ 表示一个实际观察到的object输出，上标为i表示是第i个object

注：由于regression的输出值是scalar，因此 $\widehat{y}$ 里面并没有component，只是一个简单的数值；但是未来如果考虑structured Learning的时候，我们output的object可能是有structured的，所以我们还是会需要用上标下标来表示一个完整的output的object和它包含的component

Loss function 损失函数

为了衡量function set中的某个function的好坏，我们需要一个评估函数，即Loss function，损失函数，简称L；loss function是一个function的function

$L (f) = L (w, b)$

input：a function；

output：how bad/good it is

由于 $\cdot x_{cp}$ ，即f是由b和w决定的，因此input f就等价于input这个f里的b和w，因此Loss function实际上是在衡量一组参数的好坏

之前提到的model是由我们自主选择的，这里的loss function也是，最常用的方法就是采用类似于方差和的形式来衡量参数的好坏，即预测值与真值差的平方和；这里真正的数值减估测数值的平方，叫做估测误差，Estimation error，将10个估测误差合起来就是loss function

$L(f)=L(w,b)=\sum_{n=1}^{10}(\widehat{y}^n-(b+w \cdot {x}^n_{cp}))^2$

如果 $L (f)$ 越大，说明该function表现得越不好； $L (f)$ 越小，说明该function表现得越好

Loss function可视化

下图中是loss function的可视化，该图中的每一个点都代表一组(w,b)，也就是对应着一个function；而该点的颜色对应着的loss function的结果L(w,b)，它表示该点对应function的表现有多糟糕，颜色越偏红色代表Loss的数值越大，这个function的表现越不好，越偏蓝色代表Loss的数值越小，这个function的表现越好

比如图中用红色箭头标注的点就代表了b=-180 , w=-2对应的function，即 $\cdot x_{cp}$ ，该点所在的颜色偏向于红色区域，因此这个function的loss比较大，表现并不好

Step3：Pick the Best Function

我们已经确定了loss function，他可以衡量我们的model里面每一个function的好坏，接下来我们要做的事情就是，从这个function set里面，挑选一个最好的function

挑选最好的function这一件事情，写成formulation/equation的样子如下：

$f^*={arg} \underset{f}{min} L(f)$ ，或者是

$w^*,b^*={arg}\ \underset{w,b}{min} L(w,b)={arg}\ \underset{w,b}{min} \sum\limits^{10}_{n=1}(\widehat{y}^n-(b+w \cdot x^n_{cp}))^2$

也就是那个使 $L (f) = L (w, b) = L o s s$ 最小的 $f$ 或 $(w, b)$ ，就是我们要找的 $f^*$ 或 $w^*,b^*)$ (有点像极大似然估计的思想)

利用线性代数的知识，可以解得这个closed-form solution，但这里采用的是一种更为普遍的方法——gradient descent(梯度下降法)

Gradient Descent 梯度下降

上面的例子比较简单，用线性代数的知识就可以解；但是对于更普遍的问题来说，gradient descent的厉害之处在于，只要 $L (f)$ 是可微分的，gradient descent都可以拿来处理这个 $f$ ，找到表现比较好的parameters

单个参数的问题

以只带单个参数w的Loss Function L(w)为例，首先保证 $L (w)$ 是可微的
$w^*={arg}\ \underset{w}{min} L(w)$ 我们的目标就是找到这个使Loss最小的 $w^*$ ，实际上就是寻找切线L斜率为0的global minima最小值点(注意，存在一些local minima极小值点，其斜率也是0)

有一个暴力的方法是，穷举所有的w值，去找到使loss最小的 $w^*$ ，但是这样做是没有效率的；而gradient descent就是用来解决这个效率问题的

首先随机选取一个初始的点 $w^0$ (当然也不一定要随机选取，如果有办法可以得到比较接近 $w^*$ 的表现得比较好的 $w^0$ 当初始点，可以有效地提高查找 $w^*$ 的效率)
计算 $L$ 在 $w=w^0$ 的位置的微分，即 $\frac{dL}{dw}|_{w=w^0}$ ，几何意义就是切线的斜率
如果切线斜率是negative负的，那么就应该使w变大，即往右踏一步；如果切线斜率是positive正的，那么就应该使w变小，即往左踏一步，每一步的步长step size就是w的改变量

w的改变量step size的大小取决于两件事
- 一是现在的微分值 $\frac{dL}{dw}$ 有多大，微分值越大代表现在在一个越陡峭的地方，那它要移动的距离就越大，反之就越小；
- 二是一个常数项 $η$ ，被称为learning rate，即学习率，它决定了每次踏出的step size不只取决于现在的斜率，还取决于一个事先就定好的数值，如果learning rate比较大，那每踏出一步的时候，参数w更新的幅度就比较大，反之参数更新的幅度就比较小
  
  如果learning rate设置的大一些，那机器学习的速度就会比较快；但是learning rate如果太大，可能就会跳过最合适的global minima的点
因此每次参数更新的大小是 $\frac{dL}{dw}$ ，为了满足斜率为负时w变大，斜率为正时w变小，应当使原来的w减去更新的数值，即
$w^1=w^0-η \frac{dL}{dw}|_{w=w^0} \\ w^2=w^1-η \frac{dL}{dw}|_{w=w^1} \\ w^3=w^2-η \frac{dL}{dw}|_{w=w^2} \\ ... \\ w^{i+1}=w^i-η \frac{dL}{dw}|_{w=w^i} \\ if\ \ (\frac{dL}{dw}|_{w=w^i}==0) \ \ then \ \ stop;$
此时 $w^i$ 对应的斜率为0，我们找到了一个极小值local minima，这就出现了一个问题，当微分为0的时候，参数就会一直卡在这个点上没有办法再更新了，因此通过gradient descent找出来的solution其实并不是最佳解global minima

但幸运的是，在linear regression上，是没有local minima的，因此可以使用这个方法