Datawhale X 李宏毅苹果书入门 AI夏令营 task01学习笔记

最新推荐文章于 2024-09-30 13:49:56 发布

weixin_75033552

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量600

点赞数 16

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/weixin_75033552/article/details/141526489

版权

机器学习基础

机器学习通俗地理解：让机器具有寻找复杂的目标函数的能力
给出输入，输入可以是图片，文字，音频（只要是数据均可）；再给出目标输出，目标输出可以是图片的内容；这段文字的主要内容；音频的文字等；最后，机器将寻找出输入和输出值的对应关系。
机器学习的模型：就是带有未知参数的函数式）
函数不同，机器学习也有不同的类别，具体类别如下：

regression（回归）：函数输出是数值（亦或是标量）
classification（分类）：机器做选择题，人类给做一定量的选项，机器从中选择然后输出（输出的结果其实就是选项之一）
Structured Learning(结构化学习，让机器学会创造这件事情）：输出一个有结构的部件，例如：画一张图，写一篇文章

机器学习找函数的步骤：

写出一个带未知参数的函数式（根据x, y数据之间的关系写一个描述这个关系的函数式）
定义Loss，计算Loss，画出Loss等高线图（Loss是参数函数式，输入是model里面的参数。取一组参数的值，例如：w=1,b=0，但是这一步骤Loss的值不是刚才说的那样计算，而是如下计算，在步骤三会应用到Loss的定义，Loss的值代表这一组参数对于步骤1中的函数式是好还是不好）Loss越大，代表这组参数越不好，e用哪个式子是看自己的理解如图所示的等高线图，就是试了不同的参数，计算它的Loss（损失），画出来的等高线图称为误差表面（error surface）。
解最佳化问题，找到最佳参数组，让Loss最小，我们采用梯度下降（gradient descent）解决这个最佳化问题，gradient descent的步骤如下：（这个图是把w单独拎出来看，其实一般是直接在误差表面上进行最佳化）1.(Randomly) Pick an initial value w0（实际之后会有一些f方法，可以pick到一个较好的w0）；2.计算Loss在w0这一点的微积分（斜率）（确定寻找哪个w，分为移动方向和步幅，结果为Negative（负数），就Increase w（增大w值）；结果为Positive（正数），就Decrease w，（这个是移动方向），移动步幅是由Loss在w0这一点的微积分（斜率）的绝对值大小和 $\eta$ （learning rate）决定， $\eta$ 值由自己设置的，如果 η 设小一点，参数更新就很慢，每次只会改变一点点参数的数值。这种在做机器学习，需要自己设定，不是机器自己找出来的，称为超参数（hyperparameter）。斜率的绝对值越大会影响步幅越大，反之越小。寻找w的描述式

接下来反复进行刚才的操作，计算一下 w1 微分的结果，再决定现在要把 w1 移动多少，再移动到 w2，再继续反复做同样的操作，不断地移动 w 的位置，最后会停下来。

会有2部分数据，一是训练集二是测试集，两者的Loss一起考虑才能得出比较正确的参数

会停下来的情况如下：

在调整参数的时候，在计算微分的时候，最多计算几次。上限可能会设为 100 万次，参数更新 100 万次后，就不再更新了。（更新次数也是一个超参数。）
（理想的），停下来的可能是，当不断调整参数，调整到一个地方，它的微分的值算出来正好是 0 的时候，如果这一项正好算出来是 0，0 乘上学习率 η 还是 0，所以参数就不会再移动位置。假设是这个理想的情况，把 w0 更新到 w1，再更新到 w2，最后更新到 wT 有点卡，wT 卡住了，也就是算出来这个微分的值是 0 了，参数的位置就不会再更新。

梯度下降有一个很大的问题，不一定会找到真正最好的解，（即找到可以让损失最小的 w。）在图上图所示的例子里面，把 w 设定在最右侧红点附近这个地方可以让损失最小。但如果在梯度下降中，w0 是随机初始的位置，也很有可能走到 wT 这里，训练就停住了，无法再移动 w 的位置。右侧红点这个位置是真的可以让损失最小的地方，称为全局最小值（global minima），而 wT 这个地方称为局部最小值（local minima），其左右两边都比这个地方的损失还要高一点，但是它不是整个误差表面上面的最低点。