小白也能看懂的机器学习（1）

最新推荐文章于 2021-07-10 11:58:35 发布

疯鬼鹦鹉007

最新推荐文章于 2021-07-10 11:58:35 发布

阅读量300

点赞数

分类专栏：小白也能看懂的机器学习文章标签： python 机器学习人工智能深度学习算法

本文链接：https://blog.csdn.net/weixin_44081296/article/details/108083352

版权

小白也能看懂的机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

小白也能看懂的机器学习（1）

1 科普
2 从最简单的线性函数模型开始
3 何不加上更多参数，并考虑高次项？
4 分析误差来源，如何改进
总结

**：总结自李宏毅老师的课程加上自己的一些理解，非完全原创。

1 科普

机器学习和传统编程的区别？
传统编程：我们提供算法，提供输入，机器给出结果。

机器学习：我们提供输入，期望得到的输出，机器通过多次训练调整参数得到适合的“算法”。之后我们可以使用这个“算法”。
机器学习以什么形式输出？
输出数值：regression（回归）
输出0或1：binary classification（二元分类）
做选择题：multi-class classification（多元分类）

但是机器学习不只是regression和classification，还有generation（生成）比如说输出一段文字，输出一幅图片，这就是“生成模型”。
如何才能实现机器学习：

在监督式学习中，我们需要给机器labeled data（：带标签的数据，比方说【图片1】-小狗，【图片2】-小猫）学习资料。

比方说对于一个判断图像是猫还是狗的框架中，我们给的训练资料是100张图片，则loss（损失函数，值越大，说明模型越差劲）可以设定为“猜错的概率”，可以作为衡量模型质量的标准。
（若猫狗全部答对，则loss为0，答错一半，则loss为50%，但是这样没法求导，所以实际操作中，会用交叉熵（cross entropy）来代替猜错的概率）
另一种有别于监督式学习的就是reinforcement learning：加强学习

以围棋作为例子，解释两者区别：

监督式学习：需要（当前棋盘每个子的位置-----理想中下一步下的位置）作为学习资料
加强学习：
机器去和自己下：自己赢了，就知道这一局下的不错，那这一局中胜利方的棋谱，就是学习的方向。
（Alpha go先通过棋谱学习，然后再进行加强学习。）

机器如何找出实际要找的函数？
咱们从最简单的线性函数模型为例：

2 从最简单的线性函数模型开始

比如，现在需要通过宝可梦进化前的cp值预测进化后的cp值：
在这里插入图片描述

显然，宝可梦进化前后的cp值是有线性相关关系的。
$我们暂且猜测这个方程就是 : y = b + w x$
（x为进化前的cp值）（w和b可以代入任何值）

形如下面这样的模型就叫做linear model: $b+\sum_{k=0}^{n} w_{i}x_i$
W：weight（权重） b：bias（偏置） xi：输入的第i种属性

现在：我们得到了一个算法“模版”：y=b+wx（w，b是这个算法的参数，宝可梦训练器的cp值x是这个算法的输入。）

还需要一个loss function（用于评估function的好坏，function越不好，值就越大）
对于这个预测宝可梦的实验来说，loss function就是预测值和实际值差多少，也就是方差：
$loss(w,b)=\sum(预测值-实际值)^2$
也就是：
$loss(w,b)=\sum(y-(b+wx))^2$

这个损失函数比较简单，是一个二元函数，由于xy都是已知的，所以值的大小只和w、b有关，可以画出一个二维热度图：咱们的任务就是寻找这个图中的最低点，找到这个最低点，它的w、b所画出来的y=b+wx应该最能贴合那些点
在这里插入图片描述
（颜色偏红色，代表数值越大。）

那么，如何在2维平面寻找最小点？

穷举是不现实的，所以需要使用梯度下降法（哪里低往哪里走，参数向着能让输出更接近期望输出的方向变化）。随便选一个点，向着下降最快的方向移动一步。

对于这个模型来说，计算梯度非常简单，高中生都会：
$d_{loss}/d_{b}=\sum2(b+wx-y)$
$d_{loss}/d_{w}=\sum2x(b+wx-y)$

（一步大小和学习率有关，初学可以认为具体值等于负梯度乘以学习率，但实际情况下，有各种方法可以让这个值更加合理。）（对于这个例子：linear model来说，局部最优解就是全局最优解，不会卡在一个小窝窝里出不来。）

3 何不加上更多参数，并考虑高次项？

对于宝可梦模型来说
在这里插入图片描述

仔细观察这个图片，发现可能不仅仅是线性，也可能有二次项，高次项。
但是引入5次项后，训练完了得到一个显然不太好的结果：
在这里插入图片描述

这个曲线过分的贴合训练参数而脱离实际情况，这种现象叫做过拟合。对于过拟合来说，有个非常有效的解决办法，就是regularization（正则化）：
我们只需要在原本的loss函数后加上一项。变成：
$loss(w,b)=\sum(y-(b+wx))^2+\lambda\sum(w_i)^2$
就可以很有效的解决这个问题，因为参数们绝对值越大，输入对输出就越不平滑（参数大的时候，输入变化一点就会导致输出剧变）所以需要尽量让参数不那么大）（loss函数中，加上参数平方和，可以控制参数大小），前面越小，error就越小， sum(wi)，越小，输出对输入就越平滑。但是和输入无关的Bias（偏置参数）并不影响对输入的平滑程度，所以在做regularization的时候不考虑bias。

4 分析误差来源，如何改进

我们并不知道宝可梦的函数，所以只能在自己设定的函数模版中摸索出一个函数，去拟合游戏公司的函数。

就如同我们在看不见靶纸的情况下打靶子，我们打出一枪，观察员会告诉我们下一枪应该往什么方向调整（loss函数就是观察员，对每个参数求梯度，就可以知道下一枪向什么方向调整，调整多少）

一般来说，模型越复杂，枪口可以调整的范围就越大，就越可能精准射中靶心，但是过高的灵活度，导致枪弹的分布很大、比较散。（参考下图右上）

模型越简单，枪口可以调整的范围就越小，这样会让枪弹分布很集中，但是可能根本射不中靶心，因为靶心可能在范围之外。（参考下图左下）

在这里插入图片描述
我们分别用线性函数和考虑了1-5次的函数来进行训练。分别得到左右的结果。

看上去高次函数似乎杂乱无章，但是似乎隐隐约约能看出来，中间深红色的地方，是一条很棒的曲线，那我们就训练5000次，再做平均看看结果：
在这里插入图片描述

果然！还是比较复杂的函数能够更接近理想曲线，所以，实际上高次函数还是喵的比较准，但是散布太开了。上图右下角描述的惟妙惟肖。
而简单的一次函数，就没瞄准，（上图左下角）

那么实际训练中，我们要如何知道自己是没瞄准，还是过拟合？如何改进呢？

如果模型训练中的loss很大，就是需要改进模型，可以用下面的方法：
1：更复杂一点（加入高次项？）。
2：考虑更多的属性。

如果模型训练中loss很小，但是测试中loss很大，就是over fitting ：
1：增加训练数据量
2：正则化

在原本的loss函数后加上一项。变成：
$loss(w,b)=\sum(y-(b+wx))^2+\lambda\sum(w_i)^2$

3：多次交叉验证

将training set（训练数据集）分成好多份，每次选出一份作为验证集（testing set），其他部分作为训练集。

总结

学到这里，我们已经学会如何通过一堆数据，进行线性回归，即使参数很多我们也不怕。（比如对于宝可梦预测来说，同时考虑属性、cp值、性别，我们也可以用相同的方法来做，也非常的简单）

下一节，我们将尝试对宝可梦进行分类！（通过给定的宝可梦的各种属性值，来判断他是哪一个系的宝可梦）

疯鬼鹦鹉007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小白也能看懂的机器学习（1）

小白也能看懂的机器学习（1）1 科普2 从最简单的线性函数模型开始3 何不加上更多参数，并考虑高次项？4 分析误差来源，如何改进**：总结自李宏毅老师的课程加上自己的一些理解，非完全原创。1 科普机器学习和传统编程的区别？传统编程：我们提供算法，提供输入，机器给出结果。机器学习：我们提供输入，期望得到的输出，机器通过多次训练调整参数得到适合的“算法”。之后我们可以使用这个“算法”。机器学习以什么形式输出？输出数值：regression（回归）输出0或1：binary cla
复制链接

扫一扫

专栏目录