Datawhale X 李宏毅苹果书 AI夏令营入门班Task3

最新推荐文章于 2024-10-04 22:36:54 发布

wtby1234

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量351

点赞数 5

文章标签：人工智能

本文链接：https://blog.csdn.net/wtby1234/article/details/141820212

版权

1. 模型偏差

模型偏差可能会影响模型训练。如果模型过于简单，可能会导致该函数的集合太小了，没有包含任何一个函数，可以让损失变低的函数不在模型可以描述的范围内。

这个时候重新设计一个模型，给模型更大的灵活性。所以如果模型的灵活性不够大，可以增加更多特征，可以设一个更大的模型，可以用深度学习来增加模型的灵活性，这是第一个可以的解法。但是并不是训练的时候，损失大就代表一定是模型偏差，可能会遇到另外一个问题：优化做得不好。

2.优化问题

训练数据的损失不够低的时候，到底是模型偏差，还是优化的问题呢。找不到一个损失低的函数，到底是因为模型的灵活性不够。还是模型的灵活性已经够了，只是优化梯度下降不给力，它没办法算出最优解。

一个建议判断的方法，通过比较不同的模型来判断模型现在到底够不够大。举个例子，这一个实验是从残差网络的论文“Deep Residual Learning for Image Recognition” 里面节录出来的。这篇论文在测试集上测试两个网络，一个网络有 20 层，一个网络有 56 层。但是结果20 层的损失比较低，56 层的损失还比较高。但这个不是过拟合，并不是所有的结果不好，都叫做过拟合。在训练集上，20 层的网络损失其实是比较低的，56 层的网络损失是比较高的，这代表 56 层的网络的优化没有做好，它的优化不给力。

看到一个从来没有做过的问题，可以先跑一些比较小的、比较浅的网络，或甚至用一些非深度学习的方法，比如线性模型、支持向量机（Support Vector Machine，SVM），SVM 可能是比较容易做优化的，它们比较不会有优化失败的问题。

接下来还缺一个深的模型，如果深的模型跟浅的模型比起来，深的模型明明灵活性比较大，但损失却没有办法比浅的模型压得更低代表说优化有问题，梯度下降不给力，因此要有一些其它的方法来更好地进行优化。

如果训练损失大，可以先判断是模型偏差还是优化。如果是模型偏差，就把模型变大。假设经过努力可以让训练数据的损失变小，接下来可以来看测试数据损失；如果测试数据损失也小，比这个较强的基线模型还要小，就结束了。但如果训练数据上面的损失小，测试数据上的损失大，可能是真的过拟合。在测试上的结果不好，不一定是过拟合。要把训练数据损失记下来，先确定优化没有问题，模型够大了。接下来才看看是不是测试的问题，如果是训练损失小，测试损失大，这个有可能是过拟合。

3. 过拟合

模型灵活性大，能够拟合测试数据但是预测不准确

解决过拟合的问题有两个可能的方向：

第一个方向是往往是最有效的方向，即增加训练集。因此如果训练集，蓝色的点变多了，虽然模型它的灵活性可能很大，但是因为点非常多，它就可以限制住，它看起来的形状还是会很像，产生这些数据背后的 2 次曲线。可以做数据增强（data augmentation，），这个方法并不算是使用了额外的数据。（数据增强就是根据问题的理解创造出新的数据。）
另外一个解法是给模型一些限制，让模型不要有过大的灵活性。

4. 交叉验证

比较合理选择模型的方法是把训练的数据分成两半，一部分称为训练集（training set），一部分是验证集（validation set）。比如 90% 的数据作为训练集，有 10% 的数据作为验证集。在训练集上训练出来的模型会使用验证集来衡量它们的分数，根据验证集上面的分数去挑选结果，再把这个结果上传到 Kaggle 上面得到的公开分数。理想上就用验证集挑就好，有过比较好的基线（baseline）算法以后，就不要再去动它了，就可以避免在测试集上面过拟合。