「cs231n」深度学习网络训练技巧2——Training NN

Deserve_p

已于 2022-05-19 23:35:20 修改

阅读量1.1k

点赞数

分类专栏：深度学习 cs231n 文章标签：深度学习人工智能

于 2022-05-01 12:29:07 首次发布

本文链接：https://blog.csdn.net/weixin_44067447/article/details/124520430

版权

6 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

二、Training dynamics

learning rate schedule & hyperparameter optimization

但是需要决定在哪个epoch进行decay和选择多大的新学习率这些超参数。实际中，观察学习曲线，估计在哪个点loss趋于平稳，就在这点改变。
缺点：需要很多次实验

epoch越多，效果越好。
优点：超参数少。
3. Linear
在这里插入图片描述

check initial loss：关掉weight decay，仅迭代一次看看模型的loss趋势是否正确。
overfit a small sample：使用部分数据集在5~10个epoch内训练，实现过拟合。为的是验证模型代码没有错，如果不能过拟合，说明有问题，在更大的数据上也无法拟合。
find lr that makes loss go down：使用所有的数据，找到最好的learning rate，在100个epoch内实现loss显著下降。
coarse grid，train for 1~5 epoch：设置lr和weight decay组合，在1-5个epoch 内在所有数据集上训练找到最佳组合。（建议weight decay 0 1e-4 1e-5）
refine grid， train longer：从4中选出的模型，不加learning rate decay进行10—20epoch迭代，
观察得到的curve
回到第5步
loss
情况1：初始化不好，调整初始化。

情况2：加入learning rate decay
在这里插入图片描述

情况3：引入learning rate decay太早了。
在这里插入图片描述

train_val
正常情况：
在这里插入图片描述

情况：过拟合，减小模型容量，或增大数据集
在这里插入图片描述

情况：两曲线几乎相同——欠拟合，用更大数据集或训练更久。
在这里插入图片描述

关注