深度学习—学习笔记（二）

最新推荐文章于 2024-03-01 00:19:01 发布

weixin_45703411

最新推荐文章于 2024-03-01 00:19:01 发布

阅读量422

点赞数

分类专栏：笔记文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_45703411/article/details/104400539

版权

本文深入探讨了深度学习中训练误差与泛化误差的区别，强调模型选择的重要性，介绍了验证数据集和K折交叉验证的方法。此外，还详细讨论了过拟合和欠拟合的现象，分析了模型复杂度和训练数据量的影响，并提到了随机初始化参数对避免梯度消失和爆炸问题的关键作用。最后，文章提到了在实际应用中如机器翻译和注意力机制的发展。

摘要由CSDN通过智能技术生成

模型选择、过拟合和欠拟合
1、训练误差和泛化误差
在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。机器学习模型应关注降低泛化误差。
2、模型选择
验证数据集
从严格意义上讲，测试集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型，如调参。由于无法从训练误差估计泛化误差，因此也不应只依赖训练数据选择模型。鉴于此，我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集，简称验证集（validation set）。例如，我们可以从给定的训练集中随机选取一小部分作为验证集，而将剩余部分作为真正的训练集。
3、K折交叉验证
由于验证数据集不参与模型训练，当训练数据不够用时，预留大量的验证数据显得太奢侈。一种改善的方法是K折交叉验证（K-fold cross-validation）。在K折交叉验证中，我们把原始训练数据集分割成K个不重合的子数据集，然后我们做K次模型训练和验证。每一次，我们使用一个子数据集验证模型，并使用其他K-1个子数据集来训练模型。在这K次训练和验证中，每次用来验证模型的子数据集都不同。最后，我们对这K次训练误差和验证误差分别求平均。
4、过拟合和欠拟合
接下来，我们将探究模型训练中经常出现的两类典型问题：一类是模型无法得到较低的训练误差&