深度学习（4）：训练集、验证集、测试集以及偏差和方差

最新推荐文章于 2023-05-06 21:25:55 发布

awake020

最新推荐文章于 2023-05-06 21:25:55 发布

阅读量2.8k

点赞数 1

分类专栏：深度学习笔记文章标签：机器学习深度学习人工智能神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44334615/article/details/105593093

版权

本文探讨了深度学习中训练集、验证集和测试集的使用，强调了它们在模型选择和泛化能力评估中的作用。介绍了数据划分的常见比例，并解释了偏差和方差的概念，说明它们如何影响模型的训练与泛化误差。

摘要由CSDN通过智能技术生成

在进行神经网络（以及各种机器学习模型）的训练中，我们需要对数据进行划分，以便于我们选择合适的超参数、评价模型的泛化能力。

训练集

我们利用训练集来进行参数训练（即前面提到的前向传播、反向传播、参数更新的过程）。

验证集

我们选取不同的超参数通过训练集训练出不同的模型。将这些模型应用在验证集上以选择最合适的超参数。

测试集

在确定好合适的超参数后，我们将模型应用在测试集上以判断模型的泛化能力。
要注意的是，在训练过程中验证集和测试集的数据一定不能参与训练，否则会导致评估的结果超出真实值。

划分方式

传统的机器学习中，由于数据量小，我们往往采用训练集：验证集=7：3 或者训练集：验证集：测试集 = 6：2：2 的划分方式。但由于深度学习的数据量较大，验证集和测试集的比例可以缩小。例如对于100万组数据，我们可能只需要1万验证集+1万测试集。

在实际操作中，有时我们不需要进行无偏评估，所以可能只需要验证集而不需要测试集。（然而人们却总是说此时的划分是训练集/测试集）

偏差和方差

直观理解之前，先来说一下偏差和方差在西瓜书当中的数学定义：
定义：
y代表样本的真实值
y_D代表样本在数据集中的标记（在这里我们认为我们的数据集不完全准群，具有噪音，即y_D不等于y）
f（x,

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。