深度学习 day06深度学习的实用层面

最新推荐文章于 2024-01-29 12:16:27 发布

念～旭

最新推荐文章于 2024-01-29 12:16:27 发布

阅读量135

点赞数

分类专栏：吴恩达深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44290742/article/details/119521882

版权

01 训练 / 开发 / 测试集

应用型机器学习是一个高度迭代的过程（想法->代码->实现），循环该过程的效率是决定项目进展速度的一个关键因素，创建高质量的训练集、验证集、测试集也有助于提高循环效率。

在这里插入图片描述

随着数据量的不断增加（从1000个样本到1000000个样本），那么验证集和测试集占数据总量的比例会趋向于变得更小。如果数据有一百万，那么就可以选择一万条作验证集，一万条作测试集。因为验证集的目的就是验证不同的算法，检验哪种算法最有效，同样的根据最终选择的分类器，测试集的主要目的是正确评估分类器的性能，选择这么多数据就足够了。（训练集98%，验证集1%，测试集1%）

在这里插入图片描述

总结：现代深度学习的一个趋势：在训练和测试集分布不匹配的情况下进行训练（比如说训练集数据是从网上整下来的，验证集和测试集是用户上传的），针对于这种情况要确保验证集和测试集的数据来自同一分布。最后一点就是没有测试集也没关系（如果不需要无偏估计），如果只有验证集没有测试集，就应该在训练集上训练尝试不同的模型框架，在验证集上评估这些模型，然后迭代并选出合适的模型。

在这里插入图片描述

关于深度学习的误差问题就是要对偏差、方差的权衡。

在这里插入图片描述

理解偏差和方差的两个关键数据是训练集误差和验证集误差。下面分别是基于人眼误差为0的情况下，高方差 | 高偏差 | 高偏差+高方差 | 低偏差+低方差。（以上分析的前提都是假设基本误差很小，训练集和验证集来自相同分布）如果最优误差（贝叶斯误差）为15%，那么第二组数据就是低偏差+低方差。

在这里插入图片描述

下面用紫色线画出的分类器具有高偏差和高方差，高偏差是因为它几乎是一条线性分类器，并未拟合数据，高方差是因为采用曲线函数或二次函数，灵活性太高以致拟合了这两个错误样本。

在这里插入图片描述

关注

专栏目录