深度学习 day06深度学习的实用层面

01 训练 / 开发 / 测试集

  • 应用型机器学习是一个高度迭代的过程(想法->代码->实现),循环该过程的效率是决定项目进展速度的一个关键因素,创建高质量的训练集、验证集、测试集也有助于提高循环效率。

在这里插入图片描述

  • 随着数据量的不断增加(从1000个样本到1000000个样本),那么验证集和测试集占数据总量的比例会趋向于变得更小。如果数据有一百万,那么就可以选择一万条作验证集,一万条作测试集。因为验证集的目的就是验证不同的算法,检验哪种算法最有效,同样的根据最终选择的分类器,测试集的主要目的是正确评估分类器的性能,选择这么多数据就足够了。(训练集98%,验证集1%,测试集1%)

在这里插入图片描述

  • 总结:现代深度学习的一个趋势:在训练和测试集分布不匹配的情况下进行训练(比如说训练集数据是从网上整下来的,验证集和测试集是用户上传的),针对于这种情况要确保验证集和测试集的数据来自同一分布。最后一点就是没有测试集也没关系(如果不需要无偏估计),如果只有验证集没有测试集,就应该在训练集上训练尝试不同的模型框架,在验证集上评估这些模型,然后迭代并选出合适的模型 。

在这里插入图片描述

02 偏差 / 方差

关于深度学习的误差问题就是要对偏差、方差的权衡。


  • 分为欠拟合(高偏差) | 适度拟合 | 过度拟合(高方差)

在这里插入图片描述

  • 理解偏差和方差的两个关键数据是训练集误差和验证集误差。下面分别是基于人眼误差为0的情况下,高方差 | 高偏差 | 高偏差+高方差 | 低偏差+低方差。(以上分析的前提都是假设基本误差很小,训练集和验证集来自相同分布)如果最优误差(贝叶斯误差)为15%,那么第二组数据就是低偏差+低方差。

在这里插入图片描述

  • 下面用紫色线画出的分类器具有高偏差和高方差,高偏差是因为它几乎是一条线性分类器,并未拟合数据,高方差是因为采用曲线函数或二次函数,灵活性太高以致拟合了这两个错误样本。

在这里插入图片描述

  • 总结:通过分析训练集和验证集验证算法产生的误差来诊断算法是否存在高偏差或者高方差,以此来决定接下来你要做什么

03 机器学习基础

  • 首先检查偏差&#x
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值