吴恩达深度学习 3.1 结构化机器学习项目-机器学习策略1

本文探讨了算法正交化的重要性,解释了单一数字评估指标如精确率、召回率和F1分数在二分类问题中的作用。同时,介绍了满足指标与优化指标的区别,并阐述了训练集、开发集和测试集的合理划分原则。针对实际应用,文章指出需要根据错误类型调整指标公式,以避免忽略特定类型的错误。最后,通过对比训练集偏差和人类认知偏差,提出优化模型的策略,包括减少偏差和方差的方法,并强调了模型改进应与人类认知偏差相比较。
摘要由CSDN通过智能技术生成

1. 知识点

  • 正交化

        算法的部分调整和修改,不会对其他部分产生影响。

  • 单一数字评估指标:为模型设置一个单一的数字评估指标

         以猫的二分类为例。precision表示预测为猫的图片中,确实为猫的概率。Recall表示真实为猫的图片中,预测为猫的概率。F1是对前两者进行一个运算,F1_Score=2/(1/p+1/r)。

  • 满足指标和优化指标

        比如,要求模型耗时在1000ms内,预测准确率尽可能高,那么Running_time为满足指标,Accuracy为优化指标。

  •  训练集、开发集、测试集

        训练集、开发集、测试集和未来实际使用的数据要具有相似性。

        训练集、开发集、测试集从所有样本数据中随便划分。

        测试集足够大(>10000),能够在过拟合的模型中给出高方差的结果。

        开发集只要足够验证不同模型的优劣性即可,在百万大数据取1%大小就足够。、

  • 根据实际应用调整指标公式

        比如,两个猫的二分类模型,模型A的错误率是3%,模型B的错误率为5%,从指标看模型A更优。但在实际应用中,因为模型A的某些原因,错将一些深颜色的恐怕图片误判为黑色的猫,给用户推送,用户感受很不好。

        那么,则调整错误率指标公式,加入权重,将普通误差图片按权重为1计算,将误差图片为恐怕图片按权重100计算。这样模型A的错误率会快速增大。

  • 与人类的认识偏差相比较

         对于左边,人类认识的误差为1%,训练集偏差为8%,相差较多,训练集偏差有较大的优化空间。

        对于右边,人类认识的误差为7.5%,训练集偏差为8%,相当接近,训练集偏差几乎没有了优化空间,模型优化的方向应为减小测试集方差。

  • 改善模型

        减少可避免的偏差:训练更大的模型、训练更长时间、优化算法(Momentum\RMSprop\Adam)、用更好的网络架构(RNN、CNN)、调整超参数。

        减少方差:训练更多的数据、正则化(L2、dropout)、用更好的网络框架(RNN、CNN)、调整超参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值