机器学习秘籍

为什么深度到现在才流行起来?

1、海量的数据
2、计算规模足够大

学习算法的表现如何?

在这里插入图片描述
在小数据集情况下,传统算法是否会表现得更好,取决于人们如何进行特征选择工程。例如,假设你只有 20 个训练样本,那么使用逻辑回归还是神经网络可能无关紧要,此时人为的特征选择工程比起选择哪种算法将产生更大的影响。但如果你有 100 万个样本数据,推荐你使用神经网络。

开发集与测试集

1、训练集用于运行你的学习算法。
2、开发集用于调整参数,选择特征,以及对学习算法作出其它决定。
3、测试集用于评估算法的性能,但不会据此改变学习算法或参数。
4、开发集和测试集应该服从同一分布,且该分布是将来需要预测的数据的真实分布。
5、通常来说,开发集的规模应该在 1,000 到 10,000 个样本数据之间,整体 30% 的数据用作测试集,或者更少,比如10%。开发集和测试集的规模并不是越大越好。
6、如果算法在开发集上过拟合,则需要获取更多的开发集数据。如果开发集与测试集的数据分布和实际数据分布不同,则需要获取新的开发集和测试集。

使用单值评估指标进行优化

通过使用单值评估指标(如准确率),根据所有的模型在此指标上的表现,进行排序,从而能够快速确定哪一个模型的性能表现最好。比如:分类准确率、F1值等。
如果有多个指标,则需要组合多个评估指标进行评估。考虑 N 项不同的标准,比如模型的二进制文件大小、运行时间和准确率,你或许需要设置 N-1 个 “满意度” 指标,即先要求它们满足一定的值或范围,下一步才是定义一个 “优化” 指标。即其中N-1种只要满足一定的范围就算合格,最后剩下的那1种,就是需要优化的指标。

误差分析

根据开发集样本评估想法
1、收集若干个开发集中被误分类的样本,即造成系统误差的样本。查看误分类样本的这一过程称为误差分析。
2、假设你要处理某一种类型(eg.把狗分成了猫)的被误分类的样本,如果只有 5% 误分类的是狗,如果整个系统当前的精度为 90%(对应误差为 10%),那么这种改进最多能将精度提升到 90.5% (对应误差下降到9.5% , 改进了原有 10% 误差其中的 5%)。如果50% 的误分类图像是狗,它可以将精度从 90% 提升到 95% (相对误差减少 50%,整体误差由 10% 下降到 5%)。
3、在错误分类的样本中,找到占比最大的那一种类型,进行有针对的改进。
4、当训练集比较大时,考虑将训练集分为人为检查的 Eyeball 训练集和非人为检查的 Blackbox 训练集。如果在Eyeball 训练集上的性能比在Blackbox 训练集上好很多,说明你已过拟合 Eyeball 训练集,下一步应该考虑为其获取更多数据。Eyeball 训练集应该足够大,以便于算法有足够多的错误分类样本供你分析。对大多数应用来说,含有1000-10000个样本的 Blackbox 训练集已足够。

偏差和方差

训练错误率 = 0.5%
开发错误率 = 1%
它具有低偏差和低方差,该分类器效果很好

可避免偏差​:即训练错误率和最优误差率之间的差值
方差​:即开发错误和训练错误之间的差值。

如果你可以加大神经网络的规模且无限制地增加训练集数据,那么许多机器学习问题都可以取得很好的效果。

加大模型的规模通常可以减少偏差,但也可能会增加方差和过拟合的风险。然而,这种过拟合风险通常只在你不使用正则化技术的时候出现。如果你的算法含有一个精心设计的正则化方法,通常可以安全地加大模型的规模,而不用担心增加过拟合风险。

加大模型的规模,使得训练集效果提升;加入正则化,避免过拟合。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值