为什么深度到现在才流行起来?
1、海量的数据
2、计算规模足够大
学习算法的表现如何?
在小数据集情况下,传统算法是否会表现得更好,取决于人们如何进行特征选择工程。例如,假设你只有 20 个训练样本,那么使用逻辑回归还是神经网络可能无关紧要,此时人为的特征选择工程比起选择哪种算法将产生更大的影响。但如果你有 100 万个样本数据,推荐你使用神经网络。
开发集与测试集
1、训练集用于运行你的学习算法。
2、开发集用于调整参数,选择特征,以及对学习算法作出其它决定。
3、测试集用于评估算法的性能,但不会据此改变学习算法或参数。
4、开发集和测试集应该服从同一分布,且该分布是将来需要预测的数据的真实分布。
5、通常来说,开发集的规模应该在 1,000 到 10,000 个样本数据之间,整体 30% 的数据用作测试集,或者更少,比如10%。开发集和测试集的规模并不是越大越好。
6、如果算法在开发集上过拟合,则需要获取更多的开发集数据。如果开发集与测试集的数据分布和实际数据分布不同,则需要获取新的开发集和测试集。
使用单值评估指标进行优化
通过使用单值评估指标(如准确率),根据所有的模型在此指标上的表现,进行排序,从而能够快速确定哪一个模型的性能表现最好。比如:分类准确率、F1值等。
如果有多个指标,则需要组合多个评估指标进行评估。考虑 N 项不同的标准,比如模型的二进制文件大小、运行时间和准确率,你或许需要设置 N-1 个 “满意度” 指标,即先要求它们满足一定的值或范围,下一步才是定义一个 “优化” 指标。即其中N-1种只要满足一定的范围就算合格,最后剩下的那1种,就是需要优化的指标。
误差分析
根据开发集样本评估想法
1、收集若干个开发集中被误分类的样本,即造成系统误差的样本。查看误分类样本的这一过程称为误差分析。
2、假设你要处理某一种类型(eg.把狗分成了猫)的被误分类的样本,如果只有 5% 误分类的是狗,如果整个系统当前的精度为 90%(对应误差为 10%),那么这种改进最多能将精度提升到 90.5% (对应误差下降到9.5% , 改进了原有 10% 误差其中的 5%)。如果50% 的误分类图像是狗,它可以将精度从 90% 提升到 95% (相对误差减少 50%,整体误差由 10% 下降到 5%)。
3、在错误分类的样本中,找到占比最大的那一种类型,进行有针对的改进。
4、当训练集比较大时,考虑将训练集分为人为检查的 Eyeball 训练集和非人为检查的 Blackbox 训练集。如果在Eyeball 训练集上的性能比在Blackbox 训练集上好很多,说明你已过拟合 Eyeball 训练集,下一步应该考虑为其获取更多数据。Eyeball 训练集应该足够大,以便于算法有足够多的错误分类样本供你分析。对大多数应用来说,含有1000-10000个样本的 Blackbox 训练集已足够。
偏差和方差
训练错误率 = 0.5%
开发错误率 = 1%
它具有低偏差和低方差,该分类器效果很好
可避免偏差:即训练错误率和最优误差率之间的差值
方差:即开发错误和训练错误之间的差值。
如果你可以加大神经网络的规模且无限制地增加训练集数据,那么许多机器学习问题都可以取得很好的效果。
加大模型的规模通常可以减少偏差,但也可能会增加方差和过拟合的风险。然而,这种过拟合风险通常只在你不使用正则化技术的时候出现。如果你的算法含有一个精心设计的正则化方法,通常可以安全地加大模型的规模,而不用担心增加过拟合风险。
加大模型的规模,使得训练集效果提升;加入正则化,避免过拟合。