机器学习秘籍

最新推荐文章于 2020-01-31 18:10:00 发布

谁用了尧哥这个昵称

最新推荐文章于 2020-01-31 18:10:00 发布

阅读量315

点赞数 1

分类专栏： AI 文章标签：机器学习

本文链接：https://blog.csdn.net/xuyaoqiaoyaoge/article/details/83549484

版权

AI 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

为什么深度到现在才流行起来？

1、海量的数据
2、计算规模足够大

学习算法的表现如何？

在这里插入图片描述
在小数据集情况下，传统算法是否会表现得更好，取决于人们如何进行特征选择工程。例如，假设你只有 20 个训练样本，那么使用逻辑回归还是神经网络可能无关紧要，此时人为的特征选择工程比起选择哪种算法将产生更大的影响。但如果你有 100 万个样本数据，推荐你使用神经网络。

开发集与测试集

1、训练集用于运行你的学习算法。
2、开发集用于调整参数，选择特征，以及对学习算法作出其它决定。
3、测试集用于评估算法的性能，但不会据此改变学习算法或参数。
4、开发集和测试集应该服从同一分布，且该分布是将来需要预测的数据的真实分布。
5、通常来说，开发集的规模应该在 1,000 到 10,000 个样本数据之间，整体 30% 的数据用作测试集，或者更少，比如10%。开发集和测试集的规模并不是越大越好。
6、如果算法在开发集上过拟合，则需要获取更多的开发集数据。如果开发集与测试集的数据分布和实际数据分布不同，则需要获取新的开发集和测试集。

使用单值评估指标进行优化

通过使用单值评估指标（如准确率），根据所有的模型在此指标上的表现，进行排序，从而能够快速确定哪一个模型的性能表现最好。比如：分类准确率、F1值等。
如果有多个指标，则需要组合多个评估指标进行评估。考虑 N 项不同的标准，比如模型的二进制文件大小、运行时间和准确率，你或许需要设置 N-1 个 “满意度” 指标，即先要求它们满足一定的值或范围，下一步才是定义一个 “优化” 指标。即其中N-1种只要满足一定的范围就算合格，最后剩下的那1种，就是需要优化的指标。

误差分析

根据开发集样本评估想法
1、收集若干个开发集中被误分类的样本，即造成系统误差的样本。查看误分类样本的这一过程称为误差分析。
2、假设你要处理某一种类型（eg.把狗分成了猫）的被误分类的样本，如果只有 5% 误分类的是狗，如果整个系统当前的精度为 90%（对应误差为 10%），那么这种改进最多能将精度提升到 90.5% （对应误差下降到9.5% ，改进了原有 10% 误差其中的 5%）。如果50% 的误分类图像是狗，它可以将精度从 90% 提升到 95% （相对误差减少 50%，整体误差由 10% 下降到 5%）。
3、在错误分类的样本中，找到占比最大的那一种类型，进行有针对的改进。
4、当训练集比较大时，考虑将训练集分为人为检查的 Eyeball 训练集和非人为检查的 Blackbox 训练集。如果在Eyeball 训练集上的性能比在Blackbox 训练集上好很多，说明你已过拟合 Eyeball 训练集，下一步应该考虑为其获取更多数据。Eyeball 训练集应该足够大，以便于算法有足够多的错误分类样本供你分析。对大多数应用来说，含有1000-10000个样本的 Blackbox 训练集已足够。

偏差和方差

训练错误率 = 0.5%
开发错误率 = 1%
它具有低偏差和低方差，该分类器效果很好

可避免偏差：即训练错误率和最优误差率之间的差值
方差：即开发错误和训练错误之间的差值。

如果你可以加大神经网络的规模且无限制地增加训练集数据，那么许多机器学习问题都可以取得很好的效果。

加大模型的规模通常可以减少偏差，但也可能会增加方差和过拟合的风险。然而，这种过拟合风险通常只在你不使用正则化技术的时候出现。如果你的算法含有一个精心设计的正则化方法，通常可以安全地加大模型的规模，而不用担心增加过拟合风险。

加大模型的规模，使得训练集效果提升；加入正则化，避免过拟合。

谁用了尧哥这个昵称

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习秘籍

为什么深度到现在才流行起来？1、海量的数据2、计算规模足够大学习算法的表现如何？在小数据集情况下，传统算法是否会表现得更好，取决于人们如何进行特征选择工程。例如，假设你只有 20 个训练样本，那么使用逻辑回归还是神经网络可能无关紧要，此时人为的特征选择工程比起选择哪种算法将产生更大的影响。但如果你有 100 万个样本数据，推荐你使用神经网络。开发集与测试集1、训练集用于运行你的学习算...
复制链接

扫一扫