吴恩达《Machine Learning Yearning》阅读
该书目的不是教你机器学习算法理论,而是教你如何使用这些算法
- 数据规模驱动机器学习从传统机器学习模型发展为深度学习,传统机器学习在大规模书籍下表现平缓,而深度学习随着数据量的增大表现越来越好。
- 小规模样本取决与ML特征工程的好坏,如果你有100万个样本数据,我会赞成你使用神经网络。
- 样本数据要具有典型性,开发集和测试集应该服从同一分布
- 算法选择根据单一指标做出决定
- 误差分析指的是检查被算法误分类的开发集样本的过程,以便帮助你找到造成这些误差的原因
- 误差分析帮助你决策下一步的方向
- 关于模型偏差、方差的概念,不同的偏差+方差组合需要采取不同的策略
- 可以通过训练一个大规模训练集将方差减少到接近零。因此只要拥有足够大的数据集,所有的方差都是可以“避免的”
- 要考虑最优错误率。并不是所有项目的最优错误率都是接近0%的,例如即使是“最优”的语音识别系统也可能约有 14% 的误差(即最高准确率为86%)
- 学习曲线、训练误差曲线告诉你是否有必要增大样本数据。并不是所有场景都需要增大样本的
- 如果算法在已知样本上达到了 85% 的精度,那么是不可能在未知样本上达到95%精度的,准确率只会更低。
- 许多机器学习系统的设计目的是想要自动化一些人类可以处理得很好的事情
暂放:强化学习、端到端、流水线组件
参考资料
https://link.zhihu.com/?target=https%3A//github.com/deeplearning-ai/machine-learning-yearning-cn/releases/download/v0.5.0/MLY-zh-cn.pdf