Andrew Ng Machine Learning 专题【Machine Learning Advice】

最新推荐文章于 2024-06-26 09:48:29 发布

IronYoung

最新推荐文章于 2024-06-26 09:48:29 发布

阅读量1.5k

点赞数

分类专栏： Machine Learning Machine Learning 课程笔记文章标签：机器学习 bias variance F-score machine

本文链接：https://blog.csdn.net/ironyoung/article/details/48491237

版权

本文是关于Andrew Ng的Coursera机器学习课程中的Machine Learning Advice部分，重点讨论了欠拟合、过拟合的诊断和解决方法，包括训练集、测试集和交叉验证集的使用，以及如何通过调整特征数量、正则化系数来优化模型。此外，还介绍了Bias和Variance的概念，以及如何通过学习曲线来判断模型的优化方向。

摘要由CSDN通过智能技术生成

此文是斯坦福大学，机器学习界 superstar — Andrew Ng 所开设的 Coursera 课程：Machine Learning 的课程笔记。力求简洁，仅代表本人观点，不足之处希望大家探讨。
课程网址：https://www.coursera.org/learn/machine-learning/home/welcome

Week 6：Machine Learning Advice

Evaluating a Learning Algorithm
1. 如果一个机器学习方法的结果不令人满意，可能有各种方法来解决。例如：
  - 获取更多的训练样本（最为耗时，不作为优先考虑）
  - 尝试更少 / 更多的特征
  - 尝试引入多项式特征
  - 增加 / 减少正则化系数 $\lambda$
2. 究竟应该使用哪种方法来解决问题，需要一个诊断过程，称为 Maching Learning Diagnostic。为了更好的阐述，我们先引入两个名词：欠拟合、过拟合
  - 欠拟合：对于训练集，hypothesis 得到的结果，与真实的结果差距较大，并不能对样本集有效拟合；
  - 过拟合：对于训练集，hypothesis 得到的结果，与真实的结果差距较小；但是对于测试集，hypothesis 得到的结果，与真实的结果差距较大。这说明 hypothesis 的泛化能力较差，只是在训练集上得到的效果较好
3. 通常情况下，我们会得到一组数据而不是区分好的训练集与测试集。这时就需要我们做一些处理：首先打乱数据的次序，然后将其之前大约70%的部分来作为训练集，训练样本总数记为 $m$ ，训练样本记为 $\{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}),...\}$ ；剩下的30%部分作为测试集，测试样本总数记为 $m_{test}$ ，测试样本记为 $\{(x^{(1)}_{test}, y^{(1)}_{test}), (x^{(2)}_{test}, y^{(2)}_{test}),...\}$
4. 在测试集上，我们会计算 hypothesis 与真实数据的偏差。对于线性回归与逻辑回归，有一些不同。这些在之前的系列中都有提及：
  - 线性回归： J test (θ)=12m test ∑ i=1 m test (h θ (x (i) test )−y (i) te

最低0.47元/天解锁文章

IronYoung

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Andrew Ng Machine Learning 专题【Machine Learning Advice】

此文是斯坦福大学，机器学习界 superstar — Andrew Ng 所开设的 Coursera 课程：Machine Learning 的课程笔记。力求简洁，仅代表本人观点，不足之处希望大家探讨。课程网址：https://www.coursera.org/learn/machine-learning/home/welcome
复制链接

扫一扫

专栏目录