Andrew Ng 《Machine Learning》第一讲——Supervised Learning & Unsupervised Learning 学习笔记

一般的,机器学习的问题可分为有监督学习(Supervised)和无监督学习(Unsupervised)两类。

有监督学习(Supervised Learning

首先以一个例子介绍什么是有监督学习。假设,现有一个关于房子面积和房价之间关系的数据集,数据集中的每个数据是房子面积和对应的房价。将这些数据绘制成如下图的红色×,其中横轴表示房子面积,纵轴表示房价。


需要解决的问题是预测当房子面积为750平方时,房价是多少。其中一种最简单的方法是根据图中的红色×拟合一条直线(如图中紫色线所示),然后进行预测。当然有许多更好的预测方法,例如拟合出一条更加贴近数据集的曲线(如下图中蓝色线所示)来进行预测。


上述就是一个有监督学习的例子。supervised learning refers to the fact thatwe gave the algorithm a data set in wich the "right answers" weregiven. 针对上述的例子而言,就是我们首先有一个数据集,在数据集中每个数据的房子面积都对应着正确的房价,而我们的目的就是产生更多的正确房价,例如当房子面积为750平方时的房价。更确切的讲,上述例子是一个回归问题(regression problem)。回归问题的预测结果是连续的取值,例如例子中的房价。

再来看另一个有监督学习的例子。假设,现有一个肿瘤大小和是否恶性的数据集,数据集中每个数据是观测到的肿瘤大小和其是否是恶性的判断结果。将这些数据绘制成如下图,其中横轴表示肿瘤大小,纵轴表示是否是恶性肿瘤,1表示是,0表示否。如图所示,数据集中有五个良性肿瘤的数据(蓝色的×)和五个恶性肿瘤的数据(红色的×)。

需要解决的问题是预测肿瘤大小为某个给定的值时(例如下图中紫色的值),其是良性肿瘤还是恶性肿瘤。


这是一个有监督学习中分类问题的例子。分类问题的预测结果是离散的取值,例如例子中预测结果是10.分类问题的预测结果可以是多个离散值,并不仅限于两个。

上述例子中我们只利用了数据的一个特征(肿瘤大小),当数据特征增加时,例如增加患者年龄这个特征,数据集可以绘制如下图,其中横轴为肿瘤大小,纵轴为患者年龄,蓝色的圈代表良性肿瘤的数据,红色的×代表恶性肿瘤的数据。


分类问题中可以根据这些特征学习出将良性肿瘤和恶性肿瘤分类的界限。在机器学习算法中一般需要处理的数据具有很多特征,所以如何有效的处理大量的特征成为机器学习算法的一个问题,解决这个问题的一种方式是支持向量机。

总结:有监督学习需要有一个包含正确答案的数据集,例如房价,是否恶性肿瘤,有监督学习算法解决的目标问题是产生更多的正确答案,例如预测房子面积为750平方时的房价,指定肿瘤大小预测是否是恶性肿瘤。有监督学习包含了回归问题(预测结果为连续值)和分类问题(预测结果为有限个离散值)。可以认为回归问题是建立输入和某个连续函数之间的map,分类问题是建立输入和某个离散函数之间的map

无监督学习(Unsupervised Learning)

与有监督学习不同,提供给无监督学习的数据集中不包含正确答案,而是需要算法发现数据集中的结构等信息。例如下图,算法自动发现数据集中的数据形成两簇,这种算法称为聚类(clustering),是一种应用广泛的无监督学习问题。


总结:提供给无监督学习的数据集中不包含正确的答案,无监督学习可以自动发现数据集中的结构,学习结果也不会得到反馈。

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值