Andrew Ng 《Machine Learning》第一讲——Supervised Learning & Unsupervised Learning 学习笔记

最新推荐文章于 2024-06-25 00:27:22 发布

zhonglj0314

最新推荐文章于 2024-06-25 00:27:22 发布

阅读量3k

点赞数 2

分类专栏： Machine Learning 文章标签：机器学习 Andrew-Ng

本文链接：https://blog.csdn.net/zhonglj0314/article/details/54914055

版权

Machine Learning 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

一般的，机器学习的问题可分为有监督学习（Supervised）和无监督学习(Unsupervised)两类。

有监督学习（Supervised Learning）

首先以一个例子介绍什么是有监督学习。假设，现有一个关于房子面积和房价之间关系的数据集，数据集中的每个数据是房子面积和对应的房价。将这些数据绘制成如下图的红色×，其中横轴表示房子面积，纵轴表示房价。

需要解决的问题是预测当房子面积为750平方时，房价是多少。其中一种最简单的方法是根据图中的红色×拟合一条直线（如图中紫色线所示），然后进行预测。当然有许多更好的预测方法，例如拟合出一条更加贴近数据集的曲线（如下图中蓝色线所示）来进行预测。

上述就是一个有监督学习的例子。supervised learning refers to the fact thatwe gave the algorithm a data set in wich the "right answers" weregiven. 针对上述的例子而言，就是我们首先有一个数据集，在数据集中每个数据的房子面积都对应着“正确的”房价，而我们的目的就是产生更多的“正确”房价，例如当房子面积为750平方时的房价。更确切的讲，上述例子是一个回归问题（regression problem）。回归问题的预测结果是连续的取值，例如例子中的房价。

再来看另一个有监督学习的例子。假设，现有一个肿瘤大小和是否恶性的数据集，数据集中每个数据是观测到的肿瘤大小和其是否是恶性的判断结果。将这些数据绘制成如下图，其中横轴表示肿瘤大小，纵轴表示是否是恶性肿瘤，1表示是，0表示否。如图所示，数据集中有五个良性肿瘤的数据（蓝色的×）和五个恶性肿瘤的数据（红色的×）。

需要解决的问题是预测肿瘤大小为某个给定的值时（例如下图中紫色的值），其是良性肿瘤还是恶性肿瘤。

这是一个有监督学习中分类问题的例子。分类问题的预测结果是离散的取值，例如例子中预测结果是1或0.分类问题的预测结果可以是多个离散值，并不仅限于两个。

上述例子中我们只利用了数据的一个特征（肿瘤大小），当数据特征增加时，例如增加患者年龄这个特征，数据集可以绘制如下图，其中横轴为肿瘤大小，纵轴为患者年龄，蓝色的圈代表良性肿瘤的数据，红色的×代表恶性肿瘤的数据。

分类问题中可以根据这些特征学习出将良性肿瘤和恶性肿瘤分类的界限。在机器学习算法中一般需要处理的数据具有很多特征，所以如何有效的处理大量的特征成为机器学习算法的一个问题，解决这个问题的一种方式是支持向量机。

总结：有监督学习需要有一个包含“正确答案”的数据集，例如房价，是否恶性肿瘤，有监督学习算法解决的目标问题是产生更多的“正确答案”，例如预测房子面积为750平方时的房价，指定肿瘤大小预测是否是恶性肿瘤。有监督学习包含了回归问题（预测结果为连续值）和分类问题（预测结果为有限个离散值）。可以认为回归问题是建立输入和某个连续函数之间的map，分类问题是建立输入和某个离散函数之间的map。