机器学习分类
- 监督学习
- 无监督学习
一、监督学习
1 案例
-
案例1:假如现在要在某地买房子,横坐标是房子的大小,纵坐标是能卖出的价格。现在如果有人有750( f e e t 2 feet^2 feet2)的房子要卖,问能卖多少钱?
-
问题的解决:对于目前一直的统计数据,使用某种直线或曲线进行拟合。
-
-
案例2:根据特征预测是良性肿瘤还是恶性
-
根据肿瘤的大小来预测癌症是良性还是恶性(1个特征),表达式为一个一元函数 f ( t u m o r _ s i z e ) f(tumor\_size) f(tumor_size)
-
根据肿瘤的大小、病人的年龄来预测是良性还是恶性(2个特征),表达式为一个二元函数 f ( t u m o r _ s i z e , a g e ) f(tumor\_size,age) f(tumor_size,age)
学习算法的目的就是能在两种结果(良性、恶性)之间能够找出一条曲线,将这两类的结果分离开,从而能够预测良性或恶性的概率。
-
而实际案例中往往或遇到更多的特征需要考虑。
-
2 监督学习定义
对于监督学习,即使用给定的数据(标准答案)进行预测,有两类问题:
-
回归问题
回归问题(regression problem):预测输入变量 (自变量)和输出变量 (因变量)之间的关系。用于预测连续的数值输出。
在上面的例子中,案例一就是一个回归问题。因为房子的价格输出是一个连续值。输入和输出能构成一个连续的函数。
-
分类问题
分类问题(classification problem):用于预测离散的数值输出。
在上面的例子中,案例二就是一个分类问题。因为输出的只能是0或1,0代表良性,1代表恶性。
二、无监督学习
在监督学习中,我们已经被告知,数据集中什么是正确答案(哪些特征对应的是恶性,哪些是良性)。但在无监督学习中,数据集中的数据要么没有标签(正确答案),仅仅从数据集中找到某种结构。
比如说现在数据集的数据画在图上显示如下:
无监督学习算法,可以将这些数据分为两个簇(cluster),这就被称为聚类算法(clustering algorithm)。聚类算法的应用:google news 会有很多新闻的专栏,对于某一个专栏,会把很多与这个专栏有关的网站地址汇集到一起。即机器会自动浏览成千上万条的新闻,然后将所有的新闻分类,同一类的网址会显示到一起。