本节课主要讲述了机器学习的一些分类方式,主要可以从以下四个方面进行分类。
learning with different output space
learning with different data label
learning with different protocol
learning with different input space
一、output space 输出空间
1、分类问题
binary classification 二元分类,输出y={+1,-1},有点类似是非题
multiclass classification 多元分类 输出y={1,2,....,K},类似选择题
应用领域:recognition识别问题,例如coin recognition problem 货币识别问题
2、regression 回归分析
理解:输出y为一个实数。如果y属于全体实数,或者y有一个范围(bounded regression)
举例:患者是否患有癌症--这是一个二元分类问题
患者的癌症是什么类型的---这是一个多元分类问题
而如果求患者的癌症需要花多少天治疗---这是一个回归分析问题
应用领域:根据公司数据预测股票价格,根据气候数据预测温度值。
3、structured learning :结构化学习
理解: 输出y为结构,很大的多类别问题
举例:sequence tagging problem 词性问题
如果输入以word为单位,要判断单词的词性-->这属于多元分类
如果输入以sentence为单位,要求判断单词的词性(根据正确句子的可能性判断)--> 这属于structured learning
应用领域:输入为蛋白质资料,输出为蛋白质3D立体图形。输入为一段话,输出为每个词在话语中的关系。输出空间有某种结构在里面,要求学习这些结构。
二、data label 资料中的标签
1、supervised learning 监督学习
理解:所有的输入都有所对应的输出
问题:recognition revisited
有一堆铜板,已知里面有四种类型,分成四类。
2、unsupervised learning 无监督学习
理解:完全没有输出数据
问题:coin recognition without Yn
有一堆铜板,机器自己分成一堆一堆。clustering
通过无监督学习,即使没有输出,也可以利用输入数据学习一些东西:
(1)、分群,
(2)、给电脑一群点,点在哪些地方比较稠密,例如:事故发生几率。
(3)、有一堆资料,其中小部分数据不正常,自动判决出这些不正常数据。
监督学习明确目标,无监督学习的目标比较分散,较难衡量算法的好坏。
3、semi-supervised:半监督学习
理解:有部分输出数据
中间情形: 有一堆数据,部分数据知道其输出,其余数据不知道其输出。
存在的原因:我们不可能给所有data都打上label。例如测试药物,其代价很大,我们只可能给做有限个实验,给部分数据打上label。
4:reinforcement learning:增强式学习
理解:没有输出,但是有额外辅助的资讯。
训练宠物:我们叫宠物坐下时候,宠物不一定会坐下,而且我们也很难直接教宠物坐下。此时宠物可能会撒尿,或者会坐下。当宠物撒尿时,我们惩罚它,而当宠物坐下时,我们奖励它。
想象的输出的yn不容易直接描述,但是可以判定另外的输出的yn'好坏。
广告系统:输入-顾客资料 输出-投放广告 输出的好坏--用户点击率。
1、batch learning:“填鸭式学习”。资料data成批输入进行机器学习,得到一个较好的hypothesis。
2、online learning:“循序渐进学习”。资料data每次只输入一个数据给,每次都会更新机器学习的算法,得到的hypothesis会比上一次好。
以上两种均为被动学习
3、active learning:主动学习“让机器有提问的能力”,例如:得到label花费比较贵的场合。
四、Input space
1、concrete features:具体
理解:输入数据的特征是比较具体的东西
举例:手写数字辨识问题
我们可以定义输入的特征为:x=(对称性, 密度),以此来进行数字的辨识。例如,数字1的对称性比数字5好,但是数字1在格子中所占的密度比数字5要小。
2、raw features:原始
理解:输入数据的特征是原始特征
举例:手写数字辨识问题
此时如果我们将一个格子分成16*16的小格子, 那么输入x = 16*16,每个数字都是一个256维度的向量。我们所要做的事情就是抽象特征转变为具体特征
如果这个步骤由人做:feature engineering
如果这个步骤由机器做:deep learning
3、abstract features:抽象
举例:预测使用者给歌曲打分的问题:
输出:分数(一个实数)----regression问题
输入:使用者ID,歌曲ID。需要抽取使用者和歌曲的特征。
need features conversion /extraction/ construction。