按照Output Space可以分为:
二分类(binary classification):y={+1, -1}。比如:answer correct/incorrect。
多分类(multiclass classification):y={1, 2, ..., K}。比如:written digits ⇒ 0,1,··· ,9。
回归(regression):y=R。比如:company data ⇒ stock price。
结构学习(structured learning):y=structures。比如:sentence => structure(class of each word),y={PVN, PVP, NVP, PV, ...};speech data => speech parse tree。
其中,分类和回归是基本问题。
按照数据标签,可以分为:
1. 监督学习(supervised learning):全部是标注数据。如下图所示。
2. 无监督学习(unsupervised learning):数据集全部未标注。如下图所示。
3. 半监督学习(semi-supervised learning):数据集标注少量数据。如下图所示。
4. 增强学习(reinforcement learning):一种更加自然的学习方式。不直接告诉什么是正确的,而是通过惩罚不好的结果,奖励好的结果来增强学习的效果。通常用于广告系统中。如下图所示。
总结:
按照协议,可以分为:
1. 批量学习(batch learning)。最常用的一种协议。
例如:
batch of (patient, cancer) ⇒ cancer classifier
batch of patient data ⇒ group of patients
2. 在线学习(online learning)。有序地接受训练数据来学习。比如:垃圾邮件分类。PLA 很容易作为一种在线学习协议。
3. 主动学习(active learning)。只有少量标记的数据,通过有策略地(strategically)主动问问题方式来学习。
总结:
按照输入空间,可以分为:
1. 具体特征(concrete features)。例如:(size, mass) => coin classification。
2. 原始数据(raw features)。例如:16x16 gray image x≡ (0,0,0.9,0.6,···) ∈ R256 => 数字识别。
3. 抽象特征(abstract features)。对原始数据进行特征转化和抽取。例如:电影评分原始数据 (userid, itemid, rating),需要训练 rating. 但是(userid, itemid) 本身没有意义,需要进一步抽取。
总结:
转自:机器学习小蜜蜂
阅读伙伴公众号更多精彩内容,点击 “ 阅读原文 ”