一、回归与分类问题的定义:
根据标记的取值类型不同,机器学习任务可分为以下2类:
1、当标记取值为离散值时,称此类任务为“分类”。例如:西瓜分为好瓜、坏瓜。
当学习类别只有2个时----称为二分类
当学习类别超过2个时---称为多分类
2、当标记取值为连续值时,此类任务为“回归”。例如股票股价预测,新能源发电功率预测。
二、根据是否有用到标记信息,也可将机器学习任务分为以下两类:
用到标记信息,则为“监督学习”;没有用到,则为“无监督学习”。
三、独立同分布
详细概念是:假设样本空间服从一个未知的分布“D”,收集到的样本都是独立地从该分布中采样得到,即所谓的“独立同分布”。
有个栗子比较好理解:扔骰子,每次扔的结果都是独立不相关的。但若要求骰子两次之和大于某一个值,那么第一次和第二次仍就不独立,因为第二次仍的结果和第一次相关。
四、归纳偏好
记结论即可:哪个算法得到的模型在测试集上的效果好,算法就好。
五、数据决定模型上限,算法让模型无限逼近上限
数据质量很差,再怎么学习,也预测不准。
充分良好的数据情况下,不同算法存在适应性,测试集上效果好的,算法就好,预测出来的结果也会逼近真实。