1、从数据中习得模型被称为“训练”。
2、预测值为离散值被称为“分类”(好,坏),若为连续值(0.5,0.6)被称为“回归”.
3、训练数据是否存在标记信息,可分为“无监督”与“有监督”,分类和回归是“有监督”,“聚类”是无监督
4、机器学习的目标是使学得的模型很好地适用于”新样本“,将学得的模型适用于新样本的能力被称为“泛化”
5、可以把学习过程看作是一个在所有假设组成的空间中进行搜索的过程,目标是找到与训练集相匹配的假设
6、现实中通常面临很大的假设空间,但是学习过程使基于 有限样本训练集进行的,因此会出现多个假设与训练集一致,即有与训练集一致的“假设集合”的存在,称之为“版本空间”
7、在无法判断哪个“假设”更加优秀的情况下,学习算法本身的“偏好”将有关键作用。
8、任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的“假设”所迷惑,而无法产生确定的学习结果。
9、常用“奥卡姆剃刀”来引导“正确的”偏好,“若有多个假设与观察一致,则选用最简单的那个”,通常最困难的工作是如何判断哪一个最简单。
10、对于一个算法a,其在某些问题上比学习算法b好,但是一定存在另一些问题,使得b比a好。
11、脱离具体的问题,空泛谈论“什么学习算法更好”没有意义。若要谈论优劣,则必须针对具体的学习问题。