1.1 基本术语
机器学习目标:使学得的模型能较好的适应于“新样本”。
学习/训练 | 从数据中学习得到模型的过程 |
训练集 | 训练过程中用到的样本 |
标记/标签 | 样本集的表现/输出 |
测试 | 学习得到模型后,利用样本对其进行测试的过程,其中所用到的样本为测试集。 |
泛化 | 学得模型适用于新样本的能力。 |
机器学习本质上是一种归纳算法,其在学习过程中对某种类型假设的偏好,称为“归纳偏好”,即“偏好”。打个比方,在对训练集进行训练后,得到几种训练规则,那么最终选择哪一个作为模型算法呢?这就是机器学习的偏好了,一般是基于该领域知识而产生的偏好,可以看做对人们生活经验中 影响较大的参数赋予较大的权重。
那么怎么引导算法建立正确的偏好呢?——“奥卡斯剃刀”,即在多数假设中,选择最简单最平滑的那一条曲线。(但对于分类问题难以选择出哪一条是简单的,因此还需要借助其他机制来选择)
事实上,归纳偏好对应学习算法本身所做出的关于“什么样的模型更好”的假设,在实际问题中,归纳偏好是否和问题本身相匹配,多数时候决定了该算法是否能取得较好的性能。