1 引言
1.1 机器学习的概念
机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。学习算法能够基于提供给它的经验数据产生模型。在面对新的情况时,模型会给我们提供相应的判断。
Mitchell给出了一个更形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
2 基本术语
- 数据集
- 样本
- 属性/特征
- 属性值
- 属性空间:属性的取值张成的空间
- 特征向量:每个样本都是属性空间中的一个坐标向量,所以把样本称为特征向量
- 维数:样本的属性数量
- 假设(hypothesis):模型(学习器)在数据中学习到的东西对应了关于数据的某种潜在的规律,因此称为“假设”
- 真实(ground-truth):这种潜在规律本身则称为“真实”
- 训练数据和测试数据
- 有监督学习和无监督学习
- 泛化能力:机器学习的目标是使学得的模型能很好地适用于“新样本”,学得模型适用于新样本的能力,称为泛化能力
通常假设样本空间中全体样本服从一个未知的分布。训练数据集只是样本空间的一个很小的采样。我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练数据越多,我们得到的关于的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。(现实任务的样本空间的规模通常很大)
3 假设空间
3.1 归纳学习
归纳是从特殊到一般的泛化 ,演绎是从一般到特殊的特化。因此,机器学习这种从“样例中学习”的学习算法显然是一个归纳的过程,因此亦称为“归纳学习”。
3.2 假设空间与搜索
我们可以把学习的过程看作一个在所有假设组成的空间中进行搜索的过程。搜索目标是找到与训练集匹配的假设。可以有许多策略对假设空间进行搜索:自顶而下、从一般到特殊、自底向上、从特殊到一般。搜索过程是一个不断删除和正例一致以及和反例不一致假设的过程。最终会得到与训练集一致的假设。通常,可能会有多个假设与训练集一致,我们称之为“版本空间”。
4 归纳偏好
4.1 归纳偏好
因为版本空间中的假设全部与训练集一致,如果学习算法产生的模型每次在进行预测时随机抽取选择训练集上的“等效”假设,那么学得模型对于同一个样本的判断将会是不确定的,这样的学习结果是没有意义的。因此,学习模型必须有某种偏好(可以是尽可能特殊的模型或者是尽可能一般的模型)才能得到唯一的模型。
4.2 假设选择
奥卡姆剃刀原则:若有多个假设与观察一直,则选择最简单的那个(如何衡量“简单”,同样值得商榷)
没有免费的午餐定理(NFI):无论算法a多么优秀,算法b多差劲,它们两个算法的期望性能是相同的。