1. 什么是机器学习?
定义:机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。
研究内容:从数据中产生模型的算法,即学习算法。
机器学习=任务+方法+经验+性能
- 任务-T:机器学习要解决的问题(研究对象)
- 方法-A:各种机器学习方法(核心内容)
- 经验-E:训练模型的数据(动力源泉)
- 性能-P:方法针对任务的性能评估准则(检验指标)
任务-Task:
- 回归(Regression)
- 分类(Classification)
- 聚类(Clustering)
- 表征(Representation)
方法-Algorithm:
- 有监督学习(Supervised Learning):数据都有标签,模型将新数据分到一个明确的类或得到一个预测值。例如支持向量机(SVM)、贝叶斯分类器、决策树、线性判别分析(LDA)等。
- 无监督学习(Unsupervised Learning):数据没有标签,模型是从数据中提取出来的模式。例如K-means、Meanshift、主成分分析(PCA)、典型相关分析等。
- 半监督学习(Semi-supervised Learning):部分数据有标签,模型将新数据分到一个明确的类或得到一个预测值。例如图直推学习、超图直推学习等。
2. 基本术语
(1)数据集:训练集、测试集、验证集。
D = { x 1 , x 2 , . . . , x m } D=\{\bold{x}_1,\bold{x}_2,...,\bold{x}_m\} D={x1,x2,...,xm}表示包含 m m m个示例的数据集,每个示例表示为 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) \bold{x}_i=(x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid),维数为 d d d。
(2)示例=样本≠样例:示例(样本)如 x i \bold{x}_i xi,样例如 ( x i , y i ) (\bold{x}_i,y_i) (xi,yi),也就是说样例是有标签的示例。
每个示例是 d d d维样本空间中的一个向量,称为特征向量。
(3)属性≈特征:反映事件或对象在某方面的表现或性质的事项。
属性是事物本身所固有的性质,而特征是事物异于其他事物的特点。
(4)属性值:属性上的取值。
(5)属性空间=样本空间=输入空间=假设空间:由属性张成的空间。
(6)版本空间:与训练集一致的假设集合。由于这个空间会随训练集的“版本”不同而变化,因此称为版本空间。
(7)特征空间:排除线性相关和对模型构建无益处的属性后得到的空间。
(8)标记空间=输出空间:所有标记的集合。
(9)学习=训练:从数据中学得模型的过程。
(10)模型=假设=学习器:学得的模型。
(11)真相=真实:模型学到的潜在规律。
(12)泛化能力:学得模型适用于新样本(未见样本)的能力。
(13)独立同分布:假设样本空间中全体样本服从一个未知的分布,且每个样本都是独立的。
(14)归纳≠演绎:归纳是从特殊到一般的“泛化”过程,演绎是从一般到特殊的“特化”过程。
3. 归纳偏好
定义:机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其偏好。归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设,学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!
奥卡姆剃刀原则
若有多个假设与观察一致,则选最简单的那个。
没有免费午餐定理
一个算法A若在某些问题上好于算法B,则必定存在另一些问题B好于A。