引言
机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
而在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生模型的算法,即“学习算法”。
基本术语
其中简单的概念,不做阐述:
数据集——data set
实例/样本——instance/sample
属性/特征——attribute/feature
属性值——attribute value
属性空间——attribute space(属性张成的空间)
特征向量——feature vector
假设——hypothesis(学习所得的模型对应了数据的某种潜在规律,因此成为假设)
真相/真实——ground-truth(这种潜在规律本身)
标记——label(实例结果的信息)
样例——example(拥有标记的实例)
分类——classification(预测的是离散值)
回归——regression(预测的是连续值)
聚类——clustering
簇——cluster
监督学习——supervised learning
无监督学习——unsupervised learning
假设空间
从科学推理的角度看待机器学习(不太清楚为什么要把这些概念放在“假设空间”这一节里)
书上首先介绍了“归纳”和“演绎”。“归纳”和“演绎”是科学推理的两大基本手段,前者是从特殊到一般的”泛化“过程,即从具体的事实归结出一般性的规律;后者则是从一般到特殊的”特化“过程,即从基础原理推演出具体的状况。在“样例”中学习是一个归纳的过程,因此也成为“归纳学习”。
归纳学习也有狭义和广义的区别,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练过程中获得“概念”,因此亦称为“概念学习”或“概念形成”。概念学习技术目前研究、应用都比较少,因为要学得泛化性能好且语义明确的概念实在是太困难了,现实常用的技术大多是产生“黑箱”模型。然而对概念学习有所了解,有助于理解机器学习的一些基本思想。
假设空间
所有假设组成的空间。
版本空间:与训练集一致的“假设集合”(可能有多个假设与训练集一致)
归纳偏好
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上等效的“假设”所迷惑,而无法产生确定的学习结果。归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
那么有没有一般性的原则来引导算法确立正确的偏好呢?“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的法则,即“若有多个假设与观察一致,则选择最简单那个”。但是对于“简单”的定义并不明确。
接下来树上介绍了有关于“没有免费午餐”定理(No Free Lunch Theroem,简称NFL定理),即总误差与学习算法无关。
事实上,NFL定理的简短论述过程中假设了f的均匀分布,而实际情形并非如此。
NFL最重要的寓意,是让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有的学习算法都一样好。要谈论算法的相对优劣,必须针对具体的学习问题。
发展历程
(略)
应用现状
(略)