李航老师这本书基本全是干货,这笔记几乎是把全书抄了一遍!
目录
监督学习是从标注数据中学习模型的机器学习问题。
1.1 统计学习
统计学习(Statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。
统计学习的特点
学习的定义:如果一个系统学习的定义如果一个系统能够通过执行某个过程改进它的性能,这就是学习。
统计学习的对象
统计学习的对象是数据。数据分为由离散变量和连续变量表示的类型。本书以讨论离散变量的方法为主。
统计学习的目的
统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。
统计学习的方法
统计学习由监督学习、无监督学习和强化学习等组成。统计学习方法的三要素为模型(model)、策略(strategy)和算法(algorithm)。
实现统计学习方法的步骤如下:
- 得到一个有限的训练数据集合。
- 确定包含所有可能的模型的假设空间,即学习模型的集合。
- 确定模型选择的准则,即学习的策略。
- 实现求解最优模型的算法,即学习的算法。
- 通过学习方法选择最优模型。
- 利用学习的最优模型对新数据进行预测或分析。
统计学习的研究
统计学习研究一般包括统计学习方法、统计学习理论、统计学习应用三个方面。统计学习方法的研究旨统计学习方法的研究。统计学习理论的研究在于探索统计学习方法的有效性与效率,以及统计学习的基本理论问题。统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。
统计学习的重要性
- 统计学习是处理海量数据的有效方法。
- 统计学习是计算机智能化的有效手段。
- 统计学习是计算机科学发展的一个重要组成部分。
1.2 统计学习的分类
1.2.1 基本分类
监督学习
(1)输入空间、特征空间和输出空间
监督学习是指从标注数据中学习预测模型的机器学习问题。监督学习的本质是学习输入到输出的映射的统计规律。
在监督学习中将输入与输出所有可能取值的集合分别称为输入空间与输出空间。每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。所有特征向量存在的空间称为特征空间。课程空间的每一维对应于一个特征。
习惯习惯上输入变量写作X,输出变量写作Y。输入输出变量的取值用小写字母表示,输入变量的取值写作x,输出变量的取值写作y。除特别声明外,本书中向量均为列向量。
输入输出对又称为样本(sample)或样本点。
输入变量与输出变量均为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题成为分类问题;
输入变量与输出变量均为变量序列的预测问题称为标注问题。
(2)联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布 P(X,Y) 。P(X,Y) 表示分布函数或分布密度函数。训练数据测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。
(3)假设空间
学习的目的在于找到一个输入到输出的映射模型。模型属于输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X) 表示,随具体学习方法而定。对具体的输入进行相应的输出预测时写作P(y|x)或y=f(x)。
(4)问题的形式化
监督学习所用的标注训练数据往往是人工给出的,所以称为监督学习。监督学习分为学习和预测两个过程。由学习系统与预测系统完成,可以用下图来描述。
学习系统利用给定的训练数据集,通过学习或训练得到一个模型,表示为条件概率分布或决策函数。条件概率分布或决策函数描述输入与输出随机变量之间的映射关系。
在预测过程中,预测系统对于给定的测试样本集中的输入,由模型给出相应的输出。
无监督学习
无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。模型可以实现对数据的聚类、降维或概率估计。
强化学习
强化学习(reinforcement learning)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
这一部分没看明白!!!
半监督学习与主动学习
半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据,大量未标注数据。通常有少量标注数据,大量未标注数据。半监督学习旨在利用未标注数据中的信息辅助标注数据进行监督学习,以较低的成本达到较好的学习效果。
主动学习(active learning)是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。主动学习的目标是找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
1.2.2 按模型分类
概率模型与非概率模型
统计学习的模型可以分为概率模型(probabilistic model)(形式为P(y|x))和非概率模型(non-probabilistic model)(形式为y=f(x))或者确定性模型(deterministic model)。在监督学习中,概率模型是生成模型,非概率模型是判别模型。
条件概率分布和函数可以相互转化。概率模型一定可以表示为联合概率分布的形式,其中的变量表示输入、输出、隐变量甚至参数。
概率模型的代表是概率图模型(probabilistic graphical model),概率图模型是联合概率分布由有向或者无向图表示的概率模型,而联合概率分布可以根据图的结构分解为因子乘积的形式。贝叶斯网络、马尔可夫随机场、条件随机场是概率模型。无论模型如何复杂,均可以用最基本的加法规则和乘法规则进行概率推理。
线性模型与非线性模型
如果函数 y=f(x) 或 z=g(x) 是线性函数,则称模型是线性模型,否则称模型是非线性模型。
感知机、k近邻、k均值、潜在语义分析是线性模型;核函数支持向量机、AdaBoost、神经网络是非线性模型。深度学习实际是复杂神经网络的学习,也就是复杂的非线性模型的学习。
参数化模型与非参数化模型
参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;非参数化模型假设模型参数的维度不固定或者无穷大,随着训练数据量的增加而不断增大。
感知机、朴素贝叶斯、逻辑斯蒂回归等是参数化模型;支持向量机、决策树、AdaBoost等是非参数化模型。
参数化模型适合问题简单的情况,现实中问题比较复杂,非参数化模型更加有效。
1.2.3 按算法分类
根据算法,分为在线学习(online learning)与批量学习(batch learning),他们的区别是每次训练接受一个样本还是一批样本。
1.2.4 按技巧分类
贝叶斯学习
贝叶斯学习(Bayesian learning),又称贝叶斯推理(Bayesian inference)。其主要想法是,在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。
核方法
核方法(kernel method)是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。有一些线性模型的学习方法基于相似度计算,更具体地,向量内积计算。核方法可以把它们扩展到非线性模型的学习,使其应用范围更广泛。核函数支持向量机、核PCA、核k均值是核方法。
把线性模型扩展到非线性模型,直接的做法是显示地定义从输入控件(低维空间)到特征控件(高维空间)的映射,在特征空间中进行内积计算。
1.3 统计学习方法三要素
方法 = 模型 + 策略 + 算法
1.3.1 模型
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
1.3.2 策略
从假设空间中选取最有模型的准则就是策略。
损失函数和风险函数
用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数是预测值 f(X) 和 真实值 Y 的非负实值函数,记做 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))
统计学习常用的损失函数有:
(1)0-1 损失函数(0-1 loss function) L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{\begin{array}{l}1,\;Y\neq f(X)\\0,\;Y=f(X)\end{array}\right. L(Y,f(X))={
1,Y=f(X)0,Y=f(X)
(2)平方损失函数(quadratic loss function) L ( Y , f ( x ) ) = ( Y − f ( X ) ) 2 L(Y,f(x))=(Y-f(X))^2 L(Y,f(x))=(Y−f(X))2
(3)绝对损失函数(absolute loss function) L ( Y , f ( x ) )