监督学习是从标注数据中学习模型的机器学习问题,是统计学习的重要组成部分。
1.1 统计学习
统计学习的特点
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
特点
- 以计算机及网络为平台,是建立在计算机及网络上的;
- 以数据为研究对象,是数据驱动的学科;
- 目的是对数据进行预测与分析;
- 以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
- 是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系和方法论。
“学习”定义: 一个系统能够通过执行某个过程改进它的性能。
统计学习就是计算机系统通过运行数据及统计方法提高系统性能的机器学习
统计学习的对象
统计学习的对象是数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
统计学习的前提:统计学习关于数据的基本假设是同类数据具有一定的统计规律性。
统计学习的目的
对数据的预测与分析是通过构建概率统计模型实现的。
统计学习总的目标:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。
统计学习的方法
统计学习的方法是基于数据构建概率统计模型从而对数据进行预测和分析。
统计学习方法概括:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测。
最优模型的选取由算法实现,包括模型的假设空间、模型选择的准则以及模型学习的算法,简称为三要素:模型、策略和算法。
实现统计学习方法的步骤:
(1)得到一个有限的训练数据的集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据及进行预测或分析。
1.2 统计学习的分类
基本分类
统计学习包括监督学习、无监督学习、强化学习、半监督学习、主动学习等。
监督学习
监督学习是指从标注数据中学习预测模型的机器学习问题。
实质是学习输入到输出的映射的统计规律。
(1)输入空间、特征空间与输出空间
输入空间:输入所有可能取值的集合
输出空间:输出所有可能取值的集合
特征空间:所有特征向量存在的空间称为特征空间。特征向量是每个具体输入(实例)的表示。特征空间的每一个维度对应一个特征。
输入输出变量用大写字母表示,输入输出变量的取值用小写字母表示.
输入实例x的特征向量记作:
监督学习从训练数据集合中学习模型,对测试数据进行预测。训练集通常表示为
输入与输出对又称为样本或样本点。
预测任务:
回归问题:输入输出变量均为连续变量的预测问题;
分类问题:输出变量为有限个离散变量的预测问题;
标注问题:输入变量与输出变量均为变量序列的预测问题。
(2)联合概率分布
监督学习假设输入与输出随机变量X和Y遵循联合概率分布P(X,Y)。
训练数据与测试数据被看作是依联合概率分布独立同分布产生的。
监督学习关于数据的基本假设:X和Y具有联合概率分布
(3)假设空间
监督学习的目的在于学习一个从输入到输出的映射,由模型表示。
模型属于由输入空间到输出空间的映射的集合,即假设空间。
假设空间的确定意味着学习范围的确定。
(4)问题的形式化
监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测。
监督学习分为学习和预测两个过程。
无监督学习
无监督学习是指从无标注数据中学习预测模型的机器学习问题,本质是学习数据中的统计规律或潜在结构。
强化学习
强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题,本质是学习最优的序贯决策。
智能系统的目标不是短期奖励的最大化,而是长期累积奖励的最大化 。
强化学习过程中,系统不断地试错,以达到学习最优策略的目的。
半监督学习与主动学习
半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
两者更接近于监督学习。
按模型分类
1.概率模型与非概率模型(确定性模型)
2.线性模型与非线性模型
3.参数化模型与非参数化模型
按算法分类
在线学习:每次接受一个样本,进行预测,之后学习模型,并不断重复。
批量学习:一次接受所有数据,学习模型,之后进行预测。
按技巧分类
1.贝叶斯学习
在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率(后验概率),并应用这个原理进行模型的估计,以及对数据的预测。
2.核方法
使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。
1.3 统计学习方法三要素
方法=模型+策略+算法
模型
首先考虑的问题是学习什么样的模型。 在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数为。
策略
接着需要考虑按照什么样的准则学习或选择最优的模型,目标在于从假设空间中选取最优的模型。
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型的好坏。
损失函数和风险函数
当样本容量N趋于无穷的时,经验风险趋于期望风险,自然有想法用经验风险估计期望风险。这涉及到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
经验风险最小化与结构风险最小化
经验风险最小化:
经验风险最小的模型就是最优的模型:
其中f为假设空间
问题:当样本容量很小时,学习的效果未必很好,会产生“过拟合”现象。
结构风险最小化:
为了防止“过拟合” 而提出的策略,等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项(罚项)。结构风险定义:
其中J(f)为模型复杂度,模型越复杂它就越大。
结构风险最小的模型就是最优的模型:
算法
算法是指学习模型中的具体计算方法。
统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型,统计学习问题归结为最优化问题。
1.4 模型评估与模型选择
1.4.1训练误差与测试误差
训练误差(训练数据集平均损失):
测试误差(测试数据集平均损失):
例:当损失函数是0-1损失时,测试误差就成了常见的测试数据集的误差率:
相应地,常见的测试数据集的准确率为:
显然:
1.4.2过拟合与模型选择
过拟合:一味追求提高对训练数据的预侧能力
过拟合是指学习时选择的模型所包含的参数过多,以至出现对己知数据预测得很好,但对未知数据预测得很差的现象。
描述了训练误差和测试误差与模型的复杂度之间的关系。当模型的复杂度增大时,训练误差会逐渐减小井趋向于 0; 而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。
1.5 正则化与交叉验证
1.5.1正则化
模型选择的典型方法是正则化,正则化是结构风险最小化策略的实现,是在经验风险的基础上加一个正则化项(一般为模型复杂度的单调递增函数)或罚项。
奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释己知数据并且十分简单才是最好的模型,也就是应该选择的模型。
1.5.2交叉验证
另一种常用的模型选择方法是交叉验证。
如果训练数据样本充足的情况下,进行模型选择的简单方法是随机的将这些数据分成三部分:训练集、验证集和测试集。
交叉验证基本想法
重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择.
简单交叉验证
首先随机地将己给数据分为两部分,一部分作为训练集,另一部分作为测试集;然后用训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
S折交叉脸证(应用最多)
首先随机地将已给数据切分为S个互不相交、大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均侧试误差最小的模型.
留一文叉验证
S折交叉验证的特殊情形是S=N(数据缺乏时用),N是给定数据集的容量
1.6 泛化能力
泛化误差
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。
事实上泛化误差就是所学习到的模型的期望风险。
泛化误差:对学习到的f(X)模型对未知数据预测的误差。
泛化误差上界
学习方法的泛化能力分析是通过研究泛化误差概率上界进行的,简称泛化误差上界。
泛化误差上界性质:
- 是样本容量的函数,当样本容量增加时,泛化上界趋于0;
- 是假设空间容量函数,假设空间容量越大,模型越难学,泛化误差上界越大。
1.7 生成模型与判别模型
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。
这个模型的一般形式为决策函数:Y=f(X)或者条件概率分布:P(Y|X)
监督学习方法又可以分为生成方法和判别方法。所学到模型称生成模型和判别模型。
生成方法(模型表示了给定输入X产生输出Y的生成关系)由数据学习联合概率分布 P(X,Y) 然后求出条件概率分布 P(Y|X)作为预测的模型,即生成模型:
判别方法由数据直接学习决策函数 f(X) 或者条件概率分布 P(Y|X) 作为预测的
模型,即判别模型。判别方法关心的是对给定的输入X应该预测什么样的输出Y。
生成方法的特点:
- 生成方法可以还原出联合概率分布 P(X Y) 而判别方法则不能
- 生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型
- 当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
判别方法的特点:
- 判别方法直接学习的是条件概率 P(Y|X) 或决策函数 f(X)直接面对预测,往往学习的准确率更高
- 由于直接学习 P(Y|X) f(X) 可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
1.8 监督学习应用
监督学习的应用主要在三个方面:分类问题、标注问题和回归问题。
1.8.1分类问题
在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题,这时,输入变量X可以是离散的,也可以是连续的。
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出的预测,称为分类。
分类准确率(评价分类器性能的指标) 定义:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,也就是损失函数是 0-1 损失时测试数据集上的准确率。
例:二类分类(类别为两个)常用评价指标精确度与召回率
- TP一一 将正类预测为正类数
- FN一一 将正类预测为负类数
- FP一一 将负类预测为正类数
- TN一一 将负类预测为负类数
精确率定义为:P=TP/(TP+FP)
召回率定义为:R=TP/(TP+FN)
此外,还有 F1 值,是精确率和召回率的调和均值,即:
1.8.2标注问题
标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测问题的简单形式。
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
评价标注模型的指标与评价分类模型的指标一样。
1.8.3回归问题
回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归模型正是表示从输入变量到输出变量之间映射的函数。
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据(参考1.4)。
按照输入变量的个数,分为一元回归和多元回归
按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归