统计学习方法 李航 第一章

第一章 统计学习及监督学习概论

1.1 统计学习

1.特点:

1.概念纠正即第一眼看到统计学习以为主要是应用在数学上的知识,其实统计学习又叫统计机器学习或者直接称之为机器学习,机器学习这个概念就会相对容易理解,它是以计算机以及网络为依托,以数据为研究对象,对数据进行预测与分析。

2.它是多个学科,概率论,统计学,计算机学等多个学科的交叉学科,从中发展出属于自己的独立学科体系。在学习本课程之前,需要有高等数学,概率论以及线性代数的部分相关重要知识,同时具有一定的编程能力也是必要的。

2.学习本课程的目的

通过使用本课程介绍的模型方法可以对数据进行预测与分析,使得计算机更加智能化,计算机的性能得以提升,为人类带来更好的发现。

3.统计学习的具体步骤

1.得到一个有限的训练数据集合
2.确定包含所有可能的模型的假设空间,即学习模型的集合
3.确定选择模型的标准,这些标准称之为学习的策略
4.实现求解最优模型的算法 ,称之为学习的算法
5.找到最优模型
6.利用最优模型对新数据进行预测与分析

 由浅入深的例子:人脸识别,那么最初大家上传的自己的人脸构成一个有限的训练数据集合,根据已有的知识可以有很多种处理方法称之为假设空间,确定处理这些人脸数据的标准称之为学习的策略,然后找到处理这些数据的最优模型,即最佳适配这些人脸的算法,即找到最优模型。通过这个模型来进行人脸识别,即当一个人在楼下进行人脸识别时此时就是利用最优模型对新数据进行预测与分析。

1.2 机器学习的分类

1.2.1 基本分类

机器学习主要包括监督学习,无监督学习,强化学习以及半监督学习和主动学习。

(1)监督学习

监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。所谓的标注数据可以理解为标注好的数据,即一张人脸对应于一个ID,最优模型就是使得每一张脸能更好的匹配到唯一的ID,使得这种唯一性的准确率达到最优,以后如果一个人对着小区的人脸识别机器进行识别的时候,模型就会根据输入的人脸进行分析预测这个人是否属于本小区的人。

那么此时引入输入空间与输出空间的概念就比较好理解,人脸图片就属于输入空间,但是通常会将这些人脸图片进行处理为一组向量,每一个具体的输入就是一个实例,通常由特征向量表示,特征向量存在的空间称之为特征空间。

有时候特征空间与输入空间是一样的,有时候是不一样的,不一样的时候,就需要将实例从输入空间映射到特征空间。模型是定义在特征空间的。

简单理解就是一个在小区门口实时传上的照片的数据不是我们全部要的,这个属于输入空间,需要对其进行一定的处理,即可能需要提取出精准部位的数据构成特征空间。输入空间用大写字母X表示,输出空间采用Y表示。

输入变量X与输出变量Y有不同的类型,可以是连续的也可以是离散的,当X与Y均为连续型随机变量时,我们对于这样的问题称之为回归问题,当Y为离散型随机变量时称之为分类问题
监督学习分为学习与预测两个过程,包括学习系统与预测系统。

在这里插入图片描述

(2)非监督学习

无监督学习就是指从没有标注好的数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别,转换以及概率,监督学习的本质是找到输入到输出的映射的统计规律。而无监督学习的本质是找到这些无规律数据中的统计规律或者潜在结构。
无监督学习既可以用于对已有数据的分析,也可以用于对未来数据的预测。分析可以是对数据进行聚类,降维或者概率估计。而预测与监督学习差不多,先学习将数据进行聚类,然后再对新数据进行分类。

(3)强化学习

强化学习是指智能系统在与环境的联系互动中学习最优行为策略的机器学习问题。
简单理解即监督学习的模型是静止的,即通过一定的学习使得模型固定下来,而强化学习的模型是动态的,即根据环境的连续变化使得模型不断优化。
在这里插入图片描述

在每一次的互动称之为t中,智能系统从环境中观测到一个状态St与一个奖励Rt,然后采取一个动作action,环境根据这个action再做出对系统的St和Rt,智能系统的目标不是短期奖励的最大化,而是长期奖励的最大化。

(4)半监督学习与主动学习

半监督学习(semi-supervised learning)是利用指标注数据与未标注数据让机器学习预测模型的机器学习问题。
主动学习(active learning)是指机器不断主动给出实例使得工作人员进行标注,然后使用标注数据学习预测模型的机器学习问题。

1.2.2 按模型分类

按照模型分类可以分为概率模型与非概率模型,线性模型与非线性模型,参数化模型与非参数化模型。

(1)概率模型与非概率模型
1.在监督学习中,概率模型采用条件概率分布形式P(y|x),称之为生成模型;非概率模型采用函数形式y=f(x),称之为判别模型。
2.在非监督学习中,概率模型采用条件概率分布形式P(z|x)或者P(x|z),其中x为输入,z为输出。
3.两者之间可以相互转化,当条件概率分布最大化后得到函数,函数归一化以后得到条件概率分布。
(2)线性模型与非线性模型
 对于非概率模型来说,如果函数y=f(x)是线性函数则称之为线性模型,否则称之为非线性模型。
(3)参数化模型与非参数化模型
参数化模型即模型的参数可以用有限个参数完全刻画,而非参数化模型假设模型参数的维度是不断变化的或者说是无穷大的。

后面介绍的感知机,朴素贝叶斯,逻辑斯谛回归,k均值都是参数化模型,而K近邻,决策树都是非参数化模型。

1.2.3 按算法分类

根据算法,可以分为在线学习与批量学习,在线学习就是实时动态地学习,每次接受一个样本,进行预测,之后学习模型,并且不断重复,强化学习就是在线学习的一种,批量学习就是一次接受所有的数据进行学习,然后再进行预测。其实很多的实际应用场景都是要求在线学习的。

1.2 机器学习方法的三要素

方法=模型+策略+算法

(1)在监督学习中模型就是学习的条件概率分布或者决策函数,而假设空间就是包含所有可能的条件概率分布或者决策函数,如果决策函数是线性函数,那么假设空间就是构成这些线性函数的函数集合。
(2)有了模型的假设空间,紧接着就要考虑最优的模型,学习的目标就是在于从假设空间中选取最优模型。
(3)损失函数:主要用来度量一次预测的好坏,风险函数:是用来度量平均意义下模型预测的好坏。
监督学习问题是在假设空间中选取模型f作为决策函数,对于给定的输入X,由f(X)给出相应的输出结果,这个预测值f(X)与真实结果Y具有一定的差距,用损失函数来表示这个差距的程度。损失函数是f(X)与Y的非负实值函数,记作L(Y,f(X))。
常见的损失函数:

  1. 0-1 损失函数(0-1 loss function)
    L ( Y , f ( X ) ) = { 0 , Y ≠ f ( X ) 1 , Y = f ( X ) L(Y,f(X))=\left\{ \begin{aligned} 0, Y≠f(X) \\ 1, Y=f(X) \end{aligned} \right. L(Y,f(X))={0,Y=f(X)1,Y=f(X)
    2.平方损失函数 (quadratic loss function)
    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))² L(Y,f(X))=(Yf(X))2
    损失函数值越小,模型就越好,由于输入与输出(X,Y)是随机变量,遵循联合分布P(X,Y)。

    损失函数的数学期望E[L(Y,f(X))]就是风险函数或期望损失。
    

学习的目标是选择风险函数最小的模型,然而由于联合函数P(X,Y)是未知的,所以监督学习就成为了一个病态问题。
对于给定的训练集T={(x1,y1),(x2,y2),…,(xn,yn)};
模型f(X)关于训练数据集的平均损失称之为经验风险或者经验损失,记作R。

根据大数定律,当样本数量N趋于无穷时,可以使用经验风险R趋于期望风险,但是由于现实中训练样本数量有限,所以要对经验风险进行矫正。

所以在监督学习中使用经验风险最小化与结构风险最小化,一般将经验风险最小的模型称之为最优模型。

极大似然估计就是经验风险最小化的一个典型范例。

当样本容量很小的时候,经验风险最小化学习的结果未必很好,会出现“过拟合"现象。此时会采用结构风险最小化的策略,结构风险最小化等同于正则化。

1.2 正则化与交叉验证

这是模型选择的两种典型方法,刚刚上面讲的就是正则化,还有一种是交叉验证。

对于样本充足的一组数据来说,可以将其分为三份,训练集,验证集以及测试集。训练集用来训练模型,验证集用于模型的选择,最后测试集用来最后对模型的评估。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值