统计学习方法-1

统计学习

  • 统计学习的对象是数据(data),从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去
  • 统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成
  • 统计学习方法三要素:模型、策略和算法

实现统计学习方法的步骤:

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的算法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测或分析

监督学习

任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测

基本概念

  • 输入空间、输出空间:输入与输出所有可能取值的集合。通常输出空间远远小于输入空间
  • 特征向量:表示每一个具体输入的实例
  • 特征空间:所有特征向量存在的空间
  • 联合概率分布:监督学习假设输入输出的随机变量X,Y遵循联合概率分布P(X,Y)。P(X,Y)称为分布函数或分布密度函数
  • 假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间
  • 习惯上输入变量写作X,输出变量写作Y
  • 输入、输出变量所取的值用小写字母表示 x , y x,y x,y
  • 回归问题:输入输出变量均为连续变量
  • 分类问题:输出变量为有限个离散变量
  • 标注问题:输入输出变量均为变量序列的预测问题

问题的形式化

学习系统利用给定的训练数据集,通过学习(或训练)得到一个模型,表示为 条件概率分布 P ^ ( Y ∣ X ) \hat{P}(Y|X) P^(YX) 或者 决策函数 Y = f ^ ( X ) Y=\hat{f}(X) Y=f^(X) 。条件概率分布或决策函数描述输入与输出随机变量之间的映射关系。

统计模型三要素

模型

在监督学习中,模型就是所要学习的条件概率分布或决策函数。
模型的假设空间包含所有可能的条件概率分布或决策函数

策略

  • 损失函数:度量模型一次预测的好坏

度量预测错误的程度。是f(X)和Y的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))

常用的损失函数:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 风险函数:度量平均意义下模型预测的好坏

损失函数越小,模型就越好。由于模型的输入、输出(X,Y)是随机变量,遵循联合概率分布P(X,Y),所有损失函数的期望是:

在这里插入图片描述
这是理论上模型f(X)关于联合概率分布的平均意义下的损失,称为风险函数期望损失

  • 由于联合分布P(X,Y)未知, R e x p ( f ) R_{exp}(f) Rexp(f)不能直接计算
  • 但如果已知联合分布,可以从联合分布直接求出条件概率分布P(Y|X),也就不需要学习了
  • 给定一个训练数据集,模型f(X)关于训练数据集的平均损失称为经验风险经验损失,记作 R e m p ( f ) R_{emp}(f) Remp(f)
    在这里插入图片描述
  • 期望风险 R e x p ( f ) R_{exp}(f) Rexp(f)是模型关于联合分布的期望损失
  • 经验风险 R e m p ( f ) R_{emp}(f) Remp(f)是模型关于训练样本集的平均损失
  • 根据大数定律(抛硬币的例子),当样本容量N趋于无穷时,经验风险趋于期望风险。所以用经验风险估计期望风险。
  • 但现实中训练样本数目有限,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正。(—引入结构风险)
  • 经验风险最小化

经验风险最小化(empirical risk minimization,ERM):经验风险最小的模型是最优的模型。根据这一策略,求最优化模型就是求解最优化问题: min ⁡ f ϵ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) , F 是假设空间 \displaystyle \min_{ f\epsilon F}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})),F是假设空间 fϵFminN1i=1NL(yi,f(xi))F是假设空间


例子: 极大似然估计


样本容量很小时,会产生过拟合现象

  • 结构风险最小化

结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出的策略。

  • 等价于正则化
  • 是在经验风险上加上表示模型复杂度的正则化项或罚项

在假设空间、损失函数以及训练数据集确定的情况下,结构风险定义为: R S R M ( f ) = 1 N ∑ i − 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{SRM}(f)=\frac{1}{N}\sum_{i-1}^{N}L(y_{i},f(x_{i}))+\lambda J(f) RSRM(f)=N1i1NL(yi,f(xi))+λJ(f)

  • J(f):模型复杂度
  • 模型f越复杂,复杂度就越大
  • 复杂度表示了对复杂模型的惩罚
  • λ ≥ 0 \lambda \geq 0 λ0是系数,用来权衡经验风险和模型复杂度

例子:贝叶斯估计中的最大后验概率(MAP)


求最优模型,就是求解最优化问题: min ⁡ f ϵ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \displaystyle \min_{ f\epsilon F}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f) fϵFminN1i=1NL(yi,f(xi))+λJ(f)

算法

是学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

模型评估与模型选择

训练误差与测试误差

  • 训练误差:是模型关于训练数据集的平均损失
  • 测试误差:是模型关于测试数据集的平均损失
  • 测试误差反映了学习方法对应未知的测试数据集的预测能力。通常将学习方法对未知数据的预测能力称为泛化能力

过拟合与模型选择

如果一味追求提高训练数据的预测能力,所选模型的复杂度往往会比真模型更高,这种现象称为过拟合

  • 过拟合是指学习时模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对位置数据预测得很差的现象。

在这里插入图片描述
上图即是过拟合的例子,曲线经过每个数据点。

在学习时防止过拟合,进行最优的模型选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

  • 正则化
  • 交叉验证

正则化与交叉验证

正则化

  • 模型选择的典型方法是正则化。
  • 正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。
  • 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。

一般形式:
m i n f ϵ F 1 N ∑ i − 1 N L ( y i , f ( x i ) ) + λ J ( f ) min_{f\epsilon F}\frac{1}{N}\sum_{i-1}^{N}L(y_{i},f(x_{i}))+\lambda J(f) minfϵFN1i1NL(yi,f(xi))+λJ(f)

  • 第一项是经验风险
  • 第二项是正则化项
  • λ ⩾ 0 \lambda\geqslant0 λ0为调整两者之间关系的系数

L 2 L_{2} L2范数(回归问题中,损失函数是平方损失)

  • L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ 2 ∥ w ∥ 2 L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_{i};w)-y_{i})^{2}+\frac{\lambda}{2} \left\|w \right\|^{2} L(w)=N1i=1N(f(xi;w)yi)2+2λw2
  • ∥ w ∥ \left\|w\right\| w表示参数向量 w w w L 2 L_{2} L2范数

L 1 L_{1} L1范数

  • L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ ∥ w ∥ 1 L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_{i};w)-y_{i})^{2}+\lambda \left\|w \right\|_{1} L(w)=N1i=1N(f(xi;w)yi)2+λw1
  • ∥ w ∥ 1 \left\|w\right\|_{1} w1表示参数向量 w w w L 1 L_{1} L1范数

交叉验证

  • 模型选择的常用方法
  • 基本想法是重复地使用数据
  • 把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择

简单交叉验证
1、随机将数据分为两部分,训练集和测试集
2、用训练集在各种条件下训练模型(e.g.不同参数个数)
3、在测试集上评价各个模型的测试误差,选出测试误差最小的模型

S折交叉验证
1、随机将数据切分为S个互不相交的大小相同的子集
2、利用S-1个子集的数据训练模型,余下的子集测试模型
3、选出S次评测中平均误差最小的模型

留一交叉验证
S折交叉验证的特殊情形是S=N,成为留一交叉验证,往往在数据缺乏的情况下使用,这里的N是给定数据集的容量

泛化能力

泛化误差

如果学到的模型是 f ^ \hat{f} f^,那么利用这个模型对未知数据预测的误差即为泛化误差

  • R e x p ( f ^ ) = E p [ L ( Y , f ^ ( x ) ) ] = ∫ χ × y L ( y , f ^ ( x ) ) P ( x , y ) d x d y R_{exp}(\hat{f})=E_{p}[L(Y,\hat{f}(x))]=\int _{\chi \times y}L(y,\hat{f}(x))P(x,y)dxdy Rexp(f^)=Ep[L(Y,f^(x))]=χ×yL(y,f^(x))P(x,y)dxdy

泛化误差上界

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界

  • 通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

生成模型和判别模型

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:

  • P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(YX)=P(X)P(X,Y)
  • 这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系
  • 典型的生成模型由:朴素贝叶斯法和隐马尔可夫模型

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型

  • 判别方法关系的是对给定的输入X,应该预测什么样的输出Y
  • 典型的判别模型有:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等

分类问题

监督学习中,输出变量Y取有限个离散值时,预测问题便成为分类问题。

  • 学习:根据已知训练数据集利用有效的学习方法学习一个分类器
  • 分类:利用学习的分类器对新的输入实例进行分类
  • 二分类问题常用评价指标:
    TP——将正类预测为正类数
    FN——将正类预测为负类数
    FP——将负类预测为正类数
    TN——将负类预测为负类数
  • 精确率: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
  • 召回率: R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
  • F 1 F_{1} F1值: 2 F = 1 P + 1 R \frac{2}{F}=\frac{1}{P}+\frac{1}{R} F2=P1+R1
    F 1 = 2 T P 2 T P + F P + F N F_{1}=\frac{2TP}{2TP+FP+FN} F1=2TP+FP+FN2TP

在这里插入图片描述

标注问题

  • 可以认为是分类问题的一个推广,是更复杂的结构预测问题的简单形式
  • 输入是一个观测序列,输出是一个标记序列或状态序列
  • 目的在于学习一个模型,使它能够对观测序列给出标记序列作为预测
  • 分为学习和标注两个过程
  • 标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列

在这里插入图片描述

回归问题

  • 用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化
  • 回归模型表示从输入变量到输出变量之间映射的函数
  • 等价于函数拟合
  • 分为香学习和预测两个过程
  • 学习系统基于训练数据构建一个模型,预测系统根据学习的模型确定相应的输出

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值