统计学习方法-1

最新推荐文章于 2024-06-20 10:40:26 发布

ww要努力呀

最新推荐文章于 2024-06-20 10:40:26 发布

阅读量192

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/wwang_123/article/details/127094971

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

统计学习
监督学习
统计模型三要素
模型评估与模型选择
正则化与交叉验证
泛化能力
生成模型和判别模型
分类问题
标注问题
回归问题

统计学习

统计学习的对象是数据（data），从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去
统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。由监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-supervised learning）和强化学习（reinforcement learning）等组成
统计学习方法三要素：模型、策略和算法

实现统计学习方法的步骤：

得到一个有限的训练数据集合
确定包含所有可能的模型的假设空间，即学习模型的集合
确定模型选择的准则，即学习的策略
实现求解最优模型的算法，即学习的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析

监督学习

任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测

基本概念

输入空间、输出空间：输入与输出所有可能取值的集合。通常输出空间远远小于输入空间
特征向量：表示每一个具体输入的实例
特征空间：所有特征向量存在的空间
联合概率分布：监督学习假设输入输出的随机变量X,Y遵循联合概率分布P(X,Y)。P(X,Y)称为分布函数或分布密度函数
假设空间：模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间

习惯上输入变量写作X，输出变量写作Y
输入、输出变量所取的值用小写字母表示 $x, y$
回归问题：输入输出变量均为连续变量
分类问题：输出变量为有限个离散变量
标注问题：输入输出变量均为变量序列的预测问题

问题的形式化

学习系统利用给定的训练数据集，通过学习（或训练）得到一个模型，表示为 条件概率分布 $\hat{P}(Y|X)$ 或者 决策函数 $Y=\hat{f}(X)$ 。条件概率分布或决策函数描述输入与输出随机变量之间的映射关系。

统计模型三要素

模型

在监督学习中，模型就是所要学习的条件概率分布或决策函数。
模型的假设空间包含所有可能的条件概率分布或决策函数

策略

损失函数：度量模型一次预测的好坏

度量预测错误的程度。是f(X)和Y的非负实值函数，记作 $L (Y, f (X))$

常用的损失函数：
在这里插入图片描述

风险函数：度量平均意义下模型预测的好坏

损失函数越小，模型就越好。由于模型的输入、输出（X,Y）是随机变量，遵循联合概率分布P(X,Y)，所有损失函数的期望是：

这是理论上模型f(X)关于联合概率分布的平均意义下的损失，称为风险函数或期望损失

由于联合分布P(X,Y)未知， $R_{exp}(f)$ 不能直接计算
但如果已知联合分布，可以从联合分布直接求出条件概率分布P(Y|X)，也就不需要学习了
给定一个训练数据集，模型f(X)关于训练数据集的平均损失称为经验风险或经验损失，记作 $R_{emp}(f)$

期望风险 $R_{exp}(f)$ 是模型关于联合分布的期望损失
经验风险 $R_{emp}(f)$ 是模型关于训练样本集的平均损失
根据大数定律（抛硬币的例子），当样本容量N趋于无穷时，经验风险趋于期望风险。所以用经验风险估计期望风险。
但现实中训练样本数目有限，所以用经验风险估计期望风险常常并不理想，要对经验风险进行一定的矫正。（—引入结构风险）

经验风险最小化

经验风险最小化（empirical risk minimization,ERM）：经验风险最小的模型是最优的模型。根据这一策略，求最优化模型就是求解最优化问题： $\displaystyle \min_{ f\epsilon F}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))，F是假设空间$

例子：极大似然估计

样本容量很小时，会产生过拟合现象

结构风险最小化

结构风险最小化（structural risk minimization,SRM）是为了防止过拟合而提出的策略。

等价于正则化
是在经验风险上加上表示模型复杂度的正则化项或罚项

在假设空间、损失函数以及训练数据集确定的情况下，结构风险定义为： $R_{SRM}(f)=\frac{1}{N}\sum_{i-1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)$

J(f)：模型复杂度
模型f越复杂，复杂度就越大
复杂度表示了对复杂模型的惩罚
$\lambda \geq 0$ 是系数，用来权衡经验风险和模型复杂度

例子：贝叶斯估计中的最大后验概率（MAP）

求最优模型，就是求解最优化问题： $\displaystyle \min_{ f\epsilon F}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)$

算法

是学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。

模型评估与模型选择

训练误差与测试误差

训练误差：是模型关于训练数据集的平均损失
测试误差：是模型关于测试数据集的平均损失
测试误差反映了学习方法对应未知的测试数据集的预测能力。通常将学习方法对未知数据的预测能力称为泛化能力

过拟合与模型选择

如果一味追求提高训练数据的预测能力，所选模型的复杂度往往会比真模型更高，这种现象称为过拟合。

过拟合是指学习时模型所包含的参数过多，以致于出现这一模型对已知数据预测得很好，但对位置数据预测得很差的现象。

在这里插入图片描述
上图即是过拟合的例子，曲线经过每个数据点。

在学习时防止过拟合，进行最优的模型选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

正则化
交叉验证

正则化与交叉验证

正则化

模型选择的典型方法是正则化。
正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或罚项。
正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。

一般形式：
$min_{f\epsilon F}\frac{1}{N}\sum_{i-1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)$

第一项是经验风险
第二项是正则化项
$\lambda\geqslant0$ 为调整两者之间关系的系数

$L_{2}$ 范数（回归问题中，损失函数是平方损失）

$L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_{i};w)-y_{i})^{2}+\frac{\lambda}{2} \left\|w \right\|^{2}$
$\left\|w\right\|$ 表示参数向量 $w$ 的 $L_{2}$ 范数

$L_{1}$ 范数

$L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_{i};w)-y_{i})^{2}+\lambda \left\|w \right\|_{1}$
$\left\|w\right\|_{1}$ 表示参数向量 $w$ 的 $L_{1}$ 范数

交叉验证

模型选择的常用方法
基本想法是重复地使用数据
把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复地进行训练、测试以及模型选择

简单交叉验证
1、随机将数据分为两部分，训练集和测试集
2、用训练集在各种条件下训练模型（e.g.不同参数个数）
3、在测试集上评价各个模型的测试误差，选出测试误差最小的模型

S折交叉验证
1、随机将数据切分为S个互不相交的大小相同的子集
2、利用S-1个子集的数据训练模型，余下的子集测试模型
3、选出S次评测中平均误差最小的模型

留一交叉验证
S折交叉验证的特殊情形是S=N，成为留一交叉验证，往往在数据缺乏的情况下使用，这里的N是给定数据集的容量

泛化能力

泛化误差

如果学到的模型是 $\hat{f}$ ，那么利用这个模型对未知数据预测的误差即为泛化误差

$R_{exp}(\hat{f})=E_{p}[L(Y,\hat{f}(x))]=\int _{\chi \times y}L(y,\hat{f}(x))P(x,y)dxdy$

泛化误差上界

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的，简称为泛化误差上界

通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

生成模型和判别模型

生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：

$P(Y|X)=\frac{P(X,Y)}{P(X)}$
这样的方法之所以称为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系
典型的生成模型由：朴素贝叶斯法和隐马尔可夫模型

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型

判别方法关系的是对给定的输入X，应该预测什么样的输出Y
典型的判别模型有：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等

分类问题

监督学习中，输出变量Y取有限个离散值时，预测问题便成为分类问题。

学习：根据已知训练数据集利用有效的学习方法学习一个分类器
分类：利用学习的分类器对新的输入实例进行分类

二分类问题常用评价指标：
TP——将正类预测为正类数
FN——将正类预测为负类数
FP——将负类预测为正类数
TN——将负类预测为负类数
精确率： $P=\frac{TP}{TP+FP}$
召回率： $R=\frac{TP}{TP+FN}$
$F_{1}$ 值： $\frac{2}{F}=\frac{1}{P}+\frac{1}{R}$
$F_{1}=\frac{2TP}{2TP+FP+FN}$