《统计学习方法》课程笔记——统计学习方法概论

llluka77

已于 2023-03-28 14:09:31 修改

阅读量95

点赞数

文章标签：机器学习深度学习人工智能

于 2023-02-23 00:49:02 首次发布

本文链接：https://blog.csdn.net/weixin_52901905/article/details/128996600

版权

一、统计学习的定义与分类

1.概念

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

2.监督学习的实现步骤

1.得到一个有限的训练数据集合

2.确定学习模型的集合（模型）

3.确定模型选择的准则（策略）

4.实现求解最优模型的算法（算法）

5.通过学习方法选择最优模型

6.利用学习的最优模型对新的数据进行预测或分析

监督学习（Supervised Learning）：

指从标注数据中学习预测模型的机器学习问题，其本质是学习输入到输出的映射的统计规律。

监督学习的一些相关概念：

输入空间（Input Space）：输入的所有可能取值的集合

实例（Instance）：每一个具体的输入，通常由特征向量（Feature Vector）表示

特征空间（Feature Space）：所有特征向量存在的空间

输出空间（Output Space）：输出的所有可能取值的集合

根据变量类型不同：

输入变量与输出变量均为连续变量的预测问题——回归问题

输出变量为有限个离散变量的预测问题——分类问题

输入变量与输出变量均为变量序列的预测问题——标注问题

符号表示

输入变量：X；输入变量的取值：x

输出变量：Y；输出变量的取值：y

输入实例x的特征向量： $x=\left ( x^{(1)},x^{(2)},\cdots ,x^{(n)} \right )^{T}$

以 $x_{i}$ 表示多个输入变量中的第i个变量： $x=\left ( x^{(1)}_{i},x^{(2)}_{i},\cdots ,x^{(n)}_{i} \right )^{T}$

样本容量为N的训练集： $T=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right )\cdots \left ( x_{n},y_{n} \right ) \right \}$

监督学习的基本假设：X与Y具有联合概率分布P(X,Y)

监督学习的目的：学习一个输入到输出的映射，这一映射以模型表示

模型的形式：条件概率分布： P(Y|X)或决策函数： Y=f(X)

假设空间（Hypothesis Space）：所有这些可能模型的集合。对具体的输入进行相应的输出预测是，表达为P(Y|X)或y=f(x)

无监督学习（Unsupervised Learning）：

指从无标注数据中学习预测模型的机器学习问题，其本质是学习数据中的统计规律或潜在结构。

无监督学习的一些相关概念：

输入空间：X

隐式结构空间：Z

模型：函数z=g(x)，条件概率分布 P(z|x)或条件概率分布：P(x|z)

假设空间（Hypothesis Space）：所有这些可能模型的集合。

目的：选出在给定评价标准下的最优模型。

样本容量为N的训练集： $U=\left \{ x_{1},x_{2},\cdots ,x_{N} \right \}$

模型：

1.决策函数： Y=f(X) ; 预测形式： y=f(x)；

2.条件概率分布： P(Y|X)；预测形式： argmaxP(y|x)

二、统计学习三要素

模型（假设空间）：

所有可能的条件概率分布或决策函数，用F表示

决策函数 $F=\left \{ f|Y=f_{\theta }(X),\theta \in R^{n} \right \}$

条件概率分布 $F=\left \{ P|P_{\theta }(Y|X),\theta \in R^{n} \right \}$

策略：

0-1损失函数： $L(Y,f(X))=\left\{\begin{matrix} 1,Y\neq f(X) & \\ 0,Y=f(X) & \end{matrix}\right.$

平方损失函数： $L(Y,f(X))=(Y-f(X))^{2}$

绝对损失函数： $L(Y,f(X))=\left | Y-f(X) \right |$

对数损失函数： $L(Y,P(Y|X))=-logP(Y|X)$

经验风险最小化： $min\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))$

结构风险最小化： $min\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda l\left ( f \right )$

（正则项是减少模型的复杂度，防止过拟合）

算法：

挑选一个合适的算法，使得可以求解最优模型

训练误差： $\frac{1}{N}\sum_{i=1}^{N}L(y_{i},\hat{f}(x_{i}))$

测试误差： $\frac{1}{{N}'}\sum_{i=1}^{{N}'}L(y_{i},\hat{f}(x_{i}))$

多项式拟合问题

三、正则化

实现结构风险最小化策略

一般形式： $min\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})+\lambda J(f))$
经验风险： $\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))$
正则化项： $\lambda J(f)$ , 其中 $\lambda$ 权衡经验风险和模型复杂度。

其中正则化项有多种形式

$L_{1}$ 范数： $L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_{i};w)-y_{i})^{2}+\lambda \left \| w \right \|_{1}$ 其中， $\left \| w \right \|^{_{1}}=\sum \left | w_{j} \right |$ （特征筛选）
$L_{2}$ 范数： $L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_{i};w)-y_{i})^{2}+\frac{\lambda }{2}\left \| w \right \|_{2}^{2}$ 其中， $\left \| w \right \|_{2}=\sqrt{\sum w_{j}^{2}}$ , $\left \| w \right \|^{2}_{2}=\sum w_{j}^{2}$ （防止过拟合）

简单交叉验证：随机将数据分为两部分，即训练集和测试集

S折交叉验证：随机将数据分为S个互不相交、大小相同的子集，其中以S-1个子集作为训练集，余下的子集作为测试集。

留一交叉验证：S折交叉验证的特殊情形，S=N。（数据非常缺乏才运用）

四、泛化能力

对于未知数据的适应能力

1.泛化误差

若所学习到的模型是 $\hat{f}$ ，那么对这个模型对未知数据预测的误差即为泛化误差（Generalization Error）： $R_{exp}(\hat{f})=E_{p}[L(Y,\hat{f}(X))]=\int_{x\times y}^{}L(y,\hat{f}(x))P(x,y)dxdy$

2.泛化误差上界

指泛化误差的概率上界。两种学习方法的优劣，通常通过他们的泛化误差上界（Generalization Error Bound）进行比较。

性质：

样本容量的函数：当样本容量增加时，泛化上界趋于0。
假设空间容量的函数：假设空间容量越大，模型就越难学，泛化误差上界就越大。

对于二分类问题：

训练数据集： $T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N}) \right \}$ 其中，T是从联合概率分布 $P(X,Y)$ 独立同分布产生的， $X\in R^{n},Y\in \left \{ -1,+1 \right \}$ 。

其中， $\varepsilon (d,N,\delta )=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta })}$

假设 $f\in F$ ，损失函数位0-1损失

期望风险： $R(f)=E[L(Y,f(X))]$
经验风险： $\hat{R}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))$
经验风险最小化： $f_{N}=argmin\hat{R}(f)$
$f_{N}$ 的泛化能力： $R(f_{N})=E[L(Y,f_{N}(X))]$

当假设空间是有限个函数的集合 $F=\left \{ f_{1},f_{2},\cdots ,f_{d} \right \}$ 时，对任意一个函数 $f\in F$ ,至少以概率 $1-\delta$ ，以下不等式成立： $R(f)\leq \hat{R}(f)+\varepsilon (d,N,\delta )$

Hoeffding 不等式：

设 $X_{1},X_{2},\cdots ,X_{N}$ 是独立随机变量，且 $X_{i}\in [a_{i},b_{i}],i=1,2,\cdots ,N;$ ， $\bar{X}$ 是 $X_{1},X_{2},\cdots ,X_{N}$ 的经验均值， $\bar{X}=\frac{1}{N}\sum_{i=1}^{N}X_{i}$ ,则对任意 $t>0$ ,以下等式成立： $P[\bar X-E(\bar X)\geq t]\leq exp[-\frac{2N^{2}t^{2}}{\sum_{i=1}^{N}(b_{i}-a_{i})^{2}}]$

$P[E(\bar X)-\bar X\geq t]\leq exp[-\frac{2N^{2}t^{2}}{\sum_{i=1}^{N}(b_{i}-a_{i})^{2}}]$

五、生成模型与判别模型

生成模型（Generative Model）：

有数据学习联合分布概率 $P(X,Y)$ ，然后求出 $P(Y|X)$ 作为预测模型: $P(Y|X)=\frac{P(X,Y)}{P(X)}$ （输入和输出变量要求随机变量）

典型的生成模型：朴素贝叶斯法，隐马尔可夫模型

判别模型（Discriminative Model）：

由数据直接学习决策函数 $f(X)$ 或者条件概率分布 $P(Y|X)$ 作为预测模型。（不需要输入和输出变量均为随机变量）

典型的判别模型：k近邻法、感知机、决策树等

生成模型与判别模型的区别
生成模型	判别模型
所需数据量较大	所需样本的数量少于生成模型
可还原联合概率分布 $P(X,Y)$	可直接面对预测，准确率更高
收敛速度更快	可简化学习问题
能反映同类数据本身的相似度	不可以反映数据本身的特性
隐变量存在时，仍可用生成模型