统计学习方法·笔记·第一章·模型评估、正则化与交叉验证

Moon00zz

于 2020-01-10 14:15:40 发布

阅读量203

点赞数

分类专栏：读书笔记

本文链接：https://blog.csdn.net/weixin_43893126/article/details/103923622

版权

读书笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

模型评估与模型选择

训练误差与测试误差

给予损失函数的训练误差（training error）和模型的测试误差（test error）是学习方法的评估标准。注意：统计学习方法具体采用的损失函数未必是评估时采用的损失函数。当然，让两者一致是比较理想的。
训练误差是模型 $Y=\hat{f}(X)$ 关于训练集数据集的平均损失：
$R_{emp}(\hat{f})= \frac{1}{N}\sum_{i=1}^{N}L(y_{i},\hat{f}(x_{i}))$
N是训练样本容量。
测试误差是模型 $Y=\hat{f}(X)$ 关于测试集数据集的平均损失：
$e_{test}(\hat{f})= \frac{1}{{N}'}\sum_{i=1}^{{N}'}L(y_{i},\hat{f}(x_{i}))$
N’是测试样本容量。
当损失函数是0-1损失时，测试误差就变成了常见的测试数据集上的误差率（error rate）：
$e_{test}= \frac{1}{{N}'}\sum_{i=1}^{{N}'}I(y_{i}\neq \hat{f}(x_{i}))$
准确率（accuracy）：
$r_{test}= \frac{1}{{N}'}\sum_{i=1}^{{N}'}I(y_{i}= \hat{f}(x_{i}))$
学习方法对位置数据的预测能力称为泛化能力。

过拟合与模型选择

过拟合是指学习室选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测的很好，但对未知数据预测的很差的现象。
选择复杂度适当的模型，防止过拟合。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OymCygvA-1578636821036)(en-resource://database/396:1)]
两种常用的模型选择方法：正则化与交叉验证

正则化与交叉验证

正则化

结构风险最小化策略的实现，在经验风险上加一个正则化项或罚项。
正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。
$\underset{f\epsilon F}{min}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)$
第一项是经验风险，第二项是正则化项。 $\lambda\geqslant0$ 为调整两者之间的关系系数。

L2正则化

正则化项J(f)可以是参数向量的L2范数：
$L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_i;w)-y_i)^2+\frac{\lambda}{2}\left \| w \right \|^2$
$\left\| w \right \|^2$ 就是L2范数表示某个向量中所有元素平方和再开根，也就是欧几里得距离公式。让L2范数的正则项||W||2最小，可以使得W的每个元素都很小，都接近于0。L1范数让W等于0。

L1正则化

正则化项J(f)可以是参数向量的L1范数：
$L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_i;w)-y_i)^2+\frac{\lambda}{2}\left \| w \right \| _ 1$
$\left\| w \right \|^2$ 就是L1范数表示某个向量中所有元素绝对值之和。

正则化理解

极大似然函数的理解：模型训练就是在已知样本分布的情况下，反推最有可能导致这样结果的参数值。https://blog.csdn.net/qq_39355550/article/details/81809467

损失函数、正则化与最大似然的关系

整个最优化问题可以看做是一个最大后验估计，其中正则化项对应后验估计中的先验信息（从贝叶斯的角度来分析，正则化是为模型参数估计增加一个先验知识，先验知识会引导损失函数最小值过程朝着约束方向迭代），损失函数对应后验估计中的似然函数，两者的乘积即对应贝叶斯最大后验估计。https://www.cnblogs.com/bingjianing/p/9182798.html
最大后验估计：
$max_{\theta }p(\theta |x)=argmax_{\theta }\frac{p(x|\theta )p(\theta )}{p(x)}=argmax_{\theta }p(x|\theta )p(\theta )$
所以，可以估计参数 $\theta$ :
$\theta _{MAP}=argmax_{\theta }(\prod_{i=1}^{m}p(y^{(i)}|x^{(i)}))p(\theta )$

假设1：w参数服从高斯分布
假设 $\epsilon_i \sim N(0,\sigma ^2),w_i \sim N(0,\tau ^2)$
$argmax_wL(w)=ln\prod_{i=1}^{n}\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{y_i-x_iw^T}{\sigma })^2}\cdot \prod_{j=1}^{d}\frac{1}{\tau \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{w_j}{\tau })^2}$
$=ln\frac{1}{\sigma \sqrt{2\pi }}e^{\sum_{i=1}^{n}-\frac{1}{2}(\frac{y_i-x_1w^T}{\sigma })^2}\cdot \frac{1}{\tau \sqrt{2\pi }}e^{-\frac{1}{2}\sum_{j=0}^{d}(\frac{w_i }{\tau})^2}$
$=-\frac{1}{2\sigma ^2}\sum_{i=1}^{n}(y_i-x_iw^T)^2-\frac{1}{2\tau^2}\sum_{i=1}^{n}w_j^2-nln\sigma \sqrt{2\pi }-dln\tau \sqrt{2\pi }$
$\Leftrightarrow argmin_wf(w)=\sum_{i=1}^{n}(y_i-x_iw)^2+\lambda \sum_{j=1}^{d}w_j^2$
$=\left \| y-Xw^T \right \|_ 2^2+\lambda \left \| w \right \|_ 2^2$

即L2正则化。

假设2：w参数服从拉普拉斯分布
假设 $\epsilon_i \sim N(0,\sigma ^2),w_i \sim Laplace(0,b)$
$argmax_wL(w)=ln\prod_{i=1}^{n}\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{y_i-x_iw^T}{\sigma })^2}\cdot \prod_{j=1}^{d}\frac{1}{2b}e^{-(\frac{w_j}{b })}$
$=ln\frac{1}{\sigma \sqrt{2\pi }}e^{\sum_{i=1}^{n}-\frac{1}{2}(\frac{y_i-x_1w^T}{\sigma })^2}\cdot \frac{1}{2b}e^{-\frac{1}{2}\sum_{j=0}^{d}(\frac{w_i }{b})}$
$=-\frac{1}{2\sigma ^2}\sum_{i=1}^{n}(y_i-x_iw^T)^2-\frac{1}{2b^2}\sum_{i=1}^{n}w_j^2-nln\sigma \sqrt{2\pi }-d·2b$
$\Leftrightarrow argmin_wf(w)=\sum_{i=1}^{n}(y_i-x_iw)^2+\lambda \sum_{j=1}^{d}|w_j|$
$=\left \| y-Xw^T \right \|_ 2^2+\lambda \left \| w \right \|_ 1$
即L1正则化。

交叉验证

样本充足时划分为训练集，验证集，测试集。训练集用来训练，验证集用来模型选择，测试集用来最终对学习方法评估。样本不充足时，可以采用交叉验证的方法。
交叉验证的基本思想是重复的使用数据，把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复的训练、测试及模型选择。
1、简单的交叉验证
70%数据为训练集，30%为测试集。选出测试误差最小的模型。

2、S折交叉验证（S-fold cross validation）
方法：随机的将数据集且分为S个互不相交，大小相同的子集；然后利用S-1个子集的数据训练模型，利用余下子集测试模型；将S个子集分为S-1和1一共有S中选择，将S中可能重复进行；最后选出S次测评中平均测试误差最小的模型。

3、留一交叉验证（leave-one-out cross validation）
S折交叉验证的特殊情况S=N（N是给定数据集容量）称为留一交叉验证。这种方法往往在缺乏数据的情况下使用。