模型的评估与选择

最新推荐文章于 2024-03-19 17:30:00 发布

tigerlib

最新推荐文章于 2024-03-19 17:30:00 发布

阅读量201

点赞数

分类专栏： machine learning 文章标签：机器学习模型评估模型选择泛化能力泛化误差上界

本文链接：https://blog.csdn.net/weixin_44695969/article/details/99762935

版权

machine learning 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

模型评估与模型选择

训练误差：模型 $Y=\hat f(X)$ 关于训练集 $T$ 的平均(经验)损失

$R_{emp}(\hat f)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},\hat f(x_{i}))$
测试误差：模型 $Y=\hat f(X)$ 关于测试集的平均(经验)损失

$e_{test}=\frac{1}{N^{'}}\sum^{N^{'}}_{i=1}L(y_{i},\hat f(x_{i}))，其中 N^{'} 是测试样本容量$

$\text{0-1} 损失函数时，e_{test}=\frac{1}{N^{'}}\sum^{N^{'}}_{i=1}I(y_{i} \neq \hat f(x_{i}))；r_{test}=\frac{1}{N^{'}}\sum^{N^{'}}_{i=1}I(y_{i} \neq \hat f(x_{i}))$

$显然，e_{test}+r_{test}=1。其中r_{test}是准确率， I 是指示函数，即y\neq\hat f(x)时为1，否则为0。$
模型选择（model selection）：当假设空间的模型具有不同复杂度（例如，参数个数不同）时，就要面临模型选择的问题
过拟合（over-fitting）
- 如果一味追求提高对训练数据的预测能力，所选模型的复杂度往往会比真模型更高。
- 学习时选择的模型所包含的参数过多，以致于出现这一模型对己知数据预测得很好，但对未知数据预测得很差的现象
- 模型选择，旨在避免过拟合，并提高模型的预测能力
模型选择方法
- 正则化：结构风险最小化策略的实现
  
  $\min_{f\in\mathcal{F}}R_{srm}(f)=\min_{f\in\mathcal{F}}\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f)$
  - 正则化的作用：选择经验风险与模型复杂度 $ J(f)$ 同时较小的模型
  - 正则化项 $ J(f)$ 的不同形式
    
    （1）回归问题中损失函数是平方损失，正则化项：参数向量 $w$ 的 $L_1$ 范数，即 $\parallel w\parallel_1$
    
    $L(w)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f)=\frac{1}{N}\sum^{N}_{i=1}(y_{i}-f(x_{i};w))^2+\lambda\parallel w \parallel_1$
    
    （2）回归问题中损失函数是平方损失，正则化项：参数向量 $w$ 的 $L_{2}$ 范数，即$\parallel w\parallel_2 $
    
    $L(w)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f)=\frac{1}{N}\sum^{N}_{i=1}(y_{i}-f(x_{i};w))^2+\frac {\lambda}{2} \parallel w\parallel_2$
  - 奥卡姆剃刀原理（Occam’s razor）
    - 正则化符合奥卡姆剃刀原理
    - 最好的模型：能够很好地解释己知数据并且十分简单才是最好的模型
    - 从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率，简单的模型有较小的先验概率
- 交叉验证
  - 基本思想：重复地使用数据
  - 简单交叉验证
  - $S$ 折交叉验证
  - 留一交叉验证（ $S$ 折交叉验证的特例， $S = N, N 为数据集的容量$ ）

泛化能力

泛化能力（generalization ability）：机器学习方法学习到的模型，对未知数据的预测能力。
泛化误差（generalization error）：反映了机器学习方法的泛化能力。
- 泛化误差，即学习到的模型 $\hat f$ 的风险函数（损失函数的期望）：
  
  $R_{exp}(\hat f)=E_{P}[L(Y,\hat f(X))]=\int_{\mathcal{X}\times\mathcal{Y}}L(y,\hat f(x))P(x,y)dxdy$
泛化误差上界
- 作用：通过比较两种学习方法的泛化误差上界的大小，来比较方法的优劣。
- 泛化误差上界是样本容量的函数。当样本容量增加时，泛化上界趋于0。
- 泛化误差上界是假设空间容量的函数。假设空间容量越大，模型就越难学，泛化误差上界就越大。
- 定理（泛化误差上界）：对二类分类问题，当假设空间是有限个函数的集合 $\mathcal{F}=\{f_1,f_2,...f_d\}$ 时，对任意个函数 $f\in \mathcal{F}$ ，至少以概率 $1-\delta$ ，使得以下不等式
  成立：
  
  $R(f)\leq \hat R(f)+\varepsilon(d,N,\delta)，其中，\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log d+\log \frac{1}{\delta})}$
  - 不等式左侧：泛化误差 $R (f)$ ；
  - 不等式右侧：训练误差 $\hat R(f)$ ，训练误差越小，泛化误差也越；
    
    $\varepsilon(d,N,\delta)$ 是 $N$ 的单调递减函数，当 $N$ 趋于无穷时， $\varepsilon(d,N,\delta)$ 趋于0。同时它也是 $\sqrt{\log d}$ 阶的函数，假设空间 $\mathcal{F}$ 包含的函数越多， $\varepsilon(d,N,\delta)$ 值越大。

tigerlib

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模型的评估与选择

模型评估与模型选择训练误差：模型 Y=f^(X)Y=\hat f(X)Y=f^(X) 关于训练集 TTT 的平均(经验)损失Remp(f^)=1N∑i=1NL(yi,f^(xi))R_{emp}(\hat f)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},\hat f(x_{i}))Remp(f^)=N1i=1∑NL(yi,f^(xi))测试误差...
复制链接

扫一扫

专栏目录