李航《统计学习方法（第二版）》笔记：第一章——统计学习及监督学习概论（二）

公户灿灿

于 2020-09-14 01:14:26 发布

阅读量360

点赞数

本文链接：https://blog.csdn.net/weixin_45507954/article/details/108440013

版权

本文介绍了统计学习中的模型评估与选择，重点讨论了训练误差与测试误差的区别，过拟合的概念及其对模型选择的影响。正则化作为避免过拟合的一种方法，通过引入正则化项来约束模型复杂度。交叉验证，如简单交叉验证和S折交叉验证，用于优化模型选择。此外，文章还涵盖了泛化能力、生成模型与判别模型的对比，并探讨了监督学习在分类、标注和回归问题中的应用。

摘要由CSDN通过智能技术生成

4. 模型评估与模型选择

4.1 训练误差与测试误差

训练误差：模型关于训练数据集的平均损失（N是训练样本容量）
在这里插入图片描述

测试误差：模型关于测试数据集的平均损失（N’是测试样本容量）
在这里插入图片描述

训练误差的大小对判断给定问题是不是一个容易学习的问题是有意义的，但本质上不重要。
测试误差反映了学习方法对未知的测试数据集的预测能力（又称“泛化能力”generalization ability），是重要的。

4.2 过拟合与模型选择

过拟合（over-fitting）：一味追求提高对训练数据的预测能力，导致所选模型的复杂度（参数个数，p.s.参数即M次多项式的系数）比真模型更高（参数过多），使模型对已知数据预测得很好，对未知数据预测得很差。

模型选择：避免过拟合，提高模型的预测能力。
在这里插入图片描述

模型选择的目的：选择复杂度适当的模型，以达到使测试误差最小的学习目的。

5. 模型选择方法：正则化与交叉验证

5.1 正则化

正则化（regularization）是结构风险最小化策略的实现，类似于模型的先验概率：经验风险+正则化项（λ是调整权重的系数）
在这里插入图片描述

5.2 交叉验证

交叉验证（cross validation）：重复使用数据进行训练集和数据集的切分组合。

简单交叉验证：70%训练集、30%测试集
S折交叉验证：将数据切成S个互不相交大小相同的子集（如各20%），利用S-1个子集的数据进行训练，用余下的子集进行测试。然后对S种选择重复进行训练与测试，选出S次测评中平均测试误差最小的模型。
留一交叉验证：S=N（给定数据集的容量），在数据缺乏的情况下使用。

6. 泛化能力

泛化误差（generalization error）：
模型对未知数据项预测的误差，即所学习到的模型的期望风险。
*泛化误差上界：样本容量的函数（反比）、假设空间容量的函数（正比）

7. 生成模型与判别模型

生成模型（generative model）：

表示给定输入X，产生输出Y的生成关系。
数据学习联合概率分布P(X, Y)，然后求出条件概率分布P(Y|X)作为预测模型。
特点：
1）可以还原出联合概率分布 $P (X, Y)$
2）样本容量增加时，学习收敛速度更快（学到的模型可以更快收敛于真实模型）
3）隐变量存在时可用
$P(Y|X)=\frac {P(X,Y)}{P(X)}$

e.g.朴素贝叶斯、隐马尔可夫模型

判别模型（discriminative model）：

对于给定的输入X，应该预测什么样的输出Y。
数据直接学习决策函数 $f (X)$ 或条件概率分布 $P (Y ∣ X)$ 作为预测模型。
特点：直接面对预测，学习的准确率更高，可以简化学习问题，对数据进行各种程度上的抽象/定义特征并使用特征

K近邻、感知机、决策树、逻辑回归、最大熵模型、支持训练集、提升方法、条件随机场

8. 监督学习应用

8.1 分类问题

定义：输出变量Y取有限个离散值

评价指标：分类准确率——对于给定的测试集，分类器正确分类的比率。

精确率（precision）：
$P=\frac{TP正正}{TP正正+FP负正}$
*TP——正类（关注的类）预测为正类；FP——负类预测为正类。
召回率（recall）：
$R=\frac{TP正正}{TP正正+FN负负}$
*FN——正类预测为负类。
$F_{1}$ 值：精确率和召回率的调和均值
$\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}$ $F_{1}=\frac{2TP}{2TP+FP+FN}$