学习理论-模型选择-1-问题引入

最新推荐文章于 2021-09-03 15:24:47 发布

yzheately

最新推荐文章于 2021-09-03 15:24:47 发布

阅读量1.1k

点赞数

分类专栏：机器学习打基础

本文链接：https://blog.csdn.net/yzheately/article/details/51089183

版权

机器学习同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

打基础

33 篇文章 0 订阅

订阅专栏

问题引入

偏差与方差的权衡是统计学中最核心的问题，在机器学习中，它们是导致欠拟合和过拟合的原因。
对于线性回归问题，我们到底是该选择简单的线性模型 $y=\theta_0+\theta_1x$ 还是选择诸如 $y=\theta_0+\theta_1x+...+\theta_5x^5$ 这样复杂些的模型呢？我么先看下图
这里写图片描述
上图我们之前就见到过，最左面的为欠拟合，因为它会有较大的偏差；最右面的为过拟合，它很有可能会过于关注少量样本中的一些比较极端的属性值（噪声），因此测试新样本时将会产生很大的方差。
也就是说，我们不仅要在训练时使得偏差尽可能小，也要保证方差尽可能小，即泛化误差（generalization error）要小。

一般而言，如果模型过于简单，且参数很少时，容易产生大的偏差，但方差会较小；如果模型很复杂，并且参数很多时，容易产生较大的方差，但偏差会较小。

问题描述

下面先给出两个事实（fact）：
1、(The union bound)假设 $A_1,A_2,...,A_K$ 是 $k$ 个不同的事件（他们并不一定相互独立），有： $P(A_1\bigcup...\bigcup A_k) \leq P(A_1)+...+P(A_k)$
2、(Hoeffding inequality) 假设 $Z_1,...,Z_m$ 是m个满足伯努利分布的独立同分布（ independent and identically distributed (iid) ）随机变量。令 $\hat{\phi}=\frac{1}{m}\sum_{i=1}^m Z_i$ , $\gamma>0$ 则有： $P(|\phi-\hat{\phi}|>\gamma)\leq 2\exp(-2\gamma^2 m)$
注：所谓独立同分布（iid）是指，每个样本相互独立且满足相同的分布模型（比如都满足伯努利分布，或者都满足高斯分布等）。
由2可知，当样本数m越大时，估计值 $\hat{\phi}$ 越接近实际值 $\phi$ .

为了简化问题，我们只考虑2分类情况，对其他问题模型一样适用。
假设训练样本为 $S=\{ (x^{(i)},y^{(i)});i=1,...,m \}$ ,其中每个样本 $(x^{(i)},y^{(i)})\sim \mathcal D$ ,即每个样本都满足独立同分布。对于假设模型 $h$ ，我们定义训练误差（也称为经验风险或经验误差）为：
这里写图片描述
它其实反映了训练时的误分率，因为我们是使用的训练样本集 $S$ ，因此上式左边也可以用 $\hat{\epsilon_S}(h)$ ,它是我们的估计（统计）误差。下面给出实际误差，也叫泛化误差：

如果此时我们是使用的线性回归来分类，那么参数 $\theta$ 应该怎样求呢？我们可以求能够使得误分率最小的 $\theta$ ，因此可得：
这里写图片描述
我们称之为经验风险最小化( empirical risk minimization (ERM))

事实上，对于一个分类问题，我们有时很难直接确定模型的复杂度，因此我们定义一个模型池 $\mathcal H$ (hypothesis class),它包含了很多个假设模型， $\mathcal H =\{h_\theta:h_\theta(x)=I\{ \theta^Tx \geq 0\},\theta\in\mathbb R^{n+1}\}$ ,我们在 $\mathbb R$ 中按如下规则选择模型：

h^= arg min h \in H ε^(h)

$\hat{h}=\arg\min_{h\in\mathcal H}\hat{\varepsilon}(h)$
其实就是将经验风险最小化算法应用在模型选择上。

注：在这一篇中用 $\hat{h}$ 之类的表示，代表这是一个估计值或统计值，而对应的 h <script type="math/tex" id="MathJax-Element-24">h</script>，表示实际值，否则符号会有点乱。

yzheately

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习理论-模型选择-1-问题引入

问题引入偏差与方差的权衡是统计学中最核心的问题，在机器学习中，它们是导致欠拟合和过拟合的原因。对于线性回归问题，我们到底是该选择简单的线性模型y=θ0+θ1xy=\theta_0+\theta_1x还是选择诸如y=θ0+θ1x+...+θ5x5y=\theta_0+\theta_1x+...+\theta_5x^5这样复杂些的模型呢？我么先看下图上图我们之前就见到过，最左面的为欠拟合，因
复制链接

扫一扫