机器学习基石-Validation

最新推荐文章于 2023-05-15 16:22:23 发布

遇见更好的自己

最新推荐文章于 2023-05-15 16:22:23 发布

阅读量509

点赞数

分类专栏：机器学习台大林轩田机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/yc1203968305/article/details/78625554

版权

机器学习同时被 2 个专栏收录

42 篇文章 2 订阅

订阅专栏

台大林轩田机器学习课程笔记

27 篇文章 5 订阅

订阅专栏

大纲

这里写图片描述

Model Selection Problem

1 Model Selection Problem

在机器学习建立模型的过程中有很多选择，对于简单的二分类问题

这里写图片描述

我们的目标是选择最好的搭配，建立好模型，得到一个好的 $g$ ,使 $E_{out}(g)$ 最小

假设有M个模型，对应有 $H_1,H_2,⋯,H_M$ ，即有M个hypothesis set，演算法为 $A_1,A_2,⋯,A_M$ ，共M个。我们的目标是从这M个hypothesis set中选择一个模型 $H_m^∗$ ，通过演算法 $A_m^∗$ 对样本集D的训练，得到一个最好的矩 $g_m^∗$ ，使其 $E_{out}(g_m^∗)$ 最小。所以，问题的关键就是机器学习中如何选择到最好的矩 $g_m^∗$ 。

2 Model Selection by Best $E_{in}$

对M个模型分别计算使 $E_{in}$ 最小的矩g，再横向比较，取其中能使 $E_{in}$ 最小的模型的矩 $g_m^∗$

m * = a r g m i n 1 \leq m \leq M (E m = E i n (A m (D)))

$m^* = argmin _{1 \leq m \leq M}(E_m = E_{in}(A_m(D)))$

这样会存在问题

这样会倾向于选择比较复杂的模型，可能会导致过拟合
假设演算法 $A_1$ 在 $H_1$ 中选择最小的 $E_{in}$ ，演算法 $A_2$ 在 $H_2$ 中选择最小的 $E_{in}$ ,这种“模型选择+学习训练”的过程，它的VC Dimension是 $d_{VC}(H_1∪H_2)$ ，模型复杂度增加.

总得来说这样做会导致泛化能力较差

3 Model Selection by Best $E_{test}$

假设有一个独立于训练样本的测试集 $D_{test}$ ,我们可以这样选择

m * = a r g m i n 1 \leq m \leq M (E m = E t e s t (A m (D)))

$m^* = argmin _{1 \leq m \leq M}(E_m = E_{test}(A_m(D)))$
这种测试集验证的方法，根据finite-bin Hoffding不等式，可以得到

E o u t (g * m) \leq E t e s t (g * m) + O (l o g M N t e s t ‾ ‾ ‾ ‾ ‾ ‾ \sqrt)

$E_{out}(g_m^*) \leq E_{test}(g_m^*)+O(\sqrt{\frac{log_M}{N_{test}}})$

由上式可以看出，模型个数M越少，测试集数目越大，那么 $(\sqrt{\frac{log_M}{N_{test}}})$ 越小，即 $E_{test}(g_m^*)$ 越接近于 $E_{out}(g_m^*)$ 。

这里写图片描述

因为 $D_{test}$ 数据是拿不到的，所以我们可以采取一种折中的办法，我们可以使用已有的训练集D来创造一个验证集validation set，即从D中划出一部分 $D_{val}$ 作为验证集。D另外的部分作为训练模型使用， $D_{val}$ 独立开来，用来测试各个模型的好坏，最小化 $E_{val}$ ，从而选择最佳的 $g_m^∗$ 。

Validation

1 Validation Set $D_{val}$

从 $D$ 中随机抽样k个样本构成 $D_{val}$ ,使 $D_{val}$ 独立同分布与 $p(x,y)$ ,这样可以使 $D_{val}$ 与 $D_{out}$ 联系起来
剩下的 $N-k$ 个样本构成 $D_{train}$
为了保证 $D_{val}$ 是干净的，应该只用 $D_{train}$ 做模型的训练

我们把用训练数据 $D_{val}$ 训练得到的模型叫 $g_\bar{m}$ ,那么我们就有

E o u t (g m ¯) \leq E v a l (g m ¯) + O (l o g M K ‾ ‾ ‾ ‾ ‾ ‾ \sqrt)

$E_{out}(g_\bar{m}) \leq E_{val}(g_\bar{m})+O(\sqrt{\frac{log_M}{K}})$
所以为了让

Eout(gm¯) $E_{out}(g_\bar{m})$ 小，我们应该尽量让

Eval(gm¯) $E_{val}(g_\bar{m})$ 小

2 Model Selection by Best $E_{val}$

这里写图片描述

假设有M种模型hypothesis set， $D_{val}$ 的数量为K，那么从每种模型m中得到一个在 $D_{in}$ 上表现最好的矩，再横向比较，从M个矩中选择一个在 $D_{val}$ 最好的 $m^∗$ 作为我们最终得到的模型。

m * = a r g m i n 1 \leq m \leq M (E m = E v a l (A m (D t r a i n)))

$m^* = argmin _{1 \leq m \leq M}(E_m = E_{val}(A_m(D_{train})))$

现在由于数量为N的总样本D的一部分K作为验证集，那么只有N-k个样本可供训练。从 $D_{train}$ 中得到最好的 $g_\bar{m}^∗$ ，而总样本D对应的最好的矩为 $g_{m}^∗$ 。根据之前的leraning curve很容易知道，训练样本越多，得到的模型越准确，其hypothesis越接近target function，即D的 $E_{out}$ 比 $D_{train}$ 的 $E_{out}$ 要小：

这里写图片描述

3 Validation in Practice

这里写图片描述

黑色的虚线表示用 $E_{test}$ 来做选择，肯定是最优的。但实践中我们往往做不到
黑色的直线表示用 $E_{in}$ 来做选择，会导致过拟合，所以泛化误差较高
红色的直线表示用 $E_{val}$ 做选择，但选择的是 $g_\bar{m}^∗$ ，它的变化趋势随着K增大是先减少后增大，当K大于一定值时，甚至会超过黑色的线
蓝色的直线表示用 $E_{val}$ 做选择，但选择的是 $g_{m}^∗$ ，其趋势是随着K的增加，它对应的$Eout先缓慢减小再缓慢增大，且一直位于红色曲线和黑色直线之下。从此可见，蓝色曲线对应的方法最好，符合我们之前讨论的使用验证集进行模型选择效果最好。

4 The Dilemma about K

这里写图片描述

当K比较大的时候, $E_{out} \approx E_{val}$ ，但是 $g$ 和 $g^-$ 可能相差很多。
当K比较小的时候, $g \approx g^-$ ,但是 $E_{out}$ 可能和 $E_{val}$ 相差很多

一般k取值的经验值是 $\frac{N}{5}$ ，值得一提的是，划分验证集通常不会增加整体的时间复杂度，反而会降低时间复杂度。

Leave-One-Out Cross Validation

1 Extreme Case

当验证集的大小k=1的时候，我们称之为留一交叉验证。

留一交叉验证的误差估计

E l o o c v {H, A} = 1 N \sum n = 1 N e n = 1 N \sum n = 1 N e r r (g - n (x n), y n)

$E_{loocv}\{H,A\} = \frac{1}{N}\sum_{n=1}^N e_n = \frac{1}{N}\sum_{n=1}^N err(g_n^-(x_n),y_n)$

我们希望 $E_{loocv}(H,A) \approx E_{out}(g)$

2 Illustration of Leave-One-Out

这里写图片描述

如上图所示，要对二维平面上的三个点做拟合，上面三个图表示的是线性模型，下面三个图表示的是常数模型。对于两种模型，分别使用留一交叉验证法来计算 $E_{loocv}$ ，计算过程都是每次将一个点作为验证集，其他两个点作为训练集，最终将得到的验证误差求平均值，就得到了 $E_{loocv}(linear)$ 和 $E_{loocv}(constant)$ ，比较两个值的大小，取值小对应的模型即为最佳模型。

3 Theoretical Guarantee of Leave-One-Out Estimate

接下来，我们从理论上分析Leave-One-Out方法的可行性，即 $E_{loocv}(H,A)$ 是否能保证 $E_{out}$ 的矩足够好？假设有不同的数据集D，它的期望分布记为 $ε_D$ ，则其 $E_{loocv}(H,A)$ 可以通过推导，等于 $E_{out}(N−1)$ 的平均值。由于N-1近似为N， $E_{out}(N−1)$ 的平均值也近似等于 $E_{out}(N)$ 的平均值。具体推导过程如下：

这里写图片描述

所以我们可以得出结论
$E_{loocv}(H,A) \approx E_{out}(g)$

4 Disadvantage of Leave-One-Out Estimate

计算量巨大
稳定性差,由于单个点估计得偏差

V-Fold Cross Validation

1 V-fold Cross Validation

把数据集 $D$ 随机划分为V等分，取V-1份做训练，1份做验证
通过 $E_{cv}(H,A)=\frac{1}{V}\sum_{v=1}^VE_{val}^{(v)}(g_v^-)$ 作为模型选择的标准
$m^* = argmin_{1 \leq m \leq M}E_m = E_{cv}(H_m,A_m)$

2 Selecting Validation Tool

V-Fold Validation通常比单个Validation好
5-Fold和10-Fold通常工作的会比较好

3 Nature Of Validation

这里写图片描述

遇见更好的自己

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石-Validation

大纲Model Selection Problem1 Model Selection Problem在机器学习建立模型的过程中有很多选择，对于简单的二分类问题我们的目标是选择最好的搭配，建立好模型，得到一个好的gg,使Eout(g)E_{out}(g)最小假设有M个模型，对应有H1,H2,⋯,HMH_1,H_2,⋯,H_M，即有M个hypothesis set，演算法为A1,A2,⋯,AMA_1,A
复制链接

扫一扫