机器学习——学习理论

最新推荐文章于 2022-09-18 13:56:54 发布

楠兮兮

最新推荐文章于 2022-09-18 13:56:54 发布

阅读量398

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/x1009190387/article/details/106330987

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、经验风险最小化
1.1 经验风险最小化理论
考虑线性分类模型 $h_{\bm\theta}(\bm{x}) = g(\bm\theta^T\bm{x}) \\ g(z) = 1\{z \ge 0\}$ 考虑训练样本 $\{(\bm{x}^{(i)}, y^{(i)})\}_{i=1}^m$ ，定义训练偏差 $\hat\epsilon(h_{\bm\theta}) = \sum_{i=1}^m1\{h_{\bm\theta}(\bm{x}^{(i)}) \ne y^{(i)}\} / m$ 即训练样本分类错误所占的比例。对于非训练样本的同分布样本，定义一般误差 $\epsilon(h_{\bm\theta}) = p(h(\bm{x}) \ne y)$ 机器学习的目的是选用参数值使训练误差最小化，也成为经验风险最小化【Empirical Risk Minimization，ERM】，形如 $\hat\bm\theta = argmin\ \hat\epsilon(h_{\bm\theta})$ 从另一个方向讲，定义线性分类算法的集合 $\{h_{\bm\theta}, \bm\theta \in \bm{R}^{p×1}\}$ 那么ERM也可以定义为 $\hat{h} = argmin_{h \in H}\ \hat\epsilon(h)$ 更一般的，对于任意算法，包括深度学习等，上述表述均成立。ERM是一种合理的算法，可以带来较小的一般误差。

1.2 一致收敛
首先介绍联合界引理，令 $A_1, ...A_k$ 表示k个事件，其不一定独立，则 $P(A_1\cup A_2 \cup ... \cup A_k) \le P(A_1) + ... + P(A_k)$ 直观来讲，概率图的并集不大于每个概率图之和。
再介绍霍夫丁【Hoeffding】不等式，对于独立同分布的随机变量 $z_1, ..., z_m$ ，其服从于均值为 $\phi$ 的伯努利分布，即 $\hat\phi = \sum_{i=1}^m z_i / m$ 对于给定的 $\gamma$ ，有 $p(|\hat\phi - \phi| > \gamma) \le 2exp\{-2\gamma^2m\}$ 其直观意义为，根据中心极限定理，大量样本估计的 $\hat\phi$ 会收敛到 $\phi$ 为中心的高斯分布，而 $\gamma$ 从高斯分布上取得了估计偏差的概率。但实际上，霍夫丁不等式对任意样本数量均成立。
令H为包含k个假设的集合 $H = \{h_k\}$ ，其中的元素均是无参数的映射。对于给定数据集，从k个函数中选取一个，使得训练误差最小，形如 $\hat{h} = argmin_{h \in H}\ \hat\epsilon(h)$ ERM理论认为，训练误差是一个对一般误差很好的近似，即若训练误差最小化，那么一般误差也不会太大。
考虑逻辑回归中，任选 $\in H$ ，并定义 $z_i = 1\{h(\bm{x}^{(i)}) \ne y^{(i)}\}$ 那么 $\begin{aligned}p(z_i = 1)& = \hat\epsilon(h) \\ &= \sum_{i=1}^m z_i / m \end{aligned}$ 根据霍夫丁不等式，有 $p(|\epsilon(h) - \hat\epsilon(h)| > \gamma) \le 2exp\{-2\gamma^2m\}$ 即训练误差是一般误差的很好的估计。再定义事件 $A$ 为 $|\epsilon(h) - \hat\epsilon(h)|> \gamma$ ，即训练误差与一般误差相差较大，那么 $\le 2exp\{-2\gamma^2m\}$ 那么对于H内的所有映射，发生训练误差与一般误差相差较大的概率为 $\begin{aligned} p(A_1\cup A_2 \cup ... \cup A_m) \le& \sum_{i=1}^kp(A_i) \\ \le& 2kexp\{-2\gamma^2m\} \end{aligned}$ 那么一般误差与训练误差相差较小的概率为 $p(\bar{A}) \ge 1 - 2kexp\{-2\gamma^2m\}$ 即在一定的概率下，H中的所有h，都使得一般误差与训练误差相差在 $\gamma$ 内。当 $m$ 足够大时，H内的所有训练误差均收敛于一般误差，这称为一致收敛。
根据一致收敛理论，给定 $\gamma$ 与容错率 $\sigma$ ，可以计算出所需的样本数量 $m$ 。令 $\sigma = 2kexp\{-2\gamma^2m\}$ 那么 $\ge 1/2\sigma^2·log(2k / \sigma)$ 使得在 $\sigma$ 的概率下， $|\epsilon(h) - \hat\epsilon(h)| \le \gamma$ 对所有H中的映射成立，这称为样本复杂度界。计算机科学一般认为， $\forall k, log k \le 30$ ，即在H中追加映射，样本数量也不会有太多的提升。一般来讲，在求解界时，一些常量是无关紧要的，故可以写成 $O(1/\sigma^2·log(k / \sigma))$ 同理，根据一致收敛理论，给定容错率 $\sigma$ 与样本数 $m$ ，可以计算出偏差 $\gamma = (1/2m·log(2k/\sigma))^{1/2}$ 。

1.3 偏差方差权衡
在一致收敛的条件下，有 $\forall h \in H, |\epsilon(h) - \hat\epsilon(h)| \le \gamma$ 。根据ERM理论，令 $\hat{h} = argmin_{h \in H}\ \hat\epsilon(h)$ 并定义取得最小一般误差的映射 $\hat{h}^* = argmin_{h \in H}\ \epsilon(h)$ 根据一致收敛理论，有 $\begin{aligned} \epsilon(\hat{h}) &\le \hat\epsilon(\hat{h}) + \gamma \\&\le \hat\epsilon(\hat{h}^*) + \gamma \\&\le \epsilon(\hat{h}^*) + 2\gamma \end{aligned}$ 因此在 $H$ 为有限集的情况下，给定容错率 $\sigma$ 与样本数 $m$ ，有 $\epsilon(\hat{h}) \le min_{h \in H}\ \epsilon(h) + 2(1/2m·log(2k/\sigma))^{1/2}$ 即训练误差最小的映射与一般误差最小的映射的误差在一定范围内。
对于不同的拟合，若增大H内映射的数量，那么 $\epsilon$ 项可能会减小，但 $\gamma$ 项的 $k$ 会增大，这种现象称为偏差方差权衡，即使用更多的假设，可能找到更好的函数拟合模型，但不能精确拟合模型的风险也随之提高。
概括来讲，在模型过于简单时，训练误差与一般误差的偏差较小，但误差过高，称为欠拟合；在模型过于复杂时，训练误差降低，但训练误差与一般误差的偏差过高，称为过拟合。

二、VC维度
2.1 分散与VC维
给定一个由d个点构成的集合 $S = \{x^{(d)}\}$ ，如果一个假设类 $H$ 能够实现集合 $S$ 的任意一种标记方式，称为 $H$ 能够分散 $S$ 。类 $H$ 能够分散的最大集合 $S$ 的大小称为 $H$ 的VC【Vapnik-Chervonenkis】维度，记 $V C (H)$ 。
考虑二维空间的线性分类器，存在某种分布3个样本点能被 $H$ 分散，但任何分布的4个样本点都不能被 $H$ 分散，即其VC维为3。而 $n$ 维空间的VC维为 $n + 1$ 。

2.2 无限维经验风险最小化理论
对于包含k个假设的集合 $H = \{h_k\}$ ，ERM理论认为，在 $\sigma$ 的概率下，一致收敛所需要的样本数量为 $O(1/\sigma^2·log(k/\sigma))$ 一般来讲，一个线性决策边界组成的 $h_k$ ，其参数以 $d$ 个实数作为参数，考虑 $n$ 维逻辑回归问题，则 $h_k$ 以 $n + 1$ 个实数作为参数。那么在计算机科学中，由于二进制浮点数的限制，所有k个假设的 $d$ 的组合情况是有限的，即 $k = 2^{(dc)}$ 其中 $c$ 是数据位数，故 $\begin{aligned} m &\ge 1/2\sigma^2·log(2k / \sigma) \\ &= O(d·log(1/\sigma)/\sigma^2) \end{aligned}$ 即所需的样本必须是上述式的数量级，其表明了所需的样本大致与假设类的参数数目呈线性关系。而不考虑计算机科学，有一种更加正确的表述。
Vapnik与Chervonenkis证明了，给定集合 $H$ ，令 $V C (H) = d$ ，那么在 $\sigma$ 的概率下，有 $|\epsilon(h) - \hat\epsilon(h)| \le O((d/m·log(m/d)+1/m·log(1/\sigma))^{1/2})$ 即一致收敛，以及在 $\sigma$ 的概率下，有 $\epsilon(\hat{h}) \le min_{h \in H}\ \epsilon(h) + O((d/m·log(m/d)+1/m·log(1/\sigma))^{1/2})$ 在满足一致收敛的条件下，有 $m = O (d)$ 即样本量需要与 $H$ 的VC维呈线性关系。

2.3 SVM的VC维
事实证明，即使使用核函数将样本映射到高维空间，具有较大间隔的线性分类器的假设类依然有比较低的VC维。考虑一定数量的样本点，其假设类包含了以较大的间隔分隔点集合的边界。若仅考虑半径为 $R$ 范围内的样本点，以及间隔至少为 $\gamma$ 的线性分类器构成的假设类 $H$ ，那么 $VC(H)\le \lceil R^2/4\gamma^2 \rceil + 1$ 即仅包含较大间隔线性分类器的假设类的VC维是有上界的。其表明VC维的上界不依赖于样本的维度。
ERM的损失函数可以认为是 $1\{h_\bm\theta(\bm{x}) \ne y\}$ ，目的是选取 $\bm\theta$ 使得其最小，是一个非凸的阶跃函数。而逻辑回归，SVM都可以看作该问题的一种凸性近似。

三、模型选择算法
根据ERM，偏差和方差之间存在权衡，即不应该选择过于简单或者过于复杂的模型。模型选择算法提供了一类方法，可以自动的在偏差与方差之间权衡。

3.1 保留交叉验证
保留交叉验证是一种标准的模型选取方法，将给定的训练集随机划分为两个子集，一个称为训练子集，另一个称为保留交叉验证子集。使用训练子集训练模型，并使用保留交叉验证子集进行测试，选择最小测试误差的模型作为结果。
一般的，训练子集占有训练集的70%，保留交叉验证子集占有30%，之后可以使用100%的数据对选出的模型进行重新训练。

3.2 k重交叉验证
有时，数据的获取是困难的，使用30%的数据来选择模型的代价过大。因此，为了提高数据的使用率，使用保留交叉验证的一种变种，称为k重交叉验证。
考虑训练集，将其划分为k部分，通常情况下，k的取值为5或10。重复的使用其中k-1个部分进行训练，并使用剩余的部分进行测试，最后将k个结果求取平均，选择最小测试误差的模型作为结果，并使用100%的数据对选出的模型进行重新训练。其明显的缺点为需要大量的计算。
对于m个样本时，k取m-1的情况，称为留1交叉验证，适用于样本较少的情况。

四、特征选择
对于很多机器学习问题，需要面对非常高维的特征空间，输入特征向量 $\bm{x}$ 的维数可能非常高，可能会引起过拟合问题。减少特征数量，也许可以减少学习算法的方差，降低过拟合的风险。

4.1 封装特征选择算法
前向搜索算法是一种特征选择的有效方法。其算法流程为
（1）初始化特征子集 $F$ 为 $\emptyset$ ；
（2）对于第i个特征 $x_i$ ，分别尝试加入到 $F$ 中，对模型进行交叉验证。
（3） $\cup x_i$ ，其中 $x_i$ 是效果最好的特征。并迭代（2）-（3），知道到达结束条件，如模型指标，特征数量。
同理的后向搜索算法是也一种特征选择的有效方法。
上述算法像一个包装一样封装在学习算法外面，即进行特征选择时，需要重复的使用学习算法训练模型，并根据模型的结果选择特征子集，其称为封装特征选择算法。其主要的缺点是需要大量的计算。

4.2 过滤特征选择算法
该算法的一般误差不会太低，从而导致假设的工作效果不是很好，但其的计算量较小。其基本思想为，对于每个特征，尝试计算一些衡量标准，衡量其对结果的影响，并选出最具有代表性的特征。

楠兮兮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习——学习理论

一、经验风险最小化1.1 经验风险最小化的两种理解考虑线性分类模型hθ(x)=g(θTx)g(z)=1{z≥0}h_{\bm\theta}(\bm{x}) = g(\bm\theta^T\bm{x}) \\ g(z) = 1\{z \ge 0\}hθ(x)=g(θTx)g(z)=1{z≥0}考虑训练样本{(x(i),y(i))}i=1m\{(\bm{x}^{(i)}, y^{(i)})\}_{i=1}^m{(x(i),y(i))}i=1m，定义训练偏差ϵ^(hθ)=∑i=1m1{hθ(x(i))
复制链接

扫一扫