机器学习基石---Why Can Machines Learn(Part6-Summary)

最新推荐文章于 2020-04-27 11:05:04 发布

维格堂406小队

最新推荐文章于 2020-04-27 11:05:04 发布

阅读量230

点赞数

分类专栏： ★★★机器学习 # ★★台大机器学习

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79208603

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★台大机器学习

13 篇文章 0 订阅

订阅专栏

这篇文章主要用自己的话对Week4-Week8的大体思路的一些总结，不涉及细节。
Part1-Part5主要阐述一个问题：learning在什么情况下是可行的？一个好的learning应该是在已知训练集和未知数据集中都有良好表现的，良好表现是指预测的误差较小。那么如果我们可以找到一个函数or方程使得它在训练集上误差小，并且这个函数在已知训练集和未知数据集中都有差不多的表现，那么我们可以说learning是可行的。现在问题拆分成两个：

$E_{in} \approx 0$
$E_{out} \approx E_{in}$

核心内容是解决问题2，即满足什么条件可以使得 $E_{out} \approx E_{in}$ 。证明和论述主要是放在二分类问题的框架上，主要步骤就是不停的扩大上界。
1. 通过类比统计上样本均值推断总体均值的罐子模型，得到某一个固定的 $h$ 一定可以满足 $E_{out} \approx E_{in}$ ：

P [| E i n (h) - E o u t | > ε] \leq 2 exp (- 2 ε 2 N)

$P\left[ {\left| {E_{in}(h) - E_{out} } \right| > \varepsilon } \right] \le 2\exp \left( { - 2{\varepsilon ^2}N} \right)$
2. 为了可以保证

Ein≈0 E i n ≈ 0 $E_{in} \approx 0$ ，希望

H H $H$ 所有的hypothesis都能满足

E_{o u t} \approx E_{i n}

$E_{out} \approx E_{in}$ ，利用union bound放大

H H $H$ 出现不满足

E_{i n} \approx 0

$E_{in} \approx 0$ 的概率：

P D [B a d D] = P D [B a d D f o r h 1 o r B a d D f o r h 2 o r \dots o r B a d D f o r h M] \leq P D [B a d D f o r h 1] + \dots + P D [B a d D f o r h M] \leq 2 exp (- 2 ε 2 N) + \dots + 2 exp (- 2 ε 2 N) = 2 M exp (- 2 ε 2 N)

$\begin{array}{l} {P_D}\left[ {Bad\;D} \right]\\ = {P_D}\left[ {Bad\;D\;for\;{h_1}\;or\;Bad\;D\;for\;{h_2}\;or\; \ldots or\;Bad\;D\;for\;{h_M}} \right]\\ \le {P_D}\left[ {Bad\;D\;for\;{h_1}\;} \right] + \ldots + {P_D}\left[ {Bad\;D\;for\;{h_M}} \right]\\ \le 2\exp \left( { - 2{\varepsilon ^2}N} \right) + \ldots + 2\exp \left( { - 2{\varepsilon ^2}N} \right)\\ = 2M\exp \left( { - 2{\varepsilon ^2}N} \right) \end{array}$
3. 显然这个bound过大了，因为不同的hypothesis很可能有重叠部分被重复计算，导致概率被高估。这时候把相似的hypothesis合并成一类，相似的定义是同一个dichotomy，即对所有的训练集的判断完全一致的hypothesis归为一类。

H H $H$ 一共可以产生的类用

m_{H} (N)

$m_{H}(N)$ 表示，即资料量为

N N $N$ 时，

H

$H$ 最多可以产生的dichotomy的个数。至于这样是否合理，后面会有说明。那么用

mH(N) m H ( N ) $m_{H}(N)$ 替换

M M $M$ :

P [| E_{i n} (g) - E_{o u t} (g) | > ε] \leq 2 * m_{H} (N) * \exp (- 2 ε^{2} N)

$P\left[ {\left| {{E_{in}}\left( g \right) - {E_{out}}\left( g \right)} \right| > \varepsilon } \right] \le 2 * m_{H}(N) * \exp \left( { - 2{\varepsilon ^2}N} \right)$
4. 经过分析发现

mH(N) m H ( N ) $m_{H}(N)$ 的大小和break point有关，寻找已知min break point为k的情况下，

mH(N) m H ( N ) $m_{H}(N)$ 的上界

B(N,k) B ( N , k ) $B(N,k)$ ，通过证明发现：

m H (N) \leq B (N, k) \leq \sum i = 0 k (N i)

$m_{H}(N) \le B\left( {N,k} \right) \le \sum\limits_{i = 0}^k {\left( {\begin{array}{*{20}{c}} N\\ i \end{array}} \right)}$
5. 之前我们用

mH(N) m H ( N ) $m_{H}(N)$ 代替

M M $M$ ，这明显不合理，因为同一个dichotomy的不同hypothesis不一定完全重叠，或者说

E_{i n}

$E_{in}$ 一样的

h h $h$ ，不一定

E_{o u t}

$E_{out}$ 也一样，那么可以对之前不等式右端做些调整，使得一定成立，有严格证明，并不能看懂，暂且记住：

P D [\exists h \in H, s . t . | E i n (g) - E o u t (g) | > ε] \leq 4 * m H (2 N) * exp (- 1 8 ε 2 N)

${P_D}\left[ {\exists \;h \in H,\;s.t.\;\left| {{E_{in}}\left( g \right) - {E_{out}}\left( g \right)} \right| > \varepsilon } \right] \le 4 * {m_H}\left( 2N \right) * \exp \left( { - \frac{1}{8}{\varepsilon ^2}N} \right)$
6. 把break point的定义替换成VC维，同时用上界

Nk−1 N k − 1 $N^{k-1}$ 代替

B(N,k) B ( N , k ) $B(N,k)$ ，可以有：

P D [\exists h \in H, s . t . | E i n (g) - E o u t (g) | > ε] \leq 4 * (2 N) k - 1 * exp (- 1 8 ε 2 N)

${P_D}\left[ {\exists \;h \in H,\;s.t.\;\left| {{E_{in}}\left( g \right) - {E_{out}}\left( g \right)} \right| > \varepsilon } \right] \le 4 * {(2N)^{k-1}} * \exp \left( { - \frac{1}{8}{\varepsilon ^2}N} \right)$
7. 此时如果VC维

k k $k$ 有限，N够大，就能满足第二个条件。不加以证明的，当数据中存在noise时，VC维的理论依旧有效。那么就需要满足条件一，最后提出error的定义，演算法通过不断的减少cost function，得到一个

E_{i n} \approx 0

$E_{in} \approx 0$ 的

g g $g$ 作为

f

$f$ 的估计。具体的演算法要等后面的课程讲解。

总体的步骤大抵如上，最重要的 $m_H{(N)}$ 怎么调整系数和 $2N$ 就能严格满足不等式，这里没看懂，可以说是很遗憾了。罢了，我就安安心心地调调包侠呗。
2018-01-30 于杭州

维格堂406小队

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石---Why Can Machines Learn(Part6-Summary)

这篇文章主要用自己的话对Week4-Week8的大体思路的一些总结，不涉及细节。 Part1-Part5主要阐述一个问题：learning在什么情况下是可行的？一个好的learning应该是在已知训练集和未知数据集中都有良好表现的，良好表现是指预测的误差较小。那么如果我们可以找到一个函数or方程使得它在训练集上误差小，并且这个函数在已知训练集和未知数据集中都有差不多的表现，那么我们可以说le
复制链接

扫一扫