机器学习基石笔记

xiaochengJF

于 2019-12-03 09:57:52 发布

阅读量342

点赞数

分类专栏：机器学习文章标签：笔记待整

本文链接：https://blog.csdn.net/weixin_43711554/article/details/96269409

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

文章目录

1 -- The Learning Problem
- - - What is Machine Learning
2 -- Learning to Answer Yes/No
3--Types of Learning
4 -- Feasibility of Learning
5 -- Training vs Testing
6 -- Theory of Generalization
7 -- The VC Dimension
8 -- Noise and Error
9 -- Linear Regression
10 -- Logistic Regression
11 -- Linear Models for Classification
12 -- Nonlinear Transformation
13 -- Hazard of Overfitting
14 -- Regularization
15 -- Validation
16 -- Three Learning Principles
参考文献

1 – The Learning Problem

What is Machine Learning

机器从数据中找出某种规律或者模型，并用它来解决实际问题。
应用场合

事物本身存在某种潜在规律
某些问题难以使用普通编程解决
有大量的数据样本可供使用

机器学习术语

输入： $\color {blue} x$
输出： $\color {blue} y$
目标函数： $\color {blue} f$ ，即最接近实际样本分布的规律
训练样本： $\color {blue} data$
假设： $\color {blue} hypothesis$ ，一个机器学习模型对应了很多不同的 $\color {blue} hypothesis$ ，选择一个模型其实就是选择了 $\color {blue}Hypothesis\ Set$ ，通过演算法 A，从 $\color {blue}Hypothesis\ Set$ 中选择一个最佳 $\color {blue} hypothesis$ 对应的函数称为矩 $\color {blue} g$ ， $\color {blue} g$ 能最接近目标函数 $\color {blue} f$ ， $\color {blue} g$ 能最好地表示事物的内在规律

2 – Learning to Answer Yes/No

Perceptron Hypothesis Set

一个机器学习模型对应了很多不同的 Hypothesis，选择一个模型其实就是选择了 Hypothesis Set，，常用的Hypothesis Set：感知机（Perceptron）

例如：银行是否给用户发信用卡：把用户的个人信息作为特征向量 $x$ ，共有 $d$ 个特征，每个特征赋予不同权重 $w$ ，表示该特征对输出（是否发信用卡）影响程度，所有特征加权和与设定阈值 threshold 比较

为计算方便，通常将阈值 threshold 当做 $w_0$

Perceptron Learning Algorithm（PLA）

线性分类器的 hypothesis set 就是很多条直线，用 PLA 算法选择一条最好的直线（最好的 g）将平面上正负样本分开：

首先在平面上随意取一条直线，看哪些点分类错误
然后开始对第一个错误点修正（变换直线的位置），如果正类误分为负类， $w^T_tx_n(t)<0$ （即： $w$ 和 $x$ 两个向量夹角大于90度， $w$ 是直线的法向量， $x$ 在直线下方），更新 $w\leftarrow w+x=w+yx,\ y=1$ ， $w + y x$ 和 $x$ 夹角小于 $90^o$ ， $x$ 位于直线的上侧，使错误点变成正确点，即完成修正。
反之亦是如此，接着第二、第三个 $\cdots$ 直到所有的点都分类正确

算法演示：

Guarantee of PLA

PLA终止条件：找到一条能将所有点分类正确的直线，即：必须保证数据 D 线性可分(linear separable)

其必然满足：
在这里插入图片描述
怎么证明PLA是有学习效果的？

PLA会对每次错误的点进行修正，更新权重 $w_{t+1}$ 的值，如果 $w_{t+1}$ 与 $w_f$ 越来越接近，数学运算上就是内积越大
向量长度变化也会决定内积大小，需要证明 $w_{t+1}$ 与 $w_t$ 向量长度的关系

$||w_{t+1}||^2\ {\color {red}\leq}\ ||w_t||^2+\color {red}\max_n||{\color {gray}y_n}x_n||^2$ 说明向量长度被限制了(增量值不超过 $max||x^2_n||$ )

由上可知：如果令初始权值 $w_0 = 0$ ，那么经过 T 次错误修正后，有如下结论：
$\frac{w_f^T}{||w_f||}\frac{w_T}{w_T}\geq \sqrt T\cdot constant\Longrightarrow \color{red} \text{PLA学习有效}$
证明：

(1) $w_f$ 完美分割样本点意味着： $y_{n(t)} w_{f}^{T} x_{n(t)} \geq \min _{n} y_{n} w_{f}^{T} x_{n}>0$ (2) $w_t$ 当样本点错误分类时 $\operatorname{sign}\left(w_{t}^{T} x_{n(t)}\right) \neq y_{n(t)} \Leftrightarrow y_{n(t)} w_{t}^{T} x_{n(t)} \leq 0$ (3) 更新修正 $w_{t}=w_{t-1}+y_{n(t)} x_{n(t)}$ (4) 证明 $t$ 次修正之后 $\frac{w_{f}^{T}}{\left\|w_{f}\right\|} \frac{w_{t}}{\left\|w_{t}\right\|} \geq \sqrt{T} \cdot \text { constant }$ 这个不等式意味着：
1、 $T$ 有上限，因此算法会在某个时间停止
2、不等式左侧是 $w_f$ 和 $w_t$ 的夹角
开始证明：
$\begin{aligned} w_{f}^{T} w_{t} &=w_{f}^{T}\left(w_{t-1}+y_{n(t-1)} x_{n(t-1)}\right) \quad & \text { using }(3) \\ & \geq w_{f}^{T} w_{t-1}+\min _{n} y_{n} w_{f}^{T} x_{n} \quad & \text { using }(1) \\ & \geq w_{0}+T \cdot \min _{n} y_{n} w_{f}^{T} x_{n} \quad & \text { applying } \mathrm{T} \text { times } \\ & \geq T \cdot \min _{n} y_{n} w_{f}^{T} x_{n} \end{aligned}$
$\begin{array}{l}{\text { for }\left\|w_{t}\right\| \text { we have: }} \\ {\qquad \begin{aligned}\left\|w_{t}\right\|^{2} &=\left\|w_{t-1}+y_{n(t-1)} x_{n(t-1)}\right\|^{2} & \text { using }(3) \\ &=\left\|w_{t-1}\right\|^{2}+2 y_{n}(t-1) w_{t}^{T} x_{n(t-1)}+\left\|y_{n(t-1)} x_{n(t-1)}\right\|^{2} \\ & \leq\left\|w_{t-1}\right\|^{2}+0+\left\|y_{n}(t-1) x_{n(t-1)}\right\|^{2} & \text { using }(2)\\ & \leq\left\|w_{t-1}\right\|^{2}+\max _{n}\left\|x_{n}\right\|^{2} \\ & \leq\left\|w_{0}\right\|+T \cdot \max _{n}\left\|x_{n}\right\|^{2}=T \cdot \max _{n}\left\|x_{n}\right\|^{2} \end{aligned}}\end{array}$
由上面结论可得：
$\begin{aligned} \frac{w_{f}^{T}}{\left\|w_{f}\right\|} \frac{w_{T}}{\left\|w_{T}\right\|} &=\frac{T \cdot \min _{n} y_{n} w_{f}^{T} x_{n}}{\left\|w_{f}^{T}\right\| \cdot\left\|w_{t}\right\|} \\ & \geq \frac{T \cdot \min _{n} y_{n} w_{f}^{T} x_{n}}{\left\|w_{f}^{T}\right\| \cdot \sqrt{T} \cdot \max _{n}\left\|x_{n}\right\|} \\ & \geq \frac{\sqrt{T} \cdot \min y_{n} w_{f}^{T} x_{n}}{\left\|w_{f}^{T}\right\| \cdot \max _{n}\left\|x_{n}\right\|}=\sqrt{T} \cdot \text { constant } \end{aligned}$
$\begin{aligned} & \frac{\sqrt{T} \cdot \min _{n} y_{n} w_{f}^{T} x_{n}}{\left\|w_{f}^{T}\right\| \cdot \max _{n}\left\|x_{n}\right\|} \leq 1 \\ \Leftrightarrow T & \leq \frac{\max _{n}\left\|x_{n}\right\|^{2} \cdot\left\|w_{f}^{T}\right\|^{2}}{\min ^{2} y_{n} w_{f}^{T} x_{n}}=\frac{R^{2}}{\rho^{2}} \end{aligned}$

Non-Separable Data

对于非线性可分的情况，PLA 就不行了，解决办法就是：

把条件放宽松，允许有错的点，取犯错最少的线，修改后的 PLA 称为 Packet Algorithm

Packet Algorithm算法流程：

3–Types of Learning

二元分类和多元分类都属于分类问题（classification problem），输出都属于离散值。但是预测房屋价格等，这类问题输出是连续的，属于回归问题（Regression Problem），在自然语言处理等领域中，还会用结构化学习（Structured Learning）：输出空间包含某种结构

Learning with Different Data Label yn

监督式学习（Supervised Learning）：训练样本 $D$ 既有输入特征 $x$ ，也有输出 $y_n$ ，如：二元分类、多元分类或者是回归
非监督式学习（Unsupervised Learning）：无输出标签，典型的如：聚类（clustering）问题（网页新闻自动分类）、密度估计（交通路况分析）、异常检测（用户流量监测）
半监督式学习（Semi-supervised Learning）：一部分数据有输出标签 $y_n$ ，而一部分数据没有，如医药公司对某些药物进行检测，考虑到成本和实验人群限制等问题，只有一部分数据有输出标签 $y_n$
强化学习（Reinforcement Learning）：通过“反馈-修正”的形式，反馈好，给其正向激励，反馈不好，给其反向激励，一步一步让模型学习得更好

Learning with Different Protocol f

根据不同的学习方式，机器学习又可分三种类型：Batch Learning、Online Learning、Active Learning

Batch Learning：一次性拿到整个训练数据 $D$ ，对其进行学习建模
Online Learning ：一种在线学习模型，数据是一个一个获取，学到的g是实时更新的，如：在线邮件过滤系统，先观察一份邮件 $x_t$ 的内容，然后根据当前的模型 $g_t$ 预测邮件是否为垃圾邮件，再从用户那里得到正真的lable，及时更新 $g_t$ 。PLA和强化学习都属于Online learning
Active Learning：让机器具备主动问问题的能力，如手写数字识别，机器自己生成一个数字或者对它不确定的手写字主动提问。其优势之一是在获取样本lable比较难的时候，可以节约时间和成本，只对一些重要的lable提出需求

Learning with Different Input Space X

根据输入 $x$ 有哪些类型呢？

concrete features：如说硬币分类问题中的硬币的尺寸、重量等
raw features：一般比较抽象，经常需要人或着机器来转换为其对应的concrete features，这个转换的过程就是Feature Transform，如语音信号的频谱等
abstract features：如某网站做网购预测时，提供给参赛者的是抽象的加密过的资料编号或 $I D$ ，这些特征 $x$ 完全是抽象的，没有实际的物理意义，需要对特征进行更多的提取和转换

4 – Feasibility of Learning

Learning is Impossible

机器学习目的是希望模型能在未知数据上作出正确预测，但无法保证一个机器学习算法在 $D$ 以外的数据集上一定能分类或预测正确，除非加上一些假设条件

Probability to the Rescue

一个装有很多橙色球和绿色球的罐子，我们能不能推断橙色球的比例 $\color {green}u$ ?

统计学上的做法：从罐子中随机取出 $N$ 个球，作为样本，计算这 $N$ 个球中橙色球的比例 $\color {orange}v$ ，那么就估计出罐子中橙色球的比例约为 $\color {orange}v$

这种随机抽取的做法能否说明罐子里橙色球的比例一定是 $\color {orange}v$ 呢？

$\color {brown}No$ ，但从概率的角度来说，样本中的 $\color {orange}v$ 很有可能接近未知的 $\color {green}u$

怎么说明 $\color {orange}v$ 与 $\color {green}u$ 是否相近？

$P[|v-u|>\epsilon]\leq 2exp(-2\epsilon^2N)\qquad\color{blue}\text{Hoeffding’s inequality}$

Hoeffding不等式说明当 $N$ 很大的时候， $\color {orange}v$ 与 $\color {green}u$ 相差不会很大，其差值限定在 $\color {red}ϵ$ 之内，结论 $\color {orange}v$ = $\color {green}u$ 称为 probably approximately correct(PAC)

Connection to Learning

机器学习中 hypothesis 与目标函数类似于罐子中橙色球的概率问题，采样数据上得到了一个最佳 hypothesis，认为它接近目标函数 在这里插入图片描述
为什么在采样数据上得到的 hypothesis ，就可以推到全局呢？

因为两者的错误率符合PAC，只要保证前者小，后者也大概率很小

用 $E_{in}(h)$ 表示在抽样样本中， $h (x)$ 与 $y_n$ ，也可记作 $f(x_n)$ ，不相等的概率； $E_{out}(h)$ 表示实际所有样本中， $h (x)$ 与 $f (x)$ 不相等的概率，所以 Hoeffding’s inequality 可以表示为：
$P[|E_{in}(h)-E_{out}(h)|>\epsilon]\leq 2exp(-2\epsilon^2N)$

如果 $h$ 是固定的， $N$ 很大的时候， $E_{in}(h)\approx E_{out}(h)$ ，但是并不意味着 $g \approx f$ 。因为 $h$ 是固定的，不能保证 $E_{in}(h)$ 足够小。所以，一般会通过演算法A，选择最好的 $h$ ，使 $E_{in}(h)$ 足够小，从而保证 $E_{out}(h)$ 很小
在这里插入图片描述

Connection to Real Learning

例：150个人抛硬币，那么其中至少有一个人连续5次硬币都是正面朝上的概率是：
$1-(\frac{31}{32})^{150}>99\%$

上例能说明该硬币单次正面朝上的概率很大吗？ $\color {red}\bigotimes$

当抛硬币人数很多时，可能引发 Bad Sample： $E_{in}$ 和 $E_{out}$ 差别很大，即选择过多带来的负面影响，选择过多会恶化不好的情形（这就是倒霉的时候）

多次抽样得到的不同的数据集 D，Hoeffding’s inequality保证了大多数 D 都是比较好的情形（ $E_{in}\approx E_{out}$ ），但也有可能出现 Bad Data，即： $E_{in}$ 和 $E_{out}$ 差别很大的 D
在这里插入图片描述
不同的数据集 $D_n$ ，对于不同的 hypothesis，有可能成为 Bad Data。只要 $D_n$ 在某个hypothesis上是Bad Data，那么 $\color {red}D_n$ 就是 Bad Data.

所以，只有 $D_n$ 在所有hypothesis上都是好的数据，才说明 $D_n$ 不是Bad Data，可以自由选择演算法A进行建模

根据 Hoeffding’s inequality，Bad Data 的上界可以表示为级联（union bound）的形式：
在这里插入图片描述
其中： $M$ 是hypothesis的个数， $N$ 是样本 $D$ 的数量， $\epsilon$ 是参数

union bound表明：当 $M$ 有限，且 $N$ 足够大时，Bad Data 出现概率更低。那么通过演算法A任意选择一个矩 $g$ ，就能保证 $E_{in}\approx E_{out}$ 成立，如果该矩 $g$ 使 $E_{in}≈0$ ，PAC就能保证 $E_{out}≈0$ ，说明机器学习是可行的。

5 – Training vs Testing

机器学习的主要目标分成两个核心的问题：

$E_{in}(g)\approx E_{out}(g)$
$E_{in}(g)$ 足够小

当hypothesis的个数是无限多的时候，机器学习的可行性是否仍然成立？

Effective Number of Line

前面推导的霍夫不等式：
$P[|E_{in}(g)-E_{out}(g)|>\epsilon]\leq 2\cdot M\cdot exp(-2\epsilon^2N)$

$M$ 表示 hypothesis 个数。每个 hypothesis 下的 BAD events $B_m$ 级联的形式满足下列不等式：
$P[B_1\ or\ B_2\ or\ \cdots B_M]\leq P[B_1]+P[B_2]+\cdots+P[B_M]$

当 $M=\infty$ 时，不等式右边值将会很大。但是BAD events $B_m$ 级联的形式实际上扩大了上界，union bound被估计过大，假设各个hypothesis之间没有交集，这是最坏的情况。所以，要找出不同BAD events之间的重叠部分，也就是将无数个hypothesis分成有限个类别
在这里插入图片描述
如何将无数个hypothesis分成有限类呢？

用直线将平面上的 $N$ 个点分开,有效直线 $e f f e c t i v e (N)$ 的数量总是满足 $2^N$ ，用 effective(N) 代替 $M$ （hypothesis个数），霍夫丁不等式可以写成：
$P[|E_{in}(g)-E_{out}(g)|>\epsilon]\leq 2\cdot effective(N)\cdot exp(-2\epsilon^2N)$

$effective(N)≤2^N$ ，如果能够保证 $\color {blue} effective(N)<<2^N$ ，即不等式右边接近于零，那么即使M无限大，直线的种类也很有限，使得机器学习成为可能

Effective Number of Hypotheses

首先引进一些概念：

二分类（dichotomy）：将空间中的点（例如二维平面）用一条直线分成正类（蓝色o）和负类（红色x）
hypotheses H：平面上所有直线的集合（可能是无限个）
dichotomy H：能将平面上所有点用直线分开的 hypothesis h 的集合，上界是 $2^N$
成长函数（growth function） $m_H(H)$ ： $N$ 个点组成的不同集合中，某集合对应的 dichotomy 最大，那么该 dichotomy 值就是 $m_H(H)$ ，上界是 $2^N$
shattered： N 个点所有可能的分类情况都能够被 hypotheses set 覆盖的情况（即成长函数： $2^N$ ）

成长函数其实就是前面的 effective lines 数量的最大值，二维平面上， $m_H(H)$ 随 $N$ 的变化关系是：

在这里插入图片描述
如何计算成长函数?

一维 Positive Rays：

整个区域可分为 $N + 1$ 段，成长函数 $m_H(N)=N+1$ ， $m_H(N)<<2^N$
一维的 Positive Intervals：

$m_H(N)=\frac12N^2+\frac12N+1<<2^N$

Break Point

前面介绍了四种成长函数：

positive rays 和 positive intervals 成长函数都是 polynomial，如果用 $m_H$ 代替 $M$ 可以保证机器学习可行性
而 convex sets 的成长函数是 exponential，即等于M，不能保证机器学习的可行性

那么，2D perceptrons 的成长函数究竟是 polynomial 还是 exponential 呢？

对于2D perceptrons，3个点可以做出8种所有的dichotomy，而4个点就无法做出所有16个点的dichotomy了，4称为2D perceptrons的 break point：满足 $m_H(k)\neq2^k$ ，取 $k$ 的最小值就是break point

2D perceptrons的成长函数呢？

如果：成长函数 $m_H(N)=O(N^{k−1})$ 成立，那么就可以用 $m_H$ 代替 $M$ ，即满足了机器学习的条件

6 – Theory of Generalization

Restriction of Break Point

影响成长函数 $m_H(N)$ 的因素主要有两个：

抽样数据集 $N$
break point $k$

如果给定 $N$ 和 $k$ ，能够证明其 $m_H(N)$ 的最大值的上界是多项式的，则根据霍夫丁不等式，就能用 $m_H(N)$ 代替 $M$ ，推出机器学习是可行的

Bounding Function: Basic Cases

引入一个新的函数：Bound Function： $B (N, k)$

当 break point 为 $k$ 时，成长函数 $m_H(N)$ 可能的最大值，即 $B (N, k)$ 是 $m_H(N)$ 的上界（ $N$ 中任意 $k - 1$ 个点的所有组合都线性可分，大于等于 $k$ 时，则有组合不可分）

那么，只要证明 $B (N, k)$ 的上界是多项式分布即可：
$B(N,k)\leq poly(N)$

求 $B (N, k)$ 的过程：

当 $k = 1$ ， $B (N, 1)$ 恒为1
当 $N < k$ ， $B(N,k)=2^N$
当 $N = k$ ，第一次出现不能被 shatter 的值，最多有 $2^N−1$ 个dichotomies， $B(N,k)=2^N−1$
当 $N > k$ ，情况开始变得复杂

在这里插入图片描述

Bounding Function: Inductive Cases

$N > k$ 时，怎么得到 $B (N, k)$ 呢？

$B (4, 3)$ ：所有情况共有11组（任意两个点组合情况都包括{oo、ox、xo、xx}，但三个点的组合则不能完全包括）：
去掉 $x_4$ 将橙色部分去重得到组合 $\alpha$ ，相应紫色部分为 $\beta$ 。那么 $\color{blue}B(4,3)=2\alpha+\beta$ .
$B (4, 3)$ 任意三点都不能被 shatter，所以 $\alpha$ 和 $\beta$ 构成的所有点的组合也不能被 shatter（ $\alpha+\beta$ 不能表示 $x_1、x_2、x_3$ 所有的排列组合），即 $\color{blue}\alpha + \beta\leq B(3,3)$ .
去掉 $α$ 中 $x_4$ ， $α$ 既不能被任意三点 shatter，也不能被任意两点 shatter，所以得到： $\color{blue}\alpha \leq B(3,2)$

由此得出 $\color{blue}B(4,3)$ 与 $\color{blue}B(3,x)$ 的关系为：

在这里插入图片描述
推导出一般公式为：

根据推导公式， $\color{blue}B(N,K)$ 值分布如下表：

根据递推公式得到 $\color{blue}B(N,K)$ 满足下列不等式：

上述不等式的右边是最高阶为 $k - 1$ 的多项式，即：成长函数 $m_H(N)$ 的上界 $B (N, K)$ 的上界满足多项式分布 $p o l y (N)$
在这里插入图片描述
所以2D perceptrons，break point为 $k = 4$ ， $m_H(N)$ 上界为 $N^{k−1}$

如果能找到一个模型的 break point ，那么就能推断出其成长函数 $m_H(N)$ 有界

A Pictorial Proof

成长函数的上界是 poly(N)，如果能将 $m_H(N)$ 代替 $M$ ，代入到 Hoffding 不等式中，就能得到 $\color{blue}E_{out}≈E_{in}$ 的结论：
在这里插入图片描述
实际上并不是简单的替换就可以了，正确的表达式为：

该推导的证明比较复杂 ，数据量为 $N$ 的资料 $D$ 一共有 $m_H(N)$ (Effective Number of Hypotheses)个不同的 $E_{in}$ ，但总体数据量往往不知道或者说无限大，会产生无限个不同的 $E_{out}$ ，大致思路就是：

无限变有限
有限找上界

课件有简单推导，后面给出了详细推导
如何把 $E_{out}$ 变成有限个？

假设从总体再获得一份数据量为 $N$ 的验证资料(verification set) $D^\prime$ ，对于任意 $h$ 可以在 $D^\prime$ 上得到 $E_{in}^\prime$
由于 $D^\prime$ 也是总体的一个样本，如果 $E_{in}$ 和 $E_{out}$ 离很远，有非常大的可能 $E_{in}$ 和 $E_{in}^\prime$ 也会离得比较远
当 $N$ 很大， $E_{in}$ 和 $E_{in}^\prime$ 类似服从以 $E_{out}$ 为中间位置的高斯分布(Gaussian)

在这里插入图片描述

最终，通过引入成长函数 $m_H$ ，得到一个新的不等式，称为Vapnik-Chervonenkis(VC) bound：

2D perceptrons的break point是4，成长函数 $m_H(N)=O(N^3)$ ，因此，2D perceptrons是可以进行机器学习的，只要找到hypothesis能让 $E_{in}≈0$ ，就能保证 $E_{in}≈E_{out}$

step1证明 $^{【6】}$ ：

$\begin{aligned} &[ E_{in}(h)-E_{out}(h)] \gt \epsilon\ {\Large\color {red}\&} \ \color {blue}[E_{in}^{'}(h)-E_{out}(h)] \gt \frac{\epsilon}{2} & \text (1)\\ &=[ E_{in}(h)-E_{out}(h)] \gt \epsilon\ {\Large\color {red}\&} \ [E_{out}(h)-E_{in}^{'}(h)] \gt -\frac{\epsilon}{2}\\ &=([ E_{in}(h)-E_{out}(h)] +[E_{out}(h)-E_{in}^{'}(h)])\gt (\epsilon\ +(-\frac{\epsilon}{2}))\\ &= \color {blue}[E_{in}(h)-E_{in}^{'}(h)] \gt \frac{\epsilon}{2}& \text (2) \end{aligned}$ 对式(1)(2)蓝色项求期望可得：
$\begin{aligned} &[ E_{in}(h)-E_{out}(h)] \gt \epsilon\ {\Large\color {red}\&} \ \color {blue}{\Large\mathbb{P}}([E_{in}^{'}(h)-E_{out}(h)] \gt \frac{\epsilon}{2})\quad \quad & \text (3)\\ &={\Large \color {blue}\mathbb{P}}([E_{in}(h)-E_{in}^{'}(h)] \gt \frac{\epsilon}{2})& \text (4) \end{aligned}$ 蓝色项，由 Chebyshev’s Inequality可知：
${\Large\mathbb{P}}([E_{in}^{'}(h)-E_{out}(h)] \gt \frac{\epsilon}{2})\leq\frac{4var(h)}{N\epsilon^2} \quad \quad \quad \quad\quad \quad\quad \quad\quad\text (5)$ $h$ 只取0和1，所以有： $var(h)\leq\frac14$
$\begin{aligned} &{\Large\mathbb{P}}([E_{in}^{'}(h)-E_{out}(h)] \gt \frac{\epsilon}{2})\leq\frac{1}{N\epsilon^2}\\ &\Longrightarrow {\Large\mathbb{P}}([E_{in}^{'}(h)-E_{out}(h)] \leq \frac{\epsilon}{2})\geq \color {blue}1 -\frac{1}{N\epsilon^2} \quad \quad \quad \quad \quad & \text (6)\\ \end{aligned}$ 用 $\color {blue}1 -\frac{1}{N\epsilon^2}$ 代替式(3)的蓝色项：
$\begin{aligned} &[ E_{in}(h)-E_{out}(h)] \gt \epsilon\ \ \color {blue}(1 -\frac{1}{N\epsilon^2})\\ &\leq E_{in}(h)-E_{out}(h)] \gt \epsilon\ {\Large\color {red}\&} \ \color {blue}{\Large\mathbb{P}}([E_{in}^{'}(h)-E_{out}(h)] \gt \frac{\epsilon}{2})\\ &={\Large \color {blue}\mathbb{P}}([E_{in}(h)-E_{in}^{'}(h)] \gt \frac{\epsilon}{2})\\ &\Longrightarrow{\color {blue}(1 -\frac{1}{N\epsilon^2})}([ E_{in}(h)-E_{out}(h)] \gt \epsilon)\ \leq{\Large \color {blue}\mathbb{P}}([E_{in}(h)-E_{in}^{'}(h)] &\gt \frac{\epsilon}{2})\\ && \text (7) \end{aligned}$ 对式(7)两边求期望：
$\begin{aligned} &{\color {blue}(1 -\frac{1}{N\epsilon^2})}{\Large \color {blue}\mathbb{P}}([ E_{in}(h)-E_{out}(h)] \gt \epsilon)\ \leq{\Large \color {blue}\mathbb{P}}([E_{in}(h)-E_{in}^{'}(h)] &\gt \frac{\epsilon}{2})\\ &&\text (8) \end{aligned}$ 注意：Lemma-Symmetrization有一个条件： $\color {red}\forall\epsilon\gt0,N\epsilon^2\geq 2$ $\Longrightarrow1 -\frac{1}{N\epsilon^2}\geq \frac12$ ：
$\begin{aligned} &{\color {blue}\frac12}{\Large \color {blue}\mathbb{P}}([ E_{in}(h)-E_{out}(h)] \gt \epsilon)\ \leq{\Large \color {blue}\mathbb{P}}([E_{in}(h)-E_{in}^{'}(h)] \gt \frac{\epsilon}{2})\\ \end{aligned}$ step1得证
Step1将无限变有限：不等式右边可以用有限的集合表示 $D+D^\prime:H(x_1,\cdots,x_N;x_1^\prime,\cdots,x_N^\prime)$ ，这里特别标注
$\begin{aligned} &{\Large \color {blue}\mathbb{P}}_{H(x_1,\cdots,x_N;x_1^\prime,\cdots,x_N^\prime)}([E_{in}(h)-E_{in}^{'}(h)] \gt \epsilon)\\ &={\Large \color {blue}\mathbb{P}}_{H(x_1,\cdots,x_N;x_1^\prime,\cdots,x_N^\prime)}([ E_{in}(h)-E_{out}(h)] +[E_{out}(h)-E_{in}^{'}(h)])\gt \epsilon)\\ &\leq {\color {blue}{\Large\mathbb{P}}}_{H(x_1,\cdots,x_N)} [ E_{in}(h)-E_{out}(h)] \gt \epsilon\ {\Large\color {red}+} \ {\color {blue}{\Large\mathbb{P}}}_{(x_1^\prime,\cdots,x_N^\prime)}([E_{in}^{'}(h)-E_{out}(h)] \gt \frac{\epsilon}{2})\\ &\leq e^{-2N(\epsilon/2)^2}+e^{-2N(\epsilon/2)^2}\\ &=2e^{-2N(\epsilon/2)^2}\\ \text{整理得：}\\ &{\Large \color {blue}\mathbb{P}}_{H(x_1,\cdots,x_N)}([ E_{in}(h)-E_{out}(h)] \gt \epsilon)\\ &\leq {\Large {2}} {\Large \color {blue}\mathbb{P}}_{H(x_1,\cdots,x_N;x_1^\prime,\cdots,x_N^\prime)}([E_{in}(h)-E_{in}^{'}(h)] \gt \frac \epsilon 2)\\ &\leq 2\ \sum_{h\in(x_1,\cdots,x_N;x_1^\prime,\cdots,x_N^\prime)}{\Large \color {blue}\mathbb{P}}_{H(x_1,\cdots,x_N;x_1^\prime,\cdots,x_N^\prime)}([E_{in}(h)-E_{in}^{'}(h)] \gt \frac\epsilon2)\\ &\leq2\sum_{h\in(x_1,\cdots,x_N;x_1^\prime,\cdots,x_N^\prime)}2e^{-N(\epsilon/2)^2/2}\\ &=4e^{-N\epsilon^2/8}\sum_{h\in(x_1,\cdots,x_N;x_1^\prime,\cdots,x_N^\prime)}1\\ &=4m_H(2N)e^{-\frac18\epsilon^2N} \end{aligned}$ step3得证
证毕
VC Theory: Hoeffding Inequality $^{【1】}$
VC Theory: Symmetrization $^{【2】}$
VC Theory: Vapnik–Chervonenkis Dimension $^{【3】}$

7 – The VC Dimension

机器能够学习必须满足两个条件：

假设空间 $H$ 的Size M 有限，当 $N$ 足够大，对于假设空间中任意一个假设 $g$ 有 $E_{out}≈E_{in}$
利用算法A从假设空间H中，挑选一个 $g$ ，使 $E_{in}(g)≈0$ ，则也 $E_{out}≈0$

这对应 test 和 trian 两个过程：

train 目的是让 $E_{in}≈0$
test 目的是让 $E_{out}≈0$

引入break point，只要 break point 存在，则 $M$ 有上界，一定存在 $E_{out}≈E_{in}$

Definition of VC Dimension

如果假设空间 $H$ 有 break point $k$ ，成长函数有界，上界称为 Bound function。根据数学归纳法，Bound function 也上界为 $N^{k−1}$ 。从下面的表格可以看出， Bound function 较为松弛
在这里插入图片描述

于是，VC bound 就可以转换为：

不等式只与 $k$ 和 $N$ 相关了，一般情况下样本 $N$ 足够大，所以只考虑k值，有如下结论：

若假设空间 H 有break point $k$ ，且 N 足够大，根据VC bound理论，算法有良好的泛化能力
在假设空间中选择一个矩 $g$ ，使 $E_{in}≈0$ ，则其在全集数据中的错误率也会较低（ $E_{out}≈0$ ）

VC Dimension：某假设集 $H$ 能够 shatte r的最多inputs的个数，即最大完全正确的分类能力
shatter：inputs 的所有情况都能列举出来，例如： $N$ 个输入，如果能够将 $2^N$ 种情况都列出来，则称该 $N$ 个输入能够被假设集 $H$ shatter
根据 break point 定义：假设集不能被shatter任何分布类型的 inputs 的最少个数，则VC Dimension等于break point的个数减一
在这里插入图片描述
那么：

用 $\color{blue}d_{vc}$ 代替 $\color{blue}k$ ，那么 VC bound 的问题也就转换为与 $d_{vc}$ 和 $N$ 相关了

如果假设集 $H$ 的 $d_{vc}$ 确定，就能满足机器能学习的第一个条件 $E_{out}≈E_{in}$

VC Dimension of Perceptrons

以 PLA算法为例，Perceptrons的 $k = 4$ ，则 $d_{vc}=3$ ，根据 VC Bound 理论，当 $N$ 足够大， $E_{out}(g)≈E_{in}(g)$ 。如果找到一个 $g$ ，使 $E_{in}(g)≈0$ ，那么就能证明PLA可以学习
在这里插入图片描述
这是在2D情况下，那如果是多维的Perceptron，其对应的 $d_{vc}$ 又等于多少呢？

1D Perceptron： $d_{vc}=2$
2D Perceptrons： $d_{vc}=3$
那么作如下假设： $d_{vc}=d+1$ (d：维数)

上面的假设需要分两步证明：

$d_{vc}\geq d+1$
$d_{vc}\leq d+1$

1、首先证明： $d_{vc}\geq d+1$ ，在 $d$ 维中，只要找到某一类的 $d + 1$ 个 inputs 可以被 shatter ，那么必然得到 $d_{vc}≥d+1$

构造一个 $d$ 维矩阵 $X$ 能够被 shatter，有 $d + 1$ 个inputs，每个inputs加上第零维度的常数项1：
在这里插入图片描述
shatter的本质

假设空间 $H$ 对 $X$ 的所有情况的判断都是对的，即总能找到权重 $W$ ，满足： $X\ast W=y$ ， $W=X^{-1}\ast y$

所设矩阵 $X$ 的逆矩阵明显存在，所以 $d$ 维所有 inputs 都能被 shatter
在这里插入图片描述

2、证明： $d_{vc}≤d+1$ ，在 $d$ 维中，如果对于任何的 $d + 2$ 个inputs，一定不能被shatter，则不等式成立

往前面 $d + 1$ 个inputs的矩阵中再添加一个inputs，构造含 $d + 2$ 个 inputs 的矩阵 $X$ ，该矩阵有 $d + 2$ 行、 $d + 1$ 列，根据线性代数知识，第 $d + 2$ 个inputs必与其他 $n + 1$ 个线性相关：
$X_{d+2}=a_1\ast X_1+a_2\ast X_2+\cdots+a_{d+1}\ast X_{d+1}$

假设 $a_1>0$ ， $a_2,⋯,a_{d+1}<0$

那么，如果 $X_1$ 是正类， $X_2,⋯,X_{d+1}$ 均为负类，则存在 $W$ 使得：
$X_{d+2}\ast W={\color {blue}a_1\ast X_1\ast W} + {\color {red}a_2\ast X_2\ast W + \cdots + a_{d+1}\ast X_{d+1}\ast W} >0$ 蓝色项大于0，代表正类；红色项负负得正也大于0，代表负类。这种情况下， $X_{d+2}$ 只能是正类，无法得到负类的情况。即： $d + 2$ 个inputs无法被shatter

综上证得： $d_{vc}=d+1$

Physical Intuition VC Dimension

在这里插入图片描述

VC Dimension代表了假设空间的分类能力，即反映了 $H$ 的自由度、产生dichotomy的数量。上式 $W$ 也称为 features（自由度），可以认为 VC Dimension 等于 features 的个数，但也不是绝对的。

在这里插入图片描述

如，2D Perceptrons 线性分类， $d_{vc}=3$ ，则 $W={w0,w1,w2}$ ，只要 3 个 features 就可以学习，自由度为3

M 与 $d_{vc}$ 成正比，可得到如下结论：
在这里插入图片描述

Interpreting VC Dimension

VC Bound：限制了 bad data 的概率
在这里插入图片描述

$\color{blue}ϵ$ 表现了假设空间 $H$ 的泛化能力， $ϵ$ 越小，泛化能力越强

主要关心 $E_{out}$ 上界：

不等式右边第二项称为模型复杂度，与样本数量 $N$ 、假设空间 $H(d_{vc})、ϵ$ 有关

在这里插入图片描述
上图可以得出如下结论：

$d_{vc}$ 越大， $E_{in}$ 越小（更多选择，更好的g）， $Ω$ 越大（复杂）
$d_{vc}$ 越小， $E_{in}$ 越大， $Ω$ 越小（简单）
随着 $d_{vc}$ 增大， $E_{out}$ 会先减小再增大

例子：
在这里插入图片描述
计算得到 $N = 29300$ ，刚好满足 $δ = 0.1$ 的条件。 $N$ 大约是 $d_vc$ 的10000倍，实际大概 $d_{vc}$ 的10倍就够了，因为VC Bound 过于宽松

为什么VC Bound 过于宽松？

Hoeffding 适用于任意分布data及目标 $f$ ，数据未知，没有针对性
$m_H{(N)}$ 成长函数对应样本dichotomy的最大值
$N^{d_{vc}}$ 代替 $m_H{(N)}$ ，对任意 $H$ 都取了上限
union bound考虑了最坏的情况

8 – Noise and Error

Noise and Probablistic target

如果数据集本身存在Noise，那VC Dimension的推导是否还成立呢？

Noise一般有三种：

人为因素，正类被误分为负类，或者负类被误分为正类
同样特征的样本被模型分为不同的类
样本的特征被错误记录和使用

之前数据集是确定的，没有Noise。有 Noise 在某处不再是确定分布，而是概率分布，即对每个 $(x, y)$ 出现的概率是 $P (y ∣ x)$

如果数据集按照 $P (y ∣ x)$ 概率分布且是 $i i d$ ，那么之前的方法依然可以证明机器可以学习，VC Dimension有限即可推断 $E_{in}$ 和 $E_{out}$ 是近似的

ERROR Measure

机器学习的任务就是找出与目标函数 $f$ 最接近的矩 $g$ ，误差衡量方式可以帮助选择最好的矩 $g$ ：

out-of-sample：样本外的未知数据 $x$ 上取平均值
pointwise：对每个数据点 $x$ 进行测试
classification：prediction $\neq$ target

PointWise error即对数据集的每个点计算错误并取平均：

pointwise error一般可以分成两类：

0/1 error（classification）
squared error（regression）
左边预测1.9时，无对应值所以错误概率为1，
右边预测为1时，则squared error的 $avgerr=0.7*(1-2)^2+0.1(1-3)^2$

Algorithmic Error Measure

Error有两种：

false accept：把负类当成正类
false reject：把正类当成负类

不同的机器学习问题，false accept和false reject应有不同权重（如：超市优惠，false reject权重应大一些；安保系统，false accept权重应大一些）
在这里插入图片描述
机器学习演算法的cost function error估计有多种方法，真实err一般难以计算

Weighted Classification

用不同权重惩罚，可以选用virtual copying方法，或者复制多次
在这里插入图片描述

9 – Linear Regression

Linear Regression Problem

给用户发放信用卡额度就是一个线性回归（Linear Regression）问题
在这里插入图片描述
令用户特征集为 $d$ 维的 $X$ ，加上常数项，维度为 $d + 1$ ，与权重 $w$ 的线性组合即为Hypothesis，记为 $h (x)$ 。线性回归的预测取值在整个实数空间，这与线性分类不同
$h(x)=w^TX$
在一维或者多维空间里，线性回归的目标是找到一条直线（对应一维）、一个平面（对应二维）或者更高维的超平面，使样本集中的点更接近它，也就是残差 Residuals 最小化

最常用的误差衡量方式是基于最小二乘法，目标是计算误差的最小平方和：
在这里插入图片描述

Linear Regression Algorithm

如何找出合适的 $w$ ，使 $E_{in}$ 能够最小呢？
在这里插入图片描述
对此类线性回归问题， $E_{in}(w)$ 一般是个凸函数，找到一阶导数为零的位置，即最优解：

对 $E_{in}(w)$ 求偏导：

令偏导为零：

得到了权重向量 $w=(X^TX)^{-1}X^Ty$ ，其中 $X^TX)^{-1}X^T$ 又称为伪逆矩阵pseudo-inverse，记为 $X^\dagger$ ，维度是 $(d+1)\times N$

Generalization Problem

这种求解权重向量的方法是机器学习吗？是否满足之前推导VC Bound（泛化能力强 $E_{in}≈E_{out}$ ）？
在这里插入图片描述
从结果来看，这种方法达到了机器学习的目的： $E_{in}$ 和 $E_{out}$ 都实现了最小化

从几何图形的角度来介绍帽子矩阵 $H$ 的物理意义

粉色区域表示输入矩阵 $X$ 乘以不同权值向量 $W_{LIN}$ 所构成的空间，预测值 $\hat y$ 是粉色空间中的一个向量，而 $y$ 是实际 $N$ 维空间中的向量，要想预测值 $\hat y$ 接近真实值 $y$ ，只需将 $N$ 维空间的 $y$ 投影到粉色空间，对应的向量就是最接近真实值的 $\hat y$ .

$H$ 将 $y$ 投影到 $\hat y$ ，转换的物理意义： $N$ 自由度向量 $y$ 投影到 $d + 1$ 维空间 $X$ ，而剩余的自由度最大只有 $N - (d + 1)$
$\color {green}\begin{aligned} &trace(I-H)=trace(I)-trace(H)\\ &=N-trace(XX^\dagger)=N-trace(X(X^TX)^{-1}X^T\\ &=N-trace(X^TX(X^TX)^{-1})=N-trace(I_{d+1})\\ &=N-(d+1) \end{aligned}$

存在noise的情况下， $y = f (x) + n o i s e$ ，那么noise经过 $I - H$ 也能转换为 $y−\hat y$ ( $n o i s e$ 和 $y$ 存在线性变换关系，可看作 $y_{noise}$ )
在这里插入图片描述

在这里插入图片描述
当 $N$ 足够大时，满足 $\overline E_{in}\approx\overline E_{out}$

Linear Regression for Binary Classification

Binary Classification问题用的是0/1 error，那么Linear Regression的squared error是否能够用于Binary Classification？
在这里插入图片描述
根据之前的VC理论， $E_{out}$ 的上界满足：

用 $err_{sqr}$ 代替 $err_{0/1}$ ， $E_{out}$ 仍然有上界，只不过上界更宽松，所以用线性回归方法也可以解决线性分类问题

10 – Logistic Regression

Logistic Regression Problem

软性二分类问题（’soft’ binary classification）：从要将正负类分开（0或者1），变成要得到是正类的可能性（0到1之间），可以看成是理想数据加上噪声 $f(x)=P(+1|x)\in[0,1]$
在这里插入图片描述

怎么将特征加权和s变换到[0,1]呢？

Sigmoid Function： $\theta(s)=\frac1{1+e^{-s}}$ ， $\theta(-\infty)=0，\theta(0)=\frac12 ，\theta(+\infty)=1$
因此，hypothesis的形式变成： $\color {blue}h(x)=\frac1 {1+e^{-w^Tx}}$

Logistic Regression Error

Linear Classification、Linear Regression：
在这里插入图片描述
如何定义logistic regression的误差？

所以目标变成：
$\begin{aligned} &\max_h \quad \text{likelihood(logistic h)} \propto \prod^N_{n=1} {\Large\mathrm h}(y_nx_n)\\ &\max_W \quad \text{likelihood(logistic W)} \propto \prod^N_{n=1} {\Large\mathrm \theta}(y_nW^Tx_n) \quad \text{代入$W$}\\ &\max_W \quad {\Large\mathrm ln}\prod^N_{n=1} {\Large\mathrm \theta}(y_nW^Tx_n)\quad \quad\quad\quad\quad\quad\quad\quad\quad\quad\text{引入$\mathrm ln$}\\ &\min_W \quad \frac1N\sum^N_{n=1}-{\Large\mathrm ln}{\Large\mathrm \theta}(y_nW^Tx_n) \quad \quad \quad max\to min(-\ ;\frac1N)\\ &\min_W \quad \frac1N\underbrace {\sum^N_{n=1}{\Large\mathrm ln}\left(1+exp(-y_nW^Tx_n)\right) }\\ & \quad \quad \quad \quad \quad \quad \quad \text{cross-entropy error}\\ &\min_W \quad \frac1N\underbrace {\sum^N_{n=1}err(W,x_n,y_n)}\\ & \quad \quad \quad \quad \quad \quad \quad E_{in}(W)\\ \end{aligned}$

Gradient of Logistic Regression Error

如何得到合适的 $W$ 最小化 $E_{in}$ ?
$\Large\color {blue}\min_{\color {orange}W} \quad E_{in}({\color {orange}W})=\frac1N{\sum^N_{n=1}{\Large\mathrm ln}\left (1+exp(-y_n{\color {orange}W}^Tx_n)\right) }\\$ $E_{in}$ 梯度为零时 $W$ 即最优解：
在这里插入图片描述
梯度表达式为：

令 $\nabla E i n (W)$ 等于0：

让所有 $θ(−y_nW^Tx_n)$ 等于0 很难，所以没有 closed-form 解，只能用迭代方法求解

Gradient Descent

在这里插入图片描述
根据一阶泰勒展开有：
$E_{in}(w_t+\eta v)\approx E_{in}(w_t)+\eta v^T\nabla E_{in}(w_t)$

$v$ 只是个单位向量，将梯度更新方向（与梯度方向相反）赋予 $v$ ，则有：
$v=-\frac{\nabla E_{in}(w_t)}{||\nabla E_{in}(w_t)||}\quad w_{t+1}\leftarrow w_t-\eta\frac{\nabla E_{in}(w_t)}{||\nabla E_{in}(w_t)||}$

在这里插入图片描述
修正学习速率 $η$ ： $w_{t+1}\leftarrow w_t-\eta'\nabla E_{in}(w_t)\quad \quad\quad其中：\eta'=\frac{\eta}{||\nabla E_{in}(w_t)||}$

基于梯度下降的Logistic Regression算法：

初始化 $w_0$
计算梯度 $∇E_{in}(w_t)=\frac1N∑^N_{n=1}θ(−y_nW^T_tx_n)(−y_nx_n)$
更新 $w_{t+1}\leftarrow w_t-\eta\nabla E_{in}(w_t)$
满足 $E_{in}(w_{t+1})≈0$ 或者达到迭代次数end

11 – Linear Models for Classification

Linear Models for Binary Classification

在这里插入图片描述

为了让 $err_{SCE}$ 始终在 $err_{0/1}$ 上面，令：
$err_{SCE}=\log_2(1+exp(-ys))=\frac1{\ln2}err_{CE}$

在这里插入图片描述

由上可知：

linear regression和logistic regression都可以用来解决linear classification问题

其优缺点：
在这里插入图片描述

Stochastic Gradient Descent

随机梯度下降算法(Stochastic Gradient Descent)：

每次迭代一个点，计算该点梯度，更新 $w$ ，每次迭代的计算量大大减小，可以把整体梯度看成随机过程的期望

随机梯度下降

优点：减少计算量，提高运算速度，便于online学习
缺点：不够稳定，每次迭代并不能保证按照正确的方向前进，达到最小值需要迭代的次数比梯度下降算法一般要多

SGD与PLA：

PLA只对分类错误的点进行修正，SGD logistic regression每次迭代都会修正，
SGD logistic regression也称为’soft’ PLA，当 $\eta=1，w^T_tx_n$ 足够大的时候，PLA近似等于SGD

Multiclass via Logistic Regression

多分类问题怎么通过linear classification来解决。假设平面上有四个类，分别是正方形、菱形、三角形和星形，如何进行分类模型的训练呢？

先把正方形作为正类，其他三种形状都是负类，即当成一个二分类问题，通过linear classification模型进行训练，区分正方形和其它形状。
以此类推，再分别以菱形、三角形、星形为正类，四次二分类之后即完成多分类

这样的二分类可能会带来一些问题：

某些区域四次二分类模型都判断为负类，即不属于任何一类
也可能会出现某些区域同时被两个类甚至多个类同时判断为正类，比如某个区域又判定为正方形又判定为菱形，就无法进行多类别的准确判断。所以对于多类别，简单的binary classification不能解决问题

解决办法：

soft软性分类，不用{-1，+1}式binary classification，而是使用logistic regression，计算某点属于某类的概率，取最大概率

这种多分类方式称之为One-Versus-All(OVA) Decompositio：

优点：简单高效，可用logistic regression模型来解决
缺点：如果数据类别很多，每次二分类的正负类数量差别很大，造成数据不平衡，影响分类效果

Multiclass via Binary Classification

怎么解决OVA数据不平衡问题呢？

投票，每次只取两类进行binary classification，取值为{-1，+1}。假如 k=4，那么总共需要进行 $C^2_4=6$ 次binary classification。六次分类后，如果有个点，三个分类器判断是正方形，一个分类器判断是菱形，另外两个判断是三角形，保留得票最多的，即正方形

这种多分类方法叫做One-Versus-One(OVO)：

优点：更加高效，因为分类次数增加，但每次只需要比较两个类别，且一般不会出现数据不平衡
缺点：需要分类的次数多，时间复杂度和空间复杂度可能都较高

12 – Nonlinear Transformation

Quadratic Hypothesis

线性模型优点：VC Dimension比较小，保证了 $E_{in} \approx E_{out}$
缺点：对某些非线性问题，虽然 $E_{in} \approx E_{out}$ ，可能 $E_{in}$ 和 $E_{out}$ 都很大，分类效果不佳

所以可以考虑使用非线性模型进行分类
在这里插入图片描述

令 $z_0=1，z_1=x_1^2，z_2=x^2_2\Longrightarrow h(x)=sign(0.6\cdot z_0-1\cdot z_1-1\cdot z_2)=sign(W^Tz)$
$x_n\to z_n$ 称为特征转换（Feature Transform）：将非线性模型转换为另一个域中的线性模型

在这里插入图片描述

Nonlinear Transform

在这里插入图片描述

Price of Nonlinear Transform

若 $x$ 特征维度为 $d$ ，即 $d$ 个特征，那么二次多项式个数，即 $z$ 域特征维度：
$\breve d=1+C_d^1+C_d^2+d=\frac{d(d+3)}2+1$

$x$ 特征维度为2，即 $x_1,x_2)$ ，那么它的二次多项式为 $(1,x_1,x_2,x^2_1,x_1x_2,x_2^2)$

如果阶数更高，假设为 $Q$ ，那么对于 $x$ 特征维度为 $d ， z$ 域特征维度：
$\breve d=C_{Q+d}^Q=C_{Q+d}^d=O(Q^d)$ 在这里插入图片描述

为什么VC Dimension过大，会造成分类效果不好?

在这里插入图片描述
VC Dimension过大会带来过拟合问题， $\breve d+1$ 不能太大

在这里插入图片描述

Structured Hypothesis Sets

$x$ 域到 $z$ 域的多项式变换：
$\begin{aligned} \Phi_0(x)&=(1) &一维特征\\ \Phi_1(x)&=(\Phi_0(x),x_1,x_2,\ldots,x_d) &二维特征\\ \Phi_2(x)&=(\Phi_1(x),x_1^2,x_1x_2,\ldots,x_d^2) &三维特征\\ &\vdots &\vdots\\ \Phi_Q(x)&=(\Phi_{Q-1}(x),x_1^Q,x_1^{Q-1}x_2,\cdots,x_d^Q) &Q维特征\\ \Longrightarrow H_{\Phi_0} &\subset H_{\Phi_1} \subset H_{\Phi_2} \subset \cdots \subset H_{\Phi_Q}&不同阶次构成的hypothesis之间的关系\\ \text{Structured Hypothesis Sets} \end{aligned}$ 在这里插入图片描述
选择的阶数大，能使 $E_{in}$ 接近于0，但泛化能力可能很差，这种情况叫做tempting sin。所以，一般的做法是从低阶hypothesis开始尝试，逐渐增加阶数选择最合适的。

13 – Hazard of Overfitting

What is Overfitting?

当VC Dimension很大，对训练样本拟合过分好， $E_{in}$ 很小 $E_{out}$ 很大的情况称为过拟合（overfitting）
当VC Dimension太小，模型对训练样本的拟合度太差， $E_{in}、E_{out}$ 都很大的情况称之为欠拟合（underfitting）

VC Dimension、noise、N对过拟合的影响：

The Role of Noise and Data Size

在这里插入图片描述
$E_{in}=noise level\ast (1-\frac{d+1}N)\\E_{out}=noise level\ast (1+\frac{d+1}N)\\ \text{d为模型阶次}$

Deterministic Noise

假设数据分布由两部分组成：

目标函数 $f (x)$ ， $Q_f$ 阶多项式
噪声 $ϵ$ ，服从Gaussian分布

noise强度不同对overfitting的影响。总共的数据量是 $N$
在这里插入图片描述
分析不同的 $N,σ^2)$ 和 $N,Q_f)$ 对overfit的影响，overfit量化为 $E_{out}−E_{in}$

红色越深，代表overfit程度越高，蓝色越深，代表overfit程度越低

导致overfitting有四个因素：

data size
stochastic noise
deterministic noise
excessive power

Dealing with Overfitting

避免overfitting的方法：

start from simple model
data cleaning/pruning
data hinting
regularization
validataion

data cleaning/pruning：对训练数据集里label明显错误的样本进行修正（data cleaning），或者对错误的样本看成是noise，进行剔除（data pruning）（比例太小影响也不大）
data hinting：针对 $N$ 不够大的情况，对已有样本进行简单的处理、变换，以获得更多的样本

14 – Regularization

Regularized Hypothesis Set

前面提到不同阶数hypothesis存在着包含关系，能否在 $H_{10}$ （10阶hypothesis）中加入一些限定条件，使其近似为 $H_2$ ？

最简单的方法就是直接将 $w_3、w_4⋯w_{10}$ 设为0，即 $H_{10}=H_2$ ，但这样不如直接用 $H_2$ ，把限制条件放宽松一点，令任意8个权重 $w$ 为0，限制条件可写成：
$\begin{aligned} &\sum_{q=0}^{10}(w_q\neq0)\leq3 &\text{记作$H_2^\prime$(sparse hypothesis set)}\\ &H_2\subset H_2'\subset H_{10} \end{aligned}$ 但sparse hypothesis set $H_2^\prime$ 被证明是NP-hard，求解非常困难，所以需要更容易求解的宽松的限定条件Softer Constraint：
$\sum_{q=0}^{10}w_q^2=||w||^2\leq C \quad\text{记作$H(C)$}\\ H(0)\subset H(1.126)\subset \cdots \subset H(1126)\subset \cdots \subset H(\infty)=H_{10}$ 当 $C$ 无限大，相当于没有加上任何限制，即等于 $H_{10}$

Weight Decay Regularization

加上限定条件：
在这里插入图片描述
最小化 $E_{in}(w)$ ：限定条件 $w^2||≤C$ 相当于权重 $W$ 被限定在半径为 $\sqrt C$ 的圆内

根据梯度下降算法， $\color {red}w$ 会朝着 $\color {blue}−∇E_{in}$ 的方向移动， $\color {red}w$ 被限定在半径为 $\sqrt C$ 的圆内，不能到达圆外的最优位置 $W_{lin}$ ，只能位于圆上离 $W_{lin}$ 最近的位置：即当 $\color {blue}−∇E_{in}$ 与绿色切线垂直（与红色法向量平行）， $\color {blue}−∇E_{in}$ 在切线方向上没有不为零的分量了，也就表示这时 $\color {red}w$ 达到了最优解的位置
由平行条件可知，最优解需要满足：
$\color {blue}\nabla E_{in}(w_{REG})+\frac{2\lambda}{N}w_{REG}=0 \quad \quad \quad \quad \quad \quad \quad \quad \quad\text{}（1）$ $\lambda$ 为Lagrange multiplier， $\frac2N$ 便于公式推导，目标：求解 $w_{REG}$
$\begin{aligned} &E_{in}=\frac1N\sum_{n=1}^N(x_n^Tw-y_n)^2 &\text{$E_{in}$(线性回归)}\\ &\frac2N(Z^TZw_{REG}-Z^Ty)+\frac{2\lambda}Nw_{REG}=0 &\text{$E_{in}$代入（1）}\\ &\Longrightarrow w_{REG}=(Z^TZ+\lambda I)^{-1}Z^Ty \end{aligned}$

因为 $Z^TZ$ 半正定，如果 $λ$ 大于零，那么 $Z^TZ+λI$ 一定正定，即一定可逆。（ridge regression）

对一般情况，如逻辑回归问题， $E_{in}$ 不是线性的，（1）为非线性方程， $w_{REG}$ 不易求解

由（1）可知： $E_{in}$ 是 $E_{in}$ 对 $w_{REG}$ 的导数，而 $\frac{2λ}Nw_{REG}$ 也可看成 $\frac{λ}Nw^2_{REG}$ 的导数。因此（1）左边可看成是一个函数的导数，导数为零即求函数极点，如果该函数只有一个极小值点，即可看成最小化该函数：
$\begin{aligned} E_{aug}(w)=&E_{in}(w)+\underbrace{\frac{\lambda}Nw^Tw}\\ &\underbrace {\quad\quad\quad\quad\quad\text{regularizer：weight-decay regularization}}\\ &\quad\quad\quad\quad\quad\quad\quad\quad\text {Augmented Error} \end{aligned}$

$λ$ 不为零，对应有限定条件， $λ$ 等于零，则对应没有任何限定：
在这里插入图片描述

Regularization and VC Theory

在这里插入图片描述
$w$ 只是某个 hypothesis 的权重，令 $w^Tw$ 复杂度为 $\Omega(w)$ ，而 $\Omega(H)$ 则表示整个hypothesis set的复杂度， $Ω(w)\subset Ω(H)$ ，所以， $E_{aug}(w)$ 比 $E_{in}$ 更接近于 $E_{out}$

整个 hypothesis set 的 $d_{VC}=\breve d+1$ ，引入限定条件 $d_{VC}(H(C))=d_{EFF}(H,A)$ ， $d_{EFF}(H,A)\leq d_{VC}$

General Regularizers

通用的Regularizers：
在这里插入图片描述
常用两种Regularizer： $L_1、L_2$

$\qquad$ $\qquad$ $\qquad$ $\qquad$

15 – Validation

Model Selection Problem

选择最合适的搭配，得到最好的矩 $g$ ，构建最佳机器学习模型
**加粗样式**
如何选择到最好的矩？

方法一：用 $E_{in}$ 判断，选择让 $E_{in}$ 最小的模型（ $E_{in}$ 小也可能是过拟合，不能保证泛化能力）
方法二：将 $M$ 个模型在测试集上测试 $E_{test}$ 大小，取 $E_{test}$ 最小的模型

方法二根据finite-bin Hoffding不等式有：
$E_{out}(g_{m^*})\leq E_{test}(g_{m^*})+O(\sqrt \frac{log M}{N_{test}})$

$M$ 越小，测试集数目越大， $O(\sqrt \frac{log M}{N_{test}})$ 越小， $E_{test}(g_{m^*})$ 接近 $E_{out}(g_{m^*})$
在这里插入图片描述
事实上，测试集一般难拿到，只有训练集 $D$ ，那么，怎么构建测试集呢？

采用折中的方式：从训练集 $D$ 拿出一部分作为验证集 $D_{val}$ 独立使用，用来测试模型

Validation

$D_{val}$ 对应的 error 为 $E_{val}$ ， $D_{val}$ 应是 $i i d$ ，即： $D_{val}$ 是从 $D$ 中随机抽样得到 $D_{train}=D-D_{val}$ ，从 $D_{train}$ 中选择最好的矩 $g_m^-$
在这里插入图片描述
用 $g_m^-$ 对 $D_{val}$ 进行验证，由Hoffding不等式得到：
$E_{out}(g_m^-)\leq E_{val}(g_m^-)+O(\sqrt \frac{log M}{K})$ 最终模型 $m^∗$ ：

$D_{train}$ 中得到最好的 $g_m^-$ ，而总样本 $D$ 最好的矩应为 $g_{m^∗}$

$D_{val}$ 选择最好的矩 $g_{m^*}^-$ 对应的模型 $m^*$ ，再用该模型对整体样本集 $D$ 进行训练，得到最好的矩 $g_{m^∗}$

将 $D$ 分成 $D_{train}、D_{val}$ ，若有 $M$ 个模型，分别在 $D_{train}$ 上进行训练，得到矩 $g_m^-$ ，再用 $D_{val}$ 对每个 $g_m^-$ 进行验证，选择表现最好的矩 $g_{m^*}^-$ ，最后用矩 $g_{m^*}^-$ 对应的模型 $m^*$ 在整体样本集 $D$ 上进行训练，得到最终的 $g_{m^∗}$

在这里插入图片描述
不等式关系满足： $E_{out}(g_{m^*})\leq E_{out}(g_{m^*}^-)\leq E_{val}(g_{m^*}^-)+O(\sqrt \frac{log M}{K})$

假设有两个模型：一个5阶多项式 $H_{\Phi_5}$ ，一个10阶多项式 $H_{\Phi_{10}}$ 。通过不使用验证集和使用验证集两种方法对模型选择结果进行比较：
在这里插入图片描述
因为 $K$ 变大， $D_{train}$ 就变小

在这里插入图片描述
那么如何设置验证集 K 值的大小呢?

Leave-One-Out Cross Validation

$K = 1$ 时，每次只用一组数据对 $g_m$ 进行验证，优点是 $g_m^-≈g_m$ ，但 $E_{val}、E_{out}$ 可能相差很大。留一法交叉验证，每次都从 $D$ 中取一组作数据为验证集，直到所有样本都作过验证集，共计算 $N$ 次，最后对验证误差求平均，得到 $E_{loocv}(H,A)$
$E_{loocv}(H,A)=\frac1N\sum_{n=1}^Ne_n=\frac1N\sum_{n=1}^Nerr(g_n^-(x_n),y_n)$ 图解留一法：每次将一个点作为验证集，其他两个点作为训练集，最终将得到的验证误差求平均值
在这里插入图片描述
Leave-One-Out方法的可行性？

由上可知： $E_{loocv}(H,A)=\overline {E_{out}}(N-1)$ ，即： $E_{loocv}(H,A)$ 等于 ${E_{out}}(N-1)$ 平均值。
当 $N$ 较大时， $N-1\approx N\Longrightarrow\overline {E_{out}}(N-1)\approx \overline {E_{out}}(N)\color {red}\Longrightarrow E_{loocv}(H,A)\approx \overline {E_{out}}(N)$

例：用 Average Intensity 和 Symmetry 及这两个特征的非线性变换（如：高阶项）进行手写数字识别
在这里插入图片描述
Error与特征数量的关系如下图所示：

由图可知 $E_{cv}、E_{out}$ 的分布相近，即： $E_{cv}$ 能较好地反映 $E_{out}$ 的变化。所以用Leave-One-Out方法得到使最小的 $E_{cv}$ ，其对应的模型就能保证 $E_{out}$ 也足够小

由下图可知： $E_{in}$ 发生了过拟合，而 $E_{loocv}$ 分类效果更好，泛化能力强

在这里插入图片描述

V-Fold Cross Validation

Leave-One-Out缺点：

当 $N$ 很大时，计算量过大
稳定性不好，如：二分类问题，取值只有0和1，预测本身存在不稳定因素，对所有 $E_{loocv}$ 取平均值可能带来较大数值跳动

对Leave-One-Out进行改进：将 $N$ 个数据分成 $V$ 份，而不是 $N$ 份，即：V-Fold Cross Validation
$E_{cv}(H,A)=\frac1V\sum_{v=1}^VE_{val}^{(V)}(g_V^-)$ Leave-One-Out可看成是V-Fold Cross Validation的特例
注意：交叉验证效果越好，模型表现越好的前提是样本数据够多，够全面，因为Validation的全部来源都是样本集

16 – Three Learning Principles

Occam’s Razor

奥卡姆剃刀定律（Occam’s Razor）：“切勿浪费较多东西去做用较少的东西同样可以做好的事情”
“如无必要，勿增实体”（Entities must not be multiplied unnecessarily），就像剃刀一样，将不必要的部分去除掉。
所以，在机器学习中，尽量选择能够很好地解释已知数据并且十分简单的模型

简单的模型：