机器学习技法笔记

xiaochengJF

于 2019-12-03 10:07:56 发布

阅读量530

点赞数

分类专栏：机器学习文章标签：笔记待整

本文链接：https://blog.csdn.net/weixin_43711554/article/details/96272821

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

文章目录

1 -- Linear Support Vector Machine
- - - Large-Margin Separating Hyperplane
    - Support Vector Machine
2 -- Dual Support Vector Machine
3 -- Kernel Support Vector Machine
4 -- Soft-Margin Support Vector Machine
5 -- Kernel Logistic Regression
6 -- Support Vector Regression
7 -- Blending and Bagging
8 -- Adaptive Boosting
9 -- Decision Tree
10 -- Random Forest
11 -- Gradient Boosted Decision Tree
12 -- Neural Network
- - - 略
13 -- Deep Learning
- - - linear autoencoder & Principal Component Analysis
14 -- Radial Basis Function Network
15 -- Matrix Factorization
- - - LinearNetwork Hypothesis
参考文献

1 – Linear Support Vector Machine

Large-Margin Separating Hyperplane

下图三条直线都是由PLA/pocket算法得到，都满足分类要求，但第三条直线对数据误差容忍度明显更高，边界够宽，所以第三条直线最robust
在这里插入图片描述

所以要得到一条最 robust 的直线，要满足两个条件：
在这里插入图片描述
优化目标就变成了：

Standard Large-Margin Problem
$w_0$ 用 $b$ 表示，点到分类平面的距离可表示为：

在这里插入图片描述
对目标形式做转换：

对 $w$ 和 $b$ 同时进行缩放，得到的还是同一分类面，那么可以令距离分类面最近的点满足
$\begin{aligned} &\min_{n=1,\cdots,N} y_n(w^Tx_n+b)=1\\ &\Longrightarrow margin(b,w)=\frac{1}{||w||} \end{aligned}$

于是目标就简化成：
在这里插入图片描述
将最大化问题转化为最小化问题：

Support Vector Machine

分类面仅仅由分类面的两边距离它最近的几个点决定的，其它点对分类面没有影响。决定分类面的几个点称之为支持向量（Support Vector），利用Support Vector得到最佳分类面的方法，称之为支持向量机（Support Vector Machine）

SVM求解的条件和目标：
在这里插入图片描述
SVM求解是典型的二次规划问题 Quadratic Programming（QP）

线性SVM算法可总结为三步：

计算对应的二次规划参数 $Q ， p ， A ， c$
根据二次规划库函数，计算 $b ， w$
将 $b$ 和 $w$ 代入 $g_{SVM}$ ，得到最佳分类面

Linear Hard-Margin SVM Algorithm

在这里插入图片描述
如果是非线性的，可先进行特征变换，从非线性的 $x$ 域映射到线性的 $z$ 域空间，再用 Linear Hard-Margin SVM Algorithm求解

Reasons behind Large-Margin Hyperplane

SVM和正则化
在这里插入图片描述
Large-Margin会限制Dichotomies的个数，相当于把分类面变得更厚，能shatter的点就可能更少，VC Dimension也减少了。VC Dimension减少降低了模型复杂度，提高了泛化能力

2 – Dual Support Vector Machine

Motivation of Dual SVM

如果模型越复杂，求解QP问题在 z 域中的维度 $\hat{d}+1$ 越大，当 $\hat{d}+1$ 无限大的时候，问题将会变得难以求解。于是需要一种方法就是使SVM的求解过程不依赖 $\hat{d}$ ：
在这里插入图片描述
把问题转化为对偶问题（’Equivalent’ SVM），变量个数变成N个，有 N+1 个限制条件。对偶SVM的好处就是问题只跟 N 有关，与 $\hat{d}$ 无关
$\qquad\qquad\qquad\qquad\qquad$ $\qquad$
如何将条件问题转换为非条件问题？
令拉格朗日因子为 $a_{n}$ （区别于regularization），构造一个拉格朗日函数
$L_{(b,w,a)}=\frac{1}{2}w^{T}w+\sum_{n=1}^{N}a_{n}(1-y_{n}(w^{T}z_{n}+b))$

在这里插入图片描述
利用拉格朗日函数，把SVM构造成一个非条件问题：

如果没有达到最优解，即有不满足 $(1-y_{n}(w^{T}z_{n}+b))\leq0$ 的情况，因为 $a_{n}>0$ ，那么必然有
$\sum_na_n(1-y_n(w^Tz_n+b))\geq0$ ，其最大值是无解的。
如果所有点满足 $(1-y_{n}(w^{T}z_{n}+b))\leq0$ 的情况，那么必然有 $\sum_na_n(1-y_n(w^Tz_n+b))\leq0$ ，有最大值。因此，这种转化为非条件的SVM构造函数的形式是可行。

Lagrange Dual SVM
在这里插入图片描述
对上述不等式右边取最大值，不等式同样成立：

上述不等式关系称为 Lagrange dual problem，等式右边是SVM问题的下界

已知 $\geq$ 是一种弱对偶关系，在二次规划QP问题中，如果：

函数是凸的（convex primal）
函数有解（feasible primal）
条件是线性的（linear constraints）

那么，上述不等式关系就变成强对偶关系 $\geq$ 变成 = ，即一定存在满足条件的解 $(b, w, a)$ ，使等式左边和右边都成立，SVM的解就转化为右边的无条件形式
在这里插入图片描述
括号里面的是对拉格朗日函数 $L (b, w, α)$ 计算最小值，而最小值位置满足梯度为零
对参数 b 求偏导： $\frac{\partial L(b,w,\alpha)}{\partial b}=0=-\sum_{n=1}^N\alpha_ny_n$

把得到的条件 $\sum_{n=1}^N\alpha_ny_n=0$ 带入max条件，消去了参数b：
在这里插入图片描述
参数 $w$ 求偏导： $\frac{\partial L(b,w,\alpha) }{\partial w}=0=w-\sum_{n=1}^{N}a_ny_nz_n$
把 $w=\sum_{n=1}^{N}\alpha_ny_nz_n$ 这个条件代入并进行化简:

得到三个条件：

$\alpha_n\geq0$
$\sum_{n=1}^N\alpha_ny_n=0$
$w=\sum_{n=1}^N\alpha_ny_nz_n$

于是SVM最佳化形式转化为只与 $\alpha_n$ 有关：
在这里插入图片描述

Solving Dual SVM
前面已经得到了dual SVM的简化版，将 max 问题转化为 min 问题：

这显然是一个 convex 的QP问题，且有 N 个变量 $\alpha_n$ ，限制条件有N+1个：

注意： $q_{n,m}=y_ny_mz^T_nz_m$ ,大部分值是非零的，称为dense。当 N 很大的时候，例如N=30000，那么对应的 $Q_D$ 的计算量将会很大，存储空间也很大，一般需要使用一些特殊的方法。
在这里插入图片描述
得到 $\alpha_n$ 后，再根据 KKT 条件计算出 $w$ 和 $b$

计算 $b$ 值， $\alpha_n>0$ 时，有 $y_n(w^Tz_n+b)=1$ 成立。 $y_n(w^Tz_n+b)=1$ 正好表示的是该点在SVM分类线上，即fat boundary。满足 $\alpha_n>0$ 的点一定落在fat boundary上，这些点就是Support Vector。

Messages behind Dual SVM

分类线上的点不一定都是支持向量，但是满足 $\alpha_n>0$ 的点，一定是支持向量
在这里插入图片描述

SVM 和 PLA的 $w$ 公式：
$\qquad\qquad\qquad\qquad$ $\qquad$
二者在形式上是相似的。 $w_{SVM}$ 由fattest hyperplane边界上所有的SV决定， $w_{PLA}$ 由所有当前分类错误的点决定 . $w_{SVM}$ 和 $w_{PLA}$ 都是原始数据点 $y_nz_n$ 的线性组合形式.
在这里插入图片描述

总结：

Primal Hard-Margin SVM 有 $\hat{d}+1$ 个参数，有N个限制条件。当 $\hat{d}+1$ 很大时，求解困难.
而 Dual Hard_Margin SVM 有 $N$ 个参数， $N + 1$ 个限制条件。当数据量 $N$ 很大时，也同样会增大计算难度。两种形式都能得到 $w$ 和 $b$ ，求得 fattest hyperplane。通常情况下，如果 $N$ 不是很大，一般使用 Dual SVM。

Dual SVM是否真的消除了对 $\hat{d}$ 的依赖呢？

其实并没有，因为在计算 $q_{n,m}=y_ny_mz^T_nz_m$ 的过程中，由 z 向量引入了 $\hat{d}$ ，实际上复杂度已经隐藏在计算过程中！

3 – Kernel Support Vector Machine

dual SVM中： $z_n^Tz_m =\Phi(x_n)\Phi(x_m)$ ， $z$ 是经过

’特征转换为 $\Phi(x_n)$ 和 $\Phi(x_m)$
然后计算 $\Phi(x_n)$ 和 $\Phi(x_m)$ 的内积

先转换再计算内积的方式，必然会引入 $\hat d$ 参数， $\hat d$ 很大时影响计算速度

如果把这两个步骤联合起来，是否可以有效地减小计算量？

二阶多项式转换例子： $\Phi_{2}(\mathbf{x})=\left(1, x_{1}, x_{2}, \ldots, x_{d}, x_{1}^{2}, x_{1} x_{2}, \ldots, x_{1} x_{d}, x_{2} x_{1}, x_{2}^{2}, \ldots, x_{2} x_{d}, \ldots, x_{d}^{2}\right)$

把 $x_0 = 1$ 、 $x_1x_2$ 和 $x_2x_1$ 包含进来，’转换之后再做内积并进行推导：
$\begin{aligned} \Phi_{2}(x)^{T} \Phi_{2}\left(x^{\prime}\right) &=1+\sum_{i=1}^{d} x_{i} x_{i}^{\prime}+\sum_{i=1}^{d} \sum_{j=1}^{d} x_{i} x_{j} x_{i}^{\prime} x_{j}^{\prime} \\ &=1+\sum_{i=1}^{d} x_{i} x_{i}^{\prime}+\sum_{i=1}^{d} x_{i} x_{i}^{\prime} \sum_{j=1}^{d} x_{j} x_{j}^{\prime} \\ &=1+x^{T} x^{\prime}+\left(x^{T} x^{\prime}\right)\left(x^{T} x^{\prime}\right) \end{aligned}$

$\Phi_2(x)$ 和 $\Phi_2(x')$ 内积的复杂度由原来的 $O(d^2)$ 变成 $O (d)$ ，只与 $x$ 空间的维度 $d$ 有关，而与z空间的维度 $\hat d$ 无关
合并特征转换和计算内积这两个步骤的操作叫做Kernel Function

kernel trick

1、在dual SVM中，二次项系数 $q_{n,m}$ 中有z的内积计算，就可以用kernel function替换： $q_{n,m}=y_ny_mz_n^Tz_m=y_ny_mK(x_n,x_m)$

直接计算出 $K(x_n,x_m)$ ，再代入上式，就能得到 $q_{n,m}$ 的值

2、通过QP得到拉格朗日因子 $\alpha_n$ 。下一步就是计算b（取 $\alpha_n>0$ 的点，即SV），b的表达式中包含z： $b=y_s-w^Tz_s=y_s-(\sum_{n=1}^N\alpha_ny_nz_n)^Tz_s=y_s-\sum_{n=1}^N\alpha_ny_n(K(x_n,x_s))$

这样b也可以用kernel function表示，与z空间无关

3、最终得到： $g_{SVM}(x)=sign(w^T\Phi(x)+b)=sign((\sum_{n=1}^N\alpha_ny_nz_n)^Tz+b)=sign(\sum_{n=1}^N\alpha_ny_n(K(x_n,x))+b)$

引入kernel funtion后：
在这里插入图片描述
每个步骤的时间复杂度为：

引入kernel function的SVM称为kernel SVM，是基于dual SVM推导而来的

Polynomial Kernel

二次多项式的kernel形式是多种的：
在这里插入图片描述
系数不同，内积就会有差异，代表有不同的距离，最终可能会得到不同的SVM margin。第三种 $\Phi_2(x)$ （绿色标记）简单一些，更加常用

自由度 $\gamma$ 影响margin和SV：

通过改变不同的系数，得到不同的SVM margin和SV，选择正确的kernel非常重要

总之：引入 $\zeta\geq 0$ 和 $\gamma>0$ ，对于Q次多项式一般的kernel形式可表示为：
在这里插入图片描述
使用高阶多项式kernel的两个优点：
1、得到最大SVM margin，SV数量不会太多，分类面不会太复杂，防止过拟合，减少复杂度
2、计算过程避免了对 $\hat d$ 的依赖，大大简化了计算量

多项式阶数Q=1时，那么对应的kernel就是线性的

Gaussian Kernel

Q阶多项式kernel的阶数是有限的，即特征转换的 $\hat d$ 有限。如果是无限维转换 $\Phi(x)$ ，是否还能通过kernel简化SVM计算呢？

假设原空间是一维的，只有一个特征 $x$ ，构造一个kernel function为高斯函数： $K(x,x')=e^{-(x-x')^2}$
构造的过程正好与二次多项式kernel的相反，利用反推法，先将上式分解并做泰勒展开：
在这里插入图片描述
其中：
$\Phi(x)=e^{-x^2}\cdot (1,\sqrt \frac{2}{1!}x,\sqrt \frac{2^2}{2!}x^2,\cdots)$

$\Phi(x)$ 是无限多维的，可以作特征转换的函数，且 $\hat d$ 是无限的.

$\Phi(x)$ 得到的核函数即为Gaussian kernel

推广到多维，引入缩放因子 $\gamma>0$ ，应的Gaussian kernel表达式为：
$K(x,x')=e^{-\gamma||x-x'||^2}$

前面由 K 计算得到 $\alpha_n$ 和 b，进而得到矩 $g_{SVM}$ 。将核函数 K 用高斯核函数代替：
$g_{SVM}(x)=sign(\sum_{SV}\alpha_ny_nK(x_n,x)+b)=sign(\sum_{SV}\alpha_ny_ne^{(-\gamma||x-x_n||^2)}+b)$

上式可以看出， $\Phi(x)$ $g_{SVM}$ 有n个高斯函数线性组合而成，其中n是SV的个数，通常也把高斯核函数称为径向基函数（Radial Basis Function, RBF）

总结：

kernel SVM 可以获得 large-margin 的 hyperplanes，并且可以通过高阶的特征转换使 $E_{in}$ 尽可能小。kernel的引入大大简化了dual SVM的计算量。而且Gaussian kernel能将特征转换扩展到无限维，并使用有限个SV数量的高斯函数构造出矩 $\Phi(x)$ 。
在这里插入图片描述
缩放因子 $\gamma$ 取值不同，会得到不同的高斯核函数，hyperplanes不同，分类效果也有很大的差异：、

所以，SVM也会出现过拟合现象， $\gamma$ 的正确选择尤为重要，不能太大。

Comparison of Kernels

Linear Kernel：
最简单最基本的核，平面上对应一条直线，三维空间里对应一个平面。Linear Kernel可以使用Dual SVM中的QP直接计算得到

优点：

计算简单、快速
可以直接使用QP快速得到参数值
从视觉上分类效果非常直观，便于理解

缺点：

如果数据不是线性可分的情况，Linear Kernel就不能使用了

在这里插入图片描述

Polynomial Kernel

hyperplanes是由多项式曲线构成

优点：

阶数Q可以灵活设置
相比linear kernel限制更少
更贴近实际样本分布

缺点：

Q很大时，K的数值范围波动很大
参数个数较多，难以选择合适的值

Gaussian Kernel

优点：

边界更加复杂多样，能最准确地区分数据样本
数值计算K值波动较小
只有一个参数，容易选择

缺点：

由于特征转换到无限维度中，w没有求解出来
计算速度要低于linear kernel，而且可能会发生过拟合

在这里插入图片描述

有效的kernel还需满足几个条件（Mercer 定理）：

K是对称的
K是半正定的

4 – Soft-Margin Support Vector Machine

Kernel SVM不仅能解决简单的线性分类问题，也可以求解非常复杂甚至是无限多维的分类问题，关键在于核函数选择。但前面的这些方法都是Hard-Margin SVM，即必须将所有的样本都分类正确才行。这往往需要更多更复杂的特征转换，甚至造成过拟合。

Motivation and Primal Problem

SVM同样可能会造成overfit:

SVM模型（即kernel）过于复杂，转换的维度太多
要将所有的样本都分类正确，即不允许错误存在，造成模型过于复杂

如何避免过拟合？

可以用类似pocket算法的思想，允许有错误点存在，但是尽量让错误点个数变少

SVM允许犯错误的点：
在这里插入图片描述

对于分类正确的点，仍需满足 $y_n(w^Tz_n+b)\geq 1$
对于noise点，满足 $y_n(w^Tz_n+b)\geq -\infty$ ，即没有限制
修正后的目标除了 $\frac12w^Tw$ 项，还添加了 $y_n\neq sign(w^Tz_n+b)$ ，即noise点的个数。参数C的引入是为了权衡目标第一项（large margin）和第二项（noise tolerance）的关系，C小表示可以容忍更多的错误点个数，倾向于得到更宽的边界。

对上述条件修正合并得到：
在这里插入图片描述
上述式子存在两个不足：

最小化目标中第二项是非线性的，不满足QP的条件，所以无法使用dual或者kernel SVM来计算
对于犯错误的点，有的离边界很近，即error小，而有的离边界很远，error很大，上式条件和目标没有区分small error和large error

继续修正：引入新参数 $\xi_n$ 表示每个点犯错误程度 ( $\xi_n\geq0$ )，越大表示错得越离谱，即点距离边界（负的）越大。通过使用 error 值的大小代替是否有error，让问题变得易于求解，满足QP形式要求

在这里插入图片描述

最终的Soft-Margin SVM的目标为：
$min(b,w,\xi)\ \frac12w^Tw+C\cdot\sum_{n=1}^N\xi_n$

条件是：
$y_n(w^Tz_n+b)\geq 1-\xi_n$

$\xi_n\geq0$

对应的QP问题中，由于新的参数 $\xi_n$ 的引入，总共参数个数为 $\hat d+1+N$ ，限制条件添加了 $\xi_n>0$ ，则总条件个数为 2N
在这里插入图片描述

Dual Problem

由于引入了 $\xi_n$ ，原始问题有两类条件，所以包含了两个拉格朗日因子 $\alpha_n$ 和 $\beta_n$ ：
在这里插入图片描述
将Soft-Margin SVM问题转换为如下形式：

对上式括号里的拉格朗日函数 $L (b, w, ξ, α, β)$ 计算最小值。根据梯度下降算法思想：最小值位置满足梯度为零。

令 $\xi_n$ 偏微分等于0：
$\frac {\partial L}{\partial \xi_n}=0=C-\alpha_n-\beta_n$

得到 $\beta_n=C-\alpha_n$ ，因为有 $β n \geq 0$ ，所以限制 $0≤\alpha_n≤C$ 。将 $\beta_n=C-\alpha_n$ 带入上式， $β_n$ 和 $\xi_n$ 都被消去了：
在这里插入图片描述
令 $b$ 和 $w$ 偏导数为零，分别得到：
$\begin{aligned} \sum^N_{n=1}\alpha_ny_n=0\\ w=\sum^N_{n=1}\alpha_ny_nz_n \end{aligned}$

最终标准的Soft-Margin SVM的Dual形式：
$\begin{array}{ll}{\min\limits_{\alpha}} & {\frac{1}{2} \sum_{n=1}^{N} \sum\limits_{m=1}^{N} \alpha_{n} \alpha_{m} y_{n} y_{m} \mathbf{z}_{n}^{T} \mathbf{z}_{m}-\sum\limits_{n=1}^{N} \alpha_{n}} \\ {\text { subject to }} & {\sum\limits_{n=1}^{N} y_{n} \alpha_{n}=0} \\ {} & {0 \leq \alpha_{n} \leq C, \text { for } n=1,2, \ldots, N} \\ {\text { implicitly }} & {\mathbf{w}=\sum\limits_{n=1}^{N} \alpha_{n} y_{n} \mathbf{z}_{n}} \\ {} & {\beta_{n}=C-\alpha_{n}, \text { for } n=1,2, \ldots, N}\end{array}$

Hard-Margin SVM Dual中 $\alpha_n\geq0$ ，而Soft-Margin SVM Dual中 $0≤\alpha_n≤C$ ，且新的拉格朗日因子 $β_n=C−\alpha_n$

在QP问题中，Soft-Margin SVM Dual的参数 $\alpha_n$ 同样是 $N$ 个，但是条件由Hard-Margin SVM Dual中的 $N + 1$ 个变成 $2 N + 1$ 个，因为多了 $N$ 个 $\alpha_n$ 的上界条件。
在这里插入图片描述

Messages behind Soft-Margin SVM

在这里插入图片描述
如何根据 $\alpha_n$ 的值计算 $b$ 呢？

在Hard-Margin SVM Dual中，有complementary slackness条件： $\alpha_n(1-y_n(w^Tz_n+b))=0$
找到SV，即 $\alpha_s>0$ 的点，计算得到： $b=y_s−w^Tz_s$

在Soft-Margin SVM Dual中，相应的 complementary slackness 条件有两个（因为两个拉格朗日因子 $\alpha_n$ 和 $β_n$ ）：
$\begin{aligned} &\alpha_n(1-\xi_n-y_n(w^Tz_n+b))=0\\ &\beta_n\xi_n=(C-\alpha_n)\xi_n=0 \end{aligned}$

找到SV，即 $\alpha_s>0$ 的点,由于 $\xi_n$ 的存在，还不能完全计算出 $b$ 的值。

根据第二个complementary slackness条件，如果令 $C−\alpha_n\neq0$ ，即 $\alpha_n≠C$ ，则一定有 $\xi_n=0$ ，代入到第一个 complementary slackness 条件，即可计算得到 $b=y_s−w^Tz_s$ ， $0<\alpha_s<C$ 的点称为 free SV。引入核函数后，b 的表达式为：
$b=y_s-\sum_{SV}\alpha_ny_nK(x_n,x_s)$

上面求解 b 提到的一个假设是 $α_s<C$ ，如果没有free SV，所有 $α_s$ 大于零的点都满足 $α_s=C$ 怎么办？

一般情况下，至少存在一组SV使 $α_s<C$ 的概率是很大的。如果出现没有free SV的情况，那么 b 通常会由许多不等式条件限制取值范围，值是不确定的，只要能找到其中满足KKT条件的任意一个 b 值就可以了。

C 取不同的值对margin的影响：
在这里插入图片描述
$\alpha_n$ 取不同值对应的物理意义

已知 $0≤α_n≤C$ 满足两个complementary slackness条件：
$\begin{aligned} &\alpha_n(1-\xi_n-y_n(w^Tz_n+b))=0\\ &\beta_n\xi_n=(C-\alpha_n)\xi=0 \end{aligned}$

若 $\alpha_n=0$ ，得 $ξ_n=0$ ， $ξ_n=0$ 表示该点没有犯错， $\alpha_n=0$ 表示该点不是SV。所以对应的点在margin之外（或者在margin上），且均分类正确。
若 $0<α_n<C$ ，得 $ξ_n=0$ ，且 $y_n(w^Tz_n+b)=1$ 。 $ξ_n=0$ 表示该点没有犯错， $y_n(w^Tz_n+b)=1$ 表示该点在margin上。这些点即 free SV，确定了 $b$ 的值。
若 $α_n=C$ ，不能确定 $ξ_n=0$ 是否为零，且得到 $1-y_n(w^Tz_n+b)=\xi_n$ ，这个式表示该点偏离margin的程度， $\xi_n$ 越大，偏离margin的程度越大。只有当 $ξ_n=0$ 时，该点落在margin上。所以这种情况对应的点在margin之内负方向（或者在margin上），有分类正确也有分类错误的。这些点称为bounded SV。

所以，在Soft-Margin SVM Dual中，根据 $\alpha_n$ 的取值，就可以推断数据点在空间的分布情况。
在这里插入图片描述

Model Selection

在Soft-Margin SVM Dual中，kernel的选择、C等参数的选择都非常重要，直接影响分类效果。例如，对于Gaussian SVM，不同的参数 $(C, γ)$ ，会得到不同的margin：
$\qquad$ 在这里插入图片描述 $\qquad$
横坐标是C逐渐增大的情况，纵坐标是 $\gamma$ 逐渐增大的情况，不同的 $(C, γ)$ 组合，margin的差别很大。

如何选择最好的 $(C, γ)$ 等参数呢？

V-Fold cross validation：将由不同 $(C, γ)$ 等参数得到的模型在验证集上进行cross validation，选取 $E_{cv}$ 最小的对应的模型就可以了，如上图左下角。

V-Fold cross validation的一种极限就是Leave-One-Out CV，也就是验证集只有一个样本。对于SVM问题，它的验证集Error满足：
$E_{loocv}\leq\frac{SV}{N}$

即，留一法验证集Error大小不超过支持向量SV占所有样本的比例（因为：1、留下的一个验证集非SV，分类必定正确；2、验证集为SV，可能对也可能错）。

一般来说，SV越多，表示模型可能越复杂，越有可能会造成过拟合。所以，通常选择SV数量较少的模型，然后在剩下的模型中使用cross-validation，比较选择最佳模型。

5 – Kernel Logistic Regression

Soft-Margin SVM as Regularized Model

在这里插入图片描述
Soft-Margin Dual SVM有两个应用非常广泛的工具包，分别是Libsvm和Liblinear：
Welcome to Chih-Jen Lin’s Home Page

Soft-Margin SVM用 $ξ_n$ 来表示margin violation（犯错时： $\xi_n=1-y_n(w^Tz_n+b)>0$ ），即犯错值的大小(也可以理解为点到 $y_n(w^Tz_n+b)=1$ 边界有多远)，没有犯错对应的 $ξ_n=0$ 。然后将有条件问题转化为对偶dual形式，使用QP来得到最佳化的解。将犯错和没犯错的情况整合到一个表达式：
$\xi_n=max(1-y_n(w^Tz_n+b),0)$

Soft-Margin SVM最小化问题可变成如下形式：
$\frac12w^Tw+C\sum_{n=1}^Nmax(1-y_n(w^Tz_n+b),0)$

在这里插入图片描述

unconstrained form SVM与L2 Regularization的形式类似，但却不能直接用L2 Regularization的方法来解决unconstrained form SVM的问题。因为：
1、这种无条件的最优化问题无法通过QP解决（对偶推导和kernel都无法使用）；
2、包含max()项造成函数不能处处可导，这种情况难以用微分方法解决。
在这里插入图片描述

接下来将尝试是否能把SVM作为一个regularized的模型进行扩展，来解决其它一些问题

SVM versus Logistic Regression

在这里插入图片描述

logistic regression中的error function： $err_{sce}=log_2(1+exp(-ys))$

$\hat{err}_{svm}$ 在 $err_{0/1}$ 的上面，所以 $\hat{err}_{svm}$ 可以代替 $err_{0/1}$ 解决二元线性分类问题
$err_{sce}$ 也在 $err_{0/1}$ 的上面，而且 $err_{sce}$ 和 $\hat{err}_{svm}$ 相近，所以可以把SVM看成是L2-regularized logistic regression

Logistic Regression对应的 $err_{sce}$ 优点：

是凸函数便于最优化求解
有regularization，可以避免过拟合

缺点：

$y_s$ 很小（负值）时，上界变得更宽松，不利于最优化求解

Soft-Margin SVM对应的 $\hat{err}_{svm}$ 和 Logistic Regression 类似，而且分类线比较“粗壮”一些。
在这里插入图片描述

SVM for Soft Binary Classification

如何将SVM的结果应用在Soft Binary Classification中，得到是正类的概率值?
在这里插入图片描述

方法一：先得到SVM的解 $b_{svm},w_{svm})$ ，然后直接代入到logistic regression中，得到 $g(x)=\theta(w_{svm}^Tx+b_{svm})$ 。直接使用了SVM和logistic regression的相似性，但没有用到logistic regression好的性质和方法。
方法二：先得到SVM的解 $b_{svm},w_{svm})$ ，把 $b_{svm},w_{svm})$ 作为logistic regression的初始值，进行迭代训练修正（速度比较快），把修正后的 $(b, w)$ 带入到 $g(x)=\theta(w^Tx+b)$ 中，但并没有体现出比直接用logistic regression有优势

总之，两种方法都没有融合SVM和logistic regression各自的优势

方法三：用 $b_{svm},w_{svm})$ 、放缩因子A和平移因子B构造一个可以融合SVM和logistic regression优势的模型：
$g(x)=\theta(A\cdot(w_{svm}^T\Phi(x)+b_{svm})+B)$ 如果 $b_{svm},w_{svm})$ 较为合理，一般满足A>0且 $B\approx0$ 。

新构造的 logistic regression 表达式为：
在这里插入图片描述
总体做法可分为三步：

Kernel Logistic Regression

logistic regression怎么用kernel转化为QP问题来解决？

如果 $w$ 可以表示为 $z$ 的线性组合，即 $w_*=\sum_{n=1}^N\beta_nz_n$ 的形式，那么 $w_*^Tz=\sum_{n=1}^N\beta_nz_n^Tz=\sum_{n=1}^N\beta_nK(x_n,x)$ ，其中包含了z的内积。即：w 可以表示为 z 的线性组合是 kernel trick 可行的关键。

前面的SVM、PLA包扩logistic regression都可以表示成 z 的线性组合：
在这里插入图片描述
对于L2-regularized linear model，如果它的最小化问题形式为如下的话，那么最优解 $w_*=\sum_{n=1}^N\beta_nz_n$

证明：
假设最优解 $w_*=w_{||}+w_{\bot}$

所以，任何L2-regularized linear model都可以使用kernel来解决

求解：
将 $w_*=\sum_{n=1}^N\beta_nz_n$ 代入到L2-regularized logistic regression最小化问题中：

在这里插入图片描述

上式中，所有的 $w$ 项都换成 $\beta_n$ 来表示，变成了没有条件限制的最优化问题（把这种问题称为kernel logistic regression），即引入kernel，将求 $w$ 的问题转换为求 $\beta_n$ 的问题

上式 log 项里的 $\sum_{m=1}^N\beta_mK(x_m,x_n)$ 可以看成是变量 $\beta$ 和 $K(x_m,x_n)$ 的内积。 $\sum_{n=1}^N\sum_{m=1}^N\beta_n\beta_mK(x_n,x_m)$ 可以看成是关于 $\beta$ 的正则化项 $\beta^TK\beta$ 。所以，KLR是 $\beta$ 的线性组合，其中包含了kernel内积项和kernel regularizer，与SVM是相似的。

但是，KLR中的 $\beta_n$ 与SVM中的 $\alpha_n$ 是有区别的。SVM中的 $\alpha_n$ 大部分为零，SV的个数通常是比较少的；而KLR中的 $\beta_n$ 通常都是非零值。

6 – Support Vector Regression

soft-binary classification 使用 2-level learning，先利用SVM得到参数 b 和 w ，再用 logistic regression 迭代优化，对参数 b 和 w 进行微调，得到最佳解。

前面提到可以通过Representer Theorem，在 z 空间中引入SVM的kernel技巧，直接对logistic regression进行求解。

如何将SVM的kernel技巧应用到 regression 问题上？

Kernel Ridge Regression

如何将kernel技巧引入到岭回归（ridge regression）中去，得到与之对应的analytic solution？

Kernel Ridge Regression问题：
在这里插入图片描述
因为最佳解 $w_∗$ 必然是 $z$ 的线性组合

把 $w_∗=\sum^N_{n=1}\beta_nz_n$ 代入到ridge regression中，将z的内积用kernel替换，把求 $w_∗$ 的问题转化成求 $\beta_n$ 的问题：
在这里插入图片描述
ridge regression可以写成矩阵的形式，其中第一项可以看成是 $\beta_n$ 的正则项，而第二项可以看成是 $\beta_n$ 的error function。

变成求解 $\beta_n$ ：
$\begin{aligned} E_{\mathrm{aug}}(\beta) &=\frac{\lambda}{N} \beta^{T} \mathrm{K} \beta+\frac{1}{N}\left(\beta^{T} \mathrm{K}^{T} \mathrm{K} \beta-2 \beta^{T} \mathrm{K}^{T} \mathbf{y}+\mathbf{y}^{T} \mathbf{y}\right) \\ \nabla E_{\mathrm{aug}}(\beta) &=\frac{2}{N}\left(\lambda \mathrm{K}^{T} \mathrm{I} \beta+\mathrm{K}^{T} \mathrm{K} \beta-\mathrm{K}^{T} \mathbf{y}\right)=\frac{2}{N} \mathrm{K}^{T}((\lambda \mathrm{I}+\mathrm{K}) \beta-\mathbf{y}) \end{aligned}$

令 $\nabla E_{aug}(\beta)$ 等于零， $(\lambda I+K)$ 的逆矩阵存在，则可得到 $\beta$ 一种解析解为：
$\beta=(\lambda I+K)^{-1}y$

$K$ 满足Mercer’s condition，它是半正定的，而且 $λ > 0$ ，所以 $(\lambda I+K)$ 一定是可逆的， $(\lambda I+K)$ 大小是 $N * N$ ，时间复杂度是 $O(N^3)$ 由于核函数 $K$ 表征的是 $z$ 空间的内积，除非两个向量互相垂直，否则一般情况下 $K$ 不等于零。 $(\lambda I+K)$ 是dense matrix， $\beta$ 的解大部分都是非零值。
在这里插入图片描述

左边是linear ridge regression：只能拟合直线，它的训练复杂度是 $O(d^3+d^2N)$ ，预测的复杂度是 $O (d)$ ，如果 $N$ 比 $d$ 大很多时，这种模型就更有效率。
右边是kernel ridge regression：非线性模型更加灵活，训练复杂度是 $O(N^3)$ ，预测的复杂度是 $O (N)$ ，均只与 $N$ 有关。当 $N$ 很大的时候，计算量也大。

Support Vector Regression Primal

kernel ridge regression应用在classification就叫做least-squares SVM（LSSVM）

对比soft-margin Gaussian SVM和Gaussian LSSVM：
在这里插入图片描述
两者分类线几乎相同，但是如果看Support Vector的话（图中方框标注的点）

左边SV不多，因为soft-margin Gaussian SVM中的 $α_n$ 大部分是等于零， $α_n>0$ 的点只占少数，所以SV少。
而右边基本上每个点都是SV，因为 $\beta$ 的解大部分都是非零值，所以对应的每个点基本上都是SV

SV太多会带来一个问题，就是做预测的矩 $g(x)=\sum^N_{n=1}\beta_nK(x_n,x)$ ，如果 $\beta$ 非零值较多，那么 $g$ 的计算量也比较大，soft-margin Gaussian SVM更有优势。

在这里插入图片描述
能不能使用一些方法来的得到sparse $\beta$ ?

引入Tube Regression：在分类线上下分别划定一个区域（中立区），如果数据点分布在这个区域内，则不算分类错误，只有误分在中立区域之外的地方才算error

将L2-regularized tube regression做类似于soft-margin SVM的推导，从而得到sparse $\beta$
tube regression中的error与squared error：
在这里插入图片描述
$e r r (y, s)$ 与 $s$ 的关系曲线：

而在 $∣ s - y ∣$ 比较大的区域，squared error的增长幅度要比tube error大很多。error的增长幅度越大，表示越容易受到noise的影响，不利于最优化问题的求解。从这个方面来看，tube regression的这种error function要更好一些。

L2-Regularized Tube Regression：
$\min _{\mathbf{w}} \quad \frac{\lambda}{N} \mathbf{w}^{T} \mathbf{w}+\frac{1}{N} \sum_{n=1}^{N} \max \left(0,\left|\mathbf{w}^{T} \mathbf{z}_{n}-y\right|-\epsilon\right)$

上式含max项，不是处处可微，不适合用GD/SGD来求解。虽然满足representer theorem，有可能通过引入kernel来求解，但并不能保证得到sparsity $\beta$ 。可以把这个问题转换为带条件的QP问题，仿照dual SVM的推导方法，引入kernel，得到KKT条件，从而保证解 $\beta$ 是sparse的。

在这里插入图片描述
把L2-Regularized Tube Regression写成类似SVM的形式：

在这里插入图片描述
$\lambda$ 越大对应 $C$ 越小， $\lambda$ 越小对应 $C$ 越大。而且上式把 $w_0$ 即 $b$ 单独拿了出来。

有了Standard Support Vector Regression的初始形式，还需要转化成标准的QP问题：
在这里插入图片描述
右边即标准的QP问题， $\xi_n^\vee$ 和 $\xi_n^\wedge$ 分别表示upper tube violations和lower tube violations。这种形式叫做Support Vector Regression（SVR） primal。

SVR的QP形式共有 $\hat d+1+2N$ 个参数， $2 N + 2 N$ 个条件。

C：表示的是regularization和tube violation之间的权衡。large C倾向于tube violation，small C则倾向于regularization。
$\epsilon$ ：表征了tube的区域宽度，即对错误点的容忍程度。 $\epsilon$ 越大，则表示对错误的容忍度越大

Support Vector Regression Dual

接下来将推导SVR的Dual形式

先令拉格朗日因子 $\alpha_n^\vee$ 和 $\alpha_n^\wedge$ ，分别是与 $\xi_n^\vee$ 和 $\xi_n^\wedge$ 不等式相对应
在这里插入图片描述
令相关参数偏微分为零，得到相应的KKT条件：

观察SVM primal与SVM dual的参数对应关系，直接从SVR primal推导出SVR dual的形式：

SVR dual形式下推导的解 $w$ 为：
$w=\sum_{n=1}^N(\alpha_n^{\wedge}-\alpha_n^{\vee})z_n$

相应的complementary slackness为：
$\begin{aligned} \alpha_{n}^{\wedge}\left(\epsilon+\xi_{n}^{\wedge}-y_{n}+\mathbf{w}^{T} \mathbf{z}_{n}+b\right) &=0 \\ \alpha_{n}^{\vee}\left(\epsilon+\xi_{n}^{\vee}+y_{n}-\mathbf{w}^{T} \mathbf{z}_{n}-b\right) &=0 \end{aligned}$

对于分布在tube中心区域内的点，满足 $|w^Tz_n+b−y_n|<\epsilon$ ，此时忽略错误， $\xi_n^\vee$ 和 $\xi_n^\wedge$ 都等于零。则complementary slackness两个等式的第二项均不为零，必然得到 $\alpha_n^\vee=0$ 和 $\alpha_n^\wedge=0$ ，即 $\beta_n=\alpha_n^{\wedge}-\alpha_n^{\vee}=0$
所以，对于分布在tube内的点，得到的解 $\beta_n=0$ ，是sparse的。而分布在tube之外的点， $\beta_n\neq0$ 。

Summary of Kernel Models

在这里插入图片描述
上图中相应的模型也可以转化为dual形式，引入kernel：

7 – Blending and Bagging

介绍Aggregation Models，即如何将不同的hypothesis和features结合起来，让模型更好
主要介绍两个方法：Blending和Bagging

Motivation of Aggregation

不同的hypothesis相当于给出了很多不同的的选择，所以选择方法也很重要，一般有：

直接选择在验证集上犯错误最小的模型，不能发挥集体的智慧
无差别地考虑所有的hypothesis，有点像所谓的民主国家的一人一票
考虑所有的hypothesis，但是分配不同的权重
权重不是固定的，根据不同的条件，给予不同的权重

就像问朋友买股票的建议
在这里插入图片描述
对应以下四个数学模型：
$\begin{aligned} &G(x)=g_{t_*}(x)\ with\ t_*=\argmin\limits_{t\in{1,2,\cdots,T}}\ E_{val}(g_t^-)\\ &G(x)=sign\left(\sum_{t=1}^T1\cdot g_t(x)\right)\\ &G(x)=sign\left((\sum_{t=1}^T\alpha_t\cdot g_t(x)\right)\ with\ \alpha_t\geq0\\ &G(x)=sign\left((\sum_{t=1}^Tq_t(x)\cdot g_t(x)\right)\ with\ q_t(x)\geq0 \end{aligned}$

在这里插入图片描述
为什么Aggregation能表现得更好?
$\qquad\qquad\qquad$ $\qquad$

如左图：如果要求只能用一条水平的线或者垂直的线进行分类，那不论怎么选取直线，都不能将点完全分开，但如果用水平的和垂直的线组合就可以得到更好地分类效果。这表明：将不同的hypotheses均匀地结合起来，得到了比单一hypothesis更好的预测模型。
如右图的PLA算法：将所有可能的hypothesis结合起来，以投票的方式进行组合选择，最终会发现投票得到的分类线就是中间黑色那条。这表明：aggregation也起到了正则化（regularization）的效果，让预测模型更具有代表性。

feature transform和regularization是对立的，aggregation却能将feature transform和regularization各自的优势结合起来。

Uniform Blending

将每一个可能的矩赋予权重1，进行投票，得到的 $G (x)$ 表示为：
$g(x)=sign(\sum_{t=1}^T1\cdot g_t(x))$

这种方法对应三种情况：
在这里插入图片描述
如果是regression回归问题，uniform blending的做法就是将所有的矩 $g_t$ 求平均值：
$G(x)=\frac1T\sum_{t=1}^Tg_t(x)$

uniform blending for regression对应两种情况：

在这里插入图片描述
不同矩 $g_t$ 的组合和集体智慧，都能得到比单一矩 $g_t$ 更好的模型。
证明： ·························································································
1、对单一样本 $x$

在这里插入图片描述
注意： $G(t)=avg(g_t)$
$avg((g_t(x)-f(x))^2)-(G-f)^2=avg((g_t−G)^2)>0\longrightarrow g_t$ 的平均 $G(t)=avg(g_t)$ 表现更好。

2、对整个样本 $x$ 分布
在这里插入图片描述
$avg(E_{out}(g_t))\geq E_{out}(G)$ 证明了计算 $g_t$ 的平均值 $G (t)$ 要比单一的 $g_t$ 更接近目标函数 $f$ ，regression效果更好。
证毕 ·························································································

对 $g_t$ 求平均得到 $G$ ，当做无限多次，即目标数 $T$ 趋向于无穷大时：
$\overline{g}=\lim_{T\rightarrow \infty}\ G=\lim_{T\rightarrow \infty}\ \frac1T\sum_{t=1}^Tg_t=\mathop{\epsilon}\limits_DA(D)$ 在这里插入图片描述
当T趋于无穷大的时候， $G=\overline{g}$ ，则有如下等式成立：

在这里插入图片描述
一个演算法的平均表现可以看成所有 $g_t$ 的共识 $+$ 不同 $g_t$ 之间的差距，即：bias+variance。因此，uniform blending求平均的过程，削减了variance，使得算法表现更好、更稳定。

左边表示演算法误差的期望值，
右边第一项表示不同 $g_t$ 与共识的差距是多少，反映 $g_t$ 之间的偏差，用方差 $v a r i a n c e$ 表示；
右边第二项表示不同 $g_t$ 的平均误差共识，用偏差bias表示。

Linear and Any Blending

linear blending，每个 $g_t$ 赋予的权重 $\alpha_t$ 并不相同( $\alpha_t\geq0$ )，最终得到的预测结果等于所有 $g_t$ 的线性组合：

在这里插入图片描述
如何确定 $\alpha_t$ 的值，方法是利用误差最小化的思想，找出最佳的 $\alpha_t$ ，使 $E_{in}(\alpha)$ 取最小值。

例如：
在这里插入图片描述
求解 $\alpha_t$ 的方法类似之前的two-level learning，先计算 $g_t(x_n)$ ，再进行linear regression得到 $\alpha_t$ 值。

linear blending由三个部分组成：LinModel，hypotheses as transform，constraints，其实计算过程中可以把 $g_t$ 当成feature transform，求解过程就跟之前没有什么不同

在这里插入图片描述
如果 $\alpha_t<0$ ，会怎么样呢？

其实 $\alpha_t<0$ 并不会影响分类效果，只需要将正类看成负类，负类当成正类即可。这样就可以去掉约束条件了

在这里插入图片描述
Linear Blending中的 $g_t$ 是通过模型选择得到的，利用validation，从 $D_{train}$ 中得到 $g_1^-,g_2^-,\cdots,g_T^-$ ，然后将 $D_{train}$ 中各个矩计算每个数据点得到的值代入到相应的linear blending计算公式中，迭代优化得到对应 $\alpha$ 值。最终，再利用所有样本数据，得到新的 $g_t$ 代替 $g_t^−$ ，则 $G (t)$ 就是 $g_t$ 的线性组合而不是 $g_t^−$ ，系数是 $α_t$ 。
在这里插入图片描述

除了linear blending之外，还可以使用任意形式的blending。linear blending中， $G (t)$ 是 $g (t)$ 的线性组合；any blending中， $G (t)$ 可以是 $g (t)$ 的任何函数形式（非线性），这种形式的blending也叫做Stacking。

any blending：

优点：是模型复杂度提高，更容易获得更好的预测模型
缺点：是复杂模型也容易带来过拟合的危险。通过采用regularization的方法，让模型具有更好的泛化能力。

Bagging(Bootstrap Aggregation)

blending的做法就是将已经得到的矩 $g_t$ 进行aggregate的操作。具体的aggregation形式包括：uniform，non-uniforn和conditional
在这里插入图片描述
如何得到不同的 $g_t$ 呢？

在这里插入图片描述

前面讲的bias-variance：一个演算法的平均表现可以被拆成两项，一个是所有 $g_t$ 的共识（bias），一个是不同 $g_t$ 之间的差距是多少（variance）。每个 $g_t$ 都是需要新的数据集的。只有一份数据集的情况下，如何构造新的数据集？

在这里插入图片描述
其中， $\overline g$ 是在矩个数T趋向于无穷大的时候，不同的 $g_t$ 计算平均得到的值。

为了得到 $\overline g$ ，可以用两个近似条件：

有限的T
由已有数据集D构造出 $D_t - P^N$ ，独立同分布（这个近似条件的做法就是bootstrapping）

bootstrapping是统计学工具，从已有数据集D中模拟出其他类似的样本 $D_t$ ：

假设有 N 笔资料，先从中选出一个样本，再放回去，再选择一个样本，再放回去，共重复 $N$ 次。就得到了一个新的 $N$ 笔资料，新的 $\breve D_t$ 中可能包含原 $D$ 里的重复样本点，也可能没有原 $D$ 里的某些样本， $\breve D_t$ 与 $D$ 类似但又不完全相同。

用bootstrap进行aggragation的操作就被称为bagging

在这里插入图片描述
Bagging Pocket算法的例子如下：

先通过bootstrapping得到25个不同样本集，再使用pocket算法得到25个不同的 $g_t$ ，每个pocket算法迭代1000次。最后，再利用blending，将所有的 $g_t$ 融合起来，得到最终的分类线（黑线）
bootstrapping会得到差别很大的分类线（灰线），但是经过blending后，得到的分类线效果不错，所以bagging通常能得到很好的分类模型。
注意：只有当演算法对数据样本分布比较敏感的情况下，才有比较好的表现。

8 – Adaptive Boosting

Motivation of Boosting

将简单的hypotheses $g_t$ 很好地融合，可以得到更好的预测模型G。例如，二维平面上简单的hypotheses（水平线和垂直线），有效组合可以很好地将正负样本完全分开。

在这里插入图片描述

Diversity by Re-weighting

Bagging的核心是bootstrapping，通过对原始数据集 $D$ 不断进行bootstrap的抽样动作，得到与 $D$ 类似的数据集 $\hat D_t$ ，每组 $\hat D_t$ t都能得到相应的 $g_t$ ，从而进行aggregation操作。

假如：~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
在这里插入图片描述
对于新的 $\hat D_t$ ，base algorithm找出 $E_{in}$ 最小时对应的 $g_t$ ：
$E_{in}^{0/1}(h)=\frac14\sum_{n=1}^4[y\neq h(x)]$

由于 $\hat D_t$ 完全是 $D$ 经过bootstrap得到的，其中各个样本出现次数不同。引入一个参数 $u_i$ 来表示原 $D$ 中第 $i$ 个样本在 $\hat D_t$ 中出现的次数：
$E_{in}^{\color{blue}u}(h)=\frac14\sum_{n=1}^4{\color{blue}u_n}^{(t)}\cdot [y_n\neq h(x)]$

在这里插入图片描述
参数 $u$ 相当于是权重因子， $\hat D_t$ 中第 $i$ 个样本出现的次数越多，对应的 $u_i$ 越大，表示在error function中对该样本的惩罚越多

所以，bagging其实就是通过bootstrap的方式得到这些 $u_i$ 值，再用base algorithn最小化包含 $u_i$ 的error function，得到不同的 $g_t$ 。这个error function被称为bootstrap-weighted error。

最小化bootstrap-weighted error的算法叫做Weightd Base Algorithm：
$\begin{array}{l}{\text { minimize (regularized) }} \\ {\qquad E_{\text { in }}^{\mathrm{u}}(h)=\frac{1}{N} \sum_{n=1}^{N} {\color{blue}u_{n}} \cdot \operatorname{err}\left(y_{n}, h\left(\mathbf{x}_{n}\right)\right)}\end{array}$

weightd base algorithm和之前算法类似，如：

soft-margin SVM引入允许犯错的项，同样可以将每个点的error乘以权重因子 $u_n$ 。加上该项前的参数 $C$ ，经过QP，最终得到 $0≤\alpha_n≤Cu_n$ 。有别于之前的 $0≤\alpha_n≤C$ 。这里的 $u_n$ 相当于每个犯错的样本的惩罚因子，并会反映到 $\alpha_n$ 的范围限定上。
同样在logistic regression中，对每个犯错误的样本乘以相应的 $u_n$ 作为惩罚因子。 $u_n$ 表示该错误点出现的次数， $u_n$ 越大，则对应的惩罚因子越大，则在最小化error时就应该更加重视这些点。

在这里插入图片描述
由上节可知： $g_t$ 越不一样，其aggregation的效果越好，即每个人的意见越不相同，越能运用集体的智慧，得到好的预测模型。不同的 $u$ 组合经过base algorithm得到不同的 $g_t$ 。那么如何选取 $u$ ，使得到的 $g_t$ 之间有很大的不同呢？

先看看 $g_t$ 和 $g_{t+1}$ 怎么得到：
在这里插入图片描述
如上所示， $g_t$ 是由 $u^t_n$ 得到的， $g_{t+1}$ 是由 $u^{(t+1)}_n$ 得到的。如果 $g_t$ 代入 $u^{(t+1)}_n$ 时得到的error很大，即预测效果非常不好，那就表示由 $u^{(t+1)}_n$ 计算的 $g_{t+1}$ 会与 $g_t$ 有很大不同

具体怎么做呢？

如果在 $g_t$ 作用下， $u^{(t+1)}_n$ 中的表现（即error）近似为0.5的时候，表明 $g_t$ 对 $u^{(t+1)}_n$ 的预测分类没有什么作用，最大限度地保证 $g_{t+1}$ 会与 $g_t$ 有较大的差异性：
做一些等价处理，其中分式中分子是 $g_t$ 犯错误的点，而分母是所有样本点（橘色：错误点、绿色：正确点）

显然只要将错误点和正确点的数量调成一样就可以使得分式等于0.5。即：在 $g_t$ 作用下，让犯错的 $u^{(t+1)}_n$ 数量和没有犯错的 $u^{(t+1)}_n$ 数量一致就行（包含权重 $u^{(t+1)}_n$ ）

一种简单的方法就是利用放大和缩小的思想，将犯错误的 $u^{t}_n$ 和没有犯错误的 $u^{t}_n$ 做相应的乘积操作，使得二者值变成相等，例如： $u^{t}_n$ of incorrect为1126， $u^{t}_n$ of correct为6211，要让 $u^{(t+1)}_n$ 中错误比例正好是0.5
对incorrect $u^{(t+1)}_n$ ：
$u_n^{(t+1)}\leftarrow u_n^{(t)}\cdot 6211$

对correct $u^{(t+1)}_n$ ：
$u_n^{(t+1)}\leftarrow u_n^{(t)}\cdot 1126$

或者利用犯错的比例，令weighted incorrect rate和weighted correct rate分别设为 $\frac{1126}{7337}$ 和 $\frac{6211}{7337}$
一般求解方式是令犯错率为 $\epsilon_t$ ，在计算 $u^{(t+1)}_n$ 的时候， $u^{t}_n$ 分别乘以 $1-\epsilon_t$ 和 $\epsilon_t$ 。
在这里插入图片描述

Adaptive Boosting Algorithm

构造一个新的尺度因子：
$\diamond t=\sqrt{\frac{1-\epsilon_t}{\epsilon_t}}$

对于错误的 $u_n^{(t)}$ ，将它乘以 $\diamond t$ ；对于正确的 $u_n^{(t)}$ ，将它除以 $\diamond t$ 。

引入新尺度因子的意义：

$\epsilon_t\leq\frac12$ ，得到 $\diamond t\geq1$ ，那么接下来错误的 $u_n^{(t)}$ 与 $\diamond t$ 的乘积就相当于把错误点放大了，正确的 $u_n^{(t)}$ 与 $\diamond t$ 的相除就相当于把正确点缩小了

迭代步骤如下：
在这里插入图片描述
上述步骤还有两个问题：

是初始的 $u^{(1)}$ 应为多少呢？
为了保证第一次 $E_{in}$ 最小的话，设 $u^{(1)}=\frac1N$ 即可
最终的 $G (x)$ 应该怎么求？是将所有的 $g (t)$ 合并uniform在一起吗？
一般对所有的 $g (t)$ 进行linear或者non-linear组合来得到 $G (t)$

对上面第二个问题，有aggregate linearly on the fly算法：计算 $g (t)$ 的同时，就能计算得到其线性组合系数 $\alpha_t$

在这里插入图片描述
那么，如何在每次迭代的时候计算 $\alpha_t$ 呢？

$\alpha_t$ 与 $\epsilon_t$ 是相关的： $\epsilon_t$ 越小，对应的 $\alpha_t$ 应该越大， $\epsilon_t$ 越大，对应的 $\alpha_t$ 应该越小。又因为 $\diamond t$ 与 $\epsilon_t$ 是负相关的，所以：

$\alpha_t$ 是 $\diamond t$ 的单调函数，构造 $\alpha_t$ 为：
$\alpha_t=ln(\diamond t)$

在这里插入图片描述
这种算法被称为Adaptive Boosting：由三部分组成

在这里插入图片描述
adaptive boosting（AdaBoost）Algorithm完整算法流程：

从VC bound角度来看，AdaBoost算法理论上满足：

$E_{in}(G)$ ：如果满足 $\epsilon_t\leq \epsilon<\frac12$ ，则经过 $T=O(log\ N)$ 次迭代之后， $E_{in}(G)$ 能减小到等于零的程度。而当N很大的时候，其中第二项模型复杂度也能变得很小。

AdaBoost算法：只要每次 $\epsilon_t\leq \epsilon<\frac12$ ，即所选择的矩 $g$ 比乱猜的表现好一点点，那么经过每次迭代之后，矩 $g$ 的表现都会比原来更好一些，逐渐变强，最终得到 $E_{in}=0$ 且 $E_{out}$ 很小。

在这里插入图片描述
算法A的形式称为decision stump模型

Adaptive Boosting in Action

用decision stump来做切割：经过5次迭代之后，所有的正负点已经被完全分开了
在这里插入图片描述

9 – Decision Tree

Decision Tree Hypothesis

aggregation model：将许多hypothesis融合

aggregation type有三种：uniform，non-uniform，conditional：分两种情况，所有的g是已知的（blending），所有的g是未知的（learning）

在这里插入图片描述
uniform和non-uniform分别对应Bagging和AdaBoost，而conditional对应的就是Decision Tree算法。
决策树（Decision Tree）模型是一种传统的算法，它的处理方式与人类思维十分相似。例如：

每个条件和选择都决定了最终的结果：Y or N。

这种树状结构对应到一个hypothesis G(x)：
$G(x)=\sum_{t=1}^Tq_t(x)\cdot g_t(x)$

$g_t(x)$ 就代表上图中的蓝色圆圈（树的叶子），称为base hypothesis
$q_t(x)$ 表示每个 $g_t(x)$ 成立的条件，代表上图中橘色箭头的部分
在这里插入图片描述
将整体 $G (x)$ 分成若干个 $G_c(x)$ ，相当于把整个大树分成若干个小树：
$G(x)=\sum_{c=1}^C[b(x)=c]\cdot G_c(x)$

在这里插入图片描述

decision tree的优点：
1、模型直观，便于理解，应用广泛
2、算法简单，容易实现
3、训练和预测时，效率较高

decision tree的缺点：
1、缺少足够的理论支持
2、如何选择合适的树结构对初学者来说比较困惑
3、决策树代表性的演算法比较少

Decision Tree Algorithm

Basic Decision Tree Algorithm的流程可以分成四个部分：

设定划分不同分支的标准和条件
将整体数据集D根据分支个数C和条件，划为不同分支下的子集Dc
对每个分支下的Dc进行训练，得到相应的机器学习模型Gc
最后将所有分支下的Gc合并到一起，组成大矩G(x)
注意递归的终止条件

所以决策树的基本演算法包含了四个选择：
分支个数（number of branches）、分支条件（branching criteria）、终止条件（termination criteria）、基本算法（base hypothesis）

常用的决策树模型算法Classification and Regression Tree(C&RT)，分支数C=2，即二叉树（binary tree），每个分支最后的 $g_t(x)$ 是一个常数：

对binary/multiclass classification(0/1 error)，看正、负类哪个多， $g_t(x)$ 取所占比例最多的那一类 $y_n$
对regression(squared error)， $g_t(x)$ 则取所有 $y_n$ 的平均值。

C&RT怎么切割数据？

分支数C=2，一般采用前面的decision stump的方法进行数据切割，即：每次在一个维度上，只对一个特征feature将数据一分为二，左子树和右子树，分别代表不同的类别

怎么切割才能让数据划分得最好呢（error最小）？

C&RT中使用纯净度purifying这个概念来选择最好的decision stump，purifying的核心思想就是每次切割都尽可能让左子树和右子树所代表类别的样本比例最大，即错误率最小
如：classifiacation问题中，如果左子树全是正样本，右子树全是负样本，那么它的纯净度就很大，说明该分支效果很好。

而purifying相反的概念impurity，则impurity越小越好， $D_c\ with\ h|$ 代表了分支c所占的权重（权重大小由该分支的数据量决定，分支包含的样本个数越多，则所占权重越大，分支包含的样本个数越少，则所占权重越小）
这样 $b (x)$ 类似于error function（这也是为什么使用impurity代替purifying的原因），选择最好的decision stump，让所有分支的不纯度最小化，使 $b (x)$ 越小越好

在这里插入图片描述
Impurity如何用函数的形式量化？

一种简单的方法就是类比于 $E_{in}$ ，看预测值与真实值的误差是多少。

对于regression问题，它的impurity可表示为：
$impurity(D)=\frac1N\sum_{n=1}^N(y_n-\overline{y})^2$

$\overline y$ 表示对应分支下所有 $y_n$ 的均值

对应classification问题，它的impurity可表示为：
$impurity(D)=\frac1N\sum_{n=1}^N[y_n\neq y^*]$

$y^∗$ 表示对应分支下所占比例最大的那一类
在这里插入图片描述
对于classification的impurity functions：
如果某分支条件下，让其中一个分支纯度最大，选择对应的decision stump，得到的classification error为：
$1-max_{1\leq k\leq K}\frac{\sum_{n=1}^N[y_n=k]}{N}$

$K$ 为分支个数

上面的式子只考虑纯度最大的分支，更好的做法是将所有分支的纯度都考虑并计算在内，用基尼指数（Gini index）表示：
$1-\sum_{k=1}^K(\frac{\sum_{n=1}^N[y_n=k]}{N})^2$

Gini index的优点：

将所有的class在数据集中的分布状况和所占比例全都考虑了，这样让decision stump的选择更加准确。

对于决策树C&RT算法，Gini index更适合求解classification问题，而regression error更适合求解regression问题。

在这里插入图片描述

C&RT算法迭代终止条件：

各分支下所有样本 $y_n$ 都是同类(impurity为0)，表示该分支已经达到了最佳分类程度
各特征下所有的 $x_n$ 相同，无法对其进行区分，表示没有decision stumps

C&RT算法遇到迭代终止条件后就成为完全长成树（fully-grown tree），每次分支为二，是二叉树结构，采用purify来选择最佳的decision stump来划分，最终得到的叶子（ $g_t(x)$ ）是常数。
在这里插入图片描述

Decision Tree Heuristics in C&RT

C&RT算法的基本流程：
在这里插入图片描述 #pic_center
过拟合问题

对于N个样本，如果每次只取一个样本点作为分支，那么在经过N-1次分支之后，所有的样本点都能完全分类正确。最终每片叶子上只有一个样本，必然能保证 $E_{in}=0$ ，但这样不可避免地造成VC Dimension过大，模型复杂度增加，从而出现过拟合现象。

为避免overfit，需要在C&RT算法中引入正则化来控制整个模型的复杂度：

避免模型过于复杂的方法是减少叶子（ $g_t(x)$ ）的数量，可以令regularizer就为决策树中叶子的总数，记为 $\Omega(G)$

这样，regularized decision tree可表示成：
$argmin_{(all\ possible\ G)}\ E_{in}(G)+\lambda\Omega(G)$

称为pruned decision tree，修剪决策树，去掉多余的叶子，达到避免过拟合的效果。

如何确定修剪多少叶子，修剪哪些叶子？

假设：由C&RT算法得到一棵完全长成树（fully-grown tree），总共10片叶子。分别减去其中一片叶子，剩下9片，将这10种情况比较，取 $E_{in}$ 最小的模型；再从9片叶子的模型分别减去一片，剩下8片，将这9种情况比较，取 $E_{in}$ 最小的那个模型，以此类推

决策树上的叶子可能是numerical features也可能是categorical features：

当某些特征缺失的时候，没有办法进行切割和分支选择时怎么办？

常用的方法就是surrogate branch，即寻找与该特征相似的替代feature

如何确定是相似的feature？

在决策树训练的时候，找出与该特征相似的feature，如果替代的feature与原feature切割的方式和结果是类似的，那么就表明二者是相似的，就把该替代的feature也存储下来。当预测时遇到原feature缺失的情况，就用替代feature进行分支判断和选择。

Decision Tree in Action

用C&RT算法来进行分类：
在这里插入图片描述

C&RT与AdaBoost-Stump比较：

C&RT是基于条件进行切割的，通常C&RT比AdaBoost-Stump分类切割更有效率。
C&RT决策树有以下特点：

10 – Random Forest

Random Forest Algorithm

Bagging和Decision Tree：
在这里插入图片描述

Bagging：采用投票的形式，将所有 $g_t$ uniform结合起来，起到了求平均的作用，从而降低variance。
Decision Tree：每次切割的方式不同，而且分支包含的样本数在逐渐减少，所以对不同的资料D会比较敏感，从不同的D会得到比较大的variance。

Bagging能减小variance，而Decision Tree能增大variance，把两者结合起来，用Bagging的方式把众多的Decision Tree进行uniform结合起来，这种算法就叫做随机森林（Random Forest）

在这里插入图片描述
Random Forest算法流程图：

在这里插入图片描述
Random Forest算法的优点：

不同决策树可以由不同主机并行训练生成，效率高
继承了C&RT的优点
将所有的决策树通过bagging的形式结合起来，避免了单个决策树造成过拟合的问题

如何让Random Forest中决策树的结构更多样性？

通过bootstrap的方法得到不同于D的D’，还可以随机抽取一部分特征，例如，原来有100个特征，现在只从中随机选取30个来构成决策树，每一轮得到的树都由不同的30个特征构成，相当于是降维构成的随机子空间（subspace）

这种增强的Random Forest算法增加了random-subspace：
另外，还可以将现有的特征x，通过数组p进行线性组合，来保持多样性：
$\phi_i(x)=p_i^Tx$ 注意：不同分支 $i$ 下的 $p_i$ 是不同的，而且向量 $p_i$ 中大部分元素为零，因为选择的只是一部分特征，是一种低维映射。

所以，Random Forest算法又得到增强，由原来的random-subspace变成了random-combination：
在这里插入图片描述

Out-Of-Bag Estimate

每个 $g_t$ 通过bootstrap得到新的样本集 $\hat D_t$ 中没有的样本称为out-of-bag(OOB) example：

在这里插入图片描述
假设bootstrap的数量为N，那么某个样本 $x_n,y_n)$ 是OOB的概率是：
$(1-\frac1N)^N=\frac{1}{(\frac{N}{N-1})^N}=\frac{1}{(1+\frac{1}{N-1})^N}\approx \frac1e$

由此可知，每个 $g_t$ 中OOB数目大约是 $\frac 1eN$ ，即大约有三分之一的样本没有在bootstrap中被抽到
将OOB与之前的Validation进行对比：
在这里插入图片描述
在Validation中，蓝色的 $D_{train}$ 用来得到不同的 $g_ m^-$ ，而红色的 $D_{val}$ 用来验证各自的 $g_ m^-$ ， $D_{train}$ 与 $D_{val}$ 没有交集，一般 $D_{train}$ 是 $D_{val}$ 的数倍关系。

那么如何使用OOB来验证G的好坏？

看每一个样本 $x_n,y_n)$ 是哪些 $g_t$ 的OOB资料，然后计算其在这些 $g_t$ 上的表现，最后将所有样本的表现求平均即可。

例如：样本 $x_N,y_N)$ 是 $g_2$ ， $g_3$ ， $g_T$ 的OOB，则可以计算 $x_N,y_N)$ 在 $G^−_N(x)$ 上的表现为：
$G_N^-(x)=average(g_2,g_3,g_T)$

每个样本都当成验证资料一次（与留一法相同），最后计算所有样本的平均表现：
$E_{oob}(G)=\frac1N\sum_{n=1}^Nerr(y_n,G_n^-(x_n))$

$E_{oob}(G)$ 估算的就是 $G$ 的表现好坏， $E_{oob}$ 称为bagging或者Random Forest的self-validation

Validation中， $D_{val}$ 选择到表现最好的 $g_ m^-$ 之后，还需要在 $D_{train}$ 和 $D_{val}$ 组成的所有样本集D上重新对该模型 $g_ m^-$ 训练一次，以得到最终的模型系数。而self-validation优点就是它不需要重复训练

在这里插入图片描述

Feature Selection

通常需要移除的特征分为两类：

冗余特征
不相关特征

$d$ 维特征到 $d^{'}$ 维特征的subset-transform $\Phi(x)$ 称为Feature Selection：
在这里插入图片描述
特征选择优点：
1、提高效率，特征越少，模型越简单
2、正则化，防止特征过多出现过拟合
3、去除无关特征，保留相关性大的特征，解释性强
特征选择缺点：

1、筛选特征的计算量较大
2、不同特征组合，也容易发生过拟合
3、容易选到无关特征或筛选掉相关特征，解释性差

如何对许多维特征进行筛选呢？
通过计算出每个特征的重要性（即权重），然后再根据重要性的排序进行选择。

在这里插入图片描述
这种方法在线性模型中比较容易计算。因为线性模型的score是由每个特征经过加权求和而得到的，加权系数的绝对值 $w_i|$ 正好代表了对应特征 $x_i$ 的重要性为多少

在这里插入图片描述
对于非线性模型，因为不同特征可能是非线性交叉在一起的，所以计算每个特征的重要性就变得比较复杂和困难，那么：

如何在RF下进行特征选择？

RF中，特征选择的核心思想是random test：
对于某个特征，如果用另外一个随机值替代它之后的表现比之前更差，则表明该特征比较重要，所占的权重应该较大

那么random test中的随机值如何选择呢？

两种方法：
- 用uniform或者gaussian抽取随机值替换原特征
- permutation test（随机排序测试）：将原来的所有 $N$ 个样本的第 $i$ 个特征值重新打乱分布（相当于重新洗牌），计算第 $i$ 个特征的重要性时，将N个样本的第i个特征重新洗牌，然后比较 $D$ 和 $D^{(p)}$ 表现的差异性，如果差异很大，则表明第i个特征是重要的

如何衡量替换前后的表？

对于 $N$ 个样本的第 $i$ 个特征值重新洗牌重置的 $D^{(p)}$ ，要对它进行重新训练，而且每个特征都要重复训练，然后再与原D的表现进行比较，过程非常繁琐。为简化运算：
- 把permutation的操作从原来的training上移到了OOB validation上去，记为 $E_{oob}(G^{(p)})→E^{(p)}_{oob}(G)$ ，在训练的时候仍然使用D，但是在OOB验证的时候，将所有的OOB样本的第i个特征重新洗牌，验证G的表现。

Random Forest in Action

左边：是一个C&RT树没有使用bootstrap得到的模型分类效果，其中不同特征之间进行了随机组合，所以有斜线作为分类线
中间：是由bootstrap（N’=N/2）后生成的一棵决策树组成的随机森林，图中加粗的点表示被bootstrap选中的点
右边：是将一棵决策树进行bagging后的分类模型，效果与中间图是一样的

t=200时：

t=400时：

t=600时：

t=800时：

随着树的增加，分界线越来越光滑而且得到了large-margin-like boundary，类似于SVM一样的效果。也就是说，树越多，分类器的置信区间越大，模型越稳定越能表现得好。

11 – Gradient Boosted Decision Tree

Random Forest就是通过bagging的方式将许多不同的decision tree组合起来。而且在decision tree中加入了各种随机性和多样性，比如不同特征的线性组合等。RF还可以使用OOB样本进行self-validation，并通过permutation test进行feature selection。

Adaptive Boosted Decision Tree

将Bagging替换成AdaBoost，每轮bootstrap得到的 $D^{'}$ 中每个样本会赋予不同的权重 $u^{(t)}$ ；然后在每个decision tree中，利用这些权重训练得到最好的 $g_t$ ；最后得出每个 $g_t$ 所占的权重，线性组合得到G。这种模型称为AdaBoost-D Tree
在这里插入图片描述
在Adaptive Boosting中进行了bootstrap操作， $u^{(t})$ 表示 $D$ 中每个样本在 $D^{'}$ 中出现的次数。C&RT算法中并没有引入，那么，如何在决策树中引入 $u^{(t)}$ 来得到不同的 $g_t$ 而又不改变原来的决策树算法呢？
在Adaptive Boosting中，使用了weighted algorithm：
$E^u_{in}(h)=\frac 1N\sum^N_{n=1}u_n\cdot err(y_n,h(x_n))$

每个犯错误的样本点乘以相应的权重，求和再平均，最终得到了 $E^u_{in}(h)$ 。但在决策树中使用这种方法，将每层分支下犯错误的点赋予权重，会比较复杂，不易求解

为了简化运算，保持决策树算法本身的稳定性和封闭性：不对决策树算法本身进行修改，而从数据来源 $D^{'}$ 入手，权重u实际上表示样本在bootstrap中出现的概率。那么可以根据u值，对原样本集D进行sampling，也就是带权重的随机抽样，用带权重的sampling操作，得到新的样本数据集 $D^{'}$ ，直接代入决策树进行训练，从而无需改变决策树算法结构
在这里插入图片描述
前面用sampling，将不同的样本集代入决策树中，得到了不同的 $g_t$ 。还要确定每个 $g_t$ 所占的权重 $\alpha_t$ 。在AdaBoost中，首先算出每个 $g_t$ 的错误率 $\epsilon_t$ ，然后计算权重：
$\alpha_t=ln\ \diamond t=ln\sqrt{\frac{1-\epsilon_t}{\epsilon_t}}$

如果现在有一棵完全长成的树（fully grown tree），由所有的样本 $x_n$ 训练得到。若每个样本都不相同，切割分支，直到所有的 $x_n$ 都被完全分开。这时候： $E_{in}(gt)=0$ ，加权的 $E^u_{in}(gt)=0$ 而且 $\epsilon_t$ 也为0，从而得到权重 $\alpha_t=\infty$ ， $\alpha_t=\infty$ 表示该 $g_t$ 所占的权重无限大，相当于它一个就决定了 $G$ 结构，是一种autocracy，而其它的 $g_t$ 对 $G$ 没有影响，这显然不好
在这里插入图片描述
所以，我们希望使用aggregation将不同的 $g_t$ 结合起来，发挥集体智慧来得到最好的模型G

造成 $\alpha_t=\infty$ 的原因：
1、使用了所有的样本 $x_n$ 进行训练
2、树的分支过多，fully grown

解决办法：
1、只使用一部分样本（sampling操作起到类似作用）
2、限制树的高度，让分支不要那么多，避免fully grown。
3、对树做一些修剪（pruned）
在这里插入图片描述
AdaBoost-DTree使用的是pruned DTree：

在这里插入图片描述
当树高为1的时候，整棵树只有两个分支。如果impurity是binary classification error的话，那么此时的AdaBoost-DTree就跟AdaBoost-Stump没什么两样，即：AdaBoost-Stump是AdaBoost-DTree的一种特殊情况

在这里插入图片描述
注意：如果树高为1时，通常较难遇到 $\epsilon_t=0$ 的情况，且一般不采用sampling的操作，而是直接将权重u代入到算法中。因为此时的AdaBoost-DTree就相当于是AdaBoost-Stump，而AdaBoost-Stump就是直接使用u来优化模型的。

Optimization View of AdaBoost

AdaBoost中的权重的迭代计算如下所示：
在这里插入图片描述
$u^{(t+1)}_n$ 写成一种简化的形式：
$u_n^{(t+1)}=u_n^{(t)}\cdot \diamond t^{-y_ng_t(x_n)}=u_n^{(t)}\cdot exp(-y_n\alpha_tg_t(x_n))$

对于incorrect样本， $y_ng_t(x_n)<0$ ，对于correct样本， $y_ng_t(x_n)>0$
前面令 $\color{blue}u_n^{(1)}=\frac1N$ ，由上式可推得最后一次更新的 $\color{blue}u_n^{(T+1)}$ ：
$u_n^{(T+1)}=u_n^{(1)}\cdot \prod_{t=1}^Texp(-y_n\alpha_tg_t(x_n))=\frac1N\cdot exp(-y_n\sum_{t=1}^T\alpha_tg_t(x_n))$

$\color{blue}\sum_{t=1}^T\alpha_tg_t(x_n)$ 称为voting score，最终的模型 $\color{blue}G=sign(\sum_{t=1}^T\alpha_tg_t(x_n))$ 。可以看出，在AdaBoost中， $u_n^{(T+1)}$ 与 $exp(-y_n(voting\ score\ on\ x_n))$ 成正比。
在这里插入图片描述
voting score由 $g_t(x_n)$ 乘以各自的系数 $\alpha_t$ 线性组合而成，从另外一个角度来看，可以把 $g_t(x_n)$ 看成是对 $x_n$ 的特征转换 $\Phi_i(x_n)$ ， $α_t$ 就是线性模型中的权重 $w_i$ 。（SVM中， $w$ 与 $\Phi_i(x_n)$ 的乘积再除以 $w$ 的长度就是margin，即点到边界的距离,与 $y_n$ 相乘，表示点的位置是在正确的那侧还是错误的那侧）

voting score可以看成是没有正规化的距离（没有除以 $w$ 的长度），即：该点到分类边界距离的一种衡量。距离越大效果越好 $\Longrightarrow$ voting score要尽可能大

在这里插入图片描述
由上可知：voting score与 $y_n$ 相乘为正，则分类正确，且越大越好。

那么：voting score越大 $\ \Longrightarrow$ $exp(-y_n(voting\ score))$ 越小 $\ \Longrightarrow$ $u_n^{(T+1)}$ 越小

在这里插入图片描述
目标：在最后一轮 $（ T + 1 ）$ 学习后，让所有样本的 $u^{(T+1)}_n$ 之和尽可能地小

$\sum_{t=1}^T\alpha_tg_t(x_n)$ 被称为linear score，用s表示。由下图可知： $\hat{err}_{ADA}(s,y)$ 可以看成是 $\ error$ 的上界，所以，我们可以使用 $\hat{err}_{ADA}(s,y)$ 来替代 $\ error$ 。 $\sum_{n=1}^Nu_n^{(T+1)}$ 可以看成是一种error measure，而我们的目标就是让其最小化，求出最小值时对应的各个 $\alpha_t$ 和 $g_t(x_n)$ 。
在这里插入图片描述
如何让 $\sum_{n=1}^Nu_n^{(T+1)}$ 取最小值?

gradient descent的核心是在某点处做一阶泰勒展开：
在这里插入图片描述
$w_t$ 是泰勒展开的位置，v是所要求的下降的最好方向，它是梯度 $\nabla E i n (w t)$ 的反方向，而 $η$ 是每次前进的步长
对 $\check{E}_{ADA}$ 做梯度下降算法处理，区别是方向是函数 $g_t$ ，不是一个向量 $w_t$

函数和向量的区别：前者下标是连续的，后者下标是离散的，梯度下降算法应用上并没有大的区别。
在这里插入图片描述
上述推导使用了在 $-y_n\eta h(x_n)=0$ 处的一阶泰勒展开近似， $h(x_n)$ 表示当前的方向，它也是一个矩，即未知 $\color{blue}g_t(x_n)$ ，， $\eta$ 是沿着当前方向前进的步长，即未知 $\color{blue}\alpha_t$ 。最小化 $\check E_{ADA}$ ，就要让第二项 $-\eta\sum_{n=1}^Nu_n^{(t)}y_nh(x_n)$ 越小越好。先忽略步进长度 $\eta$ ：
在这里插入图片描述
对于binary classification：
$y_n$ 和 $h(x_n)$ 均限定取值-1或+1两种， $\color {blue}\sum_{n=1}^Nu_n^{(t)}(-y_nh(x_n))$ 可做一变换：

在这里插入图片描述
于是，最小化 $\color {blue}\sum_{n=1}^Nu_n^{(t)}(-y_nh(x_n))$ 就转化为最小化 $\color {blue}E^{u(t)}_{in}(h)$ ，而在AdaBoost中使用base algorithm得到的 $g_t$ 就是让 $\check E_{ADA}$ 减小的方向(这个方向是函数而不是向量)

解决了方向问题，接着需要考虑步进长度 $\eta$ 如何选取?
把 $\check E_{ADA}$ 看成是步进长度 $\eta$ 的函数
在这里插入图片描述

对 $\color {blue} \eta$ 求导，令 $\color {blue} \frac {\partial \check E_{ADA}}{\partial \eta}=0$ ，得：
$\eta_t=ln\sqrt{\frac{1-\epsilon_t}{\epsilon_t}}=\alpha_t$

$\color {blue} \Longrightarrow$ 最大的步进长度就是 $\color {blue}\alpha_t$ ，即AdaBoost中计算 $\color {blue}g_t$ 所占的权重
在AdaBoost中确定 $g_t$ 和 $\alpha_t$ 的过程就相当于在gradient descent上寻找最快的下降方向和最大的步进长度。

Gradient Boosting

前面从gradient descent的角度来重新介绍了AdaBoost的最优化求解方法：
在这里插入图片描述
前面只是针对binary classification问题，那么对不同的error function是否仍然有效呢？？

如何求解regression的GradientBoost问题？

把上式进行一阶泰勒展开：

灰色的部分表示常数，对最小化求解没有影响：

要使上式最小化，只要令 $h(x_n)$ 是梯度 $2(s_n−y_n)$ 的反方向就行了，则其恒为负数，即直接令 $h(x_n)=-2(s_n-y_n)$ 就可以，（可以理解为：预测比实际小，则新的矩要往反方向修正，也就是负梯度方向）。但没有对 $h(x_n)$ 的大小进行限制，不能直接进行最小化

实际上 $h(x_n)$ 的大小并不重要，因为有步进长度 $\eta$ .限制 $h(x_n)$ 的一种简单做法是把 $h(x_n)$ 当成一个惩罚项（ $h^2(x_n)$ ）添加到上面的最小化问题中，转化为无约束的最小化问题，这种做法与regularization类似：
$min\ \sum_{n=1}^N((h(x_n)-(y_n-s_n))^2)$

$\color{blue}y_n−s_n$ 表示当前第n个样本真实值和预测值的差，称之为residual，上面的式子还加了 $\color{blue}(y_n−s_n)^2$ 项，可看作已知常数，因此并不影响对 $\color{blue}h(x_n)$ 的最小化。
想要让上式最小化，求出对应的 $h(x_n)$ ，只要让 $h(x_n)$ 尽可能地接近余数 $y_n−s_n$ 即可
在这里插入图片描述

求出最好的方向函数 $g_t(x_n)$ ，就要来求相应的步进长度 $\eta$

在这里插入图片描述

$g_t(x_n)$ 可以看成是 $x_n$ 的特征转换，为已知量。要让上式最小化，求出对应的 $\eta$ 的话，只要让 $\eta g_t(x_n)$ 尽可能地接近 $y_n−s_n$ 即可

综上所述就得到了Gradient Boosted Decision Tree(GBDT)：
在这里插入图片描述
注意： $s_n$ 的初始值一般均设为0，即 $s_1=s_2=\cdots =s_N=0$
方向函数 $g_t$ 通过C&RT算法做regression，进行求解； $\alpha_t$ 通过简单的单参数线性回归进行求解；然后每轮更新 $s_n$ 的值，即 $s_n\longleftarrow s_n+\alpha_tg_t(x_n)$ .T轮迭代结束后，最终得到 $G(x)=\sum_{t=1}^T\alpha_tg_t(x)$

12 – Neural Network

略

13 – Deep Learning

linear autoencoder & Principal Component Analysis

对于linear autoencoder，其第k层输出不包含tanh()函数，可表示为：
$h_k(x)=\sum_{j=0}^{\breve{d}}w_{jk}^{(2)}(\sum_{i=0}^dw_{ij}^{(1)}x_i)$

$w_{jk}^{(1)}$ 和 $w_{jk}^{(2)}$ wjk(2)分别是编码权重和解码权重
在这里插入图片描述
编码权重用 $W$ 表示，维度是 $d\times \check d$ ，解码权重用WTWT表示。 $x$ 的维度为 $d\times 1$ 。则linear autoencoder hypothesis可经过下式计算得到：
$h(x)=WW^Tx$

linear autoencoder hypothesis就应该近似于原始输入x的值，即 $h (x) = x$ 因此可写出error function：
$E_{\mathrm{in}}(\mathbf{h})=E_{\mathrm{in}}(\mathrm{W})=\frac{1}{N} \sum_{n=1}^{N}\left\|\mathbf{x}_{n}-\mathbf{W} \mathbf{W}^{T} \mathbf{x}_{n}\right\|^{2} \text { with } d \times \tilde{d} \text { matrix } \mathbf{W}$

目标是计算出 $E_{in}(h)$ 最小化时对应的 $\mathrm W$ ，先进行特征值分解：
$WW^T=V\Gamma V^T$

$WW^T$ 是半正定矩阵， $V$ 矩阵满足 $VV^T=V^TV=I_d$ ， $\Gamma$ 是对角矩阵，对角线上有不超过 $\check d$ 个非零值（即为1）.根据特征值分解的思想，把 $x_n$ 进行类似分解：
$x_n=VIV^Tx_n$

$I$ 是单位矩阵，维度为 $d\times d$ .通过特征值分解我们就把对 $\mathrm W$ 的优化问题转换成对 $\Gamma$ 和 $V$ 的优化问题
在这里插入图片描述
先优化 $\Gamma$ ：

上式最小化，可转化为最小化 $(I - Γ)$ ，对角线上零值越多越好：

$Γ$ 最优解：

转换成最大化问题求解：

当 $\check d=1$ 时， $V^T$ 中只有第一行 $v^T$ 有用，最大化问题转化为：
$\max_{V}\sum_{n=1}^Nv^Tx_nx_n^Tv\ \ \ \ \ subject\ to\ v^Tv=1$

引入拉格朗日因子 $\lambda$ ：
$\sum_{n=1}^Nx_nx_n^Tv=\lambda v$

$v$ 就是矩阵 $X^TX$ 的特征向量，而 $\lambda$ 就是相对应的特征值
当 $\check d>1$ 时，求解方法是类似的，最优解 $\{v_j\}^{\check d}_{j=1}$ 就是矩阵 $X^TX$ 前 $\check d$ 大个特征值对应的 $\check d$ 个特征向量。
经过以上分析，得到了 $Γ$ 和 $V$ 的最优解。这就是linear autoencoder的编解码推导过程
在这里插入图片描述
linear autoencoder与PCA推导过程十分相似，但一般PCA会对原始数据x进行处理（减去其平均值）

PCA的数学原理

14 – Radial Basis Function Network

深度学习网络在训练的过程中最核心的问题就是pre-training和regularization。pre-training中，使用denoising autoencoder来对初始化权重进行选择。denoising autoencoder与统计学中经常用来进行数据处理的PCA算法具有很大的关联性。这里将adial Basis Function和Neural Network联系起来。

RBF Network Hypothesis

SVM中引入Gaussian Kernel就能在无限多维的特征转换中得到一条“粗壮”的分界线（或者高维分界平面、分界超平面）
在这里插入图片描述
Gaussian kernel的另一种叫法是Radial Basis Function(RBF) kernel，即径向基函数

radial表示Gaussian函数计算结果只跟新的点 $x$ 与中心点 $x_n$ 的距离有关。basis function就是指Gaussian函数，最终的矩 $g_{svm}(x)$ 就是由这些basis function线性组合而成。

从另外一个角度来看Gaussian SVM。首先，构造一个函数 $g_n(x)$ ：
$g_n(x)=y_ne^{-\gamma||x-x_n||^2}$ 指数项表示新的点 $x$ 与 $x_n$ 之间的距离大小，距离越近，权重越大，相当于对 $y_n$ 投的票数更多。
物理意义是新的点与 $x_n$ 的距离远近决定了 $g_n(x)$ 与 $y_n$ 的接近程度
把 $g_n(x)$ 叫做radial hypotheses，Gaussian SVM就是将所有SV对应的radial hypotheses进行线性组合（linear aggregation）
在这里插入图片描述
Radial Basis Function(RBF) Network其实就是上面Gaussian SVM概念的延伸

对于隐藏层的各个神经元来说，Neural Network是使用内积（inner-product）加上tanh()函数的方法，而RBF Network是使用距离（distance）加上Gaussian函数的方法

在这里插入图片描述
RBF Network Hypothesis以及其网络结构：

在这里插入图片描述
$\color {blue} \mu_m$ 表示每个中心点的位置，隐藏层每个神经元对应一个中心点； $\color {red} β_m$ 表示每个RBF的权重，即投票所占比重

在这里插入图片描述
Mercer定理：一个矩阵是Kernel的充分必要条件是它是对称的且是半正定的

条件比较苛刻（Gaussian kernel、Polynomial kernel等），Kernel实际上描述了两个向量之间的相似性，通过转换到z空间计算内积的方式，来表征二者之间的相似性。

而RBF是直接使用x空间的距离来描述了一种相似性，距离越近，相似性越高。因此，kernel和RBF可以看成是两种衡量相似性（similarity）的方式，Gaussian RBF即为二者的交集在这里插入图片描述

RBF Network Learning

RBF Network Hypothesis可表示为：
在这里插入图片描述
$\color {blue} \mu_m$ 表示每个中心点的位置，其个数 $M$ 是人为决定的，如果将每个样本点 $x_m$ 都作为一个中心点，即 $M = N$ ，则我们把这种结构称为full RBF Network：每个样本点都对最终的预测都有影响（uniform influence），影响的程度由距离函数和权重 $β_m$ 决定，如果每个样本点的影响力都是相同的，设为1， $β_m=1⋅y_m$ ，那么相当于只根据距离的远近进行投票，最终将 $x$ 与所有样本点的RBF距离线性组合，经过sign函数后，得到最终的预测分类结果。这实际上就是aggregation的过程
在这里插入图片描述
full RBF Network的矩可以表示为：

由于Gaussian函数曲线性质，越靠近中心点，值越大，即在 $N$ 个中心样本点中，往往只有距离 $x$ 最近的那个样本点起到关键作用，而其它距离 $x$ 较远的样本点其值很小

k nearest neighbor与full RBF Network都是比较“偷懒”的方法。因为它们在训练模型的时候比较简单，没有太多的运算，但是在测试的时候却要花费更多的力气，找出最相近的中心点，计算相对复杂一些。

Full RBF Network有什么优点？
对squared error regression问题，最优化模型对应的 $\beta_m$ 值，该hypothesis可表示为：
在这里插入图片描述
这是一个简单的线性回归问题，每个RBF都可以看成是特征转换，特征转换后的向量 $z_n$ 可表示为：
$z_n=[RBF(x_n,x_1),\ RBF(x_n,x_2),\ \cdots,\ RBF(x_n,x_N)]$

根据前面线性回归介绍的最优化解公式，就能快速地得到 $β$ 的最优解为：
$\beta=(Z^TZ)^{-1}Z^Ty$

在这里插入图片描述
根据Z矩阵的性质：
$\beta=Z^{-1}y$

将 $\beta$ 的解代入矩的计算中，以 $x_1$ 为例，得到：
$g_{RBF}(x_1)=\beta^Tz_1=y^TZ^{-1}z_1=y^T\ [1\ 0\ \cdots\ 0]^T=y_1$

在这里插入图片描述
为避免发生过拟合，引入正则项 $λ$ ，得到 $β$ 最优解：
$\beta=(Z^TZ+\lambda I)^{-1}Z^Ty$

在这里插入图片描述
Z矩阵是由一系列Gaussian函数组成，每个Gaussian函数计算的是两个样本之间的distance similarity。这里的Z与前面的Gaussian SVM中的kernel K是一致的。当时得到kernel ridgeregression中线性系数 $β$ 的解为：
$\beta=(K+\lambda I)^{-1}y$

在kernel ridgeregression中，是对无限多维的特征转换做regularization，而在regularized full RBF Network中，是对有限维（N维度）的特征转换做regularization
在这里插入图片描述
另一种regularization的方法：只选择N个样本点中的M个样本点作为中心点。类似于SVM中的SV一样，只选择具有代表性的M个中心点。这样减少中心点数量的同时也就减少了权重的数量，能够起到regularization的效果。
在这里插入图片描述

k-Means Algorithm

如果某些样本点很接近，那么就可以用一个中心点来代表它们，这就是聚类（cluster）的思想
聚类（clustering）问题是一种典型的非监督式学习（unsupervised learning），其优化问题有两个变量需要确定：

分成多少类
每一类的中心点

聚类问题的error function可使用squared error measure来衡量。
在这里插入图片描述
目标就是通过选择最合适的 $S_1,S_2,⋯,S_M$ 和 $μ_1,μ_2,⋯,μ_M$ ，使得 $E_{in}$ 最小化：

如何最小化？
既要优化 $S_m$ ，又要求解每一类的中心点 $u_m$ ，通常的办法是分别对S和 $μ$ 进行最优化求解。

k-Means Algorithm流程：
在这里插入图片描述
把k-Means Algorithm应用到RBF Network中

这里使用了unsupervised learning（k-Means）与前面介绍的autoencoder类似，都是特征转换（feature transform）的方法
在最优化求解过程中，参数有k-Means类群个数M、Gaussian函数参数λλ等。我们可以采用validation的方法来选取最佳的参数值