机器学习算法笔记：SVM支持向量机

最新推荐文章于 2024-06-26 12:17:36 发布

xiaochengJF

最新推荐文章于 2024-06-26 12:17:36 发布

阅读量275

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43711554/article/details/105466821

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

文章目录

支持向量机

支持向量机（SVM）算法在分类问题中有着重要地位，其主要思想是最大化两类之间的间隔。按照数据集的特点：

线性可分问题，如之前的感知机算法处理的问题
线性可分，只有一点点错误点，如感知机算法发展出来的 Pocket 算法处理的问题
非线性问题，完全不可分，如在感知机问题发展出来的多层感知机和深度学习

这三种情况对于 SVM 分别有下面三种处理手段：

hard-margin SVM
soft-margin SVM
kernel Method

约束优化问题

SVM 的求解中，大量用到了 Lagrange 乘子法。
对于一般约束优化问题可以表示为以下形式：
$\begin{aligned} &\min_{x\in\mathbb{R^p}}f(x)\\ &s.t.\ m_i(x)\le0,i=1,2,\cdots,M\\ &\ \ \ \ \ \ \ n_j(x)=0,j=1,2,\cdots,N \end{aligned}$

定义 Lagrange 函数：
$L(x,\lambda,\eta)=f(x)+\sum\limits_{i=1}^M\lambda_im_i(x)+\sum\limits_{i=1}^N\eta_in_i(x)$

那么原问题可以等价于无约束形式：
$\begin{aligned} &\min_{x\in\mathbb{R}^p}\max_{\lambda,\eta}L(x,\lambda,\eta)\\ &s.t.\ \lambda_i\ge0 \end{aligned}$

这是由于当满足原问题的不等式约束的时候， $\lambda_i=0$ 才能取得最大值，直接等价于原问题，如果不满足原问题的不等式约束，那么最大值就为 $+\infin$ ，由于需要取最小值，所以不会取到这个情况。

这个问题的对偶形式：
$\begin{aligned} &\max_{\lambda,\eta}\min_{x\in\mathbb{R}^p}L(x,\lambda,\eta)\\ &s.t.\ \lambda_i\ge0 \end{aligned}$

对偶问题是关于 $\lambda, \eta$ 的最大化问题。

由于： $\max_{\lambda_i,\eta_j}\min_{x}L(x,\lambda_i,\eta_j)\le\min_{x}\max_{\lambda_i,\eta_j}L(x,\lambda_i,\eta_j)$

证明：显然有 $\min\limits_{x}L\le L\le\max\limits_{\lambda,\eta}L$ ，于是显然有 $\max\limits_{\lambda,\eta}\min\limits_{x}L\le L$ ，且 $\min\limits_{x}\max\limits_{\lambda,\eta}L\ge L$ 。

对偶问题可分为两种情况：

强对偶：可以取等于号
弱对偶：不可以取等于号

对于一个凸优化问题，有如下定理：
如果凸优化问题满足某些条件如 Slater 条件，那么它和其对偶问题满足强对偶关系。记问题的定义域为： $\mathcal{D}=domf(x)\cap dom m_i(x)\cap domn_j(x)$ 。于是 Slater 条件为：
$\exist\hat{x}\in Relint\mathcal{D}\ s.t.\ \forall i=1,2,\cdots,M,m_i(x)\lt0$ 其中 Relint 表示相对内部（不包含边界的内部）。
1、对于大多数凸优化问题，Slater 条件成立。
2、松弛 Slater 条件，如果 $M$ 个不等式约束中，有 $K$ 个函数为仿射函数，那么只要其余的函数满足 Slater 条件即可。

了解原问题和对偶问题的对偶关系，还需要对参数进行求解，需要用到 KKT 条件，KKT 条件和强对偶关系是等价关系，KKT 条件对最优解的条件为：
1、可行域：
$\begin{aligned} m_i(x^*)\le0\\ n_j(x^*)=0\\ \lambda^*\ge0 \end{aligned}$ 2、互补松弛 $\lambda^*m_i(x^*)=0,\ \forall m_i$ ，对偶问题的最佳值为 $d^*$ ，原问题为 $p^*$ $\begin{aligned} d^*&=\max_{\lambda,\eta}g(\lambda,\eta)=g(\lambda^*,\eta^*)\\ &=\min_{x}L(x,\lambda^*,\eta^*)\\ &\le L(x^*,\lambda^*,\eta^*)\\ &=f(x^*)+\sum\limits_{i=1}^M\lambda^*m_i(x^*)\\ &\le f(x^*)=p^* \end{aligned}$ 为了满足相等，两个不等式必须成立，于是，对于第一个不等于号，需要有梯度为0条件，对于第二个不等于号需要满足互补松弛条件。
3、梯度为0： $\frac{\partial L(x,\lambda^*,\eta^*)}{\partial x}|_{x=x^*}=0$

Kernel Method

核方法可以应用在很多问题上，在分类问题中，对于严格不可分问题，引入一个特征转换函数将原来的不可分的数据集变为可分的数据集，然后再来应用已有的模型。往往将低维空间的数据集变为高维空间的数据集后，数据会变得可分（数据变得更为稀疏）：
应用在 SVM 中时，观察下面的 SVM 对偶问题：
$\left\{\begin{aligned} & \max_{\lambda}-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^N\lambda_i,\\ &s.t.\ \lambda_i\ge0 \end{aligned}\right.$

在求解的时候需要求得内积，于是不可分数据在通过特征变换后，需要求得变换后的内积。常常很难求得变换函数的内积。于是直接引入内积的变换函数（合并特征转换和计算内积两个步骤）：
$\forall x,x'\in\mathcal{X},\exist\phi\in\mathcal{H}:x{\color{blue}\Longrightarrow} z\ s.t.\ k(x,x')=\phi(x)^T\phi(x)$

称 $k (x, x^{'})$ 为一个正定核函数，其中 $\mathcal{H}$ 是 Hilbert 空间（完备的线性内积空间），如果去掉内积这个条件可以称为简单的核函数。

证明： $k(x,x')=\exp(-\frac{(x-x')^2}{2\sigma^2})$ 是一个核函数。
$\begin{aligned} \exp(-\frac{(x-x')^2}{2\sigma^2})&=\exp(-\frac{x^2}{2\sigma^2})\exp(\frac{xx'}{\sigma^2})\exp(-\frac{x'^2}{2\sigma^2})\\ &=\exp(-\frac{x^2}{2\sigma^2})\sum\limits_{n=0}^{+\infin}\frac{x^nx'^n}{\sigma^{2n}n!}\exp(-\frac{x'^2}{2\sigma^2})\\ &=\exp(-\frac{x^2}{2\sigma^2})\varphi(x)\varphi(x')\exp(-\frac{x'^2}{2\sigma^2})\\ &=\phi(x)\phi(x') \end{aligned}$

核函数满足一下条件为正定核函数：

对称性
正定性

证明：

对称性 $\Leftrightarrow$ $k (x, z) = k (z, x)$ ，显然满足内积的定义
正定性 $\Leftrightarrow$ $\forall N,x_1,x_2,\cdots,x_N\in\mathcal{X}$ ，对应的 Gram Matrix $K=[k(x_i,x_j)]$ 是半正定的。
要证： $k(x,z)=\phi(x)^T\phi(z)\Leftrightarrow K$ 半正定+对称性。
1、 $\Rightarrow$ ：首先，对称性是显然的，对于正定性： $\begin{aligned} K=\begin{pmatrix}k(x_1,x_2)&\cdots&k(x_1,x_N)\\\vdots&\vdots&\vdots\\ k(x_N,x_1)&\cdots&k(x_N,x_N)\end{pmatrix} \end{aligned}$ 任意取 $\alpha\in\mathbb{R}^N$ ，即需要证明 $\alpha^TK\alpha\ge0$ ： $\alpha^TK\alpha=\sum\limits_{i,j}\alpha_i\alpha_jK_{ij}=\sum\limits_{i,j}\alpha_i\phi^T(x_i)\phi(x_j)\alpha_j=\sum\limits_{i}\alpha_i\phi^T(x_i)\sum\limits_{j}\alpha_j\phi(x_j)$ 这个式子就是内积的形式，Hilbert 空间满足线性性，正定性得证。
2、 $\Leftarrow$ ：对于 $K$ 进行分解，对于对称矩阵 $K=V\Lambda V^T$ ，那么令 $\phi(x_i)=\sqrt{\lambda_i}V_i$ ，其中 $V_i$ 是特征向量，于是就构造了 $k(x,z)=\sqrt{\lambda_i\lambda_j}V_i^TV_j$

Hard-margin SVM

支持向量机也是一种硬分类模型，如果两类数据线性可分，其实存在无穷条线可将两类分开。SVM就是要找到最好的那条，直观上两边数据和划分边界越远越安全，所以SVM用间隔作为评价指标，间隔最大的边界也就是最好的那条边界。

分割的超平面可以写为： $0=w^Tx+b$

那么最大化间隔可表示为以下形式（1、先找到离划分边界最近的点(支持向量)，2、然后通过优化参数 $w$ 和 $b$ 来最大化支持向量与划分边界的距离）：
$\begin{aligned} & \left\{\begin{aligned} &\mathop{argmax}\limits_{w,b}[\min_i\frac{|w^Tx_i+b|}{||w||}]\\ &s.t.\ y_i(w^Tx_i+b)>0 \end{aligned}\right.\\ \Longrightarrow &\left\{\begin{aligned} &\mathop{argmax}\limits_{w,b}\frac{1}{||w||}[\min_i {y_i(w^Tx_i+b)}]\\ &s.t.\ y_i(w^Tx_i+b)>0 \end{aligned}\right. \end{aligned}$

同比例缩放超平面的系数不会改变该平面，因此可以固定约束 $min y_i(w^Tx_i+b)=1>0$ ，化简后的式子可以表示为：
$\begin{aligned} &\left\{\begin{aligned} &\mathop{argmin}\limits_{w,b}\frac{1}{2}w^Tw\\ &s.t.\ \min_iy_i(w^Tx_i+b)=1 \end{aligned}\right.\\ \Longrightarrow &\left\{\begin{aligned} &\mathop{argmin}\limits_{w,b}\frac{1}{2}w^Tw\\ &s.t.\ y_i(w^Tx_i+b)\ge1,\ i=1,2,\cdots,N \end{aligned}\right. \end{aligned}$

这就是一个包含 $N$ 个约束的凸优化问题，有很多求解这种问题的软件。

但是，如果样本数量或维度非常高，直接求解困难甚至不可解，于是需要对这个问题进一步处理。引入 Lagrange 函数：
$\begin{aligned} &L(w,b,\lambda)=\frac{1}{2}w^Tw+\underbrace{\sum\limits_{i=1}^N\lambda_i(1-y_i(w^Tx_i+b))}_{\color{blue}\leq\ 0} \end{aligned}$

由上式可知： $\min L(w, b, \alpha) \le \min \frac{1}{2}w^Tw$ ，需要最大化 $\alpha)$ 来接近原问题，而原问题是要最小化 $\frac{1}{2}w^Tw$ ，因此，对原问题的优化可表达为以下形式：
$\left\{ \begin{aligned} &\mathop{argmin}\limits_{w,b}\max\limits_{\lambda_i}L(w,b,\lambda_i)\\ &s.t.\ \lambda_i\ge0 \end{aligned} \right.$

交换最小和最大值的符号得到对偶问题：
$\left\{ \begin{aligned} &\max_{\lambda_i}\min_{w,b}L(w,b,\lambda_i)\\ & s.t.\ \lambda_i\ge0 \end{aligned} \right.$

由于不等式约束是仿射函数，对偶问题和原问题等价：
1、令 $\color{blue}\boxed b$ 和 $\color{blue}\boxed w$ 的偏导数为零得到：

$\color{blue}b$ ： $\frac{\partial}{\partial b}L=0\Rightarrow\sum\limits_{i=1}^N\lambda_iy_i=0$
$\color{blue}w$ ：首先将 $b$ 代入： $L(w,b,\lambda_i)=\frac{1}{2}w^Tw+\sum\limits_{i=1}^N\lambda_i(1-y_iw^Tx_i-y_ib)=\frac{1}{2}w^Tw+\sum\limits_{i=1}^N\lambda_i-\sum\limits_{i=1}^N\lambda_iy_iw^Tx_i$ 所以： $\frac{\partial}{\partial w}L=0\Rightarrow w=\sum\limits_{i=1}^N\lambda_iy_ix_i$
将上面两个参数代入： ${\color{blue} L(w,b,\lambda_i)}=-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^N\lambda_i$

因此，对偶问题就是： $\color{blue} \left\{\begin{aligned} & \max_{\lambda}-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^N\lambda_i,\\ &s.t.\ \lambda_i\ge0 \end{aligned} \right.$

2、由 KKT 条件得到超平面的参数：：
原问题和对偶问题满足强对偶关系的充要条件为其满足 KKT 条件：
$\begin{aligned} &\frac{\partial L}{\partial w}=0,\frac{\partial L}{\partial b}=0 \\ &\lambda_k(1-y_k(w^Tx_k+b))=0\quad(slackness\ complementary)\\ &\lambda_i\ge0\\ &1-y_i(w^Tx_i+b)\le0 \end{aligned}$

根据KTT条件得到对应最佳参数 ${\color{blue}\boxed{\hat{w}}}$ 和 ${\color{blue}\boxed{\hat{b}}}$ ：
$\begin{aligned} &{\color{blue}\hat{w}}=\sum\limits_{i=1}^N\lambda_iy_ix_i\\ &{\color{blue}\hat{b}}=y_k-w^Tx_k=y_k-\sum\limits_{i=1}^N\lambda_iy_ix_i^Tx_k,\quad\exist k,1-y_k(w^Tx_k+b)=0 \end{aligned}$

最终的参数就是满足 $\lambda\gt 0,\ y_i(w^Tx_i+b)=1$ 的向量的线性组合（ $\color{green}\text{slackness complementary}$ ），这些向量也叫支持向量Support Vecter。

最终得到决策平面： $f(x)=sign({\color{blue}\hat{w}}x+{\color{blue}\hat{b}})$

Soft-margin SVM

针对不完全线性可分的数据，在损失函数中加入错误分类的可能性（类似正则项）。错误分类的个数可以写成：
$error=\sum\limits_{i=1}^N\mathbb{I}\{y_i(w^Tx_i+b)\lt1\}$ 这个函数不连续，可以将其改写为： $error=\sum\limits_{i=1}^N\max\{0,1-y_i(w^Tx_i+b)\}$

求和符号中的式子又叫做 Hinge Function。

将 error 加入 Hard-margin SVM 中，于是：
$\left\{\begin{aligned} &\mathop{argmin}\limits_{w,b}\frac{1}{2}w^Tw+C\sum\limits_{i=1}^N\max\{0,1-y_i(w^Tx_i+b)\}\\ &s.t.\ y_i(w^Tx_i+b)\ge1,\ i=1,2,\cdots,N \end{aligned}\right.$

式中常数 $C$ 可以看作允许的错误水平， $C$ 越大表示错误的允许程度越低。为了让问题易于求解，用error值的大小 $\xi_i$ 代替是否有error（用犯错误程度代替犯错误数量），则有：
$\left\{\begin{aligned} &\mathop{argmin}\limits_{w,b}\frac{1}{2}w^Tw+C\sum\limits_{i=1}^N\xi_i\\ & s.t.\ y_i(w^Tx_i+b)\ge1-\xi_i,\quad\xi_i\ge0,\ i=1,2,\cdots,N \end{aligned}\right.$

上式中 $\xi_i$ 可以理解为松弛变量，允许有错误的分类（间隔小于1），但不能无限容忍犯错，所以还需要对松弛变量进行约束（最小化）。

Dual Problem

构造拉格朗日函数。因为引入了 $\xi_i$ ，原始问题有两类条件，所以包含了两个拉格朗日因子 $\lambda_i$ 和 $\beta_i$ ：
$L(w,b,\lambda_i,\beta_i)=\frac{1}{2}w^Tw+C\sum\limits_{i=1}^N\xi_i+\sum\limits_{i=1}^N\lambda_i(1-\xi_i -y_i(w^Tx_i+b)) + \sum\limits_{i=1}^N\beta_i(-\xi_i)$

将Soft-Margin SVM问题转换为如下形式：
$\max\limits_{\lambda_i\geq0,\ \beta_i\geq0}\min\limits_{b,w,\xi_i}\ \frac{1}{2}w^Tw+C\sum\limits_{i=1}^N\xi_i+\sum\limits_{i=1}^N\lambda_i(1-\xi_i -y_i(w^Tx_i+b)) + \sum\limits_{i=1}^N\beta_i(-\xi_i)$

上式括号里面的是对拉格朗日函数 $L(w,b,\lambda_i,\beta_i)$ 计算最小值。那么根据梯度下降算法思想：最小值位置满足梯度为零。
1、令 $\color{blue}\boxed{\xi_i}$ 偏微分等于0：
$\frac {\partial L}{\partial \xi_i}=0=C-\lambda_i-\beta_i\\ \color{blue}\Rightarrow \beta_i=C-\lambda_i$

因为有 $β_i≥0$ ，所以 $\color{blue}0≤\lambda_i≤C$ 。将 $\beta_i=C-\lambda_i$ 带入原问题中，参数 $β_i$ 和 $\xi_i$ 都被消去：
$\max\limits_{0≤\lambda_i≤C,\ \beta_i=C-\lambda_i}\min\limits_{b,w}\ \frac{1}{2}w^Tw+\sum\limits_{i=1}^N\lambda_i(1-y_i(w^Tx_i+b))$

2、令 $\color{blue}\boxed b$ 和 $\color{blue}\boxed w$ 的偏导数为零得到：
$\begin{aligned} &\frac{\partial}{\partial b}L=0\Rightarrow\color{blue}\sum^N_{i=1}\lambda_i y_i=0\\ &\frac{\partial}{\partial w}L=0\Rightarrow {\color{blue}w}=\sum^N_{i=1}\lambda_iy_ix_i \end{aligned}$

最终标准的Soft-Margin SVM的Dual形式：
$\begin{aligned} &{\min _{\lambda_i}}\qquad\qquad {\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} {x}_{i}^{T} {x}_{j}-\sum_{i=1}^{N}\lambda_i} \\ &{\text { subject to }}\quad{\sum_{i=1}^{N} y_{i}\lambda_i=0} \\ & \qquad\qquad\qquad{0 \leq \lambda_i \leq C, \text { for } i=1,2, \ldots, N} \\ &{\text { implicitly }}\quad {{w}=\sum_{n=1}^{N} \lambda_i y_{i} {x}_{i}} \\ &\qquad\qquad\qquad{\beta_{i}=C-\lambda_i, \text { for } i=1,2, \ldots, N} \end{aligned}$

Hard-Margin SVM	Soft-Margin SVM
complementary slackness ： $\begin{aligned}\\&\lambda_i(1-y_i(w^Tx_i+b))=0\\ \\&SV\ ({\color{blue}\lambda_i}>0)\\&\quad\Rightarrow b = y_s-w^Tx_s \\ \\ \\ \end{aligned}$	complementary slackness： $\begin{aligned}&\lambda_i(1-\xi_i-y_i(w^Tx_i+b))=0\\&\qquad\qquad\qquad\ (C-\lambda_i)\xi_i=0\\&SV\ ({\color{blue}\lambda_i}>0)\\&\quad\Rightarrow b = y_s-y_s\xi_s-w^Tx_s\\&free\ ({\color{blue}\lambda_i}<C)\\&\quad\Rightarrow \xi_s=0\end{aligned}$

3、如何根据 $\lambda_i$ 的值计算 $\color{blue}\boxed b$

Hard-Margin SVM Dual：一个complementary slackness条件 $\lambda_i(1-y_i(w^Tx_i+b))=0$ ，找到SV，即 $\lambda_s>0$ 的点，即可计算得到： $b=y_s−w^Tx_s$

Soft-Margin SVM Dual：相应的complementary slackness条件有两个（因为两个拉格朗日因子 $\lambda_i$ 和 $β_i$ ）：
$\left\{\begin{aligned} &\lambda_i(1-\xi_i-y_i(w^Tx_i+b))=0\\ &\beta_i(-\xi_i)=(C-\lambda_i)\xi_i=0 \end{aligned}\right.$

找到SV，即 $\lambda_s>0$ 的点，由于 $\xi_i$ 的存在，还不能直接计算出 $b$ 的值，再根据第二个complementary slackness条件，如果令 $C−\lambda_i\neq0$ ，即 $\lambda_i≠C$ ，则一定有 $\xi_i=0$ ，代入到第一个complementary slackness条件中：
$\begin{aligned} &SV\ ({\color{blue}\lambda_i}>0)\\ &\quad\Rightarrow b = y_s-y_s\xi_s-w^Tx_s\\ &free\ ({\color{blue}\lambda_i}<C)\\ &\quad\Rightarrow \xi_s=0 \end{aligned}$

即可计算得到 $b=y_s−w^Tx_s$ ，把 $\color{blue}0<\lambda_i<C$ 的点称为 free SV。引入核函数后， $\color{blue}\boxed b$ 的表达式为：
${\color{blue}b}=y_s-\sum_{SV}\lambda_iy_iK(x_n,x_s)$

Soft-Margin SVM的一些补充

上面求解 $b$ 假设 $\color{blue}\lambda_s<C$ ，如果没有free SV，所有 $\lambda_s$ 大于零的点都满足 $\lambda_s=C$ 怎么办？

一般情况下，至少存在一组SV使 $\lambda_s<C$ 的概率较大。如果没有 free SV，那么 $b$ 通常会由许多不等式条件限制取值范围，只要能找到满足KKT条件的任意一个 $b$ 值即可。

$\lambda_i$ 不同取值的物理意义（已知 $0≤\lambda_i≤C$ 满足两个complementary slackness条件）：

若 $\lambda_i=0$ ，得 $ξ_i=0$ ， $ξ_i=0$ 表示该点没有犯错， $\lambda_i=0$ 表示该点不是SV。所以对应的点在margin之外（或者在margin上），且均分类正确。
若 $0<\lambda_i<C$ ，得 $ξ_i=0$ ，且 $y_i(w^Tx_i+b)=1$ 。 $ξ_i=0$ 表示该点没有犯错， $y_i(w^Tx_i+b)=1$ 表示该点在margin上。这些点即 free SV，确定了 $b$ 的值。
若 $\lambda_i=C$ ，不能确定 $ξ_i=0$ 是否为零，且得到 $1-y_i(w^Tx_i+b)=\xi_i$ ，这个式表示该点偏离margin的程度， $\xi_i$ 越大，偏离margin的程度越大。只有当 $ξ_i=0$ 时，该点落在margin上。所以这种情况对应的点在margin之内负方向（或者在margin上），有分类正确也有分类错误的。这些点称为bounded SV。

所以，在Soft-Margin SVM Dual中，根据 $\lambda_i$ 的取值，可推断数据点在空间的分布情况。

SMO算法

$N$ 个变量组成的向量 $\alpha$ 难以对目标函数直接进行优化求解。SMO算法采用启发式方法，每次只优化两个变量，其他变量作为常数，如：条件 $\sum\limits_{i=1}^{N}\alpha_iy_i = 0$ ，将参数 $\alpha_3, \alpha_4, ..., \alpha_N$ 固定，那么 $\alpha_1, \alpha_2$ 的线性关系即可确定。定义 $K_{ij} = \phi(x_i) \cdot \phi(x_j)$ ，由于 $\alpha_3, \alpha_4, ..., \alpha_m$ 为常量，目标优化函数可表示为：
$\begin{aligned} &\;\min\limits_{\alpha_1, \alpha_2}\ \frac{1}{2}K_{11}\alpha_1^2 + \frac{1}{2}K_{22}\alpha_2^2 +y_1y_2K_{12}\alpha_1 \alpha_2 -(\alpha_1 + \alpha_2) +y_1\alpha_1\sum\limits_{i=3}^{m}y_i\alpha_iK_{i1} + y_2\alpha_2\sum\limits_{i=3}^{m}y_i\alpha_iK_{i2}\\ &\quad s.t. \;\;\alpha_1y_1 + \alpha_2y_2 = -\sum\limits_{i=3}^{m}y_i\alpha_i = \varsigma \\ &\qquad\quad 0 \leq \alpha_i \leq C \;\; i =1,2 \end{aligned}$

优化变量选择

SMO算法需要选择合适的两个变量做迭代，其余的变量做常量来进行优化，那么如何选择这两个变量？

SMO算法称选择第一个变量为外层循环，该变量需要选择训练集中违反KKT条件最严重的样本点： $\alpha_{i}^{*} = 0 \Rightarrow y_ig(x_i) \geq 1$ $\lt \alpha_{i}^{*} \lt C \Rightarrow y_ig(x_i) =1$ $\alpha_{i}^{*}= C \Rightarrow y_ig(x_i) \leq 1$ 一般来说，首先选择违反 $\lt \alpha_{i}^{*} \lt C \Rightarrow y_ig(x_i) =1$ 这个条件的点。如果这些支持向量都满足KKT条件，再选择违反 $\alpha_{i}^{*} = 0 \Rightarrow y_ig(x_i) \geq 1$ 和 $\alpha_{i}^{*}= C \Rightarrow y_ig(x_i) \leq 1$ 的点。
SMO算法称选择第二一个变量为内层循环，假设在外层循环已经找到 $\alpha_1$ , 第二个变量 $\alpha_2$ 的选择标准是让 $∣ E 1 - E 2 ∣$ 有足够大的变化。由于 $\alpha_1$ 确定也就确定了 $E_1$ ，所以要想 $∣ E 1 - E 2 ∣$ 最大，只需要在 $E_1$ 为正时，选择最小的 $E_i$ 作为 $E_2$ ，在 $E_1$ 为负时，选择最大的 $E_i$ 作为 $E_2$ ，可以将所有的 $E_i$ 保存下来加快迭代。
如果内存循环找到的点不能让目标函数有足够的下降，可以采用遍历支持向量点来做 $\alpha_2$ ,直到目标函数有足够的下降，如果所有的支持向量做 $\alpha_2$ 都不能让目标函数有足够的下降，可以跳出循环，重新选择 $\alpha_1$

优化变量 $\alpha_1,\alpha_2$

根据上面的约束条件
$\left\{\begin{aligned} &\alpha_1y_1 + \alpha_2y_2 = \varsigma\;\;\\ &0 \leq \alpha_i \leq C \;\; i =1,2\\ &y_1,y_2\in\{-1,1\} \end{aligned}\right.$

从几何角度看， $\alpha_1, \alpha_2$ 的值限制在 $[C, C]$ 的矩形框内， $y_1,y_2\in\{-1,1\}$ 又使得两者关系 $\alpha_1, \alpha_2$ 两者关系限制在斜率为 1 或 -1 的直线段上。

了解 $\alpha_1, \alpha_2$ 的线性关系，可用其中一个变量表示另一个变量，方便针对某一个变量优化求解，进而得到另一变量的值。

假设先针对 $\alpha_2$ 进行优化求解，由于采用启发式迭代法，令上一轮迭代得到的解为 $\alpha_1^{old}, \alpha_2^{old}$ ，根据 $\alpha_1^{old}, \alpha_2^{old}$ 得到的未约束 $\alpha_2^{new,unc}$ ，本轮迭代完成后（约束后）的解为 $\alpha_1^{new}, \alpha_2^{new}$

求解 $\alpha_2^{new}$ 先要确定其取值范围，假定其上下界分别为 $L$ 和 $H$ ：
$\leq \alpha_2^{new} \leq H$

对于 $L$ 和 $H$ ，当 $y_1\neq y_2$ 时有：
$\max\left\{0, \alpha_2^{old}-\alpha_1^{old}\right\} \;\;\;H = \min\left\{C, C+\alpha_2^{old}-\alpha_1^{old}\right\}$

当 $y_1= y_2$ 时有：
$\max\left\{0, \alpha_2^{old}+\alpha_1^{old}-C\right\}\;\;\; H = \min\left\{C, \alpha_2^{old}+\alpha_1^{old}\right\}$

将 $\alpha_2^{new,unc}$ 进行限定以确定该轮迭代最终的 $\alpha_2^{new}$ ：
$\alpha_2^{new}=\begin{cases}H& { \alpha_2^{new,unc} \gt H}\\\alpha_2^{new,unc}& {L \leq \alpha_2^{new,unc} \leq H}\\L& {\alpha_2^{new,unc} \lt L}\end{cases}$

$\alpha_1^{old}, \alpha_2^{old}$ 是上轮迭代的结果，相当于已知常数，因此 $H$ 和 $L$ 已知，需要求解 $\alpha_2^{new,unc}$ ，只需将目标函数对 $\alpha_2$ 求偏导即可

为方便表示，令：
$\begin{aligned} &E_i = g(x_i)-y_i = \sum\limits_{j=1}^{N}\alpha_j^{*}y_jK(x_i, x_j)+ b - y_i\\ &v_i = \sum\limits_{j=3}^{N}y_j\alpha_jK(x_i,x_j) = g(x_i) - \sum\limits_{j=1}^{2}y_j\alpha_jK(x_i,x_j) -b \\ \text{其中：}&g(x) = w^{*} \cdot \phi(x) + b =\sum\limits_{j=1}^{N}\alpha_j^{*}y_jK(x, x_j)+ b^{*} \end{aligned}$

则目标函数可表示为：

$W(\alpha_1,\alpha_2) = \frac{1}{2}K_{11}\alpha_1^2 + \frac{1}{2}K_{22}\alpha_2^2 +y_1y_2K_{12}\alpha_1 \alpha_2 -(\alpha_1 + \alpha_2) +y_1\alpha_1v_1 + y_2\alpha_2v_2$

由于 $\alpha_1y_1 + \alpha_2y_2 = \varsigma$ (常数 $\varsigma$ 后面可消去)， $y_i^2 = 1$ (取值1和-1)，等式(前者)两边乘以 $y_1$ ， $\alpha_1$ 可用 $\alpha_2$ 表示：

$\alpha_1 = y_1(\varsigma - \alpha_2y_2)$

将上式代入目标函数消除 $\alpha_1$ ,得到仅仅包含位置参数 $\alpha_2$ 的式子：
$W(\alpha_2) = \frac{1}{2}K_{11}(\varsigma - \alpha_2y_2)^2 + \frac{1}{2}K_{22}\alpha_2^2 +y_2K_{12}(\varsigma - \alpha_2y_2) \alpha_2 - (\varsigma - \alpha_2y_2)y_1 - \alpha_2 +(\varsigma - \alpha_2y_2)v_1 + y_2\alpha_2v_2$

通过求偏导数来得到 $\alpha_2^{new,unc}$ ：
$\frac{\partial W}{\partial \alpha_2} = K_{11}\alpha_2 + K_{22}\alpha_2 -2K_{12}\alpha_2 - K_{11}\varsigma y_2 + K_{12}\varsigma y_2 +y_1y_2 -1 -v_1y_2 +y_2v_2 = 0$

整理上式有：
$(K_{11} +K_{22}-2K_{12})\alpha_2 = y_2(y_2-y_1 + \varsigma K_{11} - \varsigma K_{12} + v_1 - v_2)$

$y_2(y_2-y_1 + \varsigma K_{11} - \varsigma K_{12} + (g(x_1) - \sum\limits_{j=1}^{2}y_j\alpha_jK_{1j} -b ) -(g(x_2) - \sum\limits_{j=1}^{2}y_j\alpha_jK_{2j} -b))$

将 $\varsigma = \alpha_1y_1 + \alpha_2y_2$ 带入上式，：

$(K_{11} +K_{22}-2K_{12})\alpha_2^{new,unc} = y_2((K_{11} +K_{22}-2K_{12})\alpha_2^{old}y_2 +y_2-y_1 +g(x_1) - g(x_2))$

$\;\;\;\; = (K_{11} +K_{22}-2K_{12}) \alpha_2^{old} + y_2(E_1-E_2)$

得到 $\alpha_2^{new,unc}$ 为： $\alpha_2^{new,unc} = \alpha_2^{old} + \frac{y_2(E_1-E_2)}{K_{11} +K_{22}-2K_{12}}$

根据约束条件可由 $\alpha_2^{new,unc}$ 得到本轮最终的 $\alpha_2^{new}$ ，再利用 $\alpha_2^{new}$ 和 $\alpha_1^{new}$ 的线性关系，得到 $\alpha_1^{new}$ 。

计算 $b$ 和差值 $E_i$

在每次完成两个变量的优化之后，需要重新计算阈值 $b$ 。当 $\lt \alpha_{1}^{new} \lt C$ 时：
$y_1 - \sum\limits_{i=1}^{m}\alpha_iy_iK_{i1} -b_1 = 0$

则 $b_1^{new}$ 为： $b_1^{new} = y_1 - \sum\limits_{i=3}^{m}\alpha_iy_iK_{i1} - \alpha_{1}^{new}y_1K_{11} - \alpha_{2}^{new}y_2K_{21}$

又因为 $E_1$ 为： $E_1 = g(x_1) - y_1 = \sum\limits_{i=3}^{m}\alpha_iy_iK_{i1} + \alpha_{1}^{old}y_1K_{11} + \alpha_{2}^{old}y_2K_{21} + b^{old} -y_1$

上两式都有 $y_1 - \sum\limits_{i=3}^{m}\alpha_iy_iK_{i1}$ 项，因此可用 $E_1$ 表示 $b_1^{new}$ ：
$b_1^{new} = -E_1 -y_1K_{11}(\alpha_{1}^{new} - \alpha_{1}^{old}) -y_2K_{21}(\alpha_{2}^{new} - \alpha_{2}^{old}) + b^{old}$

同样的，若 $\lt \alpha_{2}^{new} \lt C$ 则有：

$b_2^{new} = -E_2 -y_1K_{12}(\alpha_{1}^{new} - \alpha_{1}^{old}) -y_2K_{22}(\alpha_{2}^{new} - \alpha_{2}^{old}) + b^{old}$

最终 $b^{new}$ 为：

$b^{new} = \frac{b_1^{new} + b_2^{new}}{2}$

由 $b^{new}$ 更新 $E_i$ :
$E_i = \sum\limits_{S}y_j\alpha_jK(x_i,x_j) + b^{new} -y_i$

其中，S是所有支持向量 $x_j$ 的集合。

SMO算法流程

输入： $N$ 个样本 ${(x_1,y_1), (x_2,y_2), ..., (x_N,y_N),}$ ,其中 $x$ 为 $p$ 维特征向量。 $y\in \{-1,1\}$ ，设定精度 e

取初值 $\alpha^{0} = 0, k =0$
按条件选择 $\alpha_1^k,\alpha_2^k$ ，求出： $\alpha_2^{new,unc} = \alpha_2^{k} + \frac{y_2(E_1-E_2)}{K_{11} +K_{22}-2K_{12}}$
根据以下限制条件得到 $\alpha_2^{k+1}$ 　　　
$\alpha_2^{k+1}=\begin{cases}H& {L \leq \alpha_2^{new,unc} \gt H}\\\alpha_2^{new,unc}& {L \leq \alpha_2^{new,unc} \leq H}\\L& {\alpha_2^{new,unc} \lt L}\end{cases}$
根据 $\alpha_2^{k+1}$ 和 $\alpha_1^{k+1}$ 的线性关系推出 $\alpha_1^{k+1}$
计算 $b^{k+1}$ 和 $E_i$
在精度 e 范围内检查是否满足如下终止条件，满足则结束，返回 $\alpha^{k+1}$ ，否则转到步骤 2： $\sum\limits_{i=1}^{m}\alpha_iy_i = 0$ $\leq \alpha_i \leq C, i =1,2...m$ $\alpha_{i}^{k+1} = 0 \Rightarrow y_ig(x_i) \geq 1$ $\lt\alpha_{i}^{k+1} \lt C \Rightarrow y_ig(x_i) = 1$ $\alpha_{i}^{k+1}= C \Rightarrow y_ig(x_i) \leq 1$

Kernel Logistic Regression

Soft-Margin SVM as Regularized Model

将 Soft-Margin SVM 犯错和没犯错的情况整合到一个表达式：
$\left\{\begin{aligned} &\mathop{argmin}\limits_{w,b}\frac{1}{2}w^Tw+C\sum\limits_{i=1}^N\max\{0,1-y_i(w^Tx_i+b)\}\\ &s.t.\ y_i(w^Tx_i+b)\ge1-\xi_i,\ i=1,2,\cdots,N \end{aligned}\right.$

令 $\mathop{liear\ score}\ s = w^Tx_i + b$ ，则二元分类、SVM和 Logistic Regression的 err 可表示为：

$e r r$	$y s - e r r$	err 间的关系
$\begin{aligned}&err_{0/1}(s,y)=[ys\leq 0]\\&err_{SVM}(s,y)=\max\{0,1-ys\}\\&err_{sce}=\log_2(1+\exp(-ys))\end{aligned}$	$\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$	${err}_{svm}$ 为 $err_{0/1}$ 上界，可代替 $err_{0/1}$ 解决二元线性分类问题，而 $err_{sce}$ 和 ${err}_{svm}$ 相近，可将SVM看作L2-regularized logistic regression

	PLA	Soft-Margin SVM	Logistic Regression
优点	优点是简单快速	和 Logistic Regression 一样，便于优化；而且分类线比较“粗壮”一些	是凸函数便于最优化求解；有regularization可以避免过拟合
缺点	只对线性可分的情况有用，线性不可分的情况需要用到pocket算法	当 $y s$ 很小（负值）时，上界变得过于宽松	$y s$ 很小（负值）时，上界变得更宽松，不利于最优化求解

SVM for Soft Binary Classification

如何将SVM的结果应用在Soft Binary Classification中，得到是正类的概率值?

方法一：先得到SVM的解: $b_{svm},w_{svm})$ ，然后直接代入到logistic regression中，得到 $g(x)=\theta(w_{svm}^Tx+b_{svm})$ 。直接使用了SVM和logistic regression的相似性，但没有用到logistic regression好的性质和方法
方法二：先得到SVM的解： $b_{svm},w_{svm})$ ，把 $b_{svm},w_{svm})$ 作为logistic regression的初始值，进行迭代训练修正（速度比较快），把修正后的 $(b, w)$ 带入到 $g(x)=\theta(w^Tx+b)$ 中，但并没有体现出比直接用logistic regression有优势
方法三 ：先得到SVM的解： $b_{svm},w_{svm})$ ，增加放缩因子 $A$ 和平移因子 $B$ 构造一个融合SVM和logistic regression优势的模型： $g(x)=\theta(A\cdot(w_{svm}^Tx+b_{svm})+B)$ 如果 $b_{svm},w_{svm})$ 较为合理，一般满足 $A > 0$ 且 $B\approx0$

根据方法三可得到新的 logistic regression 问题：
$\color{blue}\min\limits_{A,B}\ \frac1N\sum^N\limits_{i=1}\log\left(1+\exp(A\cdot(w_{svm}^Tx+b_{svm})+B)\right)$

Kernel Logistic Regression

logistic regression怎么用kernel转化为QP问题来解决？

如果 $w$ 可以表示为 $z$ 的线性组合，即 $w_*=\sum_{n=1}^N\beta_nz_n$ 的形式，那么 $w_*^Tz=\sum_{n=1}^N\beta_nz_n^Tz=\sum_{n=1}^N\beta_nK(x_n,x)$ ，其中包含了 $z$ 的内积

对于L2-regularized linear model，如果它的最小化问题形式为如下的话，
$\min\limits_w\ \frac\lambda Nw^Tw + \frac1N\sum^N\limits_{n=1}err(y_n,w^Tz_n)$

那么最优解可表示为： $\color{blue}w_*=\sum_{n=1}^N\beta_nz_n$

证明：任何L2-regularized linear model都可用kernel解决，假设最优解 $w_*=w_{||}+w_{\bot}$

求解L2-regularized logistic regression最小化问题：
$\min\limits_{w}\ \frac\lambda N w^Tw + \frac1N\sum^N_{n=1}\log\left(1+\exp(-y_nw^Tz_n)\right)$

将 $w_*=\sum_{n=1}^N\beta_nz_n$ 代入到L2-regularized logistic regression最小化问题中：

$\min\limits_{\beta}\ \frac\lambda N \sum^N_{n=1}\sum^N_{m=1}\beta_n\beta_mK(x_n,x_m) + \frac1N\sum^N_{n=1}\log\left(1+\exp\left(-y_n\sum^N_{m=1}\beta_mK(x_m,x_n)\right)\right)$

$\sum_{m=1}^N\beta_mK(x_m,x_n)$ 可以看成是变量 $\beta$ 和 $K(x_m,x_n)$ 的内积。
$\sum_{n=1}^N\sum_{m=1}^N\beta_n\beta_mK(x_n,x_m)$ 可以看成是关于 $\beta$ 的正则化项 $\beta^TK\beta$ 。

所以，KLR是 $\beta$ 的线性组合，其中包含了kernel内积项和kernel regularizer，这与SVM形式相似。

Support Vector Regression

Kernel Ridge Regression

如何将kernel技巧引入到岭回归（ridge regression）中去，得到与之对应的analytic solution？

Kernel Ridge Regression问题可表示为：
$\min\limits_w\ \frac\lambda Nw^Tw + \frac1N\sum^N\limits_{n=1}(y_n-w^Tz_n)^2$

因为最佳解 $\color{blue}{w_∗}$ 必然是 $z$ 的线性组合，把 $\color{blue}w_∗=\sum^N_{n=1}\beta_nz_n$ 代入到ridge regression中，将 $z$ 的内积用 kernel 替换，将求 $w_∗$ 问题转化为求 $\color{blue}\boxed{\beta_n}$ 问题：
$\min\limits_{\beta}\ \frac\lambda N \sum^N_{n=1}\sum^N_{m=1}\beta_n\beta_mK(x_n,x_m) + \frac1N\sum^N_{n=1} \left(y_n - \sum^N_{m=1}\beta_mK(x_m,x_n)\right)^2$

其中第一项可以看成是 $\beta_n$ 的正则项，而第二项可以看成是 $\beta_n$ 的error function，将其表示为矩阵形式

$\begin{aligned} E_{\mathrm{aug}}(\beta) &=\frac{\lambda}{N} \beta^{T} \mathrm{K} \beta+\frac{1}{N}\left(\beta^{T} \mathrm{K}^{T} \mathrm{K} \beta-2 \beta^{T} \mathrm{K}^{T} \mathbf{y}+\mathbf{y}^{T} \mathbf{y}\right) \\ \nabla E_{\mathrm{aug}}(\beta) &=\frac{2}{N}\left(\lambda \mathrm{K}^{T} \mathrm{I} \beta+\mathrm{K}^{T} \mathrm{K} \beta-\mathrm{K}^{T} \mathbf{y}\right)=\frac{2}{N} \mathrm{K}^{T}((\lambda \mathrm{I}+\mathrm{K}) \beta-\mathbf{y}) \end{aligned}$

令 $\nabla E_{aug}(\beta)$ 等于零， $(\lambda I+K)$ 的逆矩阵存在，则可得到 $\color{blue}\boxed{\beta}$ 一种解析解为：
$\color{blue}\beta=(\lambda I+K)^{-1}y$

$K$ 满足Mercer’s condition，是半正定的，且 $λ > 0$ ，所以 $(\lambda I+K)$ 一定可逆。由于核函数 $K$ 表征的是 $z$ 空间的内积，除非两向量互相垂直，一般情况下 $K$ 不等于零。 $(\lambda I+K)$ 是dense matrix， $\beta$ 的解大部分都是非零值。

linear ridge regression	kernel ridge regression

只能拟合直线，训练复杂度 $O(d^3+d^2N)$ ，预测复杂度 $O (d)$ ，如果 $N$ 比 $d$ 大很多，模型相对更有效率	非线性模型更加灵活，训练复杂度 $O(N^3)$ ，预测复杂度 $O (N)$ ，均只与 $N$ 有关，当 $N$ 很大时，计算量也变大

kernel ridge regression应用在classification就叫做 least-squares SVM（LSSVM）

soft-margin Gaussian SVM	Gaussian LSSVM

Support Vector较少，因为soft-margin Gaussian SVM中的 $α_n$ 大部分是等于零， $α_n>0$ 的点只占少数	基本上每个点都是Support Vector ，因为 $\beta$ 的解大部分都是非零值，所以对应的每个点基本上都是SV

SV太多带来的问题：

$\beta$ 非零值较多使得做预测的矩 $g(x)=\sum^N_{n=1}\beta_nK(x_n,x)$ 计算量也比较大，这方面soft-margin Gaussian SVM更有优势

Support Vector Regression（SVR）

如何让L2-regularized tube regression和soft-margin SVM一样得到 $\color{blue}sparse\ \boxed\beta$

引入tube regression，并将其与squared error对比：

$\max(0,\\|s-y\\|-\epsilon)$	$err(y,s) =(s-y)^2$	$e r r (y, s)$ 与 $s$ 的关系曲线

tube regression：在分类线上下分别划定一个区域（中立区），如果数据点分布在这个区域内，则不算分类错误，只有误分在中立区域之外的地方才算error	L2 regression $\qquad\qquad\qquad\qquad\qquad\qquad$	在 $\\|s-y\\|$ 较大区，squared error增长幅度比tube error大。error增长越快表示越容易受noise影响，不利于优化求解。从这个方面来看，tube regression的error function要优

1、L2-Regularized Tube Regression 问题：
$\min _{{w}} \quad \frac{\lambda}{N} {w}^{T} {w}+\frac{1}{N} \sum_{n=1}^{N} \max \left(0,\left| {w}^{T} \mathbf{z}_{n}-y\right|-\epsilon\right)$

可以把这个问题转换为带条件的QP问题，仿照dual SVM的推导方法，引入kernel，得到KKT条件，从而保证解 $\beta$ 是 sparse 的。

2、把L2-Regularized Tube Regression写成类似SVM的形式：
$\min _{{w,b}} \quad \frac{1}{2} {w}^{T} {w} + C \sum_{n=1}^{N} \max \left(0,\left| {w}^{T} \mathbf{z}_{n} + b-y_n\right|-\epsilon\right)$

$\lambda$ 越大对应 $C$ 越小， $\lambda$ 越小对应 $C$ 越大，上式将 $w_0$ 即 $b$ 单独提出来。

3、有了Standard Support Vector Regression的初始形式，还需要转化成标准的QP问题：

$\begin{aligned} \begin{aligned} &\min _{{w,b,\xi}} \quad \frac{1}{2} {w}^{T} {w} + C \sum_{n=1}^{N} \xi_n\\ &s.t.\ |w^T\mathbf{z}_{n} + b - y_n|\leq\epsilon + \xi_n\\ &\qquad\xi_n\geq0 \end{aligned} {\color{blue}\Longrightarrow} \begin{aligned} &\min _{{w,b,\xi_n^\vee,\xi_n^\wedge}} \quad \frac{1}{2} {w}^{T} {w} + C \sum_{n=1}^{N} (\xi_n^\vee+\xi_n^\wedge)\\ &\qquad s.t.\quad-\epsilon - \xi_n^\vee\leq y_n-w^T\mathbf{z}_{n} - b \leq\epsilon + \xi_n^\wedge\\ &\qquad\qquad\ \ \xi_n^\vee\geq0,\xi_n^\wedge\geq0 \end{aligned} \end{aligned}$

右边即标准的QP问题

$\color{blue}\xi_n^\vee$ 和 $\color{blue}\xi_n^\wedge$ 分别表示upper tube violations和lower tube violations。这种形式叫做Support Vector Regression（SVR） primal。
$\color{blue} C$ ：表示的是regularization和tube violation之间的权衡。large C倾向于tube violation，small C则倾向于regularization。
$\color{blue}\epsilon$ ：表征了tube的区域宽度，即对错误点的容忍程度。 $\epsilon$ 越大，则表示对错误的容忍度越大

4、接下来将推导SVR的Dual形式

$\begin{aligned} \begin{aligned} &\min _{{w,b,\xi_n^\vee,\xi_n^\wedge}} \quad \frac{1}{2} {w}^{T} {w} + C \sum_{n=1}^{N} (\xi_n^\vee+\xi_n^\wedge)\\ &\qquad s.t.\quad y_n-w^T\mathbf{z}_{n} - b \leq\epsilon + \xi_n^\wedge\\ &\qquad\qquad\ \ -\epsilon - \xi_n^\vee\leq y_n-w^T\mathbf{z}_{n} - b \\ &\qquad\qquad\ \ \xi_n^\vee\geq0,\xi_n^\wedge\geq0 \end{aligned} \Longrightarrow \begin{aligned} &\min _{{w,b,\xi_n^\vee,\xi_n^\wedge}} \quad \frac{1}{2} {w}^{T} {w} + C \sum_{n=1}^{N} (\xi_n^\vee+\xi_n^\wedge)\\ &\qquad s.t.\quad y_n-w^T\mathbf{z}_{n} - b \leq\epsilon + \xi_n^\wedge\\ &\qquad\qquad\ \ w^T\mathbf{z}_{n} + b-y_n \leq\epsilon + \xi_n^\vee\\ &\qquad\qquad\ \ \xi_n^\vee\geq0,\xi_n^\wedge\geq0 \end{aligned} \end{aligned}$

${\color{blue}\Longrightarrow complementary\ slackness:} \left\{\begin{aligned} \alpha_n^\wedge(\epsilon + \xi_n^\wedge - y_n + w^T\mathbf{z}_{n} + b) = 0\\ \alpha_n^\vee(\epsilon + \xi_n^\vee+y_n-w^T\mathbf{z}_{n} - b) = 0\end{aligned}\right.$

拉格朗日因子 $\alpha_n^\vee$ 和 $\alpha_n^\wedge$ 与 $\xi_n^\vee$ 和 $\xi_n^\wedge$ 不等式分别对应。由上式可看出，分布在tube中心区域内的点满足 $|w^Tz_n+b−y_n|<\epsilon$ ，此时忽略错误， $\xi_n^\vee$ 和 $\xi_n^\wedge$ 都等于零，则括号项均不为零，必然得到 $\alpha_n^\vee=0$ 和 $\alpha_n^\wedge=0$ ，即 $\beta_n=\alpha_n^{\wedge}-\alpha_n^{\vee}=0$ ，而分布在tube之外的点， $\beta_n\neq0$ ，所以 $\color{blue}\beta_n$ 是相对 $\color{blue}sparse$ 的。

5、构造拉格朗日函数啊：
$\begin{aligned} &L(w,b,\alpha^{\lor}, \alpha^{\land}, \xi_n^{\lor}, \xi_n^{\land}, \mu^{\lor}, \mu^{\land}) \\ &=\frac{1}{2}{w}^{T} {w} + C\sum\limits_{n=1}^{N}(\xi_n^{\lor}+ \xi_n^{\land}) + \sum\limits_{n=1}^{N}\alpha_n^{\lor}(-\epsilon - \xi_n^{\lor} -y_n + w^T \mathbf{z}_{n} + b) \\ &\ \ \ \ +\sum\limits_{n=1}^{N}\alpha_n^{\land}(y_n - w^T\mathbf{z}_{n} - b -\epsilon - \xi_n^{\land}) +\sum\limits_{n=1}^{N}\mu_n^{\lor}(- \xi_n^{\lor}) +\sum\limits_{n=1}^{N}\mu_n^{\land}(- \xi_n^{\land}) \end{aligned}$

6、令相关参数偏微分为零得到相应的KKT条件：

$\color{blue}w$ ： $\frac{\partial}{\partial w}L=0\Rightarrow w =\sum\limits_{n=1}^N(\alpha_n^\wedge-\alpha_n^\vee)\mathbf{z}_{n}$
$\color{blue}b$ ： $\frac{\partial}{\partial b}L=0\Rightarrow\sum\limits_{n=1}^N(\alpha_n^\wedge-\alpha_n^\vee)=0$
$\color{blue}\xi_n^{\lor}$ ： $\frac{\partial }{\partial \xi_n^{\lor}}L = 0 \;\Rightarrow C-\alpha_n^{\lor}-\mu_n^{\lor} = 0$
$\color{blue}\xi_n^{\land}$ ： $\frac{\partial }{\partial \xi_n^{\land}} L= 0 \;\Rightarrow C-\alpha_n^{\land}-\mu_n^{\land} = 0$

7、得到最终的SVR dual 形式：
$\begin{aligned} &\min_{\alpha_n^{\lor}, \alpha_n^{\land}} \quad\frac{1}{2}\sum\limits_{n=1}^{N}\sum\limits_{m=1}^{N}(\alpha_n^{\land} - \alpha_n^{\lor})(\alpha_m^{\land} - \alpha_m^{\lor})K_{nm} +\sum\limits_{n=1}^{N}\left((\epsilon-y_n)\alpha_n^{\land}+ (\epsilon+y_n)\alpha_n^{\lor}\right) \\ &\quad s.t. \quad \sum\limits_{i=1}^{N}(\alpha_i^{\land} - \alpha_i^{\lor}) = 0\\ &\qquad\qquad 0 < \alpha_n^{\lor} < C \; (n =1,2,...N)\\ &\qquad\qquad 0 < \alpha_n^{\land} < C \; (n =1,2,...N) \end{aligned}$