机器学习第6章----支持向量机_放在购物车好久了…iy…iy…i…iy到打折了-CSDN博客

本文链接：https://blog.csdn.net/weixin_45154388/article/details/119773779

1、间隔与支持向量

给定训练样本集D，分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。但能将样本分开的划分超平面可能有很多个，我们怎么确定是哪一个呢？
在这里插入图片描述

直观上看，应该选择两类样本正中间的划分超平面，因为该划分超平面对训练样本局部扰动的“容忍”度最好，当训练集由于噪声干扰等因素的影响发生变化时，该超平面受到的影响最小。
在样本空间中，划分超平面可用 $w^Tx+b=0$ 来描述，其中 $w=(w_1;w_2;……;w_d)$ 为法向量，决定了超平面的方向,b为位移项，决定了超平面与原点之间的距离。记超平面为 $(w, b)$ ,样本空间中任意一点 $x$ 到超平面的距离为 $r=\frac{|w^Tx+b|}{||w||}$ 假设超平面能将训练样本正确分类，则对于 $(x_i,y_i)\in D$ ,若 $y_i=+1,则w^Tx_i+b>0;若y_i=-1，则w^Tx_i+b<0$
使等号成立的几个训练样本称为支持向量，两个支持向量之间的距离为 $\gamma=\frac{2}{||w||}$ ,它被称为间隔。
在这里插入图片描述

显然，我们希望找到间隔最大的划分超平面，即找到使 $\gamma$ 最大的参数 $w$ 和 $b$ , 很明显，我们只需最大化 $w||^{-1}$ 即在 $1-y_i(w^Tx+b)\leq0$ 的条件下最小化 $w||^2$ 。

2、对偶问题

使用拉格朗日乘子法对其求解，为每个约束添加拉格朗日乘子 $\alpha_i\geq0$ ,令 $L(w,b,\alpha)=\frac{1}{2}||w||^2+\sum\limits^{m}_{i=1}\alpha_i(1-y_i(w^Tx+b)),$ 其中， $\alpha=(\alpha_1,\alpha_2,……,\alpha_m)$ ,令 $L(w,b,\alpha)$ 对 $w$ 和 $b$ 的偏导为零可得 $w=\sum\limits_{i=1}^{m}\alpha_iy_ix_i,$ $0=\sum\limits_{i=1}^{m}\alpha_iy_i$ 代入上式将 $w$ 和 $b$ 消去，我们的问题就变成在 $\sum\limits_{i=1}^{m}\alpha_iy_i=0$ 和 $\alpha_i\geq 0$ 的条件下求 $\underset {\alpha}{max}\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j$

解出 $\alpha$ 后，求出 $w$ 和 $b$ 就可以得到模型 $f(x)=w^Tx+b=\sum\limits_{i=1}^{m}\alpha_iy_ix_i^Tx+b$
因为问题 $\underset {w,b}{min}\frac{1}{2}||w||^2$ 具有不等式约束，因此上式要满足KKT条件 $\alpha_i\geq 0 \\ y_if(x_i)-1\geq0 \\ \alpha_i(y_if(x_i)-1)=0$
因此，对任意训练样本，总有 $\alpha_i=0$ 或 $y_if(x_i)=1$ ,若 $\alpha_i=0$ ，可以发现此样本不会在 $f (x)$ 中出现，若 $\alpha_i>0$ ，则必有 $y_if(x_i)=1$ ,所对应的样本是一个支持向量。

怎么解 $\underset {\alpha}{max}\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j$ 呢？

可以看出，这是一个二次规划问题，可以使用二次规划算法来求解，然而，这种算法的开销很大。为了解决这个问题，人们研究出了很多高效的算法，SMO就是其中一个著名的代表。因为上式满足约束 $\sum\limits_{i=1}^{m}\alpha_iy_i=0$ ,假设除 $\alpha_i，\alpha_j$ 其他的参数都是固定的常数，那么可以写出 $\alpha_iy_i+\alpha_jy_j=c$ $c=-\sum\limits_{k\neq i,j}\alpha_ky_k$
$\alpha_jy_j=c-\alpha_iy_i$ ,消去变量 $\alpha_j$ 就可以对 $\alpha_i$ 求解了，具体的求解方法现在还没有弄懂。求出 $\alpha$ 后，就可以计算出 $w$ 了。

怎么确定b呢？因为任意支持向量 $x_s,y_s)$ 都有 $y_sf(x_s)=1$ ,即 $y_s(\sum\limits_{i\in S}\alpha_iy_ix_i^Tx_s+b)=1$ 将任一支持向量代入，我们就可解出b了。注意，在现实任务中，我们通常会使用所有支持向量求解的平均值 $b=\frac{1}{|s|}\sum\limits_{s\in S}(\frac{1}{y_s}-\sum\limits_{i\in S}\alpha_iy_ix_i^Tx_s)$

3、核函数

在之前的讨论中，我们假设训练样本是线性可分的，即存在一个划分超平面能将训练样本正确分类，然而在现实任务中，原始样本空间内也许并不存在一个能正确划分两类样本的超平面。对这样的问题，我们一般将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。
在这里插入图片描述

令 $\phi(x)$ 表示将 $x$ 映射后的特征向量，在特征空间划分超平面所对应的模型可表示为 $f(x)=w^T\phi(x)+b$ 我们的约束条件就变成了 $y_i(w^T\phi(x)+b)\geq1$ ，其对偶问题是 $\underset {\alpha}{max}\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)$ 因为直接计算 $\phi(x_i)^T\phi(x_j)$ 是很困难的，令 $k(x_i,x_j)=\phi(x_i)^T\phi(x_j)$ ,上式可重写为 $\underset {\alpha}{max}\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_jk(x_i,x_j)$ 求解后得到的模型是 $f(x)=\sum\limits_{i=1}^{m}\alpha_iy_ik(x,x_i)+b$ 这里的函数 $\ , \ .)$ 就是核函数。显然，在知道 $\phi(.)$ 的情况下，我们很容易就能写出核函数，但大多数情况下我们并不知道 $\phi(.)$ ，那么我们怎么知道什么样的函数能做核函数呢？
令 $\chi$ 为输入空间， $\ , \ .)$ 是定义在 $\chi*\chi$ 上的对称函数,若对于所有 $D =$ { $x_1,x_2,……,x_m$ }，“核矩阵” $K=\left[ \begin{matrix} k(x_1,x_1) & \ldots & k(x_1,x_j)&\ldots&k(x_1,x_m)\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ k(x_i,x_1) &\ldots& k(x_i,x_j) &\ldots& k(x_i,x_m) \\ \vdots&\ddots&\vdots&\ddots&\vdots\\ k(x_m,x_1) & \ldots &k(x_m,x_j)&\ldots& k(x_m,x_m) \end{matrix} \right]$ 总是半正定的，我们就称 $k$ 为核函数。核函数K就是指 $K (x, y) = < f (x), f (y) >$ ，其中x和y是n维的输入值， $f (\cdot)$ 是从n维到m维的映射（通常，m>>n）, <x, y>是x和y的内积。常用的核函数有以下几种：

线性核： $K(x_i,x_j)=x_i^Tx_j$
多项式核： $K(x_i,x_j)=(x_i^Tx_j)^d \ , \ d\geq1$ 为多项式的次数
高斯核： $K(x_i,x_j)=\exp(-\frac{||x_i-x_j||^2}{2\sigma^2}),\sigma>0$ 为高斯核的带宽
拉普拉斯核： $k(x_i,x_j)=exp(-\frac{||x_i-x_j||}{\sigma}),\sigma>0$
$S i g m o i d$ 核： $K(x_i,x_j)=\tanh(\beta x_i^Tx_j+\theta),tanh$ 为双曲正切函数, $\beta>0,\theta<0$

此外，核函数还有以下性质：

若 $k_1$ 和 $k_2$ 为核函数，则对于任意正数 $\gamma_1$ 、 $\gamma_2$ ,其线性组合 $\gamma_1k_1+\gamma_2k_2$ 也是核函数。
若 $k_1$ 和 $k_2$ 为核函数,则核函数的直积 $k_1 \otimes k_2(x,z)=k_1(x,z)k_2(x,z)$ 也是核函数。
若 $k_1$ 为核函数，则对于任意函数 $g (x)$ , $k(x,z)=g(x)k_1(x,z)g(z)$ 也是核函数。

4、软间隔与正则化

在之前的讨论中，我们一直假定存在一个超平面能将不同类的样本完全划分开，然而，在现实任务中很难确定一个合适的核函数使得训练样本在特征空间中线性可分，解决这一问题的一个方法是允许支持向量机在一些样本上出错，为此，我们引入了软间隔的概念。简单来说，就是允许一些样本可以不满足约束 $y_i(w_ix_i+b)\geq1$
在这里插入图片描述

当然，不满足约束的样本数目要尽可能少，于是，优化的目标就变为 $\underset {w,b}{min}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^{m}l_{0/1}(y_i(w^Tx_i+b)-1)$ 其中C>0是一个常数， $l_{0/1}$ 是“0/1损失函数”
$l_{0/1}(z)= \begin{cases} 1, if \ \ z<0\\ 0, otherwise \end{cases}$
当C为无穷大时，若 $y_i(w_ix_i+b)<1$ ，则我们得到的结果为负值，这显然是不对的，这种情况下，就要求所有样本满足约束，当C取有限值时，则允许一些样本不满足约束。由于 $l_{0/1}$ 是非连续的，使得上式不易求解，因此常用一些函数来代替它，称为替代损失函数。替代损失函数一般是凸的连续函数且是 $l_{0/1}$ 的上界。常用的替代损失函数有 $hinge损失：l_{hinge}(z)=max(0,1-z);$ $指数损失：l_{exp}(z)=exp(-z);$ $对率损失：l_{log}(z)=log(1+exp(-z))$
在这里插入图片描述

若采用hinge损失，则优化目标变为 $\underset {w,b}{min}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^{m}max(0，1-y_i(w^Tx_i+b))$
引入松弛变量 $\xi_i\geq0$ ,上式可化为在 $y_i(w^Tx_i+b)\geq1-\xi_i$ 的条件下求 $\underset {w,b}{min}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^{m}\xi_i$ 这就是最常用的“软间隔支持向量机”，对上式求解，令 $L(w,b,\alpha,\xi,\mu)=\frac{1}{2}||w||^2+C\sum\limits_{i=1}^{m}\xi_i+\sum\limits_{i=1}^{m}\alpha_i(1-\xi_i-y_i(w^Tx_i+b))-\sum\limits_{i=1}^{m}\mu_i\xi_i$ 对 $w,b,\xi_i$ 求偏导为零得 $w=\sum\limits_{i=1}^{m}\alpha_iy_ix_i\ ,\\ 0=\sum\limits_{i=1}^{m}\alpha_iy_i\ ,\\ C=\alpha_i+\mu_i$
代入 $\underset {w,b}{min}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^{m}max(0，1-y_i(w^Tx_i+b))$ ，可得到它的对偶问题为在 $\sum\limits_{i=1}^{m}\alpha_iy_i=0,0 \leq \alpha_i \leq C$ 的条件下求 $\underset {\alpha}{max}\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j$ 同样地，它要满足KKT条件要求 $\alpha_i\geq0,\mu_i\geq0\\ y_if(x_i)-1+\xi_i\geq0\\ \alpha_i(y_if(x_i)-1+\xi_i)=0\\ \xi_i\geq0,\mu_i\xi_i=0$ 可以发现，对任意训练样本，总有 $\alpha_i=0$ 或 $y_if(x_i)=1-\xi_i$ .若 $\alpha_i=0$ ,此样本不会在 $f (x)$ 中出现;若 $\alpha_i>0$ ，则 $y_if(x_i)=1-\xi_i$ ，此样本为支持向量。因为 $C=\alpha_i+\mu_i$ ，当 $\alpha_i<C$ 时， $\mu_i>0$ ,此时必有 $\xi_i=0$ ,此时样本恰在样本最大边界上，若 $\alpha_i=C$ ,则 $\mu_i=0$ ,此时若 $\xi_i<1$ 则落在最大间隔内部， $\xi_i>1$ 则分类错误。可以看出最终模型仅与支持向量有关，即采用hinge损失含还是仍然保持了稀疏性。

把损失函数替换成其他的替代损失函数得到其他学习模型，这些模型具有一个共性：优化目标中的第一项用来描述用来描述划分超平面的“间隔大小”，另一项 $\sum\limits_{i=1}^{m}l(f(x_i,y_i))$ 用来表述训练集的误差，可写为更一般的形式 $\underset {f}{min} \Omega(f) +C\sum\limits_{i=1}^{m}l(f(x_i),x_i)$ 其中 $\Omega(f)$ 称为“结构风险”，用于描述模型的某些性质；第二项 $\sum\limits_{i=1}^{m}l(f(x_i),y_i)$ 称为经验风险，用于描述模型与训练数据的契合程度；C用于对二者进行折中。上式称为正则化问题， $\Omega(f)$ 称为正则化项，C则称为正则化常数，常用的正则化项有 $L_p$ 范数，任意向量 $x$ 的 $L_p$ 范数的定义为 $||x||_p=\sqrt[p]{\sum\limits_{i}|x_i|^p}$

5、支持向量回归

给定训练样本 $D =$ { $x_1,y_1),(x_2,y_2),……,(x_m,y_m)$ }, $y_i\in R$ ，我们希望学习到一个 $f (x)$ 使得其与y尽可能的接近， $w ， b$ 是待确定的参数。在这个模型中，只有当f(x)与y完全相同时，损失才为零，而支持向量回归(SVR)允许 $f (x)$ 与 $y$ 之间有 $\varepsilon$ 的偏差，当 $f (x)$ 与 $y$ 之间的差别绝对值大于 $\varepsilon$ 时才计算损失
在这里插入图片描述

于是我们的问题就变成了 $\underset {w,b}{min}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^{m}l_{\varepsilon}(f(x_i)-y_i)$ $l_{\varepsilon}(z)= \begin{cases} 0, if \ \ z\geq0\\ |z|-\varepsilon, otherwise \end{cases}$ 引入松弛变量，将上式重写为 $\underset {w,b}{min}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^{m}(\xi_i+\hat\xi_i)$ ,对其求解，引入拉格朗日乘子 $\mu_i,\hat\mu_i,\alpha_i,\hat\alpha_i$ 均大于等于零，令 $L(w,b,\alpha,\hat\alpha,\xi,\hat\xi,\mu,\hat\mu)=\frac {1}{2}||w||^2+C\sum\limits_{i=1}^{m}(\xi_i+\hat\xi_i)-\sum\limits_{i=1}^{m}\mu_i\xi_i-\sum\limits_{i=1}^{m}\hat\mu_i\hat\xi_i \\+\sum\limits_{i=1}^{m}\alpha_i(f(x_i)-y_i-\varepsilon-\xi_i)+\sum\limits_{i=1}^{m}\hat\alpha_i(y_i-f(x_i)-\varepsilon)$ 令 $L(w,b,\alpha,\hat\alpha,\xi,\hat\xi,\mu,\hat\mu)$ 对 $w,b,\xi_i,\hat\xi_i$ 求偏导为零得 $w=\sum\limits_{i=1}^{m}(\hat\alpha_i-\alpha_i)x_i \\ 0=\sum\limits_{i=1}^{m}(\hat\alpha_i-\alpha_i) \\ C=\alpha_i+\mu_i \\ C=\hat \alpha_i+\hat\mu_i$
代入可得 $\underset {w,b}{min}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^{m}l_{\varepsilon}(f(x_i)-y_i)$ 的对偶问题是在 $\sum\limits_{i=1}^{m}(\hat\alpha_i-\alpha_i)=0,0\leq\alpha_i,\hat\alpha_i\leq C$ 的条件下求解 $\underset {\alpha,\hat\alpha}{max}\sum\limits_{i=1}^{m}y_i(\hat\alpha_i-\alpha_i)-\varepsilon(\hat\alpha_i-\alpha_i)-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}(\hat\alpha_i-\alpha_i)(\hat\alpha_j-\alpha_j)x^T_ix_j$ 同样地，上式要满足KKT条件，即要求 $\alpha_i(f(x_i)-y_i- \varepsilon-\xi_i)=0\\ \hat\alpha_i(y_i-f(x_i)-\varepsilon-\hat\xi_i)=0\\ \alpha_i\hat\alpha_i=0,\xi_i\hat \xi_i=0\\ (C-\alpha_i)\xi_i=0,(C-\hat\alpha_i)\hat\xi_i=0$ 可以看出，只有当 $f(x_i)-y_i-\varepsilon-\xi_i=0$ 时， $\alpha_i$ 能取非零值；只有当 $y_i-f(x_i)-\varepsilon-\hat\xi_i=0$ 时， $\hat\alpha_i$ 能取非零值.约束 $f(x_i)-y_i-\varepsilon-\xi_i=0$ 和 $y_i-f(x_i)-\varepsilon-\hat\xi_i=0$ 不能同时成立，因此 $\alpha_i,\hat\alpha_i$ 中至少有一个为零。

因为 $w=\sum\limits_{i=1}^{m}(\hat\alpha_i-\alpha_i)x_i$ ,所以 $f(x)=w^Tx+b=\sum\limits_{i=1}^{m}(\hat\alpha_i-\alpha_i)x_i^Tx+b$ 能使 $(\hat\alpha_i-\alpha_i)\neq0$ 的样本即为SVR的支持向量。

因为 $(C-\alpha_i)\xi_i=0$ ,若 $0<\alpha_i<C$ ,则必有 $\xi_i=0$ ,又因为 $\alpha_i(f(x_i)-y_i- \varepsilon-\xi_i)=0$ ，可以得出 $b=y_i+\varepsilon-\sum\limits_{j=1}^{m}(\hat\alpha_i-\alpha_i)x_j^Tx$ 任意选取一个 $\alpha_i$ 就可以求出b了，同样地,我们选取多个满足 $0<\alpha_i<C$ 的样本求解b后取平均值。

6、核方法

表示定理：令 $H$ 为核函数 $k$ 对应的再生希尔伯特空间， $h||_H$ 表示H空间关于h的范数，对于任意单调递增函数 $\Omega$ 和任意非负损失函数 $l$ ，优化问题 $\underset {h\in H}{min}F(h)=\Omega(||h||_H)+l(h(x_1),h(x_2),……,h(x_m))$ 的解总可写为 $h^*(x)=\sum\limits_{i=1}^{m}\alpha_ik(x,x_1)$ 表示定理对损失函数没有限制，对正则化项 $\Omega$ 仅要求单调递增，那么对于一般的损失函数和正则化项，优化问题的最优解 $h^*(x)$ 都可表示为核函数 $k(x,x_i)$ 的线性组合；充分展现了核函数的优势，在核函数的基础上，人们研究出一系列学习方法，统称为"核方法"。其中，最常见的，是通过引入核函数将线性学习器拓展为非线性学习器。下面来了解以下具体流程。
先假设可通过某种映射 $\phi$ 将样本映射到一个特征空间 $F$ ,然后在 $F$ 中执行线性判别分析，以求得 $h(x)=w^T\phi(x)$ ,同样，我们希望同类样例的投影点尽可能相近，异类的尽可能远离，我们的学习目标可表示为 $\underset {w}{max}J(w)=\frac{w^TS_b^{\phi}w}{w^TS_w^{\phi}w}$ $S_b^\phi$ 和 $S_w^\phi$ 分别为类间散度矩阵和类内散度矩阵，他们的值分别为 $S_b^{\phi}=(\mu_1^{\phi}-\mu_0^{\phi})(\mu_1^{\phi}-\mu_0^{\phi})^T\\ S_w^{\phi}=\sum\limits_{i=0}^{1}\sum\limits_{x\in X_i}(\phi(x)-\mu_i^{\phi})(\phi(x)-\mu_i^{\phi})^T$ 令 $X_i$ 表示第 $i$ 类样本的集合，第 $i$ 类样本在特征空间 $F$ 中的均值为 $\mu_i^{\phi}=\frac{1}{m_i}\sum\limits_{x\in X_i}\phi(x)$ 通常我们难以知道映射 $\phi$ 的具体形式，因此使用核函数 $k(x,x_i)=\phi(x_i)^T\phi(x)$ 来隐式地表达这个映射和特征空间 $F$ 。因为 $h(x)=\sum\limits_{i=1}^{m}\alpha_ik(x,x_i)=w^T\phi(x)$ ,所以 $w=\sum\limits_{i=1}^{m}\alpha_i\phi(x_i)$ 令K为核函数对应的核矩阵，令 $l_i\in$ {0,1} $^{m*1}$ 为第i类样本的指示向量,当 $x_j\in X_i$ 时 $l_i$ 的第j个分量为1，否则为0。再令 $\hat\mu_0=\frac{1}{m_0}Kl_0\\ \hat\mu_1=\frac{1}{m_1}Kl_1\\ M=(\hat\mu_0-\hat\mu_1)(\hat\mu_0-\hat\mu_1)^T\\ N=KK^T-\sum\limits_{i=0}^{1}m_i\hat\mu_i\hat\mu_i^T$ 则式 $\underset {w}{max}J(w)=\frac{w^TS_b^{\phi}w}{w^TS_w^{\phi}w}$ 就可以转化为 $\underset {\alpha}{max}J(\alpha)=\frac{\alpha^TM\alpha}{\alpha^TN\alpha}$ 这样，我们用线性判别分析求解方法即可求出 $\alpha$ 了，然后根据式 $h(x)=\sum\limits_{i=1}^{m}\alpha_ik(x,x_i)$ 就可得到 $h (x)$ 了。