支持向量机--处理非线性模型

最新推荐文章于 2023-03-02 16:17:48 发布

jwl892

最新推荐文章于 2023-03-02 16:17:48 发布

阅读量267

点赞数

分类专栏：机器学习文章标签：概率论

本文链接：https://blog.csdn.net/weixin_63288684/article/details/128438285

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

支持向量机–处理非线性模型

如果样本集不是线性可分的，那么我们就不能像上面的处理方式一样求出 $w$ 和 $b$ 。

1.最小化：
$\left\{\begin{matrix} min\frac{1}{2} \left \| W \right \|^2+C\sum_{i=1}^N \sigma _i \qquad \cdots(1) \\ s.t. \quad y_i[W^{\top} \boldsymbol{X_i}+b] \ge 1-\sigma _i \\ \sigma _i\ge 0 \end{matrix}\right.$
其中， $\sigma _i$ 为松弛变量（Slack variable），C为事先设定的参数，i=1~N。此时， $y_i$ 和 $x_i$ 是已知的， $W$ , $b$ , $\sigma _i$ 是未知的。

2.高维映射 $\varphi (x)$
$\underset{低维}{X}\overset{\varphi}{\rightarrow} \underset{高维}{\varphi(X)}$
例：

在这里插入图片描述

在上图坐标轴中，存在四个点，这四个点分为两类，我们怎么做才能把他们分开呢？
$X_1=\begin{bmatrix}0 \\0\end{bmatrix}\in C_1 \qquad X_2=\begin{bmatrix}1\\1\end{bmatrix}\in C_1\\ X_3=\begin{bmatrix}1 \\0\end{bmatrix}\in C_2\qquad X_4=\begin{bmatrix}0 \\1\end{bmatrix}\in C_2$
下面我们令一种映射方式，至于为什么要这么设置，咱后面谈论
$\varphi(x):X=\begin{bmatrix}a \\b\end{bmatrix}\overset{\varphi}{\rightarrow} {\varphi(X)}=\begin{bmatrix} a^2\\b^2 \\a\\b\\ab\end{bmatrix}$
由此得到：
${\varphi(X_1)}=\begin{bmatrix} 0\\0 \\0\\0\\0\end{bmatrix}\in C_1 \qquad {\varphi(X_2)}=\begin{bmatrix} 1\\1 \\1\\1\\1\end{bmatrix}\in C_1\\ {\varphi(X_3)}=\begin{bmatrix} 1\\0 \\1\\0\\0\end{bmatrix}\in C_2 \qquad {\varphi(X_4)}=\begin{bmatrix} 0\\1 \\0\\1\\0\end{bmatrix}\in C_2$
规定
$W=\begin{bmatrix}-1\\-1\\-1\\-1\\6\end{bmatrix},b=1$
此时
$W^{\top}\varphi(X_1)+b=1\\ W^{\top}\varphi(X_2)+b=3\\ W^{\top}\varphi(X_3)+b=1\\ W^{\top}\varphi(X_4)+b=-1$
$\varphi$ 的选择是无限维

(1) 我们可以不知道无限维映射 $\varphi(X)$ 的显示表达，我们只要知道，一个核函数(Kernel Function)
$K(X_1,X_2)=\varphi(X_1)^{\top}\varphi(X_2)$
则(1)这个优化式仍然可解。

核函数(部分)：

①高斯核
$K(X_1,X_2)=e^{-\frac{\left \| X_1-X_2 \right \|^2 }{2{\sigma}^2} }$

$=\varphi(X_1)^{\top}\varphi(X_2)$

②
$K(X_1,X_2)=({X_1}^{\top}X_2+1)^d$

$=\varphi(X_1)^{\top}\varphi(X_2)$

(2) $K(X_1,X_2)$ 能写成 $\varphi(X_1)^{\top}\varphi(X_2)$ 的充要条件(Mercer’s Theorem)：

① $K(X_1,X_2)=K(X_2,X_1)$ ；

②对任意 $C_i(常数),\boldsymbol{X_i}(向量)$ ， $\sim N)$ ，有(半正定性)：
$\sum_{i=1}^N \sum_{j=1}^NC_iC_jK(\boldsymbol{X_i},\boldsymbol{X_j})\ge 0$

**优化问题：**训练样本集 $\left \{ (\boldsymbol{X_i},y_i) \right \} _{i=1 \sim N}$

(其中 $\boldsymbol{X_i}$ 为向量， $y_i$ 为标签)
$\left\{\begin{matrix} min\frac{1}{2} \left \| W \right \|^2+C\sum_{i=1}^N \sigma _i \qquad\\ s.t. \quad y_i[W^{\top} \varphi(X_i)+b] \ge 1-\sigma _i\\ \qquad \quad K(X_1,X_2)=\varphi(X_1)^{\top}\varphi(X_2) \end{matrix}\right.$

在此之前，简单说一下优化理论–原问题和对偶问题。

(1)原问题(Prime Problem)
$minf(w)\\ s.t \qquad g_i(w)\le 0 \qquad (i=1\sim k)\\ s.t \qquad h_i(w)= 0 \qquad (i=1\sim m)$
(2)对偶问题(Dual Problem)

①定义
$L(w,\alpha,\beta)\\ \qquad\qquad\qquad\qquad\qquad\quad=f(w)+\sum_{i=1}^k\alpha_ig_i(w)+\sum_{i=1}^m\beta_ih_i(w)\\ \qquad\qquad\qquad\qquad=f(w)+\alpha^{\top}g(w)+\beta^{\top}h(w)$
②对偶问题定义
$max\Theta (\alpha,\beta)=inf\left \{ L(w,\alpha,\beta) \right \}\\ s.t \qquad \alpha_i \ge 0 \qquad (i=1 \sim k)$
(其中 $in f$ 为求所有 $w$ 的最小值)

定理：

如果 $w^*$ 是原问题的解，而 $\alpha^*,\beta^*$ 是对偶问题的解，则有：
$f(w^*) \ge \Theta (\alpha^*,\beta^*)$
证：
$\Theta (\alpha^*,\beta^*)=inf\left \{ L(w,\alpha^*,\beta^*) \right\}\\ \le L(w^*,\alpha^*,\beta^*) =f(w^*)+\sum_{i=1}^k\alpha_i^*g_i(w^*)+\sum_{i=1}^m\beta_i^*h_i(w^*)\\ \le f(w^*)$

$(其中\alpha_i^*\ge 0,g_i(w^*)\le 0,h_i(w^*)=0)，证毕$

定义：
$G=F(w^*)-\Theta(\alpha^*,\beta^*)\ge 0$
$G$ 叫做原问题与对偶问题的间距(Duality Gap)。（对于某些特定的优化问题，可以证明对偶间距 $G = 0$ 。)

强对偶问题：

若 $f (w)$ 为凸函数，且 $g (w) = A w + b, h (w) = Cw + d$ ，则此优化问题的原问题与对偶问题间距为0，即 $f(w^*)=\Theta (\alpha^*,\beta^*)$ ，
$对\forall i=1 \sim k,\underbrace{\alpha_i^*=0,或g_i(w^*)=0} _{KKT条件}$

接下来，试着把上述优化问题转化为对偶问题，以便求解

OK，现在把上面说的原对偶问题总结一下：

①原问题：
$minf(w)\\ s.t \qquad g_i(w)\le 0 \qquad (i=1\sim k)\\ s.t \qquad h_i(w)= 0 \qquad (i=1\sim m)$
②对偶问题：
$L(w,\alpha,\beta)=f(w)+\sum_{i=1}^k\alpha_ig_i(w)+\sum_{i=1}^m\beta_ih_i(w)$

$max\Theta (\alpha,\beta)=inf\left \{ L(w,\alpha,\beta) \right \}\\ s.t \qquad \alpha_i \ge 0 \qquad (i=1 \sim k)$

③KKT条件：
$\forall i=1 \sim k,有\alpha_i^*=0,或g_i(w^*)=0$

SVM是这样的：
$min\frac{1}{2} \left \| W \right \|^2+C\sum_{i=1}^N \sigma _i (凸函数) \Rightarrow 对应原函数的f(w)$

$\left\{\begin{matrix} y_i[W^{\top}\varphi(X_i)+b]\ge 1-\sigma_i \\ \sigma_i \ge 0 \qquad (i=1 \sim k) \end{matrix}\right.$

但是为了对应原问题，我们对他做一些改变：
$min\frac{1}{2} \left \| W \right \|^2-C\sum_{i=1}^N \sigma _i$

$\left\{\begin{matrix} 1+\sigma_i -y_iW^{\top}\varphi(X_i)-y_ib\le 0 \\ \sigma_i \le 0 \qquad (i=1 \sim k) \end{matrix}\right.$

对偶问题：
$max\Theta (\alpha,\beta)=\underset{所有(W,\sigma_i,b)}{inf}\left \{ \frac{1}{2} \left \| W \right \|^2-C\sum_{i=1}^N \beta_i\sigma _i +\sum_{i=1}^N \alpha_i\left [ 1+\sigma_i -y_iW^{\top}\varphi(X_i)-y_ib \right ] \right \}$

$\left\{\begin{matrix} \alpha_i \ge 0\\ \beta_i \ge 0 \end{matrix}\right.$

令上面问题中大括号内的内容为 $L(w,\sigma,b)$
$\frac{\partial L}{\partial W} =0\Rightarrow W=\sum_{i=1}^N\alpha_iy_i\varphi(X_i)$

$\frac{\partial L}{\partial \sigma_i} =0\Rightarrow \beta_i+\alpha_i=C$

$\frac{\partial L}{\partial b} =0\Rightarrow \sum_{i=1}^N\alpha_iy_i=0$

把上面得到的结果带入到对偶问题式子里，得
$max\Theta (\alpha,\beta)=\sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(X_i,X_j)\\ s.t\left\{\begin{matrix} 0 \le \alpha_i \le c\\ \sum_{i=1}^N\alpha_iy_i=0 \end{matrix}\right.$
下面是上面求导中的某两步，仅供参考：
$\frac{1}{2} \left \| W \right \|^2=\frac{1}{2}W^{\top}W\\ =\frac{1}{2}\left \{ \sum_{i=1}^N\alpha_iy_i\varphi(X_i) \right \} ^{\top}\left \{ \sum_{j=1}^N\alpha_jy_j\varphi(X_j) \right \} \\ =\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j\varphi(X_i)^{\top}\varphi(X_j)\\ =\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(X_i,X_j)$

$-\sum_{i=1}^N\alpha_iy_iW^{\top}\varphi(X_i)\\ =-\sum_{i=1}^N\alpha_iy_i\left \{ \sum_{j=1}^N\alpha_jy_j\varphi(X_j) \right \} ^{\top}\varphi(X_i)\\ =-\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j\varphi(X_j)^{\top}\varphi(X_i)\\ =-\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(X_i,X_j)$

接下来要求b，要用到KKT条件：

对任意的 $i=1\sim N$ ,

①要么 $\beta_i=0$ ，要么 $\sigma_i=0$ ；

②要么 $\alpha_i=0$ ，要么 $1+\sigma_i -y_iW^{\top}\varphi(X_i)-y_ib=0$ 。

取一个 $\alpha_i$ ，满足 $\alpha_i<c$ ， $\Longrightarrow \beta_i=c-\alpha_i>0,此时\left\{\begin{matrix} \beta_i \ne 0\Rightarrow \sigma_i=0 \\ \alpha_i \ne 0 \Rightarrow 1+\sigma_i -y_iW^{\top}\varphi(X_i)-y_ib =0 \end{matrix}\right.$ ,
$\Rightarrow b=\frac{ 1 -y_iW^{\top}\varphi(X_i)}{y_i} =\frac{1 -y_i \sum_{j=1}^N\alpha_jy_jK(X_i,X_j)}{y_i}$

SVM算法：

①训练流程：

输入 $\left \{ (X_i,y_i) \right \} _{i=1\sim N}$

（解优化问题）

最大化： $\Theta (\alpha)=\sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(X_i,X_j)$

限制条件： $\left\{\begin{matrix} 0 \le \alpha_i \le c\\ \sum_{i=1}^N\alpha_iy_i=0 \end{matrix}\right.$

算b，找一个 $0<\alpha_i<c$ , $b=\frac{1 -y_i \sum_{j=1}^N\alpha_jy_jK(X_i,X_j)}{y_i}$

②测试流程：

测试样本X

若 $\sum_{i=1}^N\alpha_iy_iK(X_i,X)+b \ge 0，则y=+1$

若 $\sum_{i=1}^N\alpha_iy_iK(X_i,X)+b < 0，则y=-1$ 。