Support Vector Machine

最新推荐文章于 2020-12-20 15:57:49 发布

置顶 yonezcy

最新推荐文章于 2020-12-20 15:57:49 发布

阅读量834

点赞数 1

分类专栏： Machine Learning 文章标签：机器学习模式识别算法

本文链接：https://blog.csdn.net/yonezcy/article/details/58286215

版权

Machine Learning 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Support Vector Machine

支持向量机(support vector machine)是一种机器学习模型，其主要用途是进行模式识别、分类和回归，目前被广泛应用于工业界中，相比于其它机器学习算法，支持向量机在模式识别以及分类问题中表现出了卓越的性能。本文主要对其中的数学模型、公式进行推导，以便在实现算法时对代码有更深层次的理解。

问题的提出[1]

给定训练样本 $D = \{(\vec{x}_1,y_1),(\vec{x}_2,y_2),...,(\vec{x}_m,y_m)\},y_i\in\{-1,+1\}$ ,分类学习最基本的想法就是基于训练集 $D$ 在样本空间中找到一个划分超平面(separating hyperplane),将不同类别的样本分开，但能将训练样本分开的超平面（训练样本维数越大，超平面法向量的维数越大）可能有很多，如图所示，我们应该努力去找到哪一个呢？
这里写图片描述

直观来看，我们应该去寻找位于“正中间”的超平面，即图中红色的那个，那么，怎样从数学的角度去寻找呢？

在样本空间中，划分超平面可通过如下线性方程组来描述

w ⃗ T x ⃗ + b = 0

$\vec{w}^T\vec{x}+b = 0$
其中

w⃗ =(w1;w2;...;wd) $\vec{w} = (w_1;w_2;...;w_d)$ 为法向量，决定了超平面的方向；

b $b$ 为位移项，决定了超平面与原点间的距离，样本空间中任意点

x⃗ $\vec{x}$ 到超平面的距离为

r = | w ⃗ T x ⃗ + b | | | w ⃗ | |

$r = \frac{|\vec{w}^T\vec{x}+b|}{||\vec{w}||}$

其中， $r$ 被称为函数间隔(function margin)，与其对应的间隔叫做几何间隔(geometric margin)，分子部分表示取绝对值，分母部分为 $\vec{w}$ 向量的二范数，即该向量的模。

假设超平面能正确分类，即对于 $(\vec{x}_i,y_i)\in D$ ，若 $y_i = +1$ ,则有 $\vec{w}^T\vec{x}_i+b$ > 0;若 $y_i = -1$ ，则有 $\vec{w}^T\vec{x}_i+b$ < 0，令

f (x) = {w ⃗ T x ⃗ i + b \geq + 1, y i = + 1; w ⃗ T x ⃗ i + b \leq - 1, y i = - 1.

$f(x)=\left\{ \begin{aligned} \vec{w}^T\vec{x}_i+b \ge +1,\qquad y_i = +1; \\ \vec{w}^T\vec{x}_i+b \le -1,\qquad y_i = -1. \end{aligned} \right.$

如下图所示，距离超平面最近的几个训练样本使上式的等号成立，即满足 $\vec{w}^T\vec{x_i}+b = \pm1$ ，它们被称为支持向量(support vector)（图中蓝圈所示），两个异类支持向量到超平面的距离之和为

r = 2 | | w ⃗ | |

$r = \frac{2}{||\vec{w}||}$
这里写图片描述

模型的建立

理想的超平面使异类支持向量之间的间隔达到最大，也就是要找到能满足约束的参数 $\vec w$ 和 $b$ ，使得 $r$ 最大，即

max w ⃗, b 2 | | w ⃗ | | s . t . y i (w ⃗ T x ⃗ i + b) \geq 1, i = 1, 2, . . ., m

$\begin{align*} &\max\limits_{\vec{w},b}\,\, \frac{2}{||\vec{w}||}\\ &\ \ {s}.{t}.\quad y_i(\vec{w}^T\vec{x}_i+b) \ge 1,\quad i=1,2,...,m \end{align*}$
显然，最大化

||w⃗ ||−1 $||\vec{w}||^{-1}$ 等价于最小化

||w⃗ ||2 $||\vec{w}||^2$ ，于是，上式可重写为

min w ⃗, b 1 2 | | w ⃗ | | 2 s . t . y i (w ⃗ T x ⃗ i + b) \geq 1, i = 1, 2, . . ., m

$\begin{align*} &\min\limits_{\vec{w},b}\,\, \frac12||\vec{w}||^2\\ &\ \ {s}.{t}.\quad y_i(\vec{w}^T\vec{x}_i+b) \ge 1,\quad i=1,2,...,m \end{align*}$
这就是支持向量机(SVM)的数学模型。

模型的求解

不难看出，支持向量机(SVM)的基本模型是一个凸二次规划问题（二次规划问题是指目标函数为二次函数，约束条件为线性约束的优化问题），要求解该问题，有许多现成的软件包可以使用，但我们有更为高效的办法。在这之前，先介绍一些数学理论知识。

1. 拉格朗日乘子法

考虑如下的优化问题：

min w ⃗ f (w ⃗) s . t . g i (w ⃗) \leq 0, i = 1, . . ., n h i (w ⃗) = 0, i = 1, . . ., n

$\begin{align*} &\min\limits_{\vec{w}}\ f( \vec{w})\\ &\ \ {s}.{t}.\ g_i(\vec{w}) \le 0,\quad i = 1,...,n\\ &\qquad h_i(\vec{w}) = 0,\quad i = 1,...,n \end{align*}$

根据拉格朗日乘子法：

L (w ⃗, α ⃗, β ⃗) = f (w ⃗) + \sum i = 1 n α ⃗ i g i (w ⃗) + \sum i = 1 n β ⃗ i h i (w ⃗)

$L(\vec{w},\vec{\alpha},\vec{\beta}) = f(\vec{w})+\sum_{i=1}^n \vec{\alpha}_i g_i(\vec{w})+ \sum_{i=1}^n \vec{\beta}_i h_i(\vec{w})$

其中， $\vec{\alpha}_i , \vec{\beta}_i$ 称之为拉格朗日乘子，定义

θ p (w ⃗) = max α ⃗, β ⃗, α ⃗ i \geq 0 L (w ⃗, α ⃗, β ⃗)

$\theta_p(\vec{w}) = \max\limits_{\vec{\alpha},\vec{\beta},\vec{\alpha}_i \ge 0} L(\vec{w},\vec{\alpha},\vec{\beta})$

现在我们考虑 $\theta_p(\vec{w})$ 到底表示了什么

i f g i (w ⃗) > 0, t h e n θ p (w ⃗) = \infty i f g i (w ⃗) > 0, t h e n θ p (w ⃗) = \infty o t h e r w i s e, θ p (w ⃗) = f (w ⃗)

$if\ g_i(\vec{w})>0,\quad then\ \theta_p(\vec{w}) = \infty\\ if\ g_i(\vec{w})>0,\quad then\ \theta_p(\vec{w}) = \infty\\ otherwise,\quad \theta_p(\vec{w}) = f(\vec{w})$

因此

θ p (w ⃗) = {f (w ⃗) i f g i (w ⃗) \leq 0 a n d h i (w ⃗) = 0, \infty o t h e r w i s e

$\theta_p(\vec{w}) = \left\{ \begin{aligned} & f(\vec{w}) \quad if\ g_i(\vec{w}) \le 0 \ and\ h_i(\vec{w}) = 0, \\ & \infty \quad otherwise \end{aligned} \right.$

所以，原优化目标

p ⋆ = min w ⃗ f (w ⃗) = min w ⃗ θ p (w ⃗) = min w ⃗ max α ⃗, β ⃗, α ⃗ i \geq 0 L (w ⃗, α ⃗, β ⃗)

$p^\star = \min\limits_{\vec{w}}\ f( \vec{w}) = \min\limits_{\vec{w}}\ \theta_p(\vec{w}) =\min\limits_{\vec{w}} \max\limits_{\vec{\alpha},\vec{\beta},\vec{\alpha}_i \ge 0}L(\vec{w},\vec{\alpha},\vec{\beta})$

2. 对偶问题

下面我们来讨论原问题的对偶问题

d ⋆ = max α ⃗, β ⃗, α ⃗ i \geq 0 min w ⃗ L (w ⃗, α ⃗, β ⃗)

$d^\star =\max\limits_{\vec{\alpha},\vec{\beta},\vec{\alpha}_i \ge 0} \min\limits_{\vec{w}} \ L(\vec{w},\vec{\alpha},\vec{\beta})$
注意到对偶问题

d⋆ $d^\star$ 和原问题

p⋆ $p^\star$ 相比仅仅是交换了max、min的顺序，事实上，对偶问题的最优值总是小于等于原问题的最优值（

maxminf(x)≤minmaxf(x) $\max\min f(x)\le \min\max f(x)$ ），即

d ⋆ \leq p ⋆

$d^\star \le p^\star$

举个简单的例子

max y \in {0, 1} min x \in {0, 1} L {x = y} \leq min x \in {0, 1} max y \in {0, 1} L {x = y}

$\max\limits_{y \in \{0,1\}} \min \limits_{x \in \{0,1\}} L\{x=y\} \le \min \limits_{x \in \{0,1\}} \max\limits_{y \in \{0,1\}} L\{x=y\}$
等式的左边总是小于等于等式右边，因为

min x \in {0, 1} L {x = y} = 0, max y \in {0, 1} L {x = y} = 1

$\min \limits_{x \in \{0,1\}}L \{ x=y\}=0,\max\limits_{y \in \{0,1\}}L\{x=y\}=1$

通常情况下，在实际应用中，对偶问题的最优值与原问题的最优值相等，故通常通过解对偶问题来得到原问题的解，因为对偶问题比原问题更加简单，且拥有更多有用的性质。

3. SVM模型的求解

前面已经提到，SVM的基本数学模型是一个凸二次规划模型（如果此处看不出来，等下转化为拉格朗日式更加清晰），由约束条件可得

g i (w ⃗) = 1 - y i (w ⃗ T x ⃗ i + b) \leq 0, i = 1, 2, . . ., m

$g_i(\vec{w}) = 1-y_i(\vec{w}^T\vec{x}_i+b) \le 0,\quad i=1,2,...,m$

对原问题使用拉格朗日乘子法可得

L (w ⃗, b, α ⃗) = 1 2 | | w ⃗ | | 2 - \sum i = 1 m α ⃗ i (y i (w ⃗ T x ⃗ i + b) - 1) = 1 2 | | w ⃗ | | 2 + g i (w ⃗)

$L(\vec{w},b,\vec{\alpha}) = \frac12||\vec{w}||^2 - \sum\limits_{i=1}^m\vec{\alpha}_i (y_i(\vec{w}^T\vec{x}_i+b)-1)= \frac12||\vec{w}||^2+g_i(\vec{w})$

可以明显看到，原问题的拉格朗日乘子式是一个凸二次规划问题，根据上述理论，原问题可写为 $\min\limits_{\vec{w},b} \max\limits_{\vec{\alpha},\vec{\alpha}_i \ge 0}L(\vec{w},b,\vec{\alpha})$ 的形式，首先我们来讨论对这个式子进行直接求解，对于一个凸函数，在 $\vec{w},b$ 都需要求解的情况下，先求其最大值是一件非常困难的事情，故我们将原问题转化为对其对偶问题进行求解。

其对偶问题为 $\max\limits_{\vec{\alpha},\vec{\alpha}_i \ge 0} \min\limits_{\vec{w},b} \ L(\vec{w},b,\vec{\alpha})$ ，下面我们来讨论如何将原问题转化为对偶问题以及如何对对偶问题进行求解，要求其拉格朗日乘子式的最小值，我们可以将 $L$ 对 $\vec{w}.b$ 分别求偏导数代回原式即可（最小二乘思想）

\partial L \partial w ⃗ = w ⃗ - \sum i = 1 m α ⃗ i y i x ⃗ i = 0, w ⃗ = \sum i = 1 m α ⃗ i y i x ⃗ i \partial L \partial b = - \sum i = 1 m y i α ⃗ i = 0

$\frac{\partial L}{\partial \vec{w}}= \vec{w} - \sum\limits_{i=1}^m \vec{\alpha}_iy_i\vec{x}_i = 0,\quad \vec{w} = \sum\limits_{i=1}^m \vec{\alpha}_iy_i\vec{x}_i \\ \frac{\partial L}{\partial b} = -\sum\limits_{i = 1}^m y_i \vec{\alpha}_i = 0$

将得到的第一个式子代回 $L$ 即可得其最小值，第二个式子作为约束条件使用

min w ⃗, b L (w ⃗, b, α ⃗) = \sum i = 1 m α ⃗ i - 1 2 \sum i = 1 m \sum j = 1 m y i y j α ⃗ i α ⃗ j < x ⃗ i, x ⃗ j >

$\min\limits_{\vec{w},b} \ L(\vec{w},b,\vec{\alpha}) = \sum\limits_{i=1}^m \vec{\alpha}_i - \frac12 \sum\limits_{i = 1}^m \sum\limits_{j = 1}^m y_i y_j \vec{\alpha}_i \vec{\alpha}_j <\vec{x}_i,\vec{x}_j>$
其中，

<x⃗ i,x⃗ j> <script type="math/tex" id="MathJax-Element-131"><\vec{x}_i,\vec{x}_j></script>是两个向量的内积，这里这样写的原因是为了之后的核函数做铺垫。故原问题的对偶问题为

max w ⃗, b \sum i = 1 m α ⃗ i - 1 2 \sum i = 1 m \sum j = 1 m y i y j α ⃗ i α ⃗ j < x ⃗ i, x ⃗ j > s . t . ⎧ ⎩ ⎨ ⎪ ⎪ α ⃗ i \geq 0; \sum i = 1 m y i α ⃗ i = 0. i = 1, 2, . . ., m

$\begin{align*} &\max\limits_{\vec{w},b} \sum\limits_{i=1}^m \vec{\alpha}_i - \frac12 \sum\limits_{i = 1}^m \sum\limits_{j = 1}^m y_i y_j \vec{\alpha}_i \vec{\alpha}_j <\vec{x}_i,\vec{x}_j>\\ &\ \ {s}.{t}.\ \left\{ \begin{aligned} & \vec{\alpha}_i \ge 0; \\ & \sum\limits_{i=1}^m y_i \vec{\alpha}_i = 0. \end{aligned} \right.\quad i=1,2,...,m \end{align*}$

可见，我们将原问题最终转化为上式进行求解，通过解出 $\vec{\alpha}_i$ 的值后代回求得 $\vec{w},b$ ，即可得到超平面方程

f (x ⃗) = w ⃗ T x ⃗ + b = \sum i = 1 m α ⃗ i y i x ⃗ T i x ⃗ + b

$f(\vec{x}) = \vec{w}^T\vec{x}+b = \sum\limits_{i=1}^m\vec{\alpha}_i y_i \vec{x}_i^T\vec{x}+b$

4. KKT条件[1]

注意到原问题有不等式约束，在转化为拉格朗日式时需满足KKT条件(Karush-Kuhn-Tucker complementary condition)，即要求

⎧ ⎩ ⎨ ⎪ ⎪ α ⃗ i \geq 0; g i (w ⃗) \leq 0; α ⃗ i g i (w ⃗) = 0.

$\left\{ \begin{aligned} & \vec{\alpha}_i \ge 0;\\ & g_i(\vec{w})\le0;\\ & \vec{\alpha}_i g_i(\vec{w}) = 0. \end{aligned} \right.$

于是，对于任意训练样本 $(\vec{x}_i,y_i)$ 。若 $\vec{\alpha}_i = 0$ ，则该样本不会在模型的求和式中出现，也就不会对 $f(\vec{x})$ 有任何影响；若 $\vec{\alpha}_i > 0$ ，则必有 $y_i (\vec{w}^T\vec{x}_i+b) = 1$ ，所对应的样本点位于最大间隔边界上，是一个支持向量。这显示出支持向量机的一个重要性质：训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。