SVM-3-最优间隔分类器

最新推荐文章于 2022-03-20 15:39:59 发布

yzheately

最新推荐文章于 2022-03-20 15:39:59 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习打基础

本文链接：https://blog.csdn.net/yzheately/article/details/50935505

版权

机器学习同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

打基础

33 篇文章 0 订阅

订阅专栏

参考http://www.cnblogs.com/jerrylead

在第一篇（SVM-1-问题描述）中我们得到了下面的优化问题：

min δ, w, b 1 2 | | w | | 2 s . t . y i (w T x i + b) \geq 1, i = 1, . . ., m

$\min_{\delta,w,b}\ \frac{1}{2}||w||^2\\ s.t.\ y^i(w^Tx^i+b) \geq 1,\ i=1,...,m$
把约束条件写成下面的形式:

g i (w) = - y i (w T x * + b) + 1 \leq 0

$g_i(w) = -y^i(w^Tx^*+b)+1 \leq 0$

这样就变成了在约束条件 $g_i(w) \leq 0$ 下，求 $\min_{\delta,w,b}\ \frac{1}{2}||w||^2$ 的最优化问题。

在KKT对偶互补条件中我们知道，当 $\alpha_i > 0$ 时， $g_i(w)=0$ ,即 $g_i(w) = -y^i(w^Tx^*+b)+1 =0$ ，也就是说 $y^i(w^Tx^*+b)=1$ ，即函数间隔等于1。
而当 $\alpha_i=0$ 时，一般而言 $g_i(w)<0$ （当然，少数情况下，也许、大概、可能也会有 $g_i(w)=0$ ，咱们忽略它，毕竟是少数。。。）。
我们看下面的图：
这里写图片描述
中间的实线是最大间隔超平面，上图中与超平面距离最近的样本有三个（这三个样本与超平面的距离相同），还记得在SVM-1-问题描述中我们将函数间距设为1吗？！也就是说，这三个样本与超平面的距离为1！
在图中还有两根虚线，它们与实线平行，且与实线的距离为1，也就是说，所有与超平面的距离为1的样本都在这两条虚线上。
之前说过距离为1，就要求 $g_i(w)=0,\alpha_i>0$ ，从图中可以看出，满足距离为1的样本只是少数，大多数情况下距离都是大于1的，即大多数情况下 $\alpha_i是等于0的$ 。

对于上面距离为1的样本有个专门的名字：“支持向量”。

现在将拉格朗日算子应用到我们的最优化问题中，构造拉格朗日函数如下：

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 m α i [y i (w T x * + b) - 1] (1)

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum^m_{i=1}\alpha_i[y^i(w^Tx^*+b)-1]\ \ \ \ \ \ \ \ (1)$
注意到这里只有

αi $\alpha_i$ 没有

βi $\beta_i$ 是因为原问题中没有等式约束，只有不等式约束。

下面考虑对偶问题

首先求解 $\min L(w,b,\alpha)$ ,对于固定的 $\alpha_i$ 该式的值只与 $w和b$ 有关，我们可以令 $\theta_D(\alpha)=\min_{w,b} L(w,b,\alpha)$ ,为了求 $\theta_D(\alpha)$ 的最小值，我们需要对 $L$ 求 $w和b$ 的偏导数：

▽ w L (w, b, α) = w - \sum i m α i y i x i = 0 进 而 可 得 ： w = \sum i m α i y i x i (2)

$\bigtriangledown_w L(w,b,\alpha) = w - \sum^m_i\alpha_iy^ix^i = 0\\ 进而可得：w=\sum^m_i\alpha_iy^ix^i\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)%$

\partial \partial b L (w, b, α) = \sum i = 1 m α i y i = 0 (3)

$\frac{\partial}{\partial b}L(w,b,\alpha) = \sum^m_{i=1}\alpha_iy^i=0\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3)$
将公式（2）带入（1）可得：

L (w, b, α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y i y j α i α j (x i) T x j - b \sum i = 1 m α i y i

$L(w,b,\alpha) = \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}y^iy^j\alpha_i\alpha_j(x^i)^Tx^j-b\sum^m_{i=1}\alpha_iy^i%$
推到如下（公式太多直接截图。。。）：
这里写图片描述

由公式（3）可知，最后一项为0，故上式可改写为：

L (w, b, α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y i y j α i α j (x i) T x j

$L(w,b,\alpha) = \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}y^iy^j\alpha_i\alpha_j(x^i)^Tx^j%$

上面是在 $\alpha$ 固定不变的前提下，求 $\min_{w,b} L(w,b,\alpha)$ ，现在开始求原问题的对偶问题：

max α W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y i y j α i α j < x i, x j > s . t . α i \geq 0, i = 1, . . ., m \sum i = 1 m α i y i = 0

$\max_\alpha W(\alpha) = \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}y^iy^j\alpha_i\alpha_j<x^i,x^j>\\ s.t.\ \alpha_i \geq 0, \ i=1,...,m\\ \sum^m_{i=1}\alpha_iy^i=0 %$
注：
1、

<xi,xj> <script type="math/tex" id="MathJax-Element-31"> </script>表示向量的内积，与

(xi)Txj $(x^i)^Tx^j$ 等价。
2、

αi $\alpha_i$ 此时当然已经不能再是一个固定的值了。
可以发现，上式是满足KKT条件的，因此我们可以用它来代替原始问题。
3、 现在只有一个参数 $\alpha$ 啦！

假如我们现在已经求出了 $\alpha$ ：
我们首先可以通过公式 $（2）w^*=\sum^m_i\alpha_iy^ix^i$ ，计算得到 $w^*$ 。
然后可以通过下式计算得到 $b^* %$ :

b * = - max i : y i = - 1 w * T x i + min i : y i = 1 w * T x i 2

$b^*=-\frac{\max_{i:y^i=-1}w^{*T}x^i+\min_{i:y^i=1}w^{*T}x^i}{2}\ \ \ %$
注：别问我为什么。。。。就是可以。。。

假设我们已经利用上面得到的参数训练完成一个模型，当输入一个新的样本时，将公式（2）带入 $w^Tx+b$ 我们就可以进行预测：

w T x + b = (\sum i = 1 m α i y i x i) T x + b = \sum i = 1 m α i y i < x i, x > + b

$w^Tx+b=(\sum^m_{i=1}\alpha_iy^ix^i)^Tx+b\\ =\sum^m_{i=1}\alpha_i y^i<x^i,x>+b$

即我们只需要计算输入样本与所有训练样本内积即可，另外还记得“支持向量”这个名词吧！对于上式中的 $\alpha_i$ 只有很少一部分支持向量的 $\alpha_i$ 才不等于0，因此并不需要与所有训练样本去做计算。

yzheately

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
SVM-3-最优间隔分类器

在第一篇（SVM-1-问题描述）中我们得到了下面的优化问题：minδ,w,b 12||w||2s.t. yi(wTxi+b)≥1, i=1,...,m\min_{\delta,w,b}\ \frac{1}{2}||w||^2\\s.t.\ y^i(w^Tx^i+b) \geq 1,\ i=1,...,m 把约束条件写成下面的形式: gi(w)=−yi(wTx∗+b)+1≤0g_i(w) = -
复制链接

扫一扫

专栏目录