SVM-6-规则化和不可分情况处理

最新推荐文章于 2022-04-22 17:58:17 发布

yzheately

最新推荐文章于 2022-04-22 17:58:17 发布

阅读量1k

点赞数 2

分类专栏：机器学习打基础文章标签： svm 支持向量机

本文链接：https://blog.csdn.net/yzheately/article/details/50971217

版权

机器学习同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

打基础

33 篇文章 0 订阅

订阅专栏

参考http://www.cnblogs.com/jerrylead

我们之前讨论的情况都是建立在样例线性可分的假设上，当样例线性不可分时，我们可以将特征映射到高维，这样很可能就可分了。然而，映射后我们也不能保证一定可分。从下图我们可以看出，当样本中有一个离群点时就会很大的影响到的超平面的位置。再有甚者，如果离群点在另外一个类中，那么这时候在当前维度就是线性不可分了。而我们也没有必要因为少量的这种样本而去继续映射升维。

那怎么办呢，我们需要将模型进行调整，以保证在不可分的情况下，也能够尽可能地找出分隔超平面。

为了能够应对这种问题，改写我们的优化问题如下：

min δ, w, b 1 2 | | w | | 2 + C \sum i = 1 m ξ i s . t . y i (w T x i + b) \geq 1 - ξ i, i = 1, . . ., m ξ i \geq 0, i = 1, . . ., m

$\min_{\delta,w,b} \frac{1}{2}||w||^2+C\sum^m_{i=1}\xi_i\\ \qquad\qquad\qquad s.t.\ y^i(w^Tx^i+b)\geq1-\xi_i,\ i=1,...,m\\ \qquad \xi_i\geq0, \ i=1,...,m$
其中

ξi $\xi_i$ 称为惩罚项（也叫 松弛变量）；C是一个权重，控制惩罚项对目标函数的影响程度。
因为现在的最小函数间距为

1−ξi $1-\xi_i$ 这样我们就允许存在函数间距小于1的样本了（也有可能小于0），并且在目标函数中要加上

Cξi $C\xi_i$ ，补偿计算函数距离时的损失。

模型修改后，拉格朗日公式也要修改如下：

L (w, b, ξ, α, r) = 1 2 w T w + C \sum i = 1 m ξ i - \sum i = 1 m α i [y i (x T w + b) - 1 + ξ i] - \sum i = 1 m r i ξ i

$L(w,b,\xi,\alpha,r)=\frac{1}{2}w^Tw+C\sum^m_{i=1}\xi_i-\sum^m_{i=1}\alpha_i \left [ y^i(x^Tw+b)-1+\xi_i \right ] -\sum^m_{i=1}r_i\xi_i$
上式中

α和r $\alpha和r$ 是拉格朗日算子（这里有两个不等式约束）。我们和之前一样将该式看作是变量 w 和 b 的函数，分别对其求偏导，并令导数为0，得到 w 和 b 的表达式。然后代入公式中，求带入后公式的极大值。整个推导过程类似以前的模型，这里只写出最后结果如下：

max α W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y i y j α i α j < x i, x j > s . t . 0 \leq α i \leq C, i = 1, . . ., m \sum i = 1 m α i y i = 0

$\max_\alpha\ W(\alpha)= \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}y^iy^j\alpha_i\alpha_j<x^i,x^j>\\ \qquad s.t.\ 0\leq\alpha_i\leq C,\ i=1,...,m\\ \sum^m_{i=1}\alpha_iy^i=0$
此时，我们发现没有了参数

ξi $\xi_i$ ,与之前模型唯一不同在于限制条件由

αi≥0 $\alpha_i\geq 0$ 变成了

0≤αi≤C $0\leq\alpha_i\leq C$ 。并且求

b∗ $b^*$ 的公式也变了。

此时的KKT对偶条件可以得出下面的结论：

α i = 0 \Rightarrow y i (w T x i + b) \geq 1 α i = C \Rightarrow y i (w T x i + b) \leq 1 0 < α i < C \Rightarrow y i (w T x i + b) = 1

$\begin{array}{lll} \alpha_i=0 \Rightarrow y^i(w^Tx^i+b)\geq 1\\ \alpha_i = C \Rightarrow y^i(w^Tx^i+b)\leq 1\\ 0<\alpha_i<C \Rightarrow y^i(w^Tx^i+b) =1 \end{array}$
第一个式子表明在两条间隔线外的样本点前面的系数为 0，离群样本点前面的系数为 C，而支持向量（也就是在超平面两边的最大间隔线上）的样本点前面系数在(0,C)之内。