支持向量机理论及用libsvm的实现

民大张家辉

于 2022-09-11 19:43:19 发布

阅读量437

点赞数

文章标签：支持向量机机器学习人工智能

本文链接：https://blog.csdn.net/weixin_44207711/article/details/126808452

版权

Section 1.最小间隔最大化

刚才不知道你们在看左面的图时，有没有这样一个问题 ——这样岂不是有无穷个超平面可以线性划分出正负类样本呢？？答案是确实，那么预测新样本的时候，我们应该选哪一个超平面作为决策边界呢？？

当然是最好的那个超平面啦。那怎么定义一个超平面比其他好呢，我们可以给这无穷个超平面定义一个新属性——”最小间隔（ min Margin）“

我们不妨把一个决策边界（超平面）的ωTx+b=0的 ⋆ min Margin ⋆ 定义为该超平面和两个样本群的最小距离的和 ⇓样本样本，其中样本样本到超平面的距离d+样本+d−样本，其中d±样本=min{样本xi到超平面的距离i=1,2,....n} 由此可知这个minMargin属性显然越大越好，因为minMargin越大，说明决策边界对于样本的容错率越高

Section 2.支撑向量：事实上，距离超平面最近的样本点就是我们所说的支撑向量（Support Vector）

但是这样由于距离是绝对值的缘故，也就意味着在这个距离之间的区域，只要法向量为 ω 的超平面都能满足这一距离和，那么这个属性仍然不能区分无穷个超平面之间的优劣。但是如果加一个限定条件的话就能解决这个问题了，即所有能够划分数据集的超平面必须满足样本样本d+样本−d−样本=0 ，这样即可确保超平面的唯一性，使我们求解最优条件更加容易。

而SVM的目标，即是找到所有满足限定条件的决策边界里minMargin最大的那一个。

用数学描述该优化问题的目标函数则是

f(w,b)=argmax( min|ωTxi+b|||w||),i=1,2,⋯,ns.t. yi(ωTxi+b)≥0(γ^xi≥1)

⇑ 其中 f 为 n+1 元函数， argmax 函数返回一个取到最大值minMargin时的坐标，而minMargin也就是样本点 xi 到超平面的距离 |ωTxi+b|||w|| 的最小值，函数下面的s.t. 表示 subject to ，意思是"约束于.."，这里的约束条件 yi(ωTxi+b)≥0 表示所有的样本都被正确的线性划分，即函数的所有点都基于满足正确划分的前提

{\color{green}{\begin{eqnarray} \label{eq} &又&∵ \alpha\boldsymbol{\omega}^T\boldsymbol x +\alpha b\Leftrightarrow\boldsymbol{\omega}^T\boldsymbol x + b， \alpha\in R^+\\ &∴&\exists \alpha\in R^+,使得\hat\gamma_{x_{sv} }=1 \end{eqnarray} }}{\color{green}{\begin{eqnarray} \label{eq} &又&∵ \alpha\boldsymbol{\omega}^T\boldsymbol x +\alpha b\Leftrightarrow\boldsymbol{\omega}^T\boldsymbol x + b， \alpha\in R^+\\ &∴&\exists \alpha\in R^+,使得\hat\gamma_{x_{sv} }=1 \end{eqnarray} }} 我们发现等式两边同乘实数 α 不改变超平面的法向量，所以我们无论遇到怎样的超平面，都显然可以通过选定一个合适的 α 使得支持向量 x0 与决策边界的函数间隔(function margin)放缩为 1

那么原目标函数就成了

※最大化等价于最小化是为了求导方便，平方是为了去掉范数函数带来的根号，注意约束条件修改为因为我们将支撑向量与边界的缩放为，而支撑向量又是离边界最近的样本点，所以任意样本与边界的函数间隔都应该比大f(w,b)=argmax(1||w||)⇔f(ω)=argmin(12||ω||2)s.t. yi(ωTxi+b)≥1(γ^xi≥1)※ 最大化1||w||等价于最小化12||w||2(12是为了求导方便，平方是为了去掉范数函数||w→||=w12+w22+⋯+wn2带来的根号，注意约束条件修改为γ^≥1,因为我们将支撑向量xsv与边界的γ^xsv缩放为1，而支撑向量xsv又是离边界最近的样本点，所以任意样本与边界的函数间隔γ^xi都应该比γ^xsv大

Section 3.硬间隔SVM(Hard Margin SVM)

f(ω,b)=argmin(12||ω||2)s.t. yi(ωTxi+b)≥1(γ^xi≥1) 可以注意到，刚才我们得到的目标函数是这样的，而SVM的目的就是找到最优的 ω 来确定超平面去完全划分正确的样本空间，这个过程也叫作硬间隔SVM(Hard Margin SVM)

硬间隔最大的好处就是能完完全全地正确划分出正负样本集合硬间隔SVM最大的好处就是能完完全全地正确划分出正负样本集合

但是.............可悲的是——如果样本空间是线性不可分的，，，

那么 f(ω) 将会遭遇 GAME OVER 的尴尬情况，也就是无解。这是为啥呢？咱们再看一下上次用到的例子

Section 4.软间隔SVM (Soft Margin SVM)

比如说这张图里的样本空间分布， SVM 使了吃奶的劲也找不到一个线性决策边界可以把两类样本区分开.......实在是惨烈，而屋漏偏遭连夜雨——现实世界当中的样本空间99%都是线性不可分的(╥╯^╰╥)

那怎么办？伟大的工人阶级先锋王进喜说过一句话

有条件上，没有条件创造条件也要上。

于是我们引入了软间隔SVM方法，这个方法与硬间隔SVM最大的区别就是可以处理线性可分&&线性不可分的样本空间，它是如何实现的呢？

既然想要继续用线性边界划分线性不可分的样本空间，那必然要做出一些妥协...........这个妥协就是我们为了顾全大局要容忍一些小错误

用数学语言来讲，就是在原来的目标优化函数中，引入一个松弛变量(slack variable) ξ 来容忍一定的误差，使SVM面对数据时有更强的鲁棒性(Robust)，而且对于每个样本 xi ，都有给予 xi 一定的容忍度 ξi ,使得 yi(ωTxi+b)≥?

这个 ? 其实就是我们松弛的目标——首先 ? 是用来控制函数间隔的最小值的

那么增大?增大 ,意味最近的 xi 离边界的函数间隔越来越远，也就是分类分的越彻底！但是在线性不可分情况下，因为我们只能选择线性边界，有的 xi 甚至被分到另一个类别了，那么它的函数间隔显然是 γ^xi<0 的，但我们想要顾全大局而容忍这个被分错一点点的样本！！所以就对于这个样本就让它的 γ^xi 稍微变大一些，怎么变大？当然是把原来的函数间隔加上容错度(✪ω✪) →γ^i+ξi 使得 γ^i+ξi≥1⇔γ^xi≥1−ξi

这个不等式的目的，其实就是假装本来分错的被边界分类成功了狗头↑这个不等式的目的，其实就是假装本来分错的xi被边界分类成功了(狗头) 但是一个很严肃的问题立马出现了，如果我把每个容忍度都设为无限大，那岂不是什么错误都能容忍了，所有样本都假装分对还有什么意义呢？

所以当然我们的目的是将整体样本的容忍度尽可能小一些

于是软间隔SVM的目标优化函数如下
f(ω,b,ξ)=argmin(12||ω||2+C∑i=1nξi)s.t.yi(ωTxi+b)≥1−ξi(γ^xi≥1−ξi)ξi≥0 紫色项紫色项右侧即为引入的松弛变量，我们对每个样本的容忍度 ξi 求和引入到目标函数中，以求取整体尽量小，而 C 是一个用来放缩松弛变量和 ∑i=1nξi 在整个目标函数中的权重的值，因为有的时候，有一些噪声样本会异常的偏离边界，我们可以选择放缩 C 来实现是否要容忍这些噪声样本

绿色项绿色项是新的不等式约束条件，也就是我们之前所说的 ? 那里。

下面 ξi≥0 限定了松弛变量，意思很显然，我们把 ξi 的值代表容忍度

那么如果 ξi<0 那岂不是代表 ξi 成了严肃度吗哈哈哈哈哈