SVM的简介

最新推荐文章于 2024-08-09 17:50:54 发布

置顶纯纯的心儿

最新推荐文章于 2024-08-09 17:50:54 发布

阅读量1.2w

点赞数 2

分类专栏： datamining 文章标签：算法

本文链接：https://blog.csdn.net/zufejsjcy/article/details/51290109

版权

datamining 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

支持向量机，是一种非常好的算法，1992年提出，它的主要功能是分类和回归。接下来我们讲的是分类方面的概念和应用。

支持向量机，即supportvector machine ，它可分为线性支持向量机和非线性支持向量机。在支持向量机的分类模型中，我们首要的目的就是去找到一个最大边缘超平面（具体的下面将会介绍）。而在最大超平面的两边，有一对分别平行于最大超平面的平面，要想找到最大超平面，就得找到这样的两个平面到这个最大边缘超平面的距离最大。（读起来有点拗口，下面将会以图形来展示）。

下面将以图形的方式介绍一下线性支持向量机的一些内容。（下面我们的案例都认为数据的线性可分的。）

图1

如图1所示，假如我们想把黑色的正方形和空白的圆形分开，那么我们就得找一条线把他们分开，这样的线有很多条。

但是要想使得分类效果好，如图2所示，

B1和B2这两条线都可以把他们分开，但是B1的边缘明显大于B2的边缘，所以，我们需要找一条有最大边缘的线，把二种图形分开的明显一些。为什么边缘大的分类效果就好呢？打个比方，很多的点都在b21的虚线周围，那么我们有时候就很难去分辨他该属于哪一个类，假设我们以B2为最大边缘超平面，一个黑色的正方形位于b21的右方0.0002毫米处，那这样一来这个正方形就属于原形了，而我们知道，现在是存在B1的线使刚才的那个黑色正方形归为到黑色正方形的类中的，那么如果以B2为最大边缘超平面，这样就分类错误了。总的来说，寻找到一个最大边缘超平面的作用就是使得分类的误差达到最小。

那么，我们怎么样去找这样满足高分类效果的线呢？

下面我们将用函数的形式给出说明：

我们将线性支持向量机的最大边缘超平面写成如下的函数形式：

W和b是这个分类模型的两大参数。

图3

如图3所示，中间的那条实线为决策边界（就是上面所说的超平面），我们令

，当f（x）=0的时候，为决策边界。当f(x)=1或f(x)=-1的时候，为两个平行于决策边界的超平面，而在这两个超平面上面的点也就是支持向量。我们需要这俩个超平面到这个决策边界的距离最大，那么我们将转化到下面的式子：

。两式相减，我们将得到,

然后转化为

，其中 ||W||为欧几里得范数，||W||=根号下（w*w）（这里作为了解下）。因此，我们得到的d为最大的边缘。那么也可以得到我们需要最小的||W||，使得最大化的d。

从上面的说的，我们可以知道，W是我们关键找的一个向量，在支持向量机的训练过程中，主要是获得w，一旦我们有了一个训练后的支持向量机（这个向量机保证了最大的边缘超平面，使得在此数据集下有较好的分类精度）。我们就可以用对于的SVM来对线性可分的数据进行分类。。。。。然后给上面训练后的支持向量机一个名称，为线性支持向量机。

所以，学习训练后的分类器的复杂度由支持向量的数目而不是由数据的维数来刻画。

好，到此为止，我们可以简单的了解了支持向量机的一个分类方式和分类的要求，也差不多能学会去怎么进行一个分类，但是我们没有了解他是怎么去训练的，这个我们可以不知道，因为太复杂。然后我们来看点高级的分类。

如图所示，