SVM全系列：从原理到python实现（一）：SVM原理

最新推荐文章于 2024-08-08 10:33:25 发布

我愛大泡泡

最新推荐文章于 2024-08-08 10:33:25 发布

阅读量1.8w

点赞数 11

分类专栏： Python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woaidapaopao/article/details/52664833

版权

机器学习同时被 2 个专栏收录

21 篇文章 5 订阅

订阅专栏

19 篇文章 1 订阅

订阅专栏

前言

本文开始主要介绍一下SVM的分类原理以及SVM的数学导出和SVM在Python上的实现。借鉴了许多文章，会在后面一一指出，如果有什么不对的希望能指正。

一、 SVM简介

首先看到SVM是在斯坦福的机器学习课程上，SVM是作为分类器在logisticregression的基础上引出的。其学习方法是把数据映射到一个高维空间上，使数据变稀疏，比较容易找到一个分割面来将数据分类，而这个高维的分割面就是超平面。而SVM做的就是找到这样一个超平面使得数据点离这个超平面尽可能的远，这样的分类效果才会好。

1、SVM起源Logistic回归（逻辑回归）

我也准备利用逻辑回归来引出SVM。首先我们要先理解什么是线性分类器，线性分类器就是通过特征的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷，因此通过sigmoid函数（这个函数的主要目的就是为了映射）映射到（0，1）上，得到属于y =1的概率，概率超过50%就定义为y=1。Logistic回归就是要学习得到θ，使得正例的特征远大于0，负例的特征远小于0，而且要在全部训练实例上达到这个目标。这就是最简单的一个线性分类过程，关于Logistic的详细过程请看我的其他博文。

2、SVM的分类思想

为了看起来方便我们将SVM的思想从一个二维的空间解释，上面的红绿点表示了两类数据，我们可以发现有很多的线（高维就是超平面）都可以将这两类分开，但是哪一种才是最好的呢？SVM想的是找到这样一个超平面：尽量使得正例反例之间的间隔最大，只希望离这个超平面近的点离平面越远越好，而不用所有点都离超平面很远，简单说就是只考虑局部就可以了。那么怎么衡量这个间隔呢？就是求点到面的距离就可以。

3、为了引出SVM需要进行变形（本质上是为了看起来方便）

可以看出其实SVM也是一个找线性组合的系数的过程，因为系数的本质就是这个超平面。为了进行SVM的计算我们要对Logistic提出的模型进行一些调整：

（1）把分类标签从（0，1）变到了（-1，1）（为什么后面会提到）

（2）将系数替换成w和b。认为并替换为b，其他的变为w，也就是

（3）改变了映射函数：，g()就是上面提到的映射函数，变成下面这种：

映射函数的目的就是为了让结果看上去更规整，其实真正起决定意义的还是的正负决定了分类结果。所以简单的将映射函数定义为-1或是+1也就是说，现在除了标签变化外，与logistic回归并没什么太大区别。

4、间隔的计算

经过了上面的一些转换，我们开始尝试计算间隔。好多文章在讲解这一部分的时候都是讲了函数间隔（functional margin）和几何间隔（geometric margin），我个人感觉这样讲有点舍近求远。

首先先用一个例子先把函数都表示出来。下面是一个分类表达的图，超平面可以用一个分类函数表示，f(x) =0表示x是处于超平面上的点，通过映射函数映射f(x)大于0被映射为y=+1，小于0则映射为y=-1。怎么表示分类正确呢？很明显只要y* f(x)是正的就可以了。

有了这个超平面的表达式我们就可以利用学过的知识计算点到平面的距离了。

把上面的公式去掉绝对值，定义到高维空间不难看出这其实就是：

为了达到上面公式中的绝对值效果，只要乘上y就可以了也就是：

上式得到的就是几何间隔，也就是点到平面的距离。分子上的就是函数间隔。

5、最优间隔分类器（optimal margin classifier）

我们已经得到了点到超平面距离的公式了，接下来就只要找到那个能够分割的超平面就可以了。前面已经说过，

只要数据点中离超平面最近的这个点离超平面远就可以（也就是其他点更远）。这其实是两个条件，一个是要max这

个最近距离，另一个约束条件是定义离超平面最近的点。

第一个目标函数可以定义为：

其中

约束条件可以定义为：

这里解释一下这个约束条件，因为所有点对应的是同一个超平面，相对的w和b是不变的，所以只要比较函数

间隔就可以了。

进一步通过变量替换约束条件两边同时除以函数间隔也就是：

经过变换推倒一下，其实这个就是其他文章经常说的可以令函数间隔为1的原因，其实目的就是为了简化计算。

再将目标函数经过取倒数、平方等等价计算，这样就推出我们常见的SVM的格式：

这样的变化相对于前面未变化的表达来说有一个好处：这样是个典型的二次规划问题（目标函数是自变量的二次函数）

，就可以用软件求解了。

上面所有总结为下面的直观的表示，中间的实线就是寻找到的最优超平面，超平面到两条虚线的距离相等，

这个距离就是我们几何间隔，而虚线上的点就是我们说的支持向量，我们看出这些支持向量满足

（在函数间隔定义为1的情况下），而对于不是支持向量的点，满足约束条件，这时也看出来当时定

义标签为+1和-1比较直观。

注：我们虽然定义了标签为+1，-1但也不是必须这样，比如我们定义标签为a和b，但是只要对约束条件进行相应变化

就好将上面公式中提到的y变为

（y-（a+b）/2）*((b-a)/2)

就可以了，其实并没有什么本质改变。

主要参考了：

http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html

http://blog.csdn.net/v_july_v/article/details/7624837 (最全面)

http://blog.csdn.net/zouxy09/article/details/17291543

我愛大泡泡

关注

11
点赞
踩
60

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

我愛大泡泡 CSDN认证博客专家 CSDN认证企业博客

码龄9年

42: 原创

17万+: 周排名

146万+: 总排名

45万+: 访问

: 等级

3451: 积分

603: 粉丝

251: 获赞

197: 评论

1043: 收藏

私信

关注

热门文章

分类专栏

最新评论

面试笔试整理3：深度学习机器学习面试问题准备（必会）
yyBlone: 补充笔记：梯度弥散（Gradient Vanishing）是指在神经网络的训练过程中，梯度值逐渐变小并趋于消失的现象。这会导致神经网络的参数更新变得困难，使得网络无法充分学习和适应训练数据。梯度弥散通常出现在深层神经网络中，特别是使用传统的激活函数（例如 sigmoid 或 tanh）时更为明显。在反向传播算法中，梯度是通过链式规则从输出层向输入层传播的，每个层都会乘上对应的权重矩阵，并经过激活函数。当层数较多时，由于连续乘法操作，梯度值会不断缩小，进而接近于零。
SVM原理介绍与Python实现（二）：SVM的推导过程
yufan_fw: 走心好文为什么没人赞呢
SVM原理介绍与Python实现（二）：SVM的推导过程
前端小白ing.: 好文
SVM全系列：从原理到python实现（一）：SVM原理
竹子酒: 写的不错
DEAP数据库的简介
m0_51326077: 你好，请问你获得deap数据集了吗，可不可以分享一下。3593232423@qq.com,十分感激

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。