![](https://i-blog.csdnimg.cn/blog_migrate/339104ec7bf3fe5b56600acc3b3b21ca.png)
支持向量
简单来说,什么是支持向量呢?从几何角度,对于线性可分数据集,支持向量机就是找距离正负样本都最远的超平面,相比于感知机,其解是唯一的,且不偏不倚,泛化性能更好。我们task04中讲到感知机,能将正负空间分开的都是感知机的最优解,但是支持向量再处理这个问题上就只有一个最优解。
先介绍一下几何间隔的概念:
![](https://i-blog.csdnimg.cn/blog_migrate/01d2616187f4a58b4f3bc5f68ea7fc4e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8bd7b01b8720169ce25bc90456fd0749.png)
在西瓜书中,关于支持向量的基本型如下:
![](https://i-blog.csdnimg.cn/blog_migrate/320073800bd02bdcb776f43615d8a8c3.png)
这里我们结合南瓜书,从机器学习三要素:模型、策略、算法,经行分析。
模型:给定线性可分数据集 ,支持向量机模型希望求得数据集 关于超平面的几何间隔 达到最大的那个超平面,然后套上一个 函数实现分类功能。
![](https://i-blog.csdnimg.cn/blog_migrate/3d2194af46784007e207349d0b93bef0.png)
策略:给定线性可分数据集 ,设 中几何间隔最小的样本为 ,那么支持向量机找超平面的过程可以转化为以下带约束条件的优化问题。
![](https://i-blog.csdnimg.cn/blog_migrate/3cdc65f24fd0ffcc167be49d44c2a9d2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9cebc53fece40c98a258ee4a535dd73c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/95f52e77d6d30e09f382efb86a6e0e24.png)
那对于这个问题应该如何求解呢?此优化问题为含不等式约束的优化问题,且为凸优化问题,因此可以直接用很多专门求解凸优化问题的方法求解该问题,在这里,支持向量机通常采用拉格朗日对偶来求解。
下面介绍拉格朗日函数
![](https://i-blog.csdnimg.cn/blog_migrate/603d312731800f36a580434e124f0425.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9898a975ce639bd09e4d4b5de811d8bd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c9074111d51c12e4f894e72c86e52b2c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c14284bf412d3e60e733ee9587206564.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3fe367d01b69c739e4f31bd290b4b638.png)
之后对相关问题的求解就一目了然了。
![](https://i-blog.csdnimg.cn/blog_migrate/d981ead59da7a6494b9ea7d5e6a12c4b.png)
而西瓜书中介绍的是SMO法:
![](https://i-blog.csdnimg.cn/blog_migrate/295616c68cb1acde1b286b8f0de07333.png)
这时候大家可能有疑问,为什么支持向量机通常都采用拉格朗日对偶求解呢?
1. 无论主问题是何种优化问题,对偶问题恒为凸优化问题,因此更容易求解(尽管支持向量机的主问题本就是凸优化问题),而且原始问题的时间复杂度和特征维数呈正比(因为未知量是 ),而对偶问题和数据量成正比(因为未知量是 ),当特征维数远高于数据量的时候拉格朗日对偶更高效;
2. 对偶问题能很自然地引入核函数,进而推广到非线性分类问题(最主要的原因)。
核函数:这一块南瓜书上介绍的已经很详细了,我们直接引用。
![](https://i-blog.csdnimg.cn/blog_migrate/30138fbac812728f7da145a0b2283865.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d28e12b7874e2e4e854a405ac4b6c077.png)
![](https://i-blog.csdnimg.cn/blog_migrate/91ccfb6414a53b981b011cdfe0b80432.png)
软间隔:从数学角度来说,软间隔就是允许部分样本(但要尽可能少)不满足下式中的约束条件。
![](https://i-blog.csdnimg.cn/blog_migrate/b3693edc14eb060c16b7538d64c60562.png)
![](https://i-blog.csdnimg.cn/blog_migrate/82d6973a0bd97730ae895e545c2cc7c8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8029790356774b872edeb34719afb6dc.png)
![](https://i-blog.csdnimg.cn/blog_migrate/065ec95fc11e859688c92ce8fb08727c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3c0aeba9fd8af7cef7e3d2de7f661fbf.png)
这就是常用的软间隔支持向量机。
支持向量回归:
![](https://i-blog.csdnimg.cn/blog_migrate/d9624631e706b511ee70c283c039219f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5f9889326dcb8ae3814980cacaa8b3e7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2b76ec650bb7811b0515f82dfd2d2be5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d3063674d9edde0b8378076774aab063.png)
注:这一块涉及到多个公式推导,本博客仅作记录和逻辑连接(个人水平有限),供二刷使用,如有不合理,请大家多多包涵。