SVM算法相关推导。[一]

最新推荐文章于 2024-05-06 21:43:07 发布

xingzhe2001

最新推荐文章于 2024-05-06 21:43:07 发布

阅读量1.4k

点赞数

文章标签： SVM 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xingzhe2001/article/details/82916907

版权

网上有很多介绍SVM的文章，csdn里写得最好的是

July大神的支持向量机通俗导论（理解SVM的三层境界），该文最初写于2012年6月，而后不断反反复复修改&优化，修改次数达上百次，最后修改于2016年11月。

下面的文章只是我自己的笔记。可以配合July的文章理解。我把理解SVM需要的参考资料概念都贴过来。包括对偶，朗格朗日乘子, KKT条件等理解SVM需要的概念等。

本文是学习吴恩达S229 机器学习课的关于SVM的笔记整理。

SVM主要是二分类算法, 通过支持向量，在很少的数据集上也能表现不错。而且SVM通过核函数，容易扩展到非线性空间。还有一个有点，SVM可以支持很多维甚至是无限维的特征空间。

SVM也可以扩展到回归算法SVR。或者多分类问题。

基本的符号表示

SVM里面函数的类别一般用-1，1来表示反例和正例。即

$y\in \{-1, +1\}$

定义一个g函数有

$g(z)=\left\{\begin{matrix} 1 &z >= 0\\-1 &otherwise \end{matrix}\right.$

那么针对线性情况有

$h_\theta (x)=g(\theta^Tx)$ 其中 $x\in\mathbb{R}^{n+1}$ 并且 $x_0=1$

其实就是

$h_{w,b}(x)=g(w^T+b)$

其中w就是特征向量, b就是截取值

$w=\begin{bmatrix} \theta_1 \\ \vdots \\ \theta_n\\ \end{bmatrix}$ ,

$b=\theta_0$

2. 间隔的概念

根据线性分类器的基础概念我们知道，要求一个超平面用来分割两类数据

超平面为

$w^Tx+b=0$

那么距离超平面的距离就是

$f(x)=w^Tx+b$

对每一个样本 $(x^{(i)}, y^{(i)})$ ，y值都是-1, 或1，所以样本距离超平面的距离总可以表示为

$\hat{y^{(i)}}=y^{(i)}(w^Tx^{(i)}+b)$

当 $y^{(i)}==1$ 的时候需要 $w^Tx^{(i)}+b\gg 0$

当 $y^{(i)}==-1$ 的时候需要 $w^Tx^{(i)}+b\ll 0$

如果样本的 $\hat{y^{(i)}}>0$ 则表示样本被正确分类。

每个样本都有一个距离，叫做函数间隔

$\hat\gamma=\underset{i}{\min}\ \hat{y^{(i)}} =\underset{i}{\min}\ y^{(i)}(w^Tx^{(i)}+b)$

几何间隔直观的理解就是点到直线的距离，度量为单位法线

$\frac{w}{\left \| w \right \|}$

这样已知一个采样点 $(x^{(i)}, y^{(i)})$ ，那么这个点沿着直线的法线反方向移动一段距离就可以到直线上的点。

$x^{(i)}-\gamma^{(i)}\cdot \frac{w}{\left \| w \right \| }$

这个距离 $\gamma^{(i)}$ 就是几何间距

因为得到的点在直线上，所以有

$w^T(x^{(i)}-\gamma^{(i)}\cdot\frac{w}{\left \| w \right \|})+b=0$

对该式求解 $\gamma^{(i)}$ :

$w^Tx^{(i)}+b=\gamma^{(i)}\frac{w^Tw}{\left \| w \right \|}=\gamma^{(i)}\left \|w\right\|$

因此有

$\gamma^{(i)}=(\frac{w}{\left\|w\right\|})^Tx^{(i)}+\frac{b}{\left\|w\right\|}$

考虑到y的取值范围为-1 或者 1，那么得到正的几何距离

$\gamma^{(i)}=y^{(i)}\left[\frac{w^T}{\left\|w\right\|}x^{(i)}+\frac{b}{\left\|w\right\|}\right]$

因此可以看出函数边界和几何边界的关系

$\gamma^{(i)}=\frac{\hat\gamma^{(i)}}{\left\|w\right\|}$

3. 最大间隔分类器

对真个训练集，几何间隔为

$\gamma=\underset{i}{\min } \ \gamma^{(i)}$

最大间隔分类器算法会选择w, b 使的 $\gamma$ 最大，即可以描述为

$\underset{\gamma,w,b}{\max}\ \gamma\\s.t\begin{cases} y^{(i)}(w^Tx^{(i)}+b)\geq \gamma \\ \left \|w\right\|=1 \end{cases}$

因为||w||=1是非凸性约束，我们考虑函数间隔

$\underset{\hat{\gamma},w,b}{\max}\ \frac{\hat{\gamma}}{\left\|w\right\|}\\ s.t.\ y^{(i)}(w^Tx^{(i)}+b)\geq\hat\gamma$

对w, b 任意缩放都不影响结果，所以不妨假设 $\hat\gamma=1$

这样我们最大话的目标其实是 1/||w||

因而我们的求解目标可以变为在约束下min||w||^2

$\underset{w,b}{\min}\ \left\|w\right\|^2\\ s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geq1$

这样就变成了凸优化问题。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
SVM算法相关推导。[一]

网上有很多介绍SVM的文章，csdn里写得最好的是July大神的支持向量机通俗导论（理解SVM的三层境界），该文最初写于2012年6月，而后不断反反复复修改&优化，修改次数达上百次，最后修改于2016年11月。下面的文章只是我自己的笔记。可以配合July的文章理解。我把理解SVM需要的参考资料概念都贴过来。包括对偶，朗格朗日乘子, KKT条件等理解SVM需要的概念等。本文是学...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。