令人头秃的支持向量机SVM(一）SVM分类

最新推荐文章于 2024-04-27 11:36:49 发布

江南汪

最新推荐文章于 2024-04-27 11:36:49 发布

阅读量589

点赞数

分类专栏：机器学习文章标签： svm 支持向量机机器学习

本文链接：https://blog.csdn.net/weixin_47156261/article/details/111345516

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

令人头秃的支持向量机SVM(一）SVM分类

任务
概念
解得w,b
- 对偶问题
总结

任务

有一天老师分配给我们一项任务：给定训练样本集，样本集包含不同类别，可能是二分类，可能是多分类，这里我们以二分类为例，训练集如下：
$(x_1,y_1),(x_2,y_2),\ldots(x_n,y_n)$
这里 $x_1,\ldots ,x_n$ 为向量， $y_1,\ldots ,y_n$ 为标签

上图是40个样本经过SVM分类的结果。
从图中我们看到这样几个关键信息:两条虚线，一条实线，蓝色点，棕色点，虚线上的点

概念

对于线性可分训练集来说，我们想将样本分成两类，在平面坐标系上是找一条直线将样本分开，但我们样本向量 $x_n$ 的维度即特征数目可能有很多个，这时我们需要找到一个超平面（图中的实线）将样本分开，

1.超平面

超平面的表达式为：
$w^Tx+b=0$
$\bf{w}$ 为向量， $\bf{x}$ 也为向量， $w^Tx$ 为一个数，b也为数。

仅仅只是为了将样本分开肯定是不行的，我们应该找到泛化能力最强的超平面，即对训练样本的局部扰动的容忍性最好，所以我们得使用评估指标来去定量分析模型好坏。

2.距离

首先，先回顾下点到平面的距离：
平面: $w_1x+w_2y+b=0$ ，则( $x_0,y_0$ )到平面的距离：
$d=\frac{\lvert w_1x+w_2y+b\rvert}{\sqrt{w_1^2+w_2^2}}$

训练样本上任意一个点到超平面的距离我们都能够计算出来：

点 $x_0$ 到超平面距离（几何间隔）：
$d=\frac{\lvert w^Tx_0+b\rvert}{\sqrt{w_1^2+w_2^2+\ldots+x_n^2}}=\frac{\lvert w^Tx_0+b\rvert}{\lVert w\lVert}$

距离（几何间隔）有大有小，几何间隔肯定是有一个最大值，怎么让几何间隔最大化呢？

3.支持向量

我们将图中的实线像两边“平移”得到两条虚线，当虚线碰到样本点时，该点就为支持向量，从图中我们可以看到有一个蓝色的支持向量和两个棕色的支持向量。
两个异类支持向量到超平面的距离之和：
$r=\frac{2}{\lVert w\lVert}$

最大化间隔 $r$ 是我们的优化目标

4.优化目标

将最大化 $r$ 变为最小化 $\lVert w\lVert$ ,
满足最大化间隔的前提是要满足将样本分类的要求，即对 $w$ 和 $b$ 要有约束，
具体优化目标和限制条件如下：

$min_w,_b \ \ \frac{1}{2}{\lVert w\lVert}^2$ $\ y_i(w^Tx_i+b)\geq 1\tag{公式1}$

解得w,b

对于公式1我们想要去求得约束条件w和b的值,由于目标函数 $\frac{1}{2}{\lVert w\lVert}^2$ 是涉及到二次项，而限制条件是一次项，这是一个二次规划问题。我们可以使用更高效，更聪明的方法，就是对于公式1使用拉格朗日乘子法将其变成对偶问题。
关于原始问题和对偶问题的数学关系其实理解比较复杂，包括一些疑问:
原始问题和对偶问题的关系
原始问题的解是否一定等于对偶问题的解?
关于这部分不懂的可以看看：
视频课浙江大学胡浩基（机器学习-原问题与对偶问题）
李航-统计学习方法-附录C

对偶问题

首先建立拉格朗日函数，引入拉格朗日乘子 $\alpha_i\geq 0,i=1,2,\ldots,N,$ ,定义拉格朗日函数：
$L(w,b,\alpha)=\frac{1}{2}{\lVert w\lVert}^2+\sum_{i=1}^N\alpha_i(1-y_i(w^Tx_i+b)\tag{公式2}$
**原始问题的对偶问题是极大极小问题：，即先求 $L(w,b,\alpha)$ 对 $w, b$ 的极小，再求对 $\alpha$ 的极大值： $max_\alpha min_w,_bL(w,b,\alpha)$

求 $min_w,_bL(w,b,\alpha)$
令 $L(w,b,\alpha)$ 对 $w, b$ 求偏导，然后令偏导数为0：
关于范数怎么求导：范数求导
$\nabla_w\ L(w,b,\alpha)=w-\sum_{i=1}^N\alpha_iy_ix_i=0$ $\nabla_b\ L(w,b,\alpha)=-\sum_{i=1}^N\alpha_iy_i=0\tag{公式3}$
得：
$w=\sum_{i=1}^N\alpha_iy_ix_i$ $\sum_{i=1}^N\alpha_iy_i=0\tag{公式4}$
将公式4代入拉格朗日函数（公式2）中，即得：
$L(w,b,\alpha)=\sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iu_jx_i^Tx_j\tag{公式5}$
公式5表示将 $w, b$ 代入公式消掉后得到 $L(w,b,\alpha)$ 与 $\alpha$ 的关系式，即转化为：
$min_w,_bL(w,b,\alpha)=\sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iu_jx_i^Tx_j\tag{公式6}$
注：我们直接解 $w, b$ 是不好解的，必须通过先解出 $\alpha$ 再得到 $w, b$ 。
再求 $min_w,_bL(w,b,\alpha)$ 对 $\alpha$ 的极大：
$max_\alpha L(w,b,\alpha)=\sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iu_jx_i^Tx_j$ $s.t.\sum_{i=1}^N\alpha_iy_i=0$ $\alpha_i\geq 0,i=1,2,\ldots,N\tag{公式7}$
下面仔细看！！！最妙的部分来了！！！
对公式7中的目标函数乘个负号，将 $max_\alpha L(w,b,\alpha)=\sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iu_jx_i^Tx_j$
变为：
$min_\alpha L(w,b,\alpha)=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iu_jx_i^Tx_j-\sum_{i=1}^N\alpha_i$
这样问题就变为：
$min_\alpha\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iu_jx_i^Tx_j-\sum_{i=1}^N\alpha_i$ $s.t.\sum_{i=1}^N\alpha_iy_i=0$ $\alpha_i\geq 0,i=1,2,\ldots,N\tag{公式8}$
将公式8与公式1对比会发现，我们将求解原始问题转化为对偶问题，完美的将求解 $w, b$ 的问题转变为先求解 $\alpha$ 再根据 $w, b$ 与 $\alpha$ 的关系求解 $w, b$ 。当时看到这里真的豁然开朗，不知道你有没有类似的感觉。
例：训练数据有三个点：正例点 $x_1=(3,3)^T,x_2=(4,3)^T，$ 负例点是 $x_3=(1,1)^T$ ,求线性可分支持向量机。
根据所给数据，对偶问题是：
$min_\alpha\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iu_jx_i^Tx_j-\sum_{i=1}^N\alpha_i$ $=\frac{1}{2}(\alpha_1* \alpha_1*1*1*18+\alpha_2* \alpha_2*1*1*25+\alpha_3* \alpha_3*(-1)*(-1)*2$ $+\alpha_1* \alpha_2*1*1*21*2+\alpha_1* \alpha_3*1*(-1)*6*2+\alpha_2* \alpha_3*1*(-1)*7*2)$ $-(\alpha_1+\alpha_2+\alpha_3)$ $=\frac{1}{2}(18\alpha_1^2+25\alpha_2^2+2\alpha_3^2+42\alpha_1\alpha_2-12\alpha_1\alpha_2-14\alpha_2\alpha_3)-(\alpha_1+\alpha_2+\alpha_3)$ $st.\ \alpha_1+\alpha_2-\alpha_3=0$ $\alpha_i\geq 0,i=1,2,3$
从现在这个目标函数和限制条件我们可以看出目标函数是关于未知量 $\alpha$ 的表达式，限制条件也是关于 $\alpha$ 的表达式。
所以要解决这个最优化问题，将 $\alpha_3=\alpha_1+\alpha_2$ 代入目标函数得到：
$s(\alpha_1,\alpha_2)=4\alpha_1^2+\frac{13}{2}\alpha_2^2+10\alpha_1\alpha_2-2\alpha_1-2\alpha_2$
有两个未知量 $\alpha_1$ , $\alpha_2$ ,分别对其求偏导数令导数为0,得到极值点 $(\frac{3}{2},-1)$ ,但我们要求 $\alpha_i\geq 0$ ,所以最小值应该在边界上取到。
当 $\alpha_1=0$ 时， $s(\alpha_1,\alpha_2)=\frac{13}{2}\alpha_2^2-2\alpha_2$ ,最小值为 $s(0,\frac{2}{13})=-\frac{2}{13}$
当 $\alpha_2=0$ 时， $s(\alpha_1,\alpha_2)=4\alpha_1^2-2\alpha_1$ ,最小值 $s(\frac{1}{4},0)=-\frac{1}{4}$
综上所述 $\alpha_1=\frac{1}{4},\alpha_2=0$ 达到最小，此时 $\alpha_3=\alpha_1+\alpha_2=\frac{1}{4}$
解得所有的 $\alpha_1,\alpha_2,\alpha_3$ 后求 $w, b$ ,
由公式4我们可以得到：
$w=\alpha_1y_1x_1+\alpha_2 y_2 x_2+\alpha_3y_3x_3$ $=\frac{1}{4}×1×x_1+0+\frac{1}{4}×(-1)×x_3=(\frac{1}{2},\frac{1}{2})^T$
$b=1-\frac{1}{2}(3+3)=-2$
分离超平面为：
$\frac{1}{2}x^1+\frac{1}{2}x^2-2=0$
分类决策函数为：
$f(x)=sign(\frac{1}{2}x^1+\frac{1}{2}x^2-2)$

总结

本篇博客主要是硬间隔最大化的算法，即训练数据是在理想的情况下，但在现实问题中训练数据集往往是线性不可分的，即在样本中出现噪声和特异点，这时需要去使用软间隔最大化算法，在下篇博客会详细介绍软间隔最大化
参考：
视频课浙江大学胡浩基（机器学习-原问题与对偶问题）
李航-统计学习方法-附录C
周志华-机器学习

江南汪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
令人头秃的支持向量机SVM(一）SVM分类

令人头秃的支持向量机SVM(一）SVM分类SVM到底能干什么？具体操作核函数SVM到底能干什么？在学习SVM之前大家肯定和我一样一脸困惑，不知道SVM支持向量机是什么，觉得好像很高大上。其实SVM就是在空间里面找到一个超平面将不同样本分开，但是真正让人惊叹的部分是核函数。具体操作线性可分：硬间隔线性不可分：软间隔核函数...
复制链接

扫一扫