支持向量机本质和理论推导

yuride

已于 2023-02-16 21:31:05 修改

阅读量97

点赞数

分类专栏：机器学习公式推导学习笔记文章标签：人工智能

于 2023-02-16 21:27:22 首次发布

本文链接：https://blog.csdn.net/weixin_43858206/article/details/129071260

版权

机器学习公式推导学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

支持向量机问题引入

现有一个二分类问题，如上图所示，我们需要通过一条直线，将五角星和圆这两种类别分开，由图我们可以观察到，我们可以画任意1条线进行分割，都可以完成二分类的任务，但是可以看到第一张图的分割线对于五角星距离太近，当计算出现一些误差时，就有可能出现分类出错的情况，同理，图二也一样，而图三的分割线就可以将五角星和圆圈分的很开。

通俗的来说，我们需要找到一条分割线使得尽可能开的将五角星与圆圈分开。

相关知识补充

我们想尽可能的将样本点分离开，那么在数学上的表达就是，样本点到线的距离越大，那么我们需要进行距离的求解。

首先我们定义一个如上图所示的超平面，我们想求得x到超平面的距离，基本思路是，过点x做到平面的垂线，那么这条垂线的长度就是x到平面的距离，但是我们这样直接求难以得到结果，所以我们将问题转换。
$\\ 我们将超平面表示为：w^Tx^{'}+b=0,\ \text{由于}x^{'}\text{与}x^{''}\text{都在超平面上，所以满足：}\\ \\ w^Tx^{'}+b=0\text{，}w^Tx^{''}+b=0\\ \\ \therefore w^Tx^{'}=-b,w^Tx^{''}=-b\\ \\ \because w\bot 超平面\\ ~\\ \because w^T\cdot \left( x^{''}-x^{'} \right) =0,\text{其中}x^{''}-x^{'}\text{表示超平面上的向量}\\ ~\\ x\text{到平面的距离转换为：}x-x^{'}\text{向量做与法向量方向一致的映射便能得到}x\text{到平面的垂直距离}\\ ~\\ dis\tan ce\left( x,b,w \right) =\left| \frac{w^T}{||w||}\left( x-x^{'} \right) \right|\\ ~\\ ps:\ \frac{w^T}{||w||}\text{表示法向量的单位方向}\\ ~\\ \because w^Tx^{'}=-b\\ ~\\ \therefore x^{'}=-b\left( w^T \right) ^{-1},\text{代入}dis\tan ce\text{得:}\\ ~\\ dis\tan ce\left( x,b,w \right) =\left| \frac{w^T}{||w||}\left( x+b\left( w^T \right) ^{-1} \right) \right|=\frac{1}{||w||}\left| \left( w^Tx+b \right) \right|\\ ~\\ \text{我们进行假设：}\\ ~\\ \text{我们一共有}n\text{个样本点，分别表示为:}\left( x_1,\ y_1 \right) ,\left( x_2,\,\,y_2 \right) \cdots \left( x_n,\,\,y_n \right) \\ ~\\ y\left( x \right) =w^T\varPhi \left( x \right) +b,\text{其中}\varPhi \left( x \right) \text{表示样本点}\\ ~\\ Y\text{为样本类别：}\\ ~\\ \text{当}X\text{为正例的时候}Y=+1,y\left( x_i \right) >0\Leftrightarrow y_i=+1\\ ~\\ \text{当}X\text{为负例的时候}Y=-1,y\left( x_i \right) <0\Leftrightarrow y_i=-1\\ ~\\ \text{可推出：}y_i\cdot y\left( x_i \right) >0\\ ~\\ Object:\ \text{找到一条直线，使得离该线最近的点能够离这条线最远}\left( \text{核心} \right) \\ ~\\ \text{用数学公式表达}\left( \text{找到一对}w,b\text{，使得}arg\max \left( w,b \right) \text{得到}\min \left( dic\tan ce \right) \right) \\ ~\\ dis\tan ce\left( x,b,w \right) =\frac{1}{||w||}\left| \left( w^Tx+b \right) \right|\\ ~\\ \because y_i\cdot y\left( x_i \right) >0,y\left( x \right) =w^T\varPhi \left( x_i \right) +b,y_i=\pm 1\\ ~\\ \therefore y_i\left( w^T\varPhi \left( x_i \right) +b \right) >0\\ ~\\ \therefore \text{我们利用}y_i\text{来去掉绝对值}\\ ~\\ \therefore dis\tan ce\left( x,b,w \right) =\frac{1}{||w||}\left| \left( w^Tx+b \right) \right|=\frac{y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right)}{\lVert w \rVert}\\ ~\\ \therefore Object\ function=\underset{w,b}{arg\max}\left\{ \frac{1}{\lVert w \rVert}\underset{i}{\min}\left[ y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \right] \right\} \\ ~\\ \text{为了计算简便，我们将}y_i\left( w^T\varPhi \left( x \right) +b \right) >0\text{左右两边同时进行放缩，使得不等式成立，即：}\\ ~\\ y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1,\text{那么显而易见，}\underset{i}{\min}\left[ y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \right] =1\\ ~\\ \therefore Object\,\,function=\underset{w,b}{arg\max}\frac{1}{\lVert w \rVert}\\ ~\\ \because \text{在机器学习中，我们擅长求极小值，而不是极大值}\\ ~\\ \therefore Object\,\,function=\underset{w,b}{arg\max}\frac{1}{\lVert w \rVert}\ \text{且}y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1\text{可以转换成：}\\ ~\\ Object\,\,function=\underset{w,b}{\min}\sqrt{\frac{1}{2}w^2}\,\,\text{且}y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1\ \ \ \left( \text{系数}\frac{1}{2}\text{方便求导操作，}w^2\text{用来去绝对值} \right) \\ ~\\ \because \text{我们得到的目标函数需要求}\underset{w,b}{\min}\frac{1}{2}w^2\text{并且同时需要满足}y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1\,\,\text{这个条件}\\ ~\\ \therefore \text{我们不能直接进行求导操作}\\ ~\\ \text{此时我们想到拉格朗日乘子法，其标准格式为：}\\ ~\\ \min\text{\ }f\left( x \right) \\ ~\\ s.t.\ g_i\left( x \right) \le 0,\ \ \ \ \ i=1,...,m\ \left( \text{约束条件} \right) \ \text{与上式相符}\\ ~\\ \because y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1\,\,\,\,\\ ~\\ \therefore 1-y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \le 0\\ ~\\ 我们将超平面表示为：w^Tx^{'}+b=0,\ \text{由于}x^{'}\text{与}x^{''}\text{都在超平面上，所以满足：}\\ ~\\ w^Tx^{'}+b=0\text{，}w^Tx^{''}+b=0\\ ~\\ \therefore w^Tx^{'}=-b,w^Tx^{''}=-b\\ ~\\ \because w\bot 超平面\\ ~\\ \because w^T\cdot \left( x^{''}-x^{'} \right) =0,\text{其中}x^{''}-x^{'}\text{表示超平面上的向量}\\ ~\\ x\text{到平面的距离转换为：}x-x^{'}\text{向量做与法向量方向一致的映射便能得到}x\text{到平面的垂直距离}\\ ~\\ dis\tan ce\left( x,b,w \right) =\left| \frac{w^T}{||w||}\left( x-x^{'} \right) \right|\\ ~\\ ps:\ \frac{w^T}{||w||}\text{表示法向量的单位方向}\\ ~\\ \because w^Tx^{'}=-b\\ ~\\ \therefore x^{'}=-b\left( w^T \right) ^{-1},\text{代入}dis\tan ce\text{得:}\\ ~\\ dis\tan ce\left( x,b,w \right) =\left| \frac{w^T}{||w||}\left( x+b\left( w^T \right) ^{-1} \right) \right|=\frac{1}{||w||}\left| \left( w^Tx+b \right) \right|\\ ~\\ \text{我们进行假设：}\\ ~\\ \text{我们一共有}n\text{个样本点，分别表示为:}\left( x_1,\ y_1 \right) ,\left( x_2,\,\,y_2 \right) \cdots \left( x_n,\,\,y_n \right) \\ ~\\ y\left( x \right) =w^T\varPhi \left( x \right) +b,\text{其中}\varPhi \left( x \right) \text{表示样本点}\\ ~\\ Y\text{为样本类别：}\\ ~\\ \text{当}X\text{为正例的时候}Y=+1,y\left( x_i \right) >0\Leftrightarrow y_i=+1\\ ~\\ \text{当}X\text{为负例的时候}Y=-1,y\left( x_i \right) <0\Leftrightarrow y_i=-1\\ ~\\ \text{可推出：}y_i\cdot y\left( x_i \right) >0\\ ~\\ Object:\ \text{找到一条直线，使得离该线最近的点能够离这条线最远}\left( \text{核心} \right) \\ ~\\ \text{用数学公式表达}\left( \text{找到一对}w,b\text{，使得}arg\max \left( w,b \right) \text{得到}\min \left( dic\tan ce \right) \right) \\ ~\\ dis\tan ce\left( x,b,w \right) =\frac{1}{||w||}\left| \left( w^Tx+b \right) \right|\\ ~\\ \because y_i\cdot y\left( x_i \right) >0,y\left( x \right) =w^T\varPhi \left( x_i \right) +b,y_i=\pm 1\\ ~\\ \therefore y_i\left( w^T\varPhi \left( x_i \right) +b \right) >0\\ ~\\ \therefore \text{我们利用}y_i\text{来去掉绝对值}\\ ~\\ \therefore dis\tan ce\left( x,b,w \right) =\frac{1}{||w||}\left| \left( w^Tx+b \right) \right|=\frac{y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right)}{\lVert w \rVert}\\ ~\\ \therefore Object\ function=\underset{w,b}{arg\max}\left\{ \frac{1}{\lVert w \rVert}\underset{i}{\min}\left[ y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \right] \right\} \\ ~\\ \text{为了计算简便，我们将}y_i\left( w^T\varPhi \left( x \right) +b \right) >0\text{左右两边同时进行放缩，使得不等式成立，即：}\\ ~\\ y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1,\text{那么显而易见，}\underset{i}{\min}\left[ y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \right] =1\\ ~\\ \therefore Object\,\,function=\underset{w,b}{arg\max}\frac{1}{\lVert w \rVert}\\ ~\\ \because \text{在机器学习中，我们擅长求极小值，而不是极大值}\\ ~\\ \therefore Object\,\,function=\underset{w,b}{arg\max}\frac{1}{\lVert w \rVert}\ \text{且}y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1\text{可以转换成：}\\ ~\\ Object\,\,function=\underset{w,b}{\min}\frac{1}{2}w^2\,\,\text{且}y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1\ \ \ \left( \text{系数}\frac{1}{2}\text{方便求导操作，}w^2\text{用来去绝对值} \right) \\ ~\\ \because \text{我们得到的目标函数需要求}\underset{w,b}{\min}\frac{1}{2}w^2\text{并且同时需要满足}y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1\,\,\text{这个条件}\\ ~\\ \therefore \text{我们不能直接进行求导操作}\\ ~\\ \text{此时我们想到拉格朗日乘子法，其标准格式为：}\\ ~\\ \min\text{\ }f\left( x \right) \\ ~\\ s.t.\ g_i\left( x \right) \le 0,\ \ \ \ \ i=1,...,m\ \left( \text{约束条件} \right) \ \text{与上式相符}\\ ~\\ \because y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ge 1\,\,\,\,\\ ~\\ \therefore 1-y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \le 0\\ ~\\ \therefore f\left( x \right) =\frac{1}{2}w^2,\ g_i\left( x \right) =1-y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) \ ,\,\,\,\,\,\,\,\,\,\,i=1,...,m\\ ~\\ \because L\left( \alpha \right) =f\left( x \right) +\alpha \,\,g_i\left( x \right) \ \left( \text{拉格朗日乘子法公式} \right) \\ ~\\ \therefore L\left( w,b,\alpha \right) =\frac{1}{2}w^2-\sum_{i=1}^n{\alpha _i\left( y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) -1 \right)}\\ ~\\ \min\text{\,\,}f\left( x \right) =\underset{w,b}{\min}\underset{\alpha}{\max}L\left( w,b,\alpha \right) \left( \text{找到一个}\alpha \text{使得}L\left( \alpha \right) \text{最大，进而使得}L\left( w,b,\alpha \right) \text{实现我们的目标} \right) \\ ~\\ \because \text{我们擅长求极小值，而不是极大值}\\ ~\\ \therefore \text{我们利用拉格朗日乘子法的对偶问题：}\\ ~\\ \underset{w,b}{\min}\underset{\alpha}{\max}L\left( w,b,\alpha \right) \Rightarrow \underset{\alpha}{\max}\underset{w,b}{\min}L\left( w,b,\alpha \right) \left( \text{求最大值里的最小的一个一定比最小值里最大的一个要大} \right) \\ ~\\ \text{分别对}w,b\text{求偏导得：}\\ ~\\ \frac{\partial L}{\partial w}=w-\sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right)}=0\Rightarrow w=\sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right)}\\ ~\\ \frac{\partial L}{\partial b}=\sum_{i=1}^n{\alpha _iy_i}=0\\ ~\\ \text{把}w=\sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right)}\text{，}\sum_{i=1}^n{\alpha _iy_i}=0\text{带入下式得：\ }\\ ~\\ L\left( w,b,\alpha \right) =\frac{1}{2}w^2-\sum_{i=1}^n{\alpha _i\left( y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) -1 \right)}\\ ~\\ =\frac{1}{2}\lVert w \rVert ^2-\sum_{i=1}^n{\alpha _i\left( y_i\cdot \left( w^T\cdot \varPhi \left( x_i \right) +b \right) -1 \right)}\\ ~\\ =\frac{1}{2}w^Tw-w^T\sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right) -b}\sum_{i=1}^n{\alpha _iy_i}+\sum_{i=1}^n{\alpha _i}\\ ~\\ =\frac{1}{2}\left( \sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right)} \right) ^T\left( \sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right)} \right) -\left( \sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right)} \right) ^T\left( \sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right)} \right) +\sum_{i=1}^n{\alpha _i}\\ ~\\ =\sum_{i=1}^n{\alpha _i}-\frac{1}{2}\left( \sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right)} \right) ^T\left( \sum_{i=1}^n{\alpha _iy_i\varPhi \left( x_i \right)} \right) \\ ~\\ =\sum_{i=1}^n{\alpha _i}-\frac{1}{2}\sum_{i=1,j=1}^n{\alpha _i\alpha _jy_iy_j\varPhi ^T\left( x_i \right) \varPhi \left( x_j \right)}\\ ~\\ \therefore \underset{w,b}{\min}L\left( w,b,\alpha \right) =\sum_{i=1}^n{\alpha _i}-\frac{1}{2}\sum_{i=1,j=1}^n{\alpha _i\alpha _jy_iy_j\varPhi ^T\left( x_i \right) \varPhi \left( x_j \right)}\ \\ ~\\ \text{接着求：}\\ ~\\ \underset{\alpha}{\max}L\left( \alpha \right) =\sum_{i=1}^n{\alpha _i}-\frac{1}{2}\sum_{i=1,j=1}^n{\alpha _i\alpha _jy_iy_j\varPhi ^T\left( x_i \right) \varPhi \left( x_j \right)}\text{，且}\sum_{i=1}^n{\alpha _iy_i}=0\text{，}\alpha _i\ge 0\\ ~\\ \because \text{求一个数的最大值就是求一个数相反数的极小值}\\ ~\\ \therefore \underset{\alpha}{\max}L\left( \alpha \right) =\sum_{i=1}^n{\alpha _i}-\frac{1}{2}\sum_{i=1,j=1}^n{\alpha _i\alpha _jy_iy_j\varPhi ^T\left( x_i \right) \varPhi \left( x_j \right)}\\ ~\\ \Rightarrow \underset{\alpha}{\min}L\left( \alpha \right) =\frac{1}{2}\sum_{i=1,j=1}^n{\alpha _i\alpha _jy_iy_j\varPhi ^T\left( x_i \right) \varPhi \left( x_j \right)}-\sum_{i=1}^n{\alpha _i},\text{且}\sum_{i=1}^n{\alpha _iy_i}=0\text{，}\alpha _i\ge 0\\ \\.$

例题引入：

如下图所示的训练数据集，其正例点是x1=(3,3), x2=(4,3),负例点是x3=(1,1)，试求最大间隔分离超平面？

$\\ \text{样本：}x_1\left( 3,\,\,3,\,\,1 \right) ,\,\,x_2=\left( 4,3,1 \right) ,\ x_3=\left( 1,\ 1,\ -1 \right) \\ ~\\ \text{求解：}\frac{1}{2}\sum_{i=1}^n{\sum_{j=1}^n{\alpha _i\alpha _jy_iy_j\left( x_i\cdot x_j \right)}}-\sum_{i=1}^n{\alpha _i},\text{且}\alpha _1+\alpha _2-\alpha _3=0\text{，}\alpha _i\ge 0\text{，\ }i=1\text{，\ 2，\ }3\\ ~\\ \text{样本带入得：}\\ ~\\ \frac{1}{2}\left( 18\alpha _{1}^{2}+25\alpha _{2}^{2}+2\alpha _{3}^{2}+42\alpha _1\alpha _2-12\alpha _1\alpha _3-14\alpha _2\alpha _3 \right) -\alpha _1-\alpha _2-\alpha _3\\ ~\\ \text{把}\alpha _1+\alpha _2-\alpha _3=0\Rightarrow \alpha _1+\alpha _2=\alpha _3\text{得：}\\ ~\\ L\left( \alpha \right) =4\alpha _{1}^{2}+\frac{13}{2}\alpha _{2}^{2}+10\alpha _1\alpha _2-2\alpha _1-2\alpha _2\\ ~\\ \text{分别对参数求导得：}\\ ~\\ \frac{\partial L}{\partial \alpha _1}=8\alpha _1+10\alpha _2-2=0\\ ~\\ \frac{\partial L}{\partial \alpha _2}=13\alpha _2+10\alpha _1-2\alpha _2=0\\ ~\\ \text{解得：}\alpha _1=1.5\text{，\ }\alpha _2=-1\ \text{不满足条件：}\alpha _i\ge 0\text{，\,\,}i=1\text{，\,\,2，\,\,}3\\ ~\\ \text{故最终的解应该为边界上的点：}\\ ~\\ \alpha _1=0\text{，\,\,对}\alpha _2\text{求偏导，解得}\alpha _2=-\frac{2}{13},\ \text{不满足条件：}\alpha _i\ge 0\text{，\,\,}i=1\text{，\,\,2，\,\,}3\\ ~\\ \,\alpha _2=0,\ \text{对}\alpha _1\text{求偏导，解得}\alpha _1=0.25\text{，}\alpha _1+\alpha _2=\alpha _3\Rightarrow \alpha _3=0.25\ \text{满足所有条件}\\ ~\\ \text{最小值在}\left( 0.25,\ 0,0.25 \right) \text{处取得\ }\\ ~\\ \because w=\sum_{i=1}^N{\alpha _iy_i\varPhi \left( x_i \right)},b=y_i-\sum_{i=1}^N{\alpha _iy_i\left( \varPhi \left( x_i \right) \cdot \varPhi \left( x_j \right) \right)}\\ ~\\ \text{带入}\alpha \left( 0.25,\,\,0,0.25 \right) \text{得：}\\ ~\\ w_1=w_2=0.5,b=-2\\ ~\\ \text{得到最大间隔分割超平面表达式为}0.5x_1+0.5x_2-2=0\\ ~\\ \\.$
观察上图我们能够发现：我们在求解分割超平面时由于 $\alpha _2=0$ ，所以我们其实并没有用到。
所以支持向量机的本质就是:在能够完全分开两类样本的前提下,找到相应的支持向量（本例中 $x _1,x_3$ （离分割线最近的两个向量））来支撑分割超平面使得间隔最小。