SVM算法推导过程

最新推荐文章于 2023-02-07 10:16:43 发布

是谁注册了我的2052

最新推荐文章于 2023-02-07 10:16:43 发布

阅读量636

点赞数

分类专栏：数据挖掘文章标签： SVM

本文链接：https://blog.csdn.net/weixin_44769733/article/details/120245863

版权

数据挖掘专栏收录该内容

12 篇文章 0 订阅

订阅专栏

SVM算法

SVM:支持向量机

目的:解决感知机的问题

感知机问题:

1.泛化能力弱

2.只关注错误点,不考虑各类别的分布,就会出现过拟合

一:SVM介绍

1.svm思想

数据集中的点在分割之后离超平面越远越好

分割:理解为函数 f

超平面:理解为参数W , 决定函数的集合

分割和超平面理解为: f(W)

越远越好:

越远则预留的空间越大,可以容纳更多新的数据点,解决泛化能力
多个类别的时候要综合考虑类与类之间的距离

二.SVM模型

需要解决两个问题:

1.距离计算 max[marg(Wi,Xi)]

2.s.t 前提:所有分类都正确

wx>0 , y=1
wx<0 , y=-1
综合以上得出 y*wx>0

如图:

在这里插入图片描述

$\\ s.t前提 y × (wx) > 0 \\ max[marg(W,X)]$

三:SVM三个过程:间隔(建模),对偶(求解),核函数(升核)

3.1 间隔(建模)

第一步:距离公式和前提约束

$距离公式:max{\frac{|W^TX+b|}{||W||}} \\ 约束:s.t : y_i(W^Tx_i+b)>0$

第二步:只需要考虑离超平面最近的点与超平面的距离即可

在这里插入图片描述

$只考虑离超平面最近的点:max(min{\frac{|W^TX+b|}{||W||}}) \\ 约束:s.t : y_i(W^Tx_i+b)>0 , 假设存在α>0,则 y_i(W^Tx_i+b)=α>0 \\ 所以 s.t: min(y_i(W^Tx_i+b))=α>0 \\ 因为: y∈[-1,1] \\ 所以:s.t : min|W^Tx_i+b|=α$

第三步:简化距离公式

$max\frac{α}{||W||} \\ s.t:min(y_i(W^Tx_i+b))=α$

第四步:缩放α

$\\ max\frac{1}{||W||} \\ s.t:min(y_i(W^Tx_i+b))=1$

第五步:根据二范式 ||W|| ,即W的平方再简化

$max\frac{1}{||W||}=min||W||=minW^TW \\ s.t:min(y_i(W^Tx_i+b))=1 即 y_i(W^Tx_i+b)>=1 \\ 这一步结论: \\ minW^TW \\ s.t:y_i(W^Tx_i+b)>=1$

第六步:数学上称为QP问题

$凸优化:minW^TW \\ N个约束,因为x_i∈[1,N] , s.t:y_i(W^Tx_i+b)>=1$

3.2 对偶(求解)

推导过程:有约束->无约束->对偶,上面结论是有约束

3.2.1 无约束推导过程:

$\\ minW^TW*\frac{1}{2} \\ s.t : 1-y_i(W^Tx_i+b)<=0 \\ 转化成拉格朗日函数:拉格朗日函数的约束 s.t:λ_i>0 , 表达式L(w,b,λ),求max(L(w,b,λ)) \\ L(w,b,λ)=\frac{1}{2}W^TW+\sum_{i=1}^{N}λ_i(1-y_i(W^Tx_i+b)) \\ s.t:λ_i>0 \\ 因为拉格朗日求max(L(w,b,λ)),同时拉格朗日中的1-y_i(W^Tx_i+b)不再限制范围,则可以假设 \\ 假设1:1-y_i(W^Tx_i+b)>0,则max(L(w,b,λ))趋近于 +∞ \\ 假设2:1-y_i(W^Tx_i+b)<0,则max(L(w,b,λ))趋近于 \frac{1}{2}W^TW \\ 所以:最终结合SVM和拉格朗日公式表达式=min(max((L(w,b,λ))) , 这个min是来自于距离公式 \\ SVM模型等价于 min(max((L(w,b,λ))) \\ 再根据拉格朗日公式的取值范围(+∞,\frac{1}{2}W^TW) \\ 所以:min(max((L(w,b,λ)))=min(+∞,\frac{1}{2}W^TW)=min(\frac{1}{2}W^TW) \\ 最终求解的是无约束的函数:min(\frac{1}{2}W^TW)$

3.3.2 对偶求解过程

第一步:对偶

因为对偶,所以符从下面转换
$\frac{min}{W}\frac{max}{λ}L(W,λ,b) = \frac{max}{λ} \frac{min}{W}L(W,λ,b)$

第二步:求导

$L(W,λ,b)=\frac{1}{2}W^TW+\sum_{i=1}^{N}\lambda_i(1-y_i(W^Tx_i+b)) \\ 求极值,就是当导数=0的情况下,所以需要对函数进行求导 \\ 1.对W求导,\frac{\partial L(W,λ,b)}{\partial W}=W-\sum_{i=1}^{N}\lambda_iy_ix_i=0,所以W=\sum_{i=1}^{N}\lambda_iy_ix_i \\ 2.对b求导,\frac{\partial L(W,λ,b)}{\partial b}=-\sum_{i=1}^{N}\lambda_iy_i=0,所以\sum_{i=1}^{N}\lambda_iy_i=0$

第三步:把第二步的结果代入函数,使用特殊符号代替W,简化函数书写

$从第二步结果中,使用\Delta 代替W,简化书写 \\ 第二步结果:1.\Delta=W=\sum_{i=1}^{N}\lambda_iy_ix_i ,2. \sum_{i=1}^{N}\lambda_iy_i=0 \\ 代入函数简化之后L = \frac{1}{2}\Delta^T\Delta+\sum_{i=1}^{N}\lambda_i-\sum_{i=1}^{N}\lambda_iy_i(\Delta^Tx_i+b) \\ = \frac{1}{2}\Delta^T\Delta+\sum_{i=1}^{N}\lambda_i-\sum_{i=1}^{N}\lambda_iy_i\Delta^Tx_i-\sum_{i=1}^{N}\lambda_iy_ib \\ 因为 \sum_{i=1}^{N}\lambda_iy_i=0,所以最终 L=\frac{1}{2}\Delta^T\Delta+\sum_{i=1}^{N}\lambda_i-\sum_{i=1}^{N}\lambda_iy_i\Delta^Tx_i$

第四步:由于第三步简化之后,是需要条件的,所以最终结果是带约束的函数

$\frac{max}{\lambda}L(\lambda) =\frac{1}{2}\Delta^T\Delta+\sum_{i=1}^{N}\lambda_i-\sum_{i=1}^{N}\lambda_iy_i\Delta^Tx_i \\ s.t: \lambda_i\geq0 , \sum_{i=1}^{N}\lambda_iy_i=0$

现在函数 L(λ) 就是关于 λ 的函数,可以通过拉格朗日 / 梯度下降的范式求解得到 λ 的值

然后通过 λ 的值再反推 W 的值,

第五步:通过KKT条件求解 b 的值

$KKT条件\begin{cases} \frac{\partial L(\lambda)}{\partial \lambda} \\ 1-y_i(W^Tx_i+b)\leq0 \\ \lambda_i \geq0 \\ \lambda_i(1-y_i(W^Tx_i+b))=0 , 这个公式是KKT条件的最重要的 \end{cases}$

通过KKT条件进行求解b:
$\lambda_i(1-y_i(W^Tx_i+b))=0 成立,所以 \\ 1.当 \lambda_i=0时,1-y_i(W^Tx_i+b) 可以不等于0 , 这部分数据代表非最接近超平面的点 \\ 2.当 \lambda_i\neq0时,1-y_i(W^Tx_i+b)=0,这部分数据代表距离超平面最近的点,看下图解释$

解释一下哪些是离超平面最接近的点:
在这里插入图片描述

由于缩放的结果,可以使用离超平面最近的点的数据可以求得 b 的值:
$1-y_i(W^Tx_i+b)=0 , 把离超平面最近的点(x_i,y_i)代入公式,即可得到 b 的解$

是谁注册了我的2052

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SVM算法推导过程

SVM算法SVM:支持向量机目的:解决感知机的问题感知机问题:1.泛化能力弱2.只关注错误点,不考虑各类别的分布,就会出现过拟合一:SVM介绍1.svm思想数据集中的点在分割之后离超平面越远越好分割:理解为函数 f超平面:理解为参数W , 决定函数的集合分割和超平面理解为: f(W)越远越好:越远则预留的空间越大,可以容纳更多新的数据点,解决泛化能力多个类别的时候要综合考虑类与类之间的距离二.SVM模型需要解决两个问题:1.距离计算 max[marg(Wi,Xi)]
复制链接

扫一扫

专栏目录