支持向量机SVM

最新推荐文章于 2023-06-26 23:51:24 发布

paradise smile

最新推荐文章于 2023-06-26 23:51:24 发布

阅读量549

点赞数

文章标签：支持向量机机器学习算法

本文链接：https://blog.csdn.net/weixin_46557333/article/details/127309517

版权

支持向量机SVM

1.SVM历史

最早是由Vladimir N. Vapnik 和Alexey Ya.Chervonenkis在1963年提出
目前的版本(soft margin)是由Corinna Cortes和Vapnik在1993年提出，并在1995年发表
深度学习(2012)出现之前，SVM被认为是机器学习近十年来最成功的，表现最好的算法

SVM寻找区分两类的超平面(hyper plane)，使边际(margin)最大

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Ki7cOlT-1665666204052)(C:\Users\25016\AppData\Roaming\Typora\typora-user-images\image-20221012183127690.png)]$

向量内积

$\begin{Bmatrix} x_1\\ x_2\\ ...\\ x_n \end{Bmatrix} \quad\quad\quad\quad\quad \begin{Bmatrix} y_1\\ y_2\\ ...\\ y_n \end{Bmatrix}$

向量内积：
$x\cdot y = x_1y_1 + x_2y_2 + ...+x_ny_n$
向量内积：
$x\cdot y = \begin{Vmatrix}x \end{Vmatrix}\begin{Vmatrix}y \end{Vmatrix}cos(\theta)$
范数：
$\begin{Vmatrix}x \end{Vmatrix} = \sqrt {x\cdot x} = \sqrt{x_1^2 + x_2^2 + x_3^2+...x_n^2}$
当||x|| ≠ 0, ||y||≠0时，可以求余弦相似度：
$cos(\theta) = \frac{x\cdot y}{\begin{Vmatrix}x\end{Vmatrix}\begin{Vmatrix}y \end{Vmatrix}}$
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iFDRxkHc-1665666204053)(C:\Users\25016\AppData\Roaming\Typora\typora-user-images\image-20221012184341778.png)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-32Tszljq-1665666204053)(C:\Users\25016\AppData\Roaming\Typora\typora-user-images\image-20221013104116119.png)]$

一些推导

$w\cdot x + b = 1 \\ w \cdot x + b = -1 \\ w \cdot (x_1 - x_2) = 2 \\ \begin{Vmatrix}w\end{Vmatrix}\begin{Vmatrix}(x_1 - x_2)\end{Vmatrix}cos(\theta) = 2\\ \begin{Vmatrix}w\end{Vmatrix}*d = 2\\ d = \frac{2}{\begin{Vmatrix}w\end{Vmatrix}}$

转为凸优化

$w\cdot x + b \geq 1,则分类y=1\\ w \cdot x + b \leq 1,则分类y=-1\\ 则y(w\cdot x + b) \geq 1 \\ 求d = \frac{2}{\begin{Vmatrix}w\end{Vmatrix}}最大值，也就是求min\frac{{\begin{Vmatrix}w\end{Vmatrix}}^2}{2}$

凸优化问题

无约束优化问题： min f(x)

----费马定理
带等式约束的优化问题： min f(x)

—拉格朗日乘子法：s.t. h_i(x) =0, i=0, 1, 2…n
$L(x,\lambda) = f(x) + \sum_{i=1}^{n}\lambda_ih_i(x)$
带不等式约束的优化问题： min f(x)

—KTT条件 s.t. h_i(x) = 0, i=1, 2,…,n

g_i(x) ≤ 0， i=1,2,…,k
$\lambda, v) = f(x) + \sum_{i=1}^{k}\lambda_ig_i(x)+\sum_{i=1}^nv_ih_i(x)$

广义拉格朗日乘子法

$\frac{1}{2}\begin{Vmatrix}w\end{Vmatrix}^2 - \sum_{i=1}^{n}\alpha_i(y_i(w^Tx_i+b)-1)$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V4f7x3D7-1665666204053)(C:\Users\25016\AppData\Roaming\Typora\typora-user-images\image-20221013111610116.png)]$

$\frac{\partial L}{\partial w} = 0 \to w = \sum_{i=1}^{n}\alpha_iy_ix_i$

$\frac{\partial L}{\partial b} = 0 \to \sum_{i=1}^n\alpha_iy_i = 0$

进一步简化为对偶问题

上述问题可以改写为：
$\min\limits_{w, b} \max\limits_{a_i\ge0}L(w,b, \alpha) = p^*$
可以等价为下列对偶问题：
$\max\limits_{a_i\ge0}\min\limits_{w, b}L(w, b, \alpha) = d^*$
把w和b消除掉
$\alpha) = \sum_{i=1}^{n}\alpha_i - \frac{1}{2}\sum_{i, j = 1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j$

$\max\limits_{a_i\ge0}\min\limits_{w, b}L(w, b, \alpha) = \max\limits_{\alpha}[\sum_{i=1}^{k}\alpha_i - \frac{1}{2}\sum_{i, j = 1}^{k}\alpha_i\alpha_jy_iy_j(x_i)^Tx_j]$

约束条件：
$\sum_{i=1}^ka_iy_i = 0, \quad\quad a_i\ge0, i=1,2,....n$
进一步转化为
$\min\limits_{\alpha}[-\sum_{i=1}^{k}\alpha_i + \frac{1}{2}\sum_{i, j =1}^{k}\alpha_i\alpha_jy_iy_j(x_i)^Tx_j] = \min\limits_{\alpha}[-\sum_{i=1}^{k}\alpha_i + \frac{1}{2}\sum_{i, j = 1}^{k}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)]$
由此可以求出最优解α*，求出该值后将其带入可以得到：
$w^* = \sum_{i=1}^{n}a_i^*y_ix_i$

$b^* = y_i - (w^*)^Tx_i$

SMO算法

Microsoft Research的John C.Platt在1998年提出针对线性SVM和数据稀疏时性能更优

基本思路：先根据约束条件随机给α赋值。然后每次选取两个α，调节这两个alpha使得目标函数最小。然后再选取两个α，调节α使得目标函数最小。以此类推

SVM简单实例

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rxgUIKfk-1665666204054)(C:\Users\25016\AppData\Roaming\Typora\typora-user-images\image-20221013160944408.png)]$

可知目标函数为
$\min\limits_{\alpha}f(\alpha), \quad\quad s.t. \alpha_1 + \alpha_2 - \alpha_3 = 0,\quad\quad \alpha_i\ge0,i=1,2,3$
其中
$f(\alpha) = \frac{1}{2}\sum_{i,j=1}^{3}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^3\alpha_i\\ = \frac{1}{2}(18\alpha_1^2+25\alpha_2^2+2\alpha_3^2+42\alpha_1\alpha_2-12\alpha_1\alpha_3-14\alpha_2\alpha_3) - \alpha_1 - \alpha_2 - \alpha_3$
然后，将α3 = α1 + α2带入到目标函数，得到一个关于α1和α2的函数
$s(\alpha_1,\alpha_2) = 4\alpha_1^2 + \frac{13}{2}\alpha_2^2 + 10\alpha_1\alpha_2 - 2\alpha_1-2\alpha_2$
对α1和α2求偏导数并令其为0，易知s(α1，α2)在点（1.5， -1）处取极值。而该点不满足αi≥0的约束条件，于是可以推断最小值在边界上达到。经计算当α1 = 0时，s(α1=0,α2=2/13)=-0.1538;当α2=0时，s(α1=1/4, α2=0)=-0.25.于是s(α1,α2)在α1=1/4，α2=0时取得最小值，此时亦可以算出α3 = α1 + α2 = 1/4.因为α1和α3不等于0，所以对应的点x1和x3就应该是支持向量。
$w^* = \sum_{i=1}^{3}a_i^*y_ix_i = \frac{1}{4}\cdot (3,3) + \frac{1}{4}(1, 1) = (\frac{1}{2}, \frac{1}{2})$
即w1 = 0.5, w2=0.5,进而有
$b^* = 1-(w_1, w_2)\cdot(3, 3) = -2$
因此最大间隔分类超平面为
$\frac{1}{2}x_1 + \frac{1}{2}x_2 - 2 = 0$
分类决策函数为
$sign(\frac{1}{2}x_1+\frac{1}{2}x_2-2)$