机器学习支持向量机

最新推荐文章于 2024-04-12 10:32:11 发布

EdVzAs

最新推荐文章于 2024-04-12 10:32:11 发布

阅读量120

点赞数

文章标签：机器学习 SVM 人工智能

本文链接：https://blog.csdn.net/weixin_46131409/article/details/113120248

版权

机器学习专栏收录该内容

66 篇文章 5 订阅

订阅专栏

一.概述

参见:https://zhuanlan.zhihu.com/p/77750026

1.概念
(1)支持向量:

样本中距指定超平面最近的点称为"支持向量"(Support Vector)

在这里插入图片描述
(2)支持向量机:

"支持向量机"(Support Vector Machine;SVM)是常用的监督学习分类算法,最早由Vladimir N. Vapnik和Alexey Ya. Chervonenkis于1963年
提出.而目前的版本由Corinna Cortes和Vapnik于1993年提出.在2012年深度学习出现以前,SVM被认为是机器学习中最成功,表现最好的算法.其基本
思想是找到1个"超平面"(Hyper Plane)使2个类别的样本分别位于超平面2侧.为使该超平面更具健壮性,该超平面应使支持向量到该超平面的距离最大,
称为"最大间隔超平面"(Maximum Margin Hyperplane;MMH).基于该思想,SVM有时也被称为"大间距分类器"(Large Margin Classifier)

在这里插入图片描述
(3)线性可分与线性不可分:

设 $D_0,D_1$ 是 $n$ 维欧氏空间中的2个点集.若 $w∈R^n,b∈R$ ,使对 $x_i∈D_0$ 有 $w\,·x_i+b>0$ ,而对 $x_j∈D_1$ 有 $w\,·x_j+b<0$ ,则称 $D_0,D_1$ 线性可分(Linearly Separable);否则,称 $D_0,D_1$ 线性不可分(Linearly Inseparable)

在这里插入图片描述
2.公式推导
(1)公式推导:

设超平面为 $w^T·x+b=0$ 其中向量 $w=(w_1,w_2...w_n)^T$ 表示权重(Weight)或超平面的方向,b表示偏好(Bias)或超平面距原点的距离.由于支持向量到超平面的距离为 $d$ ,故 $\begin{cases}\frac{w^T·\,x+b}{||w||}≥d\,(y=1)\\\frac{w^T·\,x+b}{||w||}≤-d\,(y=-1)\end{cases}$ 转化得到 $\begin{cases}\frac{w^T·\,x+b}{||w||·\,d}≥1\,(y=1)\\\frac{w^T·\,x+b}{||w||·\,d}≤-1\,(y=-1)\end{cases}$ 令 $||w||\,·d=1$ (这对目标函数的优化没有问题),得到 $\begin{cases}w^T·\,x+b≥1\,(y=1)\\w^T·\,x+b≤-1\,(y=-1)\end{cases}$ 将方程组合并为 $y(w^T·x+b)=|w^T·x+b|≥1$

由于 $d=\frac{|w^T·x+b|}{||w||}$ ,故 $d=\frac{y(w^T·x+b)}{||w||}$ 于是目标为 $\max\,{\frac{2y(w^T·x+b)}{||w||}}$ 其中系数2是为了便于推导而添加的.将目标转化为 $\max\,{r=\frac{2}{||w||}}$ 其中 $r$ 称为间隔(Margin).再转化为 $\qquad\qquad\:\:\min{\frac{||w||^2}{2}}\qquad(1)\\s.t.\quad y_i(w^T·x_i+b)≥1$ 其中平方是为了便于计算而添加的.通过拉格朗日乘数法可将 $(1)$ 式转换为对偶问题(Dual Problem).具体来说,该问题的拉格朗日函数为 $L(ω,b,α)=\frac{||w||^2}{2}+\displaystyle\sum_{i=1}^mα_i[1-y_i(ω^Tx_i+b)]\qquad(2)$ 其中 $α=(α_1,α_2...α_m)$ .当 $\frac{\partial{L(ω,b,α)}}{\partial{ω}}=\frac{\partial{L(ω,b,α)}}{\partial{b}}=0$ 时,有 $ω=\displaystyle\sum_{i=1}^mα_iy_ix_i\qquad(3)\\\displaystyle\sum_{i=1}^mα_iy_i=0\qquad(4)$ 将 $(3), (4)$ 式带入 $L$ 中即可消去 $ω, b$ .再考虑 $(4)$ 式的约束,即可得到 $(1)$ 式的对偶问题 $\underset{α}{\max}\displaystyle\sum_{i=1}^mα_i-\frac{1}{2}\displaystyle\sum_{i=1}^m\displaystyle\sum_{j=1}^mα_iα_jy_iy_jx_i^Tx_j\\s.t.\begin{cases}\displaystyle\sum_{i=1}^mα_iy_i=0\\α_i≥0\,(i=1,2...m)\end{cases}$ 解出 $α$ 后可进一步求出 $ω, b$ ,从而求得 $M M H$ 为 $MMH=\displaystyle\sum_{i=1}^mα_iy_ix_ix^T+b$ 其中 $y_i$ 为支持向量 $x_i$ 的类别标记, $α_i,b$ 为通过上式解得的参数

(2)与逻辑回归的关系:

参见:http://www.ai-start.com/ml2014/html/week7.html

3.特性:

①模型的算法复杂度由支持向量的个数决定,而不由数据的维度决定,因而不容易产生过拟合
②训练出的模型完全依赖于支持向量,即使去除数据集中所有非支持向量的点,得到的模型也不变
③支持向量较少时得到的模型较容易泛化

二.处理线性不可分问题
1.基本思想:

处理对线性不可分问题基本思想是先将低维的"输入空间"(Input Space)映射到高维的"特征空间"(Feature Space),以使问题线性可分,再在特征空
间中寻找MMH.设x为原样本点,则映射后的新样本点为f(x)=ω·φ(x)+b

在这里插入图片描述

2.核方法
(1)概念:

使用"核方法"(Kernel Trick)的目的是

EdVzAs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

机器学习 支持向量机

机器学习支持向量机