支持向量机(svm)

最新推荐文章于 2024-06-11 11:57:42 发布

辉兔子

最新推荐文章于 2024-06-11 11:57:42 发布

阅读量881

点赞数

分类专栏：机器学习文章标签：支持向量机svm 支持向量机算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangzhihui0627/article/details/79173333

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.背景：

1.1最早是由Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出

1.2目前的版本(soft margin)是由Corinna Cortes 和 Vapnik在1993年提出，并在1995年发表

1.3深度学习（2012）出现之前，svm被认为机器学习中近十几年来最成功，表现最好的算法

2.机器学习的一般框架：

训练集=>提取特殊向量=>结合一定的算法（分类器：比如决策树，KNN）=>得到结果

3.介绍

3.1例子：

将以上的点分为两类，哪条线划分最好？

3.2 SVM目的是寻找区分两类的超平面(hyper plane),使边际（margin）最大

总共可以有多少个可能的超平面？无数条

如何选取使边际（margin）最大的超平面（Max Margin Hyperplane）

超平面到一侧最近点的距离等于到另一侧最近点的距离，两侧的两个超平面平行

4.线性可区分(linear separable) 和线性不可分（linear inseparable）

以下两图例为线性不可区分，无法找到一条线进行类别区分

5.定义与公式建立

超平面可以定义为：

W*X + b =0

W:weight vectot(向量),

W = {w1,w2,...,wn}

n是特征值的个数

X：训练实例

b : bias

5.1假设2维特征向量：X = (x1,x2)

把b想象为额外的 wight -> w0

超平面方程变为：w0 + w1*x1 + w2*x2 = 0

所有超平面右上方的点满足： w0 + w1*x1 + w2*x2 > 0

所有超平面左下方的点满足： w0 + w1*x1 + w2*x2 < 0

调整weight (w0),使超平面定义边际的两边：

定义yi 为分类值，代表分类结果值

H1 : w0 + w1x1 + w2x2 >= 1 for yi = +1

H2 : w0 + w1x1 + w2x2 <= -1 for yi = -1

综合以上两式，得到：

所有坐落在边际的两边的超平面上的点被称作"支持向量(support vectors)"

分界的超平面和H1或H2上任意一点的距离为

（i.e : 其中||w||是向量的范围"norm")

所以最大边际距离为：

6.求解(线性可区分 linear separable )

6.1 SVM如何找出最大边际的超平面呢（MMH）？

利用一些数学推倒，以上公式

可变为有限制的凸优化问题(convex quadraticoptimization)

利用Karush-Kuhn-Tucker(KKT)条件和拉格朗日公式，推出MMH可以被表示为以下“决定边界(decision boundary)”

其中，yi是支持向量点; Xi为支持向量的类别标记(class label);

是要测试的实例; ai和b0都是单一数值型参数，由以上提到的最优算法得出； l是支持向量点的个数。

6.2 对于任何测试实例，带入以上公式，得出的符号是正还是负，根据结果值对实例分类处理

7.SVM算法图示(线性可区分 linear separable )：

8.SVM算法特性

8.1训练好的模型算法复杂度是由支持向量的个数决定的，而不是由数据的维度决定的。所以SVM不太容易产生overfitting

8.2SVM训练出来的模型完全依赖于支持向量（support vectors）,即使训练集里面所有非支持向量的点都被去除，重复训练过程，结果仍然会得到完全一样的模型。

8.3一个SVM如果训练得出的支持向量个数比较小，SVM训练出的模型比较容易被泛化。

９.线性不可分的情况（linearly　inseparable　case）

　　　

　　９.１数据集在空间中对应的向量不可被一个超平面区分开

　　９.２两个步骤来解决：

　　　　９.２.１利用一个非线性的映射把原数据集中的向量点转化到一个更高维度的空间中

　　　　９.２.２在这个高维度的空间中找一个线性的超平面来根据线性可分的情况处理

　　　　　　　图示１：

　　　　　

　　　　　　　　图示２：

　　　　　　　　　

　　　　　９.３　如何利用非线性映射把原始数据转化到高维中？

9.3.1 例子：

3维输入向量：

X = (x1,x2,x3)

转化到6维空间Z中去：

$\Phi(X)=x1,\Phi2(X)=x2,\Phi3(X)=x3,\Phi4(X)=x1\cdot x1,\Phi 5(X)=x1\cdot x2,and\Phi 6(X)=x1\cdot x3.$

新的决策超平面：

d(Z) = WZ + b.

其中W和Z是向量，这个超平面是线性的

解出W和b之后，并且带入回原方程:

　　　　　　　　 d(Z)=w1x1+w2x2+w3x3+w4(x1*x1)+w5x1x2+w6x1x3+b

=w1z1+w2z2+w3z3+w4z4+w5z5+w6z6+b

9.3.2思考问题：

9.3.2.1：如何选择合理的非线性转化把数据转化到高纬度中？

9.3.2.2：如何解决计算内积时算法复杂度非常高的问题？

为了降低内积计算复杂度需要使用核函数(kernel trick)

10.核方法（kernel trick）

10.1动机

在线性SVM中转化为最优化问题时求解的公式计算都是以内积（dot product）的形式出现的

$\Phi(Xi)\cdot \Phi(Xj)$

其中

$\Phi(X)$

是把训练集中的向量点转化到高维的非线性映射函数，因为内积的算法复杂度非常大，所以我们利用核函数来取代计算非线性映射函数的内积。

10.2以下核函数和非线性映射函数的内积等同

$K(Xi,Xj) = \Phi (Xi)\cdot \Phi (Xj)$

10.3常用的核函数（kernel functions）

h度多项式核函数(polynomial kernel of degree h):

$K(Xi,Xj)=(Xi\cdot Xj+1)^{h}$

高斯径向基核函数(Gaussian radial basis function kernel):

$K(Xi,Xj)=e^{-||Xi-Xj||^{2}/2a^{2}}$

S型核函数(Sigmoid function kernel):

$K(Xi,Xj)=tanh(kXi\cdot Xj-\delta )$

如何选择使用哪个kernel?

根据先验知识，比如图像分类，通常使用RBF，文字不使用RBF尝试不同的kernel,根据结果准确而定

10.4核函数与常规算法对比：

假设定义两个向量：x=(x1,x2,x3);y=(y1,y2,y3)

定义方程：f(x)=(x1x1,x1x2,x1x3,x2x1,x2x2,x2x3,x3x1,x3x2,x3x3)

$K(x,y)=(<x,y>)^{2}$

假设x=(1,2,3);y=(4,5,6).

使用传统算法计算如下：

f(x)=(1,2,3,2,4,6,3,6,9)

f(y)=(16,20,24,20,25,30,24,30,36)

<f(x),f(y)> = 16+40+72+40+100+180+72+180+324=1024

使用核函数算法如下：

K(x,y)=(4,10,18)^2 = 32^2 = 1024

同样的结果，使用kernel方法将计算复杂度大大降低了

10.5 SVM扩展可解决多个类别分类问题

通过某种方式构造一系列的两类分类器并将它们组合在一起来实现多类分类；

将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题“一次性”的实现多类分类器结构方法

学习更多请访问辉兔子技术分享

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
支持向量机(svm)

1.背景： 1.1最早是由Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出 1.2目前的版本(soft margin)是由Corinna Cortes 和 Vapnik在1993年提出，并在1995年发表 1.3深度学习（2012）出现之前，svm被认为机器学习中近十几年来最成功，表现最好的算法2.机器学习的一般框架：
复制链接

扫一扫

专栏目录

辉兔子 CSDN认证博客专家 CSDN认证企业博客

码龄16年

20: 原创

26万+: 周排名

8万+: 总排名

2万+: 访问

: 等级

327: 积分

19: 粉丝

21: 获赞

4: 评论

49: 收藏

私信

关注

热门文章

分类专栏

最新评论

时间格式化以及指定时区(time&&timezone)
CSDN-Ada助手: 恭喜您写了第19篇博客！标题“时间格式化以及指定时区(time&&timezone)”听起来非常有意思。通过阅读您的博客，我收获了关于时间格式化和指定时区的知识。您对这个主题的深入研究和详细解释让我受益匪浅。您的博客内容非常清晰易懂，而且对于复杂的时间格式化和时区问题给出了很好的解决方案。对于技术新手来说，这是一篇非常有帮助的指南。我很期待您未来更多关于时间处理的博客。在下一步的创作中，我想提一个建议，希望能对更多与时间相关的问题进行探讨。比如，如何处理夏令时、如何在不同编程语言中进行时间格式化等等。这些都是我个人在实际开发中遇到的问题，相信您的深度解析会对我们有很大帮助。再次祝贺您的持续创作，期待您未来更多精彩的博客！谢谢您的分享和努力。
Chrome 手机端网页如何在PC端开发者模式调试
CSDN-Ada助手: 恭喜您写了第17篇博客！标题看起来非常吸引人，我很期待阅读您的文章。您对Chrome手机端网页在PC端开发者模式调试的介绍一定非常有深度和实用价值。不过，如果可能的话，我希望您能在下一篇博客中分享更多关于Chrome开发者工具的使用技巧和调试经验。您的博客一直都是我学习的宝藏，期待您的下一篇创作！
决策树算法（decision tree）
weixin_42182404: 感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。