数据挖掘知识点串烧：SVM

最新推荐文章于 2023-03-22 17:35:45 发布

木东居士

最新推荐文章于 2023-03-22 17:35:45 发布

阅读量294

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaodedong/article/details/99619350

版权

本文详细介绍了SVM（支持向量机），包括SVM的基本思想、支持向量、软间隔最大化、核函数引入的原因以及SMO算法的重要性。通过对SVM的优缺点分析，展示了其在数据挖掘中的应用价值。

摘要由CSDN通过智能技术生成

数据挖掘知识点串烧：SVM

本文为数据茶水间群友原创，经授权在本公众号发表。

关于作者：DD-Kylin，一名喜欢编程与机器学习的统计学学生，勤学好问，乐于钻研，期待跟大家多多探讨机器学习的相关内容~

0x00 前言

有人认为支持向量机是所有机器学习算法中最难的一个了，但是仔细去看数据挖掘的招聘要求，你会发现支持向量机(SVM)出现的频率异常地高。果然，该过的坎再难都得跨，那就让我们一起来看看SVM究竟是什么吧~

0x01 初始SVM

问题1：你能给我讲讲什么是SVM吗？

回答：SVM是一种二分类模型，它的基本模型是在特征空间中寻找间隔最大化的分割超平面的线性分类器。如在下面的两个类别中(暂且称两个类为黄球和红球),

640?wx_fmt=jpeg

我们要将其分割开的方式有多种，但是究竟哪一种才是最优的分割方式呢？这就是支持向量机所要解决的问题。简单而又通俗点的理解：支持向量机的优化目标是找到一条线（w和b), 使得离该线最近的点之间的距离最长。但是在这个过程中，不同的数据所采用的分割策略可能会有所不同，主要的分割策略有三种：

当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机；
当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机；
当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

问题2：你知道什么是支持向量吗？alpha什么时候为0什么时候不为0？

回答：支持向量的本质其实也是向量。支持向量机是想找到一个分割超平面或者说分类面，使得它所产生的结果是最鲁棒的，即对未知实例的泛化能力是最强的(这也是支持向量机为什么采用间隔最大化的原因之一）。而支持向量就是这些支撑分割超平面的数据点，其实就是距离分界线最近的点，或者说分界面就是靠这些数据点来确定的，它们支撑着分界面。 对于边界上的样本来说，alpha不等于0，这些边界上的样本点属于支持向量，它们会对最终的结果产生影响。而对于非边界上的样本点来说,alpha等于0，非边界上的这些样本点是非支持向量，非支持向量不会对最终的结果产生影响。

举个栗子，如在下方的图形中，A、B、C三点就

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。