机器学习西瓜书复习 - 4 SVM(支持向量机)分类

A 说明

svm的内容比较多,再加之中间数度拖延,一直不愿意来写这个博客,本着自己越不爱干的事便越要干的原则,今天终于静下心来写这篇博客。

A.1 目录

  • 线性支持向量机:这里主要列出将svm用于分类的基本思路,主要形式是找出分隔线将平面上的样本分开。
  • 线性支持向量机求解:这里主要列出利用拉格朗日、对偶优化、SMO算法等进行svm参数估计的一些方法
  • 核方法:核方法原本是不打算写的,因为这次复习我也没有时间去手写svm的代码了。但是这个概念很重要,在这里还是要列一下。此外,这里还叙述了一些关于软间隔的知识点
  • 简单使用:使用sklearn的svm方法对离职员工分析的一个小实例

B 线性支持向量机

原本复习的风格不应该有太多的图,这样,此时辛辛苦苦构思出来的文字,不会在彼时被图片所掩盖。但是svm比较特殊,对于像我这样几何不太好的人,一张图能传达很多意会的意图,这里还是放上一张简单的草图。

B.1 基本概念

先抛出问题,如下图所示,空间内存在两类样本,分别由方形和星形表示,现在用两条线将两类样本区分开,显然,与红线距离更近的是方形样本,与蓝线更近的是星形样本。同时,从svm的角度来看,这两条线是样本空间的分隔线,线上的样本被称之为支持向量,寻找这样的分隔线用以分类样本的方法,称之为支持向量机。
在这里插入图片描述
从自然语言的角度来逐个梳理一些上述的概念

  • 样本:X,这里,X有两个属性,分别对应x, y坐标轴
  • 分隔线:能将样本区分开的直线,即上图的蓝线、红线
  • 支持:为了达到最好的分类效果,一个直观的思路便是扩大类间距离,缩小类内距离。这里采用的是扩大类间距离的思路,即满足分隔线分类效果的前提下,让分割线直接的距离尽可能的大,距离达到一个临界点时,两类样本像是被分隔线支撑住的不安分的细胞,这样就引出了支持(support)的概念
  • 支持向量:分隔线上的一些样本,这里指的是蓝线上的一个星形样本以及红线上的三个方形样本
  • 分类:svm是判别式方法,因此分类的过程是给定一个样本,判断样本所属类别。很显然,如果样本离星形支持向量距离更近,则样本更可能是星形类别,对方形类别亦然。

B.2 基本模型

从分类的过程上来看,除支持向量以外的样本没有直接参与判别过程,因此,svm的训练过程即是求得支持向量的过程。更具体的说,我们需要寻找分隔线,满足

  • 分隔线能将样本分开
  • 分隔线间距最大

故定义分隔线方程如下:
在这里插入图片描述
其中上式表示星形类别,下式表示方形类别,取等号时,即为分隔线方程。此时样本已能分开,接下来,要求间隔最大,即
在这里插入图片描述
将上述概念整理一下,便可得svm的问题即求解w,使得:
在这里插入图片描述

这里有几点需要注意一下
1 将求最大值的问题转化成了求最小值,形式上更加简单
2 式中y为样本类别,从这里也可以看出之前的公式对y取值为-1和1的原因了,两个条件很简单地合并成了一个
3 这个距离公式尽管之前推导了一遍,但是几何不太好的我再看还

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值