Datawhale机器学习-向量机

本文介绍了支持向量机(SVM)的分类标准,强调了支持向量的重要性。讨论了软间隔和硬间隔的概念,以及参数C在控制过拟合中的作用。接着,文章探讨了非线性核函数,特别是高斯函数,如何帮助解决非线性可分问题。最后,提到了SVM在多分类问题上的处理策略,并提供了相关代码参考。
摘要由CSDN通过智能技术生成

向量机的分类标准

将两个线性可分的点集(Linearly separable case)分类可以有很多种选择,但如何让机器学习后选择最佳的Decison Boundary?
向量机(Support Vector Machine)给出的标准是:找出一条曲线, 使其距离两个类别的最近的样本最远

在这里插入图片描述
支持向量:样本中距离超平面最近的一些点,这些点叫做支持向量。

软间隔和硬间隔

然而当样本数据有噪音点时,SVM同样需要处理欠/过拟合的问题。与之前的逻辑回归不同的是SVM控制过拟合的参数是C,但作用相当于正则化里的1/λ。
当C很大时,所得出的曲线会尽量的将所有的样本点都正确的分离出来,容错率很低。相当于逻辑回归中λ很小的情况,也就是过拟合。也叫硬间隔
当C很小的时候,所得出的曲线会容忍噪音点,不再那么固执的去把所有点分类正确。相当于逻辑回归中的λ很大的情况,这种情况下又有可能会出现欠拟合。也叫软间隔
所以如何调整参数C的取值,在欠拟合和过拟合之间保持一个平衡在SVM中是个很重要的问题。

非线性核函数分类-高斯函数

若数据样本并不是线性可分时,可以将二维不可分样本映射到高维空间,让样本在高维空间上可分。核函数可以帮助我们完成这个映射过程中设计到的数学计算问题,来简轻模型计算量和储存数据的内存使用量。

核函数类别:
在这里插入图片描述
高斯函数的目的是利用数据点的临近性作为新的feature:f(f1,f2,f3…) 来代替x(x1,x2,x3…)
在这里插入图片描述
评价临近性的函数也就叫做高斯函数:
其特性如下
在这里插入图片描述
在这里插入图片描述
简单来说就是数据x离标识点l越近 高斯函数值越接近1,越远越接近0。变量α2来控制收敛为1速率,变量值越大收敛越慢,变量值越小收敛越快。

模型构造过程如下:
在这里插入图片描述
在这里插入图片描述
通过这种转换特征的方式,高斯函数就达到了我们想简轻模型计算量和储存数据的内存使用量的目的。

多分类

分类问题一般有两种方法,假设有A,B,C三种类别
一种是分别计算 A vs BC,B vs AC, C vs AB,在每一个分类问题上求出最优解,然后合并。如果类别为K的话则需要做K次优化。
另外一种分别计算 A vs B, B vs C, A vs C,然后再就每个分类求出最优解。如果类别为K的话需要做K*(K-1)/2次计算。
我尝试在变量中为SVC中的变量decision_function_shape 设置不同的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值