AI
菌
在前面几篇我们讲到了线性可分SVM的硬间隔最大化和软间隔最大化的算法,它们对线性可分的数据有很好的处理,但是对完全线性不可分的数据没有办法。
本文我们就来探讨SVM如何处理线性不可分的数据,重点讲述核函数在SVM中处理线性不可分数据的作用
一 低纬度到高纬度的思想
在线性回归原理中,我们讲到了如何将多项式回归转化为线性回归。
比如一个只有两个特征的p次方多项式回归的模型:
我们令
这样我们就得到了下式:
可以发现,我们又重新回到了线性回归,这是一个五元线性回归,可以用线性回归的方法来完成算法
同样,核函数也采用了同样的思想:在线性不可分的情况下,支持向量机通过某种事先选择的非线性映射(核函数)将输入变量映射到一个高维特征空间,并期望映射后的数据在高维空间里是线性可分的。在这个空间中构造最优分类超平面
该映射的效果如下图所示:
核函数在SVM的引用
刚才我们讲到线性不可分的低维特征数据,我们可以将其映射到高维,就能线性可分
现在我们将它运用到我们的SVM的算法上。回顾线性可分SVM的优化目标函数:
注意到上式低维特征仅仅以内积xi∙xj的形式出现
如果我们定义一个低维特征空间到高维特征空间的映射ϕ(比如上一节2维到5维的映射),将所有特征映射到一个更高的维度,让数据线性可分
我们就可以继续按前两篇的方法来优化目标函数,求出分离超平面和分类决策函数了。也就是说现在的SVM的优化目标函数变成: