线性可分 vs 线性不可分
- 线性可分
- 线性不可分
思路:从线性可分开始分析 并推导到线性不可分
线性可分问题求解
定义:将平行线插到的向量叫做支持向量
即那些用于确定分割线的向量 ( 所以适用于小样本 )
公式1 ↑
只要线性可分 就存在一个w和b
所以最小化||w|| 就是最大化d 系数1/2是为了求导方便
而限制条件则是表示每一个样本都在两条线之外,如果不满足线性可分 这里就找不到一组w和b
即局部最优解即为全局最优解
求局部最优解即可使用梯度下降(上升)法
总结
SVM处理非线性可分问题
松弛变量允许部分向量的分类错误
最小化函数限制松弛变量不能太大
正则项 让整个目标函数规范化(如从仅处理线性扩展到处理非线性)
c 不断尝试 取最好值
SVM需要事先设定的参数并不多 c是一个
如何解决非线性问题
在低维无法线性可分的情况下,升到高维就有可能变成线性可分
此处的例子就需要想出一个5*1的w和一个常数b使得上面的两个与下面的两个经过运算之后结果分离
某一个解:
此时的w也不再是低纬,而是与变化后的x一样的维度
对于任意的一组需要分类的数据,当维度上升到无限维时,线性可分的概率是1
但此时w也需要是无限维,此时,SVM提出:
这里的1指的是最小化1/2||w||…那个式子
所以,借助核函数,我们不需要知道具体的映射函数的具体形式,只需要得到两个无限维向量内积得到的常数结果即可
高斯核对应的两个向量的维度是无限的
这里当d确定时,下面两个向量的维度也是有限的
总结2
优化理论补充
这里 限制条件可以通过添加负号 增加常数来实现变化,所以具有普适性
2中的最大化是在确定α和β的情况下,遍历所有的w,求L的最小值。所以每确定一个α和β,都会求出一个对应的最小值,然后再求这些最小值中最大的
这里的证明略,作为已知条件使用
此时从
所有等号成立 即可推出
思路:将原问题(最小化)化为对偶问题,用求解对偶问题的方式来求解原问题的解
将SVM化为对偶问题
凸函数
将右边进行变形以适配左边
此时右边的α和β对应左边的α 而左边的β在右边没有对应的(因为没有xxx=0的限制条件
推出
此时,将左边对应的值代入右边的式子
此时已经用k代替了这里的φ函数
综上
此时,便把β隐藏了
所以!
此外
求出α以后
我们实际上不需要知道w 因为:
b的算法需要用到KKT条件
现实中 会取所有的α的值并求出b 然后求平均值
总结3
完全消掉了φ函数 只出现了k
实战
用线性内核等于没有用核
多项式核 φ函数的维度随d的升高而升高
高斯核对应的φ函数的维度是无限的
开始 调参