1.间隔与支持向量
❶超平面
找到一个超平面,使得两类训练样本划分结果最鲁棒(类似稳健性质),这个解不唯一,希望找到泛化性能好的解。
n维空间的超平面:
法向量ω和位移项b唯一确定一个超平面,ω垂直于超平面。
任意点x到超平面的距离公式为
❷几何间隔
y∈(-1,1)
正确分类时,γi>0几何间隔等价点到超平面的距离。错误分类时,γi<0。
给定数据集X和超平面,定义数据集X关于超平面的几何间隔为:数据集X所有样本点的几何间隔最小值。
(注意这里定义不是样本点,而是数据集。)
❸支持向量机(数据集线性可分情况下)
模型:给定线性可分数据集支持向量X,支持向量机模型希望求得数据集X关于超平面的几何间隔达到最大的那个超平面,然后套上一个 函数实现分类功能
几何间隔最大超平面一定是“距离正负样本都最远的超平面”的原因:当超平面没有正确划分正负样本时,几何间隔最小的为误分类点,γ<0:当超平面正确划分超平面时:γ≥0,且越靠近中央越大。
策略:给定线性可分数据集X,设X中几何间隔最小的样本为 Xmin Ymin,那么支持向量机找超平面的过程可以转化为带约束条件的优化。
还需要对ω,b做一定限制才能使得上述优化问题有可解的唯一解 。例如让分子为1:
用拉格朗日函数求解优化问题
2.对偶问题
拉格朗日对偶问题恒为凸优化问题。
3.软间隔
允许尽可能少的部分样本不满足约束条件
当不满足约束时,损失与其违反程度成正比。
C为常数,用来调节损失的权重,C→∞,退化为强间隔。0/1损失函数数学性质不好,不连续,非凸,不易求解,由此用“替代损失函数”代替它,下面是hinge(合页)损失:
4.支持向量回归(SVR)
落在带子上的样本不计算损失(类比线性回归在线上的点预测误差为0),不在带子上的则以偏离带子的距离作为损失(类比线性回归的均方误差),然后以最小化损失的方式迫使间隔带从样本最密集的地方(中心地带)穿过,进而达到拟合训练样本的目的。SVR的优化问题:
学习笔记来源,指路☟