1.间隔与支持向量
1.1算法原理
1.2.超平面
1.3.几何间隔
1.4.支持向量机
2.软间隔
1.间隔与支持向量
1.1算法原理
对于线性可分数据集,找距离正负样本都最远的超平面。相比于感知机,其解唯一。
1.2.超平面
n为空间的超平面(w^Tx+b=0,w,x\in R^n)
超平面方程不唯一(扩大倍数);
法向量w和位移项b确定一个唯一超平面;
法向量w垂直于超平面;
法向量w指向的一半空间为正,另一半为负空间;
任意点x到超平面的距离公式为
1.3几何间隔
对于给定数据集X和超平面
定义数据集X中的任意一个样本点关于超平面的几何间隔为
正确分类时,,错误分类时
间隔最小的作为几何间隔。
1.4支持向量机
【模型】对于线性可分数据集,求得几何间隔达到最大的超平面,再套上sign函数实现分类功能
【策略】带不等式约束的优化问题
以下问题解不唯一只有通解:
固定分子,令,能使得其成立的 有且仅有一个。因此将问题转化为
转化为最小化问题且方便求解,最终模型为:
推荐阅读 王书宁 译《凸优化》,王燕军.《最优化基础理论与方法(第二版)》
【算法】拉格朗日对偶
凸优化问题:
对于约束优化问题:min f(x)
目标函数f(x),约束集合为凸集。
拉格朗日对偶:
拉格朗日对偶函数,关于x的下确界:
对偶函数的性质:
1.无论原问题是否为凸优化问题,其对偶函数恒为凹函数.
2.当时,对偶问题构成了上述优化问题最优值p^*的下界。即
对偶问题:
”弱对偶性成立“:,
“强对偶性成立”:;
一般问题 ,满足像"Slater"等特定限制条件,强对偶性成立。
凸优化问题,通过KKT条件推出。
支持向量机:
为关于的凸函数
的下确界(对偶函数)为:
因此对偶问题为:
2.软间隔与正则化
2.1算法原理
线性不可分的情形存在,允许支持向量机犯错
2.2软间隔
【模型】
为松弛变量
允许部分样本(尽可能少的异常样本)犯错,即不满足:
将必须严格执行约束条件转化为具有一定灵活性的“损失”:
有此来保证不满足约束条件的样本尽可能少。得到模型
合页损失替换掉(非凸,不连续,数学性质不如):
则问题变为:
2.3支持向量回归(SVR)
【原理】
带上的样本不计算损失,以偏离袋子的距离作为损失,最小化损失:间隔带从样本最密集的地方穿过。
【模型】
令
为L2正则项。
导出对偶问题引入核函数,C为调节损失权重的常数。