1. SVM 思想转化为数学表达
- 首先这是一个凸优化问题,因为 W T W W^{T} W WTW 是二次的,正定,约束条件是一个线性变化。
- 为了方便求解,我们使用拉格朗日乘子法将式化为无约束情况
- 使用强对偶关系就行一波转化,方便先求W b
- 无约束求最小值,直接求导,先求b偏导,代入,再求W偏导,带入
求解min时得出一个约束,加入其中 - 最终可以得到一个与W b无关的
λ
\lambda
λ 优化问题,从而求解出
λ
\lambda
λ
满足强对偶并且原问题是凸函数的话,那么(x, λ \lambda λ)满足KKT条件
由KKT条件的式2,得如果不在直线上得点,对应的
λ
\lambda
λ =0 ,所以
b
∗
b^{*}
b∗可以求出来在直线上的点构成的最优解,从而得到了hard-margin的的分割平面。
soft margin svm
如果数据本身不可分,那么我们需要允许SVM的超平面有一些错误,可以用下式表达,这个距离的loss也叫hinge loss
最终soft形式如下,添加了
ψ
\psi
ψ保证了错误点可以存在的性质
拉格朗日函数与对偶性
核函数 -> SVM的高维分类
对于感知机算法来说,线性不可分的数据可以使用神经网络来解决;
对于SVM来说,线性不可分的数据需要通过映射到高维来解决,这是基于Cover Theory高维比低维更易于分割。
之前一直不知道映射为高维是啥意思,up这里举了个例子(x1, x2)映射为高维(三维)就是(x1, x2,(x1-x2))这种。
但是呢,我们可能需要映射为无穷维,SVM的对偶形式中有求内积,这样即不好表示也不好求内积,巧了,正定核函数可以跳过求无穷维映射这一步并且可以不用求映射完成的内积。
正定核函数
具体形式化定义如下:
通过定义二,我们去判定Gram矩阵是否是正定的即可判定这个核函数是否是正定核函数
必要性证明: