统计学习方法第7章支持向量机

最新推荐文章于 2021-12-27 09:56:36 发布

HYM-Enchanted

最新推荐文章于 2021-12-27 09:56:36 发布

阅读量210

点赞数

本文链接：https://blog.csdn.net/weixin_43758492/article/details/104649751

版权

支持向量机SVM是一种二分类模型。
支持向量机的学习策略就是间隔最大化，可形式化为求解一个凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。

函数间隔与几何间隔

一个点距离分离超平面 $w * x + b = 0$ 的远近|wx+b|可以表示分类预测{+1，-1}的确信程度。而wx+b的符号与类别标记y的符号是否一致能够表示分类是否正确。所以可用量y(w*x+b)来表示分类的正确性即确信度，这就是函数间隔。
定义：对于给定的训练数据集T和超平面(w,b)，定义超平面（w，b）关于样本点 $x_i,y_i)$ 的函数间隔为 $\hat \gamma_i=y_i(w*x_i+b)$
定于超平面关于训练数据集的函数间隔为超平面关于T中所有样本点的函数间隔的最小值，即 $\hat \gamma = min_{i=1,\dots,N}\hat \gamma_i$
函数间隔可以表示分类预测的正确性及确信度。但是成比例的改变w和b，超平面不变，但是函数间隔却会成比例的改变。所以要对超平面的法向量加以约束，如规范化，||w||=1，使得间隔是确定的。这时函数间隔成为几何间隔。
定义： $\hat \gamma_i=y_i(\frac{w}{||w||}*x_i+\frac{b}{||w||})$ ,其中||w||为w的 $L_2$ 范数。 $\gamma = min_{i=1,\dots,N}\gamma_i$
如果||w||=1，这函数间隔和几何间隔相等。如果超平面参数w和b成比例的改变（超平面没有改变），函数间隔也按此比例改变，而几何间隔不变。几何间隔最大的分离超平面是惟一的。（不同于感知机，线性可分离的超平面，有多个解）

间隔最大化

算法：线性可分支持向量机学习算法——最大间隔法
输入：线性可分训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\},其中x_i\in X=R^n,y_i\in Y=\{-1,+1\},i=1,2,\dots,N$
输出：最大间隔分离超平面和分类决策函数
（1）构造并求解约束最优化问题：
$min_{w,b}\quad\frac{1}{2}||w||^2$
$s.t.\quad y_i(w*x_i+b)-1\geq0,i=1,2,\dots,N$
求解得最优解 $w^*,b^*$
（2）由此得分离超平面： $w^**x+b^*=0$
分类决策函数 $f(x)=sign(w^**x+b)$

对偶问题

首先构造拉格朗日函数，引进拉格朗日乘子 $\alpha_i\geq0,i=1,2,\dots,N$ ,定义拉格朗日函数
$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^N\alpha_iy_i(w*x_i+b)+\sum_{i=1}^N\alpha_i$
其中 $\alpha=(\alpha_1,\alpha_2,\dots,\alpha_N)^T$ 为拉格朗日乘子向量。
根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题 $max_\alpha min_{w,b}L(w,b,\alpha)$

算法：线性可分支持向量机学习算法

输入：线性可分训练集 $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\},其中x_i\in X=R^n,y_i\in Y=\{-1,+1\},i=1,2,\dots,N$
输出：分离超平面和分类决策函数
（1）构造并求解约束最优化问题
$min_\alpha\quad\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i*x_j)-\sum_{i=1}^N\alpha_i$
$s.t.\quad\sum_{i=1}^N\alpha_iy_i=0$
$\alpha_i\geq0,i=1,2,\dots,N$
求得最优解 $\alpha^*=(\alpha_1^*,\alpha_2^*,\dots,\alpha_N^*)^T$
（2）计算 $w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$
并选择 $\alpha^*$ 的一个正分量 $\alpha_j^*>0$ ，计算 $b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i*x_j)$
（3）求得分离超平面 $w^**x+b^*=0$
分类决策函数： $f(x)=sign(w^**x+b^*)$
$w^*,b^*$ 只以来与训练数据中对应于 $\alpha_i^*>0$ 的样本点 $x_i,y_i)$ ,而其他样本点对 $w^*,b^*$ 没有影响。训练数据中对应于 $\alpha_i^*>0$ 的实例点 $x_i\in R^n$ 称为支持向量。支持向量一定在间隔边界上。

线性支持向量机与软间隔最大化

对于线性不可分的数据，引入一个松弛变量，凸二次规划问题(原始问题)。
$min_{w,b,\xi}\quad\frac{1}{2}||w||^2 + C\sum_{i=1}^N\xi_i$
$\quad y_i(w*x_i+b)\geq1-\xi_i,i=1,2,\dots,N$
$\quad\quad\xi_i\geq0,i=,2,\dots,N$
w的解释唯一的，但是b的解不是唯一的，而是存在一个区间。
解为 $w*,b^*$ ,分离超平面为 $w^**x+b^*=0$ ,分类决策函数 $f(x)=sign(w^**x+b^*)$

对偶问题

$min_\alpha\quad\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i*x_j)-\sum_{i=1}^N\alpha_i$
$s.t.\quad\sum_{i=1}^N\alpha_iy_i=0$
$0\leq\alpha_i\leq C,i=1,2,\dots,N$
构造拉格朗日函数求解（极大极小问题）

算法：线性支持向量机学习算法

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\},其中x_i\in X=R^n,y_i\in Y=\{-1,+1\},i=1,2,\dots,N$
输出：分离超平面和分类决策函数
（1）选择乘法参数 $C > 0$ ，构造并求解凸二次规划问题。
$min_\alpha\quad\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i*x_j)-\sum_{i=1}^N\alpha_i$
$s.t.\quad\sum_{i=1}^N\alpha_iy_i=0$
$\quad\quad0\leq\alpha_i\leq0,i=1,2,\dots,N$
求得最优解 $\alpha^*=(\alpha_1^*,\alpha_2^*,\dots,\alpha_N^*)^T$
（2）计算 $w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$
选择 $\alpha^*$ 的一个分量 $\alpha_j^*$ 适合条件 $0<\alpha_j^*<C$ ,计算 $b^*=y_j-\sum_{i=1}^Ny_i\alpha_i^*(x_i*x_j)$
（3）求得分离超平面 $w^**x+b^*=0$
分类决策函数 $f(x)=sign(w^**x+b^*)$

支持向量

软间隔的支持向量 $x_i$ 或者在间隔边界上，或者在间隔辩解与分离超平面之间，或者在分离超平面误分一侧。

合页损失函数

最小化以下目标函数
$\sum_{i=1}^N[1-y_i(w*x_i+b]_++\lambda||w||^2$
目标函数的第一项是经验风险或者经验损失。
$L(y(w*x+b))=[1-y(w*x+b)]_+$ 称为合页损失函数。下标‘+’表示以下取正值的函数
$[z]_+=\left\{ \begin{aligned} z,\quad z>0 \\ 0,\quad z\leq0 \end{aligned} \right.$
也就是说,当样本点 $x_i,y_i)$ 被正确分类且函数间隔（确信度） $y_i(w*x_i+b)$ 大于1时，损失是0.否则损失是 $1-y_i(w*x_i+b)$
则线性支持向量机原始最优化问题等价于最优化问题
$min_{w,b}\quad \sum_{i=1}^N[1-y_i(w*x_i+b)]_++\lambda||w||^2$