统计学习方法——支持向量机（一）

最新推荐文章于 2024-06-07 19:08:50 发布

你的名字5686

最新推荐文章于 2024-06-07 19:08:50 发布

阅读量413

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wk19951125/article/details/88944338

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

统计学习方法——支持向量机

支持向量机（一）
- 线性可分支持向量机与硬间隔最大化

支持向量机（一）

支持向量机是一种二分类模型，学习策略就是间隔最大化。主要包括线性可分支持向量机、线性支持向量机以及非线性支持向量机。

线性可分支持向量机与硬间隔最大化

线性可分支持向量机

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为：
${w^*} \cdot x + {b^*} = 0$
以及相应的分类决策函数
$f\left( x \right) = sign\left( {{w^*} \cdot x + {b^*}} \right)$
称为线性可分支持向量机。

函数间隔与几何间隔

函数间隔
对于给定的训练数据集 $T$ 和超平面 $\left( {w,b} \right)$ ，定义超平面 $\left( {w,b} \right)$ 关于样本点 $\left( {x_i,y_i} \right)$ 的函数间隔为：
${{\hat \gamma }_i} = {y_i}\left( {w \cdot {x_i} + b} \right)$
定义超平面关于训练集 $T$ 的函数间隔为：
${{\hat \gamma }} =\mathop {\min }\limits_{i = 1, \cdots ,N} {{\hat \gamma }_i}$
几何间隔
对于给定的训练集 $T$ 和超平面 $\left( {w,b} \right)$ ，定义超平面 $\left( {w,b} \right)$ 关于样本点 $\left( {x_i,y_i} \right)$ 的几何间隔为：
${\gamma _i} = {y_i}\left( {\frac{w}{{\left\| w \right\|}} \cdot {x_i} + \frac{b}{{\left\| w \right\|}}} \right)$
其中 $\left\| w \right\|$ 为 $w$ 的 $L_2$ 范数。定义超平面关于训练集 $T$ 的几何间隔为：
${{\gamma }} =\mathop {\min }\limits_{i = 1, \cdots ,N} {{\gamma }_i}$
两者关系
${\gamma _i}=\frac{{\hat \gamma _i}}{\left\| w \right\|}$
${\gamma}=\frac{{\hat \gamma}}{\left\| w \right\|}$

间隔最大化

支持向量机的基本思想是：求解能够正确划分训练集并且几何间隔最大的分离超平面。

最大间隔分离超平面
最大间隔分离超平面可以表示为：
$\max_{w,b} \gamma$
$\quad {y_i}\left( {\frac{w}{{\left\| w \right\|}} \cdot {x_i} + \frac{b}{{\left\| w \right\|}}} \right)\ge \gamma, i=1,2,\cdots ,N$
可以改写为：
$\max_{w,b} \frac{\hat \gamma}{\left\| w \right\|}$
$\quad {y_i}\left( w \cdot {x_i} + b \right)\ge \hat \gamma, i=1,2,\cdots ,N$
其实间隔 $\hat \gamma$ 的取值并不会影响最优化问题的解，所以等价为最大化 $\frac{1}{\left\| w \right\|}$ ,又因为最大化 $\frac{1}{\left\| w \right\|}$ 和最小化 $\frac{1}{2}\left\| w \right\|^2$ 是等价的，所以最终化为：
$\min_{w,b} \frac{1}{2}\left\| w \right\|^2$
$\quad {y_i}\left( w \cdot {x_i} + b \right)-1 \ge 0, i=1,2,\cdots ,N$
最大间隔分离超平面的存在唯一性
若训练集 $T$ 线性可分，则可将训练数据集中的样本点完全正确分开的最大间隔分离超平面存在且唯一。
支持向量与间隔边界
- 支持向量
  在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。
  - 对于正例 $y_i=+1$ ，支持向量在 $H_1:w\dot x+b=1$
  - 对于负例 $y_i=-1$ ，支持向量在 $H_2:w\dot x+b=-1$
- 间隔与间隔边界
  $H_1$ 与 $H_2$ 之间的距离称为间隔，分离超平面位于中间，间隔等于 $\frac{2}{\left\| w \right\|}$ ， $H_1$ 与 $H_2$ 则称为间隔边界。

学习的对偶算法

采用拉格朗日对偶性求解。

引入拉格朗日乘子 ${\alpha _i} \ge 0,i = 1,2, \cdots ,N$ ，定义拉格朗日函数：
$L\left( {w,b,\alpha } \right) = \frac{1}{2}{\left\| w \right\|^2} - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}\left( {w \cdot {x_i} + b} \right) + \sum\limits_{i = 1}^N {{\alpha _i}} }$
原始问题的对偶问题变为：
$\max_\alpha\min_{w,b}L\left( {w,b,\alpha } \right)$
求解 $\min_{w,b}L\left( {w,b,\alpha } \right)$
$\mathop {\min }\limits_{w,b} L\left( {w,b,\alpha } \right) = - \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}{x_j}} + } \sum\limits_{i = 1}^N {{\alpha _i}}$
求 $\mathop {\min }\limits_{w,b} L\left( {w,b,\alpha } \right)$ 对 $\alpha$ 的最大值
$\max_\alpha - \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}{x_j}} + } \sum\limits_{i = 1}^N {{\alpha _i}}$
$\quad \sum\limits_{i = 1}^N {{\alpha _i y_i}}=0,\quad \alpha \ge0,i=1,2,\cdots,N$
其对应的等价对偶问题为：
$\min_\alpha \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}{x_j}} - } \sum\limits_{i = 1}^N {{\alpha _i}}$
$\quad \sum\limits_{i = 1}^N {{\alpha _i y_i}}=0,\quad \alpha \ge0,i=1,2,\cdots,N$

【定理】设 ${\alpha ^*} = {\left( {\alpha _1^*,\alpha _2^*, \cdots ,\alpha _l^*} \right)^T}$ 是对偶最优化问题的解，则存在下标 $j$ ，使得 $\alpha_j^*>0$ ，并可按下式求解原始问题的解 $w^*,b^*$ :
${w^*} = \sum\limits_{i = 1}^N {\alpha _i^*{y_i}{x_i}}$
${b^*} = {y_j} - \sum\limits_{i = 1}^N {\alpha _i^*{y_i}{x_i}{x_j}}$

最终的分离超平面
$\sum\limits_{i = 1}^N {\alpha _i^*{y_i}{x_i}}+b^*=0$

参考文献

《统计学习方法》

你的名字5686

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法——支持向量机（一）

统计学习方法——支持向量机支持向量机（一）线性可分支持向量机与硬间隔最大化线性可分支持向量机函数间隔与几何间隔间隔最大化学习的对偶算法参考文献支持向量机（一）支持向量机是一种二分类模型，学习策略就是间隔最大化。主要包括线性可分支持向量机、线性支持向量机以及非线性支持向量机。线性可分支持向量机与硬间隔最大化线性可分支持向量机给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划...
复制链接

扫一扫

专栏目录