支持向量机(理解、推导、matlab例子)

weixin_961876584

已于 2022-07-20 19:01:13 修改

阅读量977

点赞数

分类专栏：数学建模算法与应用文章标签：支持向量机 matlab 机器学习

于 2022-07-19 21:50:57 首次发布

本文链接：https://blog.csdn.net/weixin_45775970/article/details/125881453

版权

数学建模算法与应用专栏收录该内容

20 篇文章 10 订阅

订阅专栏

概念

支持向量机是数据挖掘中的一项新技术，是借助最优化方法来解决机器学习的新工具，成为克服“维数灾难”和“过学习”等困难的强有力手段。其主要思想是找到一个超平面，使得它能够尽可能多地将两类数据点正确分开，同时使分开地两类数据点距离分类面最远。

基本原理和推导(硬间隔)

设数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}\in(\Omega\times Y)$ ， $x_i$ 为样本，有很多特征（是一个向量）， $y_i$ 为分类结果， $y_i\in Y=\{-1,1\}$ 。
现在我们需要得到一个决策函数 $g (x)$ ，从而得到分类函数 $f (x) = s g n (g (x))$ 对未知样本进行分类。

决策方程为 $y(x)=\omega^Tx+b$

$\begin{cases} y(x_i)>0&y_i=1\\ y(x_i)<0&y_i=-1 \end{cases}\Rightarrow y_iy(x_i)>0$

该模型地目标是要找到一个超平面 $\omega^Tx+b=0$ ，使得一群数据点中距离该平面最近的点到该平面的距离最大，即

$\begin{equation} \arg_{\omega,x}\max\{\frac{1}{||\omega||}\min_i[y_i(\omega^Tx_i+b)]\} \end{equation}$
注：点到平面的距离： $\frac{|\omega^Tx_i+b|}{||\omega||}$

对于决策方程，可以通过放缩 $\omega，b$ 使得其结果 $|y|\ge1$ ，所以 $y_i(\omega^Tx_i+b)\ge1$ ，(1)式转化为 $\arg_{\omega,x}\max\frac{1}{||\omega||}$ 。

$\begin{align*} 目标：&\max_{\omega,b}\frac{1}{||\omega||}\\ 约束条件：&y_i(\omega^Tx_i+b)\ge1 \end{align*} \Rightarrow \begin{align*} 目标：&\min_{\omega,b}\frac{1}{2}||\omega||^2\\ 约束条件：&y_i(\omega^Tx_i+b)\ge1 \end{align*}$
注：此时的超平面称为规范超平面
此目标规划是凸优化（二次规划），数据量和维数较少时，可以用matlab中的quadprog函数求解

引入拉格朗日函数，把带约束问题转化为无约束问题：

$\begin{aligned} \min_{\omega,b}\max_{\alpha}L(\omega,b,\alpha)\\ \alpha_i\ge1,i=1,...,n \end{aligned}$
其中， $L(\omega,b,\alpha)=\frac{1}{2}||\omega||^2+\sum_{i=1}^n\alpha_i(1-y_i(\omega^Tx_i+b))$ ， $\alpha_i$ 是拉格朗日乘子
注：可以这样理解两个问题是等价的：
若 $1-y_i(\omega^Tx_i+b)>0,\max L=\frac{1}{2}||\omega||^2+\infty=\infty$
若 $1-y_i(\omega^Tx_i+b)\le0,\max L=\frac{1}{2}||\omega||^2+0=\frac{1}{2}||\omega||^2$
所以 $\min_{\omega,b}\max_{\alpha}L(\omega,b,\alpha)=\min_{\omega,b}\{\infty,\frac{1}{2}||\omega||^2\}=\min_{\omega,b}\frac{1}{2}||\omega||^2$ ，而且无约束问题的解 $(\omega,b)$ 满足 $1-y_i(\omega^Tx_i+b)\le0$

上面的无约束问题的强对偶问题为：

$\begin{aligned} \max_{\alpha}\min_{\omega,b}L(\omega,b,\alpha)\\ \alpha_i\ge1,i=1,...,n \end{aligned}$
由 $\begin{cases} \frac{\partial L}{\partial b}=0\\ \frac{\partial L}{\partial \omega}=0 \end{cases}$ 得到 $\sum_{i=1}^n\alpha_iy_i=0,\omega=\sum_{i=1}^n\alpha_ix_iy_i$ ，代入优化问题，得
$\min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_j y_i y_j(x_i\cdot x_j)-\sum_{i=1}^n\alpha_i \\ \begin{cases} \sum_{i=1}^n\alpha_iy_i=0\\ \alpha_i\ge0 \end{cases}$

求解上述最优化问题得 $\alpha^*=[\alpha_1^*,\alpha_2^*,...,\alpha_n^*]^T$ ，计算

$\omega^*=\sum_{i=1}^n\alpha_i^*x_iy_i$

由KKT互补条件知

$\alpha_i^*(1-y_i(\omega^*\cdot x_i+b^*))=0$
由此推断可知，当 $x_i$ 为支持向量时（ $1-y_i(\omega^*\cdot x_i+b^*)=0$ ），对应得 $\alpha_i$ 为正；当 $x_i$ 不为支持向量时（ $1-y_i(\omega^*\cdot x_i+b^*)<0$ ），对应得 $\alpha_i$ 为0；
并可以计算得
$b^*=y_j-\sum_{i=1}^n\alpha_i^*y_i(x_i\cdot x_j)$
注：支持向量可以理解为支撑起超平面的点，如果再增加一些边界之外的点，是不影响超平面的，即超平面由支持向量决定。如下图：

构造分类超平面 $w^*\cdot x+b^*=0$ ，并由此可以得到

决策方程
$g(x)=\omega^*\cdot x+b^*=\sum_{i=1}^n\alpha_i^*y_i(x_i\cdot x)+b^*$
分类函数
$f(x)=sgn(g(x))=sgn(\sum_{i=1}^n\alpha_i^*y_i(x_i\cdot x)+b^*)$

软间隔

当训练集的两类样本近似可分时，即允许存在不满足约束条件 $y_i(\omega\cdot x+b)\ge1$ 的样本点，但仍然能使用超平面进行划分。即在两个分类边界 $\omega\cdot x+b=±1$ 之间允许出现样本点。

为了解决这种情况，引入松弛变量 $\xi_i\ge0,i=1,...,n$ ，得到“软化”的约束条件

$y_i(\omega\cdot x+b)\ge1-\xi_i,i=1,...,n$
避免 $\xi_i$ 取太大的值，为此要在目标函数中对它进行惩罚，得到如下的二次规划问题：
$\begin{align*} &\min\quad\frac{1}{2}||\omega||^2+C\sum_{i=1}^n\xi_i\\ &s.t.\quad \begin{cases} y_i(\omega\cdot x+b)\ge1-\xi_i\\ \xi_i\ge0,i=1,...,n \end{cases} \end{align*}$
注： $C$ 越大， $\xi_i$ 越小，说明要求分类得更准确， $C\to\infty$ 时， $\xi_i=0$ ，就是绝对准确，即硬间隔； $C$ 越小，说明有更大的错误容忍。
$C$ 是一个常数，可以用K折交叉验证来选择合适的 $C$ 。

和硬间隔的步骤一样，最终得优化问题：

$\begin{align*} &\min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_j y_i y_j(x_i\cdot x_j)-\sum_{i=1}^n\alpha_i \\ &\begin{cases} \sum_{i=1}^n\alpha_iy_i=0\\ 0\le\alpha_i\le C,i=1,...,n \end{cases} \end{align*}$

求解上述最优化问题得 $\alpha^*=[\alpha_1^*,\alpha_2^*,...,\alpha_n^*]^T$ ，计算

$\omega^*=\sum_{i=1}^n\alpha_i^*x_iy_i$
$b^*=y_j-\sum_{i=1}^n\alpha_i^*y_i (x_i\cdot x_j)$
$f(x)=sgn(g(x))=sgn(\sum_{i=1}^n\alpha_i^*y_i(x_i\cdot x)+b^*)$

核函数

当两类样本点得重合区域很大时，无法使用线性划分。但我们可以将样本点映射到更高维得空间，以使得两类样本点可分。如下：

此时得目标就是找到一种变换的方法 $\phi(x)$

此时得二次规划问题：

$\begin{align*} &\min\quad\frac{1}{2}||\omega||^2\\ &y_i(\omega^T\phi(x_i)+b)\ge1,i=1,...,n \end{align*}$
核函数 $K(x_i,x_j)=\phi(x_i)\cdot\phi(x_j)$ ，可以避免在高维特征空间进行复杂得运算，不同得核函数形成不同得算法。
主要的核函数：

线性内核函数 $K(x_i,x_j)=x_i\cdot x_j$
多项式核函数 $K(x_i,x_j)=(x_i\cdot x_j+1)^q$
径向基核函数（高斯核函数，RBF） $K(x_i,x_j)=\exp \{-\frac{||x_i-x_j||^2}{2\sigma^2}\}$
和硬间隔的步骤一样，最终得优化问题：

求解上述最优化问题得 $\alpha^*=[\alpha_1^*,\alpha_2^*,...,\alpha_n^*]^T$ ，计算

$b^*=y_j-\sum_{i=1}^n\alpha_i^*y_iK(x_i\cdot x_j)$
$f(x)=sgn(g(x))=sgn(\sum_{i=1}^n\alpha_i^*y_iK(x_i\cdot x)+b^*)$

核函数和软间隔结合

当映射到高维空间也不能硬性划分时，也需要对约束条件进行软化。
同理得到优化问题

$\begin{align*} &\min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_j y_i y_jK(x_i\cdot x_j)-\sum_{i=1}^n\alpha_i \\ &\begin{cases} \sum_{i=1}^n\alpha_iy_i=0\\ 0\le\alpha_i\le C,i=1,...,n \end{cases} \end{align*}$
$b^*=y_j-\sum_{i=1}^n\alpha_i^*y_iK(x_i\cdot x_j)$
$f(x)=sgn(g(x))=sgn(\sum_{i=1}^n\alpha_i^*y_iK(x_i\cdot x)+b^*)$

一个matlab例子

a0=load('fenlei.txt');
a=a0';
b0=a(:,1:27);%已分类的数据，一列就是一个样本点
dd0=a(:,28:end);%未分类的数据
[b,ps]=mapstd(b0);%b是已分类数据标准化处理后的矩阵，sp是标准化处理的设置
dd=mapstd('apply',dd0,ps);%未分类的数据按照上述标准化处理
group=[ones(20,1);2*ones(7,1)];%已知样本点的类别标号
s=fitcsvm(b',group);%训练向量机
sv_index=s.SupportVectorLabels%返回支持向量的标号
beta=s.Alpha%权系数
bb=s.Bias%常数项
check=predict(s,b')%验证已知样本点
err_rate=1-sum(group==check)/length(group)%计算已知样本点的错判率
solution=predict(s,dd')%对待判样本点进行分类