【OpenCV-Python】教程：7-5 理解SVM

黄金旺铺

已于 2022-12-29 22:42:52 修改

阅读量615

点赞数

分类专栏： OpenCV 文章标签： python opencv

于 2022-12-24 14:52:45 首次发布

by: JW

本文链接：https://blog.csdn.net/zhoujinwang/article/details/128428534

版权

OpenCV 专栏收录该内容

73 篇文章 36 订阅

订阅专栏

OpenCV Python SVM 学习

【目标】

直观理解 SVM

【理论】

线性可分

下图有两种类型的数据，红色和蓝色。在kNN中，对于一个测试数据，我们用来测量它与所有训练样本的距离，并取距离最小的一个。测量所有的距离需要大量的时间，存储所有的训练样本需要大量的内存。但是考虑到图像中给出的数据，我们需要那么多吗?

在这里插入图片描述

考虑另一个想法。我们找到一条直线， $f(x)=ax_1+bx_2+c$ ，它将两个数据分为两个区域。当我们得到一个新的test_data $X$ 时，只需将它代入 $f (X)$ 。如果 $f (X) > 0$ ，它属于蓝色组，否则它属于红色组。我们可以称这条线为决策边界。这是非常简单、高效和节省内存的。这种可以用一条直线(或高维的超平面)分为两部分的数据称为线性可分数据。

所以在上图中，你可以看到有可能会有很多这样的线，我们到底选哪一个呢？直观地说，这条线应该离所有点越远越好。为什么?因为输入的数据中可能会有噪声。该数据不应影响分类精度。所以选择一条最远的线可以增强对噪音的免疫力。所以SVM所做的是找到一条与训练样本距离最小的直线(或超平面)。请看下图中穿过中心的粗体线。

在这里插入图片描述

为了找到这个决策边界，你需要训练数据。你都需要吗?不。只需要那些靠近相反类别的数据就足够了。在我们的图像中，它们是一个蓝色圆和两个红色方块。我们可以称它们为支持向量，穿过它们的直线称为支持平面。它们足以找到我们的决策边界。我们不需要担心所有的数据。它有助于减少数据。

结果是，找到了最能代表数据的前两个超平面。例如，蓝色数据用 $w^Tx+b_0>1$ 表示，红色数据用 $w^Tx+b_0<−1$ 表示，其中 $w$ 为权重向量 $w=[w_1,w_2，…，w_n])$ ， $x$ 为特征向量 $x=[x_1,x_2，…，x_n])$ 。 $b_0$ 是偏置。权重向量决定决策边界的方向，偏置点决定决策边界的位置。现在决策边界被定义在这些超平面的中间，因此表示为 $w^Tx+b_0=0$ 。支持向量到决策边界的最小距离为， $distance_{supportvectors}= \frac{1}{||w||}$ 。边距是这个距离的两倍。我们需要最大化这个边距（类别的边距，Margin）。即，我们需要最小化一个新函数 $L(w,b_0)$ ，具有一些约束条件，可以表示为:

$\min \, L(w,b_0)= \frac{1}{2}||w|| \, \text{subject to } \, t_i (w^Tx+b_0)≥1 \quad \forall i$

其中：
$t_i$ 是类别标签，$t_i \in [-1, 1] $

线性不可分

假设有一些数据不能用一条直线将他们分成两部分。假如：-3,3 属于类别X, -1,1属于类别O，很明显，他们不能线性可分，但是也有一些方法可以解决这些问题，我们可以通过方程 $f(x)=x^2$ 将数据映射，这样，9 分为X和 1 分为 O，就变成可分的了。

我们可以将一维数据转换为二维数据。我们可以用 $f(x)=(x,x^2)$ 函数来映射这个数据。然后X变成(-3,9)和(3,9)，而O变成(-1,1)和(1,1)。这也是线性可分的。简而言之，低维空间中的非线性可分数据在高维空间中变为线性可分的可能性更大。

一般来说，可以将d维空间中的点映射到某个D维空间(D>d)来检验线性可分性的可能性。有一种思想可以通过在低维输入(特征)空间中进行计算来帮助计算高维(核)空间中的点积。我们可以用下面的例子来说明。

假设在二维空间里有两个点 $p=(p_1,p_2)$ 和 $q=(q_1,q_2)$ ，设 $\phi$ 为映射函数，将二维数据映射到三维空间里，则有：

$\phi (p)=(p_1^2, p_2^2,\sqrt{2}p_1p_2)$

$\phi (q)=(q_1^2, q_2^2,\sqrt{2}q_1q_2)$

我们定义一个核函数 $K (p, q)$ 可以计算两点的点积。

$K(p,q)=\phi(p) \cdot \phi(q) = \phi(p)^T \phi(q) \\ =(p_1^2, p_2^2,\sqrt{2}p_1p_2) \cdot (q_1^2, q_2^2,\sqrt{2}q_1q_2) \\ = p_1^2q_1^2+p_2^2q_2^2+2p_1q_1p_2q_2 \\ = (p_1q_1+p_2q_2)^2$