机器学习系列(15)_SVM碎碎念part3：如何找到最优分离超平面

最新推荐文章于 2024-06-15 10:04:19 发布

寒小阳

最新推荐文章于 2024-06-15 10:04:19 发布

阅读量3.6w

点赞数 24

分类专栏：机器学习/数据挖掘机器学习与数据挖掘文章标签：机器学习 svm 最优分离超平面支持向量机

本文链接：https://blog.csdn.net/han_xiaoyang/article/details/52683653

版权

本文介绍了如何找到支持向量机（SVM）中的最优分离超平面。通过读取线性可分数据集，确定两个平行超平面，然后最大化这两个超平面之间的间隔。步骤包括计算超平面距离，设置约束条件确保超平面间无数据点，最后通过最小化w的模来找到最大间隔，从而确定最优超平面。

摘要由CSDN通过智能技术生成

作者：寒小阳
时间：2016年9月。
出处：http://blog.csdn.net/han_xiaoyang/article/details/52683653
声明：版权所有，转载请联系作者并注明出处

1.引言

是的，咱们第1篇blog介绍了目标；第2篇blog介绍了向量相关的背景数学知识，看到了如何求解Margin的值；今天这个部分主要目的是和大家一起来看看，选择最优超平面的推理过程。

以下是本篇的一个简短目录：

如何找到最优超平面

如何计算两超平面间的距离

SVM的最优化问题是什么

2.如何找到最优超平面

在第2篇blog的结尾我们计算了点 $A$ 到超平面间的距离 $\|p\|$ ，然后计算间隔为 $2 \|p\|$ 。
有些情况下我们得到的超平面能够很好地完成不同类别样本点的分隔，但是却不是最佳的超平面。比如以下这个超平面是第2篇blog中求解出来的超平面。

然而第1篇blog的内容告诉我们，最优超平面是一个与数据点有最大间隔的平面。在上图中我么可以看到 $M_1$ 间隔（仔细看，没有过G点），在两条蓝线之间，它不是完美分类数据点的最大间隔。最大间隔为 $M_2$ ，如下图所示:

可以在上图中看到最优超平面，在我们找的最初的超平面的稍左位置，而它刚好是M_2的中点处的这条垂线。所以在SVM当中，超平面和间隔确实是密切相关的。

只要找到一个分隔超平面，我就能计算平行于这个超平面的间隔。得到间隔之后，就能通过它的中点找到另外一个超平面(比如上图的中间蓝色直线)。

寻找最大间隔，就是寻找最优超平面

3.我们如何找到最大间隔

说起来这个过程还挺简单的：

读取你的数据集。

找到两个平行超平面，可以划分数据并且两平面之间没有数据点。

最大化上述两个超平面间隔

OK，按照上面的步骤，咱们一步步看吧。

步骤1：读取想分类的数据集 $\mathcal{D}$

大多数时候，你会遇到二分类问题（多分类问题可以转化成二分类问题解决），数据将由n个向量 $\mathbf{x}_i$ 组成。
每一个 $\mathbf{x}_i$ 与一个值 $y_i$ 相关联， $y_i$ 代表元素属于类(-1)或类(+1)。请注意， $y_i$ 只能有两个可能的值 -1或1。
而且，大多数时候，比如当你做文本分类，向量 $\mathbf{x}_i$ 有很多维度，我们可以说，X是一个p维向量（如果总共p维）。所以你的数据集 $\mathcal{D}$ 是n个元素 $(\mathbf{x}_i, y_i)$ 对组成的集合。
在集合论中的初始数据集的更正式的定义是：

 = {(x i, y i) ∣ x i \in ℝ p, y i \in {- 1, 1}} n i = 1

$\mathcal{D} = \left\{ (\mathbf{x}_i, y_i)\mid\mathbf{x}_i \in \mathbb{R}^p,\, y_i \in \{-1,1\}\right\}_{i=1}^n$

步骤2：找到两个平行超平面，可以划分数据并且两平面之间没有数据点。

在平面上划线来区分数据很容易。但很多情况下数据是高维的，划分数据就变得困难，因为你没办法把它画出来。（对了，即使你的数据是二维的，也有可能找不到分离超平面！只有在数据线性可分时，这样一条线才能找到。）

线性可分与非线性可分

因此，假设我们的数据集 $\mathcal{D}$ 是线性可分的。怎么找超平面呢？回到超平面方程：

我们在之前看到过超平面的方程可以写做

w T x = 0

$\mathbf{w}^T\mathbf{x} = 0$
不过细心的同学，会在维基百科中的SVM中看到下面的描述：

任何超平面都可以写成满足 $\mathbf{w}\cdot\mathbf{x} - b=0$ 的点 $\mathbf{x}$ 的集合

首先，本文采用 $\mathbf{w}\cdot\mathbf{x}$ 代替 $\mathbf{w}^T\mathbf{x}$ 。然后，关于 $-b$ 的部分，是这样的。

在我们的定义中，向量w与x有三个维度，但在维基百科中是二维的：
给出两个三维向量 $\mathbf{w}(-b,-a,1)$ 与 $\mathbf{x}(1,x,y)$

w \cdot x = - b \times (1) + (- a) \times x + 1 \times y w \cdot x = y - a x - b (1)

$\mathbf{w}\cdot\mathbf{x} = -b\times (1) + (-a)\times x + 1 \times y\\\mathbf{w}\cdot\mathbf{x} = y - ax - b \tag{1}$

给出两个二维向量 $\mathbf{w^\prime}(-a,1)$ 和 $\mathbf{x^\prime}(x,y)$

w' \cdot x' = (- a) \times x + 1 \times y w' \cdot x' = y - a x

最低0.47元/天解锁文章

寒小阳

关注

24
点赞
踩
80

收藏

觉得还不错? 一键收藏
5
评论
机器学习系列(15)_SVM碎碎念part3：如何找到最优分离超平面

是的，咱们第1篇blog介绍了目标；第2篇blog介绍了向量相关的背景数学知识，看到了如何求解Margin的值；今天这个部分主要目的是和大家一起来看看，选择最优超平面的推理过程。以下是本篇的一个简短目录：如何找到最优超平面如何计算两超平面间的距离SVM的最优化问题是什么
复制链接

扫一扫