机器学习技法---（Week1）Linear Support Vector Machine

最新推荐文章于 2020-07-14 19:37:38 发布

维格堂406小队

最新推荐文章于 2020-07-14 19:37:38 发布

阅读量287

点赞数

分类专栏： ★★★机器学习 # ★★台大机器学习

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79623034

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★台大机器学习

13 篇文章 0 订阅

订阅专栏

技法的课，相对更关注算法，希望1个月内搞掂~

课程介绍

共计16周课程，主要内容：哲学上直观的理解、关键理论、核心算法和实际操作的注意点。围绕特征变换，本次课程涉及到以下三个方向：
1. 如何对大量的特征进行开发和正则化操作：SVM模型
2. 组合预测特征，构建和融合预测特征：AdaBoost算法
3. 识别和学习潜藏的特征：Deep Learning

线性支持向量机的引入

回顾《机器学习基石》中的PLA，对于线性可分的数据，能找到多个超平面正确的分开两类数据。
Fig1

那么这些超平面中哪一个是最优的？
Fig2

仅凭直觉，可以认为第三条直线最好。因为旁边的点离他们比较远，两个问题：

离得远为什么好
怎么量化/计算这个距离

点距离超平面远，可以理解成对误差的容忍度高，即如果观测受噪声影响出现部分偏差，距离大的超平面仍然能够正确区分两类数据。如下图：
Fig3

距离定义为：离超平面最近的点到分类超平面的距离，用margin表示。
那么在样本数据线性可分条件下找到间隔最大的超平面可以这样描述：

分类正确
${y_n}{w^T}{x_n} > 0$
margin最大

用数学语言表示：
Fig4

参数求解

目标函数和条件约束已经都有了，下一步就是求解参数。为了表达方便，在PLA的基础上做一些数学符号改变。首先把 $w_0,w_1,...,w_d$ 中的 $w_0$ 拿出来用 $b$ 表示。同时省去 $x_0$ 项。这样hypothesis变为 $h(x)=sign(w^Tx+b)$ 。这里要注意一下，为什么后面会出现 $y_n(w^Tx_n+b) \ge 0$ 。

距离计算

上节中需要计算点到超平面的距离 $distance$ ，初中数学就学过点到直线的距离，点到面的距离可以理解成向量往超平面的法向量方向的投影。具体如下：
Fig5

上图主要分两步：第一步证明 $w$ 是超平面的法向量，第二步求点到直线距离，目标点和超平面上任意一点构成向量，该向量往超平面的法向量上投影即可得点到超平面的距离。 $\left| {\frac{{{w^T}}}{{\left\| w \right\|}}\left( {x - x'} \right)} \right| = \left| {\frac{{{w^T}}}{{\left\| w \right\|}}x - \frac{{{w^T}}}{{\left\| w \right\|}}x'} \right| = \left| {\frac{{{w^T}}}{{\left\| w \right\|}}x + b} \right|$ 即可得出距离公式。那么目标函数转换为：
Fig6
投影的计算：
由下图的推导，容易得到上述投影的计算
Fig6

缩放

上面的式子还是很难求解，需要进行一些转换。我们可以对 $w,b$ 同时缩放，从而使得
Fig7

这样缩放并不会改变超平面的性质，也不会改变点到超平面的距离。经过缩放，目标函数可以写成：
Fig8

又 $min \space y_n(w^Tx_n+b)=1$ ，因此所有 $y_n(w^Tx_n+b) \ge 1$ ，那么此时分类一定是准确的，所以第一个条件一定可以满足。对第二个条件做一些修改， $min \space y_n(w^Tx_n+b)=1$ 变为 $y_n(w^Tx_n+b) \ge 1$ ，这样处理可能会导致最小距离大于1，但是可以同样对 $w,b$ 做缩放使得最小距离等于1。具体逻辑如下：

Fig9

二次规划求解

通过上节一系列变换，原始问题转换为二次规划问题。先举一个简单的例子做说明。二维平面上有四个点，两个正类两个负类。具体求解逻辑如下：
Fig10

这种求最大间隔超平面的方法称为SVM，因为超平面的确定依靠的是最近的几个点，其余点没有影响。而这几个点称为支撑向量，利用支撑向量得到最大间隔超平面的方法称为支持向量机。
SVM的一般化求解方法是利用相关软件求解二次规划问题，即Quadratic Programming。具体求解需要对目标函数做一些整体，使其满足二次规划一般化的表达方式。具体如下：
Fig11

SVM的优点

从直觉上讲，SVM可以找到最大间隔超平面，从而对噪声的容忍度更高，分类想过相对更好。但是它背后的逻辑是什么呢？SVM的思想和之前regularization的思想类似，调换了目标和限制条件，具体如下：
Fig12

从另外一方面看，Large-Margin会限制Dichotomies的个数，并且可能shatter的点更少。回忆Dichotomies和shatter、break point 的定义：
1. 类似的某一种线可以把点二分，如果hypothesis可以把点二分，则称为一个dichotomy
2. 如果 $N$ 个点有 $2^N$ 个dichotomy，称 $N$ 个点被shatter
3. 如果 $k$ 个点有小于 $2^k$ 个dichotomy，称 $k$ 为 $H$ 的break point
Fig13

直观上看，线越胖，Dichotomies越少，那么模型复杂度就越低，模型的泛化性能越强。

Summary

本节课主要是介绍用线性支持向量机解决PLA问题，通过转换目标函数，得到二次规划的形式。并且介绍了SVM背后的逻辑，即减少dichotomies的个数，减少VC维，使得模型有更好的泛化能力。

Ref

[1] http://blog.csdn.net/red_stone1/article/details/73526457

2018-03-20 于杭州

维格堂406小队

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习技法---（Week1）Linear Support Vector Machine

技法的课，相对更关注算法，希望1个月内搞掂~ 课程介绍共计16周课程，主要内容：哲学上直观的理解、关键理论、核心算法和实际操作的注意点。围绕特征变换，本次课程涉及到以下三个方向： 1. 如何对大量的特征进行开发和正则化操作：SVM模型 2. 组合预测特征，构建和融合预测特征：AdaBoost算法 3. 识别和学习潜藏的特征：Deep Learning 线性支持...
复制链接

扫一扫