Coursera机器学习(Andrew Ng)笔记：支持向量机

最新推荐文章于 2019-06-05 22:29:33 发布

wisdom610

最新推荐文章于 2019-06-05 22:29:33 发布

阅读量888

点赞数

分类专栏：机器学习文章标签：机器学习支持向量机

本文链接：https://blog.csdn.net/xuanwozhe/article/details/71514000

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

支持向量机Support Vector Machine

机器学习初学者，原本是写来自己看的，写的比较随意。难免有错误，还请大家批评指正！对其中不清楚的地方可以留言，我会及时更正修改

支持向量机是广泛应用在工业界和学术界的一个比较流行的算法，与逻辑回归和神经网络相比，SVM在学习复杂的非线性方程时，提供了一种更为清晰更加强大的方式。

优化目标Optimization Objective

在逻辑回归中，我们有 $h_\theta(x)=\dfrac{1}{1+e^{-z}}=\dfrac{1}{1+e^{-\theta^Tx}}$ ， $h_\theta(x)=g(z)$ 是一个sigmoid函数。
如果有一个 $y=1$ 的样本，我们希望 $h_\theta(x)\approx1$ ，即 $\theta^Tx\gg0$ ；
如果有一个 $y=0$ 的样本，我们希望 $h_\theta(x)\approx0$ ，即 $\theta^Tx\ll0$ ；
再来看一下代价函数：
这里写图片描述
其中，左右两边紫红色的线被定义成两个函数，分别是 $cost_1(z)$ 和 $cost_0(z)$ ，即 $cost_y(z)$
可以将 $cost$ 函数理解成
$z = \theta^Tx$
$cost_0(z) = max(0, k(1+z))$
$cost_1(z) = max(0, k(1-z))$
使用新的 $cost$ 函数对逻辑回归的最小化问题进行替代，拿掉与最小化不相关的值 $m$ ，得到支持向量机的最小化目标：

m i n θ C \sum i = 1 m [y (i) c o s t 1 (θ T x (i)) + (1 - y (i)) c o s t 0 (θ T x (i))] + 1 2 \sum i = 1 n θ 2 j

$min_\theta C\sum_{i=1}^{m}\left[y^{(i)}cost_1(\theta^Tx^{(i)})+(1-y^{(i)})cost_0(\theta^Tx^{(i)})\right]+\frac{1}{2}\sum_{i=1}^{n}\theta_j^2$
其中

C=1/λ $C = 1/\lambda$
新的假设函数：

h θ (x) = {1 i f . θ T x \geq 0 0 o t h e r w i s e

$h_\theta(x) = \left\{ {1\ \ if.\ \theta^Tx\geq0\atop 0 \ \ otherwise} \right.$

大间距分类器Large Margin Intuition

人们有时将支持向量机看作是大间距分类器，但只是一个直观上的理解。在上述的 $cost$ 函数中，
如果 $y=1$ ，我们希望 $\theta^Tx \geq 1$ ；
如果 $y=0$ ，我们希望 $\theta^Tx \leq -1$ 。
当常数 $C$ 很大时，我们需要选择合适的参数使得 $\sum$ 项等于0，此时，优化目标变成了 $J(\theta) = \frac{1}{2}\sum_{j=1}^n\theta_j^2$
在支持向量机中，决策边界有一个特殊的属性就是，它距离正样本和负样本都尽可能的远。决策边界与样本点之间的最近距离成为间距Margin。因为SVM的决策边界到正负样本都有一个大间距，因此也称之为大间距分类器。
注：仅仅当 $C$ 很大时，才可能实现大间距
这里写图片描述

大间距分类器背后的数学知识

核函数

对支持向量积算法进行一些改变，构造复杂的非线性分类器，这里使用核函数来达到这个目的。
给定 $x$ ，基于与标记点 $l^{(1)},l^{(2)},l^{(3)}$ 的邻近性计算新的特征，定义
$f_i = similarity(x, l^{(i)}) = exp(-\dfrac{\left\| x-l^{(i)}\right\|^2}{2\sigma^2}) = exp(-\dfrac{\sum_{j=1}^{n}( x-l^{(i)}_j)^2}{2\sigma^2})$
其中的相似性函数 $similarity$ 又被称为高斯核函数，其具有以下性质：
当 $x\approx l^{(i)}$ 时， $f_i\approx1$ ；
当 $x$ 距离 $l^{(i)}$ 较远时， $f_i \approx 0$ 。
每个标记点都给出了假设函数中用到的特征， $l^{(1)}\rightarrow f_1,\ l^{(2)}\rightarrow f_2,\ l^{(3)}\rightarrow f_3, \cdots$ ，假设函数可以写成：
$h_\theta(x) = \theta_1f_1+\theta_2f_2+\theta_3f_3+\ldots$
$\sigma^2$ 也是高斯核函数的参数，它可以修正特征 $f_i$ 的衰减速率，如下图：
这里写图片描述
下面我们来看如何选择这些标记点，一个方法是这些标记点与训练样本中的点完全重合，即有m个标记点。给定样本 $x$ ，我们有 $f_1 = similarity(x,l^{(1)}), f_2 = similarity(x,l^{(2)}), f_3 = similarity(x,l^{(3)})$ 等等。由此可得到一个特征向量 $f^{(i)}$ ，对应的，设定 $f_0=1$ ，则有：
$x_{(i)}\rightarrow \left[ \begin{matrix} f_1^{(i)} = similarity(x^{(i)},l^{(1)}) \\ f_2^{(i)} = similarity(x^{(i)},l^{(2)}) \\ \ldots \\ f_m^{(i)} = similarity(x^{(i)},l^{(m)})\end{matrix} \right]$
现在，我们使用新的特征构建支持向量机的最小化算法：
$min_\theta C\sum_{i=1}^{m}\left[y^{(i)}cost_1(\theta^Tf^{(i)}) + (1-y^{(i)})cost_0(\theta^Tf^{(i)})\right] + \frac{1}{2}\sum_{j=1}^n\theta_j^2$
注：相对于和其他机器学习算法的组合，核函数和支持向量机的组合能够使算法计算更快。
-选择SVM参数-
如果 $C$ 较大，我们会得到更高的方差，更低的偏差（ $\lambda$ 小，过拟合）
如果 $C$ 较小，我们会得到更低的方差，更高的偏差（ $\lambda$ 大，解决了过拟合）
如果 $\sigma^2$ 较大，特征 $f_i$ 变化的更平滑，导致更高的偏差和更低的方差
如果 $\sigma^2$ 较小，特征 $f_i$ 变化的更陡峭，导致更低的偏差和更高的方差

使用SVM

在实际应用过程中，有很多写好的SVM库可以使用，推荐使用’liblinear’和’libsvm’，需要做的工作主要有
- 选择参数C
- 选择核函数（即相似性函数）
-不使用核函数（即线性核函数），是一个标准的线性分类器
-选择m和n的大小，n大m小
-使用高斯核函数，需要选择 $\sigma^2$
-选择m和n的大小，n小m大