SVM-4-核函数

最新推荐文章于 2024-01-05 09:48:07 发布

yzheately

最新推荐文章于 2024-01-05 09:48:07 发布

阅读量745

点赞数

分类专栏：机器学习打基础

本文链接：https://blog.csdn.net/yzheately/article/details/50958516

版权

机器学习同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

打基础

33 篇文章 0 订阅

订阅专栏

参考http://www.cnblogs.com/jerrylead

在SVM我们经常不是直接使用样本的原始属性（attribute），假如x是某样本的一个属性，我们经常用到类似 $x^2,x^3$ 等。就像在线性回归问题中，当我们需要拟合出一个曲线时就可能用到 $x,x^2,x^3$ 等。此时就相当于是把 $x$ 映射到 $x,x^2,x^3$ （我们称它们为特征（features）），用 $x,x^2,x^3$ 代替了 $x$ 。我们用下式表示这种映射：

ϕ (x) = ⎡ ⎣ ⎢ x x 2 x 3 ⎤ ⎦ ⎥

$\phi(x)= \left [ \begin{array}{ccc} x \\ x^2 \\ x^3 \end{array} \right ] \\$
注：之所以映射，主要是因为：有时样本在当前维度不易分类，此时可以将其映射到更高的维度。比如上式由一维变成了三维

在SVM中，我们将使用映射后的特征，而不是最初的属性，因此，我们需要将前面 $w^Tx+b$ 公式中 $x用\phi(x)$ 代替，内积从 <xi,x> <script type="math/tex" id="MathJax-Element-202"> </script> 映射到 <ϕ(xi),ϕ(x)> <script type="math/tex" id="MathJax-Element-203"><\phi (x^i), \phi (x)></script>。

这样对于任意的内积 <x,z> <script type="math/tex" id="MathJax-Element-204"> </script>，我们都将用 <ϕ(x),ϕ(z)> <script type="math/tex" id="MathJax-Element-205"><\phi(x),\phi(z)></script>代替。
下面定义核函数（Kernel）：

K (x, z) = ϕ (x) T ϕ (z)

$K(x,z)=\phi(x)^T\phi(z)\\$
这样对于任意的内积

<x,z> <script type="math/tex" id="MathJax-Element-207"> </script>，我们可以用

K(x,y) $K(x,y)$ 代替。有趣的是

K（x,z） $K（x,z）$ 的计算代价并不大，因为我们并不需要计算出

ϕ(x) $\phi(x)$ 。
我们看下面的例子：
假设

x,z,∈Rn,考虑:K(x,z)=(xTz)2 $x,z,\in\mathbb{R}^n,考虑:\\K(x,z)=(x^Tz)^2$
我们也可以写成下面的形式：

K (x, z) = (\sum i = 1 n x i z i) ⎛ ⎝ \sum j = 1 n x j z j ⎞ ⎠ = \sum i = 1 n \sum j = 1 n x i z i x j z j = \sum i, j = 1 n (x i x j) (z i z j)

$K(x,z)= \left (\sum^n_{i=1}x_iz_i\right ) \left (\sum^n_{j=1}x_jz_j\right )\\ =\sum^n_{i=1}\sum^n_{j=1}x_i z_i x_j z_j\\ =\sum^n_{i,j=1}(x_i x_j)(z_i z_j)\\$
这就是说，我们可以将

∑ni,j=1(xixj) $\sum^n_{i,j=1}(x_i x_j)$ 看作

ϕ(x) $\phi(x)$ ，将

∑ni,j=1(zizj) $\sum^n_{i,j=1}(z_i z_j)$ 看作

ϕ(z) $\phi(z)$ 。
因此，上式就等于:

ϕ(x)Tϕ(z) $\phi(x)^T\phi(z)$
现在看一下映射函数（ n=3 时），根据上面的公式，得到：

ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 1 x 2 x 1 x 3 x 2 x 1 x 2 x 2 x 2 x 3 x 3 x 1 x 3 x 2 x 3 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\phi(x)= \left [ \begin{array}{c} x_1 x_1\\x_1 x_2\\x_1 x_3\\ x_2 x_1\\x_2 x_2\\x_2 x_3\\ x_3 x_1\\x_3 x_2\\x_3 x_3\\ \end{array} \right ]$
显然，这里将

x映射到这样的ϕ(x) $x映射到这样的\phi(x)$ 的时间复杂度是

n2 $n^2$ 。而事实证明，我们并不需要求计算x的内积（

ϕ(x) $\phi(x)$ ）或z的内积(

ϕ(z) $\phi(z)$ )去做映射，而只需要计算x与z的内积的平放(

(xTz)2 $(x^Tz)^2$ )即可。
注：
1、这里是假设我们所做的映射

ϕ $\phi$ 是取x的内积，而此时刚好可以用

(xTz)2 $(x^Tz)^2$ 来代替

ϕ(x)Tϕ(z) $\phi(x)^T\phi(z)$ ，即此时可以使用核函数

K(x,z)=(xTz)2 $K(x,z)=(x^Tz)^2$ 。

再看一个核函数：

K (x, z) = (x T z + c) 2 = \sum i, j = 1 n (x i x j) (z i z j) + \sum i = 1 n (2 c - - \sqrt x i) (2 c - - \sqrt z i) + c 2

$K(x,z)=(x^Tz+c)^2 =\sum^n_{i,j=1}(x_i x_j)(z_iz_j)+ \sum^n_{i=1}(\sqrt{2c}x_i)(\sqrt{2c}z_i)+c^2$
它对应的映射函数（ n=3 时）是：

ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 1 x 2 x 1 x 3 x 2 x 1 x 2 x 2 x 2 x 3 x 3 x 1 x 3 x 2 x 3 x 3 2 c - - \sqrt x 1 2 c - - \sqrt x 2 2 c - - \sqrt x 3 c ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\phi(x)= \left [ \begin{array}{ccc} x_1 x_1\\x_1 x_2\\x_1 x_3\\ x_2 x_1\\x_2 x_2\\x_2 x_3\\ x_3 x_1\\x_3 x_2\\x_3 x_3\\ \sqrt{2c}x_1 \\ \sqrt{2c}x_2 \\ \sqrt{2c}x_3 \\ c \end{array} \right ]$
更一般地，核函数

K(x,z)=(xTz+c)d $K(x,z)=(x^Tz+c)^d$ 对应的映射后特征维度为

(n+dd) $\left ( \begin{array}{ccc} n+d\\d \end{array} \right )$ 。

下面让我们看一个与之前不同的核函数：
首先，考虑这样一个问题：我们一直在计算 $\phi(x)^T\phi(z)$ ，也就是两个向量的内积，回想一下余弦相似度。
如果两个向量x,z的夹角越小，即它们越相似，则它们的内积越大，此时我们就会希望核函数越大；反之，我们就希望核函数越小。即核函数的大小反应了x,z的相似度。因此我们就可以选择下面的核函数：

K (x, z) = exp (- | | x - z | | 2 2 δ 2)

$K(x,z)=\exp \left ( -\frac{||x-z||^2}{2\delta^2} \right )$
我们可以用它的结果来表示x,z的相似度。若x和z大小越相近，该函数值越接近1，若x和z相差越大，该函数值越接近0。由于这个函数类似于高斯分布，因此称为高斯核函数，也叫做径向基函数(Radial Basis Function 简称 RBF)。它能够把原始特征映射到无穷维。
既然高斯核函数能够比较 x 和 z 的相似度，并映射到 0 到 1，回想 logistic 回归， sigmoid函数可以，因此还有 sigmoid 核函数等等。

注意，使用核函数后，怎么分类新来的样本呢？线性的时候我们使用 SVM 学习出 w 和b，新来样本 x 的话，我们使用 x 来判断，如果值大于等于 1，那么是正类，小于等于是负类。在两者之间，认为无法确定。如果使用了核函数后， $w^Tx+b$ 就变成了 $w^T\phi(x)+b$ ，是否先要找到 $\phi(x)$ ，然后再预测？答案肯定不是了，找 $\phi(x)$ 很麻烦，回想我们之前说过的：

w T x + b = (\sum i = 1 m α i y i x i) T x + b = \sum i = 1 m α i y i < x i, x > + b

$w^Tx+b= \left ( \sum^m_{i=1}\alpha_iy^ix^i \right )^T x + b\\ = \sum^m_{i=1}\alpha_iy^i<x^i,x>+b$
我们只需要将

<xi,x> <script type="math/tex" id="MathJax-Element-239"> </script>替换成

K(xi,x) $K(x^i,x)$ 即可，然后结果的判断同上。

yzheately

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SVM-4-核函数

在SVM我们经常不是直接使用样本的原始属性（attribute），假如x是某样本的一个属性，我们经常用到类似x2,x3x^2,x^3等。就像在线性回归问题中，当我们需要拟合出一个曲线时就可能用到x,x2,x3x,x^2,x^3等。此时就相当于是把xx映射到x,x2,x3x,x^2,x^3（我们称它们为特征（features）），用x,x2,x3x,x^2,x^3代替了xx。我们用下式表示这种映射：
复制链接

扫一扫