非线性支持向量机与核函数
本节包括以下内容
- 1.非线性分类问题
- 2.核函数的定义
- 3.核技巧在支持向量机中的应用
- 4.正定核    \; 核心问题:函数 K ( x , z ) K(x, z) K(x,z)满足什么条件才能称为核函数?
- 5.常用核函数
- 6.非线性支持向量机学习算法
1.非线性分类问题
非线性分类问题是指通过利用非线性模型才能很好地进行分类的问题。下图是一个例子,下图的左图是一个分类问题,由下图可见,无法用直线(线性模型)将正负实例正确分开,但可以用一条椭圆曲线(非线性模型将它们正确分开)。
对于给定的一个训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={
(x1,y1),(x2,y2),⋯,(xN,yN)}其中实例 x i x_i xi属于输入空间, x i ∈ X = R n , y i ∈ Y = { + 1 , − 1 } , i = 1 , 2 , ⋯   , N x_{i} \in \mathcal{X}=\mathbf{R}^{n}, \quad y_{i} \in \mathcal{Y}=\{+1,-1\}, \quad i=1,2, \cdots, N xi∈X=Rn,yi∈Y={
+1,−1},i=1,2,⋯,N, y i y_i yi为 x i x_i xi的类标记,如果能用 R n R^n Rn中的一个超曲面将正负实例正确分开,则称这个问题为非线性可分问题。
非线性分类问题的求解思路:进行一个非线性变换,将非线性问题变换为线性问题,通过解变换后的线性问题求解原来的非线性问题.对于上图中的例子,通过变换,将左图中椭圆变换成右图中的直线,将非线性分类问题变换为线性分类问题。
符号推导如下:
设原空间为 X ⊂ R 2 , x = ( x ( 1 ) , x ( 2 ) ) T ∈ X \mathcal{X} \subset \mathbf{R}^{2}, x=\left(x^{(1)}, x^{(2)}\right)^{\mathrm{T}} \in \mathcal{X} X⊂R2,x=(x(1),x(2))T∈X,新空间为 Z ⊂ R 2 , z = ( z ( 1 ) , z ( 2 ) ) T ∈ Z \mathcal{Z} \subset \mathbf{R}^{2}, z=\left(z^{(1)}, z^{(2)}\right)^{T} \in \mathcal{Z} Z⊂R2,z=(z(1),z(2))T∈Z,定义从原空间到新空间的变换(映射): z = ϕ ( x ) = ( ( x ( 1 ) ) 2 , ( x ( 2 ) ) 2 ) T z=\phi(x)=\left(\left(x^{(1)}\right)^{2},\left(x^{(2)}\right)^{2}\right)^{\mathrm{T}} z=ϕ(x)=((x(1))2,(x(2))2)T
经过变换 z = ϕ ( x ) z=\phi(x) z=ϕ(x),原空间 X ⊂ R 2 \mathcal{X} \subset \mathbf{R}^{2} X⊂R2变换为新空间 Z ⊂ R 2 \mathcal{Z} \subset \mathbf{R}^{2} Z⊂R2,原空间中的点相应地变换为新空间中的点,原空间中的椭圆
w 1 ( x ( 1 ) ) 2 + w 2 ( x ( 2 ) ) 2 + b = 0 w_{1}\left(x^{(1)}\right)^{2}+w_{2}\left(x^{(2)}\right)^{2}+b=0 w1(x(1))2+w2(x(2))2+b=0
变换为新空间中的直线 w 1 z ( 1 ) + w 2 z ( 2 ) + b = 0 w_{1} z^{(1)}+w_{2} z^{(2)}+b=0 w1z(1)+w2z(2)+b=0在变换后的新空间中,直线 w 1 z ( 1 ) + w 2 z ( 2 ) + b = 0 w_{1} z^{(1)}+w_{2} z^{(2)}+b=0 w1z(1)+w2z(2)+b=0可以将变换后的正负实例点正确分开.这样,原空间中的非线性可分问题就变成了新空间中的线性可分问题.
2.核函数的定义
定义6(核函数) 设 X \mathcal{X} X是输入空间(欧氏空间 R n R^n Rn的子集或离散集合),又设 H \mathcal H H为特征空间(希尔伯特空间),如果存在一个 X \mathcal X X到 H \mathcal H H的映射 ϕ ( x ) : X → H \phi(x) : \mathcal{X} \rightarrow \mathcal{H} ϕ(x):X→H使得对所有 x , z ∈ X x, z \in \mathcal{X} x,z∈X,函数 K ( x , z ) K(x, z) K(x,z)满足条件
K ( x , z ) = ϕ ( x ) ⋅ ϕ ( z ) K(x, z)=\phi(x) \cdot \phi(z) K(x,z)=ϕ(x)⋅ϕ(z)则称 K ( x , z ) K(x, z) K(x,z)为核函数, ϕ ( x ) \phi(x) ϕ(x)为映射函数,式中 ϕ ( x ) ⋅ ϕ ( z ) \phi(x)\cdot\phi(z) ϕ(x)⋅ϕ(z)为和 ϕ ( z ) \phi(z) ϕ(z)的内积。
以下为本节的最重要技术核技巧,核技巧巧妙地利用线性分类学习方法与核函数解决非线性问题的技术.
核技巧的思路:在学习和预测中只定义核函数 K ( x , z ) K(x, z) K(x,z),而不显式地定义映射函数 ϕ ( x ) \phi(x) ϕ(x).通常,直接计算 K ( x , z ) K(x, z) K(x,z)比较容易,而通过 ϕ ( x ) \phi(x) ϕ(x)和 ϕ ( z ) \phi(z) ϕ(z)计算 K ( x , z ) K(x, z) K(x,z)并不容易.注意,