写作背景:很多时候数据在低维空间的时候很难将它们区别开来,所以需要借助核函数将其映射到高维空间中,例如谱聚类,SVM等算法。但是一开始,这其中的原理很多人不知道(例如我啦,哈哈哈),因此有了这篇简单的文章_
1.核函数的作用及意义
低维计算,高维表现
2.高斯核函数为什么能将原始空间映射为无穷维空间?
思路:从泰勒展开式的角度来解释,如下:
e
x
e^x
ex的泰勒展开式为:
(1)
e
x
=
1
+
x
+
x
2
2
!
+
x
3
3
!
+
⋯
+
x
n
n
!
e^x = 1+x+\frac{x^2}{2!}+\frac{x^3}{3!}+\cdots +\frac{x^n}{n!} \tag 1
ex=1+x+2!x2+3!x3+⋯+n!xn(1)
可以看到:式(1)是一个无穷多项的式子。
而高斯核函数为:
(2)
k
(
x
1
,
x
2
)
=
e
(
−
∣
∣
x
1
−
x
2
∣
∣
2
2
σ
2
)
k(x_1,x_2) = e^{(-\frac{||x_1-x_2||^2}{2\sigma^2})} \tag 2
k(x1,x2)=e(−2σ2∣∣x1−x2∣∣2)(2)
将泰勒展开式带入式(2)中,可以得到一个无穷维度的映射,如下:
(3)
k
(
x
1
,
x
2
)
=
1
+
(
−
∣
∣
x
1
−
x
2
∣
∣
2
2
σ
2
)
+
(
−
∣
∣
x
1
−
x
2
∣
∣
2
2
σ
2
)
2
2
!
+
(
−
∣
∣
x
1
−
x
2
∣
∣
2
2
σ
2
)
3
3
!
+
(
−
∣
∣
x
1
−
x
2
∣
∣
2
2
σ
2
)
n
n
!
k(x_1,x_2) = 1+(-\frac{||x_1-x_2||^2}{2\sigma^2})+\frac{(-\frac{||x_1-x_2||^2}{2\sigma^2})^2}{2!}+\frac{(-\frac{||x_1-x_2||^2}{2\sigma^2})^3}{3!}+\frac{(-\frac{||x_1-x_2||^2}{2\sigma^2})^n}{n!} \tag 3
k(x1,x2)=1+(−2σ2∣∣x1−x2∣∣2)+2!(−2σ2∣∣x1−x2∣∣2)2+3!(−2σ2∣∣x1−x2∣∣2)3+n!(−2σ2∣∣x1−x2∣∣2)n(3)
在式(3)中,如果
σ
\sigma
σ选得很大的话,高次特征上的权值将会衰减得非常快,此时的式(3)实际上相当于一个低维的子空间;
如果
σ
\sigma
σ选得很小的话,就可将原始空间映射到任意高维的空间,即可以将任意的数据映射为线性可分。
另外,将式(3)进一步展开有:
(4)
k
(
x
1
,
x
2
)
=
e
(
−
∣
∣
x
1
−
x
2
∣
∣
2
2
σ
2
)
=
e
−
(
x
1
−
x
2
)
2
2
σ
2
=
e
−
x
1
2
+
x
2
2
−
2
x
1
x
2
2
σ
2
=
e
−
x
1
2
+
x
2
2
2
σ
2
x
1
x
2
σ
2
=
e
−
x
1
2
+
x
2
2
2
σ
2
⋅
(
1
+
1
σ
2
x
1
x
2
1
!
+
(
1
σ
2
)
2
(
x
1
x
2
)
2
2
!
+
(
1
σ
2
)
3
(
x
1
x
2
)
3
3
!
+
⋯
+
(
1
σ
2
)
n
(
x
1
x
2
)
n
n
!
)
=
e
−
x
1
2
+
x
2
2
2
σ
2
⋅
(
1
⋅
1
+
1
1
!
x
1
σ
x
2
σ
+
1
2
!
x
1
2
σ
2
x
2
2
σ
2
+
1
3
!
x
1
3
σ
3
x
2
3
σ
3
+
⋯
+
1
n
!
x
1
n
σ
n
x
2
n
σ
n
)
=
ϕ
(
x
1
)
T
⋅
ϕ
(
x
2
)
k(x_1,x_2) =e^{(-\frac{||x_1-x_2||^2}{2\sigma^2})} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = e^{-\frac{(x_1-x_2)^2}{2\sigma^2}} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = e^{-\frac{x_1^2+x_2^2-2x_1x_2}{2\sigma^2}} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = e^{{-\frac{x_1^2+x_2^2}{2\sigma^2}}{\frac{x_1x_2}{\sigma^2}}} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = e^{-\frac{x_1^2+x_2^2}{2\sigma^2}}\cdot(1+\frac{1}{\sigma^2}\frac{x_1x_2}{1!}+(\frac{1}{\sigma^2})^2\frac{(x_1x_2)^2}{2!}+(\frac{1}{\sigma^2})^3\frac{(x_1x_2)^3}{3!}+\cdots+(\frac{1}{\sigma^2})^n\frac{(x_1x_2)^n}{n!}) \\ = e^{-\frac{x_1^2+x_2^2}{2\sigma^2}}\cdot(1\cdot1+\frac{1}{1!}\frac{x_1}{\sigma}\frac{x_2}{\sigma}+\frac{1}{2!}\frac{x_1^2}{\sigma^2}\frac{x_2^2}{\sigma^2}+\frac{1}{3!}\frac{x_1^3}{\sigma^3}\frac{x_2^3}{\sigma^3}+\dots+\frac{1}{n!}\frac{x_1^n}{\sigma^n}\frac{x_2^n}{\sigma^n}) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \phi(x_1)^T\cdot\phi(x_2) \\\tag 4
k(x1,x2)=e(−2σ2∣∣x1−x2∣∣2) =e−2σ2(x1−x2)2 =e−2σ2x12+x22−2x1x2 =e−2σ2x12+x22σ2x1x2 =e−2σ2x12+x22⋅(1+σ211!x1x2+(σ21)22!(x1x2)2+(σ21)33!(x1x2)3+⋯+(σ21)nn!(x1x2)n)=e−2σ2x12+x22⋅(1⋅1+1!1σx1σx2+2!1σ2x12σ2x22+3!1σ3x13σ3x23+⋯+n!1σnx1nσnx2n) =ϕ(x1)T⋅ϕ(x2)(4)
其中, ϕ ( x ) = e − x 2 2 σ 2 ( 1 , 1 1 ! x σ , 1 2 ! x 2 σ 2 , ⋯   , 1 n ! x n σ n ) \phi(x)=e^{-\frac{x^2}{2\sigma^2}}{(1,\sqrt{\frac{1}{1!}}\frac{x}{\sigma},\sqrt{\frac{1}{2!}}\frac{x^2}{\sigma^2},\cdots,\sqrt{\frac{1}{n!}}\frac{x^n}{\sigma^n})} ϕ(x)=e−2σ2x2(1,1!1σx,2!1σ2x2,⋯,n!1σnxn)。