交叉核矩阵(Cross-Kernel Matrix)和自身核矩阵(Self-Kernel Matrix)是核方法
中用于衡量不同数据集或同一数据集内部点之间相似度的矩阵
。
这些矩阵在多视图学习、核典型相关性分析(KCCA)、核主成分分析(Kernel PCA)和其他核方法中扮演着重要角色。
自身核矩阵
自身核矩阵是用于衡量数据集中各点之间相似度的矩阵
。对于一个数据集
X
=
{
x
1
,
x
2
,
…
,
x
n
}
\mathbf{X} = \{x_1, x_2, \ldots, x_n\}
X={x1,x2,…,xn} ,自身核矩阵
K
\mathbf{K}
K 定义为:
K = ( k ( x 1 , x 1 ) k ( x 1 , x 2 ) ⋯ k ( x 1 , x n ) k ( x 2 , x 1 ) k ( x 2 , x 2 ) ⋯ k ( x 2 , x n ) ⋮ ⋮ ⋱ ⋮ k ( x n , x 1 ) k ( x n , x 2 ) ⋯ k ( x n , x n ) ) \mathbf{K} = \begin{pmatrix} k(x_1, x_1) & k(x_1, x_2) & \cdots & k(x_1, x_n) \\ k(x_2, x_1) & k(x_2, x_2) & \cdots & k(x_2, x_n) \\ \vdots & \vdots & \ddots & \vdots \\ k(x_n, x_1) & k(x_n, x_2) & \cdots & k(x_n, x_n) \end{pmatrix} K= k(x1,x1)k(x2,x1)⋮k(xn,x1)k(x1,x2)k(x2,x2)⋮k(xn,x2)⋯⋯⋱⋯k(x1,xn)k(x2,xn)⋮k(xn,xn)
其中,
-
k
(
⋅
,
⋅
)
k(\cdot, \cdot)
k(⋅,⋅) 是
核函数
,它接受两个数据点作为输入
,返回它们在映射到高维空间后的内积
,即 k ( x i , x j ) = ⟨ ϕ ( x i ) , ϕ ( x j ) ⟩ k(x_i, x_j) = \langle \phi(x_i), \phi(x_j) \rangle k(xi,xj)=⟨ϕ(xi),ϕ(xj)⟩ ,其中 ϕ \phi ϕ 是映射函数。
交叉核矩阵
交叉核矩阵用于衡量两个不同数据集之间的相似度
。对于两个数据集
X
=
{
x
1
,
x
2
,
…
,
x
n
}
\mathbf{X} = \{x_1, x_2, \ldots, x_n\}
X={x1,x2,…,xn} 和
Y
=
{
y
1
,
y
2
,
…
,
y
m
}
\mathbf{Y} = \{y_1, y_2, \ldots, y_m\}
Y={y1,y2,…,ym} ,交叉核矩阵
K
x
y
\mathbf{K}_{xy}
Kxy 定义为:
K x y = ( k ( x 1 , y 1 ) k ( x 1 , y 2 ) ⋯ k ( x 1 , y m ) k ( x 2 , y 1 ) k ( x 2 , y 2 ) ⋯ k ( x 2 , y m ) ⋮ ⋮ ⋱ ⋮ k ( x n , y 1 ) k ( x n , y 2 ) ⋯ k ( x n , y m ) ) \mathbf{K}_{xy} = \begin{pmatrix} k(x_1, y_1) & k(x_1, y_2) & \cdots & k(x_1, y_m) \\ k(x_2, y_1) & k(x_2, y_2) & \cdots & k(x_2, y_m) \\ \vdots & \vdots & \ddots & \vdots \\ k(x_n, y_1) & k(x_n, y_2) & \cdots & k(x_n, y_m) \end{pmatrix} Kxy= k(x1,y1)k(x2,y1)⋮k(xn,y1)k(x1,y2)k(x2,y2)⋮k(xn,y2)⋯⋯⋱⋯k(x1,ym)k(x2,ym)⋮k(xn,ym)
同样的,
-
k
(
⋅
,
⋅
)
k(\cdot, \cdot)
k(⋅,⋅) 是核函数,
用于衡量映射后的数据点之间的相似度。
举例
假设我们有一个简单的高斯核函数
(Radial Basis Function, RBF):
k
(
x
i
,
x
j
)
=
exp
(
−
∥
x
i
−
x
j
∥
2
2
σ
2
)
k(x_i, x_j) = \exp\left(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\right)
k(xi,xj)=exp(−2σ2∥xi−xj∥2)
这里,
-
∥
x
i
−
x
j
∥
\|x_i - x_j\|
∥xi−xj∥ 是点
x
i
x_i
xi 和
x
j
x_j
xj 之间的
欧几里得距离。
-
σ
\sigma
σ 是高斯核的宽度参数,
决定了相似度随距离变化的速度。
总结
- 自身核矩阵和交叉核矩阵是核方法中
衡量数据点之间相似度的工具
。 - 自身核矩阵用于衡量
同数据集
内部点的相似度 - 交叉核矩阵用于衡量
不同数据集
之间点的相似度。 - 通过使用适当的核函数,这些矩阵能够捕获数据的
非线性结构
,这对于许多机器学习和数据挖掘任务都是至关重要的。