多图聚类模型(Graph-based Multi-view Clustering, GMC)是一种专门设计用于处理多视图数据的聚类算法,它利用图结构来捕捉数据点之间的关系,并通过联合优化多个视图的图表示来达到更准确的聚类效果。
GMC算法的核心在于能够有效融合
不同来源的信息,即使这些信息可能存在矛盾或不完整,也能从中提取出一致的聚类结构。
GMC算法的步骤和公式
1. 数据预处理
每个视图的数据集
X
v
=
{
x
v
,
1
,
x
v
,
2
,
…
,
x
v
,
n
}
\mathcal{X}_v = \{x_{v,1}, x_{v,2}, \ldots, x_{v,n}\}
Xv={xv,1,xv,2,…,xv,n}
其中
- v = 1 , 2 , … , V v = 1, 2, \ldots, V v=1,2,…,V 表示视图索引
- V V V 是视图的总数
- n n n 是数据点的个数。
2. 构建图相似矩阵
对于每个视图
v
v
v,构建图相似矩阵
W
v
W_v
Wv,通常使用高斯核函数
来度量数据点之间的相似性:
W
v
(
i
,
j
)
=
exp
(
−
∥
x
v
,
i
−
x
v
,
j
∥
2
2
σ
2
)
W_v(i,j) = \exp\left(-\frac{\|x_{v,i} - x_{v,j}\|^2}{2\sigma^2}\right)
Wv(i,j)=exp(−2σ2∥xv,i−xv,j∥2)
其中,
σ
\sigma
σ 是高斯核的带宽参数,
∥
⋅
∥
\| \cdot \|
∥⋅∥ 表示欧几里得距离。
3. 构建拉普拉斯矩阵
对于每个视图
v
v
v,构建拉普拉斯矩阵
L
v
L_v
Lv:
L
v
=
D
v
−
W
v
L_v = D_v - W_v
Lv=Dv−Wv
其中,
D
v
D_v
Dv 是度矩阵,其对角线元素
D
v
(
i
,
i
)
=
∑
j
W
v
(
i
,
j
)
D_v(i,i) = \sum_j W_v(i,j)
Dv(i,i)=∑jWv(i,j)。
4. 融合多视图信息
通过加权平均的方式融合所有视图的拉普拉斯矩阵
,得到融合后的拉普拉斯矩阵
L
L
L:
L
=
∑
v
=
1
V
α
v
L
v
L = \sum_{v=1}^V \alpha_v L_v
L=v=1∑VαvLv
其中,
α
v
\alpha_v
αv 是第
v
v
v 个视图的权重,通常需要满足
∑
v
=
1
V
α
v
=
1
\sum_{v=1}^V \alpha_v = 1
∑v=1Vαv=1。
5. 求解特征向量
求解融合后
的拉普拉斯矩阵
L
L
L 的特征向量,这通常涉及到求解以下广义特征值问题:
L
h
=
λ
D
h
Lh = \lambda Dh
Lh=λDh
其中,
h
h
h 是特征向量,
λ
\lambda
λ 是对应的特征值,
D
D
D 是融合后的度矩阵。
6. 聚类
选取前 k k k 个特征向量( k k k 是聚类数目),构成矩阵 H H H,并对 H H H 的每一行应用 k k k-means 算法,以确定数据点的最终聚类归属。
目标公式
GMC算法的目标函数可以表述为最小化以下目标:
min
H
Tr
(
H
T
L
H
)
\min_{H} \text{Tr}(H^T L H)
HminTr(HTLH)
其中
- Tr \text{Tr} Tr 表示矩阵的迹
- H H H 是由特征向量构成的矩阵
- L L L 是融合后的拉普拉斯矩阵。
公式的作用
- 构建图相似矩阵: W v W_v Wv 描述了每个视图中数据点之间的相似度,这对于构建图结构至关重要,是后续步骤的基础。
- 构建拉普拉斯矩阵:
L
v
L_v
Lv 描述了图的结构,它
反映了数据点之间的连接强度和网络结构。
- 融合多视图信息:通过
加权平均融合所有视图的拉普拉斯矩阵
,可以充分利用多视图信息,提高聚类的准确性和鲁棒性。 - 求解特征向量:特征向量提供了`数据点在低维空间中的表示``,便于后续的聚类分析。
- 聚类:最终的聚类步骤通过将数据点映射到特征向量空间,然后应用
k
k
k-means 算法来确定聚类
归属。
GMC算法通过上述步骤,能够有效地处理多视图数据集,捕捉数据点之间的复杂关系,并通过融合多源信息来增强聚类结果的准确性和一致性。