基于一致图表达的鲁棒多视图聚类模型(Robust Multi-view Clustering based on Consistent Graph Representation, RMC-CGR)是一种针对多视图数据的聚类方法。
这类数据集包含了来自不同角度或源的信息,例如,一个人脸识别系统可能同时使用颜色图像、深度图像和红外图像来识别同一个人。
RMC-CGR旨在从这些不同的视图中发现共同的聚类结构,同时处理数据中的噪声和异常值。
主要步骤
- 视图融合
- 鲁棒表示学习
- 聚类
详细步骤与公式
视图融合
- 构建视图图:对于每个视图
v
v
v,构建一个
相似性矩阵
S v S_v Sv。这通常是通过计算视图 v v v 中每对样本的相似度来完成的。常见的相似性度量包括欧氏距离、余弦相似度等。
鲁棒表示学习
- 低秩和稀疏分解:将每个视图的
相似性矩阵
分解为低秩部分
L v L_v Lv 和稀疏部分
E v E_v Ev。低秩部分捕捉了数据的全局结构
,而稀疏部分则吸收了噪声和异常值
。这个分解可以通过求解以下优化问题来实现:
min L v , E v ∑ v λ v ∥ L v ∥ ∗ + μ v ∥ E v ∥ 1 s.t. S v = L v + E v \min_{L_v, E_v} \sum_v \lambda_v\|L_v\|_* + \mu_v\|E_v\|_1 \quad \text{s.t.} \quad S_v = L_v + E_v Lv,Evminv∑λv∥Lv∥∗+μv∥Ev∥1s.t.Sv=Lv+Ev
这里
-
∥ L v ∥ ∗ \|L_v\|_* ∥Lv∥∗ 是矩阵 L v L_v Lv 的
核范数
-
∥ E v ∥ 1 \|E_v\|_1 ∥Ev∥1 是矩阵 E v E_v Ev 的 l 1 l_1 l1 范数
-
λ v \lambda_v λv 和 μ v \mu_v μv 是正则化参数。
-
一致性约束:引入
一致性约束
来确保所有视图的低秩表示
L v L_v Lv 之间的一致性。这通常通过最小化不同视图的低秩表示之间的差异
来实现。一致性约束
可以表示为:
min { L v } ∑ v , u w v u ∥ L v − L u ∥ F 2 \min_{\{L_v\}} \sum_{v, u} w_{vu}\|L_v - L_u\|_F^2 {Lv}minv,u∑wvu∥Lv−Lu∥F2
这里
- w v u w_{vu} wvu 是视图 v v v 和视图 u u u 之间的一致性权重
- ∥ L v − L u ∥ F 2 \|L_v - L_u\|_F^2 ∥Lv−Lu∥F2 是 L v L_v Lv 和 L u L_u Lu 之间的弗罗贝尼乌斯范数。
聚类
- 构建最终的聚类表示:通过
加权平均
所有视图的低秩表示 L v L_v Lv 来构建最终的聚类表示 L L L:
L = ∑ v w v L v L = \sum_v w_v L_v L=v∑wvLv
这里, w v w_v wv 是视图 v v v 的权重。
- 谱聚类:将最终的聚类表示
L
L
L 用于
谱聚类
算法,以得到最终的聚类结果。这通常涉及到计算 L L L 的特征向量
,然后使用 k-means 或其他聚类算法对这些特征向量进行聚类。
公式的作用
- 低秩和稀疏分解:此步骤的目标是
分离出每个视图的全局结构
(低秩部分)和异常值
(稀疏部分)。低秩部分有助于捕捉
数据的固有维度,而稀疏部分则过滤
掉噪声和异常值,提高了聚类的鲁棒性。 - 一致性约束:确保不同视图的低秩表示之间的一致性,这有助于从多个角度理解数据,从而得到更
可靠的聚类结果。
- 谱聚类:通过将最终的聚类表示转换为谱域,谱聚类算法可以在数据的低维嵌入上找到自然的分割,从而提高聚类的质量。
RMC-CGR模型通过结合多视图信息和鲁棒表示学习,能够有效处理复杂和不纯净的数据集,特别是在存在多种视图和噪声的情况下。