带异常值项的基于子空间的多视图聚类模型(Generalized Latent Multi-view Subspace Clustering, gLMSC)是一种针对复杂数据集的高级聚类技术,特别是在存在噪声和异常值的情况下。
gLMSC模型通过在子空间表示的基础上引入异常值检测机制
,旨在提高聚类的鲁棒性。
下面是对gLMSC模型的详细解释,包括其步骤、涉及的公式及其作用。
gLMSC模型概述
gLMSC模型的核心思想
是利用每个视图的数据在低维子空间上的表示,同时检测和移除异常值,以获得更纯净的表示矩阵。
这有助于提高聚类结果的质量,尤其是当数据集中存在噪声和异常点时。
步骤与公式
1. 初始表示学习
在每个视图
v
v
v 上,学习一个表示矩阵
C
v
C_v
Cv 和异常值矩阵
E
v
E_v
Ev,
其中
- C v C_v Cv 描述数据点在子空间上的线性表示
- E v E_v Ev 标识数据中的异常值。
2. 优化目标函数
对于每个视图 v v v,gLMSC模型的目标函数如下:
min C v , E v 1 2 ∥ X v − X v C v − E v ∥ F 2 + λ v ∥ C v ∥ 1 + μ v ∥ E v ∥ 1 \min_{C_v, E_v} \frac{1}{2} \|X_v - X_v C_v - E_v\|_F^2 + \lambda_v \|C_v\|_1 + \mu_v \|E_v\|_1 Cv,Evmin21∥Xv−XvCv−Ev∥F2+λv∥Cv∥1+μv∥Ev∥1
-
X
v
X_v
Xv 是第
v
v
v 个视图的
数据矩阵;
-
C
v
C_v
Cv 是学习到的
表示矩阵;
-
E
v
E_v
Ev 是
异常值矩阵
; -
λ
v
\lambda_v
λv 和
μ
v
\mu_v
μv 是正则化参数,分别控制
表示矩阵的稀疏性
和异常值矩阵的稀疏性;
- ∥ ⋅ ∥ F \|\cdot\|_F ∥⋅∥F 表示矩阵的弗罗贝尼乌斯范数;
-
∥
⋅
∥
1
\|\cdot\|_1
∥⋅∥1 表示矩阵的
l
1
l_1
l1 范数,用于
促进稀疏性。
3. 融合表示矩阵
一旦得到每个视图的表示矩阵
C
v
C_v
Cv,接下来需要将它们融合
成一个统一的表示矩阵
C
C
C。这可以通过加权平均
或更复杂的融合策略实现。
C = ∑ v = 1 V w v C v C = \sum_{v=1}^V w_v C_v C=v=1∑VwvCv
- V V V 是视图的总数;
- w v w_v wv 是第 v v v 个视图的权重。
4. 聚类
最后,基于融合后
的表示矩阵
C
C
C,应用聚类算法(如谱聚类)来划分数据点。
公式的作用
- 初始表示学习:公式 min C v , E v 1 2 ∥ X v − X v C v − E v ∥ F 2 + λ v ∥ C v ∥ 1 + μ v ∥ E v ∥ 1 \min_{C_v, E_v} \frac{1}{2} \|X_v - X_v C_v - E_v\|_F^2 + \lambda_v \|C_v\|_1 + \mu_v \|E_v\|_1 minCv,Ev21∥Xv−XvCv−Ev∥F2+λv∥Cv∥1+μv∥Ev∥1 的作用是同时学习表示矩阵和异常值矩阵,确保数据点在子空间上的准确表示,同时检测并排除异常值。
- 融合表示矩阵:公式 C = ∑ v = 1 V w v C v C = \sum_{v=1}^V w_v C_v C=∑v=1VwvCv 用于融合来自不同视图的信息,以获得一个更全面的表示,这有助于提高聚类的准确性和鲁棒性。
- 聚类:基于融合后的表示矩阵 C C C 进行聚类,得到最终的数据分组。
gLMSC模型通过在子空间表示中加入异常值检测,能够更有效地处理带有噪声和异常值的数据,从而在复杂数据集的聚类任务中表现出色。