参考文献:面向高维数据的聚类算法设计和张量低秩表示研究 卓林琳
针对高维数据集中簇内分布不均匀的问题
,本文提出的改进的基于多视图和张量低秩表达的子空间聚类算法(MVTLR-HCFS)是一种综合性
的算法,旨在通过多视图信息的融合
和张量低秩表示
技术,提高聚类的准确性和鲁棒性。该算法主要包含以下几个关键步骤和涉及的公式:
1. 多视图子空间表达优化
首先,算法针对高维数据
集中的多视图特征数据,利用低秩表达
来处理噪声和数据损坏
问题。具体优化问题可表示为:
min
Z
(
v
)
,
E
(
v
)
∑
v
=
1
V
(
rank
(
Z
(
v
)
)
+
λ
v
L
(
X
(
v
)
,
X
(
v
)
Z
(
v
)
)
)
\min_{Z(v),E(v)} \sum_{v=1}^{V} (\text{rank}(Z(v)) + \lambda_v L(X(v), X(v)Z(v)))
Z(v),E(v)minv=1∑V(rank(Z(v))+λvL(X(v),X(v)Z(v)))
s.t.
X
(
v
)
=
X
(
v
)
Z
(
v
)
+
E
(
v
)
,
v
=
1
,
…
,
V
\text{s.t. } X(v) = X(v)Z(v) + E(v), \quad v=1,\ldots,V
s.t. X(v)=X(v)Z(v)+E(v),v=1,…,V
其中,
Z
(
v
)
Z(v)
Z(v) 表示第
v
v
v 个视图的子空间表达矩阵
,
rank
(
Z
(
v
)
)
\text{rank}(Z(v))
rank(Z(v))表示矩阵
Z
Z
Z的 秩
,
E
(
v
)
E(v)
E(v) 为误差矩阵
,
λ
v
\lambda_v
λv 是正则化参数
,
L
L
L 为损失函数
,旨在最小化重构误差
。
2. 张量低秩表达转换
为充分利用多视图间的互补
信息,算法将多视图的数据堆叠成张量
,将优化问题转换为求解张量的低秩表达问题:
min
Z
,
E
∥
E
∥
2
,
1
+
λ
∥
Z
∥
∗
\min_{Z,E} \|E\|_{2,1} + \lambda \|Z\|_*
Z,Emin∥E∥2,1+λ∥Z∥∗
s.t.
X
(
v
)
=
X
(
v
)
Z
(
v
)
+
E
(
v
)
,
v
=
1
,
…
,
V
\text{s.t. } X(v) = X(v)Z(v) + E(v), \quad v=1,\ldots,V
s.t. X(v)=X(v)Z(v)+E(v),v=1,…,V
Z
=
Ψ
(
Z
(
1
)
,
…
,
Z
(
V
)
)
Z = \Psi(Z(1),\ldots,Z(V))
Z=Ψ(Z(1),…,Z(V))
E
=
[
E
(
1
)
;
…
;
E
(
V
)
]
E = [E(1);\ldots;E(V)]
E=[E(1);…;E(V)]
其中,
∥
⋅
∥
2
,
1
\|\cdot\|_{2,1}
∥⋅∥2,1 是2,1
范数,倾向于使误差张量
的列向量稀疏,从而处理噪声点和数据损坏;
∥
Z
∥
∗
\|Z\|_*
∥Z∥∗ 是张量的核范数
,反映了张量的低秩性
;
Ψ
\Psi
Ψ 是一个操作,将多个视图的子空间表达矩阵融合
成一个张量。
3. 核正则化
张量的低秩约束通过核正则化实现
,其公式为:
∥
Z
∥
∗
=
∑
m
=
1
M
ξ
m
∥
Z
(
m
)
∥
∗
\|\mathcal{Z}\|_* = \sum_{m=1}^{M} \xi_m \|\mathcal{Z}(m)\|_*
∥Z∥∗=m=1∑Mξm∥Z(m)∥∗
其中,
Z
\mathcal{Z}
Z 是张量,
Z
(
m
)
\mathcal{Z}(m)
Z(m) 表示在第
m
m
m 个模态下的矩阵展开式
,
ξ
m
\xi_m
ξm 是系数常量,满足
∑
m
=
1
M
ξ
m
=
1
\sum_{m=1}^{M} \xi_m = 1
∑m=1Mξm=1,确保整体低秩性。
4. 优化求解
采用交替最小化
(ALM)策略求解上述优化问题,具体地,对公式
F
(
Z
(
v
)
)
F(Z(v))
F(Z(v)) 应用ALM,得到:
F
(
Z
(
v
)
)
=
∥
X
(
v
)
−
X
(
v
)
Z
(
v
)
∥
F
2
+
λ
S
α
(
v
)
tr
(
Z
(
v
)
L
(
v
)
(
Z
(
v
)
)
T
)
+
λ
V
∑
w
=
1
,
w
≠
v
V
HSIC
(
Z
(
v
)
,
Z
(
w
)
)
F(Z(v)) = \|X(v) - X(v)Z(v)\|_F^2 + \lambda_S \alpha(v) \text{tr}(Z(v)L(v)(Z(v))^T)+ \lambda_V \sum_{w=1, w \neq v}^V \text{HSIC}(Z(v), Z(w))
F(Z(v))=∥X(v)−X(v)Z(v)∥F2+λSα(v)tr(Z(v)L(v)(Z(v))T)+λV∑w=1,w=vVHSIC(Z(v),Z(w))
其中,
HSIC
\text{HSIC}
HSIC 是希尔伯特-施密特独立核检验
(Hilbert-Schmidt Independence Criterion),用来衡量不同视图间的独立性,避免错误的互补信息。
5. 融合相似度矩阵与HCFS算法
通过上述步骤获得子空间表达
后,利用得到的子空间信息构建相似度矩阵
,并结合HCFS算法
处理簇内分布不均匀问题,具体实施步骤包括子簇的形成和合并,以及利用能同时度量相邻子簇间连通性和相似性的方法,降低参数设置难度,最终实现对高维数据集簇内不均匀分布的有效聚类。
综上所述,该算法通过结合多视图信息的张量低秩表示和层次化策略的密度峰值聚类,有效地处理了高维数据中簇内分布不均匀的问题,提高了聚类的准确性和鲁棒性。