改进的基于多视图和张量低秩表达的子空间聚类算法

参考文献:面向高维数据的聚类算法设计和张量低秩表示研究 卓林琳

针对高维数据集中簇内分布不均匀的问题,本文提出的改进的基于多视图和张量低秩表达的子空间聚类算法(MVTLR-HCFS)是一种综合性的算法,旨在通过多视图信息的融合张量低秩表示技术,提高聚类的准确性和鲁棒性。该算法主要包含以下几个关键步骤和涉及的公式:

1. 多视图子空间表达优化

首先,算法针对高维数据集中的多视图特征数据,利用低秩表达处理噪声和数据损坏问题。具体优化问题可表示为:
min ⁡ Z ( v ) , E ( v ) ∑ v = 1 V ( rank ( Z ( v ) ) + λ v L ( X ( v ) , X ( v ) Z ( v ) ) ) \min_{Z(v),E(v)} \sum_{v=1}^{V} (\text{rank}(Z(v)) + \lambda_v L(X(v), X(v)Z(v))) Z(v),E(v)minv=1V(rank(Z(v))+λvL(X(v),X(v)Z(v)))
s.t.  X ( v ) = X ( v ) Z ( v ) + E ( v ) , v = 1 , … , V \text{s.t. } X(v) = X(v)Z(v) + E(v), \quad v=1,\ldots,V s.t. X(v)=X(v)Z(v)+E(v),v=1,,V
其中, Z ( v ) Z(v) Z(v) 表示第 v v v 个视图的子空间表达矩阵 rank ( Z ( v ) ) \text{rank}(Z(v)) rank(Z(v))表示矩阵 Z Z Z E ( v ) E(v) E(v)误差矩阵 λ v \lambda_v λv正则化参数 L L L损失函数,旨在最小化重构误差

2. 张量低秩表达转换

为充分利用多视图间的互补信息,算法将多视图的数据堆叠成张量将优化问题转换为求解张量的低秩表达问题:
min ⁡ Z , E ∥ E ∥ 2 , 1 + λ ∥ Z ∥ ∗ \min_{Z,E} \|E\|_{2,1} + \lambda \|Z\|_* Z,EminE2,1+λZ
s.t.  X ( v ) = X ( v ) Z ( v ) + E ( v ) , v = 1 , … , V \text{s.t. } X(v) = X(v)Z(v) + E(v), \quad v=1,\ldots,V s.t. X(v)=X(v)Z(v)+E(v),v=1,,V
Z = Ψ ( Z ( 1 ) , … , Z ( V ) ) Z = \Psi(Z(1),\ldots,Z(V)) Z=Ψ(Z(1),,Z(V))
E = [ E ( 1 ) ; … ; E ( V ) ] E = [E(1);\ldots;E(V)] E=[E(1);;E(V)]
其中, ∥ ⋅ ∥ 2 , 1 \|\cdot\|_{2,1} 2,12,1范数,倾向于使误差张量的列向量稀疏,从而处理噪声点和数据损坏; ∥ Z ∥ ∗ \|Z\|_* Z 是张量的核范数,反映了张量的低秩性 Ψ \Psi Ψ 是一个操作,将多个视图的子空间表达矩阵融合成一个张量。

3. 核正则化

张量的低秩约束通过核正则化实现,其公式为:
∥ Z ∥ ∗ = ∑ m = 1 M ξ m ∥ Z ( m ) ∥ ∗ \|\mathcal{Z}\|_* = \sum_{m=1}^{M} \xi_m \|\mathcal{Z}(m)\|_* Z=m=1MξmZ(m)
其中, Z \mathcal{Z} Z 是张量, Z ( m ) \mathcal{Z}(m) Z(m) 表示在第 m m m模态下的矩阵展开式 ξ m \xi_m ξm 是系数常量,满足 ∑ m = 1 M ξ m = 1 \sum_{m=1}^{M} \xi_m = 1 m=1Mξm=1,确保整体低秩性。

4. 优化求解

采用交替最小化(ALM)策略求解上述优化问题,具体地,对公式 F ( Z ( v ) ) F(Z(v)) F(Z(v)) 应用ALM,得到:
F ( Z ( v ) ) = ∥ X ( v ) − X ( v ) Z ( v ) ∥ F 2 + λ S α ( v ) tr ( Z ( v ) L ( v ) ( Z ( v ) ) T ) + λ V ∑ w = 1 , w ≠ v V HSIC ( Z ( v ) , Z ( w ) ) F(Z(v)) = \|X(v) - X(v)Z(v)\|_F^2 + \lambda_S \alpha(v) \text{tr}(Z(v)L(v)(Z(v))^T)+ \lambda_V \sum_{w=1, w \neq v}^V \text{HSIC}(Z(v), Z(w)) F(Z(v))=X(v)X(v)Z(v)F2+λSα(v)tr(Z(v)L(v)(Z(v))T)+λVw=1,w=vVHSIC(Z(v),Z(w))
其中, HSIC \text{HSIC} HSIC 是希尔伯特-施密特独立核检验(Hilbert-Schmidt Independence Criterion),用来衡量不同视图间的独立性,避免错误的互补信息。

5. 融合相似度矩阵与HCFS算法

通过上述步骤获得子空间表达后,利用得到的子空间信息构建相似度矩阵,并结合HCFS算法处理簇内分布不均匀问题,具体实施步骤包括子簇的形成和合并,以及利用能同时度量相邻子簇间连通性和相似性的方法,降低参数设置难度,最终实现对高维数据集簇内不均匀分布的有效聚类。

综上所述,该算法通过结合多视图信息的张量低秩表示和层次化策略的密度峰值聚类,有效地处理了高维数据中簇内分布不均匀的问题,提高了聚类的准确性和鲁棒性。

  • 26
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值