CGD: Multi-View Clustering via Cross-View Graph Diffusion

问题:多视角聚类之前的方法不够通用

主要内容:考虑到不同视图之间的信息互补性,创新性地提出了基于扩散模型的跨视图相似图融合算法。首先,根据各个视图生成独立的相似图矩阵,再通过挖掘不同视图之间的互补性,构造视图加权的迭代扩散模型,经过迭代更新每个视图的相似图矩阵。迭代过程中,考虑不同视图对应的相似图之间的关联。利用每个视图修正之后的相似图矩阵融合得到最终多视图共有的相似图矩阵,再利用谱聚类方法得到聚类结果,显著提升了多视图聚类算法的性能,并且该算法步骤中只涉及相似图的更新融合,计算复杂度也较低。

与以往从原始特征中学习一致图的方法相比,CGD直接从多个预先定义的图中学习统一图。好处是1) CGD可以从不同的视图中捕捉原始数据点的流形几何结构,2)利用多个图之间的复杂信息,而不是原始的多视图数据,由于多个图直接刻画了数据点在不同方面的关系,因此更加直观,3)当给定预定义的视图特定图时,它是无参数的。

改进多视图聚类的关键是如何利用不同view之间的互补性。首先每个view都有自己的特征X,再由自己的特征由特征间相似度得到W即相似度矩阵。

文中先介绍了一下扩散方程,是基于单视角随时间变化的。接着引入多视角,改一下方程得到:

其中S=

由于后面要图融合,所以我们先把相似度矩阵进行归一化

再直接求平均,得到总体的相似度矩阵

另外,公式(4)用到了alpha,即会影响融合程度,越大融合的越多。

对所有视角的结果进行点乘,可以算出由多少条边不为0(即所有视图中都有较好连接),以此来算alpha.即数据集的边如果很密集,那么少融合一些

 

实验数据集:

  • MSRCV1:210张7种类别的图片的不同特征提取方式(6种:CENT, CMT, GIST, HOG, LBP, andSIFT)生成的图。
  • 100leaves:来自100种植物的1600片叶子,不同的视角为:叶子形状,叶子边缘和组织纹理
  • 3sources:3个组织的169篇报道
  • Scene-15:15个场景的分类,提取了GIST, PHOG, and LBP
  • Reuters:5种语言,18758个样本,每个样本是一串文字

结论:本文提出了一种通用、有效、无参数的交叉图扩散多视图数据聚类方法。CGD以不同视图的传统预定义图矩阵为输入,通过迭代交叉扩散过程学习每个视图的改进图。通过对改进的视图关联图进行平均,得到最终用于聚类的统一图。在多个基准数据集上进行了大量实验,从七个聚类评价指标的角度验证了该方法的有效性。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值