[PED04]Ultra-Scalable Spectral Clustering and Ensemble Clustering

Ultra-Scalable Spectral Clustering and Ensemble Clustering

来源: TKDE
作者:Dong Huang, Chang-Dong Wang,等

疑问

二部图
transfer cut

摘要

提出两个算法:

  • ultra-scalable spectral clustering (U-SPEC)
  • ultra-scalable ensemble clustering (U-SENC)

在U-SPEC中,为了构造稀疏关联子矩阵,提出了一种混合代表选择策略和K近邻代表的快速逼近方法。将稀疏子矩阵解释为二部图,利用转移割(transfer cut)对图进行有效划分,得到聚类结果。

在U-SENC中,多个U-SPEC聚类器被进一步集成到一个集成聚类框架中,以增强U-SPEC的鲁棒性,同时保持较高的效率。基于多U-SEPC的集成生成,在目标和基簇之间构造一个新的二部图,并对其进行有效划分,以达到一致的聚类结果。

Introduction

  • 问题:传统谱聚类需要 O ( N 2 d ) O(N^2 d) O(N2d)的时间复杂度和 O ( N 2 ) O(N^2) O(N2) 的空间复杂度来建立关联矩阵、需要 O ( N 3 ) O(N^3) O(N3)的时间复杂度和 O ( N 2 ) O(N^2) O(N2)的空间复杂度来解决特征值分解问题。
  • 减轻谱聚类的巨大计算负担的方法:
    • 策略一:稀疏化关联矩阵。利用稀疏特征值求解器[2]来解决特征值分解问题。
      • 存在问题:矩阵稀疏化策略可以降低存储关联矩阵的内存成本,促进特征值分解,但仍需要计算原关联矩阵中的所有项。
    • 另一个策略:子矩阵构造
      • [3] Nyström method:随机选出p个代表构造 N × p N \times p N×p的关联子矩阵
      • [4] landmark based spectral clustering:在数据集上执行k-means以获得p个聚类中心作为这P个代表点。
        • 存在问题:
          • 复杂度为 O ( N × p ) O(N \times p) O(N×p),但是当处理极大的数据集时,为了实现更好的近似,p也会很大。
          • 聚类结果严重依赖于通过子矩阵的一次近似(one-shot approximation),聚类的鲁棒性有不稳定因素。

因此如何使谱聚类能够在相当有限的计算资源下高效、鲁棒地聚类非常大的数据集(甚至可能是非线性可分的)仍然是一个极具挑战性的问题。

本文提出两种方法:

  • U-SPEC:混合代表点选择策略来选择p个代表点。将基于k均值的选择策略的时间复杂度从 O ( N p d t ) O(Npdt) O(Npdt)降到 O ( p 2 d t ) O(p^2dt) O(p2dt)

    • 在此基础上,设计了一种K最近邻的快速逼近方法,有效地构造了一个具有 O ( N p 1 2 d ) O(Np^{\frac{1}{2}}d) O(Np21d)时间和 O ( N p 1 2 ) O(Np^{\frac{1}{2}}) O(Np21)内存的稀疏子矩阵。
    • 利用稀疏子矩阵作为交叉关联矩阵,在数据集和代表点集之间建立二部图。
    • 通过二部图结构,用transfer cut[6]来求解特征值分解问题,时间复杂度为 O ( N K ( K + k ) + p 3 ) O(NK(K + k) + p^3 ) O(NK(K+k)+p3),其中k为簇的个数,K为最接近的代表数。
    • 最后,采用k-均值离散化方法构造了一组k个特征向量的聚类结果,花费了 O ( N k 2 t ) O(Nk^2t) O(Nk2t)时间。
    • 一般认为,k, k <p <N(远小于),我们的U-SPEC算法的时间和空间复杂度分别为 O ( N p 1 2 d ) O(Np^{\frac{1}{2}}d) O(Np21d) O ( N p 1 2 ) O(Np^{\frac{1}{2}}) O(Np21)
    • 此外,为了改进U-SPEC的一次性近似,提供更好的聚类鲁棒性,U-SENC算法将多个U-SPEC聚类结果集成到一个统一的集成聚类框架中,其时间和空间复杂度分别为 O ( N m p 1 2 d ) O(Nmp^{\frac{1}{2}}d) O(Nmp21d) O ( N p 1 2 ) O(Np ^{\frac{1}{2}}) O(Np21)
  • 贡献:

    • 1)混合代表点选择策略,在随机选择的效率和基于k均值的选择的有效性之间取得平衡。
    • 2)设计了一种K -最近邻表示的快速逼近方法,该方法对于构造对象与代表点之间的稀疏关联子矩阵,在时间和空间上都非常有效率。
    • 3)提出了一种基于有效关联子矩阵构造和二部图的大规模谱聚类算法U-SPEC。其时间复杂度和空间复杂度分别为 O ( N p 1 2 d ) O(Np^{\frac{1}{2}}d) O(Np21d) O ( N p 1 2 ) O(Np^{\frac{1}{2}}) O(Np21)
    • 4)通过集成多个U-SPEC聚类器,提出一种新的大规模集成聚类算法U-SENC,该算法在保持高可扩展性的同时,显著提高了U-SPEC的鲁棒性。它的时间和空间复杂度分别为 O ( N m p 1 2 d ) O(Nmp^{\frac{1}{2}}d) O(Nmp21d) O ( N p 1 2 ) O(Np ^{\frac{1}{2}}) O(Np21)

Related work

2.1 spectral clustering

  • 传统谱聚类
    • 时间复杂度: O ( N 3 ) O(N^3) O(N3),空间复杂度: O ( N 2 ) O(N^2) O(N2)
  • 稀疏关联矩阵,通过K-近邻,然后使用sparse eign-solver求特征值分解。
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 问题:但是仍然需要计算原始关联矩阵中的所有项。
  • sub-matrix based approximation 避免计算整个的affinity matrix
    • Nystrom :
      • 随机选择p个锚点,构造 N × p N \times p N×p的子矩阵
      • 子矩阵构造:时间复杂度 O ( N p d ) O(Npd) O(Npd) 空间复杂度 O ( N p ) O(Np) O(Np)
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值