层次聚类
文章平均质量分 62
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
Clustering by fast search and find of density peaks
经典的聚类算法K-means是通过指定聚类中心,再通过迭代的方式更新聚类中心的方式,由于每个点都被指派到距离最近的聚类中心,所以导致其不能检测非球面类别的数据分布。,在CFDP算法是基于这样的假设:聚类中心周围都是密度比其低的点,同时这些点距离该聚类中心的距离相比于其他聚类中心来说是最近的。新算法就是基于这两个假设来识别和查找聚类中心。原创 2022-12-01 23:45:53 · 4 阅读 · 0 评论 -
Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection
结果,它提供了一个完整的聚类层次结构,由所有可能的基于密度的聚类组成,遵循所采用的非参数模型,具有无限范围的密度阈值,并且可以使用Hartigan的刚性聚类概念轻松地从中提取简化的聚类树[Hartigan 1975]。(ii)可以以无监督或半监督的方式获得一个“平坦”(即非层次)的聚类解决方案,由从簇树的局部切割中提取的簇(可能对应于不同的密度阈值)组成。它遵循所采用的非参数模型,提供了一个由所有可能的基于密度的簇组成的完整的聚类层次结构,对于无限范围的密度阈值。它还可以进一步进行后处理,以便。原创 2022-12-01 15:05:41 · 8 阅读 · 0 评论 -
DISC: Density-Based Incremental Clustering by Striding over Streaming Data
本质上,只有当前核破坏了同一簇中的两个核心点之间的密度可达路径,并且它们之间不再有路径时,簇才能被拆分。本文提出的基于密度的聚类算法称为基于密度的增量跨步聚类(density-based Incremental Striding Cluster,简称DISC)。针对基于密度的流数据聚类存在的局限性,在不影响聚类结果质量或消耗过多计算资源的前提下,使得流数据的聚类任务能够及时完成。聚类步骤寻找每个前核和新核的最小连接核,通过检查可达性来确定簇演化的类型,最后重新计算当前窗口中每个点的簇标签。原创 2022-11-25 15:38:10 · 9 阅读 · 0 评论 -
Accelerating Large Scale Centroid-BasedClustering with Locality Sensitive Hashing
因此,在K-Modes的每次迭代中,每当我们遇到一个要分配到聚类的元素时,我们都会用这个元素查询MinHash索引,以找到其他类似元素的集合。该框架可以应用于一组基于质心的聚类算法,这些算法将一个对象分配到最相似的簇中,并采用流行的K-Modes分类聚类算法来展示如何应用该框架。目标是为待聚类数据集中所有相似项建立一个基于哈希的索引,并利用该索引获得候选簇的候选列表,以便基于质心的聚类算法对该项进行操作。实验结果表明,该框架能够在保持相近的聚类纯度的前提下,以2到6的因子加速现有的聚类算法。原创 2022-11-25 15:08:08 · 77 阅读 · 0 评论 -
DBSVEC: Density-Based Clustering Using Support Vector Expansion
然而,许多范围查询会相互重叠,它们覆盖的点集也会严重重叠(例如,5个虚线圆覆盖的点集包含许多相同的点)。研究表明,即使使用诸如kd-trees[6]或R-trees[7]之类的加速索引技术,DBSCAN在最坏情况下的时间复杂度仍然是O(n2),其中n是数据集中的点的数量。我们在扩展的簇的边界周围识别少量的点,以便它们的邻域(与一个点相距不远的点的集合)一起可以近似地覆盖与簇中所有点的-邻域所覆盖的相同的新点集。我们的关键思想是,DBSCAN中用于核心点测试的许多范围查询是不必要的,可以避免。原创 2022-11-25 13:01:04 · 1 阅读 · 0 评论 -
Streaming k-Means Clustering with Fast Queries
以q表示的查询成本表示假设总查询数不超过n/q或查询之间的平均间隔为Ω(q)时,每个输入点的期望摊销成本。更新成本是每点处理成本的平均值(即摊销成本),占整个流的比例。此外,设m表示一个用户定义的参数,用于确定coreset的大小(m的设置与n无关,在实践中通常为O(k));所提出算法依赖于" coreset缓存"的新想法,系统地重用为最近查询计算的核心集(数据摘要),以回答当前聚类查询。它只需要从最近的查询(存储在coreset缓存中)中合并一个coreset,以及在此查询之后到达的点的coreset。原创 2022-11-25 11:17:29 · 9 阅读 · 0 评论 -
NG-DBSCAN: Scalable Density-Based Clustering for Arbitrary Data
我们的并行实现基于这样的认识:一组密度可达的核心节点对应于ε-图中的一个连通组件——图中每个核心节点都与其ε-邻域内的所有核心节点相连。第一阶段创建ε-图,该数据结构将用于避免ε-邻域查询:ε-图节点是数据点,每个节点的邻居是其ε-邻域的子集。该阶段通过一个称为邻居图的辅助图来实现,该辅助图通过计算邻居图中节点在2-hop距离处的距离,从一个随机的初始配置逐渐收敛到一个近似的k-最近邻(kNN)图;NG-DBSCAN是一种近似的、分布式的、可扩展的基于密度的聚类算法,支持任何对称距离函数。原创 2022-11-25 11:08:04 · 4 阅读 · 0 评论 -
A Particle-and-Density Based Evolutionary Clustering Method for Dynamic Networks
每个粒子包含关于数据或模式演化的少量信息,而给定动态网络中固有的准l-KKs为我们如何找到任意形成和溶解的可变数量的社区提供了指导。为了解决这些问题,本文提出了纳米社区的概念,在粒子水平上捕捉动态网络如何随时间演化,并将社区建模为拓扑上形成l-团-逐团(简称l-KK)的纳米社区的密集子集。本文提出了一种新的基于粒子和密度的演化聚类方法,可以有效地发现任意形成和溶解的可变数量的社区。本文提出了一种新的基于粒子和密度的演化聚类方法,可以有效地发现任意形成和溶解的可变数量的社区。本文提出了一个启发式算法。原创 2022-11-25 10:49:47 · 208 阅读 · 0 评论 -
LOG-Means: Efficiently Estimating the Number of Clusters in Large Datasets
在最坏的情况下,估计方法在给定的搜索空间中执行穷尽搜索,这将导致对大型数据集和大型搜索空间的运行时不可行。我们证明LOG-Means在次线性时间内提供了关于定义的搜索空间的估计,因此对大型数据集和大型搜索空间非常适合。为了获得有价值的结果,聚类算法的参数,如聚类的数量,必须设置得适当,这是一个巨大的陷阱。虽然有经验的分析人员可能能够定义一个小的搜索空间,但由于缺乏深入的领域知识,特别是新手分析人员经常定义相当大的搜索空间。据我们所知,这是迄今为止对大型数据集和搜索空间进行的最系统的比较。原创 2022-11-25 10:17:14 · 5 阅读 · 0 评论 -
ABC: Attributed Bipartite Co-clustering
然而,节点的属性通常提供有价值的信息,可用于生成不同类型的共簇,例如共簇的每一边都具有相似的属性,每一边的节点都是内聚的。我们把一个有属性的聚类看作一个有属性的二部网络的子图,其中一个有属性的聚类的每一边都有相似的属性(模式),并且两边彼此紧密相连。而,由于现有的共聚类方法没有考虑属性,一个同构的共聚类每侧的节点可能具有完全不同的属性。例如,如果二部网络的一侧是具有社交网络的用户,我们可能要求每个共簇的用户节点紧密相连,形成一个社区。我们的目标是找到一个有属性的二部网络中的所有有属性的共群。原创 2022-11-24 21:09:34 · 5 阅读 · 0 评论 -
Outlier-robust Clustering using Independent Components
该方法是无参数的,作为一种自顶向下的聚类方法非常有效。如果簇的内容遵循非高斯分布,并且/或数据集包含一些不属于任何簇的离群点,则计算的数据分布与真实数据分布不匹配,或者需要不自然的高簇数量来表示数据集的真实数据分布。这是许多分布函数的泛化,包括特殊情况下的均匀分布、高斯分布和Laplacian分布,以及无数次的platikurtic(亚高斯)分布和leptokurtic(超高斯)分布。我们如何高效地找到一个给定数据集的聚类,即聚类结构的简洁描述,该数据集包含未知数量的不同形状和分布的聚类,并且被噪声污染?原创 2022-11-24 18:58:16 · 7 阅读 · 0 评论 -
On Saving Outliers for Better Clustering over Noisy Data
值得注意的是,保存离群点不仅对聚类有显著的改善,而且对分类和记录匹配等其他应用也有显著的改善。直观地说,只可能在某些属性中发生错误,例如,在风力涡轮机中包装的数百个传感器中,通常一次只有一个或几个传感器坏了。脏数据值不仅会使它们自身(对应的元组)偏离聚类中心,还会误导剩余元组的聚类,例如错误地将一个簇分成两个或扭曲簇中心。在具有真实离群点的数据集上的实验表明,与当前最先进的方法相比,所提方法具有更高的准确性。值得注意的是,保存离群点的调整数据确实显著改善了聚类,以及分类和记录匹配等其他应用。原创 2022-11-24 13:59:57 · 8 阅读 · 0 评论 -
Efficient Estimation of Heat Kernel PageRank for Local Clustering
在上述排序中,归一化HKPR大的节点比归一化HKPR小的节点可以容忍更多的绝对误差,因此,对所有节点施加相同的绝对误差保证往往会产生次优的结果。其次,基于我们的问题公式,我们提出了两个新算法,TEA和TEA+,它们都以种子节点s,两个阈值ϵ, δ和一个失败概率pf作为输入,(ii)返回一个近似的HKPR向量。实验表明,在生成具有相同质量的聚类时,TEA+在计算时间方面,在小图上明显优于最先进的基于heatkernel的算法至少4倍,在大图上最高可达一个数量级。因此,对于一些应用程序来说,它可能是低效的。原创 2022-11-24 13:23:31 · 244 阅读 · 0 评论 -
MacroBase: Prioritizing Attention in Fast Data
MacroBase执行可扩展的流式数据流管道,其中包含对单个数据点进行分类的操作符,以及通过聚合数据点并突出感兴趣的共性来解释数据点组的操作符。这种开发是困难的: 快速数据分析必须i.)确定返回给最终用户的少数结果(以避免压倒他们的注意力),ii.)快速执行以跟上巨大的数据量,iii.)适应数据流本身的变化。MacroBase的默认管道(MDP,我们在图2中说明,并在接下来的两个部分中描述)经过优化,可以在各种数据类型上高效、准确地执行,而不依赖于标记的数据或规则。原创 2022-11-08 17:45:11 · 6 阅读 · 0 评论 -
Approximate Partition Selection for Big-Data Workloads using Summary Statistics
我们的主要用例是在大规模生产查询处理系统中,如Spark [15], F1 [52], SCOPE[21],其中查询只读取,数据集是批量附加的。我们的目标是在给定采样预算(或可读取数据的比例)的情况下,最小化近似误差。我们在多个数据集和数据布局上的实验表明,要实现与统一分区采样相同的相对误差,我们的技术可以减少2.7×到70×的分区读取数量,每个分区存储的统计数据需要少于100KB。在这项工作中,我们试图通过读取数据分区的子集,并在不修改数据布局的情况下以加权的方式组合部分答案,来快速和近似地回答查询。原创 2022-11-08 15:51:40 · 3 阅读 · 0 评论 -
ParChain: A Framework for Parallel Hierarchical Agglomerative Clustering using Nearest-Neighbor Chai
如果我们沿着节点上的指针,我们得到一个簇的“链”,它要么终止于一个终端节点,要么终止于一个倒数最近邻(R-NN)对,即一对彼此最近邻的簇。本文提出一种范围查询优化,显著减少了用于在欧氏空间中为低维数据集找到聚类的最近邻的距离计算的数量(第4节),以及一种新的缓存技术,存储以前距离计算的子集,这些子集很可能被重用来进一步加速最近邻搜索(第5节)。我们的算法能够扩展到数千万个点的数据集,这是现有算法无法处理的。1. 不幸的是,精确的HAC算法通常需要n的二次方时间的工作,因为必须计算所有点对之间的距离。原创 2022-10-17 11:07:29 · 2 阅读 · 0 评论