海量数据聚类算法综述

最新推荐文章于 2023-07-07 08:17:39 发布

ymkrdfewxf

最新推荐文章于 2023-07-07 08:17:39 发布

阅读量8.5k

点赞数 1

分类专栏：数据挖掘专题文章标签：算法磁盘数据库框架

本文链接：https://blog.csdn.net/ymkrdfewxf/article/details/8023750

版权

这篇论文探讨了处理海量数据时聚类算法面临的挑战，包括数据量过大导致的磁盘读取问题。文中列举了多种解决方案，如子集选择、数据替代和分布式处理。CURE、BIRCH、CLARANS、CLIQUE、DBSCAN等算法被提及，分析了它们的优缺点。针对大数据，一些快速分层聚类和混合技术被提出，但大多仍需改进以适应内存限制和处理效率。

摘要由CSDN通过智能技术生成

这是提交给研讨会论文的一部分：国内外研究现状，希望读者在写文章时不要照抄，这都是我自己看了文章后写的

国内外研究现状：处理海量数据难处在于数据量过大，不可能一次性将所有的数据都放入内存，所以将会导致多次读取磁盘，这样严重影响聚类算法的性能。目前有三种比较流行的方法来解决这个问题。一是从数据集中选取合适的子集来进行聚类，从子集中找到每个簇的中心，然后将剩下的样本归入到离其最近的簇。但是很难确定选定的子集是否最能代表原数据集。二是采用其他占用内存较小的变量来代替原数据集中的多个样本，这样就有可能把所有数据样本的替代变量放入内存中，如文献【7】、【8】采用向量或者矩阵来替代原始数据，但是因为仅通过替代变量不能区分其所替代的样本，因而在某些情况将影响到聚类的效果。第三种就是采用分布式处理的方法，采用Map_Reduce的方案，将大数据集分解成小数据集，然后分别对每个小数据集进行聚类，然后将所有的聚类结果合并，如文献【9】、【10】、【11】。

CURE【1】算法即使用代表点的聚类方法，收缩因子的使用减小了噪音对聚类的影响。CURE算法采用随机抽样与分割相结合的办法来提高算法的空间和时间效率，并且在算法中用了堆和K-d树结构来提高算法效率.1996年由JHang T．提出的BIRCH【2】算法，即平衡迭代削减聚类法，其核心是用一个聚类特征3元组表示一个簇的有关信息，从而使一簇点的表示可用对应的聚类特征，而不必用具体的一组点来表示。BIRCH算法只适用于类的分布呈凸形及球形的情况，并且由于BIRCH算法需提供正确的聚类个数和簇直径限制，对不可视的高维数据不可行。CLARANS算法即随机搜索聚类算法，是一种分割聚类方法。该算法要求聚类的对象必