海量数据聚类算法综述

这是提交给研讨会论文的一部分:国内外研究现状,希望读者在写文章时不要照抄,这都是我自己看了文章后写的


国内外研究现状:处理海量数据难处在于数据量过大,不可能一次性将所有的数据都放入内存,所以将会导致多次读取磁盘,这样严重影响聚类算法的性能。目前有三种比较流行的方法来解决这个问题。一是从数据集中选取合适的子集来进行聚类,从子集中找到每个簇的中心,然后将剩下的样本归入到离其最近的簇。但是很难确定选定的子集是否最能代表原数据集。二是采用其他占用内存较小的变量来代替原数据集中的多个样本,这样就有可能把所有数据样本的替代变量放入内存中,如文献【7】、【8】采用向量或者矩阵来替代原始数据,但是因为仅通过替代变量不能区分其所替代的样本,因而在某些情况将影响到聚类的效果。第三种就是采用分布式处理的方法,采用Map_Reduce的方案,将大数据集分解成小数据集,然后分别对每个小数据集进行聚类,然后将所有的聚类结果合并,如文献【9】、【10】、【11】。

CURE【1】算法即使用代表点的聚类方法,收缩因子的使用减小了噪音对聚类的影响。CURE算法采用随机抽样与分割相结合的办法来提高算法的空间和时间效率,并且在算法中用了堆和K-d树结构来提高算法效率.1996年由JHang T.提出的BIRCH【2】算法,即平衡迭代削减聚类法,其核心是用一个聚类特征3元组表示一个簇的有关信息,从而使一簇点的表示可用对应的聚类特征,而不必用具体的一组点来表示。BIRCH算法只适用于类的分布呈凸形及球形的情况,并且由于BIRCH算法需提供正确的聚类个数和簇直径限制,对不可视的高维数据不可行。CLARANS算法即随机搜索聚类算法,是一种分割聚类方法。该算法要求聚类的对象必

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值