大规模数据的聚类算法研究01

VIP文章 iQoMo

已于 2022-11-15 09:26:38 修改

阅读量800

点赞数

文章标签：聚类算法

于 2022-11-14 23:46:46 首次发布

仅供学习参考！

本文链接：https://blog.csdn.net/weixin_44086522/article/details/127856541

版权

大规模数据的聚类算法研究01

1 数据集大小说明
2 传统数据聚类
3 大规模数据聚类
4 小结
参考文献

1 数据集大小说明

Dataset sizes

bit：位
byte：字节 1 byte = 8 bit
int 类型为 4 byte，共32位bit，unsigned int也是
2^32 byte = 4G
1G= 2^30 = 10.7亿

2 传统数据聚类

传统的聚类分析计算方法主要有如下几种：1. 划分方法；2. 层次方法；3. 基于密度的方法；4. 基于网格的方法；5. 基于模型的方法。

3 大规模数据聚类

基于抽样的方法：该类方法通过约间数据规模来减少计算时间。首先采用抽样技术选择给定数据集的一个子集，仅使用采样的子集来发现类结构，然后将未被抽样到的数据点分配给最近的类。该类方法的成败取决于通过抽样所选的代表性数据集是否保持了原始数据的重要结构信息。

resFCM 算法 (Random Sampling plus Extension FCM)通过对原数据集进行随机采样而产生新的更小的数据集，然后在新的数据集上使用FCM算法进行聚类，得到聚类中心最后根据产生的聚类中心在整个数据集上求得隶属矩阵。从而实现算法效率上的改进。
Algorithm 2 所示为rseFCM 算法。
spFCM(Single Pass FCM) 首先在原数据集上进行随机抽样，随机构造出 $s$ 个大小为 $n_s$ 的数据子集。算法最初将权重向量 $w$ 初始化长度为 $n_s$ ，每一位权重都为 $1 s$ 的向量。然后计算第一组数据样本的 wFCM 聚类划分和聚类中心。spFCM 然后迭代剩余的 $X$ 的数据子集，每次迭代运用 wFCM 在一组更大的数据集上进行聚类划分，这个数据集由上一次迭代的聚类中心和本次的样本子集 $X_l$

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大规模数据的聚类算法研究01

大规模数据聚类抽样方法。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。