大规模数据的聚类算法研究01

1 数据集大小说明

Dataset sizes

  • bit:位
  • byte:字节 1 byte = 8 bit
  • int 类型为 4 byte,共32位bit,unsigned int也是
  • 2^32 byte = 4G
  • 1G= 2^30 = 10.7亿

2 传统数据聚类

  传统的聚类分析计算方法主要有如下几种:1. 划分方法;2. 层次方法;3. 基于密度的方法;4. 基于网格的方法;5. 基于模型的方法。

3 大规模数据聚类

  基于抽样的方法: 该类方法通过约间数据规模来减少计算时间。首先采用抽样技术选择给定数据集的一个子集,仅使用采样的子集来发现类结构,然后将未被抽样到的数据点分配给最近的类。该类方法的成败取决于通过抽样所选的代表性数据集是否保持了原始数据的重要结构信息。

  1. resFCM 算法 (Random Sampling plus Extension FCM)通过对原数据集进行随机采样而产生新的更小的数据集,然后在新的数据集上使用FCM算法进行聚类,得到聚类中心最后根据产生的聚类中心在整个数据集上求得隶属矩阵。从而实现算法效率上的改进。
    Algorithm 2 所示为rseFCM 算法。rseFCM
  2. spFCM(Single Pass FCM) 首先在原数据集上进行随机抽样,随机构造出 s s s 个大小为 n s n_s ns 的数据子集。算法最初将权重向量 w w w 初始化长度为 n s n_s ns,每一位权重都为 1 s 1s 1s 的向量。然后计算第一组数据样本的 wFCM 聚类划分和聚类中心。spFCM 然后迭代剩余的 X X X 的数据子集,每次迭代运用 wFCM 在一组更大的数据集上进行聚类划分,这个数据集由上一次迭代的聚类中心和本次的样本子集 X l X_l
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值