【聚类算法】MiniBatchKMeans算法

 

MiniBatchKMeans类主要参数

    MiniBatchKMeans类的主要参数比KMeans类稍多,主要有:

    1) n_clusters: 即我们的k值,和KMeans类的n_clusters意义一样。

    2)max_iter:最大的迭代次数, 和KMeans类的max_iter意义一样。

    3)n_init:用不同的初始化质心运行算法的次数。这里和KMeans类意义稍有不同,KMeans类里的n_init是用同样的训练集数据来跑不同的初始化质心从而运行算法。而MiniBatchKMeans类的n_init则是每次用不一样的采样数据集来跑不同的初始化质心运行算法。

              4)batch_size:即用来跑Mini Batch KMeans算法的采样集的大小,默认是100.如果发现数据集的类别较多或者噪音点较多,需要增加这个值以达到较好的聚类效果。

    5)init: 即初始值选择的方式,和KMeans类的init意义一样。

    6)init_size: 用来做质心初始值候选的样本个数,默认是batch_size的3倍,一般用默认值就可以了。

    7)reassignment_ratio: </

  • 12
    点赞
  • 94
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Kmeans聚类算法是一种常用的基于划分的聚类算法,它通过计算数据对象之间的欧氏距离来衡量它们的相似度。相似度越大,距离越小。\[2\] Kmeans算法的基本思想是将给定的样本集分成K个簇,每个簇都有一个中心点,该中心点是簇中所有样本点的平均值。算法的步骤如下: 1. 随机选择K个初始中心点。 2. 将每个样本点分配给离它最近的中心点所在的簇。 3. 更新每个簇的中心点,即计算簇中所有样本点的平均值。 4. 重复步骤2和3,直到簇的分配不再改变或达到预定的迭代次数。 然而,当数据量较大时,Kmeans算法的计算时间会比较长。为了解决这个问题,MiniBatchKmeans算法被提出。MiniBatchKmeans是对Kmeans的一种优化算法,它在尽量保持聚类准确性的情况下,大幅度降低计算时间。\[1\] MiniBatchKmeans的步骤如下: 1. 从数据集中随机抽取一部分数据作为初始样本集。 2. 对初始样本集使用Kmeans算法进行聚类。 3. 继续抽取一部分数据,将其添加到模型中,并将它们分配给最近的聚类中心。 4. 更新聚类中心。 5. 重复步骤3和4,直到算法收敛为止。 MiniBatchKmeansKmeans在聚类准确性方面相差不大,但对于数据量较大的情况,可以考虑使用MiniBatchKmeans来加快计算速度。\[1\] 此外,对于包含类别特征的数据,需要进行编码处理,例如使用onehot编码方法。如果数据包含混合类型的特征,还可以考虑使用其他算法如K-Modes和K-Prototypes来进行聚类。\[3\] #### 引用[.reference_title] - *1* [Kmeans均值聚类算法](https://blog.csdn.net/qq_45645521/article/details/123040810)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [K-Means聚类算法](https://blog.csdn.net/u013288190/article/details/125274964)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [全面解析Kmeans聚类算法(Python)](https://blog.csdn.net/weixin_38037405/article/details/124315032)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值