关于用mapreduce做kmeans聚类以及python的numpy和list做矩阵、向量乘法的速度对比

本文探讨了在K-means聚类中,使用MapReduce与Python的numpy和list进行矩阵、向量运算的速度差异。通过实验,发现在约4-5轮迭代后,中心点能够收敛。具体比较了numpy矩阵乘向量与python list实现的矩阵乘向量操作的效率。
摘要由CSDN通过智能技术生成
近期需要用到kmeans聚类:输入数据是每行100维的浮点数向量,共500万行;输出是300个类别(后期的输入可能扩大到数千万行,类别可能会扩大到1000类)。

需求是快速搞一版出来看看效果,因此决定用mapreduce+streaming写一个kmeans聚类。

方案 用mapreduce+streaming做聚类,语言使用py
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值