近期需要用到kmeans聚类:输入数据是每行100维的浮点数向量,共500万行;输出是300个类别(后期的输入可能扩大到数千万行,类别可能会扩大到1000类)。
需求是快速搞一版出来看看效果,因此决定用mapreduce+streaming写一个kmeans聚类。
方案 :用mapreduce+streaming做聚类,语言使用py
需求是快速搞一版出来看看效果,因此决定用mapreduce+streaming写一个kmeans聚类。
方案 :用mapreduce+streaming做聚类,语言使用py