Mahout驾驭hadoop之详解

最新推荐文章于 2023-12-31 01:48:40 发布

yclzh0522

最新推荐文章于 2023-12-31 01:48:40 发布

阅读量1.8w

点赞数

分类专栏：数据挖掘文章标签： hadoop 算法数据挖掘工作任务

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yclzh0522/article/details/6859493

版权

本文深入探讨了Mahout如何利用Hadoop实现KMeans聚类算法的并行化。通过KMeansCluster类图，展示了Mahout的算法架构，并强调了KmeansCluster中的关键方法，如clusterPoints()和runKMeansIteration()。KMeansDriver作为算法的Driver，负责配置和运行Job以执行数据挖掘任务。

摘要由CSDN通过智能技术生成

众所周知,Mahout是基于Hadoop分布式系统的,要想看懂Mahout的源码,首先得明白mahout是如何使用hadoop的!

首先,在我的<<Hadoop运行原理详解>>一篇中,详细介绍了hadoop的运行机制,这里就不多说了!下面我就以Kmeans聚类算法为例,讲讲mahout如何利用hadoop实现数据挖掘算法并行化.如以下类图所示,

该图描述了整个mahout实现Kmeans算法的架构图,首先KmeansCluster继承Cluster,在KmeansCluster中有几个比较重要的方法,首先clusterPoints()是实现Kmeans聚类算法的方法,而其中调用了runKMeansIteration()方法,该方法是单次聚类迭代方法.

尤其可见,这块算法实现和普通kmeans算法没有太大差别!在Mahout针对每个算法都有一个Driver,这个东西是干什么的啊?

我们先看看KMeansDriver源码,KmeansDriver继承了AbstractJob.我们知道Hadoop上的任务都是以Job的形式启动的!我们要使用某个算法进行一项数据挖掘工作

最低0.47元/天解锁文章

关注

0
点赞
踩
17

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yclzh0522 CSDN认证博客专家 CSDN认证企业博客

码龄14年

19: 原创

105万+: 周排名

74万+: 总排名

32万+: 访问

: 等级

2794: 积分

155: 粉丝

32: 获赞

43: 评论

40: 收藏

私信

关注

热门文章

分类专栏

最新评论

诺亚基如何重振昔日霸主地位？
小马哥iCoding: 然而htc现在基本快死透了( ⊙ o ⊙ )啊！
SMO算法介绍
Life_0_1: 式(28)下面那句话是不是笔误了，二阶导数大于0，应该是凸函数
Hadoop运行原理详解
先绅: 博主:Map-Reduce的Job运行的基本原理图里sort,copy以及merge是怎么来的?人家原生文档的好像没有.求赐教
Hadoop运行原理详解
雪中大磐石: 写的不错
Mahout驾驭hadoop之详解
深山老农~: mahout只是一个算法库，虽然不完全基于Hadoop，但是很多时候依赖Hadoop才能更好使用。

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。