hadoop入门（六）JavaAPI+Mapreduce实例wordCount单词计数详解

最新推荐文章于 2024-07-26 02:53:26 发布

YUNFLY_

最新推荐文章于 2024-07-26 02:53:26 发布

阅读量5.6k

点赞数 4

分类专栏：大数据文章标签： hadoop hdfs mapreduce 集群大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangyunfeixyz/article/details/77151083

版权

刚刚研究了一下haoop官网单词计数的例子，把详细步骤解析贴在下面：

准备工作：

1、haoop集群环境搭建完成

2、新建一个文件hello,并写入2行单词，如下：

[root@CentOS hadoop-2.6.0]# vi hello
hello you
hello me

3、把文件传到hdfs根目录下：

[root@CentOS hadoop-2.6.0]# bin/hdfs dfs -put hello /

查看文件是否导入成功

[root@CentOS hadoop-2.6.0]# bin/hdfs dfs -text /hello

hello you
hello me

4、打开eclipse，如果你之前练过JavaAPI操作hdfs，那么在原来项目中直接添加MapReduce的jar包就行了，Maven项目直接添加依赖就好。

jar包在之前搭建Windows的hadoop环境下的C:\Program Files (x86)\hadoop-2.6.3\share\hadoop\mapreduce下的所有jar和此文件夹下lib中的所有jar.

如果之前没做过hdfs练习，那么其他jar请参考我的前几篇文章Hadoop入门（三）。

准备工作做好了，下面就开始编码，代码中我注释的很详细：

◆执行步骤：

1. map 任务处理

1.1 读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。

1.2 写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

1.3 对输出的key、value进行分区。

1.4 对不同分区的数据，按照key进行排序、分组。相同key的value放到一个集合中。

1.5 (可选)分组后的数据进行归约。

最低0.47元/天解锁文章

关注

4
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄13年

36
原创

82
点赞

210
收藏

73
粉丝

关注

私信

热门文章

分类专栏

区块链 4篇
Linux 2篇
生活 1篇
算法 1篇
机器学习 2篇
javaDemo 11篇
大数据 14篇
数据库 1篇

最新评论

在职老程序员考非全211硕士（计算机专业）经验
码小鹿: 毕业就能考吗？我看网上都是说需要毕业满三年什么的
在职老程序员考非全211硕士（计算机专业）经验
YUNFLY_: 在职，年纪小可以辞职。看个人情况。
在职老程序员考非全211硕士（计算机专业）经验
YUNFLY_: 计算机非全相对来说还是可以的，除了个别GQ,大厂很多都没问题，算法也是可以的，关键看你水平，我很多非全同学有读博的，有拿户口的，大厂的都有，不要因为个别声音和个别偏见，影响你的判断，含金量只是一方面，提升自己才是关键。
并行算法：均匀划分（PSRS）和方根划分（SIMD-CREW）
Aureole1210: 均匀划分的全局交换第一段是不是写错了，第一段最后的元素应该是6吧
在职老程序员考非全211硕士（计算机专业）经验
白橙子1: 贴主好，我想问下非全的含金量如何，如果是单纯的想提升学历又不想放弃手头的offer是不是可以去试试？那如果想从开发转到算法类的岗位这个非全学历够吗？非全大厂之类的认吗？老哥的非全考来是有什么用途和打算可以讲下吗？主要有几点疑问想请教下前辈。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。