使用IDEA+Maven开发wordCount案例【MapReduce编程实现】

最新推荐文章于 2024-06-11 20:12:19 发布

布衣清水

最新推荐文章于 2024-06-11 20:12:19 发布

阅读量2.1k

点赞数 1

分类专栏：大数据 hadoop 文章标签：大数据 MapReduce wordcount maven idea

本文链接：https://blog.csdn.net/yulutian/article/details/80170724

版权

本文介绍了如何使用IDEA和Maven开发MapReduce的wordCount案例。通过将文件拆分为多个block，利用Mapper进行单词计数，然后通过Shuffle和Reducer聚合每个单词的总数，最终将结果输出到文件系统。

摘要由CSDN通过智能技术生成

这是学习MR编程的一个典型模型，这里分享一下。
wordCount需求是统计文件中每个单词出现的次数。
处理过程中主要是将作业拆分成Map阶段（Mapper tasks）和Reduce阶段（Reducer tasks），数据转换过程如下：

(input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, ｛v2，v2…｝> -> reduce -> <k3, v3> (output)

我的理解其流程是：
一个文件被拆分成多个block（与blocksize对应），每个block由一个map来处理，给每个单词计数为1，再经过shuffling操作，将相同的单词放在一起，最后通过reduce统计每一块中相同单词的数量，然后输出到文件系统（可以是本地也可以是HDFS）。

具体实现代码和详细注释如下：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apa

最低0.47元/天解锁文章

布衣清水

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录