MapReduce之WordCount案例

本文从WordCount案例入手,详细介绍了MapReduce的基本使用。内容包括环境准备、编码步骤,特别是Map和Reduce类的实现逻辑。通过运行程序,观察输出结果,帮助理解MapReduce的工作原理。
摘要由CSDN通过智能技术生成

前言

学习大数据框架通常都是从wordcount案例开始的,也是学习框架的基础,wordcount虽然简单,如果能彻底搞清楚其运行原理,对后续深入学习和掌握MapReduce非常有帮助的,本篇以一个wordcount为例,通过代码演示下wordcount的编码过程

环境准备

  1. windows下hadoop的配置环境,需要在windows环境下配置一下环境变量
  2. linux下的hdfs运行环境
  3. 一个单词统计的文本文件,文件内容格式如下
关羽 关羽
赵云 
刘备 刘备
黄盖
张飞
马超
魏延

通过WordCount程序,我们期望最终的输出结果格式为:

关羽 2
赵云 1
刘备 2

编码步骤

MapReduce的编码风格比较套路化,一般来说,最简单的WordCount只需要3个类即可,一个继承Mapper类的自定义Map类,一个继承Reducer类的自定义Reduce类,以及一个将这两个类聚合在一起并执行job的driver类即可

很多学习MapReduce的同学比较头疼和容易犯迷糊的地方是自定义的Map 和 Reduce类里面的参数,以及Map 和 Reduce 类中的重写方法的代码执

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小码农叔叔

谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值