mapreduce 单词统计案例

最新推荐文章于 2024-04-01 10:26:24 发布

zengxianglei

最新推荐文章于 2024-04-01 10:26:24 发布

阅读量4k

点赞数 7

分类专栏：大数据文章标签： mapreduce 单词统计案例

本文链接：https://blog.csdn.net/zengxianglei/article/details/89158585

版权

mapreduce 单词统计案例

一、Hadoop MapReduce 构思体现在如下的三个方面：
1.如何对付大数据处理：分而治之
2.构建抽象模型：Map 和 Reduce
Map: 对一组数据元素进行某种重复式的处理；
Reduce: 对 Map 的中间结果进行某种进一步的结果整理。
MapReduce 处理的数据类型是<key,value>键值对
3.统一构架，隐藏系统层细节
MapReduce 最大的亮点在于通过抽象模型和计算框架把需要做什么(what
need to do)与具体怎么做(how to do)分开了，为程序员提供一个抽象和高层的编
程接口和框架。

二、Mapreduce 框架结构：
一个完整的mapreduce 框架由三个实例进程：
1.MRAppMaster ：负责整个程序的过程调度以及状态协调。
2.MapTask :负责map阶段的整个数据的处理。
3.ReduceTask :负责reduce阶段的整个数据的处理。
三、Mapreduce 的编写规范：
（1）用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行 mr 程
序的客户端)
Mapper 的输入数据是 KV 对的形式（KV 的类型可自定义）
（3）Mapper 的输出数据是 KV 对的形式（KV 的类型可自定义）
（4）Mapper 中的业务逻辑写在 map()方法中
（5）map()方法（maptask 进程）对每一个<K,V>调用一次
（6）Reducer 的输入数据类型对应 Mapper 的输出数据类型，也是 KV
（7）Reducer 的业务逻辑写在 reduce()方法中
（8）Reducetask 进程对每一组相同 k 的<k,v>组调用一次 reduce()方法
（9）用户自定义的 Mapper 和 Reducer 都要继承各自的父类
（10）整个程序需要一个 Drvier 来进行提交，提交的是一个描述了各种必要信
息的 job 对象

Mapreduce 的wrodcount 小程序：

1.创建maven工程引入 pom.xml

最低0.47元/天解锁文章

zengxianglei

关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
mapreduce 单词统计案例

mapreduce 单词统计案例一、Hadoop MapReduce 构思体现在如下的三个方面：1.如何对付大数据处理：分而治之2.构建抽象模型：Map 和 ReduceMap: 对一组数据元素进行某种重复式的处理；Reduce: 对 Map 的中间结果进行某种进一步的结果整理。MapReduce 处理的数据类型是<key,value>键值对3.统一构架，隐藏系统层细节...
复制链接

扫一扫