mapreduce简单编写

最新推荐文章于 2024-05-11 23:29:58 发布

xiaoyaGrace

最新推荐文章于 2024-05-11 23:29:58 发布

阅读量227

点赞数

分类专栏： mapreduc

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoyaGrace/article/details/103292598

版权

本文详细介绍了MapReduce编程模型，包括Mapper、Reducer、Combiner、配置和运行Jobs的步骤。通过实例展示了如何统计网站每日PV，阐述了每个阶段的功能和重要参数，如split、shuffle、configure方法等，强调了Combiner在性能优化中的作用。

摘要由CSDN通过智能技术生成

一. MapReduce 编程模型

还是以一个经典的图片来说明问题.

1. 首先, 我们能确定我们有一份输入, 而且他的数据量会很大

2. 通过split之后, 他变成了若干的分片, 每个分片交给一个Map处理

3. map处理完后, tasktracker会把数据进行复制和排序, 然后通过输出的key 和value进行 partition的划分, 并把partition相同的map输出, 合并为相同的reduce的输入.

4. ruducer通过处理, 把数据输出, 每个相同的key, 一定在一个reduce中处理完, 每一个reduce至少对应一份输出(可以通过扩展MultipleOutputFormat来得到多分输出)

5. 来看一个例子, 如下图:(来自《hadoop权威指南》一书)

说明几点:

5.1 输入的数据可能就是一堆文本

5.2 mapper会解析每行数据, 然后提取有效的数据, 作为输出. 这里的例子是从日志文件中提取每一年每天的气温, 最后会计算每年的最高气温

5.3 map的输出就是一条一条的 key-value

5.4 通过shuffle之后, 变成reduce的输入, 这是相同的key对应的value被组合成了一个迭代器

5.5 reduce的任务是提取每一年的最高气温, 然后输出

二. Mapper

1. mapper可以选择性地继承 MapreduceBase这个基类, 他只是把一些方法实现了而已, 即使方法体是空的.

2. mapper必须实现 Mapper 接口(0.20以前的版本), 这是一个泛型接口, 需要执行输入和输出的key-value的类型, 这些类型通常都是Wriable接口的实现类

3. 实现map方法, 方法有四个参数, 前面两个就是输入的 Key 和 value, 第三个参数是 Ou

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
mapreduce简单编写

一. MapReduce 编程模型还是以一个经典的图片来说明问题.1. 首先, 我们能确定我们有一份输入, 而且他的数据量会很大2. 通过split之后, 他变成了若干的分片, 每个分片交给一个Map处理3. map处理完后, tasktracker会把数据进行复制和排序, 然后通过输出的key 和value进行 partition的划分, 并把partition相同的map输...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。