初识Hadoop之MapReduce【持续更新中】

最新推荐文章于 2023-02-01 20:27:03 发布

Jhon_yh

最新推荐文章于 2023-02-01 20:27:03 发布

阅读量121

点赞数

分类专栏： hadoop 文章标签： MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yswhfd/article/details/84633427

版权

hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

MapReduce
- 概念

MapReduce

概念

MapReduce是一种可用于数据处理的编程模型。MapReduce程序本质上是并行运行的，MapReduce的优势在于处理大规模数据集（高并行）。
MapReduce的任务过程分为两个阶段：map 阶段和 reduce 阶段。每个阶段都以自定义类型的K-V（K可以重复）对作为 input 和 outout ，重点是，需要我们自己实现map 和reduce 函数。
数据来源：HDFS, 关系型数据库，非关系型数据库等都可作为数据的来源。
切片：

split(数据源)，面向文件逻辑上的数据划分片，区别于hdfs切块，默认等于block的块大小，窗口机制，大小可以人为控制，并行度取决于切片的大小。为了计算向数据移动打下基础。
能定位到block的offset，split的偏移量一定在block内。
map的数量取决于split的数量。同时split规定了map读取数据量
reduce 数量取决于你的需求的结果(数据倾斜问题，10种key，一key数据量大，9key数据量小，2个reduce（1reduce处理大数据量，1reduce处理剩余9个）) （处理时间取决于数据倾斜最严重的那一台机器）

mapreduce流程图

MR 元语

相同的key为一组，调用一次reduce方法，方法内迭代这一组数据进行计算
不同的key在分区(partition)：相同的key分组
为什么要有排序？
为了保证相同的key调用一次reduce

shuffler

框架内部实现机制
分布式计算节点数据流转，连接MapTask 和 ReduceTask

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
初识Hadoop之MapReduce【持续更新中】

文章目录MapReduce概念MapReduce概念MapReduce是一种可用于数据处理的编程模型。MapReduce程序本质上是并行运行的，MapReduce的优势在于处理大规模数据集。MapReduce的任务过程分为两个阶段：map 阶段和 reduce 阶段。每个阶段都以自定义类型的K-V对作为 input 和 outout ，重点是，需要我们自己实现map 和reduce 函数...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。