MapReduce是什么？

头发那是一根不剩了

已于 2025-02-06 22:33:18 修改

阅读量705

点赞数 7

文章标签： mapreduce 大数据

于 2025-02-06 22:26:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739493/article/details/145483083

版权

MapReduce 是一种编程模型，最初由 Google 提出，旨在处理大规模数据集。它是分布式计算的一个重要概念，通常用于处理海量数据并进行并行计算。MapReduce的基本思想是将计算任务分解为两个阶段：Map 阶段和 Reduce 阶段。

Map 阶段：
在这个阶段，输入的数据会被拆分成多个片段，每个片段会被分配给不同的计算节点（也叫做“Mapper”）。每个 Mapper 处理一部分数据并输出键值对（key-value pairs）。例如，假设任务是计算每个单词的出现次数，那么在 Map 阶段，每个 Mapper 可能会扫描文档的一部分，输出一对键值，比如 ("word", 1)。
Combiner 阶段：

Combiner 是一个可选的优化阶段，在某些情况下可以引入。它的作用是对 Map 阶段的输出进行本地汇总，以减少需要传输到 Reducer 阶段的数据量。Combiner 阶段会在 Mapper 端进行类似于 Reducer 的操作，局部汇总 Map 输出的键值对，然后将汇总后的结果发送给 Reducer。
Shuffle 和 Sort 阶段（通常是隐含的）：
Map 阶段的输出数据会被重新排序并进行分组，确保相同的键（key）被送到同一个 Reducer（即“Reduce”阶段的计算节点）。这个过程被称为 Shuffle 和 Sort。
Reduce 阶段

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。