MapReduce

最新推荐文章于 2024-04-12 12:38:28 发布

weixin_49431669

最新推荐文章于 2024-04-12 12:38:28 发布

阅读量146

点赞数

本文链接：https://blog.csdn.net/weixin_49431669/article/details/109457392

版权

MapReduce原理

4.1.1 MapReduce概述

1）MapReduce工作原理为：

MapReduce是一种编程模型，用于大规模数据集的并行运算。MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。

2）MapReduce是什么：

MapReduce是一种分布式计算框架，以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。主要用于搜索领域，解决海量数据的计算问题。

3）MR有两个阶段组成：

Map（映射）和Reduce（规约），用户只需实现map()和reduce()两个函数，即可实现分布式计算。

4）MapReduce是面向大数据并行处理的计算模型,框架和平台：

MapReduce是一个基于集群的高性能并行计算平台。

MapReduce是一个并行计算与运行软件框架。

MapReduce是一个并行程序设计模型与方法。

4.1.2 MapReduce的主要功能

1）数据划分和计算任务调度：

系统自动将一个作业（Job）待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务（Task），并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点（Map节点或Reduce节点），同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制。

2）数据/代码互定位：

为了减少数据通信，一个基本原则是本地化数据处理，即一个计算节点尽可能处理其本地磁盘上所分布存储的数据，这实现了代码向数据的迁移；当无法进行这种本地化数据处理时，再寻找其他可用节点并将数据从网络上传送给该节点（数据向代码迁移），但将尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟。

3）系统优化：

为了减少数据通信开销，中间结果数据进入Reduce节点前会进行一定的合并处理；一个Reduce节点所处理的数据可能会来自多个Map节点，为了避免Reduce计算阶段发生数据相关性，Map节点输出的中间结果需使用一定的策略进行适当的划分处理，保证相关性数据发送到同一个Reduce节点；此外，系统还进行一些计算性能优化处理，如对最慢的计算任务采用多备份执行、选最快完成者作为结果。

4）出错检测和恢复：

以低端商用服务器构成的大规模MapReduce计算集群中，节点硬件（主机、磁盘、内存等）出错和软件出错是常态，因此MapReduce需要能检测并隔离出错节点，并调度分配新的节点接管出错节点的计算任务。同时，系统还将维护数据存储的可靠性，用多备份冗余存储机制提高数据存储的可靠性，并能及时检测和恢复出错的数据。