MapReduce的基础概念

MapReduce是一种分布式计算模型,用于处理和生成大规模数据集。其核心思想是“分而治之”,将复杂任务拆分为并行处理的简单任务,通过Map阶段的映射操作和Reduce阶段的归约操作实现数据处理。Map负责数据的分解,Reduce负责结果的整合。在Hadoop中,MapReduce提供了一种抽象编程接口,简化了程序员处理大规模数据的复杂性,程序员只需关注Mapper和Reducer的实现,而无需关注底层的分布式细节。MapReduce程序运行涉及MRAppMaster、MapTask和ReduceTask等进程,保证数据处理的高效和容错性。
摘要由CSDN通过智能技术生成

MapReduce的基础概念

MapReduce的思想:

MapReduce的思想核心:“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。
**Map 负责“分”,**即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。
**Reduce 负责“合”,**即对 map 阶段的结果进行全局汇总。

一个比较形象的语言解释 MapReduce:
我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。
现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

MapReduce的设计构思:

MapReduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在Hadoop 集群上。

Hadoop MapReduce 构思体现在如下的三个方面:
  1. 如何对付大数据处理:分而治之

    对相互间不具有计算依赖关系的大数据,实现并行最自然的办法就是采取分而治之的策略。并行计算的第一个重要问题是如何划分计算任务或者计算数据以便对划分的子任务或数据块同时进行计算。不可分拆的计算任务或相互间有依赖关系的数据无法进行并行计算!

  2. 构建

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值