MapReduce

最新推荐文章于 2024-09-11 21:29:29 发布

置顶

编外人员_coder

最新推荐文章于 2024-09-11 21:29:29 发布

阅读量428

点赞数 1

文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/zx421311541/article/details/103734684

版权

MapReduce是Hadoop提供的一种分布式运算编程框架，适用于海量数据的离线处理。其核心思想是将计算任务分为map和reduce两个阶段，通过并行处理提升效率。Map阶段并行处理输入数据，Reduce阶段则根据Map阶段的结果进行聚合。MapReduce具有高容错性和扩展性，但存在延时高和不适合流式计算的缺点。 Shuffle是MapReduce中的关键步骤，负责数据的分区和排序。典型的MapReduce应用案例如WordCount，用于统计单词出现次数。

摘要由CSDN通过智能技术生成

1MapReduce定义

2MapReduce优缺点

3MapReduce核心思想

4MapReduce执行流程

5MapReduce的shuffle

6MapReduce案例

1定义
Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。
它的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。
总结：MapReduce就是Hadoop给我们提供的一个分布式运算程序编程框架，在此基础上我们可以开发自己的业务逻辑代码完成我们的计算任务，它会并行的运行在hadoop集群上。

2优缺点
优点：
.高容错：它的设计初衷就是让程序能够部署在廉价的PC机上，这样的话就需要具有很高的容错性，如果其中一台机器挂了，它可以把计算任务转移到另一台机器上运行，而不至于一台机器挂了程序就失败了。整个过程都不需要人为干涉，由hadoop自己在内部完成

.扩展性：当资源得不到满足的时候可以通过增加机器数量来扩展计算能力

.易于编程：它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。就是因为这个特点使得MapReduce编程变得非常流行。

.适合海量数据的离线处理：适合做海量数据的离线处理

缺点：
.延时高：无法像关系型数据库在一样毫秒内返回计算结果

.流式计算：流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。

.DAG计算：多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

3核心思想
在这里插入图片描述
1分布式的运算程序往往需要分成至少2个阶段。
2第一个阶段的maptask并发实例，完全并行运行，互不相干。

最低0.47元/天解锁文章

编外人员_coder

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce

1MapReduce定义2MapReduce优缺点3MapReduce核心思想4MapReduce执行流程5MapReduce的shuffle6MapReduce案例1定义Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。它的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hado...
复制链接

扫一扫