一张表看懂大数据计算框架，浅析Hadoop(MapReduce)、Spark、Storm比较

最新推荐文章于 2024-04-28 21:14:40 发布

言希灬

最新推荐文章于 2024-04-28 21:14:40 发布

阅读量2k

点赞数 2

分类专栏：大数据文章标签：大数据技术 Hadoop、spark、storm比较图表

本文链接：https://blog.csdn.net/weixin_43871178/article/details/84873427

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

很多初学者在刚刚接触大数据的时候会有很多疑惑，比如对MapReduce、Storm、Spark三个计算框架的理解经常会产生混乱，下面我来简单为大家做一下区分，方便理解。

学习大数据首先要明白生态系统
在这里插入图片描述
蓝色部分为Hadoop生态组件，橙黄色部分为Spark生态组件，紫色部分为Storm应用

一、工作机制

MapReduce框架

MapReduce是一个编程模型，封装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce实现最开始是映射map，将操作映射到集合中的每个文档，然后按照产生的键进行分组，并将产生的键值组成列表放到对应的键中。化简（reduce）则是把列表中的值化简成一个单值，这个值被返回，然后再次进行键分组，直到每个键的列表只有一个值为止。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。但如果你要我再通俗点介绍，那么，说白了，Mapreduce的原理就是一个分治算法。

MapReduce计划分三个阶段执行，即映射阶段，shuffle阶段，并减少阶段。

映射阶段：映射或映射器的工作是处理输入数据。一般输入数据是在文件或目录的形式，并且被存储在Hadoop的文件系统（HDFS）。输入文件被传递到由线映射器功能线路。映射器处理该数据，并创建数据的若干小块。

减少阶段：这个阶段是：Shuffle阶段和Reduce阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后，它产生一组新的输出，这将被存储在HDFS。。

Spark框架：

Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发，类似于Hadoop MapReduce的通用并行计算框架，Spark基于Map Reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS。使用DAG执行引擎以支持循环数据流与内存计算。支持批处理（MapReduce）、交互式查询（Impala）和流数据处理（Storm）。Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX 等组件。

Storm框架：

Storm集群采用主从架构方式，主节点是Nimbus，从节点是Supervisor，有关调度相关的信息存储到ZooKeeper集群中。

Nimbus

Storm集群的Master节点，负责分发用户代码，指派给具体的Supervisor节点上的Worker节点，去运行Topology对应的组件（Spout/Bolt）的Task。

Supervisor

Storm集群的从节点，负责管理运行在Supervisor节点上的每一个Worker进程的启动和终止。通过Storm的配置文件中的supervisor.slots.ports配置项，可以指定在一个Supervisor上最大允许多少个Slot，每个Slot通过端口号来唯一标识，一个端口号对应一个Worker进程（如果该Worker进程被启动）。

Worker

运行具体处理组件逻辑的进程。Worker运行的任务类型只有两种，一种是Spout任务，一种是Bolt任务。

Task

Worker中每一个spout/bolt的线程称为一个task. 在storm0.8之后，task不再与物理线程对应，不同spout/bolt的task可能会共享一个物理线程，该线程称为executor。

ZooKeeper

用来协调Nimbus和Supervisor，如果Supervisor因故障出现问题而无法运行Topology，Nimbus会第一时间感知到，并重新分配Topology到其它可用的Supervisor上运行

二、延时性

MapReduce框架：

磁盘IO开销大。每次执行时都需要从磁盘读取数据，并在计算完成之后需要将中间结果写入到磁盘中，IO开销较大。处理时间为几小时到几天。

Spark框架：

Spark提供了内存计算，中间结果直接放在内存中，使迭代运算更高效。避免了从磁盘中频繁读取数据。Spark框架的逻辑回归时间是hadoop的一百多倍。处理时间为几秒到几分钟。

Storm框架：

Storm框架处理的单位为Tuple，能够满足对实时性非常高的（如高频实时交易）的场景，只需要极小的延时，延时为毫秒级。

三、灵活性

MapReduce框架：

表达能力有限。计算时必须转换为Map和Reduce两个操作，但这并不适合所有的情况，难以完成复杂的数据处理过程。使用的编程语言单一，如java。比较繁琐。

Spark框架：

Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，提供了许多数据集操作类型，编程模型比MapReduce更灵活。开发人员可以通过Java、Scala或者Python等语言进行数据分析作业编写，并使用超过80种高级运算符。Spark与HDFS全面兼容，同时还能与其它Hadoop组件—包括YARN以及HBase并行协作。

Storm框架：

Storm在理论上支持所有语言，只需要少量代码即可完成适配。Storm把集群的状态存在Zookeeper或者本地磁盘，所以后台进程都是无状态的（不需要保存自己的状态，都在zookeeper上），可以在不影响系统健康运行的同时失败或重启。

四、应用方面

MapReduce框架：

分布式离线计算框架主要适用于大批量的集群任务，由于是批量执行，故时效性偏低。应用范围广，基本的数据处理框架。涉及到大量数据的处理的企业机构都会应用。

Spark框架：

适用于较大数据块又需要高时效性的小批量计算。多用于能容忍小延时的推荐与计算系统。可以被用于处理多种作业类型，比如实时数据分析、机器学习与图形处理。目前使用的公司有Intel，腾讯，中国移动，Google等等。

Storm框架：

适用于实时的小数据块的分析计算Storm可应用于–数据流处理、持续计算（持续地向客户端发送数据，它们可以实时的更新以及展现数据，比如网站指标）、分布式远程过程调用（轻松地并行化CPU密集型操作）。目前使用公司有淘宝，百度，Twitter，雅虎等等。

附：MapReuce、Spark、Storm比较表

在这里插入图片描述

参考文献

林子雨.《大数据技术原理与应用》.北京.人民邮电出版社.2017年1月第2版
高彦杰，倪亚宇.《Spark大数据分析实战》.北京.机械工业出版社.2016年1月第1版

言希灬

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
3
评论
一张表看懂大数据计算框架，浅析Hadoop(MapReduce)、Spark、Storm比较

很多初学者在刚刚接触大数据的时候会有很多疑惑，比如对MapReduce、Storm、Spark三个计算框架的理解经常会产生混乱，下面我来简单为大家做一下区分，方便理解。
复制链接

扫一扫