Spark 为啥比 MapReduce 快？

最新推荐文章于 2022-01-04 13:03:57 发布

置顶

Mr_Hagrid

最新推荐文章于 2022-01-04 13:03:57 发布

阅读量962

点赞数

分类专栏：小白爱AI 文章标签： spark hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuxiuning/article/details/106589353

版权

本文探讨了Spark比MapReduce更快的原因，包括DAG优化、内存管理和Shuffle过程的差异。Spark利用丰富的算子、DAG执行计划、内存缓存以及更高效的Shuffle机制，减少了磁盘I/O和不必要的排序，从而提高了性能。

摘要由CSDN通过智能技术生成

Spark 为啥比 MapReduce 快？

DAG优化和内存

(1) 算子灵活性：MR只支持Map和Reduce 两种操作，而Spark有丰富的算子。

(2) Map 中间结果写磁盘，Reduce 写HDFS，多个MR之间通过HDFS交换数据。

(3) DAG引擎，先划分为Stage，Stage之间才Shuffle落盘，Stage之内，都可以内存处理。

(4) spark 中的rdd数据可以缓存到内存中，充分使用内存，多次使用，减少IO。

进程和线程

(1) MR的任务调度和启动都是进程级别的，每个进程都是JVM，资源和时间开销都很大。

(2) spark开启的JVM是Driver和Executor，每个Executor内部可以在每个core上都生成一个task，spark的task是基于线程的，线程池模型有效减少task的启动开销，一个executor上可以占用多个core，每最终task并行度为executor * core的数量。

Shuffle

(2) MR的Map端和Reduce端均需要排序。Spark在Shuffle过程中，尽量避免不必要的Sort操作。

一、Spark算子 VS MapReduce算子

MR只有Map 和 Reduce 两种操作。而spark基于RDD构建了丰富的算子。

RDD：Resilient Distribute DataSets，分布式弹性数据集

（1）RDD是分布于集群中的，有多个Partition组成的只读对象集合。

分区数的确定

（2）支持内存、磁盘等多种存储级别。

（3）通过并行的 Transform 操作，逐步构建需要的结果。

（4）通过Lineage血统体系，支持自动重构。

Transform操作：生成新的RDD

PartitionBy ，map， filter，groupBy，reduceBy ，reduceByKey

Action 操作：获取一个或者一组值

count，reduce，saveAsTextFile

##　二、Spark Shuffle VS MR Shuffle

MapReduce Shuffle过程

MapReduce Shuffle过程

1、首先 map 在做输出时候会在内存里开启一个环形内存缓冲区，专门用来做输出，同时map还会启动一个守护线程；

2、如缓冲区的内存达到了阈值的80%，守护线程就会把内容写到磁盘上&

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Mr_Hagrid CSDN认证博客专家 CSDN认证企业博客

码龄14年

78: 原创

7万+: 周排名

103万+: 总排名

22万+: 访问

: 等级

2113: 积分

73: 粉丝

66: 获赞

18: 评论

196: 收藏

私信

关注

热门文章

分类专栏

小白爱AI 13篇
Solr 4篇
gensim 2篇
XML 1篇
分词器 1篇
sklearn 1篇
python 6篇
自然语言处理 2篇
linux 9篇
mariadb 3篇
sqlalchemy 2篇
pycharm 1篇
数据库 2篇
基础
spark 1篇
java 4篇
git 2篇
maven
算法 1篇
hadoop 16篇
vim 1篇
数据收集工具
集群运维 2篇
Flume 3篇
kafka
web 1篇
laravel 1篇
设计模式 1篇

最新评论

Zookeeper原理架构
秋千无闻: zookeeper 一开始的意图是这样的。就是一个集中式的高可用的配置中心，作为一个中间件供其他组件使用。其他组件可以把自己的配置信息写到zookeeper，变为全局信息，所有组件都能看到。
用户活跃度标签建模
zkhong07: 请问，计算total_active 为什么会有小于0的情况，能讲解下吗？感谢
Ganglia监控HDFS和HBase指标说明
winrar_setup.rar: 麻烦问一下如何查看这些参数呢.比如RpcProcessingTime_avg_time.
Zookeeper原理架构
CPU的嘲讽回复晓缔: 这解释只能给个666
Hadoop主要配置文件深入理解
headingon: 请问楼主，mapreduce.application.classpath和yarn.application.classpath具体是如何配置的？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。