1,spark为什么比mapreduce运行速度快很多?

最新推荐文章于 2024-01-31 11:22:42 发布

大王独自来巡山

最新推荐文章于 2024-01-31 11:22:42 发布

阅读量2.2k

点赞数 1

分类专栏： spark面试文章标签： spark mapreduce 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46416699/article/details/122102148

版权

spark面试专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、基于内存，减少大量的磁盘io操作。
mapreduce任务每次都会把结果数据落地到磁盘，
后续有其他的job需要依赖于前面job的输出结果，
这里就需要进行大量的磁盘io操作，获取前面job的输出结果。性能非常低

spark任务的输出结果可以保存在内存中，
后续有其他的job需要依赖于前面job的输出结果，
这里就只需要直接从内存中获取得到，大大减少磁盘io操作。

2、mapreduce任务启动进程，spark任务启动线程。线程可以重复使用同一个进程，大大减少资源浪费。
mapreduce任务它是以进程的方式运行在yarn集群中，
比如说一个mapreduce任务有100个MapTask,
后期需要运行这100个task，就需要启动100个进程。

spark任务它是以线程的方式运行在worker节点的executor进程中，
比如说一个spark任务有100个MapTask,这里后期需要运行100个线程就可以了。
可以这样极端一点：只需要启动一个进程，在一个进程中运行100个线程就可以了.
开启一个进程比开启一个线程需要的时间和资源调度肯定是不一样,开启一个进程需要的时间远远大于线程..

大王独自来巡山

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
1,spark为什么比mapreduce运行速度快很多?

1、基于内存，减少大量的磁盘io操作。 mapreduce任务每次都会把结果数据落地到磁盘，后续有其他的job需要依赖于前面job的输出结果，这里就需要进行大量的磁盘io操作，获取前面job的输出结果。性能非常低 spark任务的输出结果可以保存在内存中，后续有其他的job需要依赖于前面job的输出结果，这里就只需要直接从内存中获取得到，大大减少磁盘io操作。 2、mapreduce任务启动进程，spark任务启动线程。线程可以重复使用同一个进程，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。