1,spark为什么比mapreduce运行速度快很多?

1、基于内存,减少大量的磁盘io操作。
   mapreduce任务每次都会把结果数据落地到磁盘,
   后续有其他的job需要依赖于前面job的输出结果,
   这里就需要进行大量的磁盘io操作,获取前面job的输出结果。性能非常低
   
   spark任务的输出结果可以保存在内存中,
   后续有其他的job需要依赖于前面job的输出结果,
   这里就只需要直接从内存中获取得到,大大减少磁盘io操作。

   2、mapreduce任务启动进程,spark任务启动线程。线程可以重复使用同一个进程,大大减少资源浪费。
   mapreduce任务它是以进程的方式运行在yarn集群中,
   比如说一个mapreduce任务有100个MapTask,
   后期需要运行这100个task,就需要启动100个进程。
   
   spark任务它是以线程的方式运行在worker节点的executor进程中,
   比如说一个spark任务有100个MapTask,这里后期需要运行100个线程就可以了。
   可以这样极端一点:只需要启动一个进程,在一个进程中运行100个线程就可以了.
   开启一个进程比开启一个线程需要的时间和资源调度肯定是不一样,开启一个进程需要的时间远远大于线程..

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值