Spark与Hadoop(MapReduce)

Hadoop存在如下一些缺点:

  • 表达能力有限
  • 磁盘IO开销大
  • 延迟高
  • 任务之间的衔接涉及IO开销
  • 在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务

Spark具有如下几个主要特点:

  • 运行速度快:使用DAG执行引擎以支持循环数据流与内存计算
  • 容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程
  • 通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件
  • 运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题

相比于Hadoop MapReduce,Spark主要具有如下优点:

Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比Hadoop MapReduce更灵活

Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高

Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制

Hadoop与Spark执行逻辑回归的时间对比

强势总结一波:

MapReduce

Spark

数据存储结构:磁盘HDFS文件系统的split

使用内存构建弹性分布式数据集RDD

对数据进行运算和cache

编程范式:Map + Reduce

DAG: Transformation + Action

计算中间结果:落到磁盘,IO及序列化、反序列化代价大

在内存中维护,存取速度比磁盘高几个数量级

Task:Task以进程的方式维护,需要数秒时间才能启动任务

Task以线程的方式维护

对于小数据集读取能够达到亚秒级的延迟

关于Hadoop生态组件和Spark软件栈就不对比了,后面有机会再讨论一下

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值