大数据
wlgleigang
这个作者很懒,什么都没留下…
展开
-
Spark Streaming和storm计算框架的本质区别?
Spark Streaming 是基于batch的计算框架,所以是一种伪实时处理的计算框架,这种特性决定了它的非实时和吞吐量大的特点.storm是基于每一条数据的,是非常纯粹的实时计算框架,这种特性决定了它的实时和吞吐量小的特点....原创 2019-11-17 10:31:33 · 101 阅读 · 0 评论 -
SparkSQL和hive的关系
SpakrSQl实际上是基于hive,将hive的analyser(查询引擎)和optimizer(优化器)两个组件替换为自身的Catalyst optimizer,由此带来性能上的进步。原创 2019-11-17 10:20:32 · 286 阅读 · 0 评论 -
Spark比Map Reduce快的本质原因?
Spark任务设计是基于线程,而Hadoop MR任务设计是基于进程.从线程和进程区别得角度看,线程之间是内存是共享的,所以任务之间可以共享内存,这也是Spark基于内存的说法的原因,而进程只能基于磁盘进行共享数据,这是MR基于磁盘说法的原因.直接体现在任务之间的通信问题的.由此会引申到MR有更冗余的hdfs读写、JVM优化、reduce端的基于内存还是磁盘等问题。...原创 2019-11-17 10:16:05 · 97 阅读 · 0 评论