Spark入门
问1:Hadoop与Spark区别?
答:Hadoop主要解决海量数据的存储和海量数据的分析计算;Spark是一种基于内存的快
速、通用、可扩展的大数据分析计算引擎。
问2:Spark的资源调度框架?
答:Hadoop 的 Yarn 框架比 Spark 框架诞生的晚,所以 Spark 自己也设计了一套资源调
度框架。
问3:Hadoop与Spark框架对比?
答:Hadoop MR框架:从数据源获取数据,经过分析计算,将结果输出到指定位置。核
心是一次计算,不适合迭代运算。
Spark框架:支持迭代计算,图形计算;Spark框架比 MR 快的原因是:中间结果不落
盘。但是Spark的 Shuffle 也是落盘的。