概述
Spark简介
Spark诞生于2009年美国加州伯克利分校的AMP实验室,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。
Spark最初的设计目标是使数据分析更快----不仅程序运行速度要快,程序编写也要能快速、容易。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使程序编写更为容易,Spark使用简练、优雅的Scala编写,基于Scala提供了交互式的编程体系。
Spark具有如下4个主要特点:
(1)运行速度快
Spark使用先进的有向无环图(Directed Acyclic Graph,DAG)执行引擎,以支持循环数据流与内存计算&#x