简介
简单来讲,Spark是一个快速且通用的大规模数据处理分析引擎
快速:
Spark扩充了传统的Map Reduce计算模型
Spark基于内存计算
通用:
Spark容纳了分布式系统拥有的功能,批处理、流处理、迭代计算、交互查询等
Spark提供Python、JAVA、Scala和R等API和内置库,原生语言是Scala
Spark与其他大数据工具整合较好 Hadoop、Kafka等
历史
2009年诞生于加州大学伯克利分校RAD实验室,后引入内存存储
2010年Spark项目开源
2011年AMP实验室在Spark上开发高级组件, 如spark streaming
2013年Spark项目移交Apache