Spark笔记之简介
1. 背景
- 作为目前大数据处理领域主流处理引擎的spark,从2016年开始在国内快速进入企业生产实践,到现在2020年已经有四年。版本也更新到了现在的3.0.1。实际企业使用为了稳定性,旧的项目一般都还在2.x版本,特别是2.4.x版本。
- http://spark.apache.org/
- 下载https://archive.apache.org/dist/spark/
2. Spark简介
2.1 Spark是什么
- spark是一个 大数据分析引擎,快速上手,通用性解决方案
- spark是2009年诞生于美国加州大学伯克利分校AMPLab实验室,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。
- 2014年5月发布1.0版本,2016年7月发布2.0版本,2020年