什么是spark
spark是一个实现快速通用的集群计算平台
spark组成
- SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),为运行在其上的上层组件提供API。
- SparkSQL:可以让我使用SQL语句的方式来查询数据
- SparkStreaming: 是Spark提供的实时数据进行流式计算的组件。
- MLlib:提供常用机器学习算法的实现库。
- GraphX:提供一个分布式图计算框架,能高效进行图计算。
- BlinkDB:用于在海量数据上进行交互式SQL的近似查询引擎。
- Tachyon:以内存为中心高容错的的分布式文件系统。
下载Spark
spark官网:http://spark.apache.org/downloads.html
清华镜像:https://mirrors.tuna.tsinghua.edu.cn/apache/
环境准备
- Java8安装成功
- zookeeper安装成功
- hadoop2.7.5 HA安装成功
- Scala安装成功(不安装进程也可以启动