依赖
Spark是Scala语言写的, 运行在JVM上,所以运行环境需要JAVA7+
如果使用的是python API, 需要安装Python2.6+ 或 Python3.4+
下载
官网地址:https://spark.apache.org/downloads.html
注意,除了版本2.4.2是用Scala 2.12预构建的, Spark 2.x都是用Scala 2.11预构建的。Spark 3.0+是用Scala 2.12预构建的。
解压
tar -zxvf spark-3.0.1-bin-hadoop3.2.tgz
bin主要包含与Spark交互的可执行文件, 如Spark Shell
core、streaming、python等包含主要组件的源代码
examples主要包含一些单机的Spark job例子, 可以进行尝试
启动Spark Shell
Spark的shell使你能够处理分别在集群上的数据
Spark把数据加载到节点的内存中,快速完成计算, 所以一般使用shell进行快速迭代式运算,实时查询、分析
Spark提供了python shell 和scala shell
python shell 位于 bin/pyspark
scala shell 位于 bin/spark-shell
Spark guide
简单的入门文档:https://docs.cloudera.com/documentation/enterprise/5-7-x/PDF/cloudera-spark.pdf