大数据技术与应用实验报告7
Saprk基于Hadoop的安装与配置,进行使用
内容:Spark shell实现HDFS文件的读入,本地文件的读入,以及WordCount通过spark shell、scala、java的实现
Spark的编程模型:
三种语言:Scala Java Python
1.安装Scala
下载地址:http://www.scala-lang.org/download/(我选择的是scala-2.12.1.tgz)
下载完成后解压到目录下,然后配置环境变量:
export SCALA_HOME=/home/gyy/scala-2.12.1
export PATH=${SCALA_HOME}/bin:$PATH
2.安装Spark
下载地址:http://spark.apache.org/downloads.html
选择Spark-2.4.0
将 spark-2.4.0/yarn 目录下的 spark-2.4.0-yarn-shuffle.jar 拷贝到/env/hadoop-2.9.2/share/hadoop/yarn/lib 目录下
配置spark 环境变量:
cd /env/spark-2.4.0/conf
cp spark-env.sh.template spark-env.sh
vim spark-env.sh