一、安装scala
spark 官方对配套的Scala版本有规定,要根据具体的spark的版本决定Scala的版本。
1.官方下载地址:http://www.scala-lang.org/download
2.解压到要安装的位置,我就解压在了桌面。
3.修改环境变量。
终端命令
sudo gedit ~/.bashrc
修改:
#scala
export SCALA_HOME=/home/hadoop/scala-2.11.8 (scala的绝对路径)
export PATH=$SCALA_HOME/bin:$PATH
source ~/.bashrc
4.查看 scala -version
5 .输入scala就可以进入scala的命令交互界面
6.slave端同样设置就可以
二、安装Spark
先在master配置。配置完成后复制到salves中即可
1.下载安装包 http://spark.apache.org/downloads.html
解压到自己安装的位置,我也解压到了桌面
2.配置环境变量
sudo gedit ~/.bashrc
修改:
#scala
#spark
export SPARK_HOME=/home/hadoop/spark-2.1.0(spark的绝对路径)
export PATH=$SPARK_HOME/bin:$PATH
source ~/.bashrc
3.配置Spark。需要配置spark文件下的conf文件夹下spark-env.sh和slaves文件
首先需要把spark-env.sh.template和slaves template 都复制成spark-env.sh和slaves
cd spark-2.1.0/conf
//复制
cp spark-env.sh.template spark-env.sh
cp slave.template slave.sh
//修改spark-env.sh
gedit spark-env.sh
//写入
export SCALA_HOME=/home/hadoop/scala-2.11.8
export JAVA_HOME=/usr/lib/jvm/javajdk1.8
export HADOOP_HOME=/home/hadoop/hadoop2.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/home/hadoop/spark-2.1.0
SPARK_DRIVER_MEMORY=1G
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
JAVA_HOME 指的是java的安装目录
SCALA_HOME是scala的安装目录
HADOOP_HOME是hadoop的安装目录
SPARK_MASTER_IP spark的master节点的ip
SPARK_DRIVER_MEMORY 指的是每个slave节点能够最大的分配给exectors的内存大小
SPARK_WORKER_CORES=1 指的每个slave节点所占有的cpu核数目
export SPARK_WORKER_INSTANCES=1 每台机器上开启的worker 节点数目
修改slave
gedit slave.sh
添加
节点名称1
节点名称2
4.slave中由master复制过去,spark文件夹和bashrc文件
5.启动并测试
//启动hadoop
cd hadoop2.7/sbin
./start-all.sh
//启动spark
cd spark-2.1.0/sbin
./start-all.sh
//查查看
jps
master端:namenode
salve端:datanode
//启动spark-shell控制台
cd spark-2.1.0/bin
spark-shell
//有park字样
浏览器查看
spark的webUI页面 master:8080
了解spark shell
master:4040
三、测试
(1)启动spark shell
(2) 进入spark/bin目录下
./run-example org.apache.spark.examples.LocalPi
//运行出3.13...
测试二
1.往hdfs上传文件
在hadoop hdfs 上创建文件夹data
cd hadoop
bin/hdfs dfs-mkdir /data
//查看
浏览器 master:50070
2.上传文件到data文件夹
bin/hdfs dfs -put {需要上传的文件路径} 空格 {/data}
-put /home/spark/README.md /data
3.对README.md文件进行操作
启动 spark shell
cd spark/bin
spark-shell
//获取文件
scala > val rdd=sc.textFile("/data/README.md")
scala > rdd.count