spark-2.1.0

一、安装scala
spark 官方对配套的Scala版本有规定,要根据具体的spark的版本决定Scala的版本。
1.官方下载地址:http://www.scala-lang.org/download
2.解压到要安装的位置,我就解压在了桌面。
3.修改环境变量。
终端命令

sudo gedit ~/.bashrc

修改:
#scala

export SCALA_HOME=/home/hadoop/scala-2.11.8   (scala的绝对路径)

export PATH=$SCALA_HOME/bin:$PATH


source ~/.bashrc

4.查看 scala -version
5 .输入scala就可以进入scala的命令交互界面
6.slave端同样设置就可以

二、安装Spark
先在master配置。配置完成后复制到salves中即可

1.下载安装包 http://spark.apache.org/downloads.html
解压到自己安装的位置,我也解压到了桌面
2.配置环境变量

sudo gedit ~/.bashrc

修改:
#scala

#spark

export SPARK_HOME=/home/hadoop/spark-2.1.0(spark的绝对路径)


export PATH=$SPARK_HOME/bin:$PATH


source ~/.bashrc

3.配置Spark。需要配置spark文件下的conf文件夹下spark-env.sh和slaves文件

首先需要把spark-env.sh.template和slaves template 都复制成spark-env.sh和slaves

cd spark-2.1.0/conf
//复制
cp  spark-env.sh.template spark-env.sh  
cp  slave.template slave.sh  
//修改spark-env.sh
 gedit spark-env.sh
 //写入

export SCALA_HOME=/home/hadoop/scala-2.11.8     
export JAVA_HOME=/usr/lib/jvm/javajdk1.8
export HADOOP_HOME=/home/hadoop/hadoop2.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/home/hadoop/spark-2.1.0
SPARK_DRIVER_MEMORY=1G
export  SPARK_WORKER_CORES=1
export   SPARK_WORKER_INSTANCES=1

JAVA_HOME 指的是java的安装目录
SCALA_HOME是scala的安装目录
HADOOP_HOME是hadoop的安装目录
SPARK_MASTER_IP spark的master节点的ip
SPARK_DRIVER_MEMORY 指的是每个slave节点能够最大的分配给exectors的内存大小
SPARK_WORKER_CORES=1 指的每个slave节点所占有的cpu核数目
export SPARK_WORKER_INSTANCES=1 每台机器上开启的worker 节点数目

修改slave
gedit slave.sh

添加
节点名称1
节点名称2

4.slave中由master复制过去,spark文件夹和bashrc文件
5.启动并测试


//启动hadoop
cd hadoop2.7/sbin
./start-all.sh
//启动spark
cd spark-2.1.0/sbin
./start-all.sh

//查查看
jps
master端:namenode
salve端:datanode 

//启动spark-shell控制台
cd spark-2.1.0/bin
spark-shell

//有park字样

浏览器查看

spark的webUI页面 master:8080
了解spark shell
master:4040

三、测试
(1)启动spark shell
(2) 进入spark/bin目录下

./run-example org.apache.spark.examples.LocalPi 

//运行出3.13...

测试二

1.往hdfs上传文件
在hadoop hdfs 上创建文件夹data
cd hadoop
bin/hdfs   dfs-mkdir  /data
//查看
浏览器  master:50070

2.上传文件到data文件夹


bin/hdfs dfs -put {需要上传的文件路径} 空格  {/data}
             -put /home/spark/README.md  /data

3.对README.md文件进行操作

启动 spark shell
cd  spark/bin
spark-shell

//获取文件
scala >   val rdd=sc.textFile("/data/README.md")
scala >   rdd.count
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值