ubuntu下安装Spark(单机环境)

首先安装好java,这个可以参考http://blog.csdn.net/zth1002/article/details/51383508

安装Scala

首先在官网中下载好scala,然后解压,并且配置环境变量

tar -avxf scala-2.12.1.tgz
sudo mv scala-2.12.1 /usr/lib/
vim ~/.bashrc 
source ~/.bashrc
scala -version#如果安装成功,就可以查看scala的版本号

备注,我的~/.bashrc中

export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

export SCALA_HOME=/usr/lib/scala-2.12.1
export PATH=$PATH:${SCALA_HOME}/bin
安装spark

首先从官网上面下载好安装包

tar spark-2.1.0-bin-hadoop2.7.tgz
sudo mv spark-2.1.0-bin-hadoop2.7 /usr/lib/
vim ~/.bashrc 
source ~/.bashrc 
#为当前用户赋予Spark目录权限
sudo chown -hR username /usr/lib/spark-2.1.0-bin-hadoop2.7/
cd spark-2.1.0-bin-hadoop2.7/
cd bin/
ls -al
pyspark 

利用Spark自带的Python shell。使用PySpark shell, 在Spark解压的源码路径下,进入到bin目录下,执行pyspark
在提示符下,依次输入下面的命令

>>> lines = sc.textFile("/usr/lib/spark-2.1.0-bin-hadoop2.7/README.md")
>>> lines.count()
>>> lines.first()

任选一个文本文档(跟后缀名无关),进行字数统计,然后还可以得到此文本文档中第一行文本。注意文本路径一定要对,可以是相对路径,也可以是绝对路径。
这里写图片描述
当然,Spark为其他编程语言也提供了接口,如通过Scala到Spark的窗口是spark-shell。同样的,R语言对应的是sparkR。
还可以通过浏览器查看spark执行情况,进入到spark安装目录下的sbin子目录

./start-all.sh

可在浏览器中输入http://localhost:8080浏览当前节点运行情况。
这里写图片描述
看到ubuntu中会有这个信息

localhost: failed to launch: nice -n 0 /usr/lib/spark-2.1.0-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://yangxiaohuan-HP-Pavilion-g4-Notebook-PC:7077
localhost:   JAVA_HOME is not set

提示没有设置JAVA_HOME,这时候需要修改sbin/spark-config.sh,在文件最后添加上

export JAVA_HOME=/usr/lib/jvm/java

输入./stop-all.sh结束Spark,再次启动Spark,则不会看到“localhost: JAVA_HOME is not set”这个提示信息了。并且打开浏览器也可以看到本机的详情了。
这里写图片描述

可以查看Spark安装目录下的README.md文件,这里面也介绍了Spark的最基本的例子。

备注,我的~/.bashrc

export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

export SCALA_HOME=/usr/lib/scala-2.12.1
export PATH=$PATH:${SCALA_HOME}/bin

export SPARK_HOME=/usr/lib/spark-2.1.0-bin-hadoop2.7
export PATH=$PATH:${SPARK_HOME}/bin

摘抄于网页1
注: 使用ssh登陆shell的时候,系统不会自动调用.bashrc文件, 只是会自动的读取 如下三个文件:
~/.bash_profile , ~/.bash_login , ~/.profile 里面其中一个而已。

因此,如果想让系统每次登陆时候自动读取文件,可以将.bashrc文件改为.bash_profile
mv .bashrc .bash_profile

参考网页
1. http://blog.csdn.net/u013443618/article/details/49637273
2. http://www.aboutyun.com/thread-12242-1-1.html这个网页告诉了修改日志级别的办法

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值