ubuntu18简单安装Spark3,pySpark,scala, SBT和java11

0.环境说明

本机ubuntu18,python3是anaconda的,之前要安装java环境和scala

1.安装Java

阅读Scala官方安装教程,需要Java11或者Java8的环境, Scala地址。我选择安装Java11.(我采用非源码默认版本安装,ubuntu18极其以上系统都行)。链接: 其他安装方式参考.

sudo apt-get update
#安装OpenJDK,这是Java运行的环境
sudo apt install default-jre
#检查
java --version
#安装Java Development Kit(JDK)编译和运行基于Java的软件
sudo apt install default-jdk
#检查
javac --version

2.安装Scala和SBT

阅读spark3的官方文档,要安装2.12以上版本。链接: Apache Spark地址.我的是2.12,安装顺序不同与官方,我认为先装scala再装SBT测试有效。网页拉到底选择鼠标这个版本
在这里插入图片描述

# 版本自己改
wget https://downloads.lightbend.com/scala/2.13.3/scala-2.13.3.deb
# 找到下载文件的路径
sudo dpkg -i scala-2.12.3.deb
# check
scala --version
# run scala(跟在终端输入python3,计算1+1是不是等于2,一样测试是不是成功,如果成功退出)
scale
1+1
# 安装SBT
echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list
curl -sL "https://keyserver.ubuntu.com/pks/lookup?op=get&search=0x2EE0EA64E40A89B84B2DF73499E82A75642AC823" | sudo apt-key add
sudo apt-get update
sudo apt-get install sbt
#check
mkdir sbt_project
# 通常这步会卡住,要配置一下,等会写。然后运行
sbt

大概这样算成功
在这里插入图片描述

# 运行sbt,然后会卡在类似与Getting org.scala-sbt sbt 1.4.3
cd ~/.sbt
# 创建一个文件
vim repositories
# 输入内容
[repositories]
local
huaweicloud-maven: https://repo.huaweicloud.com/repository/maven/
maven-central: https://repo1.maven.org/maven2/
sbt-plugin-repo: https://repo.scala-sbt.org/scalasbt/sbt-plugin-releases, [organization]/[module]/(scala_[scalaVersion]/)(sbt_[sbtVersion]/)[revision]/[type]s/[artifact](-[classifier]).[ext]

然后在sbt_project运行sbt过一会下载点东西以后就能成功

3.安装Spark3

在步骤2中给的spark网站中选择Download中你要spark下载到本地

tar xvzf spark-3.0.1-bin-hadoop2.7.tgz
cd ~
sudo mkdir -p /usr/local/spark
# 路径自己改
sudo mv ~/Downloads/spark-3.0.1-bin-hadoop2.7.tgz /usr/local/spark
which python3
type -a python3
# 我最后选择了anaconda的python3
cd ~
sudo vim ~/.bashrc
#添加这些,路径改成你自己的
export SPARK_HOME="/usr/local/spark/spark-3.0.1-bin-hadoop2.7"
export PATH="${PATH}:${SPART_HOME}/bin"

export PYSPARK_PYTHON="/home/dwz/anaconda3/bin/python3"
export PYSPARK_DRIVER_PYTHON="/home/dwz/anaconda3/bin/python3"
# 保存退出
source ~/.bashrc
# 因为我电脑有anaconda的虚拟环境,我检测了pip的路径是在/home/dwz/anaconda3/lib/python3.7/site-packages/pip (python 3.7),一开始我用pip3安装后面运行不起来,发现我的pip3在/usr/lib/python3/dist-packages,pyspark没安装在虚拟环境上
# 这个是一个驱动
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple
# check
pip freeze
# test
cd /usr/local/spark/spark-3.0.1-bin-hadoop2.7/bin
# 运行结果图1
./spark-shell
./pyspark
#退出后
cd ~/test
mkdir spark_test
cd spark_test
vim test-spark-connection.py
from pyspark.sql import SparkSession
sc = SparkSession.builder.appName('helloworld').getOrCreate()
print(type(sc),"/n")
print(dir(sc))
# 保存然后退出,运行结果图2
python3 test-spark-connection.py

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值