spark安装

本文详细介绍了如何在Hadoop集群后安装Scala 2.11.12和Spark 2.4.0,包括创建工作目录、配置环境变量、分发文件、验证安装,并通过实例演示了如何启动Spark Shell和pyspark进行交互。
摘要由CSDN通过智能技术生成

目录

spark安装

前言

资料链接

安装scala

创建scala工作目录

 配置环境变量(三台机器)

查看是否安装成功

 分发到节点

 验证

安装spark

创建spark工作目录

 编辑spark-env.sh

 配置spark从节点

 配置环境变量(三台机器)

 分发到节点

测试运行环境(只在master节点执行)

 访问spark web界面

开启spark-shell

 输入pyspark测试python环境spark交互模式


spark安装

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。


前言

在部署完hadoop集群后,再安装scala与spark

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

资料链接

链接:https://pan.baidu.com/s/1ytGL3cLGQxGltl5bHrSBQQ 
提取码:yikm 

安装scala

创建scala工作目录

mkdir -p /usr/scala/
tar -xvf /usr/package/scala-2.11.12.tgz -C /usr/scala/

 配置环境变量(三台机器)

vim /etc/profile

添加以下内容:

#scala
export SCALA_HOME=/usr/scala/scala-2.11.12
export PATH=$SCALA_HOME/bin:$PATH

 

 生效环境变量

 source /etc/profile

查看是否安装成功

scala -version

 

 分发到节点

 scp -r /usr/scala/ root@slave1:/usr/
 scp -r /usr/scala/ root@slave2:/usr/

 

 验证

scala -version

安装spark

创建spark工作目录

mkdir -p /usr/spark
tar -zxvf /usr/package/spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark/

 编辑spark-env.sh

cd /usr/spark/spark-2.4.0-bin-hadoop2.7/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

添加以下内容:

export SPARK_MASTER_IP=master
export SCALA_HOME=/usr/scala/scala-2.11.12
export SPARK_WORKER_MEMORY=8g
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.3/etc/hadoop

 配置spark从节点

mv slaves.template slaves
vim slaves

 修改localhost:

slave1
slave2

 配置环境变量(三台机器)

vim /etc/profile

添加以下内容:

#spark
export SPARK_HOME=/usr/spark/spark-2.4.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

生效环境变量

source /etc/profile

 分发到节点

scp -r /usr/spark/ root@slave1:/usr/
scp -r /usr/spark/ root@slave2:/usr/

测试运行环境(只在master节点执行)

启动hadoop

/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh

启动spark集群

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

 jps查看进程

 

 

 访问spark web界面

192.168.111.3:8080

 

开启spark-shell

spark-shell

 输入以下命令测试:

println("Hello world")

 输入pyspark测试python环境spark交互模式

pyspark

 输入命令测试:

 print("Hello world")

输入quit()可退出

 

 

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

慕铭yikm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值