spark--环境配置

下载网址

https://archive.apache.org/dist/spark/spark-2.4.4/

链接:https://pan.baidu.com/s/1BC8HRX5i-4smWKKhEj0W4g
提取码:ap5h

1.解压安装包

[root@bigdata101 software]# tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /opt/module/

2.进入spark的conf里面重命名:spark文件名

[root@bigdata101 module]# mv spark-2.4.4-bin-hadoop2.7 spark-2.4.4-hadoop2.7

3.新建文件slaves,spark-env.sh

[root@bigdata101 module]# cd spark-2.4.4-hadoop2.7/conf/
[root@bigdata101 conf]# cp slaves.template  slaves
[root@bigdata101 conf]# cp spark-env.sh.template spark-env.sh

4.配置文件

export JAVA_HOME=/opt/module/jdk1.8.0_221
export HADOOP_HOME=/opt/module/hadoop-2.9.2
export SPARK_MASTER_IP=192.168.1.101
export SPARK_WORKED_MEMORY=1g
export HADOOP_CONF_DIR=/opt/module/hadoop-2.9.2/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/opt/module/hadoop-2.9.2/bin/hadoop classpath)

5.环境变量spark-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_221
export HADOOP_HOME=/opt/module/hadoop-2.9.2
export SPARK_MASTER_IP=192.168.1.101
export SPARK_WORKED_MEMORY=1g
export HADOOP_CONF_DIR=/opt/module/hadoop-2.9.2/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/opt/module/hadoop-2.9.2/bin/hadoop classpath)

6.修改slaves

bigdata102
bigdata103

7.配置环境变量(全部)

vi ~/.bash_profile

export PATH
JAVA_HOME=/opt/module/jdk1.8.0_221
HADOOP_HOME=/opt/module/hadoop-2.9.2
SPARK_HOME=/opt/module/spark-2.4.4-hadoop2.7
HIVE_HOME=/opt/module/apache-hive-2.3.6-bin
export HBASE_HOME=/opt/module/hbase-0.98.17-hadoop2
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$HOME/bin:$ZK_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$SPARK_HOME/bin
export PATH JAVA_HOME  HIVE_HOME CLASSPATH HADOOP_HOME ZK_HOME SPARK_HOME
ZK_HOME=/opt/module/zookeeper-3.4.7

变量说明

  • JAVA_HOME:Java安装目录
  • SCALA_HOME:Scala安装目录
  • HADOOP_HOME:hadoop安装目录
  • HADOOP_CONF_DIR:hadoop集群的配置文件的目录
  • SPARK_MASTER_IP:spark集群的Master节点的ip地址
  • SPARK_WORKER_MEMORY:每个worker节点能够最大分配给exectors的内存大小
  • SPARK_WORKER_CORES:每个worker节点所占有的CPU核数目
  • SPARK_WORKER_INSTANCES:每台机器上开启的worker节点的数目

8.使环境变量生效-三台

source ~/.bash_profile

9.scp到另外两个节点上面

[root@bigdata101 module]# scp -r spark-2.4.4-hadoop2.7 root@bigdata102:/opt/module/
[root@bigdata101 module]# scp -r spark-2.4.4-hadoop2.7 root@bigdata103:/opt/module/

10.进入spark的sbin目录下面/opt/module/spark-2.4.4-hadoop2.7/sbin

[root@bigdata101 module]# cd /opt/module/spark-2.4.4-hadoop2.7/sbin 
[root@bigdata101 sbin]# ./start-all.sh

11.启动之后bigdata101里有了Master

[root@bigdata101 sbin]# jps
7200 JournalNode
7696 NodeManager
9490 HMaster
8339 HRegionServer
7588 ResourceManager
7062 QuorumPeerMain
10343 Master
7482 DFSZKFailoverController
10412 Jps
7326 NameNode

12.启动之后bigdata102里有了Worker

[root@bigdata102 conf]# jps
7408 NameNode
7504 DataNode
9488 Worker
7601 DFSZKFailoverController
7106 QuorumPeerMain
7733 ResourceManager
7303 JournalNode
8152 HRegionServer
9581 Jps
7855 NodeManager

13.启动之后bigdata103里有了Worker

[root@bigdata103 conf]# jps
8112 Jps
7553 HRegionServer
8034 Worker
7348 DataNode
7111 QuorumPeerMain
7114 QuorumPeerMain
7277 JournalNode

14.进入192.168.1.101:8080

在这里插入图片描述
进入spark客户端

[root@bigdata101 bin]# ./pyspark

在这里插入图片描述
命令汇总:

./start-all.sh   #启动spark,在spark-2.4.4-hadoop2.7/sbin下
./pyspark       #启动spark客户端,在spark-2.4.4-hadoop2.7/bin下
hadoop fs -mkdir /spark    #创建目录
hdfs fs -put stu.txt /spark     #上传文件到spark目录
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Spark是一个分布式计算框架,可以运行在Hadoop集群上。而YARN是Hadoop的资源管理器,可以提供资源给Spark来运行。 以下是spark-yarn安装配置的步骤: 1. 安装Hadoop集群 在安装Spark之前,您需要先安装Hadoop集群。请确保您的Hadoop集群正在运行,并且您可以使用hadoop命令行工具访问它。 2. 下载SparkSpark官方网站下载Spark二进制文件,并解压缩到您的目录中。您可以将Spark安装在任何地方,只要您的Hadoop集群可以访问它即可。 3. 配置SparkSpark的conf目录下,有一个spark-env.sh文件,您需要编辑它来配置Spark的环境变量。将以下内容添加到文件末尾: export HADOOP_CONF_DIR=/path/to/hadoop/conf 这将告诉Spark去哪里找到Hadoop的配置文件。 4. 配置YARN 在Spark的conf目录下,有一个spark-defaults.conf文件,您需要编辑它来配置Spark使用YARN。将以下内容添加到文件末尾: spark.master yarn spark.submit.deployMode client spark.executor.memory 2g spark.driver.memory 2g 这将告诉Spark使用YARN作为资源管理器,并设置内存大小。 5. 运行Spark应用程序 现在,您可以运行Spark应用程序了。使用以下命令: ./bin/spark-submit --class <main-class> --master yarn --deploy-mode client <application-jar> <application-arguments> 其中,<main-class>是您的主类,<application-jar>是您的应用程序jar文件,<application-arguments>是您的应用程序参数。 6. 监控应用程序 您可以在YARN的Web界面上监控您的应用程序。打开以下网址: http://<yarn-resource-manager>:8088/cluster 其中,<yarn-resource-manager>是您的YARN资源管理器的主机名。在Web界面上,您可以看到正在运行的应用程序的状态和日志。 这就是spark-yarn安装配置的步骤。祝您好运!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值