Spark分布式Yarn环境安装
修改hadoop配置文件
vi yarn-site.xml
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
修改spark配置文件
vi spark-env.sh
YARN_CONF_DIR=/opt/module/hadoop-3.2.4/etc/hadoop
HADOOP_CONF_DIR=/opt/module/hadoop-3.2.4/etc/hadoop
启动并体验
1)client模式:
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.5.0.jar \
100
注意:在提交任务之前需启动HDFS以及YARN集群。
2)cluster模式:
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.5.0.jar \
100