spark 集群配置

最新推荐文章于 2024-04-27 18:47:43 发布

清清清清予

最新推荐文章于 2024-04-27 18:47:43 发布

阅读量256

点赞数

文章标签： spark 大数据 hive

本文链接：https://blog.csdn.net/weixin_51832278/article/details/128698712

版权

本文档详细介绍了如何在Hadoop 3.3.1环境下配置Hive 4.0.0 alpha 2与Spark 3.3.1集成。参照阿里云社区的指南，涉及的关键步骤包括下载相关组件，修改`spark-env.sh`和`spark-defaults.conf`配置，设置worker列表以及调整`hive-site.xml`。然而，发现Hive 4.0.0 alpha 2可能并不支持Spark，只支持MapReduce和Tez执行引擎。

摘要由CSDN通过智能技术生成

文章参考阿里云社区
https://developer.aliyun.com/article/72228

官网下载
我用的事 hive 4.0.0 alpha 2
spark 3.3.1
hadoop 3.3.1

更改conf下的配置文件，生成如下所示配置及文件名的配置内容

spark-env.sh

export JAVA_HOME=$JAVA_HOME
#export SCALA_HOME=/root/scala 
export HADOOP_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop 
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_LAUNCH_WITH_SCALA=0
export SPARK_WORKER_MEMORY=1g
export SPARK_DRIVER_MEMORY=1g
export SPARK_MASTER_IP=ha-01
export SPARK_LIBRARY_PATH=$SPARK_HOME/jars
export SPARK_MASTER_WEBUI_PORT=18080
export SPARK_WORKER_DIR=$SPARK_HOME/work
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_PORT=7078
export SPARK_LOG_DIR=$SPARK_HOME/log
export SPARK_PID_DIR='$SPARK_HOME/run'

spark-defaults.conf

 spark.master                     yarn-cluster
 spark.home                       $SPARK_HOME
 #spark.eventLog.enabled           true
 spark.serializer                 org.apache.spark.serializer.KryoSerializer
 spark.executor.memory            1g
 spark.driver.memory              1g
 spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

workers