配置hive on spark
1、上传 Spark 纯净版 jar 包到 HDFS:
hdfs dfs -mkdir /spark-jars
hdfs dfs -put /opt/spark/jars/* /spark-jars
2、修改 hive-site.xml 文件,添加如下配置:
<!--Spark 依赖位置(注意:端口号必须和 namenode的端口号一致)-->
<property>
<name>spark.yarn.jars</name>
<!--<value>hdfs://hadoop:8020/spark-jars/*</value>-->
<value>hdfs://hadoop:9000/spark-jars/*</value>
</property>
<!--Hive 执行引擎-->
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
<!--Hive 和 Spark 连接超时时间-->
<property>
<name>hive.spark.client.connect.timeout</name>
<value>10000ms</value>
</property>
2、测试hive on spark是否配置成功。
往数据库表default.student中添加数据:insert into student values(‘haoge’,22);
本文仅用于参考学习,参考原文:
https://blog.csdn.net/weixin_45417821/article/details/115268740

本文介绍了如何将Hive与Spark集成,包括将Sparkjar包上传到HDFS,修改hive-site.xml配置文件以指定Spark依赖位置和执行引擎为Spark,以及设置连接超时时间。最后通过插入数据测试配置是否成功。
2819

被折叠的 条评论
为什么被折叠?



