背景
业务开发要求能实现使用spark structured streaming实时消费kafka数据,处理结束能保存到hive中。要求使用最新的spark版本。
环境
hdp: 3.1.4
spark: 3.5.1
集成
问题
遇到的最大的问题是依赖冲突,各种状况的依赖冲突,一直把思路困在解决冲突上。
原因
核心是standalone-metastore-1.21.2.3.1.4.0-315-hive3.jar这个包,只要这个包配置正确,不会遇到其他问题。
Markdown将文本转换为 HTML。
spark.sql.hive.metastore.version 3.0
spark.sql.hive.metastore.jars /usr/hdp/current/spark2-client/standalone-metastore/standalone-metastore-1.21.2.3.1.4.0-315-hive3.jar
步骤
下载
正常下载包即可
配置
将hdp原来的spark2配置文件拷贝过来即可,包括spark-defaults.conf和hive-site.xml文件拷贝到spark的conf文件夹下。
重点
yarn执行节点所有目录必须包含 /usr/hdp/current/spark2-client/standalone-metastore/standalone-metastore-1.21.2.3.1.4.0-315-hive3.jar