spark3.5.1与HDP平台集成

最新推荐文章于 2024-06-08 17:53:28 发布

zhyajshhz

最新推荐文章于 2024-06-08 17:53:28 发布

阅读量304

点赞数 1

文章标签： spark

本文链接：https://blog.csdn.net/zhyajshhz/article/details/136846933

版权

本文讲述了在使用Spark3.5.1和HDP3.1.4环境中，如何实现实时消费Kafka数据并将其保存到Hive的问题，主要挑战在于依赖冲突，特别是与standalone-metastore-1.21.2.3.1.4.0-315-hive3.jar的兼容性。通过正确的配置和确保yarn节点目录结构，作者提供了解决方案。

摘要由CSDN通过智能技术生成

背景

业务开发要求能实现使用spark structured streaming实时消费kafka数据，处理结束能保存到hive中。要求使用最新的spark版本。

环境

hdp: 3.1.4
spark: 3.5.1

集成

问题

遇到的最大的问题是依赖冲突，各种状况的依赖冲突，一直把思路困在解决冲突上。

原因

核心是standalone-metastore-1.21.2.3.1.4.0-315-hive3.jar这个包，只要这个包配置正确，不会遇到其他问题。
Markdown将文本转换为 HTML。

spark.sql.hive.metastore.version 3.0
spark.sql.hive.metastore.jars /usr/hdp/current/spark2-client/standalone-metastore/standalone-metastore-1.21.2.3.1.4.0-315-hive3.jar