Spark-SQL连接Hive的五种方法

aiyue5060

已于 2022-12-12 14:09:42 修改

阅读量289

点赞数

文章标签： spark sql 大数据

于 2022-12-12 13:59:09 首次发布

本文链接：https://blog.csdn.net/weixin_60315352/article/details/128284627

版权

本文详细介绍了Spark-SQL连接Hive的五种方法：内嵌Hive、外部Hive、通过Spark beeline、Spark SQL CLI以及代码操作Hive。每种方法都包含具体的操作步骤，如配置文件的拷贝、驱动添加等，适用于不同场景下的连接需求。

摘要由CSDN通过智能技术生成

Spark-SQL连接Hive 的五种方法

一、内嵌的 HIVE

如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可。但是在实际生产活动当中，几乎没有人去使用内嵌Hive这一模式。

二、外部的 HIVE

如果想在spark-shell中连接外部已经部署好的 Hive，需要通过以下几个步骤：
1、Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下
2、把 Mysql 的驱动 copy 到 jars/目录下（在hive的lib目录下可以找到）
3、如果访问不到 hdfs，则需要把 core-site.xml 和 hdfs-site.xml 拷贝到 conf/目录下
4 、重启 spark-shell
在这里插入图片描述

三、运行 Spark beeline

Spark Thrift Server 是 Spark 社区基于 HiveServer2 实现的一个 Thrift 服务。旨在无缝兼容HiveServer2。因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致，因此我们部署好 Spark Thrift Server 后，可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。Spark Thrift Server 的目的也只是取代 HiveServer2，因此它依旧可以和 Hive Metastore进行交互，获取到 hive 的元数据。
如果想连接 Thrift Server，需要通过以下几个步骤：
1、 Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下
2、把 Mysql 的驱动 copy 到 jars/目录下
3、如果访问不到 hdfs，则需要把 core-site.xml 和 hdfs-site.xml 拷贝到 conf/目录下
4、启动 Thrift Server