Spark整合Hive

牛牛木有坏心眼（大数据进阶）

已于 2024-08-09 11:54:11 修改

阅读量143

点赞数 6

分类专栏： spark 文章标签： spark hive 大数据

于 2024-08-09 08:53:03 首次发布

本文链接：https://blog.csdn.net/weixin_56130021/article/details/141051893

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

Spark on Hive : 写spark sql，要查询的数据在hive表中

Hive on Spark : 写Hive SQL，最后通过spark引擎运行在集群中提高Hive SQL的执行速度，替换计算引擎

hive默认包含的计算引擎(mr、tez、spark)

准备工作：在hive中创建一张表

create table t_user(
id int,
name string,
age int
)
row format delimited 
fields terminated by '\t';

load data local inpath '/opt/user.log' into table t_user;

在SparkSQL中访问 Hive

步骤1: 修改hive-site.xml配置文件

<property>
    <name>hive.metastore.uris</name>
    <value>thrift://hadoop10:9083</value>
</property>

步骤2：启动Metastore

nohup hive --service metastore >> /root/hive2.log 2>&1 &

如果未配置Metastore，在hive的配置文件中hive-site.xml添加以下代码问

配置文件所在路径参考（/opt/installs/hive3.1.2/conf/hive-site.xml）

	<property>
		<name>hive.metastore.uris</name>
		<value>thrift://hadoop11:9083</value>
	</property>

步骤3: 编写代码（本地运行）集群上只需将代码中的“.master("local[*]") \”去掉

创建SparkSession的时候，记得添加.enableHiveSupport()

from pyspark.sql import SparkSession
if __name__ == '__main__':
    spark = SparkSession.builder \
                .config('hive.metastore.uris','thrift://hadoop11:9083') \
                .config('spark.sql.warehouse.dir','hdfs://hadoop12:8020/user/hive/warehouse') \
                .master("local[*]") \
                .appName('测试spark连接hive').enableHiveSupport().getOrCreate()

    # spark.sql('use ods')
    spark.sql('select * from ods.t_user').show()

    spark.stop()

牛牛木有坏心眼（大数据进阶）

关注

6
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark整合Hive

Hive on Spark : 写Hive SQL，最后通过spark引擎运行在集群中提高Hive SQL的执行速度，替换计算引擎。配置文件所在路径参考（/opt/installs/hive3.1.2/conf/hive-site.xml）如果未配置Metastore，在hive的配置文件中hive-site.xml添加以下代码问。Spark on Hive : 写spark sql，要查询的数据在hive表中。hive默认包含的计算引擎(mr、tez、spark)准备工作：在hive中创建一张表。
复制链接

扫一扫