Spark SQL 集成Hive（一）

最新推荐文章于 2024-06-18 09:37:18 发布

闻香识代码

最新推荐文章于 2024-06-18 09:37:18 发布

阅读量690

点赞数

分类专栏： spark hive SQL 文章标签： apache spark spark 分布式计算 sql 大数据

本文链接：https://blog.csdn.net/xiaohu21/article/details/108960672

版权

本文介绍了如何将Spark SQL与Hive进行集成，重点讨论了直接使用Spark SQL替代Hive的方法。首先，文章背景中指出Hive和Spark SQL都是SQL转换器，不同在于执行引擎。集成步骤包括环境准备，如安装Spark、CentOS、JDK和MySQL，并创建允许跨IP访问的账号。然后，详细说明了集成过程，包括创建Hive-site.xml配置文件，启动相关服务，并强调在使用`spark-sql`时需使用client模式。最后，文章提到了数据存储位置的调整以及通过SQL查询观察Spark的job执行情况。

摘要由CSDN通过智能技术生成

Spark SQL 集成Hive（一）

1. 背景

Hive可以看做是一个转换器，将SQL转换为mapreduce或者spark程序
Spark SQL也可以看成一个转换器，将SQL转换为spark程序
Hive集成Spark SQL有几种集成方式，一种是直接使用Spark SQL替代Hive，SQL是Spark SQL，程序转换也是Spark 程序，唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种
另外一种集成方式就是SQL还是hive，但执行引擎变成了Spark。这种集成也比较简单，适合此前就使用hive内部执行是mapreduce，现在想要切换到spark执行的业务团队。

2. 集成步骤

2.1. 环境准备

Spark 2.4.4
centos 7.x
jdk 1.8
mysql 5.7.31

注意先创建一个允许跨ip访问的账号，否则会spark会链接补上mysql进行元数据的读写操作
注意，尽量不要使用root用户操作，实际企业生产基本不会使用root账号进行业务操作，权限太高，风险太高

2.2 集成

创建mysql账号
创建hive-site.xml文件，并将这个文件放入spark安装目录的conf目录下
启动mysql服务
启动spark 服务
启动spark sql程序，注意指定参数

最低0.47元/天解锁文章

闻香识代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL 集成Hive（一）

Spark SQL 集成Hive（一）1. 背景Hive可以看做是一个转换器，将SQL转换为mapreduce或者spark程序Spark SQL也可以看成一个转换器，将SQL转换为spark程序Hive集成Spark SQL有几种集成方式，一种是直接使用Spark SQL替代Hive，SQL是Spark SQL，程序转换也是Spark 程序，唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种另外一种集成方式就是SQL还是hive，但执行引擎变成了Spark。2.
复制链接

扫一扫

专栏目录