Spark SQL 集成Hive（二）

最新推荐文章于 2024-01-09 10:27:32 发布

闻香识代码

最新推荐文章于 2024-01-09 10:27:32 发布

阅读量173

点赞数

本文链接：https://blog.csdn.net/xiaohu21/article/details/108961599

版权

spark 同时被 3 个专栏收录

49 篇文章 3 订阅

订阅专栏

hive

19 篇文章 1 订阅

订阅专栏

SQL

9 篇文章 2 订阅

订阅专栏

Spark SQL 集成Hive（二）

1. 背景

Hive可以看做是一个转换器，将SQL转换为mapreduce或者spark程序
Spark SQL也可以看成一个转换器，将SQL转换为spark程序
Hive集成Spark SQL有几种集成方式，一种是直接使用Spark SQL替代Hive，SQL是Spark SQL，程序转换也是Spark 程序，唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种
另外一种集成方式就是SQL还是hive，但执行引擎变成了Spark。这种集成也比较简单，适合此前就使用hive内部执行是mapreduce，现在想要切换到spark执行的业务团队。

2. 集成步骤

2.1. 环境准备

Spark 2.4.4
centos 7.x
jdk 1.8
mysql 5.7.31

注意先创建一个允许跨ip访问的账号，否则会spark会链接补上mysql进行元数据的读写操作
注意，尽量不要使用root用户操作，实际企业生产基本不会使用root账号进行业务操作，权限太高，风险太高

2.2 集成

创建mysql账号
创建hive-site.xml文件，并将这个文件放入spark安装目录的conf目录下
启动mysql服务
启动spark 服务
启动spark thriftserver

sbin/start-thriftserver.sh --master spark://doit01:7077 --executor-memory 2g --total-executor-cores 6 --driver-class-path /root/doit/mysql-connector-java-5.1.49.jar

启动beeline

 bin/beeline -u jdbc:hive2://doit01:10000

spark 8080端口查看
执行sql查询数据

show databases;

在这里插入图片描述

因为启动了JDBC服务，可以使用代码或者其他客户端连接JDBC服务，

执行sql查询，sql查询最后转换为spark程序运行
查看spark 网页端，可以看到这里有2个job，因为使用了排序，所以第一次job是排序需要采样，读取文件；第二个job就是真正的数据处理，中间发生了shuffle，因为需要对数据进行排序处理

结构图

spark集群启动，各个节点向master节点汇报自己的信息（硬件资源等信息）
mysql启动，准备对外服务
输入start-thriftserver命令，其实就是通过spark submit向spark集群提交了一个application，这时候，master会检查集群中还有哪些资源可以用，安排这个程序进入队列。如果资源足够，就会返回可以执行这个application的worker节点信息，对应executor就会向driver进行反向注册。这时候application就会分发到executor上运行
当thriftserver启动之后，其实就相当于对外启动了一个可以通过jdbc连接自己的服务
beeline客户端启动，当输入sql语句并提交之后。beeline就会通过jdbc方式连接到thrifserver，并把sql代码提交。
driver接收到这些sql代码之后，就会通过sql解析器，优化器，执行器将sql转换为针对dataframe的操作，再转换为针对RDD的操作。中间就是logical plan、anylysed logical plan、pgysical plan等阶段做优化，最后变成可执行的经过优化后的物理计划。
最后这些物理执行计划通过DAG scheduler转换为taskset，然后提交给task scheduler。taskscheduler根据任务执行阶段stage，通过序列化将这些task调度给不同的executor执行。
最后这些task在不同的executor执行task以及执行结束后，会向driver汇报进度和结果信息。
任务完全结束后，driver会把信号告诉master，进行资源回收。

闻香识代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL 集成Hive（二）

Spark SQL 集成Hive（二）1. 背景Hive可以看做是一个转换器，将SQL转换为mapreduce或者spark程序Spark SQL也可以看成一个转换器，将SQL转换为spark程序Hive集成Spark SQL有几种集成方式，一种是直接使用Spark SQL替代Hive，SQL是Spark SQL，程序转换也是Spark 程序，唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种另外一种集成方式就是SQL还是hive，但执行引擎变成了Spark。这种集成也
复制链接

扫一扫