Spark SQL 集成Hive(二)
1. 背景
- Hive可以看做是一个转换器,将SQL转换为mapreduce或者spark程序
- Spark SQL也可以看成一个转换器,将SQL转换为spark程序
- Hive集成Spark SQL有几种集成方式,一种是直接使用Spark SQL替代Hive,SQL是Spark SQL,程序转换也是Spark 程序,唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种
- 另外一种集成方式就是SQL还是hive,但执行引擎变成了Spark。这种集成也比较简单,适合此前就使用hive内部执行是mapreduce,现在想要切换到spark执行的业务团队。
2. 集成步骤
2.1. 环境准备
- Spark 2.4.4
- centos 7.x
- jdk 1.8
- mysql 5.7.31
- 注意先创建一个允许跨ip访问的账号,否则会spark会链接补上mysql进行元数据的读写操作
- 注意,尽量不要使用root用户操作,实际企业生产基本不会使用root账号进行业务操作,权限太高,风险太高
2.2 集成
- 创建mysql账号
- 创建hive-site.xml文件,并将这个文件放入spark安装目录的conf目录下
- 启动mysql服务
- 启动spark 服务
- 启动spark thriftserver
sbin/start-thriftserver.sh --master spark://doit01:7077 --executor-memory 2g --total-executor-cores 6 --driver-class-path /root/doit/mysql-connector-java-5.1.49.jar
- 启动beeline
bin/beeline -u jdbc:hive2://doit01:10000
- spark 8080端口查看
- 执行sql查询数据
show databases;
- 因为启动了JDBC服务,可以使用代码或者其他客户端连接JDBC服务,
- 执行sql查询,sql查询最后转换为spark程序运行
- 查看spark 网页端,可以看到这里有2个job,因为使用了排序,所以第一次job是排序需要采样,读取文件;第二个job就是真正的数据处理,中间发生了shuffle,因为需要对数据进行排序处理
- 结构图
- spark集群启动,各个节点向master节点汇报自己的信息(硬件资源等信息)
- mysql启动,准备对外服务
- 输入start-thriftserver命令,其实就是通过spark submit向spark集群提交了一个application,这时候,master会检查集群中还有哪些资源可以用,安排这个程序进入队列。如果资源足够,就会返回可以执行这个application的worker节点信息,对应executor就会向driver进行反向注册。这时候application就会分发到executor上运行
- 当thriftserver启动之后,其实就相当于对外启动了一个可以通过jdbc连接自己的服务
- beeline客户端启动,当输入sql语句并提交之后。beeline就会通过jdbc方式连接到thrifserver,并把sql代码提交。
- driver接收到这些sql代码之后,就会通过sql解析器,优化器,执行器将sql转换为针对dataframe的操作,再转换为针对RDD的操作。中间就是logical plan、anylysed logical plan、pgysical plan等阶段做优化,最后变成可执行的经过优化后的物理计划。
- 最后这些物理执行计划通过DAG scheduler转换为taskset,然后提交给task scheduler。taskscheduler根据任务执行阶段stage,通过序列化将这些task调度给不同的executor执行。
- 最后这些task在不同的executor执行task以及执行结束后,会向driver汇报进度和结果信息。
- 任务完全结束后,driver会把信号告诉master,进行资源回收。