Spark SQL 集成Hive(二)

19 篇文章 1 订阅
9 篇文章 2 订阅

Spark SQL 集成Hive(二)

1. 背景

  1. Hive可以看做是一个转换器,将SQL转换为mapreduce或者spark程序
  2. Spark SQL也可以看成一个转换器,将SQL转换为spark程序
  3. Hive集成Spark SQL有几种集成方式,一种是直接使用Spark SQL替代Hive,SQL是Spark SQL,程序转换也是Spark 程序,唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种
  4. 另外一种集成方式就是SQL还是hive,但执行引擎变成了Spark。这种集成也比较简单,适合此前就使用hive内部执行是mapreduce,现在想要切换到spark执行的业务团队。

2. 集成步骤

2.1. 环境准备

  1. Spark 2.4.4
  2. centos 7.x
  3. jdk 1.8
  4. mysql 5.7.31
  • 注意先创建一个允许跨ip访问的账号,否则会spark会链接补上mysql进行元数据的读写操作
  • 注意,尽量不要使用root用户操作,实际企业生产基本不会使用root账号进行业务操作,权限太高,风险太高

2.2 集成

  1. 创建mysql账号
  2. 创建hive-site.xml文件,并将这个文件放入spark安装目录的conf目录下
  3. 启动mysql服务
  4. 启动spark 服务
  5. 启动spark thriftserver
sbin/start-thriftserver.sh --master spark://doit01:7077 --executor-memory 2g --total-executor-cores 6 --driver-class-path /root/doit/mysql-connector-java-5.1.49.jar
  1. 启动beeline
 bin/beeline -u jdbc:hive2://doit01:10000
  1. spark 8080端口查看
    在这里插入图片描述
  2. 执行sql查询数据
show databases;

在这里插入图片描述

  1. 因为启动了JDBC服务,可以使用代码或者其他客户端连接JDBC服务,
  • 执行sql查询,sql查询最后转换为spark程序运行
  • 查看spark 网页端,可以看到这里有2个job,因为使用了排序,所以第一次job是排序需要采样,读取文件;第二个job就是真正的数据处理,中间发生了shuffle,因为需要对数据进行排序处理
  1. 结构图
    在这里插入图片描述
  1. spark集群启动,各个节点向master节点汇报自己的信息(硬件资源等信息)
  2. mysql启动,准备对外服务
  3. 输入start-thriftserver命令,其实就是通过spark submit向spark集群提交了一个application,这时候,master会检查集群中还有哪些资源可以用,安排这个程序进入队列。如果资源足够,就会返回可以执行这个application的worker节点信息,对应executor就会向driver进行反向注册。这时候application就会分发到executor上运行
  4. 当thriftserver启动之后,其实就相当于对外启动了一个可以通过jdbc连接自己的服务
  5. beeline客户端启动,当输入sql语句并提交之后。beeline就会通过jdbc方式连接到thrifserver,并把sql代码提交。
  6. driver接收到这些sql代码之后,就会通过sql解析器,优化器,执行器将sql转换为针对dataframe的操作,再转换为针对RDD的操作。中间就是logical plan、anylysed logical plan、pgysical plan等阶段做优化,最后变成可执行的经过优化后的物理计划。
  7. 最后这些物理执行计划通过DAG scheduler转换为taskset,然后提交给task scheduler。taskscheduler根据任务执行阶段stage,通过序列化将这些task调度给不同的executor执行。
  8. 最后这些task在不同的executor执行task以及执行结束后,会向driver汇报进度和结果信息。
  9. 任务完全结束后,driver会把信号告诉master,进行资源回收。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值