Spark SQL 集成Hive(一)

本文介绍了如何将Spark SQL与Hive进行集成,重点讨论了直接使用Spark SQL替代Hive的方法。首先,文章背景中指出Hive和Spark SQL都是SQL转换器,不同在于执行引擎。集成步骤包括环境准备,如安装Spark、CentOS、JDK和MySQL,并创建允许跨IP访问的账号。然后,详细说明了集成过程,包括创建Hive-site.xml配置文件,启动相关服务,并强调在使用`spark-sql`时需使用client模式。最后,文章提到了数据存储位置的调整以及通过SQL查询观察Spark的job执行情况。
摘要由CSDN通过智能技术生成

Spark SQL 集成Hive(一)

1. 背景

  1. Hive可以看做是一个转换器,将SQL转换为mapreduce或者spark程序
  2. Spark SQL也可以看成一个转换器,将SQL转换为spark程序
  3. Hive集成Spark SQL有几种集成方式,一种是直接使用Spark SQL替代Hive,SQL是Spark SQL,程序转换也是Spark 程序,唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种
  4. 另外一种集成方式就是SQL还是hive,但执行引擎变成了Spark。这种集成也比较简单,适合此前就使用hive内部执行是mapreduce,现在想要切换到spark执行的业务团队。

2. 集成步骤

2.1. 环境准备

  1. Spark 2.4.4
  2. centos 7.x
  3. jdk 1.8
  4. mysql 5.7.31
  • 注意先创建一个允许跨ip访问的账号,否则会spark会链接补上mysql进行元数据的读写操作
  • 注意,尽量不要使用root用户操作,实际企业生产基本不会使用root账号进行业务操作,权限太高,风险太高

2.2 集成

  1. 创建mysql账号
  2. 创建hive-site.xml文件,并将这个文件放入spark安装目录的conf目录下
  3. 启动mysql服务
  4. 启动spark 服务
  5. 启动spark sql程序,注意指定参数
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值