基于0.14.0版本配置HiveServer2

最新推荐文章于 2022-04-27 04:35:42 发布

教练_我要踢球

最新推荐文章于 2022-04-27 04:35:42 发布

阅读量4.3k

点赞数

分类专栏： OLAP 文章标签： hive hadoop java 数据库配置

本文链接：https://blog.csdn.net/yu616568/article/details/45420907

版权

本文介绍了如何配置基于0.14.0版本的HiveServer2，包括使用远程MySQL作为元数据库，设置数据仓库目录，并讲解了配置Kerberos认证的过程，以解决在使用Hive作为 Mondrian 数据源时遇到的问题。文章还讨论了Hive的多种使用方式，如命令行和通过jdbc访问，并提供了配置HiveServer2和使用jdbc连接的示例。

摘要由CSDN通过智能技术生成

项目中需要访问hive作为mondrian的异种数据源执行MDX查询，而我一般使用hive的时候都是直接通过hive命令行的方式直接执行SQL，或者通过hive的jar包在程序中访问，在这种方式的使用过程中，访问的hadoop集群都是公司的集群，之前测试hive的过程中记得自己对hive的jdbc源码进行了修改，主要是修改了一些hive在实现jdbc中没有实现但是抛出异常的接口，而mondrian会调用这些接口导致下面的流程走不下去了，整体的修改应该说还是比较简单的。另外一个问题是当时的hive是没有使用任何认证机制的，包括hadoop也是没有认证机制的，现在在公司的hadoop集群上跑需要使用kerberos认证，这一块自己还不熟悉，还只是知道怎么用，所以还需要恶补了一下关于kerberos认证的知识。

下面介绍一下我对hive几种使用方式的理解，首先是hive的元数据库，它分为三种形式的，第一种是内嵌的derby数据库，这种方式由于derby会在当前目录创建一个目录，所以智能启动一个hive实例，第二种方式是使用远程数据库，也就是使用一个关系数据库系统，例如mysql等（目前只测试了mysql），hive通过jdbc连接mysql获取元数据信息，还有一种方式是hive自带的metaserver，这个server是用来关系元数据的，相当于在真正的元数据管理器之前又搭了一个服务。

在使用的过程中主要有两种方式使用hive，第一种就是仅仅把hive作为一个可以对文件使用SQL查询的根据来使用，也就是直接使用hive命令行，亦或者在程序中使用hive提供的函数启动，在这种情况下我们只需要配置好hive元数据服务器（告诉hive存储了哪些数据库和表以及其属性）和hive的数据仓库目录（一般是一个HDFS的目录），经过测试数据仓库的目录只是在创建数据库的时候有作用，在创建表的时候会在所在数据库的目录下创建表的目录，另外还需要指定hadoop的配置文件和jar包，毕竟hive依赖于hadoop执行任务。

第二种方式就是讲hive作为一个提供了SQL接口的数据库使用，我们可以通过jdbc的方式访问它，类似于使用mysql的方式，本文主要介绍的就是如何配置这个服务器并且使用hive自带的客户端以及使用jdbc的方式连接使用。

接下来就是对hive进行环境配置了，对于hive，我的一般使用方式是使用远程的mysql做为源数据服务器。而不使用hive自带的matestore服务器，貌似后者能支持更大的并发，这个暂时没需求就简单的来，除了元数据库还有一个重点就是数据仓库地址，我配置的我的个人用户intern的目录/user/intern，具体配置如下：

<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>/user/intern/</value>
  <description>location of default database for the warehouse</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://127.0.0.1:3306/HIVE</valu