背景
对于一个数据平台的SQL查询服务,impala提供了优于hive/spark sql等一批sql-on-mr/spark性能的查询引擎,并且得益于impala可以直接共享hive的metastore,可以对用户提供”一套数据,多种引擎”的服务,目前我们计划在数据平台集成hive/spark/impala这几种SQL引擎。众所周知,hive无论是在稳定性还是在成熟度上都要优于后两者,不管是spark还是impala在使用的过程中总是需要对其进行一定的修改支持hive提供的特性,其中有一个对于平台服务最有用的特性——代理执行。
hiveserver2的代理访问可以使得平台端代理任意用户执行SQL操作就像该用户自己执行的操作一样(就像一个普通用户直接使用hive CLI执行操作),本文主要探索hiveserver2是如何使用代理的方式实现支持不同用户完成SQL操作,为修改impala支持对应的操作做铺垫。
HiveServer2的实现
在启动hive server2的时候,我们通常需要一个hive.keytab,这个用户在hadoop上被配置为可代理的用户(具体的配置是在namenode的core-site.xml中添加hadoop.proxyuser.hive.hosts=xxx和hadoop.proxyuser.hive.groups=xxx配置项,以确定hive用户可以对指定host的指定groups的用户执行代理),除了对hiveserver2配置principal和keytab之外,还需要设置hive.server2.enable.doAs参数为true(该配置项默认值就是true),该配置表示对于用户的操作,hiveserver2将以代理的方式访问HDFS和提交MR任务。
好了,以代理的方式配置好了hiveserver2,我们可以看一下利用这个特性能够做到什么。
在本例中,hive.keytab已经被配置了可代理的权限,其他用户全是普通用户。通过beeline连接hiveserver2,beeline作为client会以当前用户的kerberos cache中认证的kerberos用户作为被代理的账号执行,例如当前机器上的用户是nrpt:
> klist
Ticket cache: FILE:/tmp/krb5cc_50997
Default principal: nrpt/dev@HADOOP.HZ.NETEASE.COM
Valid starting Expires Service principal
10/02/2017 09:30 11/02/2017 07:30 krbtgt/HADOOP.HZ.NETEASE.COM@HADOOP.HZ.NETEASE.COM
renew until 11/02/2017 09:30
然后连接hiveserver2执行查询:
> beeline -u "jdbc:hive2://db-53.photo.163.org:10000/default;principal=hive/app-20.photo.163.org@HADOOP.HZ.NETEASE.COM"
C