1、前面的章节已经使用Flume把数据采集到了HBase数据库库中,但HBase属于NoSQL数据库,不支持SQL,直接基于HBase进行大数据分析非常不方便,所以可以利用Hive集成HBase,从而通过HQL完成大数据分析。
2、前一篇文章已经完成大数据的部署,为了实现Hive与HBase的集成开发,首先需要保证Hive下面有HBase使用的jar包(本次使用的Hive版本为3.1.3,需要的包都带了,不需要再次复制,如果没有,从HBase中复制即可)
cd /home/hadoop/app/hive/lib
base-client-2.0.0-alpha4.jar
hbase-common-2.0.0-alpha4.jar
hbase-common-2.0.0-alpha4-tests.jar
hbase-server-2.0.0-alpha4.jar
hbase-protocol-2.0.0-alpha4.jar
htrace-core-3.2.0-incubating.jar
zookeeper-3.4.6.jar
3、修改hive-site.xml配置
cd /home/hadoop/app/hive/conf
<property>
<name>hive.aux.jars.path</name>
<value>file:///home/hadoop/app/hive/hive-hbase-handler-3.1.3.jar,file:///home/hadoop/app/hive/zookeeper-3.4.6.jar,file:///home/hadoop/app/hive/hbase-client-2.0.0-alpha4.jar,file:///home/hadoop/app/hive/hbase-common-2.0.0-alpha4.jar,file:///home/hadoop/app/hive/hbase-common-2.0.0-alpha4-tests.jar,file:///home/hadoop/app/hive/hbase-server-2.0.0-alpha4.jar,file:///home/hadoop/app/hive/hbase-protocol-2.0.0-alpha4.jar,file:///home/hadoop/app/hive/htrace-core-3.2.0-incubating.jar</value>
</property>
<property>
<name>hive.zookeeper.quorum</name>
<value>hadoop01,hadoop02,hadoop03</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>hadoop01,hadoop02,hadoop03</value>
</property>
4、修改hive-env.sh配置
cd /home/hadoop/app/hive/conf
export HADOOP_HOME=/home/hadoop/app/hadoop
export HIVE_CONF_DIR=/home/hadoop/app/hive/conf
export HBASE_HOME=/home/hadoop/app/hbase
5、HBase中准备需要映射的表
cd /home/hadoop/app/hbase/bin
hbase shell
create 'stu','info'
put 'stu','001','info:addres','guangzhou'
put 'stu','001','info:age','20'
put 'stu','001','info:username','alex'
put 'stu','002','info:addres','shenzhen'
put 'stu','002','info:age','34'
put 'stu','002','info:username','jack'
put 'stu','003','info:addres','beijing'
put 'stu','003','info:age','23'
put 'stu','003','info:username','lili'
6、启动Hive服务
cd /home/hadoop/app/hive/bin
hive
7、创建Hive外部表,建立和HBase表之间的映射关系
CREATE EXTERNAL TABLE stu(
id string,
addres string,
age string,
username string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
"hbase.columns.mapping" =
":key,info:addres,info:age,info:username")
TBLPROPERTIES ("hbase.table.name" = "stu");
8、建立完Hive和HBase的映射关系后,接下来可以使用Hive查询HBase中的数据
select * from stu limit 5 #如果查到数据,则说明Hive和HBase集成环境配置完成