这篇文章主要来介绍一下用Spark SQL 如何读取hbase映射到hive的表,有的时候我们的数据存储在hbase中,但是想要用spark去分析,这时候就要用spark读取hbase的数据,spark读取hbase中的数据有很多种方式,今天来介绍一种比较方便的方法.
之前也用newAPIHadoopRDD的方式读取过hbase,但是这种方式读取后是一个RDD,虽然通过RDD也可以注册成表,但是还是稍微复杂了一点, 感兴趣的也可以看下https://blog.csdn.net/xianpanjia4616/article/details/89157616
首先要在hive里面建一个hbase的映射表,这一步就不说了,不会的可以看之前的文章,https://blog.csdn.net/xianpanjia4616/article/details/81046077, 然后就可以直接读取hive表了,就跟普通的spark读取hive表没什么差别.
pom依赖
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-client<