Hive和Hbase数据互通（用户画像）

最新推荐文章于 2024-07-16 22:39:54 发布

潭中镜月

最新推荐文章于 2024-07-16 22:39:54 发布

阅读量298

点赞数

分类专栏： 05_电商数仓

本文链接：https://blog.csdn.net/weixin_48699240/article/details/119534439

版权

本文介绍了在用户画像项目中，如何实现Hive数据与Hbase之间的互通。探讨了两种方案：直接映射和通过Spark的bulkload导入。详细讲述了配置环境、解决Spark运行问题、创建Hive-Hbase映射表的过程，并展示了映射后的查询结果。通过这些步骤，实现了Hive数据高效地导入到Hbase中，以满足不同的查询需求。

摘要由CSDN通过智能技术生成

背景
依旧是用户画像的项目，现在标签化的数据存放在hive中，而查询是要在hbase上进行查询，所以需要将hive的数据导入hbase中。

方案：

1、hive和hbase的表建立映射关系，读取的是同一份HDFS文件，只是在上层建立hbase到hive表的映射。

优点：一份数据存储，两种查询模式，数据存储最低；

缺点：底层还是格式化的HDFS文件，查询需要进行映射转换，效率较低；

2、将hive的数据通过生成hfile，通过bulkload导入到hbase，这样底层数据的格式会转变成Hfile存储在hbase中，将hbase完全作为一个数据库去查询

优点：查询效率高；

缺点：同一份数据，两份存储格式，空间换取时间；

介绍
1、环境问题

之前因为各种操作，导致hive的对应的数据存储路径被删了，所以先对hive的环境进行重新配置，主要配置和mysql的互通；

1、删除mysql对应的hive库；
2、执行schematool -dbType mysql -initSchema
3、重启hive
4、查看hive-site的配置
  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
    <description>location of default database for the warehouse</description>
  </property>

在这里插入图片描述

2、spark运行环境的配置

在测试的时候，spark的运行环境出现了很多问题，主要是jar包冲突和找不到类的问题。

所以基于hbase的类主要是：

    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-client</artifactId>
        <version>1.1.2</version>
    </dependency>

    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-protocol</artifactId>
        <version>1.1.2</version>
    </dependency>

    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-common</artifactId>
        <version>1.1.2</version>
    </dependency>

    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-server</artifactId>
        <version>1.1.2</version>
    </dependency>

同时spark的代码框架中要加入resouces包，并将hive-site.xml、core-site.xml、hdfs-site.xml、hbase.xml配置文件扔进去，方便spark运行是能够找到依赖的环境。

在这里插入图片描述