详细介绍HBase 与 Hive 集成使用

最新推荐文章于 2022-09-20 20:19:23 发布

天ヾ道℡酬勤

最新推荐文章于 2022-09-20 20:19:23 发布

阅读量855

点赞数 3

分类专栏： hbase 文章标签： hbase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zp17834994071/article/details/107502519

版权

1．Hive概述

（1）数据仓库

Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双
射关系，以方便使用 HQL 去管理查询。

（2）用于数据分析、清洗

Hive 适用于离线的数据分析和清洗，延迟较高。

（3）基于 HDFS、MapReduce

Hive 存储的数据依旧在 DataNode 上，编写的 HQL 语句终将是转换为
MapReduce 代码执行。

2．HBase概述

（1）数据库

是一种面向列存储的非关系型数据库。

（2）用于存储结构化和非结构化的数据

适用于单表非关系型数据的存储，不适合做关联查询，类似 JOIN 等操作。

（3）基于 HDFS

数据持久化存储的体现形式是 HFile，存放于 DataNode 中，被 ResionServer
以 Region 的形式进行管理。

（4）延迟较低，接入在线业务使用

面对大量的企业数据，HBase 可以直线单表大量数据的存储，同时提供了高
效的数据访问速度。

3. 区别

Hbase： Hadoop database 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。

Hive：Hive是Hadoop数据仓库，严格来说，不是数据库，主要是让开发人员能够通过SQL来计算和处理HDFS上的结构化数据，适用于离线的批量数据计算。

总的来说：
Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。

4．关系

在大数据架构中，Hive和HBase是协作关系，数据流一般如下图：

通过ETL工具将数据源抽取到HDFS存储；
通过Hive清洗、处理和计算原始数据；
HIve清洗处理后的结果，如果是面向海量数据随机查询场景的可存入Hbase
数据应用从HBase查询数据；

总结： 不管 HBase 表是否存在，在 Hive 中都要使用 external 表来与 HBase 表进行关联，如果关联的 HBase

最低0.47元/天解锁文章

天ヾ道℡酬勤

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。