Hive、Impala和Hbase的区别

大宇进阶之路

于 2020-06-16 17:04:23 发布

阅读量1.2k

点赞数 3

原文链接：https://blog.csdn.net/anningzhu/article/details/57193256

版权

参考链接：

先放结论：Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。而Impala是解决Hive批处理速度慢的问题，同时访问Kudu表需要通过Impala引擎。

1.区别

Hbase： Hadoop database 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。
Hive：Hive是Hadoop数据仓库，严格来说，不是数据库，主要是让开发人员能够通过SQL来计算和处理HDFS上的结构化数据，适用于离线的批量数据计算。通过元数据来描述Hdfs上的结构化文本数据，通俗点来说，就是定义一张表来描述HDFS上的结构化文本，包括各列数据名称，数据类型是什么等，方便我们处理数据，当前很多SQL ON Hadoop的计算引擎均用的是hive的元数据，如Spark SQL、Impala等；
Impala：Impala的定位是一种新型的MPP查询引擎，但是它又不是典型的MPP类型的SQL引擎，提到MPP数据库首先想到的可能是GreenPlum，它的每一个节点完全独立，节点直接不共享数据，节点之间的信息传递全都通过网络实现。而Impala可以说是一个MPP计算引擎，它需要处理的数据存储在HDFS、Hbase或者Kudu之上，这些存储引擎都是独立于Impala的，可以称之为第三方存储引擎，Impala使用MPP的思想实现了计算。实质就是一个大的查询通过分解为多个子查询，分布到底层的执行，最后再合并结果，说白了就是通过多线程并发来暴力SCAN来实现高速

2.关系

在大数据架构中，Hive和HBase是协作关系，数据流一般如下图：

关注