HBase的原理、特点、适用场景、HBase与hive的不同

最新推荐文章于 2024-03-07 18:38:07 发布

YD-

最新推荐文章于 2024-03-07 18:38:07 发布

阅读量303

点赞数 2

分类专栏：大数据 HBase 文章标签：大数据 hbase

本文链接：https://blog.csdn.net/weixin_45645794/article/details/107222845

版权

5 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

几千、几百万那种还不如使用RDBMS
需要类型列（Phonix，scala，spark，Kafka）
需要跨行事务，目前HBase只支持单行事务，需要跨行必须依赖第三方服务
SQL查询（可使用Phonix on HBase解决）
硬件太少，因为HBase依赖服务挺多，比如至少5个HDFS DataNode，1个HDFS NameData（为了安全还需要一个备节点），一个Zookeeper集群，然后还需要HBase自身的各节点
需要表间Join，HBae只适合Scan和Get，虽然Phonix支持了SQL化使用HBase，但Join性能依然很差，如果非要用HBase做Join，只能在客户端

hive是建立在Hadoop之上为了降低MapReduce编程复杂度的ETL工具。
hbase是为了弥补Hadoop对实时操作的缺陷。
hive是纯逻辑表，因为hive的本身并不能做数据存储和计算，而是完全依赖Hadoop
hbase是物理表，提供了一张超大的内存Hash表来存储索引，方便查询。
hive是数据仓库工具，需要全表扫描，就用 hive，因为hive是文件存储。
hbase是数据库，需要索引访问，则用hbase，因为hbase是面向列的NoSQL数据库。
hive表中存入数据（文件）时不做校验，属于读模式存储系统。
hbase表插入数据时，会和RDBMS一样做Schema校验，所以数据写模式存储系统。
hive不支持单行记录操作，数据处理依靠MapReduce，操作延时高。
hbase支持单行记录的CRUD，而且是实时处理，效率比hive高很多。

关注