首先,要确认有足够多的数据存入HBase。
hbase是一个高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。
如 果有几亿或者几十亿条记录要存入HBase,那么HBase就是一个正确的选择;否则如果你仅有几百万条甚至更少的数据,那么HBase当然不是正确的选 择,这种情况下应当选择传统的关系型数据库,因为如果这么少的数据存入HBase,就会导致数据堆积在一两个节点上,而HBase集群内部的其他节点都处 于空闲状态。
虽然HBase是一种绝佳的工具,但我们一定要记住,它并非银弹。HBase并不擅长传统的事务处理程序或关联分析,它也不能完全替代MapReduce过程中使用到的HDFS
什么情况下用hbase
如果你的应用程序中,数据表每一行的结构是有差别的,那就可以考虑使用HBase,比如在标准化建模的过程中使用它;如果你需要经常追加字段,且大部分字段是NULL值的,那可以考虑HBase;如果你的数据(包括元数据、消息、二进制数据等)都有着同一个主键,那就可以使用HBase;如果你需要通过键来访问和修改数据,使用HBase吧。
应用场景
- 交通方面:
船舶GPS信息,全长江的船舶GPS信息,每天有1千万左右的数据存储。 - 金融方面:
消费信息,贷款信息,信用卡还款信息等 - 电商:
淘宝的交易信息等,物流信息,浏览信息等 - 移动:
通话信息等,都是基于HBase的存储。