1、Hadoop局限
要想明白为什么产生HBase,就需要先了解Hadoop存在的限制?
- Hadoop的局限在于只能执行批处理,并且只能顺序访问数据,即使最简单的工作,都必须搜索整个数据集,无法实现随机访问。
- 传统的关系型数据库可以实现数据的随机访问,但它却不能用于海量数据的存储。
- HBase可以解决海量数据存储和随机访问问题
2、HBase简介
- HBase是基于HDFS的面向列的分布式数据库。
- HBase依托于HDFS作为最基本存储单元,可以实现实时地随机访问超大规模结构化数据集。
- HBase特点:①数据访问速度快,响应时间约2-20毫秒;②支持随机读写,每个节点20k~100k+ ops/s;③可扩展性,可扩展到20,000+节点
3、HBase Table
HBase的数据模型是由一张张的表组成的,表由行和列组成,又不同于关系型数据库的行和列。
- 表:HBase的表将映射成HDFS中的文件。
- 行:表中的每一行代表一个数据对象,每一行都以一个行关键字(Row Key)进行唯一标识。
- 列簇:HBase表中的每一列都归属于某个列簇,列簇是表的Schema的一部分,而列不是。在定义HBase表的时候需要提前设置好列簇,列簇一旦确定后就不能轻易更改。
- 列:每个列簇可以包含任意数量的列。
- 存储单元:每一