一:基本介绍
优点:
1.大: 一个表可以存储上亿行数据,上百万列数据
2.面向列:面向列的存储和权限控制,列独立检索
3.稀疏:对于为空的列(null)不占用存储空间,可以存储得很疏松
发展历史:
来源于google的BigTable论文
官方网站:http://hbase.apache.org
二:结构
- 数据库以region的形式存在
- 支持HDFS文件系统
- 使用WAL(Write-Ahead Logs)存储日志
- 参考系统是Zookeeper
- 使用行键(row key)
- 支持分片
- 使用行、列、列族和单元格
三:功能:
- 支持向外扩展
- 使用API和MapReduce来访问HBase表数据
- 面向列,即每一列都是一个连续的单元
- 数据总量不依赖具体某台机器,而取决于机器数量
- HBase不支持ACID(Atomicity、Consistency、Isolation、Durability)
- 适合结构化数据和非结构化数据
- 一般都是分布式的
- HBase不支持事务,支持的是单行数据的事务操作
- 不支持Join
四:HBase特征
海量存储
列式存储
极易扩展
高并发
稀疏
五:架构
1.HMaster主节点
功能:
- 监控RegionServer
- 处理RegionServer故障转移
- 处理元数据的变更
- 处理region的分配或移除
- 在空闲时间进行数据的负载均衡
- 通过Zookeeper发布自己的位置给客户端
2.RegionServer从节点
功能:
- 负责存储HBase的实际数据
- 处理分配给它的Region
- 刷新缓存到HDFS
- 维护HLog
- 执行压缩
- 负责处理Region分片
3.RegionServer中的组件
- Write-Ahead logs
HBase的修改记录,当对HBase读写数据的时候,数据不是直接写进磁盘,它会在内存中保留一段时间(时间以及数据量阈值可以设定)。但把数据保存在内存中可能有更高的概率引起数据丢失,为了解决这个问题,数据会先写在一个叫做Write-Ahead logfile的文件中,然后再写入内存中。所以在系统出现故障的时候,数据可以通过这个日志文件重建。 - HFile
这是在磁盘上保存原始数据的实际的物理文件,是实际的存储文件。 - Store
HFile存储在Store中,一个Store对应HBase表中的一个列族。 - MemStore
顾名思义,就是内存存储,位于内存中,用来保存当前的数据操作,所以当数据保存在WAL中之后,RegsionServer会在内存中存储键值对。 - Region
Hbase表的分片,HBase表会根据RowKey值被切分成不同的region存储在RegionServer中,在一个RegionServer中可以有多个不同的region。
六:表模型