2021SC@SDUSC HBase(一) 项目综述

本文是关于HBase的详细介绍,涵盖HBase的基本概念、安装配置过程及核心模块解析。HBase是一个基于HDFS的分布式数据库,用于存储非结构化和半结构化数据,具备高可靠性、高性能和可扩展性。文章详细阐述了HBase的Master、Region Server和Zookeeper的角色,以及其逻辑模型和特点。同时,提供了在CentOS环境下安装和配置HBase的步骤,包括Zookeeper的设置和HBase Shell的验证。
摘要由CSDN通过智能技术生成

2021SC@SDUSC

一、HBase概述

什么是HBase

Hbase是一种构建在HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统,主要用来存储非结构化和半结构化的松散数据。HBase利用hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。HBase介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。
与hadoop一样,HBase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。
Hbase采用java语言实现,在其内部实现了BigTable论文提到的一些压缩算法、内存操作和布隆过滤器等,这些能力使得HBase在海量数据存储、高性能读写场景中得到了大量应用,如Facebook在2010年11月开始便一直选用HBase来作为消息平台的存储层技术。

HBase模块

hbase模块

HBase中相关模块的作用
  • Master
    HBase Master用于协调多个Region Server,侦测各个RegionServer之间的状态,并平衡RegionServer之间的负载。具有为HRegionServer分配HRegion、负责HRegionServer的负载均衡、发现失效的HRegionServer并重新分配、HDFS上的垃圾文件回收、处理Schema更新请求的作用。Hbase允许多个Master节点共存,但是这需要Zookeeper的帮助。当正在工作的Master节点宕机时,其他的Master则会接管HBase的集群。
  • Region Server
    对于一个RegionServer而言,其包括了多个Region。RegionServer的作用只是管理表格,以及实现读写操作。具有维护HMaster分配给它的HRegion,处理对这些HRegion的IO请求、负责切分正在运行过程中变得过大的HRegion的作用。
  • Zookeeper
    对于HBase而言,Zookeeper的作用是至关重要的。首先Zookeeper是作为HBase Master的HA解决方案,并且Zookeeper负责Region Server的注册。

逻辑模型

以表的形式存放数据,表由行和列组成,每个列组成输入某个列族,由行和列确定的存储单元成为元素,每个元素保存了同一份数据的多个版本,由时间戳来标志区分。

特点

1.半结构化数据:

hbase设计上没有严格形态的数据,数据记录可能包含不一致的列、不确定的大小等

2.可扩展性:

(1)在半结构化逻辑模

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值