第1关:伪分布式环境搭建
任务描述
相关知识
配置与启动伪分布式HBase
在HDFS中验证
编程要求
测试说明
任务描述
本关任务:安装伪分布式HBase。
相关知识
上次实训中我们已经完成了单机版HBase的安装,单机版意味着我们的HBase数据仍然是存放在本地,而没有存放在Hadoop集群中,本关我们来学习如何配置一个伪分布式的HBase环境,伪分布式意味着HBase仍然在单个主机上运行,但每个HBase的守护程序(HMaster、HRegionServer和Zookeeper)作为单独的进程运行;在伪分布式的环境下,我们会将HBase的数据存储在HDFS中,而不是存放在本地了,接下来我们就来一起搭建环境吧。
实验环境:
hadoop2.7;
JDK8;
HBase2.1.1;
hadoop已安装;
JDK已安装,环境变量已配置;
HBase压缩包已下载,存放在/opt目录下。
在搭建环境之前我们首先来了解一下HBase分布式环境的整体架构:
我们来简单认识一下与HBase的相关组件:
Zookeeper:
Zookeeper能为HBase提供协同服务,是HBase的一个重要组件,Zookeeper能实时的监控HBase的健康状态,并作出相应处理。
HMaster:
HMaster是HBase的主服务,他负责监控集群中所有的HRegionServer,并对表和Region进行管理操作,比如创建表,修改表,移除表等等。
HRegion:
HRegion是对表进行划分的基本单元,一个表在刚刚创建时只有一个Region,但是随着记录的增加,表会变得越来越大,HRegionServer会实时跟踪Region的大小,当Region增大到某个值时,就会进行切割(split)操作,由一个Region切分成两个Region。
HRegionServer:
HRegionServer是RegionServer的实例,它负责服务和管理多个HRegion 实例,并直接响应用户的读写请求。
总的来说,要部署一个分布式的HBase数据库,需要各个组件的协作,HBase通过Zookeeper进行分布式应用管理,Zookeeper相当于管理员,HBase将数据存储在HDFS(分布式文件系统)中,通过HDFS存储数据,所以我们搭建分布式的HBase数据库的整体思路也在这里,即将各个服务进行整合。
接下来,我们就一起来搭建一个伪分布式的HBase。
配置与启动伪分布式HBase
如果你已经完成了单节点HBase的安装,那伪分布式的配置对你来说应该很简单了,只需要修改hbase-site.xml文件即可:
vim /app/hbase-2.1.1/conf/hbase-site.xml
在这里主要有两项配置:
1.开启HBase的分布式运行模式,配置hbase.cluster.distributed为true代表开启HBase的分布式运行模式:
<property>
<name>hbase.cluster.distributed</name>
<value>true<