hbase bigtable 安装

最新推荐文章于 2024-06-20 13:06:51 发布

zengxianglei

最新推荐文章于 2024-06-20 13:06:51 发布

阅读量814

点赞数

分类专栏： hbase 文章标签： hbase bigtable 安装

本文链接：https://blog.csdn.net/zengxianglei/article/details/91389336

版权

本文详细介绍了HBase和BigTable的数据库模型，强调了它们的相似性，以及HBase的特性，如行键、列族、时间戳和版本管理。此外，还涵盖了HBase集群的搭建过程，包括配置HBase、启动Zookeeper和Hadoop，以及处理集群的高可用性。最后，文章提供了HBase命令行操作的实例，展示了如何创建表、插入数据、查询与删除数据，以及调整表结构等。

摘要由CSDN通过智能技术生成

hbase bigtable

1.1 hbase数据库介绍
1、简介
hbase是基于Google BigTable模型开发的，典型的key/value系统。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它是Apache Hadoop生态系统中的重要一员，主要用于海量结构化和半结构化数据存储。
它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。
Hbase查询数据功能很简单，不支持join等复杂操作，不支持复杂的事务（行级的事务）
与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

HBase中的表一般有这样的特点：
1.大：一个表可以有上十亿行，上百万列
2.无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；
3.面向列:面向列(族)的存储和权限控制，列(族)独立检索。
4.稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。
5.数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元6.插入时的时间戳
7.数据类型单一：Hbase中的数据都是字节数组 byte[]。

2.HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(column family)

3、Row Key
与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式：
1 通过单个row key访问（select * from t1 where id=1）
2 通过row key的range （select * from t1 where id<10 and id >1）
3 全表扫描（select * from t1 ）
Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key保存为字节数组。
Hbase会对表中的数据按照rowkey排序(字典顺序)
存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)

注意：
字典序对int排序的结果是
1,10,1001,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序，行键必须用0作右填充。
行的一次读写是原子操作 (不论一次读写多少列)。这个设计决策能够使用户很容易的理解程序在对同一个行进行并发更新操作时的行为。

4、列族
hbase表中的每个列，都归属与某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。
列名都以列族作为前缀。例如courses:history ， courses:math 都属于 courses 这个列族。

访问控制、磁盘和内存的使用统计都是在列族层面进行的。
列族越多，在取一行数据时所要参与IO、搜寻的文件就越多，所以，如果没有必要，不要设置太多的列族。一般设置2-3个比较合理。

5、时间戳
HBase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，hbase提供了两种数据
版本回收方式：
1.保存数据的最后n个版本
2.保存最近一段时间内的版本（设置数据的生命周期TTL）。
用户可以针对每个列族进行设置。
版本：HBase中的数据有版本的概念，每次生成或修改数据时都保存一个版本信息——这个版本数据就是一个时间戳，可以再定义表时动态设置保存行的版本数量，默认版本数为1，同一行的不同版本的数据是按时间戳倒叙排列的，而其他数据如rowkey和列标识是按字典顺序排列的，这也是读数据操作的一种优化手段。对于某一行，当保存的行的版本数大于设置的值后，最老的版本的数据行就会在执行Major compaction时被删除掉。版本数据是默认添加的，其值时保存数据时的时间戳，long型(长整型)。而系型数据库的表没有此概念。
6、Cell
由{row key, column( = + ), version} 唯一确定的单元。
cell中的数据是没有类型的，全部是字节码形式存贮。

1.2 hbase集群结构

在这里插入图片描述

Hbase基本组件说明：
Client：
包含访问Hbase的接口，并维护cache来加快对Hbase的访问，比如region的位置信息。
HMaster：
是hbase集群的主节点，可以配置多个，用来实现HA
为RegionServer分配region
负责RegionServer的负载均衡
发现失效的RegionServer并重新分配其上的region

RegionServer：
Regionserver维护region，处理对这些region的IO请求
Regionserver负责切分在运行过程中变得过大的region

Region:
分布式存储的最小单元。

Zookeeper作用:
通过选举，保证任何时候，集群中只有一个活着的HMaster，HMaster与RegionServers 启动时会向ZooKeeper注册
存贮所有Region的寻址入口
实时监控Region server的上线和下线信息。并实时通知给HMaster
存储HBase的schema和table元数据

Zookeeper的引入使得HMaster不再是单点故障

1.3 hbase集群搭建
----先部署一个zookeeper和hadoop集群
（1）上传hbase安装包
（2）解压
（3）配置hbase集群，要修改4个文件
注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下
（3.1）修改hbase-env.sh
export JAVA_HOME=/export/servers/jdk
//告诉hbase使用外部的zk
export HBASE_MANAGES_ZK=false
（3.2）修改 hbase-site.xml

<configuration>
		<!-- 指定hbase在HDFS上存储的路径 -->
        <property>
                <name>hbase.rootdir</name>
                <value>hdfs://node1:9000/hbase</value>
        </property>
		<!-- 指定hbase是分布式的 -->
        <property>
                <name>hbase.cluster.distributed</name>
                <value>true</value>
        </property>
		<!-- 指定zk的地址，多个用“,”分割 -->
        <property>
                <name>hbase.zookeeper.quorum</name>
                <value>node1:2181,node2:2181,node3:2181</value>
        </property>
	</configuration>

（3.3）修改 regionservers文件
note2
note3
(3.4) 修改 backup-masters来指定备用的主节点
vi backup-masters
node2
(3.5) 配置hbase环境变量
vi /etc/profile
export HBASE_HOME=/export/servers/hbase
Export PATH= $P A T H :$ HBASE_HOME/bin
(3.6) 拷贝hbase和环境变量到其他节点
scp -r hbase note2: $P W D s c p - r h b a s e n o t e 3 :$ PWD
scp /etc/profile note2:/etc
scp /etc/profile note3:/etc
(3.7) 让所有节点hbase环境变量生效
在所有节点上执行：source /etc/profile
(4) 将配置好的HBase拷贝到每一个节点并同步时间。
ntpdate -u cn.pool.ntp.org
(5) 启动所有的hbase进程
首先启动zk集群
./zkServer.sh start
启动hdfs集群
start-dfs.sh
启动hbase，在主节点node1上运行：
start-hbase.sh
(6) 通过浏览器访问hbase管理页面
note1:16010
note2:16010
( 7) 为保证集群的可靠性，要启动多个HMaster
hbase-daemon.sh start master

注意：使用jdk8的时候，出现了Java HotSpot™ 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0的红色标识。字面意思是MaxPermSize不需要我们配置了，所以我就按照它的方法把default VM arguments中MaxPermSize参数给删掉就不会出现上面的提示了。

在这里插入图片描述
1.4 命令行演示
./hbase shell
首先简单图形举例：
如：表
此表有两个列族，CF1和CF2，其中CF1和CF2下分别有两个列name和gender，Chinese和Math
如何创建这张表及添加数据：

1.创建表：create ‘hbase_1102’, {NAME=>‘cf1’}, {NAME=>‘cf2’}
２.向表中添加数据，在想HBase的表中添加数据的时候，只能一列一列的添加，不能同时添加多列
put’hbase_1102’, ‘001’,‘cf1:name’,‘Tom’
put’hbase_1102’, ‘001’,‘cf1:gender’,‘man’
put’hbase_1102’, ‘001’,‘cf2:chinese’,‘90’
put’hbase_1102’, ‘001’,‘cf2:math’,‘91’
如果列族下没有子列，加不加冒号都是可以的。
如果在添加数据的时候，需要手动的设置时间戳，则在put命令的最后加上相应的时间戳，时间戳是long类型的，所以不需要加引号
如：put’hbase_1102’, ‘001’,‘cf2:math’,‘91’，1478053832459
３.查看表中的所有数据
scan ‘hbase_1102’　　【scan 表名】
数据如下：
ROW COLUMN+CELL
001 column=cf1:gender, timestamp=1478053832459, value=man
001 column=cf1:name, timestamp=1478053787178, value=Tom
001 column=cf2:chinese, timestamp=1478053848225, value=90001 column=cf2:math, timestamp=1478053858144, value=911 row(s) in0.0140seconds
４.查看其中某一个Key的数据
get’hbase_1102’,‘001’ 【get 表名 rowkey】
数据如下：
COLUMN CELL
cf1:gender timestamp=1478053832459, value=man
cf1:name timestamp=1478053787178, value=Tom
cf2:chinese timestamp=1478053848225, value=90
cf2:math timestamp=1478053858144, value=914 row(s) in0.0290seconds

1.4.1 基本shell命令
【创建表不成功原因：集群有问题
步骤：1.一键启动 zk (cd /export/onejian)
2.启动hadoop集群：./start-all.sh
3.启动hbase集群：./start-hbase.sh
4.为了hbase 集群高可用启动多个Hmaster 执行：
./hbase-daemon.sh start master
】
进入hbase命令行
./hbase shell

显示hbase中的表
list

创建user表，包含info、data两个列族
create ‘user’, ‘info’, ‘data’
或者
create ‘user’, {NAME => ‘info’, VERSIONS => ‘3’}，{NAME => ‘data’}

向user表中插入信息，row key为rk0001，列族info中添加name列标示符，值为zhangsan
put ‘user’, ‘rk0001’, ‘info:name’, ‘zhangsan’

向user表中插入信息，row key为rk0001，列族info中添加gender列标示符，值为female
put ‘user’, ‘rk0001’, ‘info:gender’, ‘female’

向user表中插入信息，row key为rk0001，列族info中添加age列