HBase安装配置及测试

本文详细介绍了HBase的背景、特点、应用场景、与RDBMS、HDFS和Hive的对比,以及HBase集群的搭建过程,包括下载安装、配置环境变量、启动流程,并提及了HBase的数据模型和相关术语。
摘要由CSDN通过智能技术生成

一、HBase简介

(一)Hadoop

  1. 核心
    HDFS分布式存储、MapReduce分布式计算、Yarn资源调度和管理
  2. 局限性
    批量处理(MR)、顺序访问数据(HDFS)
    查找数据是必须搜索整个数据集,效率很低

(二)HBase

在这里插入图片描述

  1. HBase是BigTable的开源java版本,建立在hdfs之上,分布式、列存储、支持实时读写、nosql(k-v)的数据库
  2. 结构:主键(rowKey)、timestamp(时间戳)、column family(列簇)和column(列)
  3. HBase仅能通过主键(rowkey)和主键的范围(range)检索数据
  4. 可以存储结构化和半结构化的数据
  5. HBase中所有的数据用字节数组byte[]来进行存储
  6. 可以横向扩展,可以不断的增加服务器来提高存储能力,从而实现海量存储
  7. 数据量很大,可以有十几亿行,几百万列
  8. 面向列存储
  9. 稀疏存储(稀疏矩阵:非零元素很少的矩阵,利用三元组(行,列,值)存储非零元素,0元素不存储)

(三)HBase的应用场景

  1. 对象存储(oss)
    新闻、网页、图片、视频等,例如阿里云oss
  2. 时序数据
    每个数据都带有时间戳叫做时序数据,比如记录传感器的数据
  3. 推荐画像
    用户画像的数据其实就是一个比较大的稀疏矩阵,比如蚂蚁金服的风控系统
  4. Olap
    在线联机分析系统
    注:oltp(在线事务分析系统,建立在关系数据库之上的,支持回滚)
  5. Feeds流
    典型的应用就是微信朋友圈类似的应用,发布新内容,对新内容进行点赞评论
  6. 爬虫数据的存储

(四)HBase的特点

  1. 强一致性读/写
    CAP原则
    在这里插入图片描述

  2. 自动分块
    通过Region分布在集群上

  3. 自动故障转移

  4. Hadoop/HDFS集成

  5. MapReduce

  6. Java API

(五)HBase的发展过程

在这里插入图片描述

(六)RDBMS和HBase的比较

  1. RDBMS
  • RDBMS(关系数据库管理系统,mysql、sqlserver、Oracle)
  • 数据库以表的形式独立存在
  • 支持FAT(dos)、NTFS(windows)、NXT(linux)
  • 主键(primary
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值