注意区分HBase与Hive之间的定义和区别

9 篇文章 0 订阅
2 篇文章 0 订阅

HBase
              官方定义:

                             Apache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储。

                         当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™,Apache HBase是一个开源的,分布式的,      版本化的非关系数据库,

Hive
             官方定义:

                             Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结                构 投 影到已存 储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。离线处理。
 

HBase相关概念:

HBase相关概念简介
---------------------------------------
    1.Configuration描述:
        HBase采用hadoop中的Configuration对象来加载配置文件信息;
    2.HMaster作用:
       a.监控集群中所有的regionserver;
       b.对元数据操作进行管理;
       c.通常情况下,HMaster和NameNode在一个节点上;
       d.管理regionserver的故障转移和region分区;
          表级操作:Table (createTable, modifyTable, removeTable, enable, disable)
	  列簇操作:ColumnFamily (addColumn, modifyColumn, removeColumn)
	  分区操作:Region (move, assign, unassign)
	  负载均衡:LoadBalancer
    3.RegionServer作用:
       a.负责服务和管理region;
       b.通常情况下,HRegionServer和DataNode在一个节点上;
       c.MemStore刷盘操作;
       d.WAL(Write-ahead-log):写前日志
          数据操作:Data (get, put, delete, next, etc.)
          分区操作:Region (splitRegion, compactRegion, etc.)
       e.minor和major
    4.MemStore说明:
       a.每一个region可能存在一个或多个MemStore,每个MemStore对应着当前表的当前区域的一个列簇;
       b.如果达到刷盘条件,写入到磁盘中:StoreFile(HFile)

Hive相关概念::
 

 1.  hive是数据仓库,在Hadoop基础上处理结构化数据;它驻留在hadoop之上,用户对数据的统计、查询和简单的分析操作;
 2.表模型存储在database(关系型)中,处理的数据存储在HDFS上;
 3.元数据 :hive选择独立的的数据库(MySQL)用于存储metadata,元数据包含:表的信息、databases信息、表的列信息、字段类型信息和HDFS mapping(映射);
 4. hive不是: 
        a.关系型数据库;
        b.OLTP
        c.实时查询和行级更新操作
5.存储格式多种,可支持Text,SequenceFile,ParquetFile,RCFILE等;
6.只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据;
7.Hive 中包含以下数据模型:DB--数据库、Table--表,External Table--外部表,Partition--分区,8.Bucket分桶;
9..db:是创建数据库的后缀,是HDFS在${hive.metastore.warehouse.dir}路径下的一个子目录;
10.tables:是hdfs下的.db目录下的一个文件夹;
11.external table:与table类似,不过其数据存放位置可以在任意指定路径
12.管理表:删除表后,都删除元数据和数据;
13.外部表:删除表后,只删除元年数据,不删除HDFS下的数据;
14.partition--分区:在hdfs中表现为table目录下的子目录;
15.bucket:在hdfs中表现为同一个表目录下根据hash散列之后的多个文件
16. hive分桶操作的效果:

         把一个文件按照某个特定的字段和桶数 散列成多个文件

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值