Hbase
文章平均质量分 72
_WeiA
重生之我在广东做程序猿
展开
-
Hbase_HBase整合hue
标题1.修改hue.ini2.启动hbase的thrift server服务3.启动hue4.第四步:1.修改hue.inicd /export/servers/hue-3.9.0-cdh5.14.0/desktop/confvim hue.ini[hbase] hbase_clusters=(Cluster|node01:9090) hbase_conf_dir=/export/servers/hbase-1.2.0-cdh5.14.0/conf2.启动hbase的thrift se原创 2021-02-26 18:17:54 · 168 阅读 · 0 评论 -
Hbase_Hbase中二级索引的基本介绍以及协处理器
标题二级索引的基本介绍协处理器1.出现2.协处理器有两种: observer 和 endpoint3.协处理器加载方式4.协处理器Observer应用实战二级索引的基本介绍出现原因:由于HBase的查询比较弱,如果需要实现类似于 select name,salary,count(1),max(salary) from user group by name,salary order by salary 等这样的复杂性的统计需求,基本上不可能,或者说比较困难,所以我们在使用HBase的时候,原创 2021-02-26 18:04:07 · 275 阅读 · 0 评论 -
Hbase_HBase的rowKey设计技巧
标题1.Hbase里的查询规则2.rowkey长度原则3.rowkey散列原则4.rowkey唯一原则5.热点问题6.设计原则1.Hbase里的查询规则HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:1. 通过get方式,指定rowkey获取唯一一条记录2.原创 2021-02-26 12:09:36 · 251 阅读 · 0 评论 -
Hbase_预分区
标题1.为何要预分区?2.如何预分区?3.设定预分区的方式1.为何要预分区?1、增加数据读写效率2、负载均衡,防止数据倾斜3、方便集群容灾调度region4、优化Map数量2.如何预分区?每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。3.设定预分区的方式官方文档:http://abloz.com/hbase/book.html#ops.regionmgt1、手动指定预分区h原创 2021-02-26 11:30:38 · 128 阅读 · 0 评论 -
Hbase_Sqoop整合HBase
标题修改sqoop配置文件1.需求一:将mysql表当中的数据导入到HBase当中来2. 需求二:将HBase当中的数据导出到mysql当中来sqoop是一个数据导入导出的工具,可以将关系型数据库当中的数据导入到大数据平台来,也可以将大数据平台当中的数据导入到关系型数据库当中去我们也可以通过sqoop导入数据到hbase或者从hbase当中导出数据修改sqoop配置文件修改sqoop的配置文件sqoop-env.shcd /export/servers/sqoop-1.4.6-cdh5.14.0原创 2021-02-25 17:28:58 · 136 阅读 · 0 评论 -
Hbase_Hbase与hive整合
标题hbase与hive的对比hive与HBase的整合1.步骤2.案例一:将hive分析结果的数据,保存到HBase当中去3.案例二:创建hive外部表,映射HBase当中已有的表模型hbase与hive的对比HiveHBase数据仓库数据库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。是一种面向列存储的非关系型数据库。用于数据分析、清洗用于存储结构化和非结构话的数据基于HDFS、MapRe原创 2021-02-25 15:18:41 · 327 阅读 · 0 评论 -
Hbase_使用mapreduce读取hdfs上的文件到hbase
标题1.准备2.导入依赖3.编写mr代码1.准备文件路径:hdfs:/hbase/input/user.txt文件格式字段间以 \t 相隔0007 zhangsan 180008 lisi 250009 wangwu 202.导入依赖<repositories> <repository> <id>cloudera</id> <ur原创 2021-02-25 12:15:20 · 331 阅读 · 0 评论 -
Hbase_三个重要机制
1、flush机制当MemStore达到阈值,将Memstore中的数据Flush进Storefile涉及属性:hbase.hregion.memstore.flush.size:134217728即:128M就是Memstore的默认阈值hbase.regionserver.global.memstore.upperLimit:0.4即:这个参数的作用是当单个HRegion内所有的Memstore大小总和超过指定值时,flush该HRegion的所有memstore。RegionServer的原创 2021-02-24 21:08:40 · 185 阅读 · 0 评论 -
Hbase_Hbase的读写流程&Region管理&Master工作机制
标题1.读写过程4.2.Region管理3.Master工作机制1.读写过程1、读请求过程:HRegionServer保存着meta表以及表数据,要访问表数据,首先Client先去访问zookeeper,从zookeeper里面获取meta表所在的位置信息,即找到这个meta表在哪个HRegionServer上保存着。接着Client通过刚才获取到的HRegionServer的IP来访问Meta表所在的HRegionServer,从而读取到Meta,进而获取到Meta表中存放的元数据。Clien原创 2021-02-24 21:02:23 · 272 阅读 · 0 评论 -
Hbase_java实现过滤器查询
标题1.简述2.比较过滤器3.专用过滤器4. 多过滤器综合查询FilterList1.简述分类: 比较过滤器,专用过滤器作用: 在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端hbase过滤器的比较运算符:LESS <LESS_OR_EQUAL <=EQUAL =NOT_EQUAL <>GREATER_OR_EQUAL >=GREATER >NO_OP 排除所有Hbase过滤器的比较器(指定比较机制):BinaryCompa原创 2021-02-24 19:01:23 · 649 阅读 · 0 评论 -
Hbase_Hbase的javaAPI操作
标题1.创建maven工程,导入jar包2.创建表3.向表中添加数据4.查询数据4.1数据初始化4.2 按照rowkey进行查询获取所有列的值4.3 按照rowkey查询指定列族下面的指定列的值4.4 通过startRowKey和endRowKey进行扫描4.5 通过scan进行全表扫描4.6 根据rowkey删除数据4.7 删除表操作4.8 通过过滤器查找1.创建maven工程,导入jar包<repositories> <repository>原创 2021-02-24 17:01:24 · 232 阅读 · 0 评论 -
Hbase_Hbase表结构详细介绍及常用的shell操作
标题Hbase的表模型Shell操作1.进入客户端2.查看表3.创建表4.添加表数据5.查询数据6.更新数据7.删除表数据8.删除表操作9.shell管理命令Hbase的表模型官方介绍:http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rackcdn.com/9353-login1210_khurana.pdf示图:Row Key:与nosql数据库们一样,row key是用来检索记录的主键。访问hbase原创 2021-02-24 15:02:16 · 675 阅读 · 0 评论 -
Hbase_Hbase集群环境搭建
标题1.下载HBase的安装包2.压缩包上传并解压3.修改配置文件4.安装包分发到其他机器5.三台机器创建软连接6.三台机器添加HBASE_HOME的环境变量7.HBase集群启动8.页面访问1.下载HBase的安装包HBase对应的版本下载地址如下http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz2.压缩包上传并解压将我们的压缩包上传到node01服务器的/export/softwares路径下并解压cd原创 2021-02-23 22:51:21 · 71 阅读 · 0 评论 -
Hbase_Hbase的架构初识
标题1.架构图1.架构图 HMaster:主节点,1)监控RegionServer2) 处理RegionServer故障转移3) 处理元数据的变更4) 处理region的分配或移除5) 在空闲时间进行数据的负载均衡6) 通过Zookeeper发布自己的位置给客户端RegionServer功能:从节点1)负责存储HBase的实际数据2) 处理分配给它的Region3) 刷新缓存到HDFS4) 维护HLog5) 执行压缩6) 负责处理Region分片RegionServe原创 2021-02-23 21:02:16 · 153 阅读 · 1 评论 -
Hbase_HBase基本介绍
标题1.简介2.HBase与Hadoop的关系3.RDBMS与HBase的对比4.HBase特征简要1.简介 1、hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key) 和 主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。2、主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单,不支持j原创 2021-02-23 13:56:34 · 501 阅读 · 0 评论