HBase部分
文章平均质量分 67
道法—自然
不积跬步,无以至千里;不积小流,无以成江海。——荀子
展开
-
HBASE中column family的设计,rowkey的设计,以及row key的设计原则问题
一、Hbase中的每条记录的结构Hbase的表组成:一个表可以理解成是行的集合,行(记录)是列族的集合,列族是列的集合。(1) 列族column family:它是column的集合,在创建表的时候就指定,不能频繁修改。值得注意的是,列族的数量越少越好,因为过多的列族相互之间会影响,生产环境中的列族一般是一个到两个。数据的持久化文件HFile中是按照Key-Value存储的,同一个列族...原创 2018-09-07 23:57:28 · 5870 阅读 · 0 评论 -
完全分布式HBASE的安装
node1 node2 node3 node4namenode 1 1datanode 1 1 1zk 1 1 1hmaster 1 1hregionserver 1 ...原创 2019-01-13 22:31:14 · 267 阅读 · 0 评论 -
HBASE环境变量的搭建(单节点)
首先上传解压:tar -zxvf配置环境变量:1.[root@node11 conf]# vi hbase-site.xml添加:export JAVA_HOME=/root/soft/jdk1.8.0_1912.在HBASE-site.xml里添加:<configuration><property><name>hbase.ro...原创 2019-01-13 17:12:06 · 1227 阅读 · 0 评论 -
habase学习
数据库:mysql ,oracle,mongdb,neo4j列的存贮,效率会更快一些。非结构化:MySQL数据库半结构化 :rowkey:行键、主键在HBASE中只有delete,没有update,select,delete。取数据的时候只能通过rowkey去查询。row key设计的时候,越短越好。colume family,和colume列族和列...原创 2019-01-13 16:03:43 · 796 阅读 · 0 评论 -
HBASE和关系型数据库的区别
原创 2018-12-02 23:58:06 · 2272 阅读 · 0 评论 -
HBASE的优化
一.前述HBase优化能够让我们对调优有一定的理解,当然企业并不是所有的优化全都用,优化还要根据业务具体实施。二.具体优化1.表的设计 1.1 预分区 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一...原创 2018-12-02 23:30:25 · 276 阅读 · 0 评论 -
hbase的体系架构分析
client:包含访问HBASE的接口并维护cache来加快对HBASE的访问。zookeeper:1、保证集群中只有一个工作状态的master2、存储所有region的寻址入口3、监控集群中的regionserver,如果有regionserver上线,会通知hmaster4、存储HBASE中的schema及table的元数据 hmaster:1、向regions...原创 2018-12-02 18:25:30 · 178 阅读 · 0 评论 -
Sqool和Hive、HBase简介
Sqool和Hive、HBase简介SqoopSqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的开源工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Hive不想用程序语言开发MapReduce的朋友比如DB们,熟悉SQL的朋友可以使用Hive开离线...原创 2018-12-02 16:24:05 · 335 阅读 · 0 评论 -
Hive、Hbase、mysql区别
Hive和HBase的区别Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉...原创 2018-12-02 16:18:10 · 199 阅读 · 0 评论 -
HBASE中rowkey的设计原则
Rowkey 设计三原则 1、 rowkey 长度原则 Rowkey 是一个二进制码流,Rowkey 的长度被很多开发者建议说设计在 10~100 个字节,不 过建议是越短越好,不要超过 16 个字节。 原因如下: 1、数据的持久化文件 HFile 中是按照 KeyValue 存储的,如果 Rowkey 过长比如 100 个字 节,1000 万列数据光 Rowkey ...原创 2018-11-25 23:18:31 · 341 阅读 · 0 评论 -
HBASE学习要点
几个需要刷新的数据库:在MySQL中,如果是Linux系统的模式,就涉及到刷新操作在Redis内存数据库中,如果删除数据,也是需要进行刷新操作的在HBASE数据库中,如果是创建表,并且添加数据,也是需要进行刷新的,只有进行刷新操作之后,数据才会被刷新到磁盘上。HBASE中涉及到zookeeper,因此在创建于配置中,就涉及到zookeeper的配置在HBASe中想查看整个表的数...原创 2018-11-25 23:11:54 · 131 阅读 · 0 评论 -
HBASE中的列及列族
在hive中,数据的存储是按照列的形式存储的。hive中的列分为列族和列的限定符。在hive中,列族必须作为表的模式预先给出。列名可以以列族作为前缀,每个列族可以有多个成员。新的成员可以随后按照需要动态加入。HBASE中的单元格: HBASE中的单元格是由行,列族,列的限定符,值和代表值版本的时间戳组成的。cell中的数据是没有类型的,全部是按照字节码的形式存储的。时间戳:...原创 2018-11-25 21:27:29 · 30688 阅读 · 2 评论 -
HBASE的优化部分:HBASE读取表的优化
3.1 多HTable并发读创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子:static final Configuration conf = HBaseConfiguration.create(); static final String table_log_name = “user_log”; rTableLog = new HTable[tableN]; ...原创 2018-09-08 15:03:46 · 399 阅读 · 0 评论 -
HBase的优化:HBASE创建表的优化
1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。...原创 2018-09-08 14:55:26 · 1329 阅读 · 0 评论 -
Hbase部分的优化:HBASE写表的优化
2.1 多HTable并发写创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子:static final Configuration conf = HBaseConfiguration.create(); static final String table_log_name = “user_log”; wTableLog = new HTable[tableN]; ...原创 2018-09-07 23:57:59 · 230 阅读 · 0 评论 -
HBase的优化部分:HBase创建表的优化
1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。...原创 2018-09-07 23:57:46 · 290 阅读 · 0 评论 -
hbase完全分布式的搭建(待验证)
3.2、集群部署集群部署需要ZooKeeper和HDFS的支持,所以需要先启动这2个服务。将Hbase部署到node01、node02、node03节点。 startzk.sh start-dfs.sh [root@node01 zookeeper]# jps 5424 DataNode 5638 Jps 5287 NameNode...原创 2019-01-14 09:46:28 · 160 阅读 · 0 评论