HBase
yydcj
爱好体育运动、喜欢看书
展开
-
HBase Configuration过程
HBase客户端API中,我们看到对HBase的任何操作都需要首先创建HBaseConfiguration类的实例。为HBaseConfiguration类继承自Configuration类,而Configuration类属于Hadoop核心包中实现的类,该类的主要作用是提供对配置参数的访问途径。 Configuration类中的配置参数都是来自于Hadoop的配置文件中,而这转载 2013-04-02 17:13:41 · 4703 阅读 · 1 评论 -
Hbase的架构和实现原理
一、架构思路 Hbase是基于Hadoop的项目,所以一般情况下我们使用的直接就是HDFS文件系统,这里我们不深谈HDFS如何构造其分布式的文件系统,只需要知道虽然Hbase中有多个RegionServer的概念,并不意味着数据是持久化在RegionServer上的,事实上,RegionServer是调度者,管理Regions,但是数据是持久化在HDFS上的。明确这一点,在后面的讨论转载 2013-03-28 09:16:39 · 681 阅读 · 0 评论 -
对提高hbase写性能的一些思考
以下为使用hbase一段时间的三个思考,由于在内存充足的情况下hbase能提供比较满意的读性能,因此写性能是思考的重点。希望读者提出不同意见讨论 1 autoflush=false的影响 无论是官方还是很多blog都提倡为了提高hbase的写入速度而在应用代码中设置autoflush=false,然后lz认为在在线应用中应该谨慎进行该设置。原因如下:转载 2013-03-28 09:17:27 · 520 阅读 · 0 评论 -
Hbase高级模块:Filter、Counter、Coprocessor、HTablePool
上一篇介绍了Hbase在操作数据中的基本的API,包括增删查。增删都是相对简单的操作,与传统的RDBMS相比,这里的查询操作略显苍白,只能根据特定的主键查询(Get)或者根据主键的一个范围来查询(Scan)。Hbase提供了更加高级的过滤器来查询,当然还有另外一些高级的模块,我们将在这一篇里看到。一、过滤器(Filter) 基础API中的查询操作在面对大量数据的时转载 2013-03-28 09:13:50 · 1304 阅读 · 0 评论 -
Hbase 基础客户端API
一、环境 在Hadoop上快速搭建Hbase环境非常简单,下载软件包解压以后写好配置文件就可以直接运行了,不多作叙述。 二、基础客户端API1、Bytes类 Hbase中所有的值都是以字节数组的形式存在的,所以在使用客户端API和Hbase交互的过程中难免会经常的要操作字节数组,这里Hbase提供了一个工具类,Bytes类。其中有很多的静态方法可以方转载 2013-03-28 09:11:27 · 846 阅读 · 0 评论 -
Hadoop HBase 配置 安装 Snappy 终极教程
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://shitouer.cn/2013/01/hadoop-hbase-snappy-setup-final-tutorial/ 因为产品需要,这两天研究了一下Hadoop Snappy。先不说什么各个压缩算法之间的性能对比,单是这个安装过程,就很痛苦。网上有很多博友写H转载 2013-04-10 19:58:33 · 1388 阅读 · 2 评论 -
Hbase 管理模块
上一篇我们介绍了对Hbase中数据的一些高级的操作,至此,我们可以很好的管理和操作Hbase的数据了,这一篇将主要介绍Hbase提供的管理(Administrative)模块,可以让我们完成类似RDBMS中的DDL操作,即,表定义、管理表结构、管理集群状态等。下面介绍的API都出自HBaseAdmin对象。一、表定义 在Hbase的API中,代表一个表结构的类叫HTableD转载 2013-03-28 09:15:51 · 693 阅读 · 0 评论 -
B-树和B+树的应用:数据搜索和数据库索引
B-树1 .B-树定义B-树是一种平衡的多路查找树,它在文件系统中很有用。定义:一棵m 阶的B-树,或者为空树,或为满足下列特性的m 叉树:⑴树中每个结点至多有m 棵子树;⑵若根结点不是叶子结点,则至少有两棵子树;⑶除根结点之外的所有非终端结点至少有[m/2] 棵子树;⑷所有的非终端结点中包含以下信息数据: (n,A0,K1,A转载 2013-03-28 09:45:49 · 666 阅读 · 0 评论 -
HBase性能深度分析
HBase作为BigTable的一个开源实现,随着其应用的普及,用户对它的性能数据愈发关注。本文将为您揭开HBase性能测试的一角,邀您一起参与到对云计算模块性能调优的深度思考中。对于BigTable类型的分布式数据库应用来说,用户往往会对其性能状况有极大的兴趣,这其中又对实时数据插入性能更为关注。HBase作为BigTable的一个实现,在这方面的性能会如何呢?这就需要通过测试数据来说话了。转载 2013-01-10 12:39:54 · 573 阅读 · 0 评论 -
HBASE rowkey设计
1.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,统计数据也有时间属性,统计数据如果进行保存必须保证在统计计算之后数据尽量不再变化,如果统计发转载 2013-03-25 20:21:32 · 1716 阅读 · 0 评论 -
hbase三维(rowkey、olumn key、timestamp)设计
hbase所谓的三维存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)先说rowkey,我们知道rowkey是行的主键,而且hbase只能用个rowkey,或者一个rowkey范围即scan来查找数据。所以rowkey的设计是至关重要的,关系到你应用层的查询效率。我们知道,rowkey是以字典顺序排序的转载 2013-04-08 14:34:47 · 3268 阅读 · 0 评论 -
HBase Java客户端编程
本文以HBase 0.90.2为例,介绍如何在Windows系统,Eclipse IDE集成环境下,使用Java语言,进行HBase客户端编程,包含建立表、删除表、插入记录、删除记录、各种方式下的查询操作等。1. 准备工作1、下载后安装jdk包(这里使用的是jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008);2、下载eclips转载 2013-04-02 17:15:44 · 613 阅读 · 0 评论 -
HTable和HTablePool使用注意事项
HTable和HTablePool都是HBase客户端API的一部分,可以使用它们对HBase表进行CRUD操作。下面结合在项目中的应用情况,对二者使用过程中的注意事项做一下概括总结。HTableHTable是HBase客户端与HBase服务端通讯的Java API对象,客户端可以通过HTable对象与服务端进行CRUD操作(增删改查)。它的创建很简单:Configurat转载 2013-05-08 21:06:43 · 857 阅读 · 0 评论