hbase
xiewenbo
互联网广告行业呆过几年,旅游公司呆过几年,对机器学习,自然语言处理,图像识别,个性化推荐 有兴趣
展开
-
HBase性能优化的四个要点
1 hbase.hregion.max.filesize应该设置多少合适默认值:256M说明:Maximum HStoreFile size. If any one of a column families' HStoreFiles has grown to exceed this value, the hosting HRegion is split in two.HSt转载 2014-05-06 17:43:15 · 644 阅读 · 0 评论 -
总结一下HBase各种级别的锁以及对读写的阻塞
为了保证并发操作时数据的一致性和性能,HBase中应用了各种各样高效的可重入锁,包括行级别的rowlock、mvcc,region级别的读写锁,store级别的读写锁,memstore级别的读写锁等等。1、 行级别的锁RowLockHBase中为了解决行级别在并发操作中的一致性问题,采用了Rowlock机制。保证只有同一个线程同时对该行做操作。当然rowlock有lease租约的转载 2014-06-09 17:16:32 · 616 阅读 · 0 评论 -
用hbase(0.92版本以上)的协处理器实现快速返回查询结果总数
refer to :http://blog.csdn.net/liuxingjiaofu/article/details/8501344在0.92版本的hbase上添加了协处理器的功能,协处理器分为两大部分 endpoint和observer.observer相当于一个钩子的作用,根据钩子运行的模块来划分,又分成三个RegionObserver:用这个做数据操纵事件,其紧密转载 2014-06-09 10:31:44 · 955 阅读 · 0 评论 -
HBase行数统计
分布式数据库HBase本身不支持SQL语法,要统计表的行数,只能通过其他的方式来实现。HBase的shell脚本提供了count命令,但该命令只是简单地scan全表然后将行数累加,效率很低只能用于测试或者统计小表了。另一解决方案是使用MapReduce,HBase自身提供了org.apache.hadoop.hbase.mapreduce.RowCounter类,可以方便地在命令行调用进行统计,但转载 2014-06-09 10:32:24 · 4088 阅读 · 0 评论 -
关于HBase MVCC的设计原理以及MVCC所引起的一个scan问题
最近在使用HBase0.94版本的时,偶尔会出现,HRegionInfo was null or empty in Meta 的警告java.io.IOException: HRegionInfo was null or empty in Meta for writetest, row=lot_let,9399239430349923234234,99999999999999at or转载 2014-06-09 17:16:08 · 687 阅读 · 0 评论 -
hbase之宽表与窄表对split的影响
hbase的hbase.hregion.max.filesize属性值用来指定region分割的阀值, 该值默认为268435456(256MB), 当一个列族文件大小超过该值时,将会分裂成两个region。 hbase的列可以有很多,设计时有两种方式可选择, 宽表(一行有很多列)和窄表如有一个存储用户邮件的表按宽表设计时,可以表示成(一个用户的所有邮件存成一行)useri转载 2014-04-28 16:04:21 · 742 阅读 · 0 评论 -
hbase 表设计
因为一直在做hbase的应用层面的开发,所以体会的比较深的一点是hbase的表结构设计会对系统的性能以及开销上造成很大的区别,本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp几个方面进行一些分析。最后结合分析如何设计一种适合应用的高效表结构。 1、表的属性 (1)最大版本数:通常是3,如果对于更新比较频繁的应转载 2014-04-28 15:28:55 · 464 阅读 · 0 评论 -
hdfs 上 hbase目录下的文件组织格式
根目录文件(Root-level files)第一部分文件是被Hlog处理的write-ahead日志文件,这些日志文件被保存在HBase根目录下的.logs文件夹。.logs目录下面为每一个HRegionServer单独创建一个文件夹,每一个文件夹下有几个HLog文件(因为log rotation)。每一个HRegionServer的所有region都共享一个HLog文件。当一个转载 2014-04-28 13:51:55 · 1231 阅读 · 0 评论 -
创建Hive/hbase相关联的表异常
FAILED: Error in metadata: java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive.serde2.SerDeException org.apache.hadoop.hive.hbase.HBaseSerDe: columns has 3 elements while hbase.columns.mapping has 4 elements (counting the key if implic原创 2014-04-28 10:58:12 · 5408 阅读 · 0 评论 -
HBase技术介绍
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来转载 2014-04-26 20:20:20 · 397 阅读 · 0 评论 -
Hbase系统架构及数据结构
HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase以表的形式存储数据。表有行和列组成。列划分为转载 2014-04-26 21:40:40 · 617 阅读 · 0 评论 -
利用mapreduce批量读写hbase数据
代码示例:利用mapreduce批量读写hbase数据原创 2014-04-06 22:02:45 · 3605 阅读 · 1 评论 -
利用Arena Allocation避免HBase触发Full GC
refer to : http://kenwublog.com/avoid-full-gc-in-hbase-using-arena-allocationArena Allocation,是一种GC优化技术,它可以有效地减少因内存碎片导致的Full GC,从而提高系统的整体性能。本文介绍Arena Allocation的原理及其在Hbase中的应用-MSLAB。背景假设有1转载 2014-05-07 11:26:34 · 455 阅读 · 0 评论 -
HBase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonSe转载 2014-05-07 10:39:55 · 429 阅读 · 0 评论 -
HBase如何合理设置客户端Write Buffer
网址: http://www.cnblogs.com/panfeng412/archive/2012/10/16/how-to-use-hbase-client-write-buffer.htmlHBase客户端API提供了Write Buffer的方式,即批量提交一批Put对象到HBase服务端。本文将结合HBase相关源码,对其进行深入介绍,分析如何在实际项目中合理设置和使用它。1.转载 2014-05-07 14:07:50 · 430 阅读 · 0 评论 -
mapreduce 操作 hbase
最近在写基于hbase的MR程序。总结如下: 1、使用TableMapper来读取表 2、写入表的第一种方式是用TableMapReduceUtil.initTableReducerJob的方法,这里既可以在map阶段输出,也能在reduce阶段输出。区别是Reduce的class设置为null或者实际的reduce 以下是一个表copy的例子:转载 2014-04-06 20:51:20 · 623 阅读 · 0 评论 -
Hbase编程入门之MapReduce
refer to: http://blog.csdn.net/darke1014/article/details/8665484Tips:如果用Eclipse开发,需要加入hadoop所有的jar包以及HBase三个jar包(hbase,zooKooper,protobuf-java)。下面介绍一下,用mapreduce怎样操作HBase,主要对HBase中的数据进行读取。转载 2014-04-06 20:54:31 · 1005 阅读 · 0 评论 -
基于HBASE的并行计算架构之rowkey设计篇
转自:http://blog.51cto.com/xdataopen/11178641.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,统计数据...转载 2019-02-19 19:01:37 · 153 阅读 · 0 评论