hbase
xiao_jun_0820
要自己每天都开心,不要烦恼
忘掉压力,天天好心情
展开
-
hive 访问hbase表
首先创建外部表:原创 2014-06-25 14:24:15 · 2504 阅读 · 0 评论 -
hbase 表数据迁移
1 CopyTable 工具用法:CopyTable is a utility that can copy part or of all of a table, either to the same cluster or another cluster. The target table must first exist. The usage is as follows:$ bin/h转载 2014-06-05 14:07:02 · 6986 阅读 · 0 评论 -
hbase配置文件同步
HDFS和Hbase配置同步hbase的配置中有一些和hdfs关联的配置,当hdfs中修改了,但是hbase中修改了,hbase中是不会知道的,比如dfs.replication,有时候我们想增加备份的数量,在hdfs中设置为5了,但是hbase中默认为3,这样hbase还是只保存3份。那么有什么方法可以使他们的配置文件同步,有三种方法:(1)在hbase-env.sh的H转载 2014-06-12 09:18:26 · 2132 阅读 · 0 评论 -
hbase 顺序序列rowkey设计
import org.apache.hadoop.hbase.util.Bytes;import org.apache.hadoop.hbase.util.MD5Hash;public class SequenceIdRowKeyHash { /** * @param args */ public static void main(String[] args) { // T原创 2014-06-12 14:38:05 · 5126 阅读 · 2 评论 -
ascii码表
ASCII Table and DescriptionASCII stands for American Standard Code for Information Interchange. Computers can only understand numbers, so an ASCII code is the numerical representation of a character原创 2014-04-24 15:47:50 · 759 阅读 · 0 评论 -
常用HBase启动脚本
常用到的HBase启动脚本有:1.$HBASE_HOME/bin/start-hbase.sh启动整个集群2.$HBASE_HOME/bin/stop-hbase.sh停止整个集群3.$HBASE_HOME/bin/hbase-daemons.sh启动或停止,所有的regionserver或zookeeper或backup-master4.$HB转载 2014-05-09 17:14:25 · 934 阅读 · 0 评论 -
protobuf 使用相关
google protobuf的介绍和使用官方地址为:https://developers.google.com/protocol-buffers/原创 2014-05-15 10:20:28 · 6755 阅读 · 1 评论 -
对hbaseadmin.balancer()的一些理解
今天测试用hbaseadmin.split手动对region进行拆分。原创 2014-06-05 17:26:55 · 3415 阅读 · 0 评论 -
华为的二级索引方案
这个是华为的二级索引方案,已经开放源代码了,下面是网上的一篇讲解原理的帖子,发出来和大家共享一下。经过本人认真阅读了一下代码,发现这个源码仅供参考,想要集成到原有的集群当中是有点儿难度的,它对hbase的源码进行不少的修改。源码地址:https://github.com/Huawei-Hadoop/hindex下面来对其方案做一个分析。1.整体架构这个架构在Client Ext中设定索引细节,在B转载 2014-06-12 15:59:01 · 3158 阅读 · 0 评论 -
如何查找和查看自定义coprocessor中打印的日志信息
比如查找自定义的RegionObserver cp,首先得知道哪些region会原创 2014-06-13 16:32:36 · 1190 阅读 · 0 评论 -
HBase Coprocessor 之 endpiont(hbase 0.96.0)
本文是基于hbase 0.96.0 测试的,理论上支持hbase 0.94 以上版本!!HBase有两种协处理器(Coprocessor)1、RegionObserver :类似于关系型数据库的触发器2、Endpoint:类似于关系型数据库的存储过程,本文将介绍此种Coprocessor.Endpoint 允许您定义自己的动态RPC协议,用于客户端与region s转载 2014-10-09 17:51:44 · 2182 阅读 · 2 评论 -
hbase0.96 AggregateImplementation和AggregationClient
不知道为什么,hbase0.96中只定义了一个AggregateService原创 2014-10-10 09:30:01 · 3281 阅读 · 0 评论 -
深入理解HBase Memstore
MemStore是HBase非常重要的组成部分,深入理解MemStore的运行机制、工作原理、相关配置,对HBase集群管理以及性能调优有非常重要的帮助。HBase Memstore首先通过简单介绍HBase的读写过程来理解一下MemStore到底是什么,在何处发挥作用,如何使用到以及为什么要用MemStore。图一:Memstore Usage in HBase Read/Wri转载 2014-05-22 13:42:23 · 4047 阅读 · 0 评论 -
HBase数据查询之Coprocessor
原文:http://lookqlp.iteye.com/blog/1993058二级索引方案 协处理器的概念、作用和类型不介绍,可以参看:http://www.cnblogs.com/ventlam/archive/2012/10/30/2747024.html,官方blog:https://blogs.apache.org/hbase/entry/coprocessor_int转载 2014-05-13 14:08:48 · 3341 阅读 · 0 评论 -
如何执行hbase 的mapreduce job
执行hbase mapreduce的两种方法:1 使用hadoop命令执行mapreduce job. 采用此方式需要修改hadoop-env.sh,将hbase相关的jar包加入到HADOOP_CLASSPATH中去,写法如下: export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/hbase-0.94.2-cdh4.2.原创 2014-06-05 16:10:02 · 5350 阅读 · 0 评论 -
hbase的CoprocessorProtocol及一个简单的通用扩展实现
原文:http://zhang-xzhi-xjtu.iteye.com/blog/1926732hbase中的CoprocessorProtocol机制. CoprocessorProtocol的原理比较简单,近似于一个mapreduce框架。由client将scan分解为面向多个region的请求,并行发送请求到多个region,然后client做一个reduce的操作,得到最后的结转载 2014-05-13 10:42:53 · 2616 阅读 · 2 评论 -
关于AggregationClient 除了rowCount以外的其他聚合函数抛空指针异常的解释
今天测试使用AggregationClient来统计最大最小年龄,结果返回原创 2014-05-13 17:38:08 · 3149 阅读 · 1 评论 -
MapReduce生成HFile入库到HBase
原文:http://shitouer.cn/2013/02/hbase-hfile-bulk-load/ 一、这种方式有很多的优点:1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。2. 它是利用hbase的数据信息按照特转载 2014-05-23 15:23:37 · 2768 阅读 · 0 评论 -
HBase hbck——检察HBase集群的一致性
HBase提供了hbck命令来检查各种不一致问题。hbck的名字仿效了HDFS的fsck命令,后者是一个用于检查HDFS中不一致问题的工具。下面这段非常易懂的介绍出自于hbck的源程序。 检查数据在Master及RegionServer的内存中状态与数据在HDFS中的状态之间的一致性。 HBase的hbck不仅能够检查不一致问题,而且还能够修复不一致问题。转载 2014-06-05 11:14:36 · 22880 阅读 · 0 评论 -
修改 hadoop 集群及hbase集群的pid文件存放位置
今天准备把hbase集群和hadoop集群停了做一些配置调整,结果运行stop-all.sh的时候无法停止集群,都提示no datanode,no namenode等等之类的信息,于是我翻看了一下stop-all.sh stop-dfs.sh,stop-yarn.sh脚本,发现原理都是通过一个pid文件来停止集群的。这些进程的pid文件默认都是保存在系统的/tmp目录下面,系统每个一段时间原创 2014-06-27 09:48:53 · 17967 阅读 · 1 评论 -
hbase merge regions
今天对一个表进行预分区然后导入数据原创 2014-05-09 17:20:29 · 4191 阅读 · 0 评论 -
org.apache.hadoop.hbase.coprocessor.AggregateImplementation 来统计表的行数
hbase自带了一个juhorg.apache.hadoop.hbase.coprocessor.AggregateImplementation原创 2014-05-09 17:32:48 · 6087 阅读 · 1 评论 -
hbase学习记录之scan
hbase学习记录之scan1.scan类似于一般数据库的游标(cursor),可以提供顺序的读。2.scan的结果集为[start,end),这个需要注意3.scan的setCaching设置的值为每次rpc的请求记录数,默认是1,应该设置的大一些,hbase的例子设置是500,该设置选项可以通过hbase的配置 hbase.client.scanner.caching转载 2014-06-12 09:46:52 · 1707 阅读 · 0 评论 -
导入tsv文件到hbase
1、将文件放到hdfshadoop fs -put ./hly.tsv /user/amy/input/2、使用如下命令importtsv 直接导入方式:hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=',' -Dimporttsv.columns=HBASE_原创 2014-06-27 13:53:27 · 3915 阅读 · 0 评论 -
hbase shell 预分区
使用HBase Shell建表的时候,除了一些常用的option以外,我们还可以同时建立一些预分区,这样可以预防初次插入数据时热点问题。通过直接输入create,我们可以看到有如下提示:?123456789101112Examples:转载 2014-04-24 16:12:16 · 8912 阅读 · 0 评论 -
hbase 自定义 endpoint coprocessor
hbase 自带的AggregationClient只能对单一列族的单一列进行原创 2014-05-27 22:15:26 · 4738 阅读 · 6 评论 -
hbase-0.96.x相对hbase-0.94.x的改变
环境:hadoop:hadoop-2.2.0hbase:hbase-0.96.01.org.apache.hadoop.hbase.client.Put 取消了无参的构造方法 Put类不再继承Writable类 0.94.6时public class Put extends Mutation implements HeapSize, Wr转载 2014-10-09 21:09:33 · 1876 阅读 · 0 评论