HBase
文章平均质量分 83
zhan8610189
这个作者很懒,什么都没留下…
展开
-
批量Load到HBase
hbase提供了写的操作,通常,我们可以采用HBase的Shell 客户端或者Java API进行操作。如果数据量大的话,这两种操作是很费时的。其实如果了解了HBase的数据底层存储的细节的话,HBase的数据存储格式是HFile定义的格式。批量导入HBase主要分两步:通过mapreduce在输出目录OutputDir下生成一系列按Store存储结构一样的,存储HFile文件...原创 2013-04-25 17:18:51 · 114 阅读 · 0 评论 -
HBase读书笔记1
HBase概念及其关系 在HBase中,Master和Regionserver的关系是,Master管理着Regionserver所有节点状态的信息,同时也管理着表的状态。HBase的数据存储在regionserver节点中。HBase是一种key/value对存储的数据库表,在Regionserver节点上,针对每一个表,都会涉及到容易混淆的几个概念。表和Regionserver:...原创 2013-04-28 19:04:27 · 100 阅读 · 0 评论 -
Sqoop新增多版本导入HBase功能
Sqoop是关系型数据库向Hadoop生态圈的导入导出工具。该工具可以把mysql, oracle等关系型数据库的数据直接导入到hadoop, hive, hbase,同时也可以把hadoop, hive, hbase里面的数据转存到mysql, oracle等传统式关系型数据库。 sqoop 在1.4的版本中不支持多版本数据导入到hbase中,本人对sqoop添加了多版本导入HBas...原创 2013-05-07 11:05:13 · 452 阅读 · 0 评论 -
Sqoop新增批量导入HBase功能
Sqoop导入HBase的实现是直接调用HBase的HTable.put接口,在HBase集群有压力的情况下,这个导入方式是相当慢的。到底有多慢,可以参考一下我写的一篇文章:批量Load到HBase 因此,我在Sqoop 1.4.3的基础上,添加了一种调用LoadIncrementalHFiles.doBulkLoad的bulk load功能。已经把patch提供给社区, https:/...原创 2013-05-07 20:05:34 · 234 阅读 · 0 评论 -
Thrift和HBase 性能评价分析
1. Thrift框架Thrift是Facebook开源出来的通信服务框架,典型的C/S架构模式,支持跨语言编程,例如Java, C++,Python等主流语言,能够友好地解决各大系统的数据通信问题和多种语言运行环境不同所引起的信息交互问题。Thrift采用一种IDL编码通信的方式,跟业界在以前通常采用的CORBA通信协议标准方式有点类似。它通过创建IDL文件,生成并编写相关代码文件,...原创 2013-05-09 07:51:19 · 814 阅读 · 0 评论 -
HBase读书笔记2
1. QoSHBase的请求都有一个请求级别,即优先级(priorityLevel)。在RPC那一层也有它们相应级别的线程池,根据请求的优先级放到相应的线程池中。这两个线程池的线程数量分别由参数hbase.regionserver.handler.count 和hbase.regionserver.metahandler.count配置。在regionserver中,优先级<=10的被...原创 2013-05-30 14:17:54 · 179 阅读 · 0 评论 -
HBase Master管理功能总结
近段时间,对HBase 的Master节点相关的代码进行了学习,感觉它的设计思路是尽量把master节点做成一个很轻的管理节点。这里很轻的意思就是只做自己该做的一些事,很多不该做的事情都移出去,移给zookeeper,移给regionserver,让自己变得简单。1. HMaster接口HMaster类继承了四个接口, HMasterInterface, HMasterRegionIn...原创 2013-07-02 10:46:43 · 559 阅读 · 0 评论