Python 通过thrift接口连接Hbase读取存储数据

最新推荐文章于 2024-07-15 14:36:50 发布

wyjzt999

最新推荐文章于 2024-07-15 14:36:50 发布

阅读量4.6k

点赞数 2

分类专栏： python thrift 文章标签： thrift Hbase python 并行拓展 failover

本文链接：https://blog.csdn.net/wyjzt999/article/details/8670970

版权

本文介绍了如何使用Python通过Thrift接口连接Hbase进行数据读取。Hbase是一个分布式数据库，Thrift是一个跨语言的服务开发框架。文中详细讨论了Hbase的表结构，包括Row Key、列族和时间戳，并展示了Thrift提供的各种操作Hbase的方法，如开启关闭表、数据获取和删除等。同时，文章提到了Thrift的并行拓展和failover机制，增强了系统的稳定性和性能。

摘要由CSDN通过智能技术生成

介绍：

Hbase：开源的分布式数据库

资料介绍:http://www.oschina.net/p/hbase

Thrift:一个软件框架，用来进行可扩展且跨语言的服务的开发。最初由Facebook开发，作为Hadoop的一个工具，提供跨语言服务开发；

资料介绍：http://dongxicheng.org/search-engine/thrift-guide/

官方使用手册：http://download.csdn.net/detail/wyjzt999/5141006从安装到使用都很全面

我们项目里客户端是用python开发，因此需要Thrift提供server端，经过thrift对Hbase进行数据读写操作，性能非常不错，并且可以在Hadoop集群上做并行拓展，稳定性高，Facebook内部通信也是采用thrift来做；

首先学习一下Hbase的表结构：

Row Key

Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key保存为字节数组。

列族 (column family)

hbase表中的每个列，都归属与某个列族。列族是表的chema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如courses:history ， courses:math 都属于 courses 这个列族。

时间戳

HBase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。

对Hbase而言，表结构设计会对系统的性能以及开销上造成很大的区别;

1.首先建立与thriftserver端的连接

from thrift import Thrift
from thrift.transport import TSocket, TTransport
from thrift.protocol import TBinaryProtocol
from hbase import Hbase

#server端地址和端口
transport = TSocket.TSocket(host, port)
#可以设置超时
transport.setTimeout(5000)
#设置传输方式（TFramedTransport或TBufferedTransport）
trans = TTransport.TBufferedTransport(transport)
#设置传输协议
protocol = TBinaryProtocol.TBinaryProtocol(trans)
#确定客户端
client = Hbase.Client(protoc