HBase Rowkey设计(2) —— 时间戳反转

最新推荐文章于 2022-03-04 12:35:32 发布

Lestat.Z.

最新推荐文章于 2022-03-04 12:35:32 发布

阅读量5.4k

点赞数

分类专栏： Hadoop Eco. 文章标签： HBase rowkey

本文链接：https://blog.csdn.net/yolohohohoho/article/details/89599487

版权

Hadoop Eco. 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

时间戳反转

在Hbase中，使用单调增加的rowkey值是不推荐的。通过将输入记录随机化为不按排序顺序，这样可以减轻由单调增加的rowkey引起的单个区域的数据堆积。

一般情况下，最好避免使用时间戳或序列（例如，1,2,3）作为行键。
如果你确实需要将时间序列数据上传到HBase，那么可以参考下OpenTSDB中作为例子。它有一个页面描述它在HBase中使用的模式。 OpenTSDB中的关键格式实际上是[metric_type] [event_timestamp]，乍一看似乎与先前关于不使用时间戳作为关键字的建议相矛盾。
但是，不同之处在于时间戳不在key的前导位置，并且设计假设是存在数十或数百（或更多）不同的度量类型。因此，即使具有混合度量类型的连续输入数据流，Puts也分布在表中的各个区域region点上。

另一个常见的数据处理问题是快速获取数据的最近版本，使用反转的时间戳作为rowkey的一部分对这个问题十分有用，可以用 Long.Max_Value - timestamp 追加到key的末尾，例如 [key][reverse_timestamp] , [key] 的最新值可以通过scan [key]获得[key]的第一条记录，因为HBase中rowkey是有序的，第一条记录是最后录入的数据。

比如需要保存一个用户的操作记录，按照操作时间倒序排序，在设计rowkey的时候，可以这样设计

[userId反转][Long.Max_Value - timestamp]，在查询用户的所有操作记录数据的时候，直接指定反转后的userId，startRow是[userId反转][000000000000], stopRow是[userId反转][Long.Max_Value - timestamp]

如果需要查询某段时间的操作记录，startRow是[user反转][Long.Max_Value - 起始时间]，stopRow是[userId反转][Long.Max_Value - 结束时间]

Lestat.Z.

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
HBase Rowkey设计(2) —— 时间戳反转

时间戳反转在Hbase中，使用单调增加的rowkey值是不推荐的。通过将输入记录随机化为不按排序顺序，这样可以减轻由单调增加的rowkey引起的单个区域的数据堆积。一般情况下，最好避免使用时间戳或序列（例如，1,2,3）作为行键。如果你确实需要将时间序列数据上传到HBase，那么可以参考下OpenTSDB中作为例子。它有一个页面描述它在HBase中使用的模式。 OpenTSDB中的关键...
复制链接

扫一扫

专栏目录