hbase时间范围分页查询优化实践

pino~

已于 2023-09-14 20:55:03 修改

阅读量3.2k

点赞数

文章标签： hbase big data 大数据

于 2022-01-18 13:14:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44883450/article/details/122557807

版权

生产情况

生产情况介绍

汽车故障码明细数据量大（PB级），明细数据存储在hbase中，早期产品的需求主要是根据tuid查询某天某车某控制器的故障情况，所以rowkey的设计规则是：tuid+日期+控制器+故障码编号+时间戳，这样，相安无事。现在需求是，查指定TUID的某段时间的明细数据，时间跨度不超过7天，查询条件时间精确到秒，接口返回时间不超过1秒。

方案设计

初始方案是，由于无法保障数据在同一个resion中，所以不能用Hbase原生的PageFilter进行过滤scan,考虑构建FilterList, 采用startRow和endRow方式过滤，scan出起始时间当天到截止时间当天的所有的数据，再进行过滤即可，但是该方案有个非常耗时的操作，不是扫描，是扫描后数据的提取

scan.setFilter(filterList);
List<byte[]> list = new ArrayList<>();
ResultScanner scanner = tableInterface.getScanner(scan);
for (Result r : scanner) {
                list.add(r.getRow());
}

优化方案

抛弃新建Arrraylist对象然后数据搬运的耗时操作，采用流的方式原地对scanner进行转换list操作,并进行过滤出需要的时间段的数据


final List<Result> filteredList = StreamSupport.stream(
                        resultScanner.spliterator(), Boolean.FALSE)
                        .filter(a -> a.listCells().get(0).getTimestamp() >=beginTimeL && a.listCells().get(0).getTimestamp()<= endTimeL)
                        .collect(Collectors.toList());

再根据分页请求，封装pageResponse的分页信息，根据startpage和pagesize找到对应的数据，对pageResponse进行setList，返回给前端，即可，接口响应时间少于1秒。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

pino~ CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

125万+: 周排名

186万+: 总排名

1万+: 访问

: 等级

99: 积分

1: 粉丝

7: 获赞

7: 评论

13: 收藏

私信

关注

热门文章

分类专栏

Flink 1篇

最新评论

Flink本地Debug调试的方法和注意点
weixin_49279355: flink SQL怎么debug啊，佬!!!
idea cherry pick
CSDN-Ada助手: 恭喜你写了这么精彩的博客，标题“idea cherry pick”让人很好奇，看了之后确实受益匪浅。希望你能继续保持创作的热情和激情，不断挖掘更多有价值的内容。或许下一步可以尝试写一些实际案例，让读者更容易理解和接受你的观点。继续加油！
Flink本地Debug调试的方法和注意点
CSDN-Ada助手: 恭喜用户写出了第6篇博客！标题《Flink本地Debug调试的方法和注意点》非常吸引人。我很高兴看到你持续创作，分享有关Flink调试的经验和技巧。你的博客让读者能够更好地理解这个话题，并且给出了一些实用的方法和注意点。接下来，我想提一个创作建议，希望你能继续探索更多与Flink相关的主题，比如如何优化Flink的性能或者如何应对一些常见的Flink挑战。继续保持写作，我期待你的下一篇博客！
java输出当前时间精确到毫秒（yyyy-MM-dd HH:mm:ss:SSS）
CSDN-Ada助手: 非常棒的博客！恭喜你写了第7篇博客！你的标题很吸引人，让我立刻点击进来看了一下。你的方法确实很实用，我之前一直在寻找一个能够输出当前时间精确到毫秒的方法，你的博客给了我很大的帮助。谢谢你的分享！希望你能继续保持创作的热情，分享更多有趣且实用的内容。我建议你可以考虑分享一些关于Java编程中的高级技巧或者一些常见问题的解决方案。相信你会有更多粉丝跟随你的创作！再次感谢你的分享，期待你的下一篇博客！
hbase时间范围分页查询优化实践
pino~: 故障码每日1亿左右，总数据是7天跨度，就是7亿。是小于1秒的。

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。