hbase分页功能的几种实现方案。
分页功能是线上系统的常用功能,对hbase,有以下几个方案可以选择(抛砖引玉)。
假设要查第N页,1页大小为M
1 client分页,scan查到N*M条,过滤掉N*M-M条,返回M条。对于M,N较小时比较适合。
2 自定义Filter,该filter可以传递offset(server端需要过滤的记录条数),在server端分页,注意,跨不同的region时需要重新计算该offset。
例子:第1个HRegion的请求传递该值为N*M-M,表示需要在server端过滤掉N*M-M条记录。当第1个HRegion返回时,需要知道该次请求在server端实际过滤了多少条记录(假设为Size条),
第2个HRegion的请求传递该值为N*M-M-Size。
3 缓存上次分页查询的最后一条,下次分页查询从这条(不包含)开始查。
4 查询条件固定的话,定时任务汇总表。
5 结合其他框架想办法。
目前只是针对方案1进行了实现,实现代码如下:
package com.page.test;
import java.io.IOException;
import java.util.LinkedHashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.h