import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.hbase.util.MD5Hash;
public class SequenceIdRowKeyHash {
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
long userid = 100L;
byte[] bytes = Bytes.toBytes(userid);
String hashPrefix = MD5Hash.getMD5AsHex(bytes).substring(0, 4);
System.out.println(hashPrefix);
byte[] bytes2 = Bytes.toBytes(hashPrefix);
//rowkey取md5(userid)的前四位+userid.前四位用来散列userid,避免写入热点。缺点,不支持顺序scan userId.
byte[] rowkey = Bytes.add(bytes2, bytes);
System.out.println(rowkey);
//可通过rowkey逆推得到 userid
System.out.println(Bytes.toLong(rowkey, 4, rowkey.length - 4));
}
}
暂时想到这种设计方法,可以避免写入热点问题,也可以进行预分区提高并行写入的速度。单值rowkey查询也能保证,不过缺点也显而易见,就是scan范围查询出的不是连续的userid了。有没有人知道有两全其美的设计呢,或者更好的设计方案,请指导。
hbase 顺序序列rowkey设计
最新推荐文章于 2023-01-29 08:45:00 发布