hbase 顺序序列rowkey设计

最新推荐文章于 2023-01-29 08:45:00 发布

xiao_jun_0820

最新推荐文章于 2023-01-29 08:45:00 发布

阅读量5.1k

点赞数

分类专栏： hbase

本文链接：https://blog.csdn.net/xiao_jun_0820/article/details/30247465

版权

hbase 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.hbase.util.MD5Hash;

public class SequenceIdRowKeyHash {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		long userid = 100L;
		
		byte[] bytes = Bytes.toBytes(userid);
		String hashPrefix = MD5Hash.getMD5AsHex(bytes).substring(0, 4);
		System.out.println(hashPrefix);

		byte[] bytes2 = Bytes.toBytes(hashPrefix);
		//rowkey取md5(userid)的前四位+userid.前四位用来散列userid,避免写入热点。缺点，不支持顺序scan userId.
		byte[] rowkey = Bytes.add(bytes2, bytes);
		
		System.out.println(rowkey);
		
		//可通过rowkey逆推得到 userid
		System.out.println(Bytes.toLong(rowkey, 4, rowkey.length - 4));
	}

}

暂时想到这种设计方法，可以避免写入热点问题，也可以进行预分区提高并行写入的速度。单值rowkey查询也能保证，不过缺点也显而易见，就是scan范围查询出的不是连续的userid了。有没有人知道有两全其美的设计呢，或者更好的设计方案，请指导。