一、建表技巧
1、合理设计列族,尽量控制在3个以内,因为当一个列族的memstore达到阀值进行扩容的时候,另外一个列族的memstore也会跟着一起扩容(不同的列族分为不同的store,但是分裂的时候是整个region都会分裂)这样会出现某些memstore数据量并不大但是分在了多个region中,降低效率。其实效率低的原因是因为,假如有AB两个100万条跟10条数据的列族,在region进行split的时候拆分在一个hfile文件中,如果经常全表扫描B这个小列族的话,变相的全表扫描了A这个大列族。因此设计的时候越少越好,尽量一个列族。
2、
参考博客: