HBase优化策略
1. 解决热点效应
- 预分区 在创建表时,不按照默认的策略,为表只创建一个Region,而是根据需要,为一张表创建多个Region,从而避免热 点效应
- 预分区的依据 基于Rowkey进行预分区
- 语法:
3.1 create ‘t1’, ‘f1’, SPLITS => [‘10’, ‘20’, ‘30’, ‘40’]
3.2 create ‘t1’, ‘f1’, SPLITS_FILE => ‘splits.txt’ splits.txt 10203040
3.3 create ‘t2’, ‘f1’, {NUMREGIONS => 15, SPLITALGO => ‘HexStringSplit’}- 根本上解决热点问题需要注意如下几点
- 预分区
- rowkey设置 综上2者尽量解决热点问题。
2. 如何提高检索效率
- rowkey 相对连续 那么检索效率一定高 (顺序查询 scan操作)
- 设置Memstore大小 , Block Cache大小
hbase-site.xml 设置
hbase.hregion.memstore.flush.size 128M 每一个memstore达到128M flush hbase.regionserver.global.memstore.size 0.4 堆空间的40% (regionserver占用JVM 对空间)
- 让数据尽可能多的放置在内存中,提高检索效率
- 避免flush memstore 阻塞client操作
hbase.regionserver.global.memstore.size.lower.limit 当全局flush到 memstore用量达95%不在 flush
hfile.block.cache.size 0.4- hbase内部的块数据索引,布隆过滤器
3. JVM参数配置
- JVM Java进程
- JVM (堆空间) HBase
新生代 1/3 老年代 2/3 永久代(静态,常量)
eden survivor(from) survivor(to)
8 1 1
ParNewGC ConcMarkSweepGC
”-Xmx8g -Xms8G -Xmn128m -XX:UseParNewGC -XX:UseConcMarkSweepGC - XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails - XX:+PrintGCTimeStamps -Xloggc: H B A S E H O M E / l o g s / g c − HBASE_HOME/logs/gc- HBASEHOME/logs/gc−{hostname}-hbase.log”
hbase-env.sh
export HBASE_REGIONSERVER_OPTS=”-Xmx8g -Xms8G -Xmn128m -XX:UseParNewGC - XX:UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -verbose:gc - XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc: H B A S E H O M E / l o g s / g c − HBASE_HOME/logs/gc- HBASEHOME/logs/gc−{hostname}- hbase.log
4. mslab
- 防止内存碎片,内存碎片过多,内存泄露,发生FullGC,导致STW. hbase.hregion.memstore.mslab.enabled true hbase.hregion.memstore.mslab.chunksize 2M --> 4,5M 6M
5. 自动化处理的功能变成手工处理
结合定时,shell脚本 完成处理
hbase tools 手工操作 compact split
test.sh
/opt/install/hbase-0.98.6-hadoop2/bin/hbase shell /root/hbase/test