HBase优化策略

HBase优化策略

1. 解决热点效应

  1. 预分区 在创建表时,不按照默认的策略,为表只创建一个Region,而是根据需要,为一张表创建多个Region,从而避免热 点效应
  2. 预分区的依据 基于Rowkey进行预分区
  3. 语法:
    3.1 create ‘t1’, ‘f1’, SPLITS => [‘10’, ‘20’, ‘30’, ‘40’]
    3.2 create ‘t1’, ‘f1’, SPLITS_FILE => ‘splits.txt’ splits.txt 10203040
    3.3 create ‘t2’, ‘f1’, {NUMREGIONS => 15, SPLITALGO => ‘HexStringSplit’}
  4. 根本上解决热点问题需要注意如下几点
    1. 预分区
    2. rowkey设置 综上2者尽量解决热点问题。

2. 如何提高检索效率

  1. rowkey 相对连续 那么检索效率一定高 (顺序查询 scan操作)
  2. 设置Memstore大小 , Block Cache大小
    hbase-site.xml 设置
    hbase.hregion.memstore.flush.size 128M 每一个memstore达到128M flush hbase.regionserver.global.memstore.size 0.4 堆空间的40% (regionserver占用JVM 对空间)
    1. 让数据尽可能多的放置在内存中,提高检索效率
    2. 避免flush memstore 阻塞client操作
      hbase.regionserver.global.memstore.size.lower.limit 当全局flush到 memstore用量达95%不在 flush
      hfile.block.cache.size 0.4
  3. hbase内部的块数据索引,布隆过滤器

3. JVM参数配置

  1. JVM Java进程
  2. JVM (堆空间) HBase
    新生代 1/3 老年代 2/3 永久代(静态,常量)
    eden survivor(from) survivor(to)
    8 1 1
    ParNewGC ConcMarkSweepGC
    ”-Xmx8g -Xms8G -Xmn128m -XX:UseParNewGC -XX:UseConcMarkSweepGC - XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails - XX:+PrintGCTimeStamps -Xloggc: H B A S E H O M E / l o g s / g c − HBASE_HOME/logs/gc- HBASEHOME/logs/gc{hostname}-hbase.log”
    hbase-env.sh
    export HBASE_REGIONSERVER_OPTS=”-Xmx8g -Xms8G -Xmn128m -XX:UseParNewGC - XX:UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -verbose:gc - XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc: H B A S E H O M E / l o g s / g c − HBASE_HOME/logs/gc- HBASEHOME/logs/gc{hostname}- hbase.log

4. mslab

  1. 防止内存碎片,内存碎片过多,内存泄露,发生FullGC,导致STW. hbase.hregion.memstore.mslab.enabled true hbase.hregion.memstore.mslab.chunksize 2M --> 4,5M 6M

5. 自动化处理的功能变成手工处理

结合定时,shell脚本 完成处理
hbase tools 手工操作 compact split
test.sh
/opt/install/hbase-0.98.6-hadoop2/bin/hbase shell /root/hbase/test

已标记关键词 清除标记
【为什么还需要学习C++?】 你是否接触很多语言,但从来没有了解过编程语言的本质? 你是否想成为一名资深开发人员,想开发别人做不了的高性能程序? 你是否经常想要窥探大型企业级开发工程的思路,但苦于没有基础只能望洋兴叹?   那么C++就是你个人能力提升,职业之路进阶的不二之选。 【课程特色】 1.课程共19大章节,239课时内容,涵盖数据结构、函数、类、指针、标准库全部知识体系。 2.带你从知识与思想的层面从0构建C++知识框架,分析大型项目实践思路,为你打下坚实的基础。 3.李宁老师结合4大国外顶级C++著作的精华为大家推出的《征服C++11》课程。 【学完后我将达到什么水平?】 1.对C++的各个知识能够熟练配置、开发、部署; 2.吊打一切关于C++的笔试面试题; 3.面向物联网的“嵌入式”和面向大型化的“分布式”开发,掌握职业钥匙,把握行业先机。 【面向人群】 1.希望一站式快速入门的C++初学者; 2.希望快速学习 C++、掌握编程要义、修炼内功的开发者; 3.有志于挑战更高级的开发项目,成为资深开发的工程师。 【课程设计】 本课程包含3大模块 基础篇 本篇主要讲解c++的基础概念,包含数据类型、运算符等基本语法,数组、指针、字符串等基本词法,循环、函数、类等基本句法等。 进阶篇 本篇主要讲解编程中常用的一些技能,包含类的高级技术、类的继承、编译链接和命名空间等。 提升篇: 本篇可以帮助学员更加高效的进行c++开发,其中包含类型转换、文件操作、异常处理、代码重用等内容。
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页