HBase优化

HBase优化

  1. 高可用
    在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 HMaster 的高可用配置。

  2. 预分区
    每一个 region 维护着 StartRow 与 EndRow,如果加入的数据符合某个 Region 维护的RowKey 范围,则该数据交给这个 Region 维护。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高 HBase 性能。
    1.手动设定预分区
    Hbase> create
    ‘staff1’,‘info’,‘partition1’,SPLITS =>
    [‘1000’,‘2000’,‘3000’,‘4000’]
    2.生成 16 进制序列预分区
    create ‘staff2’,‘info’,‘partition2’,{NUMREGIONS => 15, SPLITALGO =>
    ‘HexStringSplit’}
    3.按照文件中设置的规则预分区
    创建 splits.txt 文件内容如下:
    aaaa
    bbbb
    cccc
    dddd
    然后执行:
    create ‘staff3’,‘partition3’,SPLITS_FILE => ‘splits.txt’
    4.使用 JavaAPI 创建预分区
    //自定义算法,产生一系列 hash 散列值存储在二维数组中
    byte[][] splitKeys = 某个散列值函数
    //创建 HbaseAdmin 实例
    HBaseAdmin hAdmin = new HBaseAdmin(HbaseConfiguration.create());
    //创建 HTableDescriptor 实例
    HTableDescriptor tableDesc = new HTableDescriptor(tableName);
    //通过 HTableDescriptor 实例和散列值二维数组创建带有预分区的 Hbase 表
    hAdmin.createTable(tableDesc, splitKeys);

  3. RowKey 设计
    一条数据的唯一标识就是 RowKey,那么这条数据存储于哪个分区,取决于 RowKey 处于哪个一个预分区的区间内,设计 RowKey 的主要目的 ,就是让数据均匀的分布于所有的region 中,在一定程度上防止数据倾斜。接下来我们就谈一谈RowKey 常用的设计方案。
    1.生成随机数、hash、散列值
    2.字符串反转
    3.字符串拼接

  4. 内存优化
    HBase 操作过程中需要大量的内存开销,毕竟 Table 是可以缓存在内存中的,一般会分配整个可用内存的 70%给 HBase 的 Java 堆。但是不建议分配非常大的堆内存,因为 GC 过程持续太久会导致 RegionServer 处于长期不可用状态,一般 16~48G 内存就可以了,如果因为框架占用内存过高导致系统内存不足,框架一样会被系统服务拖死。

  5. 基础优化
    1.允许在 HDFS 的文件中追加内容
    2.优化 DataNode 允许的最大文件打开数
    3.优化延迟高的数据操作的等待时间
    4.优化数据的写入效率
    5.设置 RPC 监听数量
    6.优化 HStore 文件大小
    7.优化 HBase 客户端缓存
    8.指定 scan.next 扫描 HBase 所获取的行数
    9.flush、compact、split 机制

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值