hbase集群regionserver死亡分析

本文记录了一次生产环境中HBase集群4个RegionServer意外死亡的事件。问题源于一个新业务用户在Spark上运行的大批量入库查询任务,导致RegionServer GC时间过长,超过Zookeeper session超时时间,引发RegionServer被Zookeeper认为已死并关闭。解决方案包括服务端HBase限额、扩容、使用RegionServer Groups进行物理隔离,以及客户端代码优化、控制查询范围和并发量,并在执行批量查询前与管理员沟通。
摘要由CSDN通过智能技术生成

    这是一次生产hbase事故。那天在上海出差,同事打电话说生产hbase 4个regionserver 都挂了,master活着,听到这个信息心情非常沉重,这么久还没发生过这样的事,立马让同事把regionserver重启,把生产日志全部拿下来分析。那天在上海办公室看了2个小时日志分析原因。以下为分析日志及过程:

从日志中可以看到宕机前频繁的大批量的数据查询

hbase zookeeper客户端session过期

hbase regionserver jvm gc时间超过三分钟

hbase regionserver日志中报找不到/hbase/WALs目录,我检查了那几天hdfs文件系统均为正常

  后面排查应用发现为一个新业务用户在spark上运行了一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值