这是一次生产hbase事故。那天在上海出差,同事打电话说生产hbase 4个regionserver 都挂了,master活着,听到这个信息心情非常沉重,这么久还没发生过这样的事,立马让同事把regionserver重启,把生产日志全部拿下来分析。那天在上海办公室看了2个小时日志分析原因。以下为分析日志及过程:
从日志中可以看到宕机前频繁的大批量的数据查询
hbase zookeeper客户端session过期
hbase regionserver jvm gc时间超过三分钟
hbase regionserver日志中报找不到/hbase/WALs目录,我检查了那几天hdfs文件系统均为正常
后面排查应用发现为一个新业务用户在spark上运行了一