Impala实践之十四：一次Impala节点故障记录（不能启动）

最新推荐文章于 2024-11-05 18:58:36 发布

木东居士

最新推荐文章于 2024-11-05 18:58:36 发布

阅读量5.4k

点赞数 2

分类专栏： Impala实践文章标签： impala 集群

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaodedong/article/details/52317172

版权

本文记录了一次Impala集群中两台节点无法启动的问题及解决过程。故障期间，集群状态异常，任务执行缓慢，经过停止不合理SQL提交、重启节点等操作，最终发现是CM Agent异常导致。解决方案是重启Agent并恢复Impala服务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

Impala集群中有两台机器的Impala Daemon不能正常启动，记录一下整个过程和解决方式。

过程

阶段一

Impala集群的状态开始飘红，有两台节点不能正常使用。

这时候发现集群里面有十多个任务正在运行，任务执行时间很长，情况非常不正常。

看了一下sql的内容，有几个sql的确比较耗资源。

阶段二

此时，我先通知不要提交sql，给修复问题留点时间。

正在重启不健康的节点，群里面就有人继续提交了不合理的sql，还在问“为什么集群这么慢？”

此时集群的Hive Metastore Server服务也飘红了，重启过后几分钟继续变红。

Impala节点还重启失败

阶段三

此时我的心情其实是挺糟糕的，大早上闹这一出，而且还不配合。因此再次强调了一下不要提交sql。然后集群稍微好一点了。

两台机器仍然故障，但是我的权限还不够，不能看到linux层面的错误日志。

因此决定暂时停掉两台Impala节点的使用，并在负载均衡上将两台节点排除，这样机器虽然少了两台，但是集群仍能正常使用。

阶段四

现在主要的问题在于，为什么两台机器Impala节点不能启动，启动后可以再找错误原因。

然后开始排查错误，找运维要了一些权限，开始排查问题，发现再11点的时候cm的agent状况不正常，然后就不健康。那个时候正是有人反

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。