slurm集群在node改名之后，屡次出现请求旧节点名称导致job异常的问题

console一下

已于 2024-04-30 14:14:34 修改

阅读量153

点赞数 4

文章标签：服务器 linux 运维 centos

于 2024-04-30 14:11:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43609377/article/details/138340605

版权

之前的slurm集群下面辖三个节点，compute-0，compute-1，compute-2。但后面更名为node1，node2，node3，在master节点配置完/etc/slurm/slurm.conf文件之后，也通过文件同步机制同步到各node上了，各个node的hostname包括/etc/hosts这些文件也都改过了，都没问题

但在master上用slurm提交任务，分发到各节点上还是会去请求老的节点名称，导致屡次报错，以node3为例：

找了一圈，没发现有类似的解决帖

直到lasted一次报错[2024-04-29T16:41:26.777] error: _find_node_record: lookup failure for node "compute-2"导致了slurm崩溃了

随后重启了node3的slurmd服务

在master查看，确实也恢复idle状态了

（之前是down）

而后在master提交任务，指定用node3来跑，发现都正常了

======================================================================

所以问题是怎么解决的呢，初步认为是在/etc/slurm/slurm.conf完成nodename变更之后，没有将节点的slurmd服务重新启动，因此可能因为有缓存的原因，还是会去请求旧的节点名称，自然找不到。将服务重新启动之后问题就好了

至于如何导致的服务崩溃，core-dump，是没有深究，欢迎讨论

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
slurm集群在node改名之后，屡次出现请求旧节点名称导致job异常的问题

slurm集群，nodename changed
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。