记一次ceph osd莫名其妙自动关闭进程异常

某个在运行的ceph系统,巡检时发现osd掉线了,尝试将其启动,可以正常启动,数据恢复也正常,但是运行1-2分钟后osd又掉了,检查osd状态发现:

7f0231d85d80 -1 osd.2 199 log_to_monitors {default=true}
7f021f689700 -1 received  signal: Interrupt from Kernel ( Could be generated by pthread_kill(), raise(), abort(), alarm() ) UID: 0
7f021f689700 -1 osd.2 237 *** Got signal Interrupt ***
7f021f689700 -1 osd.2 237 shutdown

osd日志里都是osd数据块传输的日志,没有发现错误,没有警告。

几次重启osd都一样的情况,检查了系统空间、内存、CPU占用都正常。

重点是signal: Interrupt from Kernel 这句进程日志,内核杀掉了进程,看了半天一头雾水。。。

然后查看ceph日志,没发现错误,有个warn

cluster [INF] Health check cleared: OSD_DOWN (was: 1 osds down)
cluster [INF] Health check cleared: OSD_HOST_DOWN (was: 1 host (1 osds) down)
cluster [INF] osd.2 192.168.1.203:6800/66004 boot
cluster [DBG] osdmap e243: 3 total, 3 up, 3 in
cluster [DBG] osdmap e244: 3 total, 3 up, 3 in
cluster [WRN] Monitor daemon marked osd.2 down, but it is still running
cluster [DBG] map e242 wrongly marked me down at e241

[WRN] Monitor daemon marked osd.2 down, but it is still running  这就奇怪了,好好的mon为啥标记osd down啊,啥事没干啊。

最后检查环境时发现203这台节点的防火墙被打开了,正常情况下内网搭建ceph都是直接关闭防火墙的,没有单独做端口放行,关闭防火墙后即可。

systemctl stop firewalld
systemctl disable firewalld

systemctl start ceph-osd@2

关闭防火墙后重启osd,未再出现异常退出情况。

检查还发现某个节点时间不同步,该节点时间早于集群时间18小时,遂chronydc sources -v同步时间,时间同步完成后节点osd异常了,集群中osd是down状态,但是节点上osd进程正常,有异常日志:

-1 monclient: _check_auth_rotating possible clock skew, rotating keys expired way too early (before xxxxx 19:22:34.374108)

解决办法:重启该osd。

systemctl restart ceph-osd@1

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值