问题背景:
使用python的paramiko库连接远程机器执行一个shell脚本,脚本执行wget文件的时间比较长,设置了超时5400s。
出现问题:
最近发现远程机器上脚本已经被kill了,但是本地python调用还在傻等,直到5400s超时
线索总结:
本地机器ssh连接一直存在
strace看远程脚本的最后留言
write(2, “+ cd /home/tsingj_ubuntu/icbc/so”…, 49) = -1 EPIPE (Broken pipe)
— SIGPIPE {si_signo=SIGPIPE, si_code=SI_USER, si_pid=3644998, si_uid=1000} —
+++ killed by SIGPIPE +++
实际上就是向socket写输出时被kill了。那么问题来了?远程端的socker到底发生什么了?
网上说可能是socket被close了,那为啥会被close呢?简单说一个ssh连接如果没有数据交互多久会断呢?在本地抓包发现很久都没有包来回
可能原因
ssh server因为这个tcp连接没有数据传输自行断了,但是没有通知client,这也太不礼貌了。。。导致后续脚本的输出往socket写失败了
做了实验验证了上面的原因
client端wget一个超大文件来测试,当使用wget -q时,因为很久没有数据传输,发现client端ssh connection还在,server端已经没了
当使用wget时,因为要传输log,两端的connection都能维持
解决办法
修改sshd配置维持链接,让server每隔60s就看看client是否还在
/etc/ssh/sshd_config修改ClientAliveInterval=60,sudo systemctl restart sshd