解释下我的使用场景:生产socket服务出现了 ESTABLISHED 状态的连接,一直没有自动关闭,整个socket服务采用的是阻塞式的,一旦有一个连接建立了,没有进行关闭,会导致其它客户端的请求阻塞,从而造成了socket服务无法正常使用。因此需要将该建立ESTABLISHED 状态的连接进行关闭,于是有了以下探索的场景。。。
如何在线关闭一个tcp socket连接?
你可能会说,直接简单粗暴的方法,netstat -antp找到连接,kill掉这个进程就行了。
# netstat -antp|grep 6789
tcp 0 0 1.1.1.1:59950 1.1.1.2:6789 ESTABLISHED 45059/ceph-fuse
# kill 45059
连接确实关掉了,进程也跟着一起杀死了。达不到“在线”的要求,我们在实际生产环境中却没法这样操作,生产环境服务条件往往不允许项目重启,因为一个进程往往包含了多个服务,不能因为一个服务影响其它服务业务的正常开展 。
我们知道,在编码的时候,要关闭一个socket,只要调用 close 函数就可以了,但是进程在运行着呢,怎么让它调用 close 呢?
在superuser上看到一个很棒的方法,原理就是 gdb attach 到进程上下文,然后 call close($fd)
。
1、 使用 netstat 找到进程
# netstat -antp|grep 6789
tcp 0 0 1.1.1.1:59950 1.1.1.2:6789 ESTABLISHED 45059/ceph-fuse
如上,进程pid为45059。
2、 使用 lsof 找到进程45059打开的所有文件描述符,并找到对应的socket连接
lsof -np 45059
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
ceph-fuse 45059 root rtd DIR 8,2 4096 2 /
ceph-fuse 45059 root txt REG 8,2 6694144 1455967 /usr/bin/ceph-fuse
ceph-fuse 45059 root mem REG 8,2 510416 2102312 /usr/lib64/libfreeblpriv3.so
...
ceph-fuse 45059 root 12u IPv4 1377072656 0t0 TCP 1.1.1.1:59950->1.1.1.2:smc-https (ESTABLISHED)
其中 12u
就是上面对应socket连接的文件描述符。
3、 gdb 连接到进程
gdb -p 45059
4、 关闭socket连接
(gdb) call close(12u)
socket连接就可以关闭了,但是进程 45059 还是好好着的。
你可能会问,什么时候会用到这个特性呢?场景还是比较多的,比如你想测试下应用是否会自动重连mysql,通过这个办法就可以比较方便的测试了。
Ref:
本来想找根本原因,为什么会出现 ESTABLISHED 建立了,但却不去自动关闭,目前还没找到为什么,自己的socket客户端请求服务都没有问题,但客户的socket客户端请求socket服务却一直有这个问题,目前尚未找到原因,若有大神,请多指教!
目前自己的解决方法,将内部引入线程池,每次有socket请求进来都会走单独的线程解决,不会影响其它的客户端请求。但个人觉得应该会有更好的方法去解决这个问题,还是没有看到根本原因所在,还请大家出出主意!
本文转自:https://ieevee.com/tech/2019/04/16/close-socket.html