高并发情况下出现很多tcp链接被RST,分析过程如下
一、抓包
(1)在Linux服务器上进行抓包
tcpdump -w 文件名.pcap -s 0 port 8080
使用wireshark进行查看分析,发现很多链接被服务器RST
此时怀疑是服务器的最大连接数等参数设置的不够大,修改最大连接数后问题仍然存在
(2)同时在client和server端进行抓包,找出一个失败的链接,查看TCP流
client抓包如下:
server抓包如下:
三次握手中第三次的ACK丢失,client已发出,但是server端没有收到,导致链接失败
二、查看系统参数
查看防火墙
[root@test log]# service iptables status
iptables: Firewall is not running.
查看最大进程数
[root@test ~]# ulimit -a |grep processes
max user processes (-u) 128350
查看core参数设置
[root@test log]# sysctl -a |grep net.core.somaxconn
net.core.somaxconn = 32768
查看TCP参数设置
[root@test log]# sysctl -a |grep tcp
net.ipv4.tcp_max_syn_backlog = 2048
net.ipv4.tcp_timestamps=0
net.ipv4.tcp_invalid_ratelimit = 500
net.ipv4.tcp_tw_reuse = 0
(1) tcp_max_syn_backlog这个参数是重点,将这个参数改大会有一定效果,被RST的链接变少,但依然存在
参考文章 http://jm.taobao.org/2017/05/25/525-1/
(2)tcp_timestamps设置为1,问题仍然存在
参考文章 https://www.cnblogs.com/yoyotl/p/5329329.html
(3)tcp_invalid_ratelimit设置为0,问题仍然存在,还原为500
参考文章 https://blog.csdn.net/sinat_20184565/article/details/89481607
(4)net.ipv4.tcp_tw_reuse设置为1,问题仍然存在
#表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
参考文章 https://blog.csdn.net/qq_23587541/article/details/83217869
三、网络
试过各种方法后依然无效,尝试减少并发数,发现当5000并发时没有问题,6000并发时开始有这种情况,并且随着并发数增加,出现问题的链接数增加,怀疑是本地客户端出网带宽有限制,联系IT,放开网络限制,问题解决。了解到最近公司网络安全策略有调整,可能影响到负载机的出网带宽。