近期发现一个比较弱的配置服务器,偶尔出现500,502的情况,因为是lnmp环境,所以排查一下问题,最后发现/var/log/message 日志输出这些
提示timewait溢出
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
显示的数量:
TIME_WAIT 9767
SYN_SENT 4
FIN_WAIT2 1
ESTABLISHED 38
调整了一下参数(/etc/sysctl.conf):
net.ipv4.tcp_keepalive_time = 30 #调整生效时间
net.ipv4.tcp_fin_timeout = 10 #调整超时时间
net.ipv4.tcp_max_tw_buckets = 15000 #增大了5000
后来发现还在不断输出time wait bucket table overflow,于是继续排查
参考下方链接:
__ratelimit: N callbacks suppressed 表示内核阻止了N条syslog消息,这是因为系统重复的日志过多,写日志频率过高,输出太快,被内核中的net_ratelimit()限制了syslog消息写入。
rate limit也是Linux为了避免DoS攻击的一种机制,避免每个消息都被记录(会导致存储空间撑爆)。
因为我rsyslog的配置文件是*.*
*.* @192.168.1.10:5099 #端口是自定义的
那么一切明了,是因为rsyslog接受的重复系统日志过多导致的,所以关闭rsyslog收集(因为是比较弱的机器),设置保留日志为90天,90天一打包汇集保留,或者参考上面链接里的方法