性能调优是一个比较大的话题,这个需要测试,开发,和运维人员相互协作才能做的事情。
在做性能优化前,需要先系统性能分析,才能确定性能调优项
根据性能调优的模型我们可以自上而下分析->网络分发就是CDN(Content Delivery Network,即内容分发网络)-Web服务(Nginx和Apache)-> Web Cache(缓存,Web Cache指Web层的缓存,一般都是临时缓存HTML、CSS、图像等静态资源文件) ->应用服务器(Spring Boot 三大容器Tomcat 和 Jetty Undertow,JVM)->应用程序服务(java应用,业务代码处理逻辑) ->应用缓存(redis)->数据库(DB)->依赖的外部系统->硬件配置(cpu ,内存,磁盘,IO),作为测试人员需要根据压测过程中,相应的监控系统,和日志定位每个节点是否有相应的问题。
以http协议服务端压测为例:
1.http请求时会先建立tcp链接,我们需要监控tcp状态,查看TCP连接中存在大量TIME_WAIT、CLOSE_WAIT
- 像TCP 连接中,「主动发起关闭连接」的一端,会进入 time_wait 状态
- time_wait 状态,默认会持续 2 MSL(报文的最大生存时间),一般是 2x2 mins
- time_wait 状态下,TCP 连接占用的端口,无法被再次使用;TCP 端口数量,上限是 6.5w(65535,16 bit)
- 大量 time_wait 状态存在,会导致新建 TCP 连接会出错,address already in use : connect 异常
- 占用内存,但内存占用并不大,1万条TIME_WAIT的连接,也就多消耗1M
- 耗CPU,每次找到一个随机端口,需要遍历一遍bound ports的吧,这必然需要一些CPU时间,但也还好,无需太担忧
解决方案:
- 需要优化内核参数缩减 time_wait 时间,设置为 1 MSL
- 服务器端允许 time_wait 状态的 socket 被重用
CLOSE_WAIT原因应用程序写的有问题,没有合适的关闭socket;要么是服务器CPU处理不过来(CPU太忙)或者应用程序一直睡眠到其它地方(锁,或者文件I/O等等),应用程序获得不到合适的调度时间,造成程序没法真正的执行close操作。
后果:出现大量的CLOSE_WAIT后,服务无法继续正常服务,端口无法被复用,socket资源被耗尽。因为Linux分配给一个用户的文件句柄是有限的,而如果一直被保持,则文件句柄也就不能close,导致句柄资源达到上线,接着就会出现大量Too Many Open Files错误。
解决方案:
优化代码合适的关闭socket</