程序功能描述:
我有一个模拟几十个小功能模块的java程序A,每个模块会以1Hz的频率接收外部程序C发的握手信息,然后给予回应。如果程序C连续3次没收到程序A中某模块回复的握手应答,即将该模块标记为离线状态。
问题描述:
在绝大部分电脑上运行正常,在极个别电脑上(电脑D),程序C总是出现模块先正常上线,然后纷纷下线,然后各模块随机开始不停的上线、下线的现象。
排查过程:
1、开始以为是网络问题,于是把程序A和C统一部署到出现问题的电脑D上,问题依旧。。。
2、排除了Java程序A因为使用h2数据库,把每次握手、回复握手的信息存库,导致的性能问题(在电脑D上经实测,保存握手这类简单信息,h2数据库在100w数据的量级也能达到1000左右吞吐量,完全满足性能要求)
3、排除了各模块握手、应答方法上的Syncronize关键字的性能影响。
4、排除了log4j记录日志文件的影响。
结果:
在领导的指导下,定位到了这个从没往那方面想的原因----电脑D的cmd窗口,由于不知名的原因,打印速度相比正常电脑极慢(缓存等设置一切默认、正常),导致程序执行速度受影响,不能正常回复握手信息。。。
解决方案:
异步日志打印 + 减少cmd窗口日志输出(只输出启动、异常等关键信息,普通的info信息异步输出到日志文件)。