最近有个Linux客户使用我们开发的Database功能, 数据会从一台机器自动备份到另外一台机器,启动没问题但是一同步就报RPC问题, 第一感觉是防火墙问题,不过客户死活不认同。
遇到网络问题一般怎么定位哪?
1. 通过tcpdump抓包。
发现无缘无故收到一个RST包,连接就被中断了。
2. 检查防火墙,查看iptables/firewall rules.
客户主动发了rules过来,没有异常。
怎么办? 为了证明这个问题与我们的产品没关系,写了一个非常简单的socket通信程序模拟replication机器之间的正常通信, 这样的通信如果被中断了就和业务无关了吧? 最后确实是客户网络的问题:
We had a webex with the customer and the issue was in the vmware hypervisor firewall, the subscribing machine was not part of the same firewall within the hypervisor as the publisher. Once they were within the same group and the rules, the test program and then subsequently replication worked.”
简单的通信程序如下:
/*************************************************************************
client
******************************