问题描述:
用户反馈,最近在访问某个网站的过程中出现移动和电信线路的用户可以正常访问,联通线路用户打不开网站的情况。需要协助排查与处理。
网络拓扑图示意如下:
1、扁平化内网:内网双核心做虚拟化冗余,接入交换机直接双上联到核心交换机
2、中间使用一台防火墙做安全防护
3、出口一台路由器,有多条不同的运营商公网线路。
排查过程:
第一、检查设备配置
多出口环境,正常情况下会配置负载均衡,配置不全也可能会导致用户在访问外网的时候有异常。检查配置后确认,外网多出口配置没有问题。用户并未配置负载均衡,而是使用了策略路由的方法,将不同的用户分流到不同的运营商线路上。
第二、用的异常的电脑去PING打不开的网站
通过PING域名,确认网站打不开时,是否能够正常解析。经测试,可以正常解析。
第三、检查路由器相关的转换表项是否正常。
通过查看路由器的表项,可以确认用户访问该网站时,IP地址转换是否正确。访问网站时,数据收发是否有异常。
NAT转换列表如下,可以看到地址已经正常转换。
设备流表如下,可以看到Send和Receive字段的数值均正常。(有异常时,一般是Send字段有数值,而Receive字段为0)
流表解析:6代表TCP协议;源地址X.X.0.27,掩码32位;目标地址X.X.X.243,掩码32位
排查到此,基本确认出口路由器的转发没有问题。
第四、友商防火墙可能存在的问题
由于客户一开始描述问题是,问题直指路由器,且并未提到网络中存在友商防火墙,因此一直没有想到防火墙的问题。
通过前三步排查基本确定出口路由器没有问题,于是问客户是否有存在其他安全设备?客户表示网络中最近上了一台某厂商的防火墙。
于是让客户添加异常PC的IP地址到防火墙白名单中进行测试。添加后测试,网页可以正常打开了。让客户检查了防火墙日志后发现,用户在访问网站时,防火墙存在误判的情况,将正常的DNS解析归类为木马后门类威胁,并进行了阻断。
至此问题的原因已经比较清晰了。在防火墙上添加策略,放通到53端口的所有数据后问题解决,所有用户均可正常访问网站。
总结:
1、由于一开始客户描述故障现象时不够全面,让我误以为是某个出口的用户访问有异常。这让问题处理的时候绕了一些弯路。排查到后面发现,所有出口的用户都存在打开慢或者无法访问的问题。大概确定了是某台设备异常丢包导致的数据转发异常。
2、对全网拓扑不了解,凭经验对部分设备进行了排查。查了半天才发现,网络里还有一台友商的防火墙,也浪费了一些处理问题的时间。