类似问题参考:
ip地址冲突导致ping时通时断显示超时问题处理过程_wj31932的博客-CSDN博客
无法上网故障排查过程及复现过程系ip冲突造成_wj31932的博客-CSDN博客_arp获取不到网关mac地址
一天,同事在群里反馈,外网访问困难,无法打开北京总部的oa系统,让排查一下。
看到问题以为到北京的vpn断了,登录路由器看一下出局的线路情况,发现路由器地址很难登录。打开客户端,半天没反应。
ping一下北京oa地址,显示有time out后面有导通显示。如下:
发现有time out现象,而且两包回的延时较大。正常时的ping是这样的:
总之,ping有时通,有时断。可能的原因:
1、前向源ip广播域或者后向目的ip广播域环境有设备冒充网关,导致有时ping的request发给错误的mac地址,而不是正确的网关设备,目的ip没有收到request而没有回reply,源设备等待超时。还有可能是源ip或目的ip设备的路由指向问题,比如双默认路由,也可能造成ping的部分request或reply去了另一个mac地址,而终结在这个设备上造成丢包。
2、目的ip环境存在ip冲突,目的网关把部分request消息发给错误的mac地址,导致真正的目的ip没有收到,而没有回reply,源设备等待超时。
3、源ip设备环境中存在ip冲突,导致网关把部分ping的reply消息发给错误的mac地址,源ip等待超时。
4、经过的中间节点网络拥塞或者目的设备处理能力拥塞,导致丢失部分前向request或者后向reply消息,或者目的设备未响应request消息,导致源设备等待超时。
ping出现稳定time out的可能性原因:
1、防火墙拦截的ping的request消息,导致高层无法收到,所以不回ping的reply消息。
2、跨网段环境中存在ip冲突或一设备多网卡,接在同一交换机下,回答了访问的arp请求,把错误的mac给了源主机,导致网关把ping的request消息发给其他mac地址。
3、也与目的主机的路由相关,没有回程路由,如同网段可能掩码错误,没有配置网关的话。
4、回程路由指向其他ip地址,导致源ip没有收到ping的reply消息。
5、ping消息的入接口和回程出接口不是设备的同一接口等等原因造成。
6、环境中传输有问题,误码过高或者带宽被占用,导致节点压包,丢包。
考虑内网访问路由器都很难登录,判断问题应该出在路由器和核心交换机的接口间。
如图:根据以往故障经验,可能是测试环境中有打流之类的操作,路由错误,送到核心交换机转发给路由器了。测试仪打流,正常时,不会发出到核心交换机。
登录交换机,登录很慢,登上后查看路由器和交换机的lan1口情况:
想去看一下是具体哪些访问的ip导致带宽被占,但路由器客户端自动退出,估计是心跳收不到,自动断开了。
看路由器的处理wan2-pppoe流量不大,判断是这个占带宽的包被防火墙拦截了,drop掉了。
结合以往经验,群里询问是否有用测试仪打流的,是否路由设置不对,导致打流送出到路由器了?有同事说他们在打流,让停一下检查一下路由?
一会反馈目的方服务器关机了,没有落地路由,导致网络节点送到默认路由走到出口路由器去了,已经停掉打流。这是登录路由器,很快登录上去,查看lan1口流量:
流量明显回落,ping总部oa也正常了。网络恢复。
问题分析:
询问他的打流组网流程,大概如下图:用测试仪的一个接口想给agw打流,agw转换后发给测试仪的另一接口。打流的目的ip是agw设备的一个ip地址,agw和交换机的一个接口19用10G光纤直连。
图中是 示意图,他打流的目的在agw上,ip是192.19.0.0/24网段的,这个ip是做在圈中交换机的19接口上上直连路由发出,当图中agw关机时,对应的圈中的接口19是down的,对应直连路由没有了,所以打流就从默认路由出去了。如下图路由关系:
正常时,三层交换机的路由关系:
因为交换机的接口19添加了有一个ip地址,直连agw,正常时,目的ip通过这个ip生成的直连路由发给agw设备, 当agw关机时,19接口down,导致直连路由消失,交换机把打流包送到默认路由的上级交换机,依次转发到路由器。上级交换机的路由。
核心交换机的路由如下:
结论:接口down导致直连路由消失,若是svi生成的直连路由,只要有一个接口,无论是access还是trunk只要使用了这个vlan,直连路由都不会down,这时,三层交换机回给源ip发destination
host unreachable的icmp消息,终止这个打流消息的继续转发。
带宽被抢占,导致正常访问的包,无法发出,积压丢包,延时被发出,导致回包延时。