在以前的项目中,遇到了很多网络问题,逐渐积累也做了记录,在这里不一一列举。
从今天开始把现在项目中遇到的问题blog出来。
一、项目中遇到服务器之间单向ping通的问题
具体描述:项目存在多级系统,其中服务器4台,客户端若干。在做完地址规划后,情况如下。
两个一级系统网段:
一级a:网段192.168.10.0/24,网关192.168.10.1,服务器192.168.10.254,192.168.10.253,客户端若干
一级b:网段192.168.20.0/24 ,网关192.168.20.1,服务器192.168.20.254,客户端若干
二级:网段192.168.30.0/24,网关192.168.30.1,服务器192.168.30.254,客户端若干
……
五级:网段192.168.50.0/24,网关192.168.50.1.
各级系统用路由器互联,路由器之间互联用ospf;交换机之间互联,使用rapid-pvst。
按理说很简单的系统环境,各网段互通也容易实现。但就是这样简单的环境,遇到了很多莫名奇妙的现象。
现象:
(1)有以太服务器ping其他服务器可以ping通,但其他服务器和客户端ping这台服务器死活ping不通。
(2)交换机全部开机后,随机出现客户端ping不通服务器。
解决思路:
(1)第一bug相对简单,排查完网络设备配置,没有什么出入方向的过滤,定位到是服务器防火墙问题。修改了服务器配置后,该现象得到解决。过程中也发现了掩码被同事修改的问题,配了多个网关的问题。一一消除隐患。
(2)第二bug真是让人苦笑不得,问题排查到最后,在一个房间的角落里,发现了一个交换设备,这台设备开关机时间不定,有的时候会开机,有的时候不会开机,因为演示环境工作和这个设备开机的时间纯随机。出现bug的时候,可能是碰巧了那台设备开机关机出现了反复的现象,所以二层网络出现了不稳定。把生成树协议配一致了,这个bug就解决了。
总结:
(1)网络环境尽量要保持稳定可靠,做好维护,最好有专门的人负责,而不要项目中的人都去接触。因为每个设计人员思路千差万别,设计的初衷和配置的方式也不尽相同,尽量避免人为的因素导致的网络不稳定,以至于增加工作成本和维护成本。
(2)遇到问题,先想思路,而不是着急上手直接开工,最好能根据现象确定一定的排查方向,有针对性的排查。排查问题要仔细,把该注意的点都要注意到。事无巨细,细微的不恰当的配置都会造成问题。
2018.05.31 南京
---------------------------------------------------------------------------------------------------------------------------
二、项目经历
之前在海外做的一期项目,遇到生成树抢根的问题。
现象描述:项目分多个站点,站点间使用三层互联。正常情况下,二、三层网络稳定。但在项目交付后一段时间,某一个站点内部会出现大面积网络瘫痪的情况,但一段时间后会恢复稳定,但现象出现无任何规律。导致上层应用数据库dump死锁。在dump锁死之后,即便网络恢复正常,数据库也不会恢复正常。现场的同事,对网络方面认知不深,时差、交流使得问题解决很费时间。
在这过程中,询问老外,老外一口咬定他们没做任何操作。后来事实证明,他们还是很不诚实的。
开始推测,生成树抢根,或者是中病毒了,但也只是推测。
因为时差问题,每天只能下午六点到夜里十二点这段时间和现场沟通,因为现场环境复杂,同事活动范围有限,现场很多情况都不受控制。
解决思路:完整确定故障现象,对故障现象了解的越多,解决的可能性越大。
起初,在做方案的时候,因为调研结果显示,网络环境孤立,不会接入任何外界网络,所以对生成树根的配置并没有足够重视,这也埋下了祸根。
经过几天的不断分析,沟通,现场排查,发现有外方有一个远程终端私接进入网路,中间接入了一个很古老的cisco交换机,造成stp抢根的现象出现。
最后,把本来的几台交换机的stp根做了保护,得到解决。
2018.06.01 南京
----------------------------------------------------------------------------------------------------------------------