3.4信息系统设施的故障诊断与修复
主要故障原因与现象
- 网络链路
网络链路是故障发生后首先应当考虑的原因。链路的问题通常是由网卡、跳线、信息插座、 网线、交换机等设备和通信介质引起的,其中,任何一个设备损坏,都会导致网络连接中断。
- 配置文件和选项
所有的交换机和路由器都有配置文件,所有的服务器、计算机都有配置选项,而其中任何 一台设备的配置文件和配置选项设置不当,都会导致网络故障。
- 网络协议
网络协议是在网络设备和计算机网络中彼此“交谈”时所使用的语言。
- 服务故障
服务故障主要包括三个方面,即服务器硬件故障、网络操作系统故障和网络服务故障。
当排除硬件故障之后,就需要重点检查配置文件和选项;当网络内所有的服务都无 法实现时,应当检查网络设备的配置,尤其是连接网络服务器的交换机的配置;如果只有个别服务无法实现,则应当检查提供相应网络服务的相关配置。
故障排除步骤
- 识别故障现象
- 对故障现象进行详细描述
- 列举可能导致错误的原因
- 缩小搜索范围
- 定位错误
- 故障分析
故障诊断方法
-
排除法
排除法主要是根据所观察到的故障现象,尽可能全面地列举出所有可能导致故障发生的原 因,然后逐一分析、诊断和排除。
-
对比法
对比故障设备和非故障设备之间的“软”“硬”差异,从而找出可能导致 故障的原因。可用于对比的内容包括网络设备、端口、线卡、系统配置和系统映像。
-
替换法
主要用于设备硬件故障的诊断,需要注意的是,替换的部件必须是相同品牌、相同型号的同类网络设备。
替换法还是平时维修计算机的一种方法
故障诊断与修复原则
-
先易后难
排除网络设备故障应当和平时工作一样,先从最简单、最有可能的导致故障的原因开始, 逐一进行排除。运维人员应将导致某种故障的所有原因一一列出,然后从中挑选出发生概率最 大、可能性最高且最易于诊断和排除的原因,并由此入手,这样才能提高故障排查的速度。
-
先软后硬
所谓“软”,就是指应当先借助网络管理工具软件,远程查看设备的各种配置(包括层路 由配置、访问列表配置、端口属性配置、VLAN 和VLANTrunk 配置等)、客户端的IP 地址信 息、端口的工作状态、网络设备的性能(CPU 和内存占用情况等)和运行状态,确认是否由系 统软件和系统配置等“软”因素导致了网络设备故障。然后,再用视图修改系统配置文件,升 级系统软件,重新激活端口或VLAN的方式,修复网络设备的“软”故障。
所谓“硬”,是指在“软”的手段不能奏效,进而怀疑端口、模块、板卡甚至网络设备本 身,以及网络链路发生故障时,以替换相应硬件或链路的方式,修复网络设备的“硬”故障, 恢复正常通信。
-
先边缘后核心
所谓先边缘后核心,是指在诊断和隔离网络故障时,应当先从最边缘的客户端开始,向接 入层、汇聚层和核心层进行,进而定位发生故障的位置,判断发生故障的设备,分析发生故障 的原因。
-
先链路后设备
通常情况下,网络设备发生故障的可能性比较小。与之相对应,网络链路由于接插件比较 多,而任何一个接插件的松动或故障都可能导致物理链路的中断。因此,在发生网络故障时, 如果确认是物理硬件故障,则应当先检查链路的完整性,然后再查看端口或设备是否发生故障。
故障诊断与恢复注意事项
-
应保证所有修复操作可恢复
为了保障全部具有潜在价值的数据,需要备份当前配置、保存虚拟机或 SAN 快照、留存也许会丢失或被覆盖的日志文件副本等,将可能受到影响的数 据复制到正常系统当中,以便应对故障修复工作可能带来的进一步恶化的情况,或在故障修复 成功后进一步针对原始故障数据研究分析,从而找出故障的深层次原因。
-
重视记录
运维人员需要详细记录故障观察结果及尝试过的故障排查操作步骤,这样 能够防止运维人员一再尝试无效的修复工作,或便于进一步针对故障现象和修复措施进行统计 分析。