针对硬件故障,系统存在四种中断MCE、NMI、PCIe AER中断、SMI中断。
MCE - Machine Check Exception
NMI - NonMaskable Interrupt
PCIe AER - Advanced Error Reproting 需要硬件、BIOS和driver支持,如果Pcie 设备发生硬件故障,则硬件发出PCIe AER中断
SMI - System Management Interrupt, 供BIOS/firmware使用,OS不直接使用。若硬件故障触发了中断,则通过MSI中断进入BIOS/firmware,由BIOS/firmware先处理硬件故障,根据处理情况决定是否通知OS继续处理。这种处理模式称为Firmware Firsh Model.
硬件故障处理流程:
若处于Firmware Firsh Model模式,则硬件故障首先交由BIOS/firmware处理,根据处理情况,决定是否以中断的方式通知OS;
若处于OS Native Model,根据硬件故障类型有不同的处理方式:
CPU/memory/chipset的无法恢复的故障通常触发MCE中断;
I/O故障可能触发PCIe AER中断;
其他硬件故障则触发NMI中断;
参考