在x86服务器,BIOS需要与各种硬件和芯片打交道,当然也包括BMC(Baseboard Management Controller)。
BIOS与BMC之间的通信,主要使用的是IPMI。有2个阶段,PEI和DXE(包括DXE后面的),用的是不同的IPMI函数(这点需要注意)。
虽然使用的是IPMI,但是会有两个通道,分别是KCS、BT。一般使用KCS通道。
请记住,BMC是不能主动与BIOS通信的;BIOS会发送IPMI命令给BMC,BMC如果成功接收的话,就会有个返回信息给BIOS,所以“看起来像是BMC可以与BIOS通信”。
如果产生了通信故障如何解决:
(1)确认BIOS是否发送了IPMI命令给BMC,可以查看BMC返回的completion code;
(2)确认BMC是否收到了BIOS发送的IPMI命令;
(3)如果BIOS发送了IPMI命令,但是BMC未接收:可能是BMC的IPMI进程正处于忙碌状态,所以丢掉了这条IPMI命令(BIOS这边如果发送失败,可以尝试多次发送;另外,可以稍微调高点KCS通道的延时);当然,也有可能是BMC的IPMI进程挂了。
(4)如果涉及到了底层协议的具体实现,一条IPMI命令通常涉及到2个底层实现函数,SendDataToBmcPort()和ReceiveBmcDataFromPort()。接收时,BIOS从KCS的I/O端口读取数据,读完后,会检测KCS寄存器中OBF状态寄存器,如果BMC没有写数据,就会计数减1,延时5ms,然后重试;当BMC一直不写数据时,计数到0,就认为BMC有故障,返回Device Error;
(如果真遇见了(4)中所述问题,那我只能祝你好运了,底层I/O读写,与硬件关系比较大,建议拉上硬件。其实,这种情形极少遇见,即使遇见了,基本也多是单机故障)
最后,推荐大家一本书《ipmi-second-gen-interface-spec-v2-rev1-1.pdf》,其实就是IPMI2.0规范,里面详细讲解了IPMI,遇见相关问题可以看看。