偶然登陆服务器时发现有一个错误提示,使用abrt-cli
发现是MCE错误
MCE(Machine check events)大概意思是处理器检查到了错误,接下来使用journalctl | grep -iA 20 mce
可以看到是处理器1的第二个内存出现了错误
图中我们可以看到是EDAC(Error Detection And Correction)发出的通知,当尝试对错误的地方进行修复并且修复失败的时候会发出通知,这说明内存将要出现问题,我们也可以通过下面的方式验证是哪个内存出现的问题,拿我的举例,进入/sys/devices/system/edac/mc/mc1
目录中查看ce_count来判断是那个内存出现问题
除此之外还可以使用edac-utils包进行查看,实话实说这个可能更方便