Linux中的mce处理--mce学习笔记

最新推荐文章于 2024-06-12 14:59:13 发布

BigHerbert

最新推荐文章于 2024-06-12 14:59:13 发布

阅读量1.6w

点赞数 4

分类专栏： linux 内核文章标签： linux MCE machine check 机器

本文链接：https://blog.csdn.net/xiaocainiaoshangxiao/article/details/38046239

版权

本文详细介绍了Linux中的Machine Check Exception (MCE)处理，包括MCE的定义、重要性、x86 MCE架构概述以及处理函数面临的挑战。文章探讨了MCE在多核处理器和高性能计算中的必要性，以及处理MCE时的限制，如中断安全性和异步错误报告的复杂性。此外，还介绍了Linux内核中x86-64 MCE处理函数的重写，包括日志系统和配置选项，以及未来处理RAM和cache错误的改进方向。

摘要由CSDN通过智能技术生成

1.machine check 是什么？

machine check 是一种用来报告内部错误的一种硬件的方式。它包括 machine check exceptions 和 silent machine check。

其中，machine check exceptions(MCEs) 是在硬件不能纠正内部错误的时候发生，在这种情况下，通常会中断 CPU 当前正在运行的程序，并且调用一个特殊的异常处理程序。这种情况通常需要软件来进行处理，即 machine check exception handler。

当硬件能够纠正内部错误的时候，这种情况通常称作 silent machine check。当这种错误发生的时候，硬件会把相应的错误信息登记到特殊的寄存器中。之后，操作系统或者是固件（BIOS）就可以从这写寄存器中读取信息，登记和分析这些错误信息有助于提前预测机器硬件的故障。

2.machine check 很重要

随着每一代芯片中晶体管数量的增加，以及芯片大小的减小，硬件发生错误的概率也在提高，因此能够处理这种错误变得越来越重要。

另外，现在将许多计算机集成在一起进行高性能的科学计算也越来越流行。这些集群的计算机中，发生硬件错误的概率将比普通的计算机发生错误的概率要高，因此，为了保证可靠性，处理这些硬件错误也是很重要的。

产生 machine checks 的原因很多，这些来源包括 CPU，缓存，内部总线，内存等等，当然也有可能是驱动中的软件错误。

3.x86 machine check architecture 概述

intel 和 amd 的芯片都属于 x86 架构的。之前在 IBM 的机器中引入了记忆体（parity memory），当内存发生错误的时候，会出发一个NMI。随后的机器丢弃了记忆体，但仍然报告一些硬件的错误。之后，在 intel pentium 中又将基本的 machine check 加入到 CPU 中，并引入了MCA（machine check architecture）。MCA 包括一个标准的异常（18号中断），以及一些标准的寄存器 MSR（在有的地方全称是 model specific register，另外一些称为 machine specific register）。这些寄存器允许软件来检查，是否发生了一个 machine check &