- 博客(57)
- 问答 (1)
- 收藏
- 关注
原创 计算系统DFR
特性范围 SN Item 系统级 CORE 1 CORE故障检测隔离,复位 内部总线 2 故障检测 内部模块 3 模块级别独立复位,如DMA、Co-processor等 接口 4 接口级别故障检测与恢复,独立复位 安全 5 安全可信功能验证(类secure boot方案,确保安全功能实现) 锁频 6 锁频运行 板级 7 板
2023-11-06 22:14:56
191
原创 内核崩溃原因
4. 软件bug:指在代码上检测到运行到异常逻辑后调用BUG宏,从而产生oops,如果内核配置了panic_on_oops,就会触发panic2。5. soft lockup:指在一个CPU上运行的内核路径超过一定时间,其他进程都无法在该CPU上得到调度,典型的场景是spinlock死锁2。6. hard lockup:指在一个CPU上超过一定时间无法处理中断,内核异常关闭中断超过一定时间就会触发hard lockup2。2. 内核运行异常:可能由非法指令、内存访问错误或死锁等原因引起1。
2023-10-12 23:30:26
381
原创 PCIE memory read ordering
1、大内存一次读请求,保序返回数据;多次小内存读写,不保序返回数据2、一次读请求的Completion返回原则
2023-05-26 11:10:02
226
原创 关于security flash
2)每次启动时,可信根对BIOS里的文件进行校验,校验 方式同样是解密验签,只有验签通过的文件才允许启动。1)升级过程中,BIOS软件校验被升级文件,校验过程为解密验签,只有合法签名的文件才被允许升级。有两种方案,第一种是软件校验,第二种是可信根校验。
2023-05-22 15:36:56
180
转载 A77 Cache protection behavior&Error injection
Cache protection behaviorThe configuration of the RAS extension that is implemented in the Cortex-A77 core includes cache protection.In this case, the Cortex-A77 core protects against errors that result in a RAM bitcell holding the incorrect value.Th
2022-05-30 17:02:23
214
原创 Memory UCE错误检测纠错分析
在规模庞大的系统中,出现多个错误乃至单个存储器芯片完全失效的机率都大大增加。IBM引人了 Chpil来解决这一问题,许多大规模系统,比如IBM和SUN服务器和Google Clusters都使用这一技术。( intel 将其自己的版本俞名为 SDDC.) Chipi在本质上类似于磁盘中使用RAID方法,它分散数据和EEC信息,在单个存储器芯片完全失效时,可以从其余存储器芯片中重构丢失数据。 根据IBM的分析,1、假定有10000个服务器(每个处理器有4 GB存储...
2022-05-19 11:20:13
1331
原创 G、S、C、P、T STATE
EIST与Turbo与PState的关系Turbo是睿频开关,顾名思义,如果设为Enable,则CPU可以睿频运行。一般来说,EIST作为智能降频开关,优先级较高,如果EIST设为diable,则不允许CPU节能,CPU正常运行主频应当一直在标频。Turbo为睿频开关,当EIST设为disable后则Turbo应当加灰失效。PState属于ACPI中得一个概念,本节不是主要介绍ACPI,因此再此不多赘述,PState标志着CPU节能等级,如果PState被设置为Enable后,则CPU将会在不同..
2022-05-13 16:56:47
4018
原创 X86 IVR Fault View
集成电源:支持过压过流检测;有三种IVR,Boot IVR、Uncore IVR、Core IVR。• Boot IVR Fault:the first IVR brought up in the processor.1)FIVR_FAULT pin followed by the THERMTRIP_N pin assertion.2)The platform may attempt to reboot with the failing socket.3)If the Boot IVR...
2022-05-10 17:16:08
252
原创 FPGA SEU问题与SEM Core
Xilinx设计的SEM Core幸运的是,由于SEU现象发生的概率极低,绝大多数普通设计应用并不需要考虑这一问题。但是在航空、航天等高可靠性需求环境下,或者在一些高海拔地区,发生SEU的概率会相应增加。为了及时纠正这种SEU引发功能异常,进一步提高FPGA器件的可靠性,Xilinx开发了Soft Error MitigationCore,简称SEM IP。FPGA内部的存储单元主要分为4大类:Configuration RAM (CRAM), Block RAM (BRAM), Distribut
2022-04-21 10:38:13
1335
转载 x16为什么比x8慢?
x16为什么比x8慢?一句话答案:x16的内存颗粒有2个bank group,而x8的内存颗粒有4个bank group:我们拿Micron的8Gb内存颗粒[2]举例。同意提供8G bit的容量,它有三种Fuze:分别是2G x 4;1G x 8;512M x 16。同样容量,厂家提供这三种配置有它们不同的应用场景:1.x4主要用来搭建大容量内存条(想想为什么)。但因为每个rank都需要16个颗粒,所以信号完整性要求高,一般用在服务器领域。2.x8是出货量最大的,最通用的配置,一
2022-04-15 10:52:43
3285
原创 硬件系统复位分析
复位是使系统恢复到默认已知状态的一项操作,用于上电初始状态进入、异常后恢复系统的一项操作。主要有上电复位、手动复位、硬件复位、软件复位、部分复位1)上电复位:俗称冷启动,与系统下电重启接近,系统电源时钟等正常后,系统进入默认已知状态,全部寄存器恢复到默认值,硬件系统重新初始化。2)手动复位:根据用户需要,手动触发复位3)硬件复位:与上电复位冷启动差异在于,系统部分恢复默认状态,存在部分记录启动状态标记的寄存器差异4)软件复位:根据需要,通过软件可以复位5)部分复位:如DDR模块复位、
2022-02-27 14:26:19
1912
转载 MCE-inject功能
mce-inject功能 mce-inject用于测试mcelog能否正确的获取硬件错误信息,并进行正确解码,mce-inject可以向内核注入指定的错误信息,因此,可以很方便的了解到mcelog的功能是否正常。这里需要注意的是,当用户利用mce-inject工具向内核注入不可恢复错误(如:fatal)时,会发生死机重新启动等现象,当然,可以通过更改sys文件系统下的tolerate文件来避免此现象的发生。 tolerate文件配置 位置:/sys/devices/sy...
2022-02-17 15:25:11
597
ARM处理器,TLB error后硬件和软件的动作是怎么样的?
2021-12-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人