新华三联合英特尔共同增强服务器内存的可靠性

H3C-Navigator

已于 2023-01-13 16:03:35 修改

阅读量1.8k

点赞数 2

分类专栏：英特尔服务器文章标签：服务器网络

于 2023-01-13 09:57:02 首次发布

本文链接：https://blog.csdn.net/weixin_45882672/article/details/128669491

版权

服务器同时被 2 个专栏收录

6 篇文章

订阅专栏

英特尔

1 篇文章

订阅专栏

文章介绍了如何通过英特尔的MemoryResilienceTechnology、DDR5内存特性和RAS功能提升服务器内存的健康状况和稳定性，预防灾难性故障，减少宕机率。新华三利用这些技术与严格的测试流程，确保服务器的高可靠性，降低了由内存故障导致的宕机事件达50%。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

挑战：

• 实时洞察服务器内存健康状况
• 发现潜在的灾难性服务器内存故障
• 对部分可修复的内存故障进行自愈处理

解决方案：

• 英特尔内存故障管理技术
• 英特尔®至强®可扩展处理器的RAS特性
• DDR5 On-die ECC，ECS，带外管理能力，PPR技术
• 整机生产时的内存smart压力测试

要点综述：

新华三作为中国本土具备服务器自研能力的设备供应商，长期致力于为客户提供各种贴近客户需求的服务器。其中高可靠性是服务器在大多数应用场景下的必选项。新华三公司拥有深厚的技术积累、完备的工程师团队、全面的可靠性测试设施、完善的流程体系，这些条件是进行服务器可靠性设计的前提保障。

英特尔作为半导体行业和计算创新领域的全球领先厂商，致力于不断推进半导体设计与制造，其提供的英特尔至强系列可扩展处理器，推动着x86服务器市场的发展。英特尔与新华三保持着长期紧密的合作，双方携手充分地利用数字技术的力量，助力客户业务创新及发展。

内存是服务器设备的核心部件，DDR5作为内存模块的最新标准，具有低电压，容量大，密度高等特性。内存工艺的特性决定：在内存条整体面积不变的情况下，容量越来越大，存储单元之间的间距越来越小，相邻存储单元之间的干扰风险也越来越大；在内存速率提高、电压降低的情况下，对于采样的精度也要求越来越高的背景下。对内存单元采用必要的可靠性设计势在必行。

服务器上集成内存的数量越多，因内存故障导致整体宕机的风险也越高。大多数服务器设计采用12/24/32条内存槽位结构，平均每台服务器设备板载11条内存。同时，根据现网宕机根因分析情况，内存故障是导致服务器宕机的最根本原因。

新华三服务器在研发、生产过程中，在内存可靠性方面与英特尔、内存供应商有着长期紧密的合作，为客户提供高效、安全的解决方案。

关键技术点：

英特尔内存故障管理技术

英特尔®内存故障预测技术根据内存故障在空间和时间上的分布情况，进行内存故障预测及分析，可提前对潜在故障点进行预防性处理，进而提升内存可靠性，保证系统的稳定性，也可支持在灾难性内存故障发生前触发预防措施（例如工作负载迁移等）。英特尔与国内多家大型互联网机构均有合作，在其数据中心的部署过程中采用英特尔®内存故障管理技术，根据数据表明，英特尔®内存故障管理技术可以有效降低40%以上由内存硬件故障导致的宕机。

１）持续优化的分析预测模型

服务器对DIMM、Rank、Bank、列、行、DQ等单元的实时数据进行采样，并输入到内存故障分析模型中，以此生成内存健康状况评估，并将其应用于预测潜在故障。

２）提供实时内存健康状况可视化功能

提供完善的内存潜在故障输出机制以及内存故障修复记录清单，以便辅助用户进行内存潜在故障诊断。

３）支持内存可靠性感知工作负载迁移

内存故障分析结果可通过SEL、Redfish Event、控制台页面、SNMP等多种通道输出，更上层的运维管理系统可以根据策略需要决定是否进行工作负载迁移。

４）优化操作系统页面离线功能

内存故障分析结果同时可与操作系统联动，进行内存潜在故障页面的隔离操作。当特定内存区域的错误突然爆发时，该内存区域很可能会发生不可纠正错误，进而引发系统宕机。通过提前分析确定内存故障点，并可根据配置来触发操作系统对缺陷页进行隔离操作，完成数据迁移，防止内存潜在故障页被再次使用，进而减少内存不可纠正错误发生的风险。

５）减少不必要的DIMM更换

通过分析内存错误和预测潜在的内存故障，在日志与控制台页面准确标识潜在故障内存的位置信息并自动隔离该区域，减少DIMM的更换数量和频率，让运维更加简捷、高效。

全面集成英特尔内存相关的RAS特性

英特尔RAS特性，可根据应用场景的需求，配置使能ADDDC、Memory Mirror、Patrol Scrub、PPR等技术。通过使用空间来换取，来进一步提高内存的可靠性和可用性。
1） ADDDC（Adaptive Double Device Data Correction，自适应的双设备数据纠错技术），能够降低服务器停机时间，降低服务器宕机率；其核心是基于动态的虚拟锁步技术，当内存出现故障时，动态的最小化的组建虚拟锁步区域以纠正错误，在对内存性能的影响最小化情况下，达到最高纠正两个设备数据的能力，大大提升服务器的可用性。
2） Memory Mirror（内存镜像技术），在同一个内存控制器的不同内存通道间存储两份相同的内存数据，能够防止由于内存不可纠正错误导致的系统宕机；当内存不可纠正错误出现在内存镜像区域时，处理器会自动从冗余备份区域获取正确数据，使系统能够持续的正常运行。内存镜像技术支持全镜像和部分镜像，最高支持50%的内存用作备份数据，为内存提供全方位的保护功能。
3） Patrol Scrub（内存巡检技术），周期性的利用空闲时机对所有内存进行检查，提前发现并纠正可纠正错误，防止可纠正的单比特错误升级为不可纠正的多比特错误，并对检测到的可纠正和不可纠正错误进行故障上报，Kernel可提前对故障Page进行Offline，防止故障扩散。
4） PPR(Post Package Repair，内存封装后修复技术)，可以在出现故障后，使用冗余的ROW直接替换故障的ROW，完成内存的故障修复，而不影响性能。每一个内存Bank Group包含一个Spare ROW用于故障修复。
5）Rank Sparing（Rank热备技术），使用同一内存通道中的未使用的备用Rank替换掉故障Rank，故障Rank基于内存可纠正错误阈值和错误漏水技术进行预测判定；使用内存热备技术可防止潜在的单比特错误升级导致的内存不可纠正错误出现，保障系统持久稳定运行。

全面集成DDR5自身的监控能力

DDR5集成可靠性保障措施，客户可根据业务场景选择是否在新华三服务器上启用该功能。例如默认开启On-die ECC功能，以便在现场及时纠正内存的ECC错误（大多来自宇宙射线、外部高速粒子的影响）。带外持续基于I3C总线对内存上PMIC、TS等单元进行实时监控，实时掌控内存的工作环境；对ECS进行采样分析，确认ECS结果是否有突变，以此预测内存是否存在故障。

严格的测试与安全保障措施

高品质的服务器，离不开严格的测试过程。新华三服务器从设计、研发到制造都经过严格的把控。硬件测试充分验证服务器可在震动、高低温等多环境下保障正常工作；部件层面，反复论证内存相关参数的使用方式，确保出厂参数的合理性，并在BIOS/BMC中集成大量的监控点，对内存故障进行持续监控、异常事件采样。集成多处配置点，可以满足不同应用场景的使用需求。对于开启阶段发现的内存错误进行有效拦截处理，可发现内存相关的大多数故障事件，并可根据预定目标进行针对性的预防性处理。
高品质的服务器，也离不开严格的工厂制造流程。新华三服务器制造过程中，对内存采用严格的参数条件进行检测，经历长时间压力测试，一旦发现内存相关告警就进行拦截处理，通过严格的生产控制环境来保障内存的良品率，且有充足的参数裕量。