阿里如何做到百万量级硬件故障自愈？

最新推荐文章于 2023-03-17 10:09:01 发布

xstardust

最新推荐文章于 2023-03-17 10:09:01 发布

阅读量201

点赞数

本文链接：https://blog.csdn.net/xstardust/article/details/84655314

版权

本文详细介绍了阿里如何通过自动化硬件自愈平台DAM，实现硬件故障的及时发现、自愈与业务迁移，确保大规模服务器集群的稳定性。DAM结合天基应用管理体系，利用智能分析和自动化流程，覆盖硬盘、内存等硬件故障，实现故障发现、收敛和自愈，降低了人工运维的依赖，提升了系统鲁棒性。

摘要由CSDN通过智能技术生成

随着阿里大数据产品业务的增长，服务器数量不断增多，IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断，成为稳定性影响的重要因素之一。本文详细解读阿里如何实现硬件故障预测、服务器自动下线、服务自愈以及集群的自平衡重建，真正在影响业务之前实现硬件故障自动闭环策略，对于常见的硬件故障无需人工干预即可自动闭环解决。

1.背景

1.1.面临挑战

对于承载阿里巴巴集团95%数据存储及计算的离线计算平台MaxCompute，随着业务增长，服务器规模已达到数十万台，而离线作业的特性导致硬件故障不容易在软件层面被发现，同时集团统一的硬件报障阈值常常会遗漏一些对应用有影响的硬件故障，对于每一起漏报，都对集群的稳定性构成极大的挑战。

针对挑战，我们面对两个问题：硬件故障的及时发现与故障机的业务迁移。下面我们会围绕这两个问题进行分析，并详细介绍落地的自动化硬件自愈平台——DAM。在介绍之前我们先了解下飞天操作系统的应用管理体系——天基（Tianji）。

1.2.天基应用管理

MaxCompute是构建在阿里数据中心操作系统——飞天（Apsara）之上，飞天的所有应用均由天基管理。天基是一套自动化数据中心管理系统，管理数据中心中的硬件生命周期与各类静态资源（程序、配置、操作系统镜像、数据等）。而我们的硬件自愈体系正是与天基紧密结合，利用天基的Healing机制构建面向复杂业务的硬件故障发现、自愈维修闭环体系。

477062ebbd519ce80cd2ff3c1c84b2e8b99f6f79