昇腾千卡算力集群交付痛点及工具链思路

场地资源限制

算力设备普遍功耗较高,对数据中心L1的风火水电有较高要求,传统通用算力数据中心或运营商IDC机房普遍按照5kw~8kw单柜功率建设,而Atlas800T A2服务器单机功率高达5.2kw,汇聚交换机16808设备满配功率高达24kw,前期建设的数据中心很难满足算力集群底座的交付要求,普遍需要做数据中心基础设施的改造,而受前期建设的基础设施限制,改造幅度和空间常常是有限的,有多少房间,每个房间有多少机柜,机柜功率和空调散热负载,跨房间的光缆光芯数量等都需要根据算力集群的规模和未来的扩容计划详细设计定制化改造,而L2算存网设备的摆放位置由于需要深入考虑数据中心L1的供电,散热等现实条件,因此后期基本没有挪动余地,L1风火水电和L2算存网的解决方案是紧耦合的,不仅仅是设备数量的耦合,还需要深入考虑设备的落柜位置,设备跨机房关系等等,以9216卡的集群为例,涉及1700套算存网设备,需要使用6个机房的632个机柜,每个房间,机柜,列头柜的功率都需要详细设计负载,空调散热量,热仿真都需要仔细考虑,房间内设备走线不超过100米使用多模光纤和多模光模块,跨房间需要使用单模和单模光模块,机房改造方案和L2解决方案设备数量,设备摆放位置,走线方式等都是同时确定的,机房改造完成后,L2设备基本没有可大范围挪动的可能性,所以如果前期方案设计上出现偏差,必然导致后期L2设备无法落地或者L1产生二次改造返工的需求,必然导致项目工期延迟或客户成本增加。且项目前期一般有多个可选数据中心备选,客户需求还未最终定型,变更较多,如果无法快速准确测算,必将导致项目决策缓慢,项目后期风险大。X1项目是通过前期多名服务和产品线的专业人员一起反复验证评审,没有出现测算和改造上的失误返工,但投入了大量的工作量。因此这类项目特别是规模较大的集群,需要能够准确快速同时测算DC L1功率、散热、机柜、光芯、光模块、算存网设备数量、房间布放数量等的工具,实现算力集群场景L1和L2联动测算,保证方案一次性做对。

跨算力集群的验证测试工具的重要性

算力集群场景布线工作量较大(万卡集群光纤+网线布线约3.6万根,超100万米,跨6个房间,40个ODF架,3万多光模块),综合布线一定会存在部分鸳鸯线,错接等情况,施工过程中还可能因为灰尘等原因导致光纤端面脏污,如果无法保障所有线缆连接的准确性,线缆信号质量达标,后期必将导致模型训练不稳定和业务中断,造成后期客户投诉;且算力场景因设备多,华为及客户的维护操作人员多,不同人员配置部署和变更调整后,其他人很难获知情况,经常需要人工校验所有设备的设备状态,软硬件版本一致性,性能,配置参数等,这些需要极大的工作量,如果只依赖于人工的命令执行和观测,是非常低效和无法保证一致性的。X1项目中现场开发了校验脚本,可以快速校验出线缆连接、信号质量、配置部署、产品状态等各方面的问题,才能快速完成线缆连接准确性和质量的整改,随时发现和纠正集群里的设备异常和配置错误,让大型集群长期处于最佳状态,保障后续模型训练能够长稳运行。所以算力集群交付场景,需要跨多产品的集群验证和测试工具,能够基于LLD对集群所有组件进行校验。

针对计算集群(计算节点+网络),如何通过冗余备份或故障隔离来实现整个系统级的可靠性

1、计算集群的规模很大,HPC集群有数百万核、数万计算节点、数千网络节点,AI集群有千卡、万卡、10万卡,所以这种大规模复杂系统的可靠性首先是各域自身的高可靠,原有服务器、交换机、存储设备的RAS和可靠性措施都可以发挥重要作用。
2、其次,在业务层面,目前业界主要使用CheckPoint技术进行保护。通过周期性的保存计算状态和中间数据,当发生故障时,从上次保存的CheckPoint点恢复数据,继续运行作业。AI大模型训练中使用到的“断点续训”就是CheckPoint。
3、HW的CT领域已经积累了成熟的可靠性工程方法和经验,最近2年在探索把这些工程方法和经验应用到HPC集群和AI集群可靠性实践中。目前规划了计算CAT架构来开展这方面工作,CAT:Computing Availability Tools and Technologies,具体有CATModel(建模仿真)、CATHelper(节点容错)、DemonCAT(故障注入)、CATEye(故障诊断)、CATLake(故障数据湖)等

  • 16
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
升腾C92是一款计算机主板,BIOS(基本输入/输出系统)是电脑启动时运行的固件程序。升级BIOS可以提供一些新的功能,修复一些漏洞,以及增加系统的稳定性。 首先,在进行任何BIOS升级之前,我们需要确认是否有需要升级的原因。如果主板正常工作没有问题,没有遇到兼容性或功能方面的困扰,升级BIOS并不是必要的。 其次,在升级BIOS之前,我们需要备份原始的BIOS设置。这样,如果升级出现问题,可以恢复到之前的设置。 然后,下载适合升腾C92的最新BIOS版本。可以在升腾官方网站或相关硬件供应商的网站上找到最新的BIOS版本。务必确保下载的BIOS版本是适用于升腾C92的。 接着,将BIOS文件保存到一个可移动的存储设备,如U盘或光盘,并确保存储设备正确格式化。 然后,将存储设备连接到电脑上,并重新启动电脑。在计算机启动过程中,按下相应的按键(通常是Del键或F2键)进入BIOS设置界面。 在BIOS设置界面中,找到固件升级选项。根据主板的不同,可能有不同的选项名称。选择升级固件选项,并选择存储设备中的BIOS文件进行升级。 升级BIOS过程中,需要等待一段时间,直到升级完成。在升级过程中,不要关机或断电,以免造成严重的硬件问题。 最后,完成升级后,重新启动计算机,并检查是否成功升级。可以在BIOS设置界面或在操作系统中查看新的BIOS版本号。 需要注意的是,升级BIOS是一项风险较高的操作,如果升级过程中出现问题,可能导致不可逆转的损坏。如果没有足够的经验和技术知识,建议寻求专业人士的帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值