本方案是企业内训课程《华为昇腾智算中心深度技术研修》的一部分授课课件的样例。方案内容中详细阐述了华为昇腾环境下智算中心的测试方案和标准,以确保硬件和软件系统在实际部署和运行中的高效性和稳定性。主要内容包括集群硬件清单、节点拓扑配置以及环境配置。硬件部分涵盖了CPU、GPU、内存、存储和网络等组件的具体型号、规格、性能指标和测试目标,如CPU的单核/多核性能、GPU的AI加速能力、内存的读写带宽、存储的IOPS等。
测试方案针对各组件及其组合进行了全面的基线测试和功能测试,涉及单节点及多节点的多种性能指标,包括计算能力、网络通信效率、存储系统性能等。同时,提供了测试工具的使用方法和流程,如sysbench、fio、iperf等,帮助用户准确评估系统性能,识别潜在瓶颈和优化空间。
此外,文件还详细介绍了如何通过配置集群管理工具(如Slurm和Kubernetes)来实现任务调度和负载均衡,确保系统资源的高效利用。整体方案全面覆盖了从基础设施搭建到性能优化的各个环节,提供了系统性的测试框架和参考标准,为构建高效、安全的智算中心提供了重要依据。
智算集群整体测试方案
a.硬件测试的基本流程
硬件清单和测试目标内容
- 集群硬件清单:主要记录集群中的各类硬件组件,如CPU、GPU、内存、存储、网络设备等。这张表着重于每个硬件的规格、性能基线和测试目标。
- 集群节点拓扑与配置清单:记录集群的整体架构,包括节点的数量、类型、硬件配置,以及它们的角色和网络拓扑结构。这张表主要用于分析和测试集群中各节点的布局、连接方式以及它们在分布式系统中的协同工作效率。
表1:集群硬件清单
用于列出每个硬件的具体型号、测试目标以及厂商提供的性能基线。适用于单个节点或组件的详细测试。(根据实际环境会进行调整,这里举个例子)
硬件组件 |
型号/规格 |
测试目标 |
厂商提供的基线 |
其他重要指标 |
备注 |
CPU |
华为鲲鹏920 |
- 测试单核/多核性能 |
- 单核性能:1,200 SPECint |
- 指令集执行效率 |
厂商提供的SPEC CPU测试结果为参考 |
GPU |
华为昇腾910 |
- 测试AI模型加速性能 |
- AI加速:150 TFLOPS |
- GPU温度与散热能力 |
基于MindSpore或TensorFlow框架的AI基线测试 |
内存 |
512GB DDR4 2933MHz |
- 测试内存读写速度、带宽 |
- 带宽:45 GB/s |
- 内存利用率 |
使用STREAM测试带宽,延迟基于厂商数据 |
网络 |
华为100Gbps 高速以太网卡 |
- 测试跨节点网络带宽 |
- 带宽:98 Gbps |
- 数据包丢失率 |
使用iperf/netperf测试网络带宽与延迟 |
存储 |
华为OceanStor存储系统 |
- 测试存储读写性能 |
- IOPS:350,000 |
- 读写延迟 |
使用fio测试存储系统IOPS和吞吐量 |
GPU加速卡 |
华为Atlas 300 (昇腾310) |
- 测试推理性能 |
- 推理速度:64 TOPS |
- GPU通信带宽 |
推理加速基线基于NVIDIA NCCL等通信库测试 |
存储(SSD) |
2TB NVMe SSD |
- 测试读写速度 |
- 顺序读写:3.5 GB/s |
- SSD耐久性(TBW) |
使用fio测试读写性能 |
表2:集群节点拓扑与配置清单( 参考数据,以实际环境为准)
用于记录集群中每个节点的角色、硬件配置和网络拓扑。适用于评估集群的整体布局和节点间的协同工作。
节点类型 |
节点数量 |
节点硬件配置 |
角色 |
网络拓扑结构 |
其他重要信息 |
计算节点 |
10 |
CPU: 华为鲲鹏920 |
- 主要用于计算任务,运行AI模型 |
星形结构,通过高速网络交换机连接 |
- 各节点通信带宽 |
存储节点 |
3 |
存储: 华为OceanStor |
- 主要用于存储数据集 |
与所有计算节点连接 |
- 存储IOPS |
管理节点 |
2 |
CPU: 华为鲲鹏920 |
- 管理整个集群任务调度 |
环形结构,管理所有计算节点 |
- 集群资源调度效率 |
网络节点 |
1 |
Mellanox 100Gbps 高速网络设备 |
- 负责跨节点通信与负载均衡 |
树形结构 |
- 网络延迟 |
环境配置说明:
智算中心环境配置表格(实际环境搭建后修改配置清单)
配置项 |
配置内容 |
版本/规格 |
配置工具/方法 |
备注 |
操作系统 |
Linux 发行版(如Ubuntu, CentOS, EulerOS) |
Ubuntu 20.04 / CentOS 8 / EulerOS |
操作系统安装光盘或网络安装包 |
确保与硬件、驱动、AI框架兼容 |
CPU驱动 |
安装和配置CPU相关驱动 |
针对华为鲲鹏920的最新驱动 |
系统自带工具或厂商提供的驱动程序 |
确保多核CPU性能正常,支持多线程并行 |
GPU驱动 |
安装GPU的驱动程序 |
昇腾910/310 GPU驱动 |
Ascend Driver Installation (CANN) |
支持深度学习和GPU加速的驱动程序,确保GPU正常工作 |
AI框架 |
安装AI框架(如TensorFlow, PyTorch, MindSpore) |
TensorFlow 2.6 / PyTorch 1.9 / MindSpore 1.3 |
通过pip或conda安装 |
确保AI框架与GPU和计算资源兼容 |
集群管理工具 |
集群调度和管理工具 |
Slurm / Kubernetes |
通过apt、yum等包管理工具安装 |
确保任务调度与负载均衡功能正常 |
网络配置 |
配置节点间的网络连接,优化网络带宽和延迟 |
Mellanox 100Gbps 网络接口卡 |
使用网络配置工具,如ifconfig, iperf |
确保节点间网络带宽最大化,延迟最小化 |