GPU
文章平均质量分 90
GPU运维体系
alden_ygq
一枚北漂5年多的资深SRE菜鸟,专注SRE方向,专注于运维体系建设。个人宣言:先努力成就自己,再用知识成就他人。
展开
-
GPU系列(六)-NVIDIA GPU 驱动安装
为了让 Kubernetes 能够发现 RDMA 设备,比如 IfiniBand ,并且被多个 Pod 使用,需要安装 k8s-rdma-shared-dev-plugin。命令可以看到一个 CUDA 的版本号,但这个版本号是 CUDA driver libcuda.so 的版本号,不是 CUDA Toolkit 的版本号。下载对应的版本,选择 Local Installer for Linux x86_64 (Tar) ,会得到一个 tar.xz 的压缩包。选择对应的版本下载。选择对应的驱动版本下载。原创 2024-05-05 17:24:20 · 732 阅读 · 0 评论 -
GPU系列(五)-nvidia-smi 基本使用
nvidia-smi 全称是 NVIDIA System Management Interface,是 NVIDIA 提供的管理和监控 GPU 的接口。nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library,提供了一组 C API,用于 NVIDIA GPU 监控和管理的库。原创 2024-05-02 12:56:11 · 724 阅读 · 0 评论 -
GPU系列(四)-常用 GPU 运维及故障处理
看到有 NVlink、NVSwitch 报错,或者报nvidia-smi 找不到 device handle,Unknown Error 错误,或者重启之后少卡。执行以下命令,能直接看到 GPU 编号及温度。除了一些物理的方法,从纯软件层考虑,可以直接将温度超过阈值的 GPU 上面的应用程序杀掉,使其更换到其他的 GPU 上。启用 nvidia-persistenced 持久模式,让驱动程序保持加载状态,可以很大幅度的缓解这个问题。因为 Pod 中的 cuda 版本过低,与节点上的 cuda 版本不匹配。原创 2024-05-02 12:15:30 · 919 阅读 · 2 评论 -
GPU系列(三):如何管理GPU
当然如果你使用设定了时钟频率或功率限制的GPUs的话(当驱动不加载的话,这些设置会丢失),持久模式将是非常有必要的。理想状态中,你想让所有的时钟都一直运行在比较高的速度,但是对于所有的应用来说是不可能的。该接口可以查看到当前主机上的相关GPU设备,任务以及当前状态等信息,熟练使用该接口能够更好的管理好GPU系统资源。要适当的利用更先进的NVIDIA GPU优势(例如GPU Direct),因此系统的拓扑结构的正确配置是非常重要的。查看当前GPU的时钟频率,默认的时钟加速和最小的时钟频率。原创 2024-04-30 17:39:38 · 976 阅读 · 1 评论 -
GPU系列(二):GPU相关操作
1、查看主机的GPU类型2、安装与确定GPU驱动这个地方说安装驱动前必须要安装对应的kernel-header和kernel-devel根据GPU的类型选择合适的驱动3、安装CUDA目前发现:10.2的cuda绑定了440.33的驱动,安装10.2的cuda会报错,除非先卸载驱动4、安装nvidia-docker-2.05、安装k8s集群6、安装nvidia的设备驱动7、运行一个GPU用例8、GPU调度的原型设计与评审。原创 2024-03-08 11:52:22 · 811 阅读 · 0 评论 -
GPU系列(一):GPU 与 CPU异同
CPU图形处理单元(GPU)函数处理服务器主要处理功能的通用组件擅长并行计算的专业组件处理专为串行指令处理而设计专为并行指令处理而设计设计更少、更强大的核心核心比 CPU 多,但功能不如 CPU 核心强大最适合通用计算应用程序高性能计算应用程序。原创 2024-04-30 16:14:21 · 584 阅读 · 0 评论