服务器的GPU使用率显示100%怎么办？

正宗六脉神剑

已于 2024-03-07 12:35:33 修改

阅读量2.3w

点赞数

分类专栏： Linux 文章标签： GPU GPU服务器

于 2020-06-28 18:01:34 首次发布

本文链接：https://blog.csdn.net/weixin_43837883/article/details/107005101

版权

Linux 专栏收录该内容

112 篇文章

订阅专栏

本文介绍了一种解决GPU使用率始终显示为100%的问题方法。通过分析发现，这可能是由于NVIDIA驱动中的ECCMemoryScrubbing机制导致。文章提供了具体的解决步骤，即通过执行nvidia-smi-pm1命令，将GPU驱动设置为Persistence模式，从而恢复正常GPU使用率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当我们使用nvidia-smi 查看 GPU 状态时，显示GPU使用率100%

在这里插入图片描述

那么该如何解决呢？

分析后，可能的原因是加载 NVIDIA 驱动时，ECC Memory Scrubbing 机制造成的。

解决办法：

执行 nvidia-smi -pm 1 命令，让 GPU Driver 进入 Persistence 模式。

首先登陆我们的GPU云服务器，输入下面的命令：

nvidia-smi -pm 1

在这里插入图片描述

然后再来查看一下GPU 使用率

nvidia-smi

在这里插入图片描述

可以看到已经显示正常了。

阿里云服务器优惠活动及详细教程：syunz.com/act/aliyun
腾讯云服务器优惠活动及详细教程：syunz.com/act/qcloud

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

正宗六脉神剑

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

GPU负载达到100%可能会引起的问题及解决方法

2301_79326254的博客

09-24

3357

通过设置GPU内存的增长为动态模式，并设置GPU内存的限制，可以确保其他任务可以获得足够的资源，从而减轻性能下降的问题。通过设置GPU内存的增长为动态模式，并设置GPU内存的限制，可以确保其他任务可以获得足够的资源，从而减轻性能下降的问题。通过设置GPU内存的增长为动态模式，并设置GPU功耗的限制，可以确保GPU的能耗在可接受范围内，从而降低电费成本。通过设置GPU内存的增长为动态模式，并设置GPU功耗的限制，可以确保GPU的能耗在可接受范围内，从而降低电费成本。

图神经网络训练与GPU调动的问题：使用图神经网络（GNN）时，尽管 GPU 显存占满，但是 GPU 利用率低，如何解决？

最新发布

**My Coding Family**

04-30

912

🏆 本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你早日登顶，迈向财富自由的梦想🚀！同时，欢迎大家关注、收藏、订阅本专栏，更多精彩内容正在持续更新中。让我们一起进步，Up！Up！Up！备注：部分问题/难题源自互联网，经过精心筛选和整理，结合数位十多年大厂实战经验资深大佬经验总结所得，数条可行方案供所需之人参考。

参与评论您还未登录，请先登录后发表或查看评论

GPU占用率100%是否正常及解决方法

nntxthml的博客

10-10

3320

GPU占用率达到100%在特定情况下是正常的，但长期高占用率可能会对显卡造成不良影响。用户可以通过增加内存容量、更换显卡、加强散热以及优化系统设置和服务等方法来降低GPU的占用率。这些方法不仅可以提高系统的运行效率，还可以延长显卡的使用寿命。在使用电脑的过程中，用户应该时刻关注硬件的性能指标和运行状态，及时发现并解决潜在的问题。通过合理的硬件升级和系统优化，用户可以享受到更加流畅和高效的电脑使用体验。

Gpu占用率100%电脑Gpu占用高的解决方法

MaYuntpkf的博客

08-27

8799

总结：电脑GPU占用率过高的问题可能由多种原因引起，包括驱动程序、硬件故障或过热等。通过检查驱动程序、硬件问题、程序问题、优化游戏设置、重新安装驱动程序以及检查其他硬件等方法，可以有效地解决这个问题。当我们发现电脑的GPU占用率达到了100%，并且GPU占用率过高时，可能会遇到各种问题，如电脑运行缓慢、游戏性能下降等。这通常是由于程序或驱动程序错误、硬件故障或过热等问题导致的。请注意，在执行任何可能导致数据丢失或系统损坏的操作之前，最好备份重要数据。此外，如果你不确定如何操作，最好寻求专业人士的帮助。

桌面窗口管理器 GPU 3D 占用100% 的解决方法

shelley_chason的博客

10-27

2万+

桌面窗口管理器 GPU 3D 占用100% 的解决方法

cpu占用100_Win10 CPU占用率100%解决办法

weixin_39927059的博客

11-14

3395

CPU占用率高怎么办，最近有网友遇到了一个比较奇怪的电脑问题，在并没有开启太多城西的情况下，出现Win10系统CPU占用率100%情况，显然这是由于CPU占用率过高，导致电脑卡顿。那么，遇到CPU占用率100%怎么办呢？如果不是开启了太多程序或者在关闭软件后，CPU占用率依然很高的话，可以尝试以下几种方法解决。方法一：1、使用 Win + R 组合快捷键，打开运行对话框，然后键入 regedit ...

显卡风扇不转导致GPU占用100%

柳鲲鹏

08-25

5804

　　从昨天下午开始，视频测试工作，经常卡顿，几乎成了动画。使用nvidia-smi一看，GPU占用100%。这是怎么回事？　　昨晚回去想了半天，猜测跟温度有关。早上来开始测试，一切正常……就是GPU升温太快了，不到10次就超过90度，风扇100%。这…… 　　于是让主管过来看看，他也纳闷，汝程序使用GPU太高？温度95度，查一下机房的1080显卡也就50度什么的（长期使用，占用率高）。于是他...

shell脚本：CPU和GPU压力测试工具，使CPU和GPU占用率达到90%

04-26

脚本中的 GPU 使用率和内存使用率的部分可能需要根据你的环境进行调整或修改，特别是涉及到 GPU 类型和内存大小的部分。在执行这个脚本之前，请确保你的服务器环境能够承受高负载，并且不会影响到其他人或系统的...

监控gpu使用率python代码

小舟的博客

04-24

902

message = "连续三次检测到 GPU 占用率低于 50%，将执行关机操作。print(fr'gpu使用率为：{gpu_utilization[0]}%')在服务器上面跑代码时，怕代码跑完了，云平台服务器还一直开着收费，特别是晚上离开实验室回去睡觉。os.system('shutdown /s /t 1') # 关机命令。os.system('poweroff') # 关机命令。time.sleep(30) # 每半分钟检查一次。print("GPU信息:")# 连续低占用率计数器。

【服务器操作指南 - GPU 使用与文件传输】轻松掌握 GPU 状态查看和服务器文件传输技巧

weixin_50512050的博客

03-28

631

在使用服务器时，高效管理 GPU 和文件传输是两项不可或缺的技能。本指南旨在帮助您快速掌握服务器环境下的 GPU 使用状态监测方法，并简要介绍如何在服务器之间进行文件传输操作。

GPU利用率背后的性能真相

OneFlow深度学习框架

08-27

5599

一般而言，机器学习团队理解GPU使用情况的常见度量标准是GPU利用率，通常通过在终端中运行nvidia-smi来查看。许多集成的可观测性工具也将GPU利用率作为其主要性能指标进行跟踪。然而，AI Infra团队Trainy在实操中发现，GPU利用率并不总是理解GPU性能的最佳指标。实际上，在不做任何计算的情况下读取/写入内存，就可达到100%的GPU利用率！本文作者Roanak Baviskar在...

查看GPU服务器内存利用率和GPU利用率命令：nvidia-smi

weixin_40945354的博客

07-25

2028

未运行任何程序，GPU使用率却居高不下(接近100%)

热门推荐

sinat_28750977的博客

04-28

2万+

问题：从图中可以看出，没有任何GPU程序正在运行，但是第4块显卡的GPU-Util却到达了82%。解决方法：执行命令：nvidia-smi -pm 1将驱动模式设置为常驻内存。结果：...

[cuda]仅仅内存拷贝，gpu使用率也可以达到100%

I have a adream

07-15

3261

测试代码如下： #include <cuda_runtime.h> #include <stdint.h> #include <iostream> int main(){ int64_t mem_size = 1024*1024*1024; char *d1; char *h1; auto err = cudaSetDevic...

CPU利用率100%.怎么回事?

飞鸽传说的博客

12-25

3928

首先，如果是从开机后就发生上述情况直到关机。那幺就有可能是由某个随系统同时登陆的软件造成的。可以通过运行输入“msconfig”打开“系统实用配置工具”，进入“启动”选项卡。接着，依次取消可疑选项前面的对钩，然后重新启动电脑。反复测试直到找到造成故障的软件。或者可以通过一些优化软件如“优化大师”达到上述目的。另:如果键盘内按键卡住也可能造成开机就出现上述问题。如果是使用电脑途中出项这类问题，

ubuntu未运行程序，但是Volatile GPU-Util显示100,GPU利用率显示很高

天天放羊的博客

12-13

3060

问题描述：ubuntu未运行程序，但是Volatile GPU-Util显示100,GPU利用率显示很高如下图显示：解决方法：需要把驱动模式设置为常驻内存 sudo nvidia-smi -pm 1 之后invidia-smi查看，显示正常。

负载100% 解决方法

weixin_47605925的博客

03-04

1309

wa io等待所占用的时间百分比，wa值越高，说明IO等待越严重，根据经验，wa的参考值为20%，如果wa超过20%，说明IO等待严重，引起IO等待的。 us 用户进程消耗的CPU时间百分比，us的值比较高时，说明用户进程消耗的cpu时间多，但是如果长期大于50%，就需要考虑优化程序或算法。设置的bi+bo参考值为1000，如果超过1000，而且wa值较大，则表示系统磁盘IO有问题，应该考虑提高磁盘的读写性能。一般情况下，si、so的值都为0，如果si、so的值长期不为0，则表示内存不足。

聊聊GPU利用率那些事

m0_49711991的博客

07-27

8805

众所周知，GPU本身的计算能力是越来越强大，特别是新一代的NVIDIA AMPERE架构发布之后，又一次刷新了大家对AI算力的认知。目前，确实有不少大规模分布式训练对更大算力的渴求是极其强烈的，比如语音、自然语言处理等。通过软件定义，OrionX颠覆了原有的AI应用直接调用物理GPU的架构。OrionX通过增加软件层，将AI应用与物理GPU解耦合：AI应用调用逻辑的虚拟GPU，再由OrionX将虚拟GPU需求匹配到具体的物理GPU。

转帖:CPU资源占用100％解决方法

笨猪的空间

08-08

3462

来自http://bbs.cfanclub.net/dispbbs.asp?boardID=2&ID=252944CPU资源占用100％解决方法无间1、驱动没有经过认证，造成CPU资源占用100％。大量的测试版的驱动在网上泛滥，造成了难以发现的故障原因。 2、防杀毒软件造成故障。由于新版的KV、金山、瑞星都加入了对网页、插件、邮

gpu服务器的运维包括哪些方面？

03-29

<think>好的，用户之前问过如何为不同部门的公司网络划分网段和实现高可用性，现在又转向询问GPU服务器的运维包括哪些方面。这说明用户可能是在负责公司的基础设施建设，或者正在规划IT架构，需要全面了解不同方面的运维知识。首先，我需要明确GPU服务器运维的核心内容。用户可能想知道从硬件到软件，再到监控和优化，具体要关注哪些点。他们可能担心如何确保GPU服务器的稳定性、性能以及安全性，尤其是在高负载或长时间运行的情况下。考虑到用户之前的网络规划问题，他们可能对高可用性、冗余设计有特别关注。所以在回答GPU服务器运维时，可能需要强调硬件冗余、散热、电源管理这些方面，因为这些直接影响服务器的可用性。同时，软件层面的驱动和固件更新、任务调度、容灾备份也是关键点。另外，用户可能对成本优化感兴趣，比如如何合理分配GPU资源，避免浪费，或者如何监控使用情况来调整资源分配。需要提到资源监控工具和策略，比如Prometheus、Grafana等。安全性方面，用户可能担心数据泄露或未经授权的访问，尤其是在处理敏感数据时。所以需要包括物理安全、网络安全、权限控制等内容。用户还可能想知道具体的运维工具和最佳实践，比如使用Kubernetes进行容器编排，或者Ansible进行自动化部署。这些工具能帮助他们高效管理GPU服务器集群。最后，应该考虑用户的实际应用场景，比如是否用于机器学习训练、推理、高性能计算等，不同场景下的运维重点可能有所不同。需要给出通用性的建议，同时提示根据具体业务调整策略。总结下来，回答需要结构清晰，涵盖硬件、软件、监控、安全、优化等方面，并且结合用户之前的关注点，比如高可用性和网络架构，来提供全面的运维指南。</think>--- ### 一、GPU服务器运维核心目标 - **稳定性**：确保7×24小时持续运行（尤其是训练/推理任务） - **性能优化**：最大化GPU利用率（避免显存/算力闲置） - **安全保障**：防止数据泄露与算力滥用 --- ### 二、硬件运维 #### 1. **物理环境管理** - **散热要求**：GPU密集场景需强制水冷（建议机柜温度≤25℃） - **电源冗余**：双路PDU供电 + UPS（按GPU功耗预留20%余量） - 示例：NVIDIA A100单卡功耗250W，8卡服务器需至少2500W电源 - **硬件监控**：通过IPMI/iDRAC/iLO实时查看： - GPU温度（阈值设置：≤85℃报警） - 风扇转速、ECC内存错误计数 #### 2. **故障处理** - **常见故障**： - GPU显存报错（需执行`nvidia-smi --gpu-reset`） - PCIe通道降速（检查金手指氧化或接触不良） - **备件策略**：至少保留10%的GPU卡、电源模块作为热备 --- ### 三、软件与驱动管理 #### 1. **基础环境** - **驱动版本**：严格匹配CUDA Toolkit版本（如NVIDIA驱动470.x对应CUDA 11.4） - **依赖隔离**：推荐使用Docker/Kubernetes部署（避免库冲突） - 基础镜像示例：`nvidia/cuda:11.8.0-base-ubuntu22.04` #### 2. **任务调度** - **资源分配**：通过Kubernetes Device Plugin或Slurm集群管理： ```bash # Slurm提交GPU任务示例 sbatch --gres=gpu:tesla_v100:2 train.sh ``` - **抢占策略**：为高优先级任务预留GPU（通过`nvidia-smi -c 3`独占模式） --- ### 四、监控与性能调优 #### 1. **监控指标** | 指标 | 工具 | 报警阈值 | |---------------------|--------------------------|---------------------| | GPU利用率 | DCGM Exporter + Prometheus | <10%持续1小时 | | 显存占用率 | nvidia-smi | >90%持续10分钟 | | PCIe带宽 | gpustat --debug | 持续降速至x8模式 | #### 2. **性能优化手段** - **计算优化**：启用TensorCore（`TF_ENABLE_CUBLAS_TENSOR_OP_MATH=1`） - **显存压缩**：使用NVIDIA A100的Memory P2P特性 - **IO瓶颈缓解**： - 共享存储：部署GPUDirect RDMA（InfiniBand网络） - 本地缓存：用NVMe SSD构建RAID0作为临时存储 --- ### 五、安全与容灾 #### 1. **访问控制** - **物理安全**：BIOS/UEFI禁用USB启动 + 机柜指纹锁 - **权限分级**： - 普通用户：仅能通过JupyterLab提交任务 - 管理员：SSH密钥登录 + 二次验证 #### 2. **数据保护** - **加密传输**：NVIDIA GPUDirect Storage（启用AES-256加密） - **容灾方案**： - 实时备份：对训练checkpoint启用S3对象存储同步 - 断点续训：通过Horovod Elastic自动恢复任务 --- ### 六、典型运维场景 #### 场景1：多用户资源争用 **解决方案**： - 部署vGPU（如NVIDIA vComputeServer） - 配置Kubernetes ResourceQuota： ```yaml resources: limits: nvidia.com/gpu: 2 ``` #### 场景2：驱动版本冲突 **处理流程**： 1. 创建驱动隔离环境：`sudo apt-mark hold cuda-drivers` 2. 使用容器化部署：`docker run --gpus all --cgroup-parent=/gpuserver nvidia/cuda:11.8.0` --- ### 七、运维工具链推荐 | 类型 | 工具 | 用途 | |------------|------------------------|-------------------------------| | 监控 | Grafana + DCGM Exporter | 可视化GPU集群状态 | | 部署 | Ansible GPU Playbook | 批量安装驱动/CUDA | | 日志 | ELK Stack | 分析NVIDIA驱动内核日志 | | 自动化测试 | NVIDIA DGXtest | 验证GPU硬件稳定性 | > **注**：对于大规模集群（≥32台GPU服务器），建议部署NVIDIA Base Command Manager实现集中运维。