近期遇到不少问题,尤其是电脑频繁无规律的死机,给我的日常生活带了很大的干扰。由于去年多次联系DELL技术支持和安排上门工程师维修,我以为电脑频繁死机的问题已经解决,熟知:想当然。
趁着上周吃饭在食堂碰到计算机体系结构的大牛老师,跟老师探讨了一下这个问题:关于电脑频繁死机,出现gpu利用率-1/100%的情况。最后整理过后的答案是:电脑cpu/gpu的利用率是由已占用的内存/整体的内存。当系统死机时,系统内部的指令和程序发成错误,导致传输实际上占用的数据发生错误,比如说当传递负值给已占用内存,此时经过计算就得到了利用率是负的结果。因此,得到的建议是:由于每次总是gpu占用率异常,老师建议把所有驱动都卸载,重新安装。
我尝试卸载所有与显卡有关的驱动和程序,重新安装和搭建显卡环境,同时参考了大量这篇文章:https://blog.csdn.net/u010618587/article/details/82940528
总结下来,卸载一定要卸载干净,最后不放心可以去C盘把NVIDIA的所有残余文件都删除干净。
1显卡驱动(没有显卡驱动这个API,无法实时监控显卡的运行状态)
2cuda toolkit(显卡并行计算包)
3cudnn(neural network包)
4安装显卡,安装cuda toolkit,复制cudnn文件到cuda中,添加变量到系统变量中,check cuda是否通过测试。
5自己遇到最大的问题是混淆显卡驱动和cuda toolkit,导致安装浪费了大量时间。
1安装显卡驱动;
2安装cuda toolkit,安装完成后check是否pass,进入以下路径:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite,进行cuda测试:1bandwidthTest.exe+2deviceQuery.exe
3cudnn文件替换;解压出来的文件,替换目录C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1下的文件
4环境变量设置
桌面时右键“此电脑”,选择“属性”打开系统窗口,然后选择并打开“高级系统设置”进入系统属性窗口,打开环境变量,然后将C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\bin,C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\include,C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\lib\x64,这三个路径填到系统变量的Path中,这样环境变量就配置好了
参考大佬的博客:https://www.cnblogs.com/imper/p/11976077.html
- CUDA10.1的安装包到百度云盘
链接:https://pan.baidu.com/s/1BKZ7Q1vtZumW6MWmwIvbwA
提取码:pwt2 - CUDNN10.1版本的安装包:
链接:https://pan.baidu.com/s/1gu-SUmtAMGVNArUgIqJaKg
提取码:l583
1.查看系统显卡驱动版本 Nvidia控制面板-组件