Linux服务器或Windows系统配置GPU环境

配置GPU环境

匹配版本

版本匹配是配制GPU环境的重要前题。特别是使用Tensorflow版本的小伙伴。下面两个图是匹配各个CUDA的版本对应表。

Linux/Windows

Tensorflow-Python-CUDA-cuDNN

MACOS

对mac没研究过,待后续补充-.-!

配置过程

在了解版本对应关系后就要开始配置GPU了,当然在这之前可以决定是否创建新的python环境。
1.新建环境:conda create -n xxx python=3.8 (注:xxx为你自己新建环境名字,可以自己取,后面都用xxx代替)
2.激活环境:因为服务器一般是Linux,所以使用命令 :source activate xxx
`

检查版本

默认电脑或服务器安装了N卡驱动,这样就可以在终端中输入nvidia-smi,看右上角的CUDA Version对应的版本,显示如图:
检查CUDA版本
面板显示CUDA Version 为11.0,这样后续所有的内容都将为11.0版本的CUDA服务。

下载安装CUDA

1、到cuda下载对应的版本。
https://developer.nvidia.com/cuda-toolkit-archive
安装:

sudo sh cuda_11.0.89_440.33.01_linux.run

2、如果安装提示gcc版本问题:
Failed to verify gcc version.See log at /var/log/cuda-installer.log for details.
解决方式1:cat /var/log/cuda-installer.log 则会看到问题及解决方法,执行时加上 --override 来忽略gcc版本不匹配问题。

sudo sh cuda_11.0.89_440.33.01_linux.run --override

解决方式2:gcc降级。
开始执行时先accept接受协议许可,然后选择安装项
在这里插入图片描述
Driver驱动已经安装过了,这里不再对Driver进行选择会重新安装驱动(安装过程未截图,该图摘自网络),因为以前已经安装过驱动程序了,在此只选择CUDA Toolkit选项,其它取消即可(enter键)。如果以前安装过cuda,则安装过程会提示cuda符号链接已经存在了,是否覆盖,选择是或继续即可。
选择install,等待安装完成。
3,配置cuda环境变量

gedit ~/.bashrc 

或者vim ~/.bashrc
在末尾加上以下内容(按o):

export PATH=/usr/local/cuda-11.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.0/lib64:$LD_LIBRARY_PATH

保存退出(:wq)后使环境变量生效:

$ source ~/.bashrc

安装CUDNN

链接:https://developer.nvidia.com/rdp/cudnn-download
安装cudnn,即把解压出的cuda目录中相关的cudnn的头文件及库文件拷贝到安装的cuda目录即可。

tar -xzvf cudnn-11.0-linux-x64-v7.2.1.38.tgz

cudnn在第1步已经解压出cuda目录,拷贝到cuda的安装目录:
然后在当前路径输入命令:
复制文件:

sudo cp cuda/include/cudnn.h    /usr/local/cuda-11.0/include
sudo cp cuda/lib64/libcudnn*    /usr/local/cuda-11.0/lib64

添加读取权限:

sudo chmod a+r /usr/local/cuda-11.0/include/cudnn.h   /usr/local/cuda-11.0/lib64/libcudnn*

至此全部成功安装。

安装tensorflow和pytorch

个人建议使用pip安装tensorflow,虽然慢但是出BUG机会小

pip install tensorflow-gpu==版本号

对于pytorch, 可进入torch官网下载安装
在这里插入图片描述
在这里插入图片描述
寻找到适合CUDA版本的torch安装命令,进行安装。(注:torch版本支持向下兼容)
在这里插入图片描述

检验是否安装成功

1、CUDA检测:

nvcc -V

2、tensorflow:

from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

3、pytorch:

#判断是否安装了cuda
import torch
print(torch.cuda.is_available())  #返回True则说明已经安装了cuda
#判断是否安装了cuDNN
from torch.backends import  cudnn 
print(cudnn.is_available())  #返回True则说明已经安装了cuDNN
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
GPU服务器技术要求全文共2页,当前为第1页。GPU服务器技术要求全文共2页,当前为第1页。GPU服务器技术要求 GPU服务器技术要求全文共2页,当前为第1页。 GPU服务器技术要求全文共2页,当前为第1页。 GPU服务器 数量:1台 项目 内容 参数要求 机箱 4U 机架式 CPU Intel Xeon Silver 4110,主频2.1GHz, CPU核心数16核 32线程, 数量2个 内存 配置8根32GB DDR4 2666MHz ECC Reg 内存条,最大支持 24根内存条 硬盘 配置1块Seagate 6TB 3.5"'企业级硬盘 7200RPM 128MB缓存 配置1块Intel S4500 480G 2.5''SSD 最大支持24块2.5寸硬盘 电源 配置2+2冗余电源,额定功率 2000W 系统 4U BB LGA2011 E5-2600v3 SM SYS-4029GP-TRT2 PCI-E插槽 PCI-E 第3代16速插槽 11个, PCI-E第3代8速插槽 1个,Mezzanine 接口 1个 机箱尺寸 180 x440 x740 (H x W x D,mm) GPU调度软件 ACM多GPU调度软件:用户作业分配到计算卡片上运行,将结果返给用户; 支持交互式作业与排队方式的批处理作业;支持串行与并行作业; 提供实时的作业状态信息显示;支持对各种系统资源分配与限制; GPU集群平台软件,提供在线界面用于提交以及分发GPU作业,并提供相应权限控制; 必须提供所投产品生产厂家的软件著作权(原件备查)。 保修(Warranty) 3年整机产品质保,具备远程机器检测能力。 测试(QA) 5stageQA至少包括24小时负载99%的耐高温测试,72小时不宕机测试等。 板载显卡和网卡 板载双路千兆以太网网端 板载显卡控制器(ASPEED AST2400 BMC) 虚拟机设备阵列减少 I/O 开支 支持10BASE-T, 100BASE-TX, and 1000BASE-T,RJ45 输出 GPU服务器技术要求全文共2页,当前为第2页。GPU服务器技术要求全文共2页,当前为第2页。 GPU服务器技术要求全文共2页,当前为第2页。 GPU服务器技术要求全文共2页,当前为第2页。 对制造商的其他要求 (Others) 提供NVIDIA认可的Tesla GPU CUDA Driver安装和测试报告。 ISO9001:2008 Cert Facility。 Burn in 和 function test机器稳定性和散热的测试。 Memory Testing 内存测试报告。 提供操作系统的稳定性测试报告。 预装NVIDIA Tesla GPU配套应用软件:CUDA9 SDK 等。 提供 NVIDIA 认可的 Tesla GPU CUDA Driver 安装和测试报告 具备十名及以上NVIDIA认证技术工程师和销售工程师资质。 NVIDIA认证全球NPN推荐供应商和英伟达精英解决方案提供商 UBUNTU系统安装以及稳定性测试报告 显卡 数量:4块 项目 内容 参数要求 GPU NVIDIA Tesla P100 GPUGPU主频 1.45GHz, CUDA核心数 3584,显存 16G 对制造商的其他要求 (Others) (1)生产厂家具备 INVIDIA认可的Tesla GPU CUDA Driver安装和测试报告 (2)生产厂家具备NVIDIA TPP (Tesla Preferred Provider)推荐供应商资质;具有五名及以上NVIDI认证技术工程师和销售工程师资质; (3)生产工厂通过ISO9001质量管理体系认证; (5)预装NVIDIA Tesla GPU配套应用软件:CUDA SDK 等 (6)Linux系统安装以及稳定性测试报告 注:以上所有技术要求及质保签订合同前需要提供官方证明(原厂彩页、原厂技术白皮书、原厂盖章技术响应表、原厂售后服务承诺函或官网资料及资料链接)备查。售后响应时间1小时内到达现场。 GPU服务器技术要求
GPU服务器技术要求 GPU服务器配置 "项目 "内容 " "参数要"机箱 " 4U 机架式 " "求 " " " " "CPU "Intel Xeon E5-2620V4,主频 2.1GHz " " " "CPU核心数 18核 缓存 45M Threads 36 " " " "数量 2 " " "内存 " 配置 8根32GB DDR4 2400MHz ECC Reg " " " "内存条,最大支持 24根内存条 " " "硬盘 "配置 2块Seagate 2TB 2.5''企业级硬盘 7200RPM" " " "128MB缓存 " " " "配置 1块Intel S4500 240G 2.5''SSD " " " "最大支持24块2.5寸硬盘 " " "电源 "配置2+2冗余电源,额定功率 2000W " " "系统 "4U BB LGA2011 E5-2600v3 SM SYS-4028GR-TR2 " " "PCI-E插槽 "PCI-E 第3代16速插槽 11个, PCI-E第3代8速插 " " " "槽 1个,Mezzanine 接口 1个 " " "GPU调度软件 "ACM多GPU调度软件:用户作业分配到计算卡片上 " " " "运行,将结果返给用户; " " " "支持交互式作业与排队方式的批处理作业;支持 " " " "串行与并行作业; " " " "提供实时的作业状态信息显示;支持对各种系统 " " " "资源分配与限制; " " " "GPU集群平台软件,提供在线界面用于提交以及分" " " "发GPU作业,并提供相应权限控制; " " "其他 "(1)生产厂家具备 INVIDIA认可的Tesla GPU " " "(Others) "CUDA Driver安装和测试报告 " " " "(2)生产厂家具备NVIDIA TPP (Tesla " " " "Preferred " " " "Provider)推荐供应商资质;具有五名及以上NVID" " " "I认证技术工程师和销售工程师资质; " " " "(3)生产工厂通过ISO9001质量管理体系认证; " " " "(4)提供Burn in 和 Function Testing " " " "机器稳定性和散热的测试报告。 " " " "(5)预装NVIDIA Tesla " " " "GPU配套应用软件:CUDA7.5 SDK 等 " " " "(6)Linux系统安装以及稳定性测试报告 " " " "(7)提供操作系统的稳定性测试报告及Memory " " " "Testing 内存测试报告。 " 服务器内须安装8张显卡,技术要求如下: "项目 "内容 " "参数要"GPU "NVIDIA Tesla K80 GPUGPU主频 0.82GHz, " "求 " "CUDA核心数 2496,显存 12G " " "其他 "(1)生产厂家具备 INVIDIA认可的Tesla GPU " " "(Others) "CUDA Driver安装和测试报告 " " " "(2)生产厂家具备NVIDIA TPP (Tesla " " " "Preferred " " " "Provider)推荐供应商资质;具有五名及以上NVID" " " "I认证技术工程师和销售工程师资质; " " " "(3)生产工厂通过ISO9001质量管理体系认证; " " " "(5)预装NVIDIA Tesla " " " "GPU配套应用软件:CUDA7.5 SDK 等 " " " "(6)Linux系统安装以及稳定性测试报告 " 以上所有技术要求签订合同前需要提供官方证明(原厂彩页、原厂技术白皮书、原厂盖 章技术响应表或官网资料及资料链接)备查. ----------------------- GPU服务器技术要求全文共2页,当前为第1页。 GPU服务器技术要求全文共2页,当前为第2页。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值