显卡、显卡驱动、nvcc、cuda driver、cudatoolkit、cudnn的解释与关系

https://zhuanlan.zhihu.com/p/91334380

1. GPU型号含义

显卡: 简单理解这个就是我们前面说的GPU,尤其指NVIDIA公司生产的GPU系列,因为后面介绍的cuda,cudnn都是NVIDIA公司针对自身的GPU独家设计的。
显卡驱动:很明显就是字面意思,通常指NVIDIA Driver,其实它就是一个驱动软件,而前面的显卡就是硬件。
GPU架构:Tesla、Fermi、Kepler、Maxwell、Pascal
gpu架构指的是硬件的设计方式,例如流处理器簇中有多少个core、是否有L1 or L2缓存、是否有双精度计算单元等等。每一代的架构是一种思想,如何去更好完成并行的思想

芯片型号:GT200、GK210、GM104、GF104等
芯片就是对上述gpu架构思想的实现,例如芯片型号GT200中第二个字母代表是哪一代架构,有时会有100和200代的芯片,它们基本设计思路是跟这一代的架构一致,只是在细节上做了一些改变,例如GK210比GK110的寄存器就多一倍。有时候一张显卡里面可能有两张芯片,Tesla k80用了两块GK210芯片。这里第一代的gpu架构的命名也是Tesla,但现在基本已经没有这种设计的卡了,下文如果提到了会用Tesla架构和Tesla系列来进行区分。

显卡系列:GeForce、Quadro、Tesla
显卡系列在本质上并没有什么区别,只是NVIDIA希望区分成三种选择,GeForce用于家庭娱乐,Quadro用于工作站,而Tesla系列用于服务器。Tesla的k型号卡为了高性能科学计算而设计,比较突出的优点是双精度浮点运算能力高并且支持ECC内存,但是双精度能力好在深度学习训练上并没有什么卵用,所以Tesla系列又推出了M型号来做专门的训练深度学习网络的显卡。需要注意的是Tesla系列没有显示输出接口,它专注于数据计算而不是图形显示。

GeForce显卡型号:G/GS、GT、GTS、GTX
GeForce的显卡型号是不同的硬件定制,越往后性能越好,时钟频率越高显存越大,即G/GS<GT<GTS<GTX。

2. CUDA名称含义

看了很多答案,有人说CUDA就是一门编程语言,像C,C++,python 一样,也有人说CUDA是API。CUDA英文全称是Compute Unified Device Architecture,是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。按照官方的说法是,CUDA是一个并行计算平台和编程模型,能够使得使用GPU进行通用计算变得简单和优雅。

在这里插入图片描述
在这里插入图片描述

3.CUDA Toolkit

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

运行 CUDA 应用程序需要系统至少具有一个支持 CUDA 的 GPU 和一个与 CUDA Toolkit 兼容的驱动程序。CUDA Toolkit 的每个版本都需要最低版本的 CUDA 驱动程序。CUDA 驱动程序向后兼容,这意味着针对特定 CUDA 版本编译的应用程序将继续适用于后续(更高版本)的驱动程序版本。
有关兼容性的更多信息,请访问https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/index.html#cuda-compatibility-and-upgrades。

在这里插入图片描述

在这里插入图片描述

CUDA Toolkit由以下组件组成:
Compiler: CUDA-C和CUDA-C++编译器NVCC位于bin/目录中。它建立在NVVM优化器之上,而NVVM优化器本身构建在LLVM编译器基础结构之上。因此开发人员可以使用nvm/目录下的Compiler SDK来直接针对NVVM进行开发。
Tools: 提供一些像profiler,debuggers等工具,这些工具可以从bin/目录中获取
Libraries: 下面列出的部分科学库和实用程序库可以在lib/目录中使用(Windows上的DLL位于bin/中),它们的接口在include/目录中可获取。

  • cudart: CUDA Runtime
  • cudadevrt: CUDA device runtime
  • cupti: CUDA
  • profiling tools interface
  • nvml: NVIDIA management library
  • nvrtc:CUDA runtime compilation
  • cublas: BLAS (Basic Linear Algebra Subprograms,基础线性代数程序集)
  • cublas_device: BLAS kernel interface
    CUDA Samples: 演示如何使用各种CUDA和library API的代码示例。可在Linux和Mac上的samples/目录中获得,Windows上的路径是C:\ProgramData\NVIDIA Corporation\CUDA Samples中。在Linux和Mac上,samples/目录是只读的,如果要对它们进行修改,则必须将这些示例复制到另一个位置。
    CUDA Driver: 运行CUDA应用程序需要系统至少有一个具有CUDA功能的GPU和与CUDA工具包兼容的驱动程序。每个版本的CUDA工具包都对应一个最低版本的CUDA Driver,也就是说如果你安装的CUDA Driver版本比官方推荐的还低,那么很可能会无法正常运行。CUDA Driver是向后兼容的,这意味着根据CUDA的特定版本编译的应用程序将继续在后续发布的Driver上也能继续工作。通常为了方便,在安装CUDA Toolkit的时候会默认安装CUDA Driver。在开发阶段可以选择默认安装Driver,但是对于像Tesla GPU这样的商用情况时,建议在官方安装最新版本的Driver。 目前(2019年10月)的CUDA Toolkit和CUDA Driver版本的对应情况如下:

4.cudnn

这个其实就是一个专门为深度学习计算设计的软件库,里面提供了很多专门的计算函数,如卷积等。从上图也可以看到,还有很多其他的软件库和中间件,包括实现c++ STL的thrust、实现gpu版本blas的cublas、实现快速傅里叶变换的cuFFT、实现稀疏矩阵运算操作的cuSparse以及实现深度学习网络加速的cuDNN等等,具体细节可参阅GPU-Accelerated Libraries

5.nvcc&nvidia-smi

5.1 nvcc

这个在前面已经介绍了,nvcc其实就是CUDA的编译器,可以从CUDA Toolkit的/bin目录中获取,类似于gcc就是c语言的编译器。由于程序是要经过编译器编程成可执行的二进制文件,而cuda程序有两种代码,一种是运行在cpu上的host代码,一种是运行在gpu上的device代码,所以nvcc编译器要保证两部分代码能够编译成二进制文件在不同的机器上执行。nvcc涉及到的文件后缀及相关意义如下表

在这里插入图片描述

5.2 nvidia-smi

nvidia-smi全程是NVIDIA System Management Interface ,它是一个基于前面介绍过的NVIDIA Management Library(NVML)构建的命令行实用工具,旨在帮助管理和监控NVIDIA GPU设备。

nvcc和nvidia-smi显示的CUDA版本不同?
nvcc: NVIDIA ® Cuda compiler driver

Copyright (c) 2005-2018 NVIDIA Corporation
Built on Tue_Jun_12_23:07:04_CDT_2018
Cuda compilation tools, release 9.2, V9.2.148

而nvidia-smi显示结果如下:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.104      Driver Version: 410.104      CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla V100-PCIE...  On   | 00000000:01:00.0 Off |                  Off |
| N/A   28C    P0    26W / 250W |      0MiB / 16130MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla P100-PCIE...  On   | 00000000:02:00.0 Off |                  Off |
| N/A   24C    P0    30W / 250W |      0MiB / 16280MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

可以看到nvcc的CUDA 版本是9.2,而nvidia-smi的CUDA版本是10.0。很奇怪的是有时候绝大多数情况代码也能整成跑起来,stackoverflow上的一个解释如下:
CUDA有两个主要的API:driver APIruntime(运行时) API。这两个API都有对应的CUDA版本(如9.2和10.0等)。

  • 用于支持driver API的必要文件(如libcuda.so)是由GPU driver installer安装的。nvidia-smi就属于这一类API。
  • 用于支持runtime API的必要文件(如libcudart.so以及nvcc)是由CUDA Toolkit installer安装的。(CUDA Toolkit Installer有时可能会集成了GPU driver Installer)。**nvcc是与CUDA Toolkit一起安装的CUDA compiler-driver tool,它只知道它自身构建时的CUDA runtime版本。**它不知道安装了什么版本的GPU driver,甚至不知道是否安装了GPU driver。

综上,如果driver API和runtime API的CUDA版本不一致可能是因为你使用的是单独的GPU driver installer,而不是CUDA Toolkit installer里的GPU driver installer

5.3 runtime和driver API区别

下图很清楚的展示前面提到的各种概念之间的关系,其中runtime和driver API在很多情况非常相似,也就是说用起来的效果是等价的,但是你不能混合使用这两个API,因为二者是互斥的。也就是说在开发过程中,你只能选择其中一种API。简单理解二者的区别就是:runtime是更高级的封装,开发人员用起来更方便,而driver API更接近底层,速度可能会更快。

6.Linux中PATH、 LIBRARY_PATH、 LD_LIBRARY_PATH的区别

https://www.imooc.com/article/43747

6.1PATH

PATH是可执行文件路径,是三个中我们最常接触到的,因为我们命令行中的每句能运行的命令,如ls、top、ps等,都是系统通过PATH找到了这个命令执行文件的所在位置,再run这个命令(可执行文件)。 比如说,在用户的目录~/mycode/下有一个bin文件夹,里面放了有可执行的二进制文件、shell脚本等。如果想要在任意目录下都能运行上述bin文件夹的可执行文件,那么只需要把这个bin的路径添加到PATH即可,方法如下:

# vim ~/.bashrc
PATH=$PATH:~/mycode/bin

6.2LIBRARY_PATH和LD_LIBRARY_PATH

  • LIBRARY_PATH是程序编译期间查找动态链接库时指定查找共享库的路径
  • LD_LIBRARY_PATH是程序加载运行期间查找动态链接库时指定除了系统默认路径之外的其他路径
    两者的共同点是库,库是这两个路径和PATH路径的区别,PATH是可执行文件。
    两者的差异点是使用时间不一样。一个是编译期,对应的是开发阶段,如gcc编译;一个是加载运行期,对应的是程序已交付的使用阶段。
    配置方法也是类似:
export  LD_LIBRARY_PATH=LD_LIBRARY_PATH:XXXX

7.多版本CUDA切换

https://blog.csdn.net/Maple2014/article/details/78574275

8.cuda 的下载与安装方法选择

https://developer.nvidia.com/cuda-downloads
建议选择使用 .run 文件安装,因为使用 .deb可能会将已经安装的较新的显卡驱动替换。

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在Ubuntu 18下重新安装NVIDIA显卡驱动CUDA可以按照以下步骤进行: 1. 首先,打开终端并使用以下命令添加NVIDIA显卡驱动的PPA存储库: ```bash sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update ``` 2. 然后,使用以下命令安装适合您的显卡的NVIDIA驱动: ```bash sudo apt install nvidia-driver-version ``` 在这里,将“driver-version”替换为您想要安装的NVIDIA驱动的确切版本号。 3. 安装完成后,重新启动系统以使驱动程序生效: ```bash sudo reboot ``` 4. 在系统重启后,您可以验证NVIDIA驱动程序是否正确安装,使用以下命令可以查看当前正在使用的显卡驱动版本: ```bash nvidia-smi ``` 5. 接下来,安装CUDA工具包。首先,下载相应的CUDA Toolkit安装包,可从NVIDIA官方网站下载,并按照其提供的说明进行安装。 6. 安装完成后,设置CUDA环境变量。打开终端并编辑.bashrc文件: ```bash nano ~/.bashrc ``` 在文件末尾添加以下行: ```bash export PATH="/usr/local/cuda/bin:$PATH" export LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH" ``` 保存并关闭.bashrc文件,然后运行以下命令以使更改生效: ```bash source ~/.bashrc ``` 7. 最后,验证CUDA是否成功安装。在终端中运行以下命令来显示CUDA版本号: ```bash nvcc --version ``` 如果成功安装和配置了NVIDIA显卡驱动CUDA,将显示相关版本号。 注意:在此过程中,确保您的系统有足够的硬件要求来支持NVIDIA显卡驱动CUDA工具包,同时遵循官方文档上的更新说明。 ### 回答2: 重新安装NVIDIA显卡驱动CUDA在Ubuntu 18中可以按照以下步骤进行: 1. 首先,打开终端窗口,可以通过按下Ctrl + Alt + T键来快速打开终端。 2. 输入以下命令来更新系统软件包列表: sudo apt update 3. 安装NVIDIA显卡驱动,可以根据您的显卡型号选择不同的驱动版本。以NVIDIA官方驱动为例,输入以下命令: sudo apt install nvidia-driver-<version> 注意,将<version>替换为您选择的驱动程序版本号,例如:nvidia-driver-460。 4. 安装NVIDIA CUDA。首先,从NVIDIA官方网站下载与您的显卡驱动兼容的CUDA版本。然后,双击下载的CUDA安装包进行安装,按照提示进行操作。 5. 安装完成后,通过以下命令更新环境变量: sudo ldconfig 6. 重新启动计算机,以应用新的驱动和CUDA设置。 完成这些步骤后,您的Ubuntu 18系统将重新安装NVIDIA显卡驱动CUDA。您可以使用NVIDIA系统管理工具(如NVIDIA X Server设置)来调整显卡CUDA的设置。 ### 回答3: 重新安装Nvidia显卡驱动CUDA在Ubuntu 18上是相对简单的过程。下面是具体的步骤: 1. 确保你的系统已连接到互联网并且已更新到最新的软件包。你可以使用以下命令来更新系统: ``` sudo apt update sudo apt upgrade ``` 2. 卸载现有的Nvidia驱动。首先,使用以下命令查找系统上已安装的Nvidia驱动版本: ``` nvidia-smi ``` 然后,使用以下命令来卸载驱动程序(记得将"YOUR_VERSION"替换为实际的驱动版本): ``` sudo apt purge nvidia-"YOUR_VERSION" ``` 3. 重启系统。使用以下命令来重新启动计算机: ``` sudo reboot ``` 4. 安装新的Nvidia驱动。可以通过访问Nvidia官方网站(https://www.nvidia.com/Download/index.aspx)来下载最新的适用于你的显卡的驱动程序。下载完成后,按Ctrl+Alt+F2切换到虚拟终端(如果你还未在图形界面登录的话)。 5. 停止图形界面。输入以下命令以停止显示管理器服务: ``` sudo service lightdm stop ``` 6. 进入安装路径。使用cd命令进入你下载Nvidia驱动的路径。然后,使用以下命令将驱动程序赋予执行权限: ``` chmod +x NVIDIA-Linux-x86_64-xxx.xx.run ``` 7. 安装驱动程序。运行以下命令以开始驱动程序的安装过程: ``` sudo ./NVIDIA-Linux-x86_64-xxx.xx.run ``` 在安装过程中,选择"是"来安装驱动程序和相应的组件。 8. 重启系统。安装完成后,使用以下命令重新启动计算机: ``` sudo reboot ``` 9. 安装CUDA。如果你还未安装CUDA,可以通过Nvidia官方网站(https://developer.nvidia.com/cuda-downloads)下载适用于你的显卡CUDA版本。下载完成后,按Ctrl+Alt+F2切换到虚拟终端,并按照CUDA的官方文档进行安装步骤。 10. 验证安装。最后,使用以下命令来验证Nvidia驱动和CUDA是否成功安装: ``` nvidia-smi nvcc --version ``` 如果这两个命令分别显示了你的Nvidia显卡信息和CUDA版本信息,那么你已成功重新安装Nvidia显卡驱动CUDA

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值