GPU-CUDA-图形渲染分析_cuda图形管线-CSDN博客

GPU-CUDA-图形渲染分析
参考文献链接
https://mp.weixin.qq.com/s/dnoqPxEt_XEhVaW_aAfrnQ
https://mp.weixin.qq.com/s/1NumM2PRTqW-HIfQRlUu8A
https://mp.weixin.qq.com/s/d8Dq0YmjHpsoCchy8y4B2g
https://mp.weixin.qq.com/s/5JorA1BJXgeftzrqItJV9g
https://mp.weixin.qq.com/s/bw7GQDJhirVoddiBeErSlA
https://mp.weixin.qq.com/s/-7GxiG_roieUNSMy_G02Vw
https://mp.weixin.qq.com/s/unZFf7gss1p05z_baoJeEA
GPU技术关键参数和应用场景
随着云计算，大数据和人工智能技术发展，边缘计算发挥着越来越重要的作用，补充数据中心算力需求。计算架构要求多样化，需要不同的CPU架构来满足不断增长的算力需求，同时需要GPU，NPU和FPGA等技术加速特定领域的算法和专用计算。以此，不同CPU架构，不同加速技术应用而生。
理解 GPU 和 CPU 之间区别的一种简单方式是比较如何处理任务。CPU 由专为顺序串行处理而优化的几个核心组成，而 GPU 则拥有一个由数以千计的更小、更高效的核心（专为同时处理多重任务而设计）组成的大规模并行计算架构。
CPU是一个有多种功能的优秀领导者。优点在于调度、管理、协调能力强，计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。
在这里插入图片描述

GPU可以利用多个CUDA核心来做并行计算，而CPU只能按照顺序进行串行计算，同样运行3000次的简单运算，CPU需要3000个时钟周期，而配有3000个CUDA核心的GPU运行只需要1个时钟周期。
简而言之，CPU擅长统领全局等复杂操作，GPU擅长对大数据进行简单重复操作。CPU是从事复杂脑力劳动的教援，而GPU是进行大量并行计算的体力劳动者。那么，GPU的重要参数有哪些呢？
• CUDA核心；CUDA核心数量决定了GPU并行处理的能力，在深度学习、机器学习等并行计算类业务下，CUDA核心多意味着性能好一些
• 显存容量：其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据。显存容量大小决定了GPU能够加载的数据量大小。（在显存已经可以满足客户业务的情况下，提升显存不会对业务性能带来大的提升。在深度学习、机器学习的训练场景，显存的大小决定了一次能够加载训练数据的量，在大规模训练时，显存会显得比较重要。
• 显存位宽：显存在一个时钟周期内所能传送数据的位数，位数越大则瞬间所能传输的数据量越大，这是显存的重要参数之一。
• 显存频率：一定程度上反应着该显存的速度，以MHz（兆赫兹）为单位,显存频率随着显存的类型、性能的不同而不同。显存频率和位宽决定显存带宽。
• 显存带宽：指显示芯片与显存之间的数据传输速率，以字节/秒为单位。显存带宽是决定显卡性能和速度最重要的因素之一。
• 其他指标：除了显卡通用指标外，NVIDIA还有一些针对特定场景优化的指标，例如TsnsoCore、RTCoreRT等能力。例如TensenCore专门用于加速深度学习中的张量运算。
评估一个显卡的性能不能单纯看某一个指标的性能，而是结合显卡的个指标及客户业务需求的综合性能。
GPU是协处理器，与CPU端存储是分离的，故GPU运算时必须先将CPU端的代码和数据传输到GPU，GPU才能执行kernel函数。涉及CPU与GPU通信，其中通信接口PCIe的版本和性能会直接影响通信带宽。
GPU的另一个重要参数是浮点计算能力。浮点计数是利用浮动小数点的方式使用不同长度的二进制来表示一个数字，与之对应的是定点数。同样的长度下浮点数能表达的数字范围相比定点数更大，但浮点数并不能精确表达所有实数，而只能采用更加接近的不同精度来表达。
FP32单精度计算
单精度的浮点数中采用4个字节也就是32位二进制来表达一个数字，1位符号，8位指数，23位小数，有效位数为7位。
在这里插入图片描述

FP64双精度计算
双精度浮点数采用8个字节也就是64位二进制来表达一个数字，1位符号，11位指数，52位小数，有效位数为16位。
在这里插入图片描述

FP16半精度计算
半精度浮点数采用2个字节也就是16位二进制来表达一个数字， 1位符号、5位指数、10位小数，有效位数为3位。
在这里插入图片描述

因为采用不同位数的浮点数的表达精度不一样，所以造成的计算误差也不一样。
对于需要处理的数字范围大而且需要精确计算的科学计算来说，就要求采用双精度浮点数，例如：计算化学，分子建模，流体动力学。
对于常见的多媒体和图形处理计算、深度学习、人工智能等领域，32位的单精度浮点计算已经足够了。
对于要求精度更低的机器学习等一些应用来说，半精度16位浮点数就可以甚至8位浮点数就已经够用了。
对于浮点计算来说，CPU可以同时支持不同精度的浮点运算，但在GPU里针对单精度和双精度就需要各自独立的计算单元，一般在GPU里支持单精度运算的单精度ALU(算术逻辑单元)称之为FP32 core，而把用作双精度运算的双精度ALU称之为DP unit或者FP64 core，在Nvidia不同架构不同型号的GPU之间，这两者数量的比例差异很大。
谈到GPU，Nvidia是行业技术的领先者和技术奠基者，其产品主要分以下几个系列，分别面向不同的应用类型和用户群体。
• GeForce系列：主要面向3D游戏应用的GeForce系列，几个高端型号分别是GTX1080TI、Titan XP和GTX1080，分别采用最新的Pascal架构和Maxwell架构；最新的型号RTX 2080TI，Turing架构。因为面向游戏玩家，对双精度计算能力没有需求，出货量也大，单价相比采用相同架构的Tesla系列产品要便宜很多，也经常被用于深度学习、人工智能、计算机视觉等。
• Quadro系列：主要面向专业图形工作站应用，具备强大的数据运算与图形、图像处理能力。因此常常被用在计算机辅助设计及制造CAD/CAM、动画设计、科学研究（城市规划、地理地质勘测、遥感等）、平面图像处理、模拟仿真等。
• GPU加速计算Tesla系列：专用GPU加速计算，Tesla本是第一代产品的架构名称，后来演变成了这个系列产品的名称了，包括V100、P100、K40/K80、M40/M60等几个型号。K系列更适合用作HPC科学计算，M系列则更适合机器学习用途。
Tesla系列高端型号GPU加速器能更快地处理要求超级严格的 HPC 与超大规模数据中心的工作负载。从能源探测到深度学习等应用场合，处理速度比使用传统 CPU 快了一个数量级。
• GPU虚拟化系列：Nvidia专门针对虚拟化环境应用设计GRID GPU产品，该产品采用基于 NVIDIA Kepler 架构的 GPU，首次实现了 GPU 的硬件虚拟化。这意味着，多名用户可以共享单一 GPU。
在这里插入图片描述

GRID GPU产品主要包含K1和K2两个型号，同样采用Kepler架构，实现了GPU的硬件虚拟化，可以让多个用户共享使用同一张GPU卡，适用于对3D性能有要求的VDI或云环境下多租户的GPU加速计算场景。
GPU散热方式分为散热片和散热片配合风扇的形式，也叫作主动式散热和被动式散热方式。
一般一些工作频率较低的显卡采用的都是被动式散热，这种散热方式就是在显示芯片上安装一个散热片即可，并不需要散热风扇。因为较低工作频率的显卡散热量并不是很大，没有必要使用散热风扇，这样在保障显卡稳定工作的同时，不仅可以降低成本，而且还能减少使用中的噪音。
NVIDIA Tesla Family采用被动散热、QUADRO Family和GeForce Family采用主动散热。
NVIDIA GPU架构的发展类似Intel的CPU，针对不同场景和技术革新，经历了不同架构的演进。
• Turing架构里，一个SM中拥有64个半精度，64个单精度，8个Tensor core，1个RT core。
• Kepler架构里，FP64单元和FP32单元的比例是1:3或者1:24；K80。
• Maxwell架构里，这个比例下降到了只有1:32；型号M10/M40。
• Pascal架构里，这个比例又提高到了1:2(P100)但低端型号里仍然保持为1:32，型号Tesla P40、GTX 1080TI/Titan XP、Quadro GP100/P6000/P5000
• Votal架构里，FP64单元和FP32单元的比例是1:2；型号有Tesla V100、GeForce TiTan V、Quadro GV100专业卡。
在这里插入图片描述

深度学习是模拟人脑神经系统而建立的数学网络模型，这个模型的最大特点是，需要大数据来训练。因此，对电脑处理器的要求，就是需要大量的并行的重复计算，GPU正好有这个专长，时势造英雄，因此，GPU就出山担当重任了。
训练：可以把深度学习的训练看成学习过程。人工神经网络是分层的、是在层与层之间互相连接的、网络中数据的传播是有向的。训练神经网络的时候，训练数据被输入到网络的第一层。然后所有的神经元，都会根据任务执行的情况，根据其正确或者错误的程度如何，分配一个权重参数（权值）。
推理：就是深度学习把从训练中学习到的能力应用到工作中去。不难想象，没有训练就没法实现推断。人也是这样，通过学习来获取知识、提高能力。深度神经网络也是一样，训练完成后，并不需要其训练时那样的海量资源。
高性能计算应用程序涵盖了物理、生物科学、分子动力学、化学和天气预报等各个领域。也都是通过GPU实现加速的。
CUDA与GPU
CUDA的产生就是英伟达公司为拥有并行计算需求的从业者能够使用GPU而提供的工具，因此先来讲讲什么是GPU，和CPU之间的有什么异同。首先要明确一点，CPU和GPU都可以作为计算机的大脑，两者的组成部分是一致的，如下图所示：

• 绿色：计算单元
• 橙色：存储单元（硬盘+缓存）
• 黄色：控制单元
在这里插入图片描述

从图中可以发现：
• CPU具有很强的控制器，也有很强大的缓存（Cache）
• GPU有很多控制器，很多的计算单元，每个控制器都配有缓存

从两者的架构来看，发现，这两者的设计逻辑是不一样的，CPU秉承着低延时性，而GPU的思路是高吞吐量。所谓低延时性，直白来说就是一台挖掘机（控制器），用爪子（缓存），一次就能够挖很多的资源（计算）。所谓高吞吐量，直白来说就是一个团的人（控制器），用手（缓存），一次一个个的也能捧很多资源（计算）。所以CPU和GPU用两种不同的思路实现了计算能力最大化。而基于不同的设计思路，两者的应用场景也是大不相同，CPU适合用于逻辑控制，串行的计算场景，而GPU适合用于大规模的并行计算场景。对图像数据的应用就是一种并行计算场景，图像数据由很多像素点组成，各个像素相互独立，并行存在的。，因此GPU最早用于图像渲染等操作。而最近，利用深度学习解决图像问题的场景也很适合用GPU计算。

言归正传，为了让上述的GPU能够发挥作用，CUDA应运而生。CUDA的诞生就是为了让GPU能够有可用的编程环境，使得开发人员可以用程序控制GPU的硬件进行并行计算。所以本质上，CUDA是一个软件体系，如下图所示，该体系结构三部分组成：
• CUDA驱动API
可以通过直接操纵硬件来实现GPU的使用，但编程复杂，编程难度大，类似与汇编语言。（函数前缀为cu）
• CUDA运行时API
对驱动API中的操作进行了一次封装，使用起来相对更友好，因此在编程过程中使用会比驱动API的频率要高。需要注意的是不可以和驱动API混合使用。（函数前缀为cuda）
• CUDA函数库（官方和第三方）
为了实现更高级的功能，官方或者第三方开发者提供的针对于某个领域的高级函数库，使得普通开发人员能够快速上手实现定制化功能。比如安装CUDA时经常会要连带安装的CUDNN，这就是针对于卷积计算的CUDA函数库，使得深度学习开发者能够很容易的调用CUDA实现深度学习算法的构建。
在这里插入图片描述

当然如上图所示，当开发人员编写CUDA应用程序时，可以通过直接调用底层的驱动API来调用GPU。也可以通过调用CUDA运行时API间接调用GPU。当然也可以通过直接使用GUDA函数库，进一步简化开发过程。而目前大部分GUDA应用程序开发者使用的都是后两种策略（就先现在很少有人用汇编语言开发功能一样）。CUDA应用程序是直接支持C语言开发的，当然随着CUDA版本的更迭，目前已经支持C++11了。
最后当开发人员利用C语言编写好CUDA应用程序后，还需要用特殊的编译器将程序员能够看懂的C语言，编译成计算，GPU能够识别的机器语言。如上图所示，CUDA的应用程序是以CPU作为宿主，然后达到操纵GPU的目的，所以最终真正运行时整个解决方案中既有运行在CPU上的代码，也会有运行在G