GPU入门介绍

最新推荐文章于 2025-04-06 11:28:42 发布

xingchenhy

最新推荐文章于 2025-04-06 11:28:42 发布

阅读量1w

点赞数 4

分类专栏：大数据工具

大数据工具专栏收录该内容

5 篇文章

订阅专栏

学习记录，排版可能有点乱，重点在内容。。。。。
部分内容转载于：https://blog.csdn.net/fengbingchun/article/details/54691225。感谢博主的分享。
主机
将CPU及系统的内存（内存条）称为主机。
设备
将GPU及GPU本身的显示内存称为设备。
线程(Thread)
一般通过GPU的一个核进行处理。（可以表示成一维，二维，三维，具体下面再细说）。
线程块(Block)
1. 由多个线程组成（可以表示成一维，二维，三维，具体下面再细说）。
2. 各block是并行执行的，block间无法通信，也没有执行顺序。
3. 注意线程块的数量限制为不超过65535（硬件限制）。
线程格(Grid)
由多个线程块组成（可以表示成一维，二维，三维，
在这里插入图片描述
核函数（Kernel）
1. 在GPU上执行的函数通常称为核函数。
2. 一般通过标识符__global__修饰，调用通过<<<参数1,参数2>>>，用于说明内核函数中的线程数量，以及线程是如何组织的。
3. 以线程格（Grid）的形式组织，每个线程格由若干个线程块（block）组成，而每个线程块又由若干个线程（thread）组成。
4. 是以block为单位执行的。
5. 叧能在主机端代码中调用。
6. 调用时必须声明内核函数的执行参数。
7. 在编程时，必须先为kernel函数中用到的数组或变量分配好足够的空间，再调用kernel函数，否则在GPU计算时会发生错误，例如越界或报错，甚至导致蓝屏和死机。

GPU加速技术&原理介绍

GPU英文全称Graphic Processing Unit，中文翻译为“图形处理器”。与CPU不同，GPU是专门为处理图形任务而产生的芯片。从这个任务定位上面来说，不仅仅在计算机的显卡上面，在手机、游戏机等等各种有多媒体处理需求的地方都可以见到GPU的身影。

在GPU出现之前，CPU一直负责着计算机中主要的运算工作，包括多媒体的处理工作。CPU的架构是有利于X86指令集的串行架构，CPU从设计思路上适合尽可能快的完成一个任务。但是如此设计的CPU在多媒体处理中的缺陷也显而易见：多媒体计算通常要求较高的运算密度、多并发线程和频繁地存储器访问，而由于X86平台中CISC（Complex Instruction Set Computer）架构中暂存器数量有限，CPU并不适合处理这种类型的工作。以Intel为代表的厂商曾经做过许多改进的尝试，从1999年开始为X86平台连续推出了多媒体扩展指令集——SSE（Streaming SIMD Extensions）的一代到四代版本，但由于多媒体计算对于浮点运算和并行计算效率的高要求，CPU从硬件本身上就难以满足其巨大的处理需求，仅仅在软件层面的改并不能起到根本效果。

对于GPU来说，它的任务是在屏幕上合成显示数百万个像素的图像——也就是同时拥有几百万个任务需要并行处理，因此GPU被设计成可并行处理很多任务，而不是像CPU那样完成单任务。

CPU和GPU架构差异很大，CPU功能模块很多，能适应复杂运算环境；GPU构成则相对简单，目前流处理器和显存控制器占据了绝大部分晶体管。CPU中大部分晶体管主要用于构建控制电路（比如分支预测等）和Cache，只有少部分的晶体管来完成实际的运算工作。而GPU的控制相对简单，且对Cache的需求小，所以大部分晶体管可以组成各类专用电路、多条流水线，使得GPU的计算速度有了突破性的飞跃，拥有了更强大的处理浮点运算的能力。
在这里插入图片描述
从硬件设计上来讲，CPU 由专为顺序串行处理而优化的几个核心组成。另一方面，GPU 则由数以千计的更小、更高效的核心组成，这些核心专为同时处理多任务而设计。

传统的串行编写软件具备以下几个特点：要运行在一个单一的具有单一中央处理器（CPU）的计算机上；一个问题分解成一系列离散的指令；指令必须一个接着一个执行；只有一条指令可以在任何时刻执行。而并行计算则改进了很多重要细节：要使用多个处理器运行；一个问题可以分解成可同时解决的离散指令；每个部分进一步细分为一系列指示；每个部分的问题可以同时在不同处理器上执行。

举个生活中的例子来说，你要点一份餐馆的外卖，CPU型餐馆用一辆大货车送货，每次可以拉很多外卖，但是送完一家才能到下一家送货，每个人收到外卖的时间必然很长；而GPU型餐馆用十辆小摩托车送货，每辆车送出去的不多，但是并行处理的效率高，点餐之后收货就会比大货车快很多。

CUDA（ComputeUnified Device Architecture，统一计算设备架构）这一编程模型。CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。
在这里插入图片描述

GPU采用流式并行计算模式，可对每个数据进行独立的并行计算，所谓“对数据进行独立计算”，即，流内任意元素的计算不依赖于其它同类型数据，例如，计算一个顶点的世界位置坐标，不依赖于其他顶点的位置。而所谓“并行计算”是指“多个数据可以同时被使用，多个数据并行运算的时间和1个数据单独执行的时间是一样的”。

在这里插入图片描述
GPU是显示卡的”大脑”，GPU决定了该显卡的档次和大部分性能，同时GPU也是2D显示卡和3D显示卡的区别依据。2D显示芯片在处理3D图像与特效时主要依赖CPU的处理能力，称为软加速。3D显示芯片是把三维图像和特效处理功能集中在显示芯片内，也就是所谓的”硬件加速”功能。
GPU通用计算方面的标准目前有OpenCL、CUDA、AMD APP、DirectCompute。

GPU通用计算通常采用CPU+GPU异构模式，由CPU负责执行复杂逻辑处理和事务处理等不适合数据并行的计算，由GPU负责计算密集型的大规模数据并行计算。

NVIDIA 显卡系列

如：GeForce GTX 1080)。第二位至关重要，因为显卡分高端显卡，中端显卡，入门级显卡就是取决于第二位数字的。第二位数字是1-2代表是入门级显卡；第二位数字是3-5代表是中端显卡；第二位数字是6-9代表是高端显卡。第三位数字是一个特殊的标志，几乎能在市场上买到的显卡都是0结尾的。数字越大，性能越好。显卡数字后缀Ti，代表加强。