GPGPU架构
下图是一副GPGPU的架构示意图,用它帮助我们理解概念。
GPGPU 架构流程图:
我们一般称GPGPU的核心是可编程多处理器,在NVDIA中称为流处理器,即Streaming Multiprocessor, SM,在AMD的架构中称之为计算单元,即Compute Unit, CU。
有没有想过,为什么叫做可编程多处理器,它的可编程能力体现在哪里?
-
可编程着色器:现代GPU架构支持可编程着色器,如顶点着色器、几何着色器、片段着色器和计算着色器等。这些着色器允许开发者编写自定义的代码,用于实现图形渲染或通用计算任务。这些着色器程序会在SM上执行。
-
并行编程模型:GPU采用并行编程模型,如CUDA或OpenCL,允许程序员编写并行程序,利用GPU的大量内核来加速计算。这些编程模型抽象了底层硬件,让开发者可以专注于编写并行算法。在这些模型下编写的代码将在SM上执行。
-
动态调度:SM具有动态调度能力,可以根据程序需求自动调度不同的线程块(Thread Blocks)和线程(Threads)在SM上执行。这使得SM可以灵活地处理不同类型的任务,以实现高效的并行计算。
-
高级功能支持:现代GPU支持许多高级功能,如异步计算、动态并行和任务图等。这些功能让开发者可以更灵活地编程,实现复杂的任务调度和优化。这些高级功能也在SM级别上实现。
综上所述,GPGPU内部的可编程多处理器(SM)具有高度可编程性,允许开发者编写自定义的并行程序,实现各种图形渲染和通用计算任务。这种可编程性体现在支持可编程着色器、并行编程模型、动态调度和高级功能支持等方面。