R700指令集架构参考手册第二章——2.6 数据共享

最新推荐文章于 2020-11-21 03:03:54 发布

zenny_chen

最新推荐文章于 2020-11-21 03:03:54 发布

阅读量2k

点赞数

分类专栏：基于GPU/CPU的高性能计算文章标签： cuda 存储 thread dst 工作

基于GPU/CPU的高性能计算专栏收录该内容

48 篇文章 4 订阅

订阅专栏

R700家族的流处理器可以在不同执行线程之间共享数据。数据共享可以显著地提升性能。图2.1展示了对每个线程可用的存储器层级。

（译者对图的一些注释：

在一个SIMD中，图上标有Processor 0到Processor 63；而在物理上，一个SIMD只有16个流处理器（Streaming Processor），因此这里的Processor 0到Processor 63可以理解为逻辑上被组织为64个逻辑处理器（如果你无法想像，那么可以认为由于核心频率比系统频率来得高，因此，在一个系统周期内可以将一条指令发射2次；因为其它原因，比如后面所提到的奇偶wavefront可以并行执行，那么我们可以将一个系统周期内所能发射的指令次数增加到4，这样，一个SIMD中虽然只有16个SP，但一个单位时间内可以同时执行64个独立的线程，其中，每个SP可以对应4个线程索引），这样正好能对应于一条wavefront有64个线程。每个线程（图中的一个逻辑处理器）可以访问128个宽度为256个双字（1024字节）的GPR。

下面介绍一些术语：

线程组（Thread Group）：R700中，线程组对应于CUDA模型中的一个Block。在CUDA模型中，一个Block最多有512个线程；那么在R700中，一个线程组最多有1024个线程。它与CUDA中的Block一样，其中的线程数是可变的，可以取1到1024中的任一值；但是为了性能考虑，应该取SIMD宽度的倍数，这里，也就是64的倍数。

Wavefront：一条wavefront是Thread Group的一个子部分。这个概念可以对应于CUDA模型中的warp概念。在CUDA中，一个warp含有32个线程，尽管warp是建立在物理模型上的，为了实际执行性能上的考虑（一个warp内的所有线程严格执行相同的指令，从而如果一个warp内含有跳转到不同分支目标的分支指令，那么两个不同分支上的指令将会被发射到每个SP上，从而严重影响性能），但是也完全可以将其视为逻辑上的一部分。这里的Wavefront其实也差不多，一个wavefront最多含有64个线程。在CUDA中，如果一个Block含有512个线程，那么Block一共含有16个warp；与此对应的，在R700中，如果一个线程组有1024个线程，那么就有16个wavefront。

泳道（Lane）：一个wavefront最多含有64个线程，每个线程对应于一条泳道。图2.3展示了线程组的wavefront阵列。每4个泳道被划分为一组，这个可能出于对LDS访问以及存储器段（Memory Bank）的考虑，后面会详细描述。

）

2.6.1 共享寄存器的类型

共享的寄存器允许驻留在不同wavefront的一条泳道中的线程之间共享数据，并且这些线程在一个所给SIMD上被调度执行。（译者注：这个可以参考图2.3。图2.3中，wave0到wave15的其中一列就是一条泳道，因此最多可以有16个线程共享此寄存器）每个源和目的操作数的一个绝对寻址模式允许从一个全局（绝对编址的）寄存器获取数据，而不是从一个wavefront的私有（相对编址的）寄存器。共享寄存器的最大个数为128减去两倍的所使用的子句临时寄存器的个数。被放置在此池中的寄存器从wavefront私有寄存器的通用池中被移除。

2.6.1.1 共享GPR池

每个源和目的操作数都有一个绝对寻址模式。这允许每个相对于地址零被访问，而不是基于所分配的为各自wavefront的寄存器池（见图2.2）。要使用该池，一个状态寄存器必须被建立，定义为全局使用而保留的寄存器个数。

全局GPR通过ALU指令字中的一个index_mode(simd-global)来访问。新模式将src或dest GPR地址解释为一个0到127范围内的绝对地址。该索引模式与src-rel/dest/rel域联合使用，允许指令混合全局和wavefront本地GPR。

额外的索引模式允许额外的被索引的编址，地址 = GPR + 从指令的偏移或INDEX_GLOBAL_AR_X（仅AR.X；见4.6.1小节，“相对寻址”）。这允许线程间通信以及基于内核的寻址。（这要求使用一个MOVA*指令将索引拷贝到AR.X寄存器。）

全局GPR池可以被用来提供许多强大的特征，包括：

1、每条泳道的原子缩减（reduction）变量（数量依赖于GPR的数量），诸如：

——每条泳道的最大、最小、小直方图

——基于软件的栅栏或同步原语

2、每个泳道唯一的一组常量。这防止：

——重复取的负荷

——由于常量查找，岔开线程执行

2.6.1.2 子句临时GPR池

GPR池可以包含持有子句临时（temp）GPR的部分。子句临时GPR防止延迟并允许峰值，因为它们被存储在两个部分，一个是奇，另一个是偶wavefront（见图2.2）。因为为每个执行在SIMD上的wavefront留有两个唯一的段（译者注：这里原文的表达会产生分歧，但是通过后半句的说明，可以了解到每个wavefront实际上仅对应一个段，要么是奇，要么是偶），所以在奇和偶wavefront之间的子句临时的读写之间没有冲突。（译者注：这里，译者将这个机制理解为：一条泳道上的一个子句临时寄存器被映射为两个部分，当一个奇wavefront与偶wavefront都去访问同一个子句临时寄存器时，一个读，一个写，这期间不会产生冲突，读的那个线程将会读到原来的值，而写入的值可能会由硬件在后台对子句临时寄存器本体做更新。）当使用全局共享寄存器时，两个wavefront都将寄存器映射到存储器中的同一个位置，这会导致一次冲突和一次延迟。这是因为对于写要花费一整条指令而使得写可见；从而，如果有一个读和一个写发生在相同指令组但来自不同的wavefront时，那么就会有一个读/写冲突，硬件通过延迟其中一个wavefront，直到写对读可见来解决。

（译者注：通过上述描述，结合在2.6.1小节中所描述的“共享寄存器的最大个数为128减去两倍的所使用的子句临时寄存器的个数。”我们可以理解为何是128 - 2 * 子句临时寄存器的个数。由于对应于每条泳道的子句临时寄存器都有两部分，因此需要乘以2。而由于一个线程工作组正好有64个泳道，即每个wavefront有64个线程，呵呵，因此正好能满足恰好给每条泳道分配一个子句临时寄存器。）

物理上，GPR次序从0开始，依次为：global，clause_temp，private。注意，这个次序允许程序使用一个MOV_INDEX_GLOBAL指令来访问越过全局寄存器到子句临时寄存器。全局共享寄存器和子句临时寄存器必须适应在头128个GPR之内，由于ALU指令dest-GPR域大小的限制。

SIMD全局GPR只有在动态GPR模式下才被允许。

2.6.2 局部数据共享（LDS）

每个SIMD有一个16KB的存储空间，允许在一个线程组内的线程，或在一个wavefront内的线程之间低延迟通信。该存储器由四个段配置而成，每个段带有256个16个字节的条目。存储器的写端口使用一个拥有者的写模型，该模型允许每个线程将数据写到私有位置。所有写地址逻辑在离散硬件中提供，并且指令提供了每个线程的跨度和在当前跨度内的到一个16字节条目的偏移。写模式防止段或地址在写上冲突。读地址然后在内核中被计算，并且能够从在线程组中的任何其它索引读多达4个对齐的32位字。

写是在编译时静态指定的；读在运行时动态指定。每个写对于每个线程多达四个双字，并且总是四个双字对齐。线程组大小可以在1到1024个线程之间变化（最好是SIMD宽度的倍数（译者注：这里应该指的的就是一个wavefront的最大线程数的倍数，即64的倍数））。每个线程的可用LDS空间数量与线程个数呈倒数关系。如果一个线程组有1024个线程，那么每个线程可拥有4个双字的可写存储器；如果有64或更少的线程，那么每个线程可以拥有64个双字的可写存储器。绝对寻址模式允许每个线程自动使用64个双字，不管组的大小；但所有后面跟着读的写必须在一个wavefront的一个非可被打断的子句内完成。

图2.3展示了LDS存储器的一个图。

（译者注：从图中可以看到，LDS的分布是按照以下布局进行的：我们先横向看，每4条泳道组成一组，那么一个wavefront最大可以含有16个这样的分组，对于每个分组，每条泳道对应一个LDS存储器段（因此正好一共4个存储器段），而一条wavefront中的一个这样的分组对应于LDS存储器的一个条目；纵向看，每个wavefront都有不同的条目，由于一个wavefront含有16个分组，对于一个SIMD的整个线程组来说一共有16个wavefront，因此一共含有16 * 16 = 256个条目。）

存储器允许两种写访问模式：

1、wavefront相对寻址（私有），以及

2、绝对（全局）寻址。

当一个写被调度时，数据从GPR被读，并且写到LDS中的一个地址中。对于每个四线程组，所写的每个线程的地址和段由一条提供了dst_stride和dst_index，以及在线程组或wavefront内的thread_id的指令来判定，依赖于所使用的地址模式。

bank_id = thread_id mod 4

bank_offset = (thread_id >> 2) * dst_stride + dst_index

thread_id——SIMD_WAVE_REL模式控制：

0：绝对——相对于在一个wavefront内的线程

1：相对于在每组起始处的线程

dst_stride——为写到共享存储器的从指令的目的跨度，单位是双字。合法的值有：4、8、12、16⋯⋯64。

dst_index——为写到共享存储器的从指令的目的索引，单位是双字。合法的值有：4、8、12、16⋯⋯64。