R700指令集架构参考手册第二章——2.6 数据共享

R700家族的流处理器可以在不同执行线程之间共享数据。数据共享可以显著地提升性能。图2.1展示了对每个线程可用的存储器层级。

 

(译者对图的一些注释:

在一个SIMD中,图上标有Processor 0到Processor 63;而在物理上,一个SIMD只有16个流处理器(Streaming Processor),因此这里的Processor 0到Processor 63可以理解为逻辑上被组织为64个逻辑处理器(如果你无法想像,那么可以认为由于核心频率比系统频率来得高,因此,在一个系统周期内可以将一条指令发射2次;因为其它原因,比如后面所提到的奇偶wavefront可以并行执行,那么我们可以将一个系统周期内所能发射的指令次数增加到4,这样,一个SIMD中虽然只有16个SP,但一个单位时间内可以同时执行64个独立的线程,其中,每个SP可以对应4个线程索引),这样正好能对应于一条wavefront有64个线程。每个线程(图中的一个逻辑处理器)可以访问128个宽度为256个双字(1024字节)的GPR。

下面介绍一些术语:

线程组(Thread Group):R700中,线程组对应于CUDA模型中的一个Block。在CUDA模型中,一个Block最多有512个线程;那么在R700中,一个线程组最多有1024个线程。它与CUDA中的Block一样,其中的线程数是可变的,可以取1到1024中的任一值;但是为了性能考虑,应该取SIMD宽度的倍数,这里,也就是64的倍数。

Wavefront:一条wavefront是Thread Group的一个子部分。这个概念可以对应于CUDA模型中的warp概念。在CUDA中,一个warp含有32个线程,尽管warp是建立在物理模型上的,为了实际执行性能上的考虑(一个warp内的所有线程严格执行相同的指令,从而如果一个warp内含有跳转到不同分支目标的分支指令,那么两个不同分支上的指令将会被发射到每个SP上,从而严重影响性能),但是也完全可以将其视为逻辑上的一部分。这里的Wavefront其实也差不多,一个wavefront最多含有64个线程。在CUDA中,如果一个Block含有512个线程,那么Block一共含有16个warp;与此对应的,在R700中,如果一个线程组有1024个线程,那么就有16个wavefront。

泳道(Lane):一个wavefront最多含有64个线程,每个线程对应于一条泳道。图2.3展示了线程组的wavefront阵列。每4个泳道被划分为一组,这个可能出于对LDS访问以及存储器段(Memory Bank)的考虑,后面会详细描述。

 

2.6.1 共享寄存器的类型

 

共享的寄存器允许驻留在不同wavefront的一条泳道中的线程之间共享数据,并且这些线程在一个所给SIMD上被调度执行。(译者注:这个可以参考图2.3。图2.3中,wave0到wave15的其中一列就是一条泳道,因此最多可以有16个线程共享此寄存器)每个源和目的操作数的一个绝对寻址模式允许从一个全局(绝对编址的)寄存器获取数据,而不是从一个wavefront的私有(相对编址的)寄存器。共享寄存器的最大个数为128减去两倍的所使用的子句临时寄存器的个数。被放置在此池中的寄存器从wavefront私有寄存器的通用池中被移除。

 

2.6.1.1 共享GPR池

 

每个源和目的操作数都有一个绝对寻址模式。这允许每个相对于地址零被访问,而不是基于所分配的为各自wavefront的寄存器池(见图2.2)。要使用该池,一个状态寄存器必须被建立,定义为全局使用而保留的寄存器个数。

全局GPR通过ALU指令字中的一个index_mode(simd-global)来访问。新模式将src或dest GPR地址解释为一个0到127范围内的绝对地址。该索引模式与src-rel/dest/rel域联合使用,允许指令混合全局和wavefront本地GPR。

额外的索引模式允许额外的被索引的编址,地址 = GPR + 从指令的偏移或INDEX_GLOBAL_AR_X(仅AR.X;见4.6.1小节,“相对寻址”)。这允许线程间通信以及基于内核的寻址。(这要求使用一个MOVA*指令将索引拷贝到AR.X寄存器。)

全局GPR池可以被用来提供许多强大的特征,包括:

1、每条泳道的原子缩减(reduction)变量(数量依赖于GPR的数量),诸如:

    ——每条泳道的最大、最小、小直方图

    ——基于软件的栅栏或同步原语

2、每个泳道唯一的一组常量。这防止:

    ——重复取的负荷

    ——由于常量查找,岔开线程执行

 

2.6.1.2 子句临时GPR池

 

GPR池可以包含持有子句临时(temp)GPR的部分。子句临时GPR防止延迟并允许峰值,因为它们被存储在两个部分,一个是奇,另一个是偶wavefront(见图2.2)。因为为每个执行在SIMD上的wavefront留有两个唯一的段(译者注:这里原文的表达会产生分歧,但是通过后半句的说明,可以了解到每个wavefront实际上仅对应一个段,要么是奇,要么是偶),所以在奇和偶wavefront之间的子句临时的读写之间没有冲突。(译者注:这里,译者将这个机制理解为:一条泳道上的一个子句临时寄存器被映射为两个部分,当一个奇wavefront与偶wavefront都去访问同一个子句临时寄存器时,一个读,一个写,这期间不会产生冲突,读的那个线程将会读到原来的值,而写入的值可能会由硬件在后台对子句临时寄存器本体做更新。)当使用全局共享寄存器时,两个wavefront都将寄存器映射到存储器中的同一个位置,这会导致一次冲突和一次延迟。这是因为对于写要花费一整条指令而使得写可见;从而,如果有一个读和一个写发生在相同指令组但来自不同的wavefront时,那么就会有一个读/写冲突,硬件通过延迟其中一个wavefront,直到写对读可见来解决。

(译者注:通过上述描述,结合在2.6.1小节中所描述的“共享寄存器的最大个数为128减去两倍的所使用的子句临时寄存器的个数。”我们可以理解为何是128 - 2 * 子句临时寄存器的个数。由于对应于每条泳道的子句临时寄存器都有两部分,因此需要乘以2。而由于一个线程工作组正好有64个泳道,即每个wavefront有64个线程,呵呵,因此正好能满足恰好给每条泳道分配一个子句临时寄存器。)

物理上,GPR次序从0开始,依次为:global,clause_temp,private。注意,这个次序允许程序使用一个MOV_INDEX_GLOBAL指令来访问越过全局寄存器到子句临时寄存器。全局共享寄存器和子句临时寄存器必须适应在头128个GPR之内,由于ALU指令dest-GPR域大小的限制。

SIMD全局GPR只有在动态GPR模式下才被允许。

 

2.6.2 局部数据共享(LDS)

 

每个SIMD有一个16KB的存储空间,允许在一个线程组内的线程,或在一个wavefront内的线程之间低延迟通信。该存储器由四个段配置而成,每个段带有256个16个字节的条目。存储器的写端口使用一个拥有者的写模型,该模型允许每个线程将数据写到私有位置。所有写地址逻辑在离散硬件中提供,并且指令提供了每个线程的跨度和在当前跨度内的到一个16字节条目的偏移。写模式防止段或地址在写上冲突。读地址然后在内核中被计算,并且能够从在线程组中的任何其它索引读多达4个对齐的32位字。

写是在编译时静态指定的;读在运行时动态指定。每个写对于每个线程多达四个双字,并且总是四个双字对齐。线程组大小可以在1到1024个线程之间变化(最好是SIMD宽度的倍数(译者注:这里应该指的的就是一个wavefront的最大线程数的倍数,即64的倍数))。每个线程的可用LDS空间数量与线程个数呈倒数关系。如果一个线程组有1024个线程,那么每个线程可拥有4个双字的可写存储器;如果有64或更少的线程,那么每个线程可以拥有64个双字的可写存储器。绝对寻址模式允许每个线程自动使用64个双字,不管组的大小;但所有后面跟着读的写必须在一个wavefront的一个非可被打断的子句内完成。

图2.3展示了LDS存储器的一个图。

(译者注:从图中可以看到,LDS的分布是按照以下布局进行的:我们先横向看,每4条泳道组成一组,那么一个wavefront最大可以含有16个这样的分组,对于每个分组,每条泳道对应一个LDS存储器段(因此正好一共4个存储器段),而一条wavefront中的一个这样的分组对应于LDS存储器的一个条目;纵向看,每个wavefront都有不同的条目,由于一个wavefront含有16个分组,对于一个SIMD的整个线程组来说一共有16个wavefront,因此一共含有16 * 16 = 256个条目。)

 

存储器允许两种写访问模式:

1、wavefront相对寻址(私有),以及

2、绝对(全局)寻址。

当一个写被调度时,数据从GPR被读,并且写到LDS中的一个地址中。对于每个四线程组,所写的每个线程的地址和段由一条提供了dst_stride和dst_index,以及在线程组或wavefront内的thread_id的指令来判定,依赖于所使用的地址模式。

bank_id = thread_id mod 4

bank_offset = (thread_id >> 2) * dst_stride + dst_index

 

thread_id——SIMD_WAVE_REL模式控制:

0:绝对——相对于在一个wavefront内的线程

1:相对于在每组起始处的线程

 

dst_stride——为写到共享存储器的从指令的目的跨度,单位是双字。合法的值有:4、8、12、16⋯⋯64。

dst_index——为写到共享存储器的从指令的目的索引,单位是双字。合法的值有:4、8、12、16⋯⋯64。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值