R700指令集架构参考手册第二章——2.6 数据共享

R700家族的流处理器可以在不同执行线程之间共享数据。数据共享可以显著地提升性能。图2.1展示了对每个线程可用的存储器层级。

 

(译者对图的一些注释:

在一个SIMD中,图上标有Processor 0到Processor 63;而在物理上,一个SIMD只有16个流处理器(Streaming Processor),因此这里的Processor 0到Processor 63可以理解为逻辑上被组织为64个逻辑处理器(如果你无法想像,那么可以认为由于核心频率比系统频率来得高,因此,在一个系统周期内可以将一条指令发射2次;因为其它原因,比如后面所提到的奇偶wavefront可以并行执行,那么我们可以将一个系统周期内所能发射的指令次数增加到4,这样,一个SIMD中虽然只有16个SP,但一个单位时间内可以同时执行64个独立的线程,其中,每个SP可以对应4个线程索引),这样正好能对应于一条wavefront有64个线程。每个线程(图中的一个逻辑处理器)可以访问128个宽度为256个双字(1024字节)的GPR。

下面介绍一些术语:

线程组(Thread Group):R700中,线程组对应于CUDA模型中的一个Block。在CUDA模型中,一个Block最多有512个线程;那么在R700中,一个线程组最多有1024个线程。它与CUDA中的Block一样,其中的线程数是可变的,可以取1到1024中的任一值;但是为了性能考虑,应该取SIMD宽度的倍数,这里,也就是64的倍数。

Wavefront:一条wavefront是Thread Group的一个子部分。这个概念可以对应于CUDA模型中的warp概念。在CUDA中,一个warp含有32个线程,尽管warp是建立在物理模型上的,为了实际执行性能上的考虑(一个warp内的所有线程严格执行相同的指令,从而如果一个warp内含有跳转到不同分支目标的分支指令,那么两个不同分支上的指令将会被发射到每个SP上,从而严重影响性能),但是也完全可以将其视为逻辑上的一部分。这里的Wavefront其实也差不多,一个wavefront最多含有64个线程。在CUDA中,如果一个Block含有512个线程,那么Block一共含有16个warp;与此对应的,在R700中,如果一个线程组有1024个线程,那么就有16个wavefront。

泳道(Lane):一个wavefront最多含有64个线程,每个线程对应于一条泳道。图2.3展示了线程组的wavefront阵列。每4个泳道被划分为一组,这个可能出于对LDS访问以及存储器段(Memory Bank)的考虑,后面会详细描述。

 

2.6.1 共享寄存器的类型

 

共享的寄存器允许驻留在不同wavefront的一条泳道中的线程之间共享数据,并且这些线程在一个所给SIMD上被调度执行。(译者注:这个可以参考图2.3。图2.3中,wave0到wave15的其中一列就是一条泳道,因此最多可以有16个线程共享此寄存器)每个源和目的操作数的一个绝对寻址模式允许从一个全局(绝对编址的)寄存器获取数据,而不是从一个wavefront的私有(相对编址的)寄存器。共享寄存器的最大个数为128减去两倍的所使用的子句临时寄存器的个数。被放置在此池中的寄存器从wavefront私有寄存器的通用池中被移除。

 

2.6.1.1 共享GPR池

 

每个源和目的操作数都有一个绝对寻址模式。这允许每个相对于地址零被访问,而不是基于所分配的为各自wavefront的寄存器池(见图2.2)。要使用该池,一个状态寄存器必须被建立,定义为全局使用而保留的寄存器个数。

全局GPR通过ALU指令字中的一个index_mode(simd-global)来访问。新模式将src或dest GPR地址解释为一个0到127范围内的绝对地址。该索引模式与src-rel/dest/rel域联合使用,允许指令混合全局和wavefront本地GPR。

额外的索引模式允许额外的被索引的编址,地址 = GPR + 从指令的偏移或INDEX_GLOBAL_AR_X(仅AR.X;见4.6.1小节,“相对寻址”)。这允许线程间通信以及基于内核的寻址。(这要求使用一个MOVA*指令将索引拷贝到AR.X寄存器。)

全局GPR池可以被用来提供许多强大的特征,包括:

1、每条泳道的原子缩减(reduction)变量(数量依赖于GPR的数量),诸如:

    ——每条泳道的最大、最小、小直方图

    ——基于软件的栅栏或同步原语

2、每个泳道唯一的一组常量。这防止:

    ——重复取的负荷

    ——由于常量查找,岔开线程执行

 

2.6.1.2 子句临时GPR池

 

GPR池可以包含持有子句临时(temp)GPR的部分。子句临时GPR防止延迟并允许峰值,因为它们被存储在两个部分,一个是奇,另一个是偶wavefront(见图2.2)。因为为每个执行在SIMD上的wavefront留有两个唯一的段(译者注:这里原文的表达会产生分歧,但是通过后半句的说明,可以了解到每个wavefront实际上仅对应一个段,要么是奇,要么是偶),所以在奇和偶wavefront之间的子句临时的读写之间没有冲突。(译者注:这里,译者将这个机制理解为:一条泳道上的一个子句临时寄存器被映射为两个部分,当一个奇wavefront与偶wavefront都去访问同一个子句临时寄存器时,一个读,一个写,这期间不会产生冲突,读的那个线程将会读到原来的值,而写入的值可能会由硬件在后台对子句临时寄存器本体做更新。)当使用全局共享寄存器时,两个wavefront都将寄存器映射到存储器中的同一个位置,这会导致一次冲突和一次延迟。这是因为对于写要花费一整条指令而使得写可见;从而,如果有一个读和一个写发生在相同指令组但来自不同的wavefront时,那么就会有一个读/写冲突,硬件通过延迟其中一个wavefront,直到写对读可见来解决。

(译者注:通过上述描述,结合在2.6.1小节中所描述的“共享寄存器的最大个数为128减去两倍的所使用的子句临时寄存器的个数。”我们可以理解为何是128 - 2 * 子句临时寄存器的个数。由于对应于每条泳道的子句临时寄存器都有两部分,因此需要乘以2。而由于一个线程工作组正好有64个泳道,即每个wavefront有64个线程,呵呵,因此正好能满足恰好给每条泳道分配一个子句临时寄存器。)

物理上,GPR次序从0开始,依次为:global,clause_temp,private。注意,这个次序允许程序使用一个MOV_INDEX_GLOBAL指令来访问越过全局寄存器到子句临时寄存器。全局共享寄存器和子句临时寄存器必须适应在头128个GPR之内,由于ALU指令dest-GPR域大小的限制。

SIMD全局GPR只有在动态GPR模式下才被允许。

 

2.6.2 局部数据共享(LDS)

 

每个SIMD有一个16KB的存储空间,允许在一个线程组内的线程,或在一个wavefront内的线程之间低延迟通信。该存储器由四个段配置而成,每个段带有256个16个字节的条目。存储器的写端口使用一个拥有者的写模型,该模型允许每个线程将数据写到私有位置。所有写地址逻辑在离散硬件中提供,并且指令提供了每个线程的跨度和在当前跨度内的到一个16字节条目的偏移。写模式防止段或地址在写上冲突。读地址然后在内核中被计算,并且能够从在线程组中的任何其它索引读多达4个对齐的32位字。

写是在编译时静态指定的;读在运行时动态指定。每个写对于每个线程多达四个双字,并且总是四个双字对齐。线程组大小可以在1到1024个线程之间变化(最好是SIMD宽度的倍数(译者注:这里应该指的的就是一个wavefront的最大线程数的倍数,即64的倍数))。每个线程的可用LDS空间数量与线程个数呈倒数关系。如果一个线程组有1024个线程,那么每个线程可拥有4个双字的可写存储器;如果有64或更少的线程,那么每个线程可以拥有64个双字的可写存储器。绝对寻址模式允许每个线程自动使用64个双字,不管组的大小;但所有后面跟着读的写必须在一个wavefront的一个非可被打断的子句内完成。

图2.3展示了LDS存储器的一个图。

(译者注:从图中可以看到,LDS的分布是按照以下布局进行的:我们先横向看,每4条泳道组成一组,那么一个wavefront最大可以含有16个这样的分组,对于每个分组,每条泳道对应一个LDS存储器段(因此正好一共4个存储器段),而一条wavefront中的一个这样的分组对应于LDS存储器的一个条目;纵向看,每个wavefront都有不同的条目,由于一个wavefront含有16个分组,对于一个SIMD的整个线程组来说一共有16个wavefront,因此一共含有16 * 16 = 256个条目。)

 

存储器允许两种写访问模式:

1、wavefront相对寻址(私有),以及

2、绝对(全局)寻址。

当一个写被调度时,数据从GPR被读,并且写到LDS中的一个地址中。对于每个四线程组,所写的每个线程的地址和段由一条提供了dst_stride和dst_index,以及在线程组或wavefront内的thread_id的指令来判定,依赖于所使用的地址模式。

bank_id = thread_id mod 4

bank_offset = (thread_id >> 2) * dst_stride + dst_index

 

thread_id——SIMD_WAVE_REL模式控制:

0:绝对——相对于在一个wavefront内的线程

1:相对于在每组起始处的线程

 

dst_stride——为写到共享存储器的从指令的目的跨度,单位是双字。合法的值有:4、8、12、16⋯⋯64。

dst_index——为写到共享存储器的从指令的目的索引,单位是双字。合法的值有:4、8、12、16⋯⋯64。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1 目标检测的定义 目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。 目标检测任务可分为两个关键的子任务,目标定位和目标分类。首先检测图像中目标的位置(目标定位),然后给出每个目标的具体类别(目标分类)。输出结果是一个边界框(称为Bounding-box,一般形式为(x1,y1,x2,y2),表示框的左上角坐标和右下角坐标),一个置信度分数(Confidence Score),表示边界框中是否包含检测对象的概率和各个类别的概率(首先得到类别概率,经过Softmax可得到类别标签)。 1.1 Two stage方法 目前主流的基于深度学习的目标检测算法主要分为两类:Two stage和One stage。Two stage方法将目标检测过程分为两个阶段。第一个阶段是 Region Proposal 生成阶段,主要用于生成潜在的目标候选框(Bounding-box proposals)。这个阶段通常使用卷积神经网络(CNN)从输入图像中提取特征,然后通过一些技巧(如选择性搜索)来生成候选框。第二个阶段是分类和位置精修阶段,将第一个阶段生成的候选框输入到另一个 CNN 中进行分类,并根据分类结果对候选框的位置进行微调。Two stage 方法的优点是准确度较高,缺点是速度相对较慢。 常见Tow stage目标检测算法有:R-CNN系列、SPPNet等。 1.2 One stage方法 One stage方法直接利用模型提取特征值,并利用这些特征值进行目标的分类和定位,不需要生成Region Proposal。这种方法的优点是速度快,因为省略了Region Proposal生成的过程。One stage方法的缺点是准确度相对较低,因为它没有对潜在的目标进行预先筛选。 常见的One stage目标检测算法有:YOLO系列、SSD系列和RetinaNet等。 2 常见名词解释 2.1 NMS(Non-Maximum Suppression) 目标检测模型一般会给出目标的多个预测边界框,对成百上千的预测边界框都进行调整肯定是不可行的,需要对这些结果先进行一个大体的挑选。NMS称为非极大值抑制,作用是从众多预测边界框中挑选出最具代表性的结果,这样可以加快算法效率,其主要流程如下: 设定一个置信度分数阈值,将置信度分数小于阈值的直接过滤掉 将剩下框的置信度分数从大到小排序,选中值最大的框 遍历其余的框,如果和当前框的重叠面积(IOU)大于设定的阈值(一般为0.7),就将框删除(超过设定阈值,认为两个框的里面的物体属于同一个类别) 从未处理的框中继续选一个置信度分数最大的,重复上述过程,直至所有框处理完毕 2.2 IoU(Intersection over Union) 定义了两个边界框的重叠度,当预测边界框和真实边界框差异很小时,或重叠度很大时,表示模型产生的预测边界框很准确。边界框A、B的IOU计算公式为: 2.3 mAP(mean Average Precision) mAP即均值平均精度,是评估目标检测模型效果的最重要指标,这个值介于0到1之间,且越大越好。mAP是AP(Average Precision)的平均值,那么首先需要了解AP的概念。想要了解AP的概念,还要首先了解目标检测中Precision和Recall的概念。 首先我们设置置信度阈值(Confidence Threshold)和IoU阈值(一般设置为0.5,也会衡量0.75以及0.9的mAP值): 当一个预测边界框被认为是True Positive(TP)时,需要同时满足下面三个条件: Confidence Score > Confidence Threshold 预测类别匹配真实值(Ground truth)的类别 预测边界框的IoU大于设定的IoU阈值 不满足条件2或条件3,则认为是False Positive(FP)。当对应同一个真值有多个预测结果时,只有最高置信度分数的预测结果被认为是True Positive,其余被认为是False Positive。 Precision和Recall的概念如下图所示: Precision表示TP与预测边界框数量的比值 Recall表示TP与真实边界框数量的比值 改变不同的置信度阈值,可以获得多组Precision和Recall,Recall放X轴,Precision放Y轴,可以画出一个Precision-Recall曲线,简称P-R
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值