x265中satd函数的向量指令实现

最新推荐文章于 2020-12-13 15:07:06 发布

XX_bai

最新推荐文章于 2020-12-13 15:07:06 发布

阅读量423

点赞数

文章标签： x265 satd 向量 SIMD HEVC

本文链接：https://blog.csdn.net/xx_bai/article/details/89164394

版权

摘要

上一篇文章中已经讲述了satd的向量原理，这里将主要讲述satd的向量指令实现方法，会涉及到具体的指令已经实现过程中需要注意的内容，但还是比较粗略的讲述。因为本人毕设就是对x265在MIPS和loongson架构上实现向量指令优化，因此这里会涉及两个架构，将分别进行讲述。

正文

x86

对于x86的向量指令我一直使用的是这个网站进行查询
https://www.officedaytime.com/simd512e/simd.html?mf=4&mt=4&mc=0
简单文字解释+图表，简单明了。

进入正文
satd的传入参数为
(const pixel* pix1, intptr_t stride_pix1, const pixel* pix2, intptr_t stride_pix2)
首先使用movq指令加载pix1和pix2的内容（32b），置于128位向量寄存器xmm的低32位中。

所有数加载完毕后，使用shufps混洗指令，完成第一二行、三四行内容的复制以及合并。得到
${row_1, row_1, row_0, row_0\}$
${row_3, row_3, row_2, row_2\}$

之前有设置一个常数向量
{-1,1,-1,1,1,1,1,1,-1,1,-1,1,1,1,1,1}
这里使用pmaddubsw指令将上述复制合并结果与常数向量对应位置相乘、相邻位置求和并扩展。

这条指令需要特别注意，它有目的寄存器和源寄存器。目的寄存器是无符号表示，源寄存器是有符号表示。该指令的实现方法是先扩展再计算。因此两个寄存器使用不同的扩展方法得到16位数，然后再进行有符号计算。该形式也就契合了pixel无符号类型和有符号常数。

而从总的来看，整个算法是先实现列变换、再实现行变换，而这条指令却是行变换的一部分。算法这样设置必定是有原因的。最初是8位无符号数pixel，在有符号计算过程中必定需要更高位的表示，因此这里必定需要位数的扩展。算法便将扩展与行变换的一部分同时执行，基于行列变换相互之间不会造成影响的原理，而且扩展到16位已经为加减运算保留了足够的空间。

然后使用psubw将pix1和pix2对应位置相减得到残差数据。

从这里开始，执行列变换。其实列变换就是通过行之间的加减操作完成。这里用到paddw、psubw完成对应位置的加减，还会使用punpcklqdq和punpckhqdq指令将寄存器中的64位交错一下。

示意图

再使用paddw和psubw完成对应位置加减，完成列变换。具体的数据都在上一篇文章中表示，这里就不再重复写了，可能需要两个文章交换着看，造成的不便还请谅解。

开始进行行变换，行变换需要对同一个寄存器中不同元素（16b）进行加减操作。因此这里需要将寄存器中的数据交错一下，构造一个原本相邻的元素，当前处于两个寄存器的对应位置。

这里首先使用pblendw常数选择指令设置170（10101010）的常数，交错存储两个寄存器中的元素。再使用对32位元素移位指令pslld和psrld分别处理两个寄存器，在使用por逻辑或指令合并两个处理后的寄存器。最终得到这样一个效果。

示意图

然后使用取绝对值指令pabsw获取绝对值。使用pmaxsw指令得到两个寄存器对应位置的较大值。这里使用了一个向量常数，16位的元素，全1。pmaddwd相乘求和指令，与全1常数向量配合，完成寄存器相邻元素的求和以及扩展，得到32位元素。由于结果是int类型（32b），因此后续不能再使用madd这种带扩展的指令。算法则是使用pshufd和pshuflw混洗指令将原本相邻的元素置于纵向对应位置，然后使用paddd求和，得到最终结果。

上述就是对x86向量实现satd_4x4的描述。其实后续还有satd8和sa8d的内容。大致思想是相同的，但实现的细节存在差异，而且还需要考虑一些硬件因素。

MIPS

需要使用MIPS的向量指令集重建该算法。MIPS和x86的向量指令风格还是非常不同的，各自具有各自的优势，因此就需要调整算法，附和MIPS的特点。当前使用的是MSA1.0的向量指令集以及loongson自定义的128位指令集。下面对两者的差异进行描述。

这里带过一下，MIPS体系结构中有32个向量寄存器，x86只有16个。因此在项目中，变量的数量限制相对较为宽松，不需要像x86那样，时常需要movdqa向量赋值指令，去协调向量寄存器的使用数量。该操作会引入指令间的相关，影响性能。

进入正文
首先使用lsx的vblw指令加载一行pixel（32b）到128向量寄存器的低32位中。后续就产生了一些变化，这里也引入了一些问题，下面详细讲。

在x86中，这里是复制合并，然后与常量madd。针对madd msa1.0中也有同类型指令dotp点乘指令。但问题就出在这里，dotp只支持同为有符号或者无符号的操作。msa2.0这里不讨论。而使用有符号操作时dotp_s.h，pixel（8位）的表示也就出现问题。把无符号数当做有符号数扩展。pixel值小于128时，还真是对的。但大于128时就出现错误，这也是在测试中偶然发现的。由于指令的限制，导致这一计算方法无效。

这里也引出一个问题，针对位数，这在计算过程中是始终需要考虑的，有符号和无符号相对还好，只是在乘除时需要考虑。这里必须完备的考虑计算过程中数据的上下限，比如pixel（0 ~ 255）。但同时位数的加宽也会导致数据的并行度下降，因此也无法直接就将计算位数直接加宽至最终结果的位数。这也是一个需要去权衡的问题，寻找一个最优项。

回到上面的问题，需要寻找另一种可行的计算方法。我最终采用的方法如下，但我不敢保证这就是最优的。

同样将每行pixel（32b）存入向量寄存器的低32位。然后使用insve插入指令合并一二行、三四行得到

${0, 0, row_1, row_0 \}$
${0, 0, row_3, row_2\}$

后续操作只对列元素进行，这里将列元素表示出来。

${0(64b), col_3, col_2, col_1, col_0, col_3, col_2, col_1, col_0\}$

统一结构，然后使用hadd和hsub横向加减扩展指令，源操作数都为同一个寄存器，实现相邻元素加减。得到

${ 0(64b), col_3 + col_2, col_1 + col_0, col_3 + col_2, col_1 + col_0\}$
${ 0(64b), col_3 - col_2, col_1 - col_0, col_3 - col_2, col_1 - col_0\}$

然后使用ilvr_w（32b）向量交错指令，取两个源寄存器的右64位数据（两个32位数据），分别存入目的寄存器的奇偶位置。也就得到

${ col_3 - col_2, col_3 + col_2, col_1 - col_0, col_1 + col_0, col_3 - col_2, col_3 + col_2, col_1 - col_0, col_1 + col_0\}$

结果形式相同，只是奇数位的数据正负相反，但后续要求绝对值，因此不会造成任何影响。后续的操作基本一致，MIPS使用addv和subv向量加减指令完成一系列操作，基本上有一对一的指令。

但是，MIPS有比较灵活的向量交错指令，可以替代x86繁琐的交错过程。首先是这个过程
示意图
使用insve_d插入指令将下面寄存器的低64位插入目的寄存器高64位，上面寄存器的低64位保持原位，然后使用ilvl_d（64b）向量交错指令。取两个寄存器的高64位，上面插入目的寄存器偶数位（0），下面插入奇数位（1），得到结果。

其次是这个过程
示意图
可以直接用两个指令实现。首先是ilvod_h（16b）交错指令，选择两个寄存器的奇数位，上面寄存器插入目的寄存器的偶数位，下面寄存器插入奇数位。再是ilvev_h（16b）交错指令，选择偶数位置，上面寄存器插入偶数位置，下面寄存器插入奇数位置。

然后取绝对值，选择较大值，hadd_w相邻元素加，扩展得到32位，然后不进行混洗，直接把每个32位元素取出来求和，得到结果。

总结

对于优化的结果，在指令的数量上，两者的差别不大，由于相乘加指令的问题，可能导致MIPS指令数量相对大一点。但对于真正的性能，也就是周期数的比较，未知。

XX_bai

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
x265中satd函数的向量指令实现

摘要上一篇文章中已经讲述了satd的向量原理，这里将主要讲述satd的向量指令实现方法，会涉及到具体的指令已经实现过程中需要注意的内容，但还是比较粗略的讲述。因为本人毕设就是对x265在MIPS和loongson架构上实现向量指令优化，因此这里会涉及两个架构，将分别进行讲述。正文x86对于x86的向量指令我一直使用的是这个网站进行查询https://www.officedaytime.c...
复制链接

扫一扫