SSE指令集

最新推荐文章于 2025-04-02 15:46:53 发布

ww506772362

最新推荐文章于 2025-04-02 15:46:53 发布

阅读量6.6k

点赞数 2

分类专栏： mmx+sse4+avx

本文链接：https://blog.csdn.net/ww506772362/article/details/41825215

版权

2 篇文章

订阅专栏

sse提供了xmm寄存器，xmm一组8个128位的寄存器，分别名为xmm0-xmm7，sse构架提供对打包单精度浮点数的SIMD支持。

sse提供了两个版本的指令，其一以后缀ps结尾，这组指令对打包单精度浮点值执行类似mmx操作运算，而第二种后缀ss，这些指令对一个量标单精度浮点值进行运算操作，这些指令不对打包值中的所有浮点值操作，而只对打包值中的低位双字节执行操作，源操作数中剩余的3个值直接传送给结果。

其中对准操作movaps要求数据在内存中对准16字节的边界，以提交效率，否则应使用movups传送数据。

运算指令：

以上指令都是用两个操作数：源操作数可以是128位内存或者xmm寄存器，目标操作数必须是xmm寄存器。

可以看到，调用加法指令之后，四组和都存储在xmm1寄存器中，gdb查看时由于不知道如何解析xmm1寄存器的内容，因为可能是单精度，也可能是双精度或者不同宽度的整数，所以只能按不同的解析方式全部显示，查看v4_float即四个单精度浮点数的显示。

下面介绍一下sse构架下的比较指令，sse的比较指令单独比较128位打包单精度浮点的每个元素，结果是一个掩码，满足比较条件的结果全为1值，不满足结果的全为0值（量标只对最低的双字执行）。

看到这里，仅仅有一个比较指令，并没有说明大小，何为满足条件全1，不满足全0呢，这样说一下指令的使用：

cmpps imp, source, destination

其中多出来的imp是一个无符号整数，这个整数表示的含义就是条件，这个条件值如下表所示：

如果需要比较两个数是否相等，传imp为0即可作为条件，满足条件结果全1，这是sse的比较方式。这里说明一下条件中的无序，因为是浮点比较，寄存器或内存中的有些值并不符合规定的浮点存储格式，相互比较是没有意义的，称为无序。

除了对浮点数的支持，sse指令集也有指令对mmx提供的功能进行扩展，他们对mmx寄存器中的数据执行操作：

SSE2 指令集又对 SSE 指令集做了很多扩充，主要对操作双精度浮点数和128位打包整数值执行数学操作，下面介绍SSE2的使用，先来看数据传送指令：

SSE2指令集提供处理打包双精度浮点数，打包字整数，打包双字整数和打包四字整数值的数学指令，这里列举SSE2的加法指令来说明这一系列指令格式：

这里虽然只列举add系列指令，这些选项也存在于乘法和除法操作中(mulpd, mulsd, divpd, divsd等）。
另外同sse指令集，sse2指令集也提供专门的数学操作，sqrt, max, min。

最后我们来看SSE3指令集，SSE3构架并没有提供任何新的数据类型，仅仅添加了几条指令，用于更快的执行标准函数，下面是新指令的列表：

指令	说明
fisttp	把第一个fpu寄存器的值转换为整数（舍入）并且从fpu堆栈弹出
lddqu	快速从内存加载128位不对准的数据值
movshdup	传送128位值，复制第2个和第4个32位数据元素
movsldup	传送128位值，复制第1个和第3个32位数据元素
movddup	传送64位值，赋值值，使之成为128位值
addsubps	对于打包单精度浮点数，对第2个和第4个32位执行加法，第1和第3个32位执行减法
addsubpd	对于打包单精度浮点数，对第2对64位值执行加法，第1对位执行减法
haddps	对操作数的相邻的元素执行单精度浮点加法操作
haddpd	对操作数的相邻的元素执行双精度浮点加法操作
hsubps	对操作数的相邻的元素执行单精度浮点减法操作
hsubpd	对操作数的相邻的元素执行双精度浮点减法操作