#include <windows.h>
int __declspec(naked) testf()
{
__asm
{/*
push eax
push ebx
push ecx
push edx
pop edx
pop ecx
pop ebx
pop eax
*/
pinsrd xmm0, eax, 0
pinsrd xmm0, ebx, 1
pinsrd xmm0, ecx, 2
pinsrd xmm0, edx, 3
pextrd eax, xmm0, 0
pextrd ebx, xmm0, 1
pextrd ecx, xmm0, 2
pextrd edx, xmm0, 3
ret
}
}
int main()
{
LARGE_INTEGER li1, li2;
QueryPerformanceCounter(&li1);
__asm
{
mov ecx, 0xfffffff
star:
call testf
sub ecx, 1
jnz star
}
QueryPerformanceCounter(&li2);
printf("%I64d\n", li2.QuadPart - li1.QuadPart);
}
一直以为,XMM寄存器也是在CPU内部啊,不用走BUS,应该很快啊,哪知道还不如push/pop快呢:
先空跑一趟,记录一下循环的开销
mov ecx, 0xfffffff
star:
;call testf
sub ecx, 1
jnz star
300K周期左右
然后看一下push/pop 4个寄存器的的时间: 1600K左右
然后看一下pinsrd/pextrd 4个寄存器的的时间: 2300K左右
都减去300之后,1300/2000,这就尴尬了,还是老老实实push/pop吧。