L1 Cache其实挺快的

#include <windows.h>

int __declspec(naked) testf()

{

    __asm

    {/*

        push     eax

        push     ebx

        push     ecx

        push     edx

        pop         edx

        pop         ecx

        pop         ebx

        pop         eax

        */

        pinsrd     xmm0, eax, 0

        pinsrd     xmm0, ebx, 1

        pinsrd     xmm0, ecx, 2

        pinsrd     xmm0, edx, 3        

        pextrd     eax, xmm0, 0

        pextrd     ebx, xmm0, 1

        pextrd     ecx, xmm0, 2

        pextrd     edx, xmm0, 3

        ret

    }

}

int main()

{

    LARGE_INTEGER li1, li2;

    QueryPerformanceCounter(&li1);

    __asm

    {

        mov ecx, 0xfffffff

star:

        call testf

        sub ecx, 1

        jnz star

    }

    QueryPerformanceCounter(&li2);

    printf("%I64d\n", li2.QuadPart - li1.QuadPart);

 }

一直以为,XMM寄存器也是在CPU内部啊,不用走BUS,应该很快啊,哪知道还不如push/pop快呢:

先空跑一趟,记录一下循环的开销

mov ecx, 0xfffffff

star:

        ;call testf

        sub ecx, 1

        jnz star

300K周期左右

然后看一下push/pop 4个寄存器的的时间:    1600K左右

然后看一下pinsrd/pextrd 4个寄存器的的时间:    2300K左右

都减去300之后,1300/2000,这就尴尬了,还是老老实实push/pop吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值