高级语言内的单指令多数据流计算(SIMD)

 单指令多数据流,Single Instruction Multiple Data,简写为SIMD,就是说用
一个指令同一时间处理多个数据; 
    很多年来,x86体系的CPU增加的新指令集大多都是SIMD指令(和相应的寄存器);
比如MMX,3DNow!,MMX2,SSE,SSE2,SSE3,SSSE3,SSE4,AVX等等;
    不用借助这些高级指令集和其特殊寄存器,我们在高级语言范围内,也能进行
很多SIMD类似的计算;
   
问题一 : 对一个字节流的每一个数据进行右移1位
   一般的代码:  (当然,输出数组也可以是另外一个数组,下同)

view plaincopy to clipboardprint?
uint8 a[10000];  
for (int i=0;i<10000;++i)  
    a[i]=a[i]>>1; 
      uint8 a[10000];
      for (int i=0;i<10000;++i)
          a[i]=a[i]>>1;
   使用SIMD思路的代码(4路数据流同时计算):
view plaincopy to clipboardprint?
uint8 a[10000];  
uint32* a32=(uint32*)a; //实际代码可能需要考虑内存访问对齐和边界处理问题,下同  
for (int i=0;i<2500;++i){  
    uint32 c=a32[i]&0xFEFEFEFE;  
    a32[i]=c>>1;  

      uint8 a[10000];
      uint32* a32=(uint32*)a; //实际代码可能需要考虑内存访问对齐和边界处理问题,下同
      for (int i=0;i<2500;++i){
          uint32 c=a32[i]&0xFEFEFEFE;
          a32[i]=c>>1;
      }

   明白了这里的实现原理,那么对于其他右移位数/左移/双字节数据也能同理处理了;
   其他几个问题也一样可以举一反三;
   提示: 如果软件运行在64位模式,那我们就能一次处理更多的数据!

问题二 : 对一个字节流的每一个数据x,计算255-x
   一般的代码:
view plaincopy to clipboardprint?
uint8 a[10000];  
for (int i=0;i<10000;++i)  
    a[i]=255-a[i];  //我见过的一个处理图像颜色取反的代码 
      uint8 a[10000];
      for (int i=0;i<10000;++i)
          a[i]=255-a[i];  //我见过的一个处理图像颜色取反的代码

   使用SIMD思路的代码(4路数据流同时计算):
view plaincopy to clipboardprint?
uint8 a[10000];  
uint32* c=(uint32*)a;  
for (int i=0;i<2500;++i){  
    a32[i]=~a32[i];  

    uint8 a[10000];
    uint32* c=(uint32*)a;
    for (int i=0;i<2500;++i){
        a32[i]=~a32[i];
    }

 

问题三 : 求两个字节流的平均字节流
   一般的代码:
view plaincopy to clipboardprint?
uint8 a[10000];  
uint8 b[10000];  
for (int i=0;i<10000;++i)  
    a[i]=(a[i]+b[i])>>1;//我见过的一个处理图像颜色50%混合的代码 
      uint8 a[10000];
      uint8 b[10000];
      for (int i=0;i<10000;++i)
          a[i]=(a[i]+b[i])>>1;//我见过的一个处理图像颜色50%混合的代码

   使用SIMD思路的代码(2路数据流同时计算):

view plaincopy to clipboardprint?
uint8 a[10000];  
uint8 b[10000];  
uint32* a32=(uint32*)a;  
uint32* b32=(uint32*)b;  
for (int i=0;i<2500;++i){  
    uint32 c=a32[i];  
    uint32 d=b32[i];  
    uint32 e_1_3 =(c & 0xFF00FF00)>>1;  
    uint32 e_0_2 =(c & 0x00FF00FF);  
           e_1_3+=(d & 0xFF00FF00)>>1;  
           e_0_2+=(d & 0x00FF00FF);  
    a32[i]=((e_1_3 & 0xFF00FF00)) | ((e_0_2>>1) & 0x00FF00FF);  

      uint8 a[10000];
      uint8 b[10000];
      uint32* a32=(uint32*)a;
      uint32* b32=(uint32*)b;
      for (int i=0;i<2500;++i){
          uint32 c=a32[i];
          uint32 d=b32[i];
          uint32 e_1_3 =(c & 0xFF00FF00)>>1;
          uint32 e_0_2 =(c & 0x00FF00FF);
                 e_1_3+=(d & 0xFF00FF00)>>1;
                 e_0_2+=(d & 0x00FF00FF);
          a32[i]=((e_1_3 & 0xFF00FF00)) | ((e_0_2>>1) & 0x00FF00FF);
      }


    如果允许结果有点小误差,也可以这样写(4路数据流同时计算):
view plaincopy to clipboardprint?
uint8 a[10000];  
uint8 b[10000];  
uint32* a32=(uint32*)a;  
uint32* b32=(uint32*)b;  
for (int i=0;i<2500;++i){  
    a32[i]=(a32[i]&0xFEFEFEFE>>1)+(b32[i]&0xFEFEFEFE>>1);  

      uint8 a[10000];
      uint8 b[10000];
      uint32* a32=(uint32*)a;
      uint32* b32=(uint32*)b;
      for (int i=0;i<2500;++i){
          a32[i]=(a32[i]&0xFEFEFEFE>>1)+(b32[i]&0xFEFEFEFE>>1);
      }  

  一个来源于ffmpeg的算法 (4路数据流同时计算):  (相当精彩啊)

view plaincopy to clipboardprint?
uint8 b[10000];    
uint32* a32=(uint32*)a;    
uint32* b32=(uint32*)b;    
for (int i=0;i<2500;++i){  
    uint32 c=a32[i];    
    uint32 d=b32[i];    
    a32[i]=(c&d) + (((c^d) & 0xFEFEFEFE) >> 1);  
}  
 
//(还可以试试,注意最后一个bit位  (c|d)- (((c^d)&0xFEFEFEFE)>>1); ) 
uint8 b[10000]; 
uint32* a32=(uint32*)a; 
uint32* b32=(uint32*)b; 
for (int i=0;i<2500;++i){
    uint32 c=a32[i]; 
    uint32 d=b32[i]; 
    a32[i]=(c&d) + (((c^d) & 0xFEFEFEFE) >> 1);
}

//(还可以试试,注意最后一个bit位  (c|d)- (((c^d)&0xFEFEFEFE)>>1); )

 


问题四 : 按指定比例混合两个字节流 (alphaBlend混合,线性插值缩放等常用的算法)
   一般的代码:
      //算法为 dst=(a*(255-s)+b*s)/255;
      //如果允许误差,可以改为 dst=((a<<8)+((int)b-a)*s)>>8;(甚至dst=a+(((int)b-a)*s>>8));

view plaincopy to clipboardprint?
uint8 a[10000];  
uint8 b[10000];  
int   s=13;  //s 可能属于[0..255];  
for (int i=0;i<10000;++i){  
    int c=a[i];  
    a[i]=((c<<8)+(b[i]-c)*s)>>8;  

      uint8 a[10000];
      uint8 b[10000];
      int   s=13;  //s 可能属于[0..255];
      for (int i=0;i<10000;++i){
          int c=a[i];
          a[i]=((c<<8)+(b[i]-c)*s)>>8;
      }
   //如果不能有误差,这里可以用公式(x/255)==(x*32897>>23)==(x+(x>>8)+1)>>8;


   使用SIMD思路的代码(2路数据流同时计算):


view plaincopy to clipboardprint?
uint8 a[10000];  
uint8 b[10000];  
int   s=13;  //s 可能属于[0..255];  
uint32* a32=(uint32*)a;  
uint32* b32=(uint32*)b;  
int   rs=256-s;  
for (int i=0;i<2500;++i){  
    uint32 c=a32[i];  
    uint32 d=b32[i];  
    uint32 e_0_2=(c & 0x00FF00FF)*rs + (d & 0x00FF00FF)*s;       
    uint32 e_1_3=((c & 0xFF00FF00)>>8)*rs + ((d & 0xFF00FF00)>>8)*s;  
    a32[i]=((e_0_2 & 0xFF00FF00)>>8) | (e_1_3 & 0xFF00FF00);  

      uint8 a[10000];
      uint8 b[10000];
      int   s=13;  //s 可能属于[0..255];
      uint32* a32=(uint32*)a;
      uint32* b32=(uint32*)b;
      int   rs=256-s;
      for (int i=0;i<2500;++i){
          uint32 c=a32[i];
          uint32 d=b32[i];
          uint32 e_0_2=(c & 0x00FF00FF)*rs + (d & 0x00FF00FF)*s;    
          uint32 e_1_3=((c & 0xFF00FF00)>>8)*rs + ((d & 0xFF00FF00)>>8)*s;
          a32[i]=((e_0_2 & 0xFF00FF00)>>8) | (e_1_3 & 0xFF00FF00);
      }

问题四: 在字节流中查找第一个出现0值位置 (字节流的值域[0..128])   (字符串结束位置查找?)
   一般的代码:

view plaincopy to clipboardprint?
uint8 a[10000];  
for (int i=0;i<10000;++i){  
    if (a[i]==0)  
        return i;  
}  
return -1; 
      uint8 a[10000];
      for (int i=0;i<10000;++i){
          if (a[i]==0)
              return i;
      }
      return -1;


   使用SIMD思路的代码(4路数据流同时计算):
view plaincopy to clipboardprint?
uint8 a[10000];  
uint32* a32=(uint32*)a;  
uint32 test=0;  
int i=0;  
for (;i<2500;++i){  
    test=(a32[i]-0x01010101)&0x80808080;  
    if (test!=0)  
        break;  
}  
if (test==0)  
    return -1;  
i*=4;  
while ((test&0x80)==0){  
    ++i;  
    test>>=8;  
}  
return i; 
      uint8 a[10000];
      uint32* a32=(uint32*)a;
      uint32 test=0;
      int i=0;
      for (;i<2500;++i){
          test=(a32[i]-0x01010101)&0x80808080;
          if (test!=0)
              break;
      }
      if (test==0)
          return -1;
      i*=4;
      while ((test&0x80)==0){
          ++i;
          test>>=8;
      }
      return i;
    
  问题扩展: 字节流的值域[0..255]时的0查找;
   一般的代码同上,不用修改;
   使用SIMD思路的代码(4路数据流同时计算):
view plaincopy to clipboardprint?
uint8 a[10000];  
uint32* a32=(uint32*)a;  
uint32 test=0;  
int i=0;  
for (;i<2500;++i){  
    uint32 c=a32[i];  
    c=((c&0xF0F0F0F0)>>4)|(c&0x0F0F0F0F);  
    test=(c-0x01010101)&0x80808080;  
    if (test!=0)  
        break;  
}  
if (test==0)  
    return -1;  
i*=4;  
while ((test&0x80)==0){  
    ++i;  
    test>>=8;  
}  
return i; 
      uint8 a[10000];
      uint32* a32=(uint32*)a;
      uint32 test=0;
      int i=0;
      for (;i<2500;++i){
          uint32 c=a32[i];
          c=((c&0xF0F0F0F0)>>4)|(c&0x0F0F0F0F);
          test=(c-0x01010101)&0x80808080;
          if (test!=0)
              break;
      }
      if (test==0)
          return -1;
      i*=4;
      while ((test&0x80)==0){
          ++i;
          test>>=8;
      }
      return i;

  当然,在有SIMD对应指令可以使用的环境下,直接用其指令一般还是比这里的模拟实现有优势的;
如果没有或者不好动用这些指令的情况下,模拟SIMD的实现还是很有速度优势的;
当你能在高级语言内熟练编写SIMD类算法,那么在真的使用SIMD指令的时候就更能得心应手了;

 

 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/housisong/archive/2011/04/14/6324467.aspx

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值