MMX实现的矩阵转置操作

原创 2007年10月08日 16:50:00
 _asm
 {
  movq mm0,[esi]
   movq mm1,[esi+2*ebx]
   movq mm4,[mm0]
   punpacklwd mm0,mm1
   movq mm2,[esi+4*ebx]
   punpackhwd mm4,mm1
   movq mm3,[esi+6*ebx]
   movq mm5,mm2
   punpacklwd mm2,mm3
   movq mm6,mm0
   punpackhwd mm5,mm3
   movq mm7,mm4
   punpackldq mm0,mm2
   movq [edi+2*eax],mm6
   punpackldq mm4,mm5
   movq [edi+4*eax],mm4
   punpackhdq mm7,mm5
   movq [edi+6*eax],mm7
   emms
 }
 
算法说明:
这种算法适用于行列均为4的倍数的矩阵转换,对于其他大小的矩阵要做额外的处理工作。例如,可以将行列数填充0的方式扩展4的倍数,然后安照上述算法进行转置,上面的算法是针对16bit数据的。

MMX+C++实现图片渐入渐出

  • 2014年08月17日 23:00
  • 25.6MB
  • 下载

图片的淡入淡出_MMX

  • 2013年04月20日 20:03
  • 2.02MB
  • 下载

c语言实现矩阵转置的代码

  • 2010年07月01日 13:31
  • 724B
  • 下载

MMX实现图片渐入渐出

  • 2010年12月15日 12:40
  • 4.26MB
  • 下载

MMX汇编指令优化

MMX汇编指令优化
  • jacke121
  • jacke121
  • 2017-01-22 14:45:46
  • 504

JAVA 矩阵转置

  • 2011年10月26日 22:30
  • 952B
  • 下载

数据结构之---C语言实现矩阵的转置

//矩阵的转置
  • u012965373
  • u012965373
  • 2015-05-31 09:08:11
  • 5615

使用MMX/SSE汇编指令集优化视频开发

1、汇编指令集 目前大部分的PC机采用的都是Intel或者AMD的CPU,其支持的多媒体汇编指令有: MMX:多媒体扩展指令(MultiMedia eXtention),该指令由Intel在1996年...
  • shaqoneal
  • shaqoneal
  • 2015-05-26 17:16:52
  • 2803

CUDA之矩阵转置程序优化实例

Catalog 已经达到极限了?影响代码性能的两个主要方面优化代码内存操作 看代码内存操作是否有效——DRAM utilizationcoalesce合并从little’s Law中找继续...
  • Bruce_0712
  • Bruce_0712
  • 2017-03-22 22:43:35
  • 1594

矩阵转置代码,速度优化

今天心血来潮,想写个CPU版本的矩阵转置代码,过几天写GPU版本的。 按照我的想法,就是以下几种方式: 1> 整块矩阵转置,横读纵写或纵读横写2> 将矩阵分成固定大小的block,block与bloc...
  • gogdizzy
  • gogdizzy
  • 2010-03-05 21:30:00
  • 11601
收藏助手
不良信息举报
您举报文章:MMX实现的矩阵转置操作
举报原因:
原因补充:

(最多只允许输入30个字)