除法的优化

最新推荐文章于 2024-09-19 03:43:53 发布

zzhongcy

最新推荐文章于 2024-09-19 03:43:53 发布

阅读量9.9k

点赞数 3

分类专栏：算法与数据结构

算法与数据结构专栏收录该内容

10 篇文章 0 订阅

订阅专栏

浮点运算

大多数的ARM处理器硬件上并不支持浮点运算。但ARM上提供了以下几个选项来实现浮点运算。

浮点累加协处理器FPA（Floating-PointAccelerator）：ARM上提供了一组协处理器指令专门实现浮点运算。但这需要硬件支持，具体某一处理器上是否有FPA协处理器支持，可以查看ARM相关手册。

·浮点运算仿真（FPE）：使用软件仿真了FPA协处理器的执行。

·浮点运算库（FPLib）：使用ARM的浮点运算库函数实现程序中的浮点运算操作。这就意味着C编译器要把每一个浮点操作转换成一个子程序调用。C库中的子函数使用整型运算来模拟浮点操作。这些代码是用高效的汇编语言编写而成的。尽管如此，浮点运算执行起来还是要比相应整型运算慢得多。

注意

Thumb指令不支持协处理器指令，所以在Thumb状态下实现浮点运算，只能调用ARM浮点运算库。

为了在ARM上高效地实现浮点运算，请遵循以下规则。

·避免使用浮点除法运算。通常情况下，除法运算的执行速度是普通加法或乘法运算速度的1/2。在无法避免除法的情况下，尽量使除法的除数为常数。如，x=x/3.0，可将其变为x=x*(1.0/3.0)。这样除数为常数（1.0/3.0），该值在编译阶段由编译器计算。

·使用float型代替double型。float型要比double使用更少的内存和寄存器。

·避免使用三角函数功能。实现三角函数功能，如sin、cos，使用了大量的乘加运算，它的运算速度大约是普通乘法运算的十倍。

·当编译器处理浮点运算操作时，由于精度的影响很多优化不能实现。比如，表达式3*(x/3)，编译器不能判断其值和x是等价的。所以在使用浮点运算表达式时，最好先人工的做一些必要的优化。

##############################################3

ARM中用乘法代替除法的优化

ARM在硬件上不支持除法指令，编译器是通过调用C库函数来实现除法运算的，有许多不同类型的除法程序来适应不同的除数和被除数。但直接利用C库函数中的标准整数除法程序，根据执行情况和输入操作数的范围，要花费20～100个周期，消耗较多的软件运行时间。在实时嵌入式应用中，对时间参数较为敏感，故可以考虑如何优化避免除法消耗过多的CPU运行时间。

　　除法和模运算(/和%)执行起来比较慢，所以应尽量避免使用。但是，除数是常数的除法运算和用同一个除数的重复除法，执行效率会比较高。在ARM中，可以利用单条MUL指令实现乘法操作。本文将阐述如何用乘法运算代替除法运算，以及如何使除法的次数最少化。

　　1 避免除法运算

　　在非嵌入式领域，因为CPU运算速度快、存储器容量大，除法操作通常都是不加考虑直接使用的。但在嵌入式领域，首先需要考虑的是这些除法操作是否是必须的。以对环形缓冲区操作为例，经常要用到除法，其实完全可以避免这些除法运算。

　　假定有一个buffer_size大小的环形缓冲区，如图1所示，offset指定目前所在的位置。通过increment字节来增加offset的值，一般是这样写的：

　　0ffset=(Offset+increment)%buffer_size;

　　效率更高的写法是：

　　offset+=increment;

　　if(offset>=buffer_size){

　　offset-=buffer_size;

　　}

　　第一种写法要花费50个周期，而第二种因为没有除法运算，只须花费3个周期。这里假定increment

　　如果不能避免除法运算，那么就应尽量使除数和被除数是无符号的整数。有符号的除法程序执行起来更加慢，因为它们先要取得除数和被除数的绝对值，再调用无符号除法运算，最后再确定结果的符号。

　　2 充分利用商和余数

　　许多C语言库中的除法函数返回商和余数。换句话说，每一个除法运算，余数是可以无偿得到的，反之亦然。例如，要在屏幕缓冲区找到偏移量为offset的屏幕位置(x，y)，可以这样写：

　　typeclef struct{

　　int x;

　　int y;

　　}point;

　　point getxy_v1(unsigned int offset，unsigned int bytes_per_line){

　　point p;

　　p.y=offset/lt)ytes_per_line;

　　p.x=offset - p.y* bytes_per_line;

　　return p;

　　}

　　这里，似乎对p.x使用减法和乘法，少了一次除法运算;但是，实际上使用模运算或者取余操作效率更高，对getxy_v1改进如下：

　　point getxy_v2(unsigned int offset，unsigned int bytes_per_line){

　　point P;

　　P.x=offset%bytes_per_1ine;

　　P.y=offset/bytes_per_line;

　　return P;

　　}

　　从下面编译器的输出结果可以看到，只有一次除法调用。实际上，这个程序要比前面的getxy_vl少4条指令(注意，并不是对所有的编译器和C库都有这样的结果)。

　　getxy_v2

　　STMFD r13!，{r4，r14};保存r4，lr人堆栈

　　MOV r4，r0 ;赋值后r4保存的为点P基址

　　MOV r0，r2 ;r0=bytes_per_line

　　BL rt_udiv ;调用无符号除法例程

　　(r0.;r1)=(rl/r0，rl%r0)

　　STR r0，[r4，#4] ;P.y=offset/bytes_per_line

　　STR rl，[r4，#o] ;P.x=offset%bytes_per_line

　　LDMFD r13!，(r4，pc);恢复上下文，返回

　　3 把除法转换为乘法

　　在程序中，同一个除数的除法经常会出现很多次。在前面的例子中，bytes_per_line的值在整个程序中都是固定不变的。又如3到2笛卡尔坐标变换，其中就使用了同一个除数两次：

　　(x，Y，x)→(x/z，y/z)

　　这种情况下，使用cache指令中的值1/z，并使用1/z的乘法来代替除法运算，效率会更高。另外，要尽可能使用int类型的运算，避免使用浮点运算。

　　下面将更加偏重于从数学和理论的角度分析，把重复除法转换成乘法运算。

　　下面来区分精确数学意义上的除法和整型除法运算：

　　n/d，即整数n被分成整数d份，结果趋向于O(与C语言相同);

　　n%d，即n被d除之后的余数，就是n--d(n/d);

　　n/d=n·d-1，即真正数学意义上的n被d除。

　　当使用整型除法时，最容易估算d-1值的方法是计算232/d。然后，就可以估算n/d为：

　　(n(232/d))/232 (1)

　　在执行n的乘法时，需要精确到64位。对于这种方法，会出现如下问题：

　　为了计算232/d，由于一个unsigned int类型的数据放不下232，编译器要使用64位long long类型的数，而且必须指定除法为(1 ull<<32)/d。这种64位的除法比32位的除法执行起来要慢得多。

　　如果d碰巧是1，那么232/d就不再适合于un—signed int数据类型。

　　上面的做法似乎很好，而且解决了这两个问题。那么，再来看一下用(232一1)/d代替232/d。令

　　s=0xffffffff ul/d (2)

　　以上n/d-2，q，n/d+1为整数值，所以可得q=n/d或q=(n/d)一1，即初步估计的结果q与正确值n/d有可能存在偏差1。可以发现，通过计算余数r=n—q·d(O≤r<2d)是比较容易的。下面的代码纠正了这个结果：

　　r=n--q*d;/*初步估计结果余数r的范围为O≤r<2d*/

　　if(r>=d){/*若需要校正*/

　　r-=d;/*校正r，使O≤r

　　n++;/*相应商加1进行校正*/

　　} /*得正确结果q=n/d和r=n%d*/

　　下面给出一个实例，用上面的算法完成了N个元素的数组被d除。首先，计算上面所说的s值，然后用乘以5来代替每个被d除的除法。64位的乘是很容易实现的，因为ARM中有一条指令UMULL，可以进行2个32位数相乘，给出一个64位的结果。

　　void scale(

　　unsigned int*dest; /*目的数据*/

　　unsigned int*src; /*源数据*/

　　unsignedInt d; /*分母d*/

　　urlslglaedInt N;) /*数据长度*/

　　{

　　unsigned int s=0xFFFFFFFFu/d;

　　do{

　　unsigned int n，q，r;

　　n=*(src++);

　　q=(urtslgrted int)(((unsined tong long)n*s)>>32);

　　r=n*d;

　　if(r>=d){ /*若需要对商进行校正*/

　　q++;

　　}

　　*(dest++)=q;

　　}while(--N);

　　}

　　这里假定除数和被除数都是32位的无符号整数。当然，使用32位乘法进行16位的无符号数计算，或者使用1 28位乘法进行64位数计算，运算规则是一样的。可以为特定的数据选择最窄的运算宽度。如果数据是16位的，那么就设置s=(216一1)/d，然后用标准的整型乘法来求值q。

　　4 结论

　　如果不能避免除法运算，那么应尽可能使用除法程序同时产生商n/d和余数n%d的好处。对于重复对一除数d的除法.预先计算好s=(2k一1)/d，用乘以s的2k位乘法来代替除以d的k位无符号整数除法，可大大减少由于直接使用除法操作引入的指令周期数。

zzhongcy

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录