浮点数加减运算的思考

最新推荐文章于 2023-10-17 22:45:50 发布

weixin_43894877

最新推荐文章于 2023-10-17 22:45:50 发布

阅读量315

点赞数

分类专栏：深入理解计算机系统文章标签：浮点数加减运算

本文链接：https://blog.csdn.net/weixin_43894877/article/details/90610175

版权

深入理解计算机系统专栏收录该内容

10 篇文章 0 订阅

订阅专栏

运行如下代码：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define BUFSIZE 256

int main(int argc, char *argv[]) {
  char prefix[BUFSIZE];
  char next[BUFSIZE];
    int i;
    float sum = 0.0;
    for (i = 1; i < argc; i++) {
	float x = atof(argv[i]);
	sum += x;
	if (i == 1) {
	  sprintf(prefix, "%.4g", x);
	} else {
	  sprintf(next, " + %.4g", x);
	  strcat(prefix, next);
	  printf("%s = %.4g\n", prefix, sum);
	}
    }
    return 0;
}

结果如下图：
在这里插入图片描述
对于上图的结果，想必会心存疑问，那么我们先来了解浮点数的加减运算步骤：
　　假定有两个浮点数
　　　　　X　=　Mx * 2Ex ， Y　=　My * 2Ey

1. 实现X±Y运算,要用如下五步完成:
　　(1) 对阶操作,即比较两个浮点数的阶码值的大小.求△E=Ex-Ey。当其不等于零时,首先应使两个数取相同的阶码值。其实现方法是,将原来阶码小的数的尾数右移|△E|位,其阶码值加上|△E|,即每右移一次尾数要使阶码加1,则该浮点数的值不变(但精度变差了)。尾数右移时,对原码形式的尾数,符号位不参加移位,尾数高位补0;对补码形式的尾数,符号位要参加右移并使自己保持不变。为减少误差,可用
　　另外的线路,保留右移过程中丢掉的一到几位的高位值,供以后舍入操作使用。
　　(2) 实现尾数的加(减)运算,对两个完成对阶后的浮点数执行求和(差)操作。
　　(3) 规格化处理,若得到的结果不满足规格化规则,就必须把它变成规格化的数,对双符号位的补码尾数来说,就必须是001××…×或
　　110××…×的形式。这里的规格化处理规则是:
　　.当结果尾数的两个符号位的值不同时,表明尾数运算结果溢出。此时应使结果尾数右移一位,并使阶码的值加1,这被称为向右规格化,简称右规。
　　.当尾数的运算结果不溢出,但最高数值位与符号位同值,表明不满足规格化规则,此时应重复地使尾数左移、阶减减1,直到出现在最高数值位上的值与符号位的值不同为止,这是向左规格化的操作,简称左规。
　　(4) 舍入操作。在执行对阶或右规操作时,会使尾数低位上的一位或多位的数值被移掉,使数值的精度受到影响,可以把移掉的几个高位的值保存起来供舍入使用。舍入的总的原则是要有舍有入,而且尽量使舍和入的机会均等,以防止误差积累。常用的办法有"0"舍"1"入法,即移掉的最高位为1时则在尾数末位加1;为0时则舍去移掉的数值。该方案的最大误差为2-（n+1）。这样做可能又使尾数溢出,此时就要再做一次右规。另一种方法 "置1"法,即右移时,丢掉移出的原低位上的值,并把结果的最低位置成1。该方案同样有使结果尾数变大或变小两种可能。即舍入前尾数最低位已为0,使其变1,对正数而言,其值变大,等于最低位入了个1。若尾数最低位已为1,则再对其置1无实际效用,等于舍掉了丢失的尾数低位值。
　　(5) 判结果的正确性,即检查阶码是否溢出。浮点数的溢出是以其阶码溢出表现出来的。在加减运算真正结束前,要检查是否产生了溢出,若阶码正常，加(减)运算正常结束；若阶码下溢,要置运算结果为浮点形式的机器零,若上溢,则置溢出标志。

根据如上的步骤，可知，两个浮点数在会进行对阶操作，在对阶时，阶差△E的绝对值大于等于25时，无需进行后续操作，直接取阶码大的数，比如：-1e20+3.14=-1e20，-1e20与3.14在对阶时阶差过大，导致3.14直接被舍去，从而导致了错误答案的出现。因此我们在进行浮点数运算时，需要谨慎，时刻注意浮点数的对阶舍入，避免出现上述情况，导致计算错误，从而引发一系列问题。

weixin_43894877

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
浮点数加减运算的思考

运行如下代码：#include <stdio.h>#include <stdlib.h>#include <string.h>#define BUFSIZE 256int main(int argc, char *argv[]) { char prefix[BUFSIZE]; char next[BUFSIZE]; int i; ...
复制链接

扫一扫