浮点数最底层的加减运算详细解析

最新推荐文章于 2023-05-29 16:29:06 发布

测试羊~

最新推荐文章于 2023-05-29 16:29:06 发布

阅读量1.4k

点赞数 1

分类专栏：其他文章标签：补码计算机组成原理浮点数

原文链接：https://blog.csdn.net/weixin_44611096/article/details/105998875?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159685472219195188314982%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=159685472219195188314982&biz_id=0&ut

版权

其他专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、现实中的科学计算法的加法运算

0.123×10⁵+0.560×10² =?
我们是怎么算呢？

通过移动小数点将它们的指数对齐
0.560×10²=0.00056×10⁵
两个尾数相加
0.123+0.00056=0.12356
将结果四舍五入
0.12356×10⁵=0.124×10⁵

二、机器内部

设X_m，Y _m是X，Y的尾数，X _e，Y _e是X，Y的阶码。（X _e<Y _e ）
4. 和将指数对齐意思一样，有个名词叫对阶，因为浮点数的指数用阶码表示，对阶就是让阶码相同。
5. 现实生活中，指数大的像小的看齐也行，小的像大的看齐也行。在机器中是小阶像大阶看齐。阶小的数尾数右移，右移位数是两个数的阶码差的绝对值。
6. IEEE 754尾数右移时，要将不显示表示的1移到小数位，高位补0，低位移到附加位。

三、计算两数阶码差

Δe=Y_e−X_e
[ΔE] _补 = [E_x − E_y]_补 = [E_x]_移 − [E_y]_移 = [E_x]_移 + [−[E_y]_移]_补（mod2ⁿ）
7. 当ΔEΔE大于阶码所能表示的最大值时，即溢出时，则无法判断阶差。
8. 在IEEE 754中，对于单精度，由于可以表示24位尾数，所以当ΔEΔE大于24时，则阶数小的数视为0，结果等于阶数大的数。

四、对阶

将X_m右移Δe位。X_m→X_m× 2^−Δe，保留右移出的部分到附加位。

五、尾数加减

X_m × 2^Xe−Ye ± Y_m

六、将结果规格化

当尾数高位为0需左归：每左移一次，阶码减一，直到MSB（最高有效位）为1。
当尾数最高位有进位，需右归：每右移一次，阶码加一，直到MSB为1。
每次阶码变化，都需要判断阶码是否上溢或下溢。阶码上溢时异常处理，下溢时结果为0。

七、判断溢出

若运算结果的尾数（包含小数点前的一位）全为0，则下溢。
若最终阶码全为1，则上溢

八、舍入

就近舍入（默认）
附加位：
1. 值为01时舍
2. 值为11时入
3. 值位10时强制结果为偶数
往正无穷方向舍入
往负无穷方向舍入
往0方向舍入

还可以增加一个粘位，精度更高
尾数代表的实际值是0，则将阶码置0。（因为浮点数表示0的格式原因）

九、附加位

IEEE 754规定：中间结果需在右边加2个附加位。

保护位：在有效数字位右边的位
舍入位：在保护位右边的位

作用：保存对阶时右移的位或运算的中间结果
处理：左归时被移到有效数字位。作为舍入的依据

十、例子

求0.5-0.4375的值
脑补过程：
(0.5)₁₀=(0.1)₂=1.000×2⁻¹
(−0.4375)₁₀=(−0.0111)₂=−1.110×2⁻²
对阶：−1.110×2⁻²=−0.111×2⁻¹
相减：1.000×2⁻¹−0.111×2⁻¹ =0.001×2⁻¹
规格化：0.001×2⁻¹=1.000×2⁻⁴
无溢出
结果是(0.0001)₂=(0.0625)₁₀结果是(0.0001)₂=(0.0625)₁₀

在寄存器中：
-1用移码表示为1111 1111+0111 1111=0111 1110
-2的移码等于-1的移码减1，所以值为0111 1101
-2的变补码为1000 0011（两阶码减法用）
+0.5可表示为0 01111110 00000000000000000000000
-0.4375可表示为1 01111101 11000000000000000000000
Δe=01111110+10000011=00000001>0Δe=01111110+10000011=00000001>0

对-0.4375进行对阶（3个附加位）
右移1位得：1 01111110 11100000000000000000000 000（红色是移动的位，左边补隐藏位1）
尾数相加：001.00000000000000000000000 000+100.11100000000000000000000 000=000.00100000000000000000000 000
- 最高位是符号位，最后三位是附加位
- 小数点前有两位，为了避免两个1相加时产生的进位丢失。
- 有1则需要显示的表示出来，并放在小数点前一位。
- 实际过程没有小数点，这里为了表达清楚。
左归：
左移三次：000.00100000000000000000000 000→001.00000000000000000000000
阶码减三次1：01111110→01111011
结果：0 01111011 00000000000000000000000