浮点数:顾名思义,小数点的位置可以浮动,采用了科学记数法的思想
任意一个二进制数都可以用阶码 、尾数 唯一地表示为
⚠️正常情况下的尾数 包括符号位阶码 决定了数据的表示范围,尾数 决定了数据的表示精度
阶码与尾数可以采用不同的机器码进行表示
当浮点数的绝对值超过最大正数时发生上溢,小于最小正数时发生下溢
⚠️正溢出/负溢出指两正数/两负数相加时超出最大值/最小值,均属于上溢出的特例。
机器数0:有两种情况
- 若浮点数的尾数为零,无论阶码为何值;
- 当阶码的值遇到比它能表示的最小值还要小时(阶码负溢出),无论其尾数为何值
浮点数的规格化:上文中的浮点数表示方法随着阶码 的变化会有多种表示方法,然而计算机中需要唯一性,因此我们需要对浮点数的尾数进行规格化处理。
规格化处理:使尾数 的最高有效位(⚠️尾数的第一位是符号位,因此最高有效位为符号位后一位)为1,即 。
那么对于非规格化尾数的处理也非常的明显,只需改变阶码值来使得尾数左移或右移
另一种规格化数方法,是将符号位单独取出提至最前,然后隐藏最高有效位的1隐藏,那么就有 :
这便是IEEE754标准所采用的规格数,两种规格化数的方法没有本质区别,没有特殊说明的规格化数都是按照第一种的标准。
IEEE754浮点数标准:到此为止,其实还是没给出浮点数唯一的标准,比如说尾数与阶码的机器码形式就还没确定。因此在20世纪70年底,美国电气及电子工程师协会(IEEE)于1985年提出了浮点数标准IEEE754,该标准至今仍被主流计算机所采用。
该标准主要包括32位单精度浮点数
float
与64位双精度浮点数double
规定所有二进制浮点数均由符号位 、阶码 与尾数 三部分组成,不同精度的浮点数各部分位宽不同,下图为16位浮点数各部分位宽分布
阶码 用移码表示,⚠️其偏移量不是正常情况下的 而是 ,之所以用移码表示阶码,其一是不需要符号位(移码可以认为将整体范围进行了一个平移);其二可以直接使用阶码比较大小;其三更方便移位进行加减运算。而对于偏移量采用 而非 则众说纷纭,我提供一部分较为合理的解释:
- 偏移量变小,表示的实际范围往右平移,即最大值更大,正数表示范围直接翻一倍,整体范围变大(负数范围变小只会使精度变低)
- 使每一个规格化数的倒数能用另一个浮点数表示:阶码范围 (00…0与11…1的阶码被保留用作特殊情况,因此范围较往常更小)。偏移量取 时,阶码为 的数取完倒数后阶码变为 发生上溢,损失值较大;偏移量取 时,阶码为 的数取完倒数后阶码变为 发生下溢,但损失值极小。
尾数 为定点小数,将小数点左侧的1隐藏,完整的尾数形式应该为 ,实际只保存 ,节省下来的存储空间用于提高精度。可以认为尾数是以原码表示。
⚠️尾数本身是包括符号位的,但IEEE754标准中将其分开并置于开头是特殊操作,如无特别说明符号位与尾数是连在一起的一个整体。
特殊情况:
当阶码 与尾数 均为0时表示机器数0。另外由于尾数采用原码表示,因此存在+0与-0。
当 时,浮点数为规格化数,其值为
我们清楚规格化数 无法表示绝对值在 内的数,那么为了进一步提高浮点数的表示精度,于是引入非规格化数。当 时,浮点数便为非规格化数,其值为
「Section 2」浮点数表示
最新推荐文章于 2024-06-30 03:24:28 发布