double数据的内存存储方式

最新推荐文章于 2024-07-31 18:06:25 发布

yansmile1

最新推荐文章于 2024-07-31 18:06:25 发布

阅读量3.3w

点赞数 13

分类专栏： C/C++

C/C++ 专栏收录该内容

71 篇文章 3 订阅

订阅专栏

从存储结构和算法上来讲，double和float是一样的，不一样的地方仅仅是float是32位的，double是64位的，所以double能存储更高的精度。
        任何数据在内存中都是以二进制（0或1）顺序存储的，每一个1或0被称为1位，而在x86CPU上一个字节是8位。比如一个16位（2字节）的short int型变量的值是1000，那么它的二进制表达就是：00000011 11101000。由于Intel CPU的架构原因，它是按字节倒序存储的，那么就因该是这样：11101000 00000011，这就是定点数1000在内存中的结构。
        目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法，用符号、指数和尾数来表示，底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格：

````````符号位   阶码   尾数   长度
float           1      8     23       32
double       1     11    52       64
临时数       1     15    64       80

由于通常C编译器默认浮点数是double型的，下面以double为例：
共计64位，折合8字节。由最高到最低位分别是第63、62、61、……、0位：
          最高位63位是符号位，1表示该数为负，0正；
          62-52位，一共11位是指数位；
          51-0位，一共52位是尾数位。


          按照IEEE浮点数表示法，下面将把double型浮点数38414.4转换为十六进制代码。
          把整数部和小数部分开处理:整数部直接化十六进制：960E。小数的处理:

0.4=0.5*0+0.25*1+0.125*1+0.0625*0+……

小数的处理(http://blog.csdn.net/lin200753/article/details/27952897)：

在十进制中小数有些是无法完整用二进制表示的。它们只能用有限位来表示，从而在存储时可能就会有误差。十进制的小数采用乘2取整法进行计算，取掉整数部分后，剩下的小数继续乘以2,直到小数部分全为0.

如0.125变成二进制为

0.125*2=0.25 .....取整0

0.25*2＝0.5 ........取整0

0.5*2＝ 1.0 ………取整1

0.0*2＝0

所以0.125的二进制为0.001

如我们有

而0.9*2=1.8.....取整1

0.8*2=1.6…....取整1

0.6*2=1.2.......取整1

0.2*2=0.4........取整0

0.4*2＝0.8...取整0

0.8*2=1.6....取整1

………………………………

从而它是一个循环，不可能出现小数部分为0的情况。从而在内存中表示时就会小于0.9

          实际上这永远算不完！这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了（隐藏位技术：最高位的1不写入内存）。
          如果你够耐心，手工算到53位那么因该是：38414.4(10)=1 001011000001110 .0110101010101010101010101010101010101(2)
科学记数法为：1. 001…… 乘以2的15次方。指数为15！
          于是来看阶码，一共11位，可以表示范围是-1024~1023。因为指数可以为负，为了便于计算，规定都先加上1023，在这里， 15+1023=1038。二进制表示为：100   00001110
          符号位：正——   0   ！
          合在一起（尾数的表示：去掉小数点前面的1）：
0 1000000   1110 0010   11000001   11001101   01010101   01010101   01010101   01010101
          按字节倒序存储的十六进制数就是：

55 55 55 55 CD C1 E2 40

网址：http://blog.csdn.net/lai123wei/article/details/7220684

C语言和C#语言中，对于浮点类型的数据采用单精度类型（float）和双精度类型(double)来存储，float数据占用32bit, double数据占用64bit, 无论是单精度还是双精度在存储中都分为三个部分：

首先说一下原,反,补,移码. 移码其实就等于补码,只是符号相反. 对于正数而言,原,反,补码都一样, 对负数而言,反码除符号位外,在原码的基础上按位取反,补码则在反码的基础之上,在其最低位上加1,要求移码时,仍然是先求补码,再改符号.