关于float,double的精度丢失

1.疑惑

由于对float或double 的使用不当,可能会出现精度丢失的问题。问题大概情况可以通过如下代码理解:

 

Java代码 
  1. public class FloatDouble {  
  2.   
  3.     /**功能:打印float和double浮点数十进制和二进制表示 
  4.      * @author mike 
  5.      * @param args 
  6.      */  
  7.     public static void main(String[] args) {  
  8.         double d = 20014999;    
  9.         long l = Double.doubleToLongBits(d);    
  10.         System.out.println("Double:"+"十进制:"+d+",二进制:"+Long.toBinaryString(l));    
  11.         float f = 20014999;    
  12.         int i = Float.floatToIntBits(f);    
  13.         System.out.println("Float:"+"十进制:"+f+",二进制:"+Integer.toBinaryString(i));   
  14.     }  
  15. }   


打印结果


Double:十进制:2.0014999E7,二进制: 100000101110011000101100111100101110000000000000000000000000000

Float:十进制:2.0015E7,二进制:1001011100110001011001111001100


从输出结果可以看出double 可以正确的表示20014999 ,而float 没有办法表示20014999 ,得到的只是一个近似值。这样的结果很让人讶异。20014999 这么小的数字在float下没办法表示。于是带着这个问 题,做了一次关于float和double学习,做个简单分享,希望有助于大家对java 浮 点数的理解。

 

2.分析


关于 java 的 float 和 double

Java 语言支持两种基本的浮点类型: float 和 double 。java 的浮点类型都依据 IEEE 754 标准。

IEEE 754 定义了32 位和 64 位浮点数使用二进制表示标准。

维基百科:http://zh.wikipedia.org/wiki/IEEE_754


浮点数在c/c++以及java中的内存布局遵循IEEE标准的,首先看一下IEEE所规定的存储的方式:

  符号位 指数位 小数部分 指数偏移量 单精度 浮点数 双精度 浮点数
1 位[31]8位 [30-23]23位 [22-00]127
1 位[63]11 位[62-52]52 位[51-00]1023


     解释一下,首先float变量按上述标准是4个字节,其中最高位为符号位,1代表此浮点数为负数,0代表正数,接下来的8位为指数位,范围0~255,,IEEE规定了一个偏移量127,指数位的值减去127为小数的偏移。低23位为小数部分,这23位是来描述浮点数的值,偏移为0的情况下,这23位数是一个浮点数的小数部分,也就是说位于小数点的右边。

   IEEE 754 用科学记数法以底数为 2 的小数来表示浮点数。32 位浮点数用 1 位表示数字的符号,用 8 位来表示指数,用 23 位来表示尾数,即小数部分。作为有符号整数的指数可以有正负之分。小数部分用二进制(底数 2)小数来表示。对于64 位双精度浮点数,用 1 位表示数字的符号,用 11 位表示指数,52 位表示尾数。如下两个图来表示:

float(32位):

float

double(64位):

double

都是分为三个部分:

(1)符号位: 一 个单独的符号位s 直接编码符号s 。

(2)幂指数(指数位):k 位 的幂指数E ,移 码表示 

(3)小数位(尾数位):n 位 的小数,原码表示 

那么 20014999 为什么用 float 没有办法正确表示?

结合float和double的表示方法,通过分析 20014999 的二进制表示就可以知道答案了。

以下是 20014999  double  float 下的二进制表示方式。


Double:100000101110011000101100111100101110000000000000000000000000000

Float:1001011100110001011001111001100


对于输出结果分析如下。对于 double 的二进制左边补上符号位 0 刚好可以得到 64 位的二进制数。根据double的表示法,分为符号数、幂指数和尾数三个部分如下:

0 10000010111 0011000101100111100101110000000000000000000000000000

对于 float 左边补上符 号位 0 刚好可以得到 32 位的二进制数。 根据float的表示法, 也分为 符号数、幂指数和尾数三个部分如下 

0 10010111 00110001011001111001100

绿色部分是符号位,红色部分是幂指数,蓝色部分是尾数。

对比可以得出:符号位都是 0 ,幂指数为移码表示,两者刚好也相等。唯一不同的是尾数。

 double 的尾数 为: 001100010110011110010111 0000000000000000000000000000 省略后面的零,至少需要24位才能正确表示 

而在 float 下面尾数 为: 00110001011001111001100 ,共 23 位。

为什么会这样?原因很明显,因为 float尾数 最多只能表示 23 位,所以 24 位的 001100010110011110010111  float 下面经过四舍五入变成了 23 位的 00110001011001111001100 。所以 20014999  float 下面变成了 20015000 
也就是说
 
20014999 虽然是在float的表示范围之内,但  IEEE 754  float 表示法精度长度没有办法表示出 20014999,而只能通过四舍五入得到一个近似值。

double 的尾数 为: 001100010110011110010111加1后舍弃最后一位,就变成 float 尾数 为: 00110001011001111001100


3.引申:

 

(1)十进制转二进制:

 

     用2辗转相除至结果为1 将余数和最后的1从下向上倒序写 就是结果

     例如

     302 302/2 = 151 余0

     151/2 = 75 余1

75/2 = 37 余1

37/2 = 18 余1

18/2 = 9 余0

9/2 = 4 余1

4/2 = 2 余0

2/2 = 1 余0

故二进制为100101110

 

(2)十进制转二进制,小数部分

 

小数乘以2,取整,小数部分继续乘以2,取整,得到小数部分0为止,将整数顺序排列。

例如

0.8125x2=1.625 取整1

小数部分是0.625 0.625x2=1.25 取整1

小数部分是0.25 0.25x2=0.5 取整0

小数部分是0.5 0.5x2=1.0 取整1

小数部分是0

结束 所以0.8125的二进制是0.1101

 

(3)二进制转十进制

 

从最后一位开始算,依次列为第0、1、2...位 第n位的数(0或1)乘以2的n次方 得到的结果相加就是答案

例如:

01101011.

转十进制:

第0位:1乘2的0次方=1

1乘2的1次方=2

0乘2的2次方=0

1乘2的3次方=8

0乘2的4次方=0

1乘2的5次方=32

1乘2的6次方=64

0乘2的7次方=0

然后:1+2+0 +8+0+32+64+0=107.

二进制01101011=十进制107.

(4)浮点数转化成二进制 

已知:double类型38414.4。

求:其对应的二进制表示。

分析:double类型共计64位,折合8字节。由最高到最低位分别是第63、62、61、……、0位: 
最高位63位是符号位,1表示该数为负,0表示该数为正;  62-52位,一共11位是指数位; 51-0位,一共52位是尾数位。 


步骤:

按照IEEE浮点数表示法,下面先把38414.4转换为二制数。 


把整数部和小数部分开处理:整数部直接化二进制进制: 1001011000001110 。

 

小数的处理: 
0.4*2=0.8 取0

0.8*2=1.6 取1

0.6*2=1.2 取1

0.2*2=0.4 取0

0.4*2=0.8 取0

..............
实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了。

隐藏位技术:最高位的1不写入内存(最终保留下来的还是52位)。 
如果你够耐心,手工算到53位那么因该是:38414.4(10)=1001011000001110.0110011001100110011001100110011001100(2)

科学记数法为:1.001011000001110 0110011001100110011001100110011001100,右移了15位,所以指数为15。

或者可以如下理解:

1.001011000001110 0110011001100110011001100110011001100×2^15 

于是来看阶码,按IEEE标准一共11位,可以表示范围是-1024 ~ 1023。因为指数可以为负,为了便于计算,规定都先加上1023(2^10-1),在这里,阶码:15+1023=1038。二进制表示为:100 00001110; 符号位:因为38414.4为正对应 为0; 合在一起(注:尾数二进制最高位的1不要): 

01000000 11100010 11000001 110 01100  11001100  11001100  11001100  11001100



4.总结:

 

浮点运算很少是精确的,只要是超过精度能表示的范围就会产生误差。往往产生误差不是 因为数的大小,而是因为数的精度。因此,产生的结果接近但不等于想要的结果。尤其在使用 float  double 作精确运 算的时候要特别小心。
可以考虑采用一些替代方案来实现。如通过
 String 结合 BigDecimal 或 者通过使用 long 类型来转换。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值