C语言浮点数

 

浮点数的概念

       浮点数也称小数或实数。例如,0.0、75.0、4.023、0.27、-937.198 都是合法的小数。这是常见的小数的表现形式,称为十进制形式。

       C语言中采用float和double关键字来定义小数,float称为单精度浮点型,double称为双精度浮点型,long double更长的双精度浮点型。

       在任何区间内(如1.0 到 2.0 之间)都存在无穷多个实数,计算机的浮点数不能表示区间内所有的值。浮点数通常只是实际值的近似值,例如7.0可能被储存为浮点值6.99999。

点用内存的情况

       我们先来测试一下float、double和long double三种浮点数据类型占用内存的字节数。

       示例(book71.c)

       

       运行结果

       

浮点数的精度

       C标准规定,float类型必须至少能表示6位有效数字,且取值范围至少是10-37~10+37。

       double类型和 float类型的最小取值范围相同,但至少必须能表示10位有效数字。

       long double,以满足比double类型更高的精度要求。不过,C只保证long double类型至少与double类型的精度相同。

       看了上面这段文字,估计大家有点晕,在之前的整数章节中,long比int的占用的内存多,存放数据的值也就越大,并且有一个准确的范围,但是,为什么各种浮点数存放数据的值怎么就这么模糊呢?我先不解释原因,浮点数的存储方式比较复杂,暂时不讨论,先用几个程序来测试一下它们的特征。

1、测试float类型

       示例(book73.c)

       

       运行结果

       

       从程序的运行我们可以看出float数的两个特征:

       1)float数据类型表达的是一个近似的数,不是准确的,小数点后的n位有误差,浮点数的位数越大,误差越大,到8位的时候,误差了1,基本上不能用了。

       2)用“==”可以比较两个整数或字符是否相等,但是,看起来相等的两个浮点数,就是不会相等。

2、测试double类型

       示例(book74.c)

       

       运行结果

       

       从程序的运行我们可以看出double数的两个特征:

       1)double数据类型表达的也是一个近似的数,不是准确的,小数点后的n位有误差,浮点数的位数越大,误差越大,到17位的时候,误差了1,基本上不能用了。

       2)用“==”可以比较两个double数值是否相等。

3、测试long double类型

       示例(book75.c)

       

       运行结果

       

       long double的测试结果与double相同。

4、测试总结

      float只能表达6-7位的有效数字,不能用“==”判断两个数字是否相等。

      double能表达15-16位有效的数字,可以用“==”判断两个数字是否相等。

      long double和double的特征相同。

      在实际开发中,建议弃用float,只采用double就可以,long double暂时没有必要,但不知道以后的操作系统和编译器对long double是否有改进。

浮点数的输出

      float采用%f输出,double采用%lf输出,测试结果证明,double也可以采用%f输出。

      long double采用%Lf输出,注意,L是大写。

      %lf缺省显示小数点后六位。

      如果要显示小数点后n位,用%.nlf,例如:

      double ff=7.5;

      %.2lf  显示 7.50

      浮点数采用%lf输出,完整的输出格式是%m.nlf,指定输出数据整数部分和小数部分共占m位,其中有n位是小数。如果数值长度小于m,则左端补空格,若数值长度大于m,则按实际位数输出。

常用的库函数

      在接下来的内容中,我只介绍double,不再介绍float和long double两种数据类型相关的知识。

      以下是常用的浮点数函数,必须掌握。

      double atof(const char *nptr);       // 把字符串nptr转换为double

      double fabs(double x);               // 求双精度实数x的绝对值

      double pow(double x, double y);     // 求 x 的 y 次幂(次方)

      double round(double x);              // double四舍五入

      double ceil(double x);                 // double向上取整数

      double floor(double x);               // double向下取整数

      double fmod(double x,double y);     // 求x/y整除后的双精度余数

      double modf(double val,double *ip); // 把双精度val分解成整数部分和小数部分,整数部分存放在ip所指的变量中,返回小数部分。

      还有一些数据计算函数,如正弦、对数、指数等,实际开发中极少使用,大家要用的时候再查资料,我就不介绍了。

整数转换为浮点数

      我们先来看一个示例(book77.c):

       

      运行结果

       

      需要特别注意的是dd=ii/jj这一行代码,dd的值0,不是0.75,有点意外,所以,如果对整数转换为浮点数没有把握,加(double)强制转换是个好办法。

应用技巧

      浮点数有一些坑,例如两个浮点数不相等和精度的问题,在实际开发中,我们经常用整数代替浮点数,因为整数是精确的,效率也更高。

      例如人的身高一米七五,以米为单位,用浮点数表示是1.75米,如果以厘米为单位,用整数表示是175。

      long整数的取值是-9223372036854775808~9223372036854775807,有效数字是19位,而double的有效数字才15-16位,所以,整数可以表达的小数更大的数,更实用,麻烦也更少。

      货币:1.75元,如果采用0.01元为单位就是175,采用0.001元为单位就是1750,如果你说要更多小数怎么办?你这是钻牛角尖。

      给大家说一个道,高水平的程序员不容易掉坑里,注意,是不容易,不是一定不会,最好的方法是没有坑。

科学计数法

      在实际开发中,我们很少使用科学计数法,但是它经常出现在计算机系统中,例如浮点数在内存中的存放方式就是科学计数法,所以我们还是有必要学习科学计数法。

      科学记数法是一种记数的方法。把一个数表示成a与10的n次幂相乘的形式(1≤|a|<10,n为整数),这种记数法叫做科学记数法。当我们要书写或运算某个较大或较小且位数较多时,用科学记数法免去浪费很多空间和时间。

      例如:51400000000=5.14×1011。计算器或电脑表达10的幂是一般是用E或e,也就是51400000000=5.14E11或5.14e11。

      用科学记数法表示数时,不改变数的符号,只是改变数的书写形式而已,可以方便的表示日常生活中遇到的一些极大或极小的数 。如:光的速度大约是300,000,000米/秒;全世界人口数大约是:6,100,000,000。

      这样的数,书写和显示都很不方便,我们可以免去写这么多重复的0,将其表现为这样的形式:6,100,000,000=6.1×109,即6.1E9或6.1e9。

      或:0.00001=1×10-5,即绝对值小于1的数也可以用科学记数法表示为a乘10 的负n次方的形式。即1E-5或1e-5。

      科学计数法采用%e或%E输出,完整的输出格式是%m.ne或%m.nE,指定输出数据整数部分和小数部分共占m位,其中有n位是小数。如果数值长度小于m,则左端补空格,若数值长度大于m,则按实际位数输出。

      示例(book78.c):

       

      运行结果

       

 

版权声明

C语言技术网原创文章,转载请说明文章的来源、作者和原文的链接。

来源:C语言技术网(www.freecplus.net

作者:码农有道

如果这篇文章对您有帮助,请点赞支持,或在您的博客中转发我的文章,谢谢!!!

如果文章有错别字,或者内容有误,或其他的建议或意见,请您留言指正,非常感谢!!!

 

<think>嗯,用户想了解C语言浮点数精度损失的原因及解决方法,特别是关于IEEE 754的内容。首先,我需要回忆一下浮点数的基本表示方法。根据IEEE 754标准,浮点数由符号位、指数部分和尾数部分组成。比如单精度浮点数用32位,双精度用64位。精度损失的主要原因可能是因为二进制无法准确表示某些十进制小数,比如0.1这样的数在二进制中是无限循环的,存储时会被截断,导致精度丢失。另外,当进行大数和小数相加时,由于指数对齐,小数部分可能会被舍去,这也是精度问题的一个原因。 用户提到的解决方案可能包括使用更高精度的数据类型,比如用double代替float,或者使用整数运算来避免浮点误差。还有可能需要用到特定的库,比如GNU的多精度算术库。此外,比较浮点数时应该用范围比较而不是直接相等判断,这也是常见的建议。 需要确认引用的资料是否正确。根据用户提供的引用,引用1和引用2解释了IEEE 754标准以及二进制表示导致的精度问题,引用3和4提到了C语言中的具体处理方法和解决方案。所以应该结合这些引用中的信息来组织答案。 可能用户在实际编程中遇到了浮点数计算不准确的问题,比如累加很多小数时结果出现偏差,或者在比较两个浮点数时出现意外结果。这时候需要解释清楚原因,并提供具体的解决办法,比如调整算法或使用特定的方法。 还需要注意回答的结构,按照用户的要求分原因和解决方案两部分,每部分用子标题,并且正确使用LaTeX格式。比如提到IEEE 754的格式时,可以用$$...$$展示单精度和双精度的结构。同时,代码示例要符合用户提供的引用中的例子,比如引用3中的C代码,可能需要解释其原理。 最后,生成的相关问题要围绕浮点数精度损失,可能涉及其他语言如Java、JS的情况,或者如何避免常见错误,以及不同应用场景中的处理方法。需要确保问题有针对性,帮助用户进一步学习。</think>### C语言浮点数精度损失原因及解决方案 --- #### 一、精度损失原因 1. **二进制无法精确表示某些十进制小数** 例如,十进制数 $0.1$ 在二进制中是无限循环小数 $0.0001100110011\dots$,存储时会被截断,导致精度丢失[^2]。 2. **IEEE 754 的位数限制** - **单精度(32位)**:符号位1位,指数8位,尾数23位 - **双精度(64位)**:符号位1位,指数11位,尾数52位 尾数位数有限,无法容纳无限精度的数值。例如,单精度浮点数最多只能保留约6-7位有效十进制数字[^1][^4]。 3. **运算中的精度损失** - **大数吃小数**:当两个相差极大的数相加时,小数可能因指数对齐被舍去。 - **累积误差**:多次运算后误差逐渐累积,例如循环累加 $0.1$ 时[^3]。 --- #### 二、解决方案 1. **选择更高精度类型** 使用 `double`(双精度)替代 `float`(单精度),以扩大尾数位数: ```c double a = 0.1; // 精度误差更小 ``` 2. **避免直接比较浮点数** 使用误差范围(epsilon)代替 `==` 判断: ```c #include <math.h> if (fabs(a - b) < 1e-6) { /* 视为相等 */ } ``` 3. **整数替代法** 将小数转换为整数运算,例如货币计算中以分为单位: ```c int cents = 123; // 代表1.23元 ``` 4. **使用高精度库** 如 GNU MPFR 或 `decimal.h`(C99扩展): ```c #include <decimal/decimal.h> _Decimal32 a = 0.1DF; // 精确十进制浮点类型 ``` 5. **注意运算顺序** 先处理小数量级数值,减少大数吃小数的影响: ```c // 错误示例:sum += 1e10 + 0.1 → 0.1被舍去 // 正确示例:先累加小数再合并大数 ``` --- #### 三、IEEE 754 的底层处理(引用代码解析) 引用代码[^3]通过直接操作二进制位实现浮点数乘法近似: ```c float a = 12.3f, b = 4.56f; int c = *(int*)&a + *(int*)&b - 0x3f800000; // 通过调整指数近似计算乘积 printf("近似结果:%f\n", *(float*)&c); ``` 此方法依赖 IEEE 754 的二进制格式,但会引入额外误差,仅适用于特定场景。 ---
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

C语言技术网-码农有道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值