float和double的精度和取值范围计算方法

C/C++各数据类型大小和取值范围

类型名称字节数取值范围
signed char1-2^7(-128) ~ 2^7-1(127)
unsigned char10 ~ 2^8-1(255)
short int 或 short2-2^15(-32 768) ~ 2^15-1(32 767)
unsigned short int 或 unsigned short20 ~ 2^16-1(65 535)
int4-2^31(-2 147 483 648) ~ 2^31-1(2 147 483 647)
long int 或 long4-2^31(-2 147 483 648) ~ 2^31-1(2 147 483 647)
unsigned int40 ~ 2^32-1(4 294 967 295)
unsigned long int 或 unsigned long40 ~ 2^32-1(4 294 967 295)
unsigned long long int 或 unsigned long long80 ~ 2^64-1(1.844674407371e+19)
long long int 或 long long8-2^63(-9.2233720368548e+18) ~ 2^63-1(9.2233720368548e+18)

上面的简单,就是一个字节站8位,若占n个字节
无符号的就是 2 n 2^n 2n
有符号的把最前面一位拿出来,0代表+,1代表-, ± 2 n − 1 ±2^{n-1} ±2n1

类型名称字节数取值范围
float4 ± 3.4 ∗ 1 0 38 ±3.4*10^{38} ±3.41038(精确到6位小数)
double8 ± 1.7 ∗ 1 0 308 ±1.7*10^{308} ±1.710308(精确到15位小数)
long double12 ± 1.19 ∗ 1 0 4932 ±1.19*10^{4932} ±1.19104932(精确到18位小数)

float和double的精度和取值范围计算方法

float存储方式

首先我们知道常用科学计数法是将所有的数字转换成 ( ± ) a . b ∗ 1 0 c (±)a.b*10^c (±)a.b10c 的形式,其中a的范围是1到9共9个整数,b是小数点后的所有数字,c是10的指数。

而计算机中存储的都是二进制数据,所以float存储的数字都要先转化成 ( ± ) a . b ∗ 2 c (±)a.b*2^c (±)a.b2c

由于二进制中最大的数字就是1,所以表示法可以写成 ( ± ) 1. b ∗ 2 c (±)1.b *2^c (±)1.b2c 的形式,float要想存储小数就只需要存储(±),b和c就可以了。

float的存储正是将4字节32位划分为了3部分来分别存储正负号,小数部分和指数部分的:

  • Sign(1位):用来表示浮点数是正数还是负数,0表示正数,1表示负数。
  • Exponent(8位):指数部分。即上文提到数字c,但是这里不是直接存储c,为了同时表示正负指数,这里实际存储的是c+127。
  • Mantissa(23位):尾数部分。也就是上文中提到的数字b。

float单精度浮点数的二进制表示时 指数为什么要加上127的偏移量?

计算机表示单精度浮点数时,是用8位去存储指数部分,在数值上面,表示 0 − 255 0 -255 0255,但是我们同样需要有负指数,这就需要拿出一位来表示符号位,这样就变成了 − 127 − 128 -127-128 127128。但我们不想要符号位,储存时候会加上127,这样就刚刚好是0~255,就能很好的储存了,在编译时再做个转化就完事了,不然,不移量的话需要判断符号位来判断数值的正负。

例子

以数字6.5为例,看一下这个数字是怎么存储在float变量中的:

  • 先来看整数部分,模2求余可以得到二进制表示为110。

  • 再来看小数部分,乘2取整可以得到二进制表示为.1(如果你不知道怎样求小数的二进制,请主动搜索一下)。

  • 拼接在一起得到110.1然后写成类似于科学计数法的样子,得到 1.101 ∗ 2 2 1.101 * 2^2 1.10122

  • 从上面的公式中可以知道符号为正,尾数是101,指数是2。

符号为正,那么第一位填0,指数是2,加上偏移量127等于129,二进制表示为10000001,填到2-9位,剩下的尾数101填到尾数位上即可

SEEEEEEEEMMMMMMMMMMMMMMMMMMMMMM
0100000011010000000000000000000
三部分在内存中的分布如下,用首字母代替类型

float最值计算

前面知float存储的数字可以写成 ;当b和c最大时候就是float的取值范围。

指数c,指数位数为11111111最大,因为这个数有特殊用途,所以要减去1得11111110

尾数b,可知当b全为1时,11111111111111111111111

此时为最大取值范围。
借助进制转换器:https://www.sojson.com/hexconvert.html

  • 1.b = 1.11111111111111111111111 十进制表示为:1.9999998807907104
    在这里插入图片描述
  • ∵ c+127 = 11111110 = 256 ∴ c = 127

在这里插入图片描述
加上前面的符号位就是 ± 3.4 ∗ 1 0 38 ±3.4*10^{38} ±3.41038

double一个意思,自行计算

### 回答1: 在编程中,我们可以使用函数重载来兼顾floatdouble。例如,我们可以编写两个函数,一个接受float类型的参数,另一个接受double类型的参数。这样,我们就可以在不同的情况下使用不同的函数来处理不同类型的数据。另外,我们还可以使用模板来实现对不同类型的兼容性。 ### 回答2: 要兼顾floatdouble,我们首先需要理解它们的区别用途。 floatdouble都是用于表示浮点数的数据类型,但其精度取值范围有所不同。float是单精度浮点数,占用4个字节,能够表示大约6至7位有效数字,取值范围约为-3.4E38至3.4E38。而double则是双精度浮点数,占用8个字节,能够表示大约15位有效数字,取值范围约为-1.7E308至1.7E308。 为了兼顾floatdouble,我们可以根据具体情况选择合适的数据类型。如果对精度要求较高或需要处理较大的数值,可以选择double;如果对精度要求较低或需要节省内存空间,可以选择float。兼顾两者可以根据实际需求灵活选择。 在编程过程中,我们需要注意一些细节以避免数据类型转换问题。当对floatdouble进行运算时,编译器会将两者转换为同一类型进行计算,这可能导致精度丢失。为避免这种情况,可以使用强制类型转换将float转换为double后再进行计算。 同时,在处理浮点数时,我们也需要注意它们的舍入误差。由于浮点数的内部表示方式决定了其只能精确表示有限个数,而不能精确表示无限循环小数或无理数。因此,在进行比较操作时,应该避免直接用等号判断是否相等,而是采用比较两个数之间的误差范围来判断是否相近。 总之,要兼顾floatdouble,我们需要根据具体需求选择合适的数据类型,并在编程过程中注意数据类型转换处理误差的问题。 ### 回答3: 当需要在程序中同时使用floatdouble两种浮点数时,我们可以通过以下方法进行兼顾: 1. 精度要求:首先,我们需要明确程序中对于浮点数的精度要求。如果需要较高的精度,比如在涉及金融计算或科学研究中,浮点数需要具有高精度,则应优先选择double类型,因为它的精度更高。 2. 内存空间:如果对内存空间有限制,而且精度要求不是很高(比如在游戏开发中),则可以选择float类型,因为它占用的内存更小。这样可以节省内存资源,并提高程序的运行效率。 3. 类型转换:在计算过程中,可能需要进行floatdouble之间的类型转换。当从float类型转换为double类型时,可以直接进行,因为double的位数更多,可以容纳更大范围更高精度的数值。而当从double类型转换为float类型时,需要注意可能会有精度丢失的问题,我们可以使用强制类型转换或舍入策略(如四舍五入)来解决。 4. 数值范围:需要注意的是,floatdouble类型的数值范围是不同的。在处理较大数值或较小数值时,需要根据具体情况选择合适的类型,以充分利用数值范围,避免溢出或不必要的精度丢失。 总而言之,兼顾floatdouble的关键是根据程序的需求确定精度要求、内存空间数值范围等因素,并灵活运用floatdouble类型,以达到在程序中兼顾精度性能的平衡。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猛男技术控

感谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值