深度剖析数据在内存中的存储

1.数据类型介绍

我们已经知道了C语言的内置类型如下:

char //字符数据类型

short //短整型

int //整形

long //长整形

float //单精度浮点型

double //双精度浮点型

值得一提的是,C语言没有原生字符串类型String,字符串是通过字符串指针来简接实现的

这些类型的意义是什么呢?

        1.使用这个内存开辟空间的大小

        2.如何看待内存空间的视角

其实,数据在内存中还分为有符号型无符号型,如下所示:

        char
                unsigned char//无符号型
                signed char//有符号型
        short
                unsigned short [int]
                signed short [int]
        int
                unsigned int
                signed int
        long
                unsigned long [int]
                signed long [int]
编译器默认定义变量为有符号型

2.整数类型在内存中的存储

我们知道,定义变量需要在内存中开辟空间,空间的大小由数据的类型决定。例如:

int a=10;
char a=-12;

那他们在内存中是如何存储的呢?

我们首先要了解一个概念:

2.1 原码 反码 补码 

计算机中的整数有三种2进制表示方法,即原码、反码和补码。

三种表示方法均有 符号位 数值位 两部分,符号位都是用 0 表示 ,用 1 表示 ,而数值位
正数的原、反、补码都相同。
负数的原反补则各不相同:
原码:直接将数值转化为二进制数

反码:在原码的基础上,符号位不变,数值位按位取反 

补码:反码加1 

 对于整形来说,在内存中是以补码的形式存储的,让我们来观察一下:

注:有必要说明一下,为了方便阅读,编译器将二进制数转化为了十六进制。实际数据为 00000000 00000000 00000000 00001010

我们发现,数据存放的顺序怎么是反着来的?

让我们来了解下一个概念:

2.2 大端 小端

大端(存储)模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;
小端(存储)模式,是指数据的低位保存在内存的低地址中,而数据的高位 , ,保存在内存的高地址中。

 原来,在计算机系统中是以字节为单位的,而一个int类型对应4个字节,那数据的存放就必然存在顺序问题

例如:一个 16bit 的 short 型 x ,在内存中的地址为 0x0010 , x 的值为 0x1122(0x表示后面的整数是十六进制) ,那么 0x11 为 高字节, 0x22 为低字节。对于大端模式,就将 0x11 放在低地址中,即 0x0010 中, 0x22 放在高 地址中,即 0x0011 中。小端模式,刚好相反。我们常用的 X86 结构是小端模式,而 KEIL C51 则 为大端模式。很多的ARM,DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式 还是小端模式。

那么,如何检验你的机器是大端还是小端呢?
其实也很简单,我们只需要定义一个int型的变量值为1,如果你的机器是小端,那它在内存中由低地址到高地址应该是这样存的,0x010000,在大端上应该是这样存的,0x000001,所以我们只需要定义一个char类型的指针让他访问第一个字节,如果是1,那说明你的机器是小端,反之,你的机器是大端,代码如下:

#include <stdio.h>
int main()
{
	int a = 1;
	char* p = &a;
	if (*p == 1)
		printf("小端\n");
	else
		printf("大端\n");
	return 0;
}

实例

下面的程序输出什么?

#include <stdio.h>
int main()
{
    int i= -20;
    unsigned int j = 10;
    printf("%d\n", i+j);
    return 0;
}

我们来分析一下,整数i的原码为10000000 00000000 00000000 00010100,补码为11111111 11111111 11111111 11101100,无符号整数j的原反补均相同,为00000000 00000000 00000000 00001010,相加为11111111 11111111 11111111 11110110,按%d(打印十进制的有符号整数)打印,即把这个数看成有符号数,其原码为10000000 00000000 00000000 00001001,所以打印的结果为-10.  

2.4 char类型的整型提升

C 的整型算术运算总是至少以缺省整型类型的精度来进行的。
为了获得这个精度,表达式中的字符和短整型操作数在使用之前被转换为普通整型,这种转换称为 整型 提升
整型提升的意义:
表达式的整型运算要在 CPU 的相应运算器件内执行, CPU 内整型运算器 (ALU) 的操作数的字节长度 一般就是int 的字节长度,同时也是 CPU 的通用寄存器的长度。
因此,即使两个 char 类型的相加,在 CPU 执行时实际上也要先转换为 CPU 内整型操作数的标准长度。
通用 CPU general-purpose CPU )是难以直接实现两个 8 比特字节直接相加运算(虽然机器指令中可能有这种字节相加指令)。所以,表达式中各种长度可能小于int 长度的整型值,都必须先转换为intunsigned int,然后才能送入CPU去执行运算。

 实例如下:

#include<stdio.h>
int main()
{
    char a,b=-2,c=-1;
    a=b+c;
}

 bc的值被提升为普通整型,然后再执行加法运算。

加法运算结束后,结果将被截断,然后再存于a中。

如何进行整型提升?

//负数的整形提升
char c1 = -1;
变量c1的二进制位(补码)中只有8个比特位:
1111111
因为 char 为有符号的 char
所以整形提升的时候,高位补充符号位,即为1
提升之后的结果是:
11111111111111111111111111111111
//正数的整形提升
char c2 = 1;
变量c2的二进制位(补码)中只有8个比特位:
00000001
因为 char 为有符号的 char
所以整形提升的时候,高位补充符号位,即为0
提升之后的结果是:
00000000000000000000000000000001
//无符号整形提升,高位补0

 实例1:

下面程序输出什么?

#include <stdio.h>
int main()
{
    char a= -1;
    signed char b=-1;
    unsigned char c=-1;
    printf("a=%d,b=%d,c=%d",a,b,c);
    return 0;
}

我们来分析一下,首先-1的二进制序列为10000000 00000000 00000000 00000001,它的补码为11111111 11111111 11111111 11111111,由于char类型只能存放一个字节,也就是八个比特位,所以,a里面存放的实际值为 11111111,其中第一位为符号位。然后以%d的形式打印,显然这里要进行整型提升,即前面补上符号位1,取反加1后结果依然是-1.而对于无符号的值c来说,由于没有符号位,整型提升时前面要补0,即00000000 00000000 00000000 11111111,原反补相同,最后结果为255。

实例2:

我们知道,一个char类型只能存放一个字节,即八个比特位,其中第一位为符号位,那char类型的范围应该时-128~127,那假如给它一个范围之外的值会发生什么呢? 

#include <stdio.h>
int main()
{
	char a = 128;
	printf("%d", a);
	return 0;
}

我们会发现,a的值为-128,为什么呢?

其实道理也很简单, 如何把一个三米的木头放入两米的房间呢?截断。127的二进制序列为01111111,再加上一,进位,结果就溢出了,所以我们默认10000000为-128,溢出的那一位就直接丢失了。由此我们发现,char类型存放数据的规律为:0~127~-128~0,形成一个闭合圆环

3.浮点数类型在内存中的存储

 根据国际标准IEEE(电气和电子工程协会) 754,任意一个二进制浮点数V可以表示成下面的形式:

(-1)^S * M * 2^E
(-1)^S 表示符号位,当 S=0 V 为正数;当 S=1 V 为负数。
M 表示有效数字,大于等于 1 ,小于 2
2^E 表示指数位。
举例来说:
十进制的 5.0 ,写成二进制是 101.0 ,相当于 1.01×2^2
那么,按照上面 的格式,可以得出 S=0 M=1.01 E=2
十进制的 -5.0 ,写成二进制是 - 101.0 ,相当于 - 1.01×2^2 。那么, S=1 M=1.01 E=2
IEEE 754 规定:
对于 32 位的浮点数,最高的 1 位是符号位 s ,接着的 8 位是指数 E ,剩下的 23 位为有效数字 M
对于 64 位的浮点数,最高的 1 位是符号位S,接着的 11 位是指数 E ,剩下的 52 位为有效数字 M
IEEE 754 对有效数字 M 和指数 E ,还有一些特别规定。
前面说过, 1≤M<2 ,也就是说, M 可以写成 1.xxxxxx 的形式,其中 xxxxxx 表示小数部分。
IEEE 754 规定,在计算机内部保存 M 时,默认这个数的第一位总是 1 ,因此可以被舍去,只保存后面的 xxxxxx部分。比如保存 1.01 的时 候,只保存01 ,等到读取的时候,再把第一位的 1 加上去。这样做的目的,是节省 1 位有效数字。以 32 位 浮点数为例,留给M 只有 23 位, 将第一位的1 舍去以后,等于可以保存 24 位有效数字。
至于指数 E ,情况就比较复杂。
首先, E 为一个无符号整数( unsigned int
这意味着,如果 E 8 位,它的取值范围为 0~255 ;如果 E 11 位,它的取值范围为 0~2047 。但是,我们 知道,科学计数法中的E 是可以出现负数的,所以IEEE 754 规定,存入内存时 E 的真实值必须再加上一个中间数,对于 8 位的 E ,这个中间数是127 ;对于 11 位的 E ,这个中间数是1023 。比如, 2^10 E 10 ,所以保存成 32 位浮点数时,必须保存成 10+127=137 ,即   10001001。 然后,指数E 从内存中取出还可以再分成三种情况:
E 不全为 0 或不全为 1
这时,浮点数就采用下面的规则表示,即指数 E 的计算值减去 127 (或 1023 ,得到真实值,再将有效数字M 前加上第一位的 1
比如:
0.5 1/2 )的二进制形式为 0.1 ,由于规定正数部分必须为 1 ,即将小数点右移 1 位,则为
1.0*2^(-1) ,其阶码为 -1+127=126 ,表示为01111110,而尾数 1.0 去掉整数部分为 0 ,补齐 0 23 00000000000000000000000 ,则其二进制表示形式为
0 01111110 00000000000000000000000

E全为0

这时,浮点数的指数 E 等于 1-127 (或者 1-1023 )即为真实值,有效数字M 不再加上第一位的 1 ,而是还原为 0.xxxxxx 的小数。这样做是为了表示 ±0 以及接近于0的很小的数字

E全为1

这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s);  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值