深度剖析数据在内存中的存储

最新推荐文章于 2024-08-20 15:16:46 发布

.Rap.

最新推荐文章于 2024-08-20 15:16:46 发布

阅读量57

点赞数

文章标签： c语言开发语言

本文链接：https://blog.csdn.net/weixin_63028981/article/details/133071393

版权

1.数据类型介绍

我们已经知道了C语言的内置类型如下：

char //字符数据类型

short //短整型

int //整形

long //长整形

float //单精度浮点型

double //双精度浮点型

值得一提的是，C语言没有原生字符串类型String，字符串是通过字符串指针来简接实现的

这些类型的意义是什么呢？

1.使用这个内存开辟空间的大小

2.如何看待内存空间的视角

其实，数据在内存中还分为有符号型和无符号型，如下所示：

char

unsigned char//无符号型

signed char//有符号型

short

unsigned short [int]

signed short [int]

int

unsigned int

signed int

long

unsigned long [int]

signed long [int]

编译器默认定义变量为有符号型

2.整数类型在内存中的存储

我们知道，定义变量需要在内存中开辟空间，空间的大小由数据的类型决定。例如：

int a=10;
char a=-12;

那他们在内存中是如何存储的呢？

我们首先要了解一个概念：

2.1 原码反码补码

计算机中的整数有三种2进制表示方法，即原码、反码和补码。

三种表示方法均有 符号位 和 数值位 两部分，符号位都是用 0 表示 “ 正 ” ，用 1 表示 “ 负 ” ，而数值位

正数的原、反、补码都相同。

负数的原反补则各不相同：

原码：直接将数值转化为二进制数

反码：在原码的基础上，符号位不变，数值位按位取反

补码：反码加1

对于整形来说，在内存中是以补码的形式存储的，让我们来观察一下：

注：有必要说明一下，为了方便阅读，编译器将二进制数转化为了十六进制。实际数据为 00000000 00000000 00000000 00001010

我们发现，数据存放的顺序怎么是反着来的？

让我们来了解下一个概念：

2.2 大端小端

大端（存储）模式，是指数据的低位保存在内存的高地址中，而数据的高位，保存在内存的低地址中；

小端（存储）模式，是指数据的低位保存在内存的低地址中，而数据的高位 , ，保存在内存的高地址中。

原来，在计算机系统中是以字节为单位的，而一个int类型对应4个字节，那数据的存放就必然存在顺序问题

例如：一个 16bit 的 short 型 x ，在内存中的地址为 0x0010 ， x 的值为 0x1122（0x表示后面的整数是十六进制），那么 0x11 为高字节， 0x22 为低字节。对于大端模式，就将 0x11 放在低地址中，即 0x0010 中， 0x22 放在高地址中，即 0x0011 中。小端模式，刚好相反。我们常用的 X86 结构是小端模式，而 KEIL C51 则为大端模式。很多的ARM，DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

那么，如何检验你的机器是大端还是小端呢？
其实也很简单，我们只需要定义一个int型的变量值为1，如果你的机器是小端，那它在内存中由低地址到高地址应该是这样存的，0x010000，在大端上应该是这样存的，0x000001，所以我们只需要定义一个char类型的指针让他访问第一个字节，如果是1，那说明你的机器是小端，反之，你的机器是大端，代码如下：

#include <stdio.h>
int main()
{
	int a = 1;
	char* p = &a;
	if (*p == 1)
		printf("小端\n");
	else
		printf("大端\n");
	return 0;
}

实例：

下面的程序输出什么？

#include <stdio.h>
int main()
{
    int i= -20;
    unsigned int j = 10;
    printf("%d\n", i+j);
    return 0;
}

我们来分析一下，整数i的原码为10000000 00000000 00000000 00010100，补码为11111111 11111111 11111111 11101100，无符号整数j的原反补均相同，为00000000 00000000 00000000 00001010，相加为11111111 11111111 11111111 11110110，按%d(打印十进制的有符号整数)打印，即把这个数看成有符号数，其原码为10000000 00000000 00000000 00001001，所以打印的结果为-10.

2.4 char类型的整型提升

C 的整型算术运算总是至少以缺省整型类型的精度来进行的。

为了获得这个精度，表达式中的字符和短整型操作数在使用之前被转换为普通整型，这种转换称为整型提升。

整型提升的意义：

表达式的整型运算要在 CPU 的相应运算器件内执行， CPU 内整型运算器 (ALU) 的操作数的字节长度一般就是int 的字节长度，同时也是 CPU 的通用寄存器的长度。

因此，即使两个 char 类型的相加，在 CPU 执行时实际上也要先转换为 CPU 内整型操作数的标准长度。

通用 CPU （ general-purpose CPU ）是难以直接实现两个 8 比特字节直接相加运算（虽然机器指令中可能有这种字节相加指令）。所以，表达式中各种长度可能小于int 长度的整型值，都必须先转换为int或unsigned int，然后才能送入CPU去执行运算。

实例如下：

#include<stdio.h>
int main()
{
    char a,b=-2,c=-1;
    a=b+c;
}

b和c的值被提升为普通整型，然后再执行加法运算。

加法运算结束后，结果将被截断，然后再存于a中。

如何进行整型提升？

//负数的整形提升
char c1 = -1;
变量c1的二进制位(补码)中只有8个比特位：
1111111
因为 char 为有符号的 char
所以整形提升的时候，高位补充符号位，即为1
提升之后的结果是：
11111111111111111111111111111111
//正数的整形提升
char c2 = 1;
变量c2的二进制位(补码)中只有8个比特位：
00000001
因为 char 为有符号的 char
所以整形提升的时候，高位补充符号位，即为0
提升之后的结果是：
00000000000000000000000000000001
//无符号整形提升，高位补0

实例1：

下面程序输出什么？

#include <stdio.h>
int main()
{
    char a= -1;
    signed char b=-1;
    unsigned char c=-1;
    printf("a=%d,b=%d,c=%d",a,b,c);
    return 0;
}

我们来分析一下，首先-1的二进制序列为10000000 00000000 00000000 00000001，它的补码为11111111 11111111 11111111 11111111，由于char类型只能存放一个字节，也就是八个比特位，所以，a里面存放的实际值为 11111111，其中第一位为符号位。然后以%d的形式打印，显然这里要进行整型提升，即前面补上符号位1，取反加1后结果依然是-1.而对于无符号的值c来说，由于没有符号位，整型提升时前面要补0，即00000000 00000000 00000000 11111111，原反补相同，最后结果为255。

实例2：

我们知道，一个char类型只能存放一个字节，即八个比特位，其中第一位为符号位，那char类型的范围应该时-128~127，那假如给它一个范围之外的值会发生什么呢？

#include <stdio.h>
int main()
{
	char a = 128;
	printf("%d", a);
	return 0;
}

我们会发现，a的值为-128，为什么呢？

其实道理也很简单，如何把一个三米的木头放入两米的房间呢？截断。127的二进制序列为01111111，再加上一，进位，结果就溢出了，所以我们默认10000000为-128，溢出的那一位就直接丢失了。由此我们发现，char类型存放数据的规律为：0~127~-128~0，形成一个闭合圆环

3.浮点数类型在内存中的存储

根据国际标准IEEE（电气和电子工程协会） 754，任意一个二进制浮点数V可以表示成下面的形式：

(-1)^S * M * 2^E

(-1)^S 表示符号位，当 S=0 ， V 为正数；当 S=1 ， V 为负数。

M 表示有效数字，大于等于 1 ，小于 2 。

2^E 表示指数位。

举例来说：

十进制的 5.0 ，写成二进制是 101.0 ，相当于 1.01×2^2 。

那么，按照上面的格式，可以得出 S=0 ， M=1.01 ， E=2 。

十进制的 -5.0 ，写成二进制是 - 101.0 ，相当于 - 1.01×2^2 。那么， S=1 ， M=1.01 ， E=2 。

IEEE 754 规定：

对于 32 位的浮点数，最高的 1 位是符号位 s ，接着的 8 位是指数 E ，剩下的 23 位为有效数字 M

对于 64 位的浮点数，最高的 1 位是符号位S，接着的 11 位是指数 E ，剩下的 52 位为有效数字 M 。

IEEE 754 对有效数字 M 和指数 E ，还有一些特别规定。

前面说过， 1≤M<2 ，也就是说， M 可以写成 1.xxxxxx 的形式，其中 xxxxxx 表示小数部分。

IEEE 754 规定，在计算机内部保存 M 时，默认这个数的第一位总是 1 ，因此可以被舍去，只保存后面的 xxxxxx部分。比如保存 1.01 的时候，只保存01 ，等到读取的时候，再把第一位的 1 加上去。这样做的目的，是节省 1 位有效数字。以 32 位浮点数为例，留给M 只有 23 位，将第一位的1 舍去以后，等于可以保存 24 位有效数字。

至于指数 E ，情况就比较复杂。

首先， E 为一个无符号整数（ unsigned int ）

这意味着，如果 E 为 8 位，它的取值范围为 0~255 ；如果 E 为 11 位，它的取值范围为 0~2047 。但是，我们知道，科学计数法中的E 是可以出现负数的，所以IEEE 754 规定，存入内存时 E 的真实值必须再加上一个中间数，对于 8 位的 E ，这个中间数是127 ；对于 11 位的 E ，这个中间数是1023 。比如， 2^10 的 E 是 10 ，所以保存成 32 位浮点数时，必须保存成 10+127=137 ，即 10001001。然后，指数E 从内存中取出还可以再分成三种情况：

E 不全为 0 或不全为 1

这时，浮点数就采用下面的规则表示，即指数 E 的计算值减去 127 （或 1023 ），得到真实值，再将有效数字M 前加上第一位的 1 。

比如：

0.5 （ 1/2 ）的二进制形式为 0.1 ，由于规定正数部分必须为 1 ，即将小数点右移 1 位，则为

1.0*2^(-1) ，其阶码为 -1+127=126 ，表示为01111110，而尾数 1.0 去掉整数部分为 0 ，补齐 0 到 23 位 00000000000000000000000 ，则其二进制表示形式为

0 01111110 00000000000000000000000

E全为0

这时，浮点数的指数 E 等于 1-127 （或者 1-1023 ）即为真实值，有效数字M 不再加上第一位的 1 ，而是还原为 0.xxxxxx 的小数。这样做是为了表示 ±0 ，以及接近于0的很小的数字。

E全为1

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；

.Rap.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
深度剖析数据在内存中的存储

我们已经知道了C语言的内置类型如下：char //字符数据类型short //短整型int //整形long //长整形float //单精度浮点型double //双精度浮点型值得一提的是，C语言没有原生字符串类型String，字符串是通过字符串指针来简接实现的这些类型的意义是什么呢？1.使用这个内存开辟空间的大小2.如何看待内存空间的视角其实，数据在内存中还分为和，如下所示：charunsigned char//无符号型signed char//有符号型shortint。
复制链接

扫一扫