整型在内存中的存储与管理

Massachusetts_11

已于 2022-08-09 19:22:17 修改

阅读量544

点赞数 8

分类专栏： C语言深度剖析文章标签： c++ c语言

于 2022-08-09 19:13:49 首次发布

本文链接：https://blog.csdn.net/yue152152/article/details/126245254

版权

C语言深度剖析专栏收录该内容

4 篇文章 1 订阅

订阅专栏

前言：

今天我们讨论的整型涉及到整个整型家族（没有小数点的），不单单是int。

char
unsigned char
signed char
short
unsigned short [int]
signed short [int]
int
unsigned int
signed int
long
unsigned long [int]
signed long [int]

1. 整型在内存中的存储

我们都知道，一个变量的创建要在内存中开辟空间，空间的大小由类型决定。

那么数据在开辟的内存中是如何存储的呢？

比如：

int a = 20;
int b = -10;

a、b 两个变量都被分配了四字节的空间，

那如何存储？

1.1 源码、反码、补码

计算机中的整数有三种表示方法，即源码、反码、补码。

三种表示方法都有符号位和数值位两部分（符号位是二进制位的第一位，后面都是数值位）

符号位都是用0表示”正“，用1表示”负“，
而数值位负整数的三种表示方法各不相同。

源码：

直接将二进制按照正负数的形式翻译成二进制就可以。

反码：

将原码的符号位不变，其他位依次按位取反就可以得到了

补码：

反码+1就是补码

整数的原、反、补码都相同。

所以对于整型来说：数据存放内存中其实存放的是补码 。

为什么选择了这样复杂的方式呢？

只要遵循这个补码的规则，两个数不管正负，将符号位和数值域统一处理相加，就可得到答案，即cpu只需要有加法器即可。

注意：实际两个char在进行运算的时候，默认会进行整型提升，先转为4字节的int进行计算，结果再截断为1字节存入char变量，以上例子仅展示一个1字节二进制数的补码相加法则。

补码与源码的相互转换，其运算过程是相同的，不需要额外的硬件电路。

.

2. 整型类型间的转换

2.1 整型提升

原则：

如下char和shot家族在进行算数运算时要首先转换为int，再进行算数运算

char
unsigned char
signed char
short
unsigned short [int]
signed short [int]

方法：

整型提升都是在补码的基础上进行
如果符号位为1，前面高位全部补1
如果符号位为0，前面高位全部补0
注意：无符号类型没有符号位，前面统一补0；

2.2 算数转换

在处理不同类型数值之间的运算时，需要先将两个操作数转换为相同的类型才能进行运算。

转换原则：

按照如上的转换级别，向高级别的那个进行对齐转换成相同类型，再进行运算。

例如：int和unsigned int进行运算，编译器会将低级别的int转换为unsigned int再进行计算。而这个转换编译器并没有对它在内存中的值做出改变，而是使用了不同的读取方式，编译器将原本的int的符号位也当成数值大小进行读取。

3. 大小端介绍

为了方便理解大小端的概念，我们先谈谈内存窗口和16进制。

3.1 二进制与十六进制的转换

根据前面的案例我们发现，表示一个1字节的数需要8个二进制位，一个int型的4字节数就需要32个二进制位，太过冗长。为了阅读转换方便，如内存窗口，我们通常使用16进制去表示一个数。

转换方式：

四个二进制位可表示的数有 2⁴ = 16 个，即一个16进制位可表示的范围，所以每4个二进制位的长度相当于1个16进制位长度；

一个字节需要8个二进制位，也就是两个16进制位

一个int是4字节，也就是8个二进制位

3.2 内存窗口

3.2.1打开方式

以下是vs编译器的内存窗口打开方式。

首先进入调试模式（快捷键F10）
按如下方式打开一个内存窗口
- 在顶部地址栏输入变量地址，或直接对变量取地址（&变量名）
- 一般控制列数为4，一列表示1字节，选择4列，一行就是一个int的大小；
- 下方三部分，从左至右依次是：地址、对应地址中存的16进制数据、数据作为ASSIC码对应的字符。

3.2.2理解

上图第一行的数据80是两个16进制数，像这样两个连在一起的16进制数表示内存中的一个字节；

在内存中是以字节为单位区分地址的，每个字节都有一个对应的地址；

这里数据80对应的地址是0x0133FED0（0x前缀表示这是一个16进制数），下一个字节df位置对应的地址就是0x0133FED1，这一行是一个int的大小。

最后栏€就是80转换位十进制数128作为ASSIC码对应的字符，如果不是字符串，这一栏基本不怎么用。

3.3大小端

在123这个十进制数中，3、2、1分别在个位、十位、百位，这里1所在的位代表的权重最大，3最小，所以我们称左侧的为高权值位；

同样的，一个二进制数、16进制数，都存在高权值位。

我们知道，每个int由4个字节组成，那么这4个字节也存在高权值与地权值。

接下里，我们看一下在VS编译器中一个int对应的四个字节在内存中排布:

可以发现，两处的字节序是相反的，这里11这个字节是高权值位，他被放到了地址最高的位置，

这里就可以引出大小端的概念，

我们规定：

大端（存储）模式，是指数据的低权值字节保存在内存的高地址中，而数据的高权值字节，保存在内存的低地址中；
小端（存储）模式，是指数据的低权值字节保存在内存的低地址中，而数据的高权值字节，保存在内存的高地址中

总结：低权值位于低地址就是小端，位于高地址就是大端

上面的例子中，44这个字节是低权值的字节，它被放在了低地址处，所以VS编译器使用的是小端字节序。

不同操作系统的大小端不尽相同，为了提高程序的可移植性，应尽量避免大小端的影响。

为什么有大端和小端：
为什么会有大小端模式之分呢？这是因为在计算机系统中，我们是以字节为单位的，每个地址单元
都对应着一个字节，一个字节为8 bit。但是在C语言中除了8 bit的char之外，还有16 bit的short型，32 bit的long型（要看具体的编译器），另外，对于位数大于8位的处理器，例如16位或者32位的处理器，由于寄存器宽度大于一个字节，那么必然存在着一个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。
例如：一个 16bit 的 short 型 x ，在内存中的地址为 0x0010 ， x 的值为 0x1122 ，那么 0x11 为
高字节， 0x22 为低字节。对于大端模式，就将 0x11 放在低地址中，即 0x0010 中， 0x22 放在高地址中，即 0x0011 中。小端模式，刚好相反。我们常用的 X86 结构是小端模式，而 KEIL C51 则为大端模式。很多的ARM，DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

4. 例题讲解

1.
//输出什么？
#include <stdio.h>
int main()
{
char a= -1;
signed char b=-1;
unsigned char c=-1;
printf(“a=%d,b=%d,c=%d”,a,b,c);
return 0;
}

解析：

-1

源码：1000 0001

反码：1111 1110

补码：1111 1111

a、b、c都是一字节大小，在内存中的存储结果都是一样的，它们的差别体现在读取时的不同的翻译；

char和signed char都是有符号char，没有差别,

当printf()函数用%d整型的形式去打印时，char类型要整型提升为4字节的int：
符号位为1，高位全部补1：1111 1111 1111 1111 1111 1111 1111 1111,

printf()再读这个整型数字，先转为它的原码：1000 0000 0000 0000 0000 0000 0000 0001,

再转为十进制数输出：-1
unsigned char是无符号char，在整型提升时，因为没有符号位，高位直接补0：

0000 0000 0000 0000 0000 0000 1111 1111

原码与之相同，输出十进制：255

2.
#include <stdio.h>
int main()
{
char a = -128;
printf(“%u\n”,a);
return 0;
}

解析：

char a = -128;

可以看成是两步:
1. 在内存中先形成一个-128的整型（补码形式存放）
2. 截断后放到变量a中

printf(),格式指定为无符号整型，还需要整型提升：

char a 符号位为1，高位全部补1

作为无符号整型输出十进制数：4294967168

3.
#include <stdio.h>
int main()
{
char a = 128;
printf(“%u\n”,a);
return 0;
}

解析：

与上一题步骤一致：

a 的实际值与上一题完全一致，答案也与上一题一致

4.

#include <stdio.h>

int main()
{
int i = -20;
unsigned int j = 10;
printf(“%d\n”, i + j);
return 0;
}

解析：

还是按照上面的转化成补码的方式，可得出-10；

可能大家会疑惑，这里为什么不考虑int和unsigned int相加时的算数转换，

且不考虑根本原因，我们先把源代码直接改为如下这样再推演一遍，

可以发现此时i的内存中的数据与上面一致。

所以足矣证明，发生的int到unsigned int的算数转换，与内存中的数据无关，仅仅时读取的过程会发生差异，这里的读取方式依然是%d的整型读取，所以不论怎么理解，答案都是-10；

5.
int main()
{
char a[1000];
int i;
for(i=0; i<1000; i++)
{
a[i] = -1-i;
}
printf(“%d”,strlen(a));
return 0;
}

解析：

如下是有符号char和无符号char的补码和十进制的对应表

可以看出：

一个无符号char会从0一直加到255，从255再加1，会变成1 0000 0000，截断后又是0，回到了起点；
一个有符号char会从0加到127，再加1，会突变到-128，然后递增到-1，再加1又回到0。

都形成了循环。

回归到题目，数组a的每一个元素都是char，存储的元素从前至后依次是-1、-2、-3、……、-128、127、126、……、1、0、-1，循环直至存够1000个数，但是最终输出的是strlen(a)，这个函数会一直数到’\0’（’\0’不算入长度）即数值0后结束，从-1到0，共有255个数，所以最后输出255.

177)]

可以看出：