前言:
今天我们讨论的整型涉及到整个整型家族(没有小数点的),不单单是int。
char
unsigned char
signed char
short
unsigned short [int]
signed short [int]
int
unsigned int
signed int
long
unsigned long [int]
signed long [int]
1. 整型在内存中的存储
我们都知道,一个变量的创建要在内存中开辟空间,空间的大小由类型决定。
那么数据在开辟的内存中是如何存储的呢?
比如:
int a = 20;
int b = -10;
a、b 两个变量都被分配了四字节的空间,
那如何存储?
1.1 源码、反码、补码
计算机中的整数有三种表示方法,即源码、反码、补码。
三种表示方法都有符号位和数值位两部分(符号位是二进制位的第一位,后面都是数值位)
-
符号位都是用0表示”正“,用1表示”负“,
-
而数值位负整数的三种表示方法各不相同。
源码:
直接将二进制按照正负数的形式翻译成二进制就可以。
反码:
将原码的符号位不变,其他位依次按位取反就可以得到了
补码:
反码+1就是补码
整数的原、反、补码都相同。
所以对于整型来说:数据存放内存中其实存放的是补码 。
为什么选择了这样复杂的方式呢?
- 只要遵循这个补码的规则,两个数不管正负,将符号位和数值域统一处理相加,就可得到答案,即cpu只需要有加法器即可。
注意:实际两个char在进行运算的时候,默认会进行整型提升,先转为4字节的int进行计算,结果再截断为1字节存入char变量,以上例子仅展示一个1字节二进制数的补码相加法则。
- 补码与源码的相互转换,其运算过程是相同的,不需要额外的硬件电路。
.
2. 整型类型间的转换
2.1 整型提升
原则:
- 如下char和shot家族在进行算数运算时要首先转换为int,再进行算数运算
char
unsigned char
signed char
short
unsigned short [int]
signed short [int]
方法:
- 整型提升都是在补码的基础上进行
- 如果符号位为1,前面高位全部补1
- 如果符号位为0,前面高位全部补0
- 注意:无符号类型没有符号位,前面统一补0;
2.2 算数转换
在处理不同类型数值之间的运算时,需要先将两个操作数转换为相同的类型才能进行运算。
转换原则:
按照如上的转换级别,向高级别的那个进行对齐转换成相同类型,再进行运算。
例如:int和unsigned int进行运算,编译器会将低级别的int转换为unsigned int再进行计算。而这个转换编译器并没有对它在内存中的值做出改变,而是使用了不同的读取方式,编译器将原本的int的符号位也当成数值大小进行读取。
3. 大小端介绍
为了方便理解大小端
的概念,我们先谈谈内存窗口和16进制。
3.1 二进制与十六进制的转换
根据前面的案例我们发现,表示一个1字节的数需要8个二进制位,一个int型的4字节数就需要32个二进制位,太过冗长。为了阅读转换方便,如内存窗口,我们通常使用16进制去表示一个数。
转换方式:
四个二进制位可表示的数有 24 = 16 个,即一个16进制位可表示的范围,所以每4个二进制位的长度相当于1个16进制位长度;
一个字节需要8个二进制位,也就是两个16进制位
一个int是4字节,也就是8个二进制位
3.2 内存窗口
3.2.1打开方式
以下是vs编译器的内存窗口打开方式。
-
首先进入调试模式(快捷键F10)
-
按如下方式打开一个内存窗口
-
-
在顶部地址栏输入变量地址,或直接对变量取地址(&变量名)
-
一般控制列数为4,一列表示1字节,选择4列,一行就是一个int的大小;
-
下方三部分,从左至右依次是:地址、对应地址中存的16进制数据、数据作为ASSIC码对应的字符。
-
3.2.2理解
上图第一行的数据80
是两个16进制数,像这样两个连在一起的16进制数表示内存中的一个字节;
在内存中是以字节为单位区分地址的,每个字节都有一个对应的地址;
这里数据80
对应的地址是0x0133FED0
(0x前缀表示这是一个16进制数),下一个字节df
位置对应的地址就是0x0133FED1
,这一行是一个int的大小。
最后栏€
就是80转换位十进制数128作为ASSIC码对应的字符,如果不是字符串,这一栏基本不怎么用。
3.3大小端
在123这个十进制数中,3、2、1分别在个位、十位、百位,这里1所在的位代表的权重最大,3最小,所以我们称左侧的为高权值位;
同样的,一个二进制数、16进制数,都存在高权值位。
我们知道,每个int由4个字节组成,那么这4个字节也存在高权值与地权值。
接下里,我们看一下在VS编译器中一个int对应的四个字节在内存中排布:
可以发现,两处的字节序是相反的,这里11这个字节是高权值位,他被放到了地址最高的位置,
这里就可以引出大小端的概念,
我们规定:
- 大端(存储)模式,是指数据的低权值字节保存在内存的高地址中,而数据的高权值字节,保存在内存的低地址中;
- 小端(存储)模式,是指数据的低权值字节保存在内存的低地址中,而数据的高权值字节,保存在内存的高地址中
总结:低权值位于低地址就是小端,位于高地址就是大端
上面的例子中,44这个字节是低权值的字节,它被放在了低地址处,所以VS编译器使用的是小端字节序。
不同操作系统的大小端不尽相同,为了提高程序的可移植性,应尽量避免大小端的影响。
为什么有大端和小端:
为什么会有大小端模式之分呢?这是因为在计算机系统中,我们是以字节为单位的,每个地址单元
都对应着一个字节,一个字节为8 bit。但是在C语言中除了8 bit的char之外,还有16 bit的short型,32 bit的long型(要看具体的编译器),另外,对于位数大于8位的处理器,例如16位或者32位的处理器,由于寄存器宽度大于一个字节,那么必然存在着一个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。
例如:一个 16bit 的 short 型 x ,在内存中的地址为 0x0010 , x 的值为 0x1122 ,那么 0x11 为
高字节, 0x22 为低字节。对于大端模式,就将 0x11 放在低地址中,即 0x0010 中, 0x22 放在高地址中,即 0x0011 中。小端模式,刚好相反。我们常用的 X86 结构是小端模式,而 KEIL C51 则为大端模式。很多的ARM,DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。
4. 例题讲解
1.
//输出什么?
#include <stdio.h>
int main()
{
char a= -1;
signed char b=-1;
unsigned char c=-1;
printf(“a=%d,b=%d,c=%d”,a,b,c);
return 0;
}
解析:
-1
源码:1000 0001
反码:1111 1110
补码:1111 1111
a、b、c都是一字节大小,在内存中的存储结果都是一样的,它们的差别体现在读取时的不同的翻译;
-
char
和signed char
都是有符号char,没有差别,当
printf()
函数用%d
整型的形式去打印时,char类型要整型提升为4字节的int:
符号位为1,高位全部补1:1111 1111 1111 1111 1111 1111 1111 1111
,printf()
再读这个整型数字,先转为它的原码:1000 0000 0000 0000 0000 0000 0000 0001
,再转为十进制数输出:-1
-
unsigned char
是无符号char,在整型提升时,因为没有符号位,高位直接补0:0000 0000 0000 0000 0000 0000 1111 1111
原码与之相同,输出十进制:255
2.
#include <stdio.h>
int main()
{
char a = -128;
printf(“%u\n”,a);
return 0;
}
解析:
-
char a = -128;
可以看成是两步:
- 在内存中先形成一个-128的整型(补码形式存放)
- 截断后放到变量
a
中
-
printf()
,格式指定为无符号整型,还需要整型提升:char a
符号位为1,高位全部补1
作为无符号整型输出十进制数:4294967168
3.
#include <stdio.h>
int main()
{
char a = 128;
printf(“%u\n”,a);
return 0;
}
解析:
与上一题步骤一致:
a 的实际值与上一题完全一致,答案也与上一题一致
4.
#include <stdio.h>
int main()
{
int i = -20;
unsigned int j = 10;
printf(“%d\n”, i + j);
return 0;
}
解析:
还是按照上面的转化成补码的方式,可得出-10;
可能大家会疑惑,这里为什么不考虑int
和unsigned int
相加时的算数转换,
且不考虑根本原因,我们先把源代码直接改为如下这样再推演一遍,
可以发现此时i
的内存中的数据与上面一致。
所以足矣证明,发生的int
到unsigned int
的算数转换,与内存中的数据无关,仅仅时读取的过程会发生差异,这里的读取方式依然是%d的整型读取,所以不论怎么理解,答案都是-10;
5.
int main()
{
char a[1000];
int i;
for(i=0; i<1000; i++)
{
a[i] = -1-i;
}
printf(“%d”,strlen(a));
return 0;
}
解析:
如下是有符号char和无符号char的补码和十进制的对应表
可以看出:
- 一个无符号char会从0一直加到255,从255再加1,会变成
1 0000 0000
,截断后又是0,回到了起点; - 一个有符号char会从0加到127,再加1,会突变到-128,然后递增到-1,再加1又回到0。
都形成了循环。
回归到题目,数组a
的每一个元素都是char,存储的元素从前至后依次是-1、-2、-3、……、-128、127、126、……、1、0、-1,循环直至存够1000个数,但是最终输出的是strlen(a)
,这个函数会一直数到’\0’
(’\0’不算入长度)即数值0后结束,从-1到0,共有255个数,所以最后输出255.
177)]
可以看出:
- 一个无符号char会从0一直加到255,从255再加1,会变成
1 0000 0000
,截断后又是0,回到了起点; - 一个有符号char会从0加到127,再加1,会突变到-128,然后递增到-1,再加1又回到0。
都形成了循环。
[外链图片转存中…(img-3B1ImsFn-1660019240178)]
回归到题目,数组a
的每一个元素都是char,存储的元素从前至后依次是-1、-2、-3、……、-128、127、126、……、1、0、-1,循环直至存够1000个数,但是最终输出的是strlen(a)
,这个函数会一直数到’\0’
(’\0’不算入长度)即数值0后结束,从-1到0,共有255个数,所以最后输出255.