浅析数据存储

最新推荐文章于 2023-06-12 16:30:44 发布

kocc

最新推荐文章于 2023-06-12 16:30:44 发布

阅读量255

点赞数

分类专栏： C 文章标签： c语言 c++ 开发语言

本文链接：https://blog.csdn.net/weixin_57822074/article/details/122422920

版权

C 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

数据类型

1.1 对于数据类型我们有很多很熟悉的类型：char字符型，占1个字节，short短整型，占2个字节，int整型，占4个字节，long长整型，占4个字节，float单精度浮点型，占4个字节，double双精度浮点型，占8个字节。（在C99标准下出现了long long类型，也为8个字节。）

1.2 在早期的16位机器上，int是2个字节的，但在32位或64位机器下int均为4个字节。

1.3 规定sizeof(long)>=sizeof(int)。

1.4 布尔类型（Bool）：专门用来表示真假的类型（也是在C99标准下引入的）,但我们在C语言中总是习惯于用0和1来表示假和真，所以布尔类型实际情况并不多见。而且我们可以看见，Bool只是int的一个重命名而已。

1.5整型：

短整型【signed】short 【int】

基本整型【signed】 int

长整型【signed】long 【int】

无符号短整型 unsigned short 【int】

无符号基本整型 unsigned 【int】

无符号长整形 unsigned long 【int】

以及字符 signed char 和 unsigned char

字符可以当做整型——ASCII值。我们要明确的一点是，char与int等整型不同，char不一定与signed char等价，char到底是signed char 还是unsigned char是取决于编译器的，但在常见的编译器下二者是等价的。

有符号数可以有正有负，与此对应无符号数便不可以有负号在前面因此不可有负数。比如定义年龄我们可以使用 unsigned int age，其不可能为一负数。

我们可以根据一段代码来进一步理解unsigned
```
int main()
{
    unsigned int num = -10;
    printf("%d", num);
    return 0;
}
```
编译结果为

这看似与印象中unsigned的定义相悖，-10居然可以打印出来。但其实代码是是有问题的，%d只适用于有符号整型，%u才是用于无符号整型的。

我们已经知道了unsigned是不可能打印出来负数的，这没错，但是我们如果非要把-10放进去为什么打印出来的数字会如此离谱，这其实是因为unsigned将-10当作正数来解读了，所以会打印出这个结果。

1.6浮点型

单精度浮点型 float

双精度浮点型 double

1.7 构造类型（自定义类型）

数组类型

结构体类型

枚举类型

联合类型

1.8 指针类型

int *pi

char *pc

float *pf

void *pv

1.9 void（空）类型

无具体类型的指针
整型在内存中的存储

2.1 原码、反码、补码

首先我们需要知道整数的二进制有三种表示方法即原码、反码和补码。

原码的二进制序列第一位为符号位，符号位为0代表正数，符号位为1代表负数。

2.2 对于正数来讲，正数的二进制序列原码、反码与补码相同，均为该数的二进制。

2.3 但是对于负数来讲三者并不一样：

三者的关系为：原码的二进制序列除符号位按位取反后得到反码，反码加一得到补码。

此外有一个微妙的关系，即补码取反加一是原码，原码取反加一是补码。

例如
```
int a = -15；
```
其原码为：

1000 0000 0000 0000 0000 0000 0000 1111

反码（符号位 1 不变其他按位取反）为：

1111 1111 1111 1111 1111 1111 1111 0000

补码（加1）为：

1111 1111 1111 1111 1111 1111 1111 0001

2.4 在内存中存储的是二进制的补码。

这是为什么呢？

原因有两个，一是因为CPU是只可执行加法操作的，仅用原码执行减法操作非常困难，此时如果用补码就可以利用原码补码之间微妙的关系来同时处理加法和减法，不用再加入额外电路，其次计算时符号位和数值域可以统一处理即直接相加。
大小端字节序

3.1 二进制过于冗长，因此在内存窗口一般是用十六进制来展示的。

二者的转化也相当容易，易知10的二进制序列为

0000 0000 0000 0000 0000 0000 0000 1010 二进制的四位可以转为十六进制的一位，故有

0 0 0 0 0 0 0 a

十六进制表示即为0x0000000a

但是如果我们在内存窗口查看的话，会发现很奇怪的一点

存储的顺序与我们写出的十六进制顺序并不一样，这是因为在有多字节存储的情况下，会存在大小端字节序的概念。

3.2 十六进制与我们熟悉的十进制一样有低位与高位，内存中也存在类似的低位与高位：

当低字节位存放在高地址处，高字节位存放在低地址处，称为大端字节序；

当低字节位存放在低地址处，高字节位存放在高地址处，称为小端字节序；

因此在我们的机器下为小端字节序。

3.3 我们知道不同的环境下大小端可能不同，那我们如何设计一个程序来判断一下当前机器为大端还是小段呢？

思路很简单：

定义一个函数若为大端返回0，小端返回1；

函数设计：定义一个整型变量赋值为1，十六进制为0x00000001，当其为大端或小端存储时，首位会不同。

我们可以将int *强制转换为char *来实现取出首个字节的目的。若为0则为大端字节序，为1则为小端。
```
#include<stdio.h>
int Check_sys()
{
    int a = 1;
    return *(char*)&a;//对a取地址后再进行强制转换最后解引用即可得到首位
}
int main()
{
    int ret = Check_sys();
    if (ret == 1)
    {
        printf("小端\n");
    }
    else
    {
        printf("大端\n");
    }
    return 0;
}
```
可以知道该机器为大端还是小端。
浮点型在内存中存储解析

1985年, IEEE754标准问世, 浮点数的存储问题有了一个通用的工业标准.

IEEE754标准提供了如何在计算机内存中,以二进制的方式存储十进制浮点数的具体标准:

*-1)^S * M * 2^E*

(-1)^s表示符号位，当s=0，V为正数；当s=1，V为负数。

M表示有效数字，大于等于1，小于2。

2^E表示指数位

IEEE 754规定： 对于32位的浮点数，最高的1位是符号位s，接着的8位是指数E，剩下的23位为有效数字M。

对于64位的浮点数，最高的1位是符号位S，接着的11位是指数E，剩下的52位为有效数字M。

IEEE 754对有效数字M和指数E，还有一些特别规定。

前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中xxxxxx表示小数部分。

IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的 xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字。

对于E来讲，首先，E为一个无符号整数（unsigned int） 这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存入内存时E的真实值必须再加上一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即 10001001。

当E从内存中取出时，有几种不同的情况

当E不全为0或E不全为1时，指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第一位的1。

当E全为0时，此时，浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于 0的很小的数字。

当E全为1时，表示±无穷大。