【Linux系统】文件系统和软硬链接

最新推荐文章于 2024-06-26 21:40:17 发布

月夜星辉雪

最新推荐文章于 2024-06-26 21:40:17 发布

阅读量960

点赞数 25

文章标签： linux 运维服务器后端

本文链接：https://blog.csdn.net/weixin_74113106/article/details/135888992

版权

前言

之前的博客介绍过了打开的文件是如何被操作系统管理起来的，但是绝大多数文件是没有被打开的，静静地躺在磁盘上。

这些文件也应该要被操作系统管理起来，以方便系统快速地在磁盘上查找它们，进而加载到内存。

这套管理方式就是文件系统，有了文件系统相关的强大知识储备后，理解文件的软硬链接简直小菜一碟。

本文先介绍磁盘这种外设是怎样寻址定位数据；接着介绍操作系统是如何将磁盘物理结构抽象成线性空间，方便统一管理；然后开始介绍文件系统：磁盘上各种类型的数据是如何组织的，操作系统是如何通过文件名在磁盘上查找文件的；最后介绍文件的软硬链接

全文篇幅较长，需要静下心来，变阅读边思考，相信你看完本文一定会有收获！！！

一.磁盘的物理结构

磁盘一般不只一个盘片，而是一摞
一个磁盘两面都会存储信息
每个盘面都对应一个磁头

对于一个盘面

分为若干个同心磁道(圆环)
一个磁道分为若干个扇区
每个扇区的大小(存储信息的能力)相同，都是512字节
扇区是磁盘的最小存储单元

注意：

每个扇区的存储能力相同，这可以通过调整盘面上小磁针的疏密排布达到目的
扇区是磁盘的最小存储单元，意味着即使想要修改文件中1个字节的数据，也要将对应扇区的512字节数据加载到内存，修改后再将512字节数据刷新到磁盘，因此我们将磁盘这种支持随机读写，并且有最小存储单元的设备称为块设备

二.磁盘寻址方式——CHS定位法

想要找到一个扇区：

选择哪一个磁头(head)
选择哪一个磁道(cylinder)
选择哪一个扇区(sector)

磁道也可翻译成track，但是cylinder是专业名词，它本意是“圆柱”，因为相同半径的多个磁道构成一个圆柱，所以这是一个形象的比喻。

磁盘常常采用CHS定位法(cylinder head sector)来确定一个扇区。按照上述我们所说的定位扇区的方法，应该叫做“HCS”才合理。事实上，这样命名也是有理由的。

磁盘有两个地方能做机械运动：机械臂杆和转轴(如图)。先通过机械臂杆摆动到一定位置确定若干个磁道(一个柱面)，然后选择某个磁头(该过程不需要机械运动，只需电信号控制即可)，最后旋转转轴使得磁头对应到某个扇区，这样就能对该扇区的内容进行读写了。简言之，磁头摆动确定柱面，盘面转动确定扇区

三.磁盘的逻辑结构

1.线性地址和物理地址互相转化

将磁盘盘片想象成线性空间，即将圆形的磁盘“拉直”，将整个磁盘抽象成以扇区大小为单位的数组，操作系统对磁盘的管理就变成了对以单元大小为扇区的数组的管理。

只需知道磁盘的规格大小，即可将线性地址(数组下标)转化成CHS地址

例如磁盘有4个盘面，每个盘面有10个磁道，每个磁道有100个扇区，现在操作系统想要访问下标为2002的扇区，则2002/(10*100)=2，第三面盘片;2/100=0，第1个磁道；第2个扇区。

2.LBA地址

操作系统可以按照扇区为单位进行存取，但更常用的是以文件块为单位进行数据存取。因为1个扇区比较小，IO效率比较慢，为了减少IO次数，文件系统规定以8个扇区为一个文件块(4KB)，以文件块为单位进行IO，一个文件块就是保存文件属性或内容的基本单元。

给每个文件块从0开始进行编号，这个编号叫做LBA地址(逻辑块地址)。

同样LBA地址也能转化成CHS地址，操作系统对于磁盘的管理，就转化成了单元大小为4KB的数组的管理。

四.文件系统

1.磁盘分区和分组

磁盘容量一般较大，为了方便管理，将一个磁盘划分成多个区域，管理好一个区域，就能管理好多个区域，进而管理整个磁盘。实际上，我们使用的笔记本电脑追求轻薄易携带，一般只有一个磁盘，C,D,E,F盘是一个个磁盘分区。一个分区就是一个文件系统。

同样，还可以将一个分区划分为若干个块组(Block group)，想要管理好整个磁盘，只需管理好一个块组，这是一种分治的思想

2.块组的结构

在说块组之前，先介绍Boot block，第一个分区的开头才有这个启动块，在磁盘上对应第一个磁头的第一个磁道上的第一个扇区，它和计算机启动有关。其中包含了磁盘的分区信息，操作系统在磁盘上的地址。计算机启动时BIOS会读取Boot block，然后加载操作系统。如果Boot block出错，计算机就无法启动。

(1)块组存储的信息

一个块组要存储两类信息：

我的文件信息，包括文件内容和属性，这两项是分开存储的
文件管理的数据

并且根据常识，在文件信息被存储之前，一定要先让管理数据写入到块组当中。整个分区在被存储文件之前，要先将管理数据写入。而所谓的“格式化”，并不是清空分区的所有数据，而是将用户的文件信息全部清空，管理数据恢复到出厂设置。管理数据还有，所以该分区仍然能存储文件

(2)文件的inode

这一串数字就是文件的inode编号。

inode是一个结构体，一般情况下，一个文件一个inode，inode有自己的编号，叫做inode编号(inode的成员变量)，inode编号从0开始逐1递增，在整个分区具有唯一性。

Linux内核中，识别文件只和inode编号有关，和文件名无关

(3)inode Table

一个文件的数据分为属性和内容，每个文件属性的种类是相同的，例如inode编号，文件大小，文件权限，文件ACM时间，创建者，所属组等。

文件的属性在inode中保存，每一个inode大小是相同的，都是128字节，所以一个文件块可以存储32个inode，操作系统一次性可以加载32个inode

并且inode的存储顺序是按inode编号从小到大排列的，因此只需知道inode编号，就可以知道相对于inode Table首地址的偏移量，进而找到对应的inode，拿到文件的所有属性。

不知道你是否发现了一个问题，inode编号在整个分区具有唯一性，而inode Table每个块组都有，怎么能根据inode编号确定相对于inode Table的偏移量呢？事实上，每个块组都保存了本组的inode Table的起始inode编号，只需用inode编号减去起始inode编号，就可以得到偏移量。

(4)Data Blocks

文件的属性在inode中，而内容存储在Data Blocks中。文件系统的基本存取单元是文件块，也即4KB，所以Data Blocks也是由一个个4KB的单元组成的，这些单元叫做数据块(Data block)。一个文件如果有内容，即使只有1个字节，也要占据一个数据块。

我们将这些数据块从0开始编号，这些编号就可以标识一个个数据块。inode中有一个非常重要的属性，即文件内容的存储位置。int blocks[15]，里面存储着文件内容所在的数据块编号，根据这一数组即可找到文件内容。

因此，文件的属性和内容就关联起来了。

tips:blocks映射的数据块最多只有15个吗？no！0~12号是直接映射；13号是二级映射，即13号映射的数据块中存储的是数据块的编号；14号是三级映射。如果一个块组都放不下了，就要涉及到跨组访问，记录好下一个块组的编号和存放的块号。

小结：操作系统有文件的inode编号，根据每个块组的起始inode编号，确定inode编号所在区间以定位块组；然后将inode编号减去该块组的起始inode得到偏移量，进而在inode Table中找到inode，得到文件属性；然后根据blocks数组找到文件内容所在的数据块，得到文件内容

(5)inode Bitmap

当你创建新文件时要分配新的inode编号，可是操作系统如何知道inode Table中哪些inode是有效的，哪些是未分配的呢？这时就需要用一种数据结构来记录inode的分配情况了。

假设inode Table的大小是1000KB，总共就有32000个inode。使用位图来标识inode的分配情况，第m个比特位为1，表示第m个inode已经分配了，为0表示没有被使用。该位图一个文件块大小就够用了。

想要为新文件分配inode，只需在inode Bitmap中查找哪个比特位是0，该比特位的位置就是偏移量，找到后在inode Table中为文件创建inode，然后将inode编号返回给操作系统即可

(6)Block Bitmap

和inode Bitmap类似，每个比特位的位置表示数据块编号，比特位的内容表示数据块是否被使用。Block Bitmap记录数据块的使用情况

小结：新建一个文件，先查询inode Bitmap，找到最近一个为0的比特位，将该比特位由0置1，该比特位的位置就是偏移量，根据偏移量在inode Table中找到inode，将文件属性写入inode。如果文件的内容需要2个块，在Block Bitmap中找到2个为0的比特位，将其置1，比特位的位置就是数据块编号，然后在inode中的blocks数组中添加编号，最后向相应编号的数据块中写入文件的内容，将inode编号返回给上层。

删除一个文件，根据inode编号定位文件所在的块组，将该块组的inode Bitmap和Block Bitmap中相应的比特位清0即可(找比特位的方式是上面的逆过程)。

因此，删除文件只是对两个位图进行操作，标识文件的属性和内容所在的存储空间是空闲的，但是内容还没有被覆盖。所以误删文件后不要新创建文件，防止文件信息被覆盖，只需知道文件的之前的inode，就有办法通过更改位图的方式来恢复文件。

(7)Group Descriptor Table(GDT)

保存整个块组的信息，例如块组的起始inode编号，整个块组的inode/数据块数量，已经被使用的inode/数据块数量，下一次要被使用的inode编号，块组的大小等

以上5个块是每个块组都有的，但是Super Block块组只有几个块组拥有

(8) Super Block

存放文件系统(分区)本身的结构信息。记录的信息主要有：文件系统的名字，数据块和inode的总量，未使用的数据块和inode的数量，一个block和inode的大小，最近一次挂载的时间，最近一次写入数据的时间，最近一次检验磁盘的时间等其他文件系统的相关信息

Super Block的信息被破坏，可以说整个文件系统结构就被破坏了，所以在多个块组中安排Super Block以备份文件系统信息，以备不时之需。

操作系统在内核中维护一张文件系统列表，即在开机时将每个分区的Super Block加载到内存，管理多个文件系统，只需管理多个Super Block

3. 文件名和inode编号

操作系统通过inode编号识别一个文件，但是用户使用的是文件名，因此文件名和inode存在映射关系，这种映射关系存储在文件所在的目录中。

目录也是文件，它也有inode，也有内容和属性，目录的内容是就是目录里的文件的文件名和inode的映射关系。这里的文件包括目录，因为目录也是文件。

所以同一个目录下不允许存在同名文件，因为文件名被当作查询inode时的key值

前面讨论过，在操作系统的层面删除一个文件是要更改两个位图，因为操作系统只认inode编号。而在用户层，我们通过文件名来识别文件，删除文件实际上是在文件所在目录中删除文件名和inode编号的映射关系。

所以，文件名不属于文件属性，inode中没有文件名，文件名存储在目录中

4.操作系统通过文件名在磁盘上查找文件的方式

例如我想找到file.txt在磁盘上对应的文件，一定要先找到file.txt所在的目录dir，打开目录文件dir，找到它的内容，得到文件名和inode的映射关系，得到file,txt的inode编号，定位块组，找到inode，找到inode中记录的数据块，得到文件的属性和内容。

问题在于，如何找到dir呢？想要找到dir，就要知道它的inode编号，那就要找到dir的父目录，找到父目录的父目录……而一切都要从根目录“/”开始找起，因为根目录的inode编号是固定是2。

因此我们要找到一个文件，只需要文件的路径，即一级一级的目录，然后就能从根目录开始一层一层地往下找，最终在磁盘上找到该文件。那么路径是谁给的呢？答案是用户或者进程。一个进程在启动时所在的路径会被记录下来(cwd)，用户如果传了路径就使用用户传的，如果没传，就使用进程启动时所在的路径。如果用户传递了一个错误的路径，进程就会报错，因为操作系统在解析路径时，在目录文件中没有找到相应的映射关系。

5.挂载分区

一个磁盘被分区格式化后，Linux想要使用这个分区，就要把这个分区进行挂载mount。意思是将这个分区与某个目录进行关联，操作系统只要确定你在访问这个目录，就到对应的分区上去寻找文件。每一个文件都有路径，可以通过路径的前缀判断出我们的文件在哪一个分区下

使用df -h命令查看分区的挂载情况，可以看到我使用的机器只有一个分区vda1，这个分区被挂载到根目录

总结：CPU执行int fd = open("./log.txt", "r")语句，操作系统做了哪些工作？

log.txt是由进程打开的，进程有自己的cwd，再结合我们传入的路径，就能组成一个以根目录为起点的路径。根据路径前缀，结合分区的挂载情况确定该文件在那个分区下。

文件名和inode编号的映射关系存储在目录文件中，从根目录开始，一层层地打开目录文件，找到文件和inode编号的映射关系，最终找到log.txt的inode编号。

根据每个块组的起始inode编号，确定inode所在块组，用inode编号减去inode Table的起始inode编号得到偏移量，找到inode Table中的inode，将inode加载到内存。在内存中构建struct file结构体，将inode的属性填充到struct file结构体中，同时让struct file 指向内存级inode。

然后根据inode的blocks数组找到相应数据块，将数据块中的文件内容加载到struct file的内核缓冲区。

五.文件的软硬链接

1.软硬链接区别

ln -s log log.soft.link 给log建立软链接log.soft.link

ln hello hello.hard.link 给hello建立硬链接hello.hard.link

通过对比inode编号，可以得出结论：

软链接是一个新的文件，因为操作系统为它分配了新的inode。硬链接在操作系统层面不是一个新文件，因为没有为它新分配inode。

2.软硬链接的实质

软链接类似于windows的快捷方式，是独立文件，有独立的inode，软链接的内容是指向的目标文件的路径

硬链接不是一个独立文件，本质是在指定目录内的一组文件名和inode编号的映射关系。在操作系统层面，硬链接和目标文件是同一个文件，因为访问硬链接和目标文件是访问同一个inode。

3.文件的删除

这一串数字是文件的硬链接数(实质稍后会讲)

删除一个其中一个（删除链接文件用rm和unlink均可），会发现另一个文件的链接数减少了

inode中包含一个int ret_count的引用计数，有多少个文件名映射它，引用计数就是多少，当没有文件名映射它时，操作系统就会将该文件删除。

所以用户层面的删除文件，是在父目录中删除文件名和inode的映射关系，当一个inode没有文件名指向它时，操作系统就会删除该文件，即更改两个位图。

文件的硬链接数就是inode中的引用计数

分别新建一个普通文件和一个目录文件，普通文件的硬链接数是1，目录文件的硬链接数却是2，为什么是2呢？任何一个目录都会包含两个隐藏的目录文件.和..

.就是dir目录本身，通过对比也可以发现，它们的inode是相同的，所以dir的硬链接数为2

在dir目录下再新建一个newdir目录，惊奇地发现，dir的硬链接数变成了3

这是因为newdir下的隐藏目录..的inode编号和dir的相同。

5.用户无法对目录建立硬链接

通过实践证明无法对目录建立硬链接。为什么呢？

因为当我们使用某些查找指令例如find时，需要指定开始查找的路径，而硬链接会导致路径成环，查找时深度优先遍历会无穷递归。而目录是可以建立软链接的，虽然它也会成环，但是软链接是一个普通文件，find时只会进入目录文件，不会cd到普通文件

操作系统不允许用户对目录建立硬链接，但是它自己对每个新建的目录都创建了.和..两个硬链接，这是特殊处理，find时不会进入这两个目录。

月夜星辉雪

关注

25
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
【Linux系统】文件系统和软硬链接

本文先介绍磁盘这种外设是怎样寻址定位数据；接着介绍操作系统是如何将磁盘物理结构抽象成线性空间，方便统一管理；然后开始介绍文件系统：磁盘上各种类型的数据是如何组织的，操作系统是如何通过文件名在磁盘上查找文件的；最后介绍文件的软硬链接。全文篇幅较长，需要静下心来，变阅读边思考，相信你看完本文一定会有收获！！！
复制链接

扫一扫