前言
VFS 统一了文件系统的实现框架,使得在linux上实现新文件系统的工作变得简单。
目前linux内核中已经支持60多种文件系统,具体支持的文件系统可以查看 内核源码 fs 文件夹下的内容。
本章描述了VFS的目的,条论了数据结构,下一章,14章将讨论数据如何从物理上存放在文件系统
VFS,Virtual File System虚拟文件系统,也称为虚拟文件系统开关(Virtual Filesystem Switch),就是采用标准的Linux系统调用读写位于不同物理介质上的不同文件系统,即为各类文件系统提供了一个统一的操作界面和应用编程接口,VFS是一个内核软件层。
VFS是一个可以让open()、read()、write()等系统调用不用关心底层的存储介质和文件系统类型就可以工作的抽象层,如下图所示。
我们知道在Linux系统中一切皆文件,在Linux系统中基本上把其中的所有内容都看作文件,除了我们普通意义理解的文件之外,目录、字符设备、块设备、 套接字、进程、线程、管道等都被视为是一个“文件”。例如对于块设备,我们通过fdisk -l显示块设备列表,其实块设备可以理解为在文件夹/dev下面的文件。只不过这些文件是特殊的文件。
VFS是一个抽象层,其向上提供了统一的文件访问接口,而向下则兼容了各种不不同类型的文件系统。不仅仅是诸如Ext2、Ext4、XFS、windows家族的NTFS和Btrfs等常规意义上的文件系统,还可以是比如上图的proc等伪文件系统和设备,也可以是诸如NFS、CIFS等网络文件系统。
缓存cache:
1、磁盘高速缓存:
a、目录项高速缓存
b、索引节点高速缓存
c、页高速缓存page cache按照文件的逻辑页进行缓冲
d、buffer cache按照文件的物理块进行缓冲。
2、硬件高速缓存是一个快速 RAM,加快了直接对慢速动态 RAM 的请求。
3、内存高速缓存是一种软件机制,引入它是为了绕过内核内存分配器
13.1通用文件系统接口
文件系统是管理组织空间的方法。
linux支持的文件系统有:Btrfs、JFS、 ReiserFS、ext、ext2、ext3、ext4、ISO9660、XFS、Minx、MSDOS、UMSDOS、VFAT、NTFS、HPFS、NFS、SMB、SysV、PROC等
为了管理组织磁盘,操作系统可以选择自己支持的文件系统来格式化磁盘
Linux的子系统中虚拟文件系统可以让多个文件系统共存,并协同工作。
13.2文件系统抽象层
抽象:抽象是从多个-事物中抽取出共同的、本质性的特征,而舍弃其非本质的特征的过程。
文件系统抽象层:文件系统抽象层是把不同文件系统的对外共性接口提取出来,形成一个函数指针数组,某指定的函数指针指向的函数,处理对应文件系统对内的细节。
为了支持多文件系统,虚拟文件系统提供了一个通用文件系统模型,该模型囊括了n个文件系统的常用功能集和行为。n是linux支持的文件系统的总数。
当然,该模型偏重于unix风格的文件系统,但即使这样,Linux仍然可以支持很多种差异很大的文件系统。
为什么要这样抽象:
因为内核中除了文件系统本身外,其他部分根本不需要了解文件系统的内部细节
一个例子:
13.3Unix文件系统
命名空间的设计目的是提供一种让一组名称与其他名称分隔开的方式。在一个命名空间中声明的类的名称与另一个命名空间中声明的相同的类的名称不冲突。
DOS和Windows的文件命名很随意的将文件命名空间分类为驱动字母,如”C:“就是一种用设备和分区命名的方法,这实际就泄露了硬件细节。
Linux和Unix单一统一的树,所有文件系统被安装在一个特定的安装点。
Linux的FHS_3.0 标准如图:
文件路径:"/home/wolfman/butter"中,目录项/是根目录,目录项wolfman和butter都是目录条目。
VFS把目录当作文件对待,所以可以对目录执行和文件相同的操作。
索引节点(index node=inode):索引节点存储文件相关信息:访问控制权限、大小、拥有者、创建时间等。
超级块:超级块存储文件系统的控制信息,是一种包含文件系统信息的数据结构。
13.4VFS对象及其数据结构
因为VSF将目录作为一个文件来处理,所以不存在目录对象。
这里所说的对象就是结构体,而不是C++那样正真的对象数据类型:类。
VFS除了上述四个主要结构体对象,还有如文件系统、安装点等等非常多的结构体对象。
13.5超级块对象
超级块(super_block)主要存储文件系统相关的信息,这是个针对文件系统级别的概念。
它一般存储在磁盘的特定扇区中,但是对于那些基于内存的文件系统(比如proc,sysfs),超级块是在使用时创建在内存中的。
超级块的定义在:<linux/fs.h>
13.6超级块操作
/*
* 其中的 s_op 中定义了超级块的操作方法
* 这里只介绍一些相对重要的函数
*/
struct super_operations {
struct inode *(*alloc_inode)(struct super_block *sb); /* 创建和初始化一个索引节点对象 */
void (*destroy_inode)(struct inode *); /* 释放给定的索引节点 */
void (*dirty_inode) (struct inode *); /* VFS在索引节点被修改时会调用这个函数 */
int (*write_inode) (struct inode *, int); /* 将索引节点写入磁盘,wait表示写操作是否需要同步 */
void (*drop_inode) (struct inode *); /* 最后一个指向索引节点的引用被删除后,VFS会调用这个函数 */
void (*delete_inode) (struct inode *); /* 从磁盘上删除指定的索引节点 */
void (*put_super) (struct super_block *); /* 卸载文件系统时由VFS调用,用来释放超级块 */
void (*write_super) (struct super_block *); /* 用给定的超级块更新磁盘上的超级块 */
int (*sync_fs)(struct super_block *sb, int wait); /* 使文件系统中的数据与磁盘上的数据同步 */
int (*statfs) (struct dentry *, struct kstatfs *); /* VFS调用该函数获取文件系统状态 */
int (*remount_fs) (struct super_block *, int *, char *); /* 指定新的安装选项重新安装文件系统时,VFS会调用该函数 */
void (*clear_inode) (struct inode *); /* VFS调用该函数释放索引节点,并清空包含相关数据的所有页面 */
void (*umount_begin) (struct super_block *); /* VFS调用该函数中断安装操作 */
};
13.7VFS中的索引节点对象
索引节点是VFS中的核心概念,它包含内核在操作文件或目录时需要的全部信息。
一个索引节点代表文件系统中的一个文件(这里的文件不仅是指我们平时所认为的普通的文件,还包括目录,特殊设备文件等等)。
索引节点和超级块一样是实际存储在磁盘上的,当被应用程序访问到时才会在内存中创建。
索引节点定义在:<linux/fs.h>
13.8索引节点操作
/*
* 其中的 i_op 中定义了索引节点的操作方法
* 这里只介绍一些相对重要的函数
*/
struct inode_operations {
int (*create) (struct inode *,struct dentry *,int, struct nameidata *); /* 为dentry(文件或目录)对象创造一个新的索引节点 */
struct dentry * (*lookup) (struct inode *,struct dentry *, struct nameidata *); /* 在特定文件夹中寻找索引节点,该索引节点要对应于dentry(文件或目录)中给出的文件名 */
int (*link) (struct dentry *,struct inode *,struct dentry *); /* 创建硬链接,将参数3作为,参数2这个目录中的参数1,这个dentry(文件或目录)的另一个名字。 */
void * (*follow_link) (struct dentry *, struct nameidata *); /* 从一个符号链接查找它指向的索引节点,符号链接 ( 软链接 )是一类特殊的 文件 , 其包含有一条以 绝对路径 或者 相对路径 的形式指向其它文件或者目录的引用。 */
void (*put_link) (struct dentry *, struct nameidata *, void *); /* 在 follow_link调用之后,该函数由VFS调用进行清除工作 */
void (*truncate) (struct inode *); /* 该函数由VFS调用,用于修改文件的大小 */
};
13.9目录项对象
文件路径:“/home/wolfman/butter"中,有4个目录项:/、home、wolfman、butter
文件路径”/bin/vi"中bin是目录文件,vi是普通文件。
以字符串比较为基础,编写的解析一个文件路径的代码,执行很耗时。
以目录项为基础,编写的解析一个文件路径的代码,执行不耗时。
在使用的时候在内存中创建目录项对象,其实通过索引节点已经可以定位到指定的文件,但是索引节点对象的属性非常多,在查找,比较文件时,直接用索引节点效率不高,所以引入了目录项的概念。
目录项对象没有保存于磁盘上,是由VSF根据文件路径现场创建的
目录项定义在:<linux/dcache.h>
/* 目录项对象结构 */
struct dentry {
atomic_t d_count; /* 使用计数 */
unsigned int d_flags; /* 目录项标识 */
spinlock_t d_lock; /* 单目录项锁 */
int d_mounted; /* 是否登录点的目录项 */
struct inode *d_inode; /* 相关联的索引节点 */
struct hlist_node d_hash; /* 散列表 */
struct dentry *d_parent; /* 父目录的目录项对象 */
struct qstr d_name; /* 目录项名称 */
struct list_head d_lru; /* 未使用的链表 */
/*
* d_child and d_rcu can share memory
*/
union {
struct list_head d_child; /* child of parent list */
struct rcu_head d_rcu;
} d_u;
struct list_head d_subdirs; /* 子目录链表 */
struct list_head d_alias; /* 索引节点别名链表 */
unsigned long d_time; /* 重置时间 */
const struct dentry_operations *d_op; /* 目录项操作相关函数 */
struct super_block *d_sb; /* 文件的超级块 */
void *d_fsdata; /* 文件系统特有数据 */
unsigned char d_iname[DNAME_INLINE_LEN_MIN]; /* 短文件名 */
};
1)目录项状态
每个目录项对象都有3种状态:被使用,未使用和负状态
- 被使用:对应一个有效的索引节点,并且该对象由一个或多个使用者
- 未使用:对应一个有效的索引节点,但是VFS当前并没有使用这个目录项
- 负状态:没有对应的有效索引节点(可能索引节点被删除或者路径不存在了)
2)目录项缓存
目录项的目的就是提高文件查找,比较的效率,所以访问过的目录项都会缓存在slab中。
目录项缓存的3个主要部分:
- 被使用的目录项链表:链表头为索引节点的结构体成员i_dentry。
- 最近被使用的双向链表:该链表含有未被使用的和负状态的目录项对象。由于改链表总是在头部插入目录项,所以链头节点的数据总是比链尾的数据要新。
当内核必须通过删除节点项回收内存时,会从链表尾删除节点项,因为尾部的节点最旧,所以它们在近期内再次被使用的可能性小。由此增加命中率。 - 散列表:由数组dentry_hashtable表示,散列表与散列函数用来快速地将给定路径解析为相关目录项对象。
slab中缓存的名称一般就是 dentry,可以通过如下命令查看:
[wangyubin@localhost kernel]$ sudo cat /proc/slabinfo | grep dentry
dentry 212545 212625 192 21 1 : tunables 0 0 0 : slabdata 10125
13.10目录项操作
/* 目录项相关操作函数 */
struct dentry_operations {
/* 该函数判断目录项对象是否有效。VFS准备从dcache中使用一个目录项时会调用这个函数 */
int (*d_revalidate)(struct dentry *, struct nameidata *);
/* 为目录项对象生成hash值 */
int (*d_hash) (struct dentry *, struct qstr *);
/* 比较 qstr 类型的2个文件名 */
int (*d_compare) (struct dentry *, struct qstr *, struct qstr *);
/* 当目录项对象的 d_count 为0时,VFS调用这个函数 */
int (*d_delete)(struct dentry *);
/* 当目录项对象将要被释放时,VFS调用该函数 */
void (*d_release)(struct dentry *);
/* 当目录项对象丢失其索引节点时(也就是磁盘索引节点被删除了),VFS会调用该函数 */
void (*d_iput)(struct dentry *, struct inode *);
char *(*d_dname)(struct dentry *, char *, int);
};
13.11文件对象
VFS最后一个主要对象是文件对象。文件对象表示进程已打开的文件。如果我们站在用户空间的角度考虑VFS,文件对象会首先进入我们的视野。进程直接处理的是文件,而不是超级块、索引节点或目录项。文件对象包含我们非常熟悉的信息(如访问模式、当前偏移等),同样道理,文件操作和我们非常熟悉的系统调用read()和write()等也很类似。
文件对象是已打开的文件在内存中的表示。该对象(不是物理文件)由相应的open()系统调用创建,由close()系统调用销毁,所有这些文件相关的调用实际上都是文件操作表中定义的方法。因为多个进程可以同时打开和操作同一个文件,所以同一个文件也可能存在多个对应的文件对象。文件对象仅仅在进程观点上代表已打开文件,它反过来指向目录项对象(反过来指向索引节点),其实只有目录项对象才表示已打开的实际文件。虽然同一文件对应的文件对象不是唯一的,但对应的索引节点和目录项则是唯一的。类似于目录项,文件对象也没有实际的磁盘数据,只有当进程打开文件时,才会在内存中产生一个文件对象。
文件对象的定义在: <linux/fs.h>
13.12文件操作
/*
* 其中的 f_op 中定义了文件对象的操作方法
* 这里只介绍一些相对重要的函数
*/
struct file_operations {
/* 用于更新偏移量指针,由系统调用lleek()调用它 */
loff_t (*llseek) (struct file *, loff_t, int);
/* 由系统调用read()调用它 */
ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
/* 由系统调用write()调用它 */
ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *);
/* 由系统调用 aio_read() 调用它 */
ssize_t (*aio_read) (struct kiocb *, const struct iovec *, unsigned long, loff_t);
/* 由系统调用 aio_write() 调用它 */
ssize_t (*aio_write) (struct kiocb *, const struct iovec *, unsigned long, loff_t);
/* 将给定文件映射到指定的地址空间上,由系统调用 mmap 调用它 */
int (*mmap) (struct file *, struct vm_area_struct *);
/* 创建一个新的文件对象,并将它和相应的索引节点对象关联起来 */
int (*open) (struct inode *, struct file *);
/* 当已打开文件的引用计数减少时,VFS调用该函数 */
int (*flush) (struct file *, fl_owner_t id);
};
13.13和文件系统相关的数据结构
处理上面4个主要的对象之外,VFS中还有2个专门针对文件系统的2个对象,
- struct file_system_type: 用来描述文件系统的类型(比如ext3,ntfs等等)
- struct vfsmount : 描述一个安装文件系统的实例
file_system_type 结构体位于:<linux/fs.h>
struct file_system_type {
const char *name; /* 文件系统名称 */
int fs_flags; /* 文件系统类型标志 */
/* 从磁盘中读取超级块,并且在文件系统被安装时,在内存中组装超级块对象 */
int (*get_sb) (struct file_system_type *, int,
const char *, void *, struct vfsmount *);
/* 终止访问超级块 */
void (*kill_sb) (struct super_block *);
struct module *owner; /* 文件系统模块 */
struct file_system_type * next; /* 链表中下一个文件系统类型 */
struct list_head fs_supers; /* 超级块对象链表 */
/* 下面都是运行时的锁 */
struct lock_class_key s_lock_key;
struct lock_class_key s_umount_key;
struct lock_class_key i_lock_key;
struct lock_class_key i_mutex_key;
struct lock_class_key i_mutex_dir_key;
struct lock_class_key i_alloc_sem_key;
};
每种文件系统,不管由多少个实例安装到系统中,还是根本没有安装到系统中,都只有一个 file_system_type 结构。
当文件系统被实际安装时,会在安装点创建一个 vfsmount 结构体。
结构体代表文件系统的实例,也就是文件系统被安装几次,就会创建几个 vfsmount
vfsmount 的定义参见:<linux/mount.h>
struct vfsmount {
struct list_head mnt_hash; /* 散列表 */
struct vfsmount *mnt_parent; /* 父文件系统,也就是要挂载到哪个文件系统 */
struct dentry *mnt_mountpoint; /* 安装点的目录项 */
struct dentry *mnt_root; /* 该文件系统的根目录项 */
struct super_block *mnt_sb; /* 该文件系统的超级块 */
struct list_head mnt_mounts; /* 子文件系统链表 */
struct list_head mnt_child; /* 子文件系统链表 */
int mnt_flags; /* 安装标志 */
/* 4 bytes hole on 64bits arches */
const char *mnt_devname; /* 设备文件名 e.g. /dev/dsk/hda1 */
struct list_head mnt_list; /* 描述符链表 */
struct list_head mnt_expire; /* 到期链表的入口 */
struct list_head mnt_share; /* 共享安装链表的入口 */
struct list_head mnt_slave_list;/* 从安装链表 */
struct list_head mnt_slave; /* 从安装链表的入口 */
struct vfsmount *mnt_master; /* 从安装链表的主人 */
struct mnt_namespace *mnt_ns; /* 相关的命名空间 */
int mnt_id; /* 安装标识符 */
int mnt_group_id; /* 组标识符 */
/*
* We put mnt_count & mnt_expiry_mark at the end of struct vfsmount
* to let these frequently modified fields in a separate cache line
* (so that reads of mnt_flags wont ping-pong on SMP machines)
*/
atomic_t mnt_count; /* 使用计数 */
int mnt_expiry_mark; /* 如果标记为到期,则为 True */
int mnt_pinned; /* "钉住"进程计数 */
int mnt_ghosts; /* "镜像"引用计数 */
#ifdef CONFIG_SMP
int *mnt_writers; /* 写者引用计数 */
#else
int mnt_writers; /* 写者引用计数 */
#endif
};
13.14和进程相关的数据结构
以上介绍的都是在内核角度看到的 VFS 各个结构,所以结构体中包含的属性非常多。
而从进程的角度来看的话,大多数时候并不需要那么多的属性,所有VFS通过以下3个结构体和进程紧密联系在一起。
- struct files_struct :由进程描述符中的 files 目录项指向,所有与单个进程相关的信息(比如打开的文件和文件描述符)都包含在其中。
- struct fs_struct :由进程描述符中的 fs 域指向,包含文件系统和进程相关的信息。
- struct mmt_namespace :由进程描述符中的 mmt_namespace 域指向。
struct files_struct 位于:<linux/fdtable.h>
struct files_struct {
atomic_t count; /* 使用计数 */
struct fdtable *fdt; /* 指向其他fd表的指针 */
struct fdtable fdtab;/* 基 fd 表 */
spinlock_t file_lock ____cacheline_aligned_in_smp; /* 单个文件的锁 */
int next_fd; /* 缓存下一个可用的fd */
struct embedded_fd_set close_on_exec_init; /* exec()时关闭的文件描述符链表 */
struct embedded_fd_set open_fds_init; /* 打开的文件描述符链表 */
struct file * fd_array[NR_OPEN_DEFAULT]; /* 缺省的文件对象数组 */
};
struct fs_struct 位于:<linux/fs_struct.h>
struct fs_struct {
int users; /* 用户数目 */
rwlock_t lock; /* 保护结构体的读写锁 */
int umask; /* 掩码 */
int in_exec; /* 当前正在执行的文件 */
struct path root, pwd; /* 根目录路径和当前工作目录路径 */
};
struct mmt_namespace 位于:<linux/mmt_namespace.h>但是在2.6内核之后似乎没有这个结构体了,而是用 struct nsproxy 来代替。
以下是 struct task_struct 结构体中关于文件系统的3个属性。
struct task_struct 的定义位于:<linux/sched.h>
/* filesystem information */
struct fs_struct *fs;
/* open file information */
struct files_struct *files;
/* namespaces */
struct nsproxy *nsproxy;