目录
前言:
我们在学习文件操作之前先要了解文件的构成,文件 = 内容+ 属性,对于打开的文件,是谁打开的?我们要能回顾到上个章节的进程,进程和文件的关系又是什么样?对于没打开的文件在哪里呢?如何存储?
对于打开的文件首先要预加载到内存,进程和文件的关系肯定是1:n,操作系统要对其做管理,我们在初学进程的时候就知道,任何用户都不能跳过操作系统直接访问硬件,所以用户需要调用库函数使用系统接口访问,如下图所示:
1.文件理解
文件操作的本质是什么?
- 语言层面的文件操作就是直接使用库函数,而事实上,文件操作是系统层面的问题,就像进程管理一样,OS也会通过
先描述,再组织
的方式对文件进行管理、操作
文件由什么构成?一般文件放在哪里?
- 文件 =
内容
+属性
- 未使用的文件位于
磁盘
,而使用中的文件属性
会被加载至内存中 - 本文讨论的是已被加载至内存文件的相关操作
系统是如何区分文件的?
- 文件可以同时被多次使用,
OS
为了管理好文件,会像使用task_struct
管理进程一样,通过struct file
存储文件属性进行管理 struct file
结构体包含了文件位置信息、权限信息和缓冲区信息,引用计数等
2.C语言文件操作
先会议一下c文件的接口,我们都知道c程序默认启动的时候,会打开三个标准输入输出流(文件)
#include <stdio.h>
extern FILE *stdin;//标准输入
extern FILE *stdout;//标准输出
extern FILE *stderr;//标准错误
我们以此为基础复盘一下以下函数
2.1文件打开
FILE * fopen ( const char * filename, const char * mode );
通过文件名以指定打开方式,打开文件
打开方式(参数2)
w
只写,如果文件不存在,会新建,文件写入前,会先清空内容然后在文件开始写入a
追加,在文件末尾,对文件进行追加写入,追加前不会清空内容r
只读,打开已存在的文件进行读取,若文件不存在,会打开失败w+
、a+
、r+
读写兼具,区别在于是否会新建文件,只有r+
不会新建
//打开文件进行操作
//在当前目录中打开文件 log.txt
//注意:同一个文件,可以同时多次打开
FILE* fp1 = fopen("log.txt", "w"); //只读
FILE* fp2 = fopen("log.txt", "a"); //追加
FILE* fp3 = fopen("log.txt", "r"); //只写,文件不存在会打开失败
FILE* fp4 = fopen("log.txt", "w+"); //可读可写
FILE* fp5 = fopen("log.txt", "a+"); //可读可追加
FILE* fp6 = fopen("log.txt", "r+"); //可读可写,文件不存在会打开失败
若文件打开失败,会返回空 NULL
,可以在打开后判断是否成功
注意: 若参数1直接使用文件名,则此文件需要位于当前程序目录下,如果想指定目录存放,可以使用绝对路径 或者在程序中使用chdir函数更改路径cwd
2.2文件关闭
文件打开并使用后需要关闭,就像动态内存申请后需要释放一样
int fclose ( FILE * stream );
关闭已打开文件,只需通过 FILE*
指针进行操作即可
//对上面打开的文件进行关闭
//无论以哪种方式打开,关闭方法都一样
fclose(fp1);
fclose(fp2);
fclose(fp3);
fclose(fp4);
fclose(fp5);
fclose(fp6);
注意: 只能对已打开的文件进行关闭,若文件不存在,会报错
2.3文件写入
C语言
对于文件写入有这几种方式:fputc
、fputs
、fwrite
、fprintf
和 snprintf
int fputc ( int character, FILE * stream );
int fputs ( const char * str, FILE * stream );
size_t fwrite ( const void * ptr, size_t size, size_t count, FILE * stream );
int snprintf ( char * s, size_t n, const char * format, ... );
前几种方式比较简单,无非就是 逐字符写入、逐行写入 与 格式化写入,这里主要来介绍一下 snprintf
snprintf 是 sprintf 的优化版,增加了读取字符长度控制,更加安全
参数1:缓冲区,常写做 buffer 数组
参数2:缓冲区的大小
参数3:格式化输入,比如 "%d\n", 10
使用 snprintf
函数写入数据至缓冲区后,可以再次通过 fputs
函数,将缓冲区中的数据真正写入文件中
#include <stdio.h>
#include <stdlib.h>
#define LOG "log.txt" //日志文件
#define SIZE 32
int main()
{
FILE* fp = fopen(LOG, "w");
if(!fp)
{
perror("fopen file fail!"); //报错
exit(-1); //终止进程
}
char buffer[SIZE]; //缓冲区
int cnt = 5;
while(cnt--)
{
snprintf(buffer, SIZE, "%s\n", "Hello File!"); //写入数据至缓冲区
fputs(buffer, fp); //将缓冲区中的内容写入文件中
}
fclose(fp);
fp = NULL;
return 0;
}
可以灵活地向日志文件中写入内容
2.4文件读取
读取与写入配套出现
int fgetc ( FILE * stream );
char * fgets ( char * str, int num, FILE * stream );
size_t fread ( void * ptr, size_t size, size_t count, FILE * stream );
int fscanf ( FILE * stream, const char * format, ... );
int sscanf ( const char * s, const char * format, ...);
可以使用 sscanf
按照一定的规则格式化读取字符串 s
#include <stdio.h>
int main()
{
char s[] = "2023:3:24";
int arr[3];
char* buffer[4];
sscanf(s, "%d:%d:%d", arr, arr + 1, arr + 2);
printf("%d\n%d\n%d\n", arr[0], arr[1], arr[2]);
return 0;
}
这个函数多用于 序列化与反序列化操作
3.系统文件操作
3.1open
手册指令:
man 2 open//2 表示系统手册
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
int open(const char *pathname, int flags);
int open(const char *pathname, int flags, mode_t mode);
int creat(const char *pathname, mode_t mode);
pathname表示需要打开文件的路径,mode表示设置的权限,flags表示标志位,对于这个标志位,它的实现思路为:
一个整形有32个bit位,那么可以表示32种标志,但是这样不方便,因为要传递该标志位对应的整数,比如要表示(……0000 1000)就要传递8,这样其实不太方便,所以采用位操作的方法;
这种方法就是在函数内定义宏,通过位运算来查找到对应的指令操作是什么(例如read,write等);
可以通过下图理解:
助记demo:
#include <stdio.h>
#include <stdlib.h>
#define ONE 0x1
#define TWO 0x2
#define THREE 0x4
void Test(int flags)
{
//模拟实现三种选项传递
if(flags & ONE)
printf("This is one\n");
if(flags & TWO)
printf("This is two\n");
if(flags & THREE)
printf("This is three\n");
}
int main()
{
Test(ONE | TWO | THREE);
printf("-----------------------------------\n");
Test(ONE); //位图使得选项传递更加灵活
return 0;
}
函数 open
中的参数2正是位图,其参数有很多个,这里列举部分
O_RDONLY //只读
O_WRONLY //只写
O_APPEND //追加
O_CREAT //新建
O_TRUNC //清空
实际使用时,可以按照位图demo中的方式进行参数传递
#include <stdio.h>
#include <stdlib.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <string.h>
#include <unistd.h> //write 的头文件
#define LOG "log.txt" //日志文件
#define SIZE 32
int main()
{
//三种参数组合,就构成了 fopen 中的 w
int fd = open(LOG, O_WRONLY | O_CREAT | O_TRUNC, 0666); //权限最好设置
if(fd == -1)
{
perror("open file fail1");
exit(-1);
}
const char* ps = "Hello System Call!\n";
int cnt = 5;
while(cnt--)
write(fd, ps, strlen(ps)); //不能将 '\0' 写入文件中
close(fd);
return 0;
}
注意:
假若文件不存在,open 中的参数3最好进行设置,否则创建出来的文件权限为随机值
继承环境变量表后,umask 默认为 0002,当然也可以自定义
通过系统级函数 write 写入字符串时,不要刻意加上 '\0',因为对于系统来说,这也只是一个普通的字符('\0' 作为字符串结尾只是 C语言 的规定)
C语言 中的 fopen 调用 open 函数,其中的选项对应关系如下
- w -> O_WRONLY | O_CREAT | O_TRUN
- a -> O_WRONLY | O_CREAT | O_APPEND
- r -> O_RDONLY
所以只要我们想,使用 open 时,也能做到 只读方式 打开 不存在的文件,也不会报错,加个 O_CREAT 参数即可
3.2close
close
函数根据文件描述符关闭文件
#include <unistd.h>
int close(int fildes);
Linux 下一切皆文件
包括这三个标准流: stdin
、stdout
、stderr
它们的文件描述符依次为:0
、1
、2
,也可以通过 close(1)
的方式,关闭标准流
3.3write
write
函数的返回值类型有点特殊,但使用方法与 fwrite
基本一致
#include <unistd.h>
ssize_t write(int fildes, const void *buf, size_t nbyte);
3.4read
read
读取很淳朴,只支持指定字符数读取
#include <unistd.h>
ssize_t read(int fildes, void *buf, size_t nbyte);
文件读取时,同样是借助缓冲区进行读取
#include <stdio.h>
#include <stdlib.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <string.h>
#include <unistd.h> //write 的头文件
#define LOG "log.txt" //日志文件
#define SIZE 1024
int main()
{
int fd = open("test.c", O_RDONLY);
if(fd == -1)
{
perror("open file fail1");
exit(-1);
}
int n = 50; //读取50个字符
char buffer[SIZE];
int pos = 0;
while(n--)
{
read(fd, (char*)buffer + pos, 1);
pos++;
}
printf("%s\n", buffer);
close(fd);
return 0;
}
4.访问文件本质
struct file:每打开一个文件,OS都会分配一个file对象给到对应文件,里面保存了文件相关的属性信息
struct file_struct:该结构体包含一个指针数组,该数组类型为struct file* fd_array[32];这个指针数组的作用就是将对应文件描述符的地址写到该数组对应下标中(这个过程相当于分配下标),例如默认打开的标准输入、标准输出、标准错误分别对应下标0、1、2;
struct file_struct* file:这是一个指针,指向上述的指针数组,其作用是让进程拿到上述操作后,对应文件的描述符fd。
通过上面的分析,也可以了解到为什么write、read等系统调用函数都需要文件描述符fd,因为拿到了fd,才能找到并对对应文件进行操作。