文件
文件概述
-
文本文件
文本文件是一种由若干字符构成的文件,可以用文本编辑器进行阅读或编辑。以txt、py、html等为后缀的文件都是文本文件。 -
二进制文件
二进制文件一般是指不能用文本编辑器阅读或编辑的文件。以mp3、mp4、png等为后缀的文件都是二进制文件,如果想要打开或修改这些文件,必须通过特定软件进行,比如用Photoshop软件可以编辑图像文件。
从本质上讲,文本文件也是二进制文件,因为计算机处理的全是二进制数据。
文件操作
通过程序操作文件与手动操作文件类似,通常需要经过3个步骤:打开文件、读或写数据、关闭文件。
打开文件
对文件所有的操作都是在打开文件之后进行的,打开文件使用open()函数来实现
Python中打开文件的模式有多种,具体如表所示。
在表中,'r’表示从文件中读取数据,'w‘表示向文件中写入数据,'a‘表示向文件中追加数据,'+’可以与以上3种模式(‘r’、‘w’、‘a’)配合使用,表示同时允许读和写。另外,当需要处理二进制文件时,则需要提供’b’给mode参数,例如’rb’用于读取二进制文件。
关闭文件
当对文件内容操作完以后,一定要关闭文件,这样才能保证所修改的数据保存到文件中,同时也可以释放内存资源供其他程序使用。
此处需注意,即使使用了close()方法,也无法保证文件一定能够正常关闭。例如,在打开文件之后和关闭文件之前发生了错误导致程序崩溃,这时文件就无法正常关闭。
读文本文件
打开文件成功后将返回一个文本对象,对文件内容的读取可以通过该对象来实现,该对象有3种方法可以获取文件内容,具体如下所示:
- read()方法
read()方法可以从文件中读取内容
该方法表示从文件中读取size个字节或字符作为结果返回,如果省略size,则表示读取所有内容。 - readlines()方法
readlines()方法可以读取文件中的所有行
该方法将文件中的每行内容作为一个字符串存入列表中并返回该列表。
此处需注意,readlines()方法一次性读取文件中的所有行,如果文件非常大,使用readlines()方法就会占用大量的内存空间,读取的过程也较长,因此不建议对大文件使用该方法。 - readline()方法
readline()方法可以逐行读取文件的内容
该方法将从文件中读取一行内容作为结果返回。 - in关键字
除了上述几种方法外,还可以通过in关键字读取文件
写文本文件
文件中写入内容也是通过文件对象来完成,可以使用write()方法或writelines()方法来实现。
- write()方法
write()方法可以实现向文件中写入内容
该方法表示将字符串s写入文件中。 - writelines()方法
writelines()方法向文件中写入字符串列表
该方法将列表s中的每个字符串元素写入文件中。
读写二进制文件
文本文件使用字符序列来存储数据,而二进制文件使用字节序列存储数据,它只能被特定的读取器读取。Python中pickle模块可以将数据序列化。
序列化是指将对象转化成一系列字节存储到文件中,而反序列化是指程序从文件中读取信息并用来重构上一次保存的对象。
pickle模块中dump()函数可以实现序列化操作
该函数表示将对象obj保存到文件file中,参数protocol是序列化模式,默认值为0,表示以文本的形式序列化,protocol的值还可以是1或2,表示以二进制的形式序列化。
定位读写位置
文件指针是指向一个文件的指针变量,用于标识当前读写文件的位置,通过文件指针就可对它所指的文件进行各种操作。
tell()方法可以获取文件指针的位置,该方法返回一个整数,表示文件指针的位置。
seek()方法可以移动文件指针位置
其中,参数offset表示移动的偏移量,单位为字节,其值为正数时,文件指针向文件尾方向移动;其值为负数时,文件指针向文件头方向移动。参数where指定从何处开始移动,其值可以为0、1、2,具体含义如下所示:
0——表示文件头。 1——表示当前位置。 2——表示文件尾。
复制文件
在日常生活中,经常需要将文件从一个路径下复制到另一个路径下。在Python中,shutil模块的copy()函数可以实现复制文件
移动文件
在日常生活中,经常需要将文件从一个路径下移动到另一个路径下。在Python中,shutil模块的move ()函数可以实现移动文件
重命名文件
在Python中,os模块的rename()函数可以重命名文件
删除文件
在Python中,os模块的remove ()函数可以删除文件