一、文件处理
-
什么是文件:文件是操作系统为应用程序或者用户提供一种操作硬盘的虚拟单位
强调:文件是操作系统提供的虚拟单位,应用程序或者用户对文件的读写操作其实都是向操作系统发送指令
-
为何要用文件:文件对应的硬盘空间,如果需要考虑永久保存数据那必须使用文件
-
如何用文件
#打开文件 f = open(r'D:\a.txt',mode='rt',encoding='utf-8') print(f) #读/写文件 data = f.read() print(data) #关闭文件 f.close() #向操作系统发送指令,让操作系统关闭打开的文件,回收操作系统资源 print(f) f.read() #上下文管理 with open('db.txt',mode='rt',encoding='utf-8') as f: data=f.read() print(data)
二、文件的打开模式
- 基本介绍
控制文件读写操作的模式
r(默认)
w
a
控制文件读写内容的模式(不能单独使用,必须与r、w、a连用)
t(默认)
b
-
详细介绍
控制文件读写操作的模式
r(默认):只读模式,以该模式打开文件,当文件不存在时则报错,当文件存在时文件指针在文件开头
with open('db.txt',mode='rt',encoding='utf-8') as f: data = f.read() print(data,type(data)) #<class 'str'> print(f.readable()) #True print(f.writable()) #False with open('db.txt',mode='rt',encoding='utf-8') as f: line = f.readline() print(line,end='') #读一行 with open('db.txt',mode='rt',encoding='utf-8') as f: for line in f: print(line,end='') #可以使用for循环将每行内容迭代出来 with open('db.txt',mode='rt',encoding='utf-8') as f: print(f.readlines()) #readlines可以把文本内容转化成列表['list1\n', 'list2']
w:写模式,以该模式打开文件,当文件不存在时创建一个空文档,当文件存在时清空文件内容,文件指针在文件开头
with open('db.txt',mode='wt',encoding='utf-8') as f: print(f.readable()) #False print(f.writable()) #True #在打开了文件不关闭的情况下,连续的写入,新写的内容总是跟在老内容之后 f.write('你瞅啥\n瞅你咋地\n巴拉巴拉。。。\n') # with open('db.txt',mode='wt',encoding='utf-8') as f: lines = ['1111\n', '2222\n', '3333\n'] for line in lines: f.write(line) #将列表的内容循环写入文件中 with open('db.txt',mode='wt',encoding='utf-8') as f: lines = ['1111\n', '2222\n', '3333\n'] f.writelines(lines) #writelines可以把可迭代的列表循环写入文件中
a:只追加写模式,以该模式打开文件,当文件不存在时创建一个空文档,当文件存在时不清空文件内容,文件指针跳到文件末尾
with open('db.txt',mode='at',encoding='utf-8') as f: f.write('111\n') f.write('222\n')
控制文件读写内容的模式(不能单独使用,必须与r、w、a连用)
t(默认):无论读写都是以字符为单位的,只能操作文本文件,必须指定encoding参数
b:无论读写都是以bytes为单位的,可以操作所有文件,一定不能指定encoding参数
with open('db.txt',mode='rb') as f: data = f.read() print(data,type(data)) #b'\xc4\xe3\xba\xc3\r\n\xca\xc0\xbd\xe7' <class 'bytes'> print(data.decode('gbk')) #gbk格式的二进制解码 with open('a.txt',mode='wb') as f: f.write('字符行啊士大夫阿斯蒂芬撒旦发'.encode('utf-8')) #utf-8格式的二进制编码
练习:拷贝文件小程序
with open('01.mp4',mode='rb',) as read_f,\ open(r'D:\1111.mp4',mode='wb') as write_f: data=read_f.read() write_f.write(data)
了解:
+:不能单独使用,必须与rwa连用,r+ w+ a+
with open('db.txt','r+t',encoding='utf-8') as f: print(f.readable()) #True print(f.writable()) #True data=f.readline() print(data) f.write('刘清蒸') with open('db.txt','r+t',encoding='utf-8') as f: f.seek(10) f.write('abc')
三、文件修改的两种方式
方式一:
-
以读的方式打开源文件
-
将文件内容一次性全读入内存,在内存完成修改
-
以写的方式打开源文件,然后将修改后的结果一次性写入源文件
优点:在文件修改过程中硬盘只存在一份数据
缺点:浪费内存
with open('db.txt',mode='rt',encoding='utf-8') as f1: msg=f1.read() new_msg=msg.replace('alex','大SB') with open('db.txt',mode='wt',encoding='utf-8') as f2: f2.write(new_msg)
方式二:
-
以读的方式打开源文件,以写的方式打开一个临时文件
-
读取源文件的一行内容到内存中,将修改的结果写入临时文件,循环往复直到改
-
删除源文件,将临时文件重命名为源文件名
优点:同一时间在内存中只有文件的一行内容,更节省内容
缺点:在文件修改过程中硬盘只存在两份数据
import os with open('b.txt',mode='rt',encoding='utf-8') as read_f,\ open('.b.txt.swap',mode='wt',encoding='utf-8') as write_f: for line in read_f: write_f.write(line.replace('大SB','alex')) os.remove('b.txt') os.rename('.b.txt.swap','b.txt')
四、控制文件内指针移动
强调:只有t模式下read(n),n代表字符个数,除此以外都是以字节为单位
#a.txt 文本内容是:你好啊世界
with open('a.txt',mode='rt',encoding='utf-8') as f:
res=f.read(4)
print(res) #你好啊世
with open('a.txt',mode='rb') as f:
res=f.read(3)
print(res.decode('utf-8')) #你
with open('a.txt',mode='at',encoding='utf-8') as f:
f.truncate(3) #字符串截取前3个字节保留,后面全部截取掉
f.seek():指针移动是以字节为单位的
三种模式:只有0模式既可以在t下用也可以在b下用,而1、2两种模式只能在b模式下使用
0(默认的):参照文件开头
# a.txt 文本内容是:你好啊世界
with open('a.txt',mode='rt',encoding='utf-8') as f:
f.seek(3,0)
print(f.tell()) #3
print(f.read()) #好啊世界
1:参照指针当前所在的位置
with open('a.txt',mode='rb') as f:
f.read(2)
f.seek(4,1)
print(f.tell()) #6
print(f.read().decode('utf-8')) #啊世界
2:参照文件末尾
with open('a.txt',mode='rb') as f:
f.seek(-6,2)
print(f.tell()) #9
print(f.read().decode('utf-8')) #世界
小练习:类似 tail -f access.log 功能
access.py
with open('access.log',mode='at',encoding='utf-8') as f:
f.write('呵呵呵\n')
run.py
import time
with open('access.log',mode='rb') as f:
f.seek(0,2)
while True:
line = f.readline()
if len(line) ==0:
time.sleep(0.1)
else:
print(line.decode('utf-8'),end='')