python入门:第九天
1. 文件编码
计算机只能识别0和1,文本文件通过编码技术将内容翻译为0和1存入。
编码技术:翻译的规则,记录了如何将内容翻译成二进制,以及如何将二进制翻译会可识别内容。
不同的编码,将内容翻译成二进制也是不同的。
记录文件使用的什么编码,打开的时候也应该使用同样的编码,否则会发生内容不匹配
如何查看文件的编码:
windows里面的记事本可以查看
一般是UTF - 8
2. 文件的读取操作
内存中存放的数据在计算机关机后就会消失,要长久保存数据,就要使用硬盘、光盘、U盘等设备。未来便于数据的管理和检索,引入的“文件”的概念。
一篇文章、一段视频、一个可执行文件、都可以被保存为一个文件,并赋予文件名。操作系统以文件为单位管理磁盘中的数据。一般来说,文件可分为文本文件、视频文件、音频文件、图像文件、可整形文件等多种类别。
文件的操作:打开、读、写、关闭
大概分为如下三个步骤:
- 打开文件
- 读写文件
- 关闭文件
2.1 open()打开函数
在python中,使用open()函数,可以打开一个已经存在的文件或者创建一个新文件,语法如下:
语法: open(name , mode , encoding)
- name:打开文件的文件名字符串,可以包含路径
- mode:设置打开文件的模式:只读read、写入write、追加append等。
- encoding:编码格式(UTF - 8)
f = open('python.txt','r',encoding = UTF-8)
print(type(f))
# <class '_io.TextIOWrapper'> 文本文件
# encoding的位置不是第三位,因此要用关键字传参
2.2 读文件: read()、readlines()、readline()
- read():字符串
语法:文件对象.read(num)
num表示要从文件中读取的数据的长度(单位是字符),如果没有传入num,那么就表示读取文件中所有数据.
"""
f的原本内容为
123456789
我是大帅哥
"""
print(f.read(5))
# 12345
str = f.read()
print(type(str))
# <class 'str'>
print(f.read())
# 6789
# 我是大帅哥
print(f.read())
# 空
当连续调用多次read时,每次都会承接上一次read时的位置
- readlines()列表
readlines可以按照行的方式把整个文件中的内推进行一次性读取,并且返回的是一个列表,其中每一行的数据为一个元素.
f = open('python.txt','r',encoding="UTF-8")
lines = f.readlines()
print(type(lines))
# <class 'list'>
print(lines)
# ['123456789\n', '我是大帅哥']
read和readlines都会受到指针的影响,承接在上一次读取时的位置
- readline()
调用一次读取一行,也会承接上一次的位置
str = f.readline()
print(type(str))
# <class 'str'>
print(str)
# 123456789
#
# 上面其实是有换行的 在字符串中\n变成了换行,如下
print(list(str[9]))
# ['\n']
str1 = f.readline()
print(str1)
# 我是大帅哥
这个读取每一行数据可以用for循环实现:
- for line in open(“python.txt”,“r”)
每一个line临时变量就记录了文件的一行数据
for line in f:
print(line)
print(type(line))
"""
123456789
<class 'str'>
我是大帅哥
<class 'str'>
"""
2.3 关文件: close()
为什么要关闭文件:不关闭文件,文件一直会被python占用,其他程序无法读取
time.sleep(500000)
#程序在这里暂停500秒
f.close()
#文件关闭
我万一忘记写close了怎么办?
- 用 with open()语法
with open('python.txt','r',encoding='UTF-8') as f:
print(f.readlines())
通过在with open的语句块中对文件进行操作.可以在操作完成后自动关闭close文件
2.4 总结
2.5 小测试
通过文件读取,统计关键词的数量
方法1
"""
文件的内容:
1234 56789
我是 大帅哥
1234 56789
我是 大帅哥
1234 56789
我是 大帅哥
1234 56789
我是 大帅哥
1234 56789
我是 大帅哥
1234 56789
我是 大帅哥
"""
# 统计文件中大帅哥字符串的数量
with open('python.txt','r',encoding='UTF-8') as f:
str = str(f.readlines())
print(str)
print(str.count('大帅哥'))
方法2:
text = f.read()
sum = text.count('大帅哥')
print(sum)
如果文件大的话 一次性读取速度会慢
因此采用一行行读取
方法3:
sum = 0
for line in f:
sum += line.count("大帅哥")
print(sum)
方法4:
sum = 0
for line in f:
line = line.strip()
# 删除空格和换行
list1 = line.split(' ')
#把单词用空格切分
for i in list1:
#遍历一行中的单词列表
if i == '大帅哥':
sum += 1
print(sum)
- strip()可以删除空格和换行
2.6 文件的写入:write()方法
# 新建一个文件
f = open('text.txt','w',encoding = 'UTF-8')
# 文件写入
f.write('hello world!')
# 文件刷新
f.flush()
# 文件关闭
f.close()
# close里面其实内置flush功能
- 直接调用write,内容没有写道文件里面,而是会存入内存,叫做缓冲区
- 当调用flush的时候,内容会真正写入文件
- 防止多次调用write对硬盘进行操作,降低效率,先存入缓冲区,一次性写道磁盘中
- close里面其实内置flush功能
- w模式下,在文件不存在的时候会创建新文件
- 在文件存在的时候,会把原有文件内容清空
2.7 文件的追加操作
with open('python.txt','a',encoding='UTF-8') as f:
f.write('\n')
f.write('打发打发')
- a模式下,文件不存在会创建文件
- a模式下,文件存在会在最后追加文件内容
2.8 文件的综合案例
"""
文件内容:
name,date,money,type,remarks
周杰轮,2022-01-01,100000,消费,正式
周杰轮,2022-01-02,300000,收入,正式
周杰轮,2022-01-03,100000,消费,测试
林俊节,2022-01-01,300000,收入,正式
林俊节,2022-01-02,100000,消费,测试
林俊节,2022-01-03,100000,消费,正式
林俊节,2022-01-04,100000,消费,测试
林俊节,2022-01-05,500000,收入,正式
张学油,2022-01-01,100000,消费,正式
张学油,2022-01-02,500000,收入,正式
张学油,2022-01-03,900000,收入,测试
王力鸿,2022-01-01,500000,消费,正式
王力鸿,2022-01-02,300000,消费,测试
王力鸿,2022-01-03,950000,收入,正式
刘德滑,2022-01-01,300000,消费,测试
刘德滑,2022-01-02,100000,消费,正式
刘德滑,2022-01-03,300000,消费,正式
"""
我们现在要做的就是:
- l读取文件
- l将文件写出到bill.txt.bak文件作为备份
- l同时,将文件内标记为测试的数据行丢弃
with open('C:/Users/kagai/Desktop/learning/python/text.txt','r',encoding='UTF-8') as f:
# 方法1:
# ff = open('D:/bill.txt.bak','w',encoding='UTF-8')
# ff.write(f.readline())
# for i in f:
# if i.count('测试') == 1:
# continue
# ff.write(i)
# ff.close()
#方法2:
ff = open('D:/bill.txt.bak','w',encoding='UTF-8')
ff.write(f.readline())
for line in f:
line1 = line.strip()
f_list = line1.split(',')
print(f_list)
if f_list[4] == '测试':
continue
ff.write(line)
ff.close()
- 注意:在w模式下,只要文件没有关闭,则可以一直写入 相当于追加,文件close关闭之后,在open打开它,会发生覆盖