文件和异常
从文件中读取数据
每当需要分析或修改存储在文件中的信息时,读取文件都很有用,对数据分析应用程序来说尤其如此。要使用文本文件中的信息,首先需要将信息读取到内存中。
- 读取整个文件
3.1415926535
8979323846
2643383279
将以上内容保存为pi_digits.txt
,将文件保存到程序所在目录中。
可以使用下面的程序读取pi_digits.txt
文件
with open('pi_digits.txt') as file_object:
contents = file_object.read()
print(contents)
分析代码:
-
open()
函数
要以任何方式使用文件
——哪怕仅仅是打印其内容,都得先打开文件,这样才能访问它。
函数open()
接受一个参数,即要打开的文件的名称。 -
关键字with
关键字with
在不再需要访问文件后将其关闭。
注:在这段代码中只调用了open()
函数,没有调用close()
函数。如果在程序出现bug时,导致close()
语句未执行,文件将不会关闭,未妥善处理地关闭文件可能会导致数据丢失或受损。
通过使用前面的结构,可让Python去确定,只管打开文件,并在需要时使用它,Python会在合适的时候自动将其关闭。 -
方法
read()
读取文件全部内容,并将其作为一个长字符串存储在变量contents
中。
- 文件路径
将文件名传递给函数open()
时,Python将在当前执行的文件所在目录中查找文件。
当被打开文件不在当前目录下的话,可使用相对文件路径
来打开该文件夹中的文件。
with open('text_files/filename.txt') as file_object:
在Windows系统中,在文件路径中使用反斜杠 \
而不是斜杠 /
通过使用绝对路径,可读取系统任何地方的文件。
- 逐行读取
读取文件时,要以每次一行的方式检查文件,可对文件对象使用for
循环:
with open('pi_digits.txt') as file_object:
for line in file_object:
print(line.rstrip())
rstrip()
方法用来清除空行
- 创建一个包含文件各行内容的列表
使用关键字with
时,open()
返回的文件对象只在with
代码块内可用。如果要在with
代码块外访问文件的内容,可在with
代码块内将文件的各行存储在一个列表中,并在with
代码块外使用该列表。
filename = 'pi_digits.txt'
with open(filename) as file_object:
lines = file_object.readlines()
for line in lines:
print(line.rstrip())
-
使用文件的内容
将文件读取到内存中后,就可以以任何方式使用这些数据了。读取文本文件时,Python将其中的所有文本都解读为字符串。如果你读取的是数字,并要将其作为数值使用,就必须使用函数int()
将其转换为整数,或使用函数float()
将其转 换为浮点数。 -
包含一百万位的大型文件
对于可处理的数据量,Python没有任何限制,只要系统的内存足够多即可。
写入文件
保存数据的最简单的方式之一是将其写入到文件中。通过将输出写入文件,即便关闭包含程序输出的终端窗口,这些输出也依然存在。可以在程序结束运行后查看这些输出,可与别人分享输出文件,还可编写程序来将这些输出读取到内存中并进行处理。
- 写入空文件
要将文本写入文件,你在调用open()
时需要提供另一个实参,告诉Python你要写入打开的文件。
filename = 'programming.txt'
with open(filename, 'w') as file_object:
file_object.write("I love programming.")
第二个实参'w'
告诉Python,我们要以写入模式打开这个文件。打开文件时,可指定读取模式'r'
、写入模式'w'
、附加模式'a'
或让你能够读取和写入文件的模式'r+'
。如果省略了模式实参,Python将以默认的只读模式打开文件。
注:Python只能将字符串写入文本文件。要将数值数据存储到文本文件中,必须先使用函数str()
将其转换为字符串格式。
- 写入多行
函数write()
不会在写入的文本末尾添加换行符,因此如果你写入多行时没有指定换行符,要让每个字符串都单独占一行,需要在write()
语句中包含换行符\n
:
filename = 'programming.txt'
with open(filename, 'w') as file_object:
file_object.write("I love programming.\n")
file_object.write("I love creating new games.\n")
还可以使用空格、制表符和空行来设置这些输出的格式。
- 添加到文件
如果你要给文件添加内容,而不是覆盖原有的内容,可以附加模式打开文件。你以附加模式打开文件时,Python不会在返回文件对象前清空文件,而你写入到文件的行都将添加到文件末尾。如果指定的文件不存在,Python将为你创建一个空文件。
filename = 'programming.txt'
with open(filename, 'a') as file_object:
file_object.write("I also love finding meaning in large datasets.\n")
file_object.write("I love creating apps that can run in a browser.\n")
打开文件时指定了实参'a'
,以便将内容附加到文件末尾,而不是覆盖文件原来的内容。
异常
Python使用被称为异常的特殊对象来管理程序执行期间发生的错误。每当发生让Python不知所措的错误时,它都会创建一个异常对象。如果你编写了处理该异常的代码,程序将继续运行。如果你未对异常进行处理,程序将停止,并显示一个traceback
,其中包含有关异常的报告。
异常是使用try-except
代码块处理的。try-except
代码块让Python执行指定的操作,同时告诉Python发生异常时怎么办。使用了try-except
代码块时,即便出现异常,程序也将继续运行。显示编写的友好的错误消息,而不是令用户迷惑的traceback
。
- 处理ZeroDivisionError异常
不能将一个数字除以0
:
print(5/0)
得到一个traceback
Traceback (most recent call last):
File "test.py", line 1, in <module>
print(5/0)
ZeroDivisionError: division by zero
在这种情况下,Python将停止运行程序,并指出引发了哪种异常,而我们可根据这些信息对程序进行修改。
- 使用try-except代码块
当可能发生了错误时,可编写一个try-except
代码块来处理可能引发的异常。Python尝试运行一些代码,并告诉它如果这些代码引发了指定的异常,该怎么办。
try:
print(5/0)
except ZeroDivisionError:
print("You can't divide by zero!")
-
使用异常避免崩溃
发生错误时,如果程序还有工作没有完成,妥善地处理错误就尤其重要。这种情况经常会出现在要求用户提供输入的程序中。如果程序能够妥善地处理无效输入,就能再提示用户提供有效输入,而不至于崩溃。
程序崩溃可不好,但让用户看到traceback
也不是好主意。不懂技术的用户会被它们搞糊涂, 而且如果用户怀有恶意,他会通过traceback
获悉你不希望他知道的信息。例如,他将知道你的程序文件的名称,还将看到部分不能正确运行的代码。有时候,训练有素的攻击者可根据这些信息判断出可对你的代码发起什么样的攻击。 -
else代码块
通过将可能引发错误的代码放在try-except
代码块中,可提高这个程序抵御错误的能力。错误是执行除法运算的代码行导致的,因此我们需要将它放到try-except
代码块中。这个示例还包含一个else
代码块。依赖于try
代码块成功执行的代码都应放到else
代码块中。
print("Give me two numbers, and I'll divide them.")
print("Enter 'q' to quit.")
while True:
first_number = input("\nFirst number: ")
if first_number == 'q':
break
second_number = input("Second number: ")
try:
answer = int(first_number) / int(second_number)
except ZeroDivisionError:
print("You can't divide by 0!")
else:
print(answer)
Python尝试执行try
代码块中的除法运算,这个代码块只包含可能导致错误的代码。依赖于try
代码块成功执行的代码都放在else
代码块中。在这个示例中,如果除法运算成功,就使用else
代码块来打印结果。程序将继续运行,用户根本看不到traceback
。
try-except-else
代码块的工作原理大致如下:
Python尝试执行try
代码块中的代码,只有可能引发异常的代码才需要放在try
语句中。有一些仅在try
代码块成功执行时才需要运行的代码,这些代码应放在else
代码块中。except
代码块告诉Python,如果它尝试运行try
代码块中的代码时引发了指定的异常,该怎么办。
通过预测可能发生错误的代码,可编写健壮的程序,它们即便面临无效数据或缺少资源, 能继续运行,从而能够抵御无意的用户错误和恶意的攻击。
- 处理FileNotFoundError异常
使用文件时,一种常见的问题是找不到文件:你要查找的文件可能在其他地方、文件名可能 不正确或者这个文件根本就不存在。对于所有这些情形,都可使用try-except
代码块以直观的方 式进行处理。
filename = 'alice.txt'
try:
with open(filename) as f_obj:
contents = f_obj.read()
except FileNotFoundError:
msg = "Sorry, the file " + filename + " does not exist."
print(msg)
- 失败时一声不吭
Python有一个pass
语句,可在代码块中使用它来让Python什么都不要做
filename = 'alice.txt'
try:
with open(filename) as f_obj:
contents = f_obj.read()
except FileNotFoundError:
pass
当出现FileNotFoundError
异常时,将执行except
代码块中的代码,但什么都不会发生。这种错误发生时,不会出现traceback,也没有任何输出。pass
语句还充当了占位符,它提醒在程序的某个地方什么都没有做,并且以后也许要在这里做些什么。
- 决定报告哪些错误
在什么情况下该向用户报告错误?在什么情况下又应该在失败时一声不吭呢?如果用户知道要分析哪些文件,他们可能希望在有文件没有分析时出现一条消息,将其中的原因告诉他们。 如果用户只想看到结果,而并不知道要分析哪些文件,可能就无需在有些文件不存在时告知他们。 向用户显示他不想看到的信息可能会降低程序的可用性。Python的错误处理结构让你能够细致地控制与用户分享错误信息的程度。
编写得很好且经过详尽测试的代码不容易出现内部错误,如语法或逻辑错误,但只要程序依赖于外部因素,如用户输入、存在指定的文件、有网络链接,就有可能出现异常。凭借经验可判断该在程序的什么地方包含异常处理块,以及出现错误时该向用户提供多少相关的信息。
存储数据
很多程序都要求用户输入某种信息,如让用户提供要可视化的数据。程序把用户提供的信息存储在列表和字典等数据结构中。用户关闭程序时,几乎总是要保存他们提供的信息,一种简单的方式是使用模块json
来存储数据。
模块json
让你能够将简单的Python数据结构转储到文件中,并在程序再次运行时加载该文件中的数据。你还可以使用json
在Python程序之间分享数据。更重要的是,JSON数据格式并非Python专用的,这让你能够将以JSON格式存储的数据与使用其他编程语言的人分享。这是一种轻便格式,很有用也易于学习。
注:JSON(JavaScriptObjectNotation)格式最初是为JavaScript开发的,但随后成了一种常见 格式,被包括Python在内的众多语言采用。
- 使用json.dump()和json.load()
编写一个存储一组数字的简短程序,再编写一个将这些数字读取到内存中的程序。第 一个程序将使用json.dump()
来存储这组数字,而第二个程序将使用json.load()
。
函数json.dump()
接受两个实参:要存储的数据以及可用于存储数据的文件对象。
打开文件numbers.json
,查看其内容:
[2, 3, 5, 7, 11, 13]
数据的存储格式与 Python中一样
再编写一个程序,使用json.load()
将这个列表读取到内存中
import json
filename = 'numbers.json'
with open(filename) as f_obj:
numbers = json.load(f_obj)
print(numbers)
这是一种在程序之间共享数据的简单方式。
- 保存和读取用户生成的数据
对于用户生成的数据,使用json
保存他们将大有裨益,因为如果不以某种方式进行存储,等程序停止运行时用户的信息将丢失。
例如:用户首次运行程序时被提示输入自己的名字,这样再次运行程序时就记住他了。
先来存储用户的名字:
import json
username = input("What is your name? ")
filename = 'username.json'
with open(filename, 'w') as f_obj:
json.dump(username, f_obj)
print("We'll remember you when you come back, " + username + "!")
向其名字被存储的用户发出问候:
import json
filename = 'username.json'
with open(filename) as f_obj:
username = json.load(f_obj)
print("Welcome back, " + username + "!")
使用json.load()
将存储在username.json
中的信息读取到变量username
中。
可以将其结合异常处理,合并成一个程序:
import json
filename = 'username.json'
try:
with open(filename) as f_obj:
username = json.load(f_obj)
except FileNotFoundError:
username = input("What is your name? ")
with open(filename, 'w') as f_obj:
json.dump(username, f_obj)
print("We'll remember you when you come back, " + username + "!")
else:
print("Welcome back, " + username + "!")
- 重构
代码能够正确地运行,但可做进一步的改进——将代码划分为一系列完成具体工作的函数。这样的过程被称为重构。重构让代码更清晰、更易于理解、更容易扩展。
import json
def get_stored_username():
"""如果存储了用户名,就获取它"""
filename = 'username.json'
try:
with open(filename) as f_obj:
username = json.load(f_obj)
except FileNotFoundError:
return None
else:
return username
def get_new_username():
"""提示用户输入用户名"""
username = input("What is your name? ")
filename = 'username.json'
with open(filename, 'w') as f_obj:
json.dump(username, f_obj)
return username
def greet_user():
"""问候用户,并指出其名字"""
username = get_stored_username()
if username:
print("Welcome back, " + username + "!")
else:
username = get_new_username()
print("We'll remember you when you come back, " + username + "!")
greet_user()
每个函数都执行单一而清晰的任务。调用greet_user()
,打印一条合适的消息,要么欢迎老用户回来,要么问候新用户。为此,它首先调用get_stored_username()
,这个函数只负责获取存储的用户名(如果存储了的话),再在必要时调用get_new_username()
,这个函数只负责获取并存储新用户的用户名。要编写出清晰而易于维护和扩展的代码,这种划分工作必不可少。