在做卷一综合题的时候,一开始无法理解答案给出的做法,现已理解并提供一种新的思路,望有同样疑惑的小伙伴可以阅读此文后,可以解决。
以下是原题题目:
《论语》是儒家学派的经典著作之一,主要记录了孔子及其弟子的言行。网络上有很多《论语》文本版本。这里给出了一个版本,文件名称为“论语-网络版.txt”,其内容采用如下格式组织:
【原文】
1.11子曰:“父在,观其(1)志;父没,观其行(2);三年(3)无改于父之道(4),可谓孝矣。”
【注释】
(略)
【译文】
(略)
【评析】
(略)
该版本通过【原文】标记《论语》原文内容,采用【注释】、【译文】和【评析】标记对原文的注释、译文和评析。
问题1:请编写程序,提取《论语》文档中所有原文内容,输出保存到“论语-提取版.txt”文件。输出文件格式要求:去掉文章中原文部分每行行首空格及如“1.11”等的数字标志,行尾无空格、无空行。
参考格式如下(原文中括号及内部数字是对应源文件中注释项的标记):
子曰(1):“学(2)而时习(3)之,不亦说(4)乎?有朋(5)自远方来,不亦乐(6)乎?人不知(7),而不愠(8),不亦君子(9)乎?”有子(1)曰:“其为人也孝弟(2),而好犯上者(3),鲜(4)矣;不好犯上,而好作乱者,未之有也(5)。君子务本(6),本立而道生(7)。孝弟也者,其为人之本与(8)?”
子曰:“巧言令色(1),鲜(2)仁矣。”
(略)
以下是原答案:
fi = open("论语-网络版.txt", "r", encoding="utf-8")
fo = open("论语-提取版.txt", "w")
wflag = False #写标记
for line in fi:
if "【" in line: #遇到【时,说明已经到了新的区域,写标记置否
wflag = False
if "【原文】" in line: #遇到【原文】时,设置写标记为True
wflag = True
continue
if wflag == True: #根据写标记将当前行内容写入新的文件
for i in range(0,25):
for j in range(0,25):
line = line.replace("{}·{}".format(i,j),"**")
"""一开始无法理解为什么要用**替换,为什么不直接用""替换,
是因为对于例如1·19,当遍历到1·1时就已经替换了,剩下**9,
接下去再对两边的数字进行遍历去除。"""
for i in range(0,10):
line = line.replace("*{}".format(i),"")
for i in range(0,10):
line = line.replace("{}*".format(i),"")
line = line.replace("*","")
fo.write(line)
fi.close()
fo.close()
现提供一种新思路,让它从大到小遍历,以避免原答案需要逐个位数遍历的情况:
f1 = open('论语-网络版.txt','r')
f2 = open('论语-提取版1.txt','w')
flag = False
for line in f1:
if "【" in line:
flag = False
if "【原文】" in line:
flag = True
continue
if flag == True:
for i in range(40,-1,-1):#这里就是从40逐步到零,每次减少1的遍历,步骤会简单一些,理解上也会方便一些。
for j in range(40,-1,-1):#为保险,也可以选更大的数字比如100?这样就从100·100开始了
line = line.replace("{}·{}".format(i,j),"")
f2.write(line)
f1.close()
f2.close()