正则表达式:提取pdf电子书籍中的代码(剔除序号和空格)
学习pdf书籍中的代码时,总要费劲删除序号空格,才能拷贝到编译器中运行,很不方便。
昨天学习了一些正则表达式的概念,整理出了几行代码,用于提取可编译代码。
代码
# 用于pdf中的代码块拷贝。
# 由于拷贝后,代码带有序号,特整理出以下命令行,清除序号。
# 把拷贝的带序号代码粘贴在content中(注意最后一行要换行),运行代码即可
import re
content = '''1 import re
2 content = '发布于2018/12/23'
3 result = re.findall('.*?(\d.*\d)', content)
4 # 这一行的.*表示匹配除换行符外的任意字符,?表示非贪婪匹配,这个放在后面讲
5 # (\d.*\d)表示一个组,以数字开头,以数字结尾,.*表示中间可以是除换行以外的任意
字符
6 # 最终返回的结果就是括号内匹配到的结果。
7 print(result)
8 # 得到的结果是['2018/12/23']
'''
result = re.findall('\d (.*)', content)
# ①\d →数字+空格之后的内容②(.*)→提取内容到换行符号处为止
for i in result:
# 将列表逐行打印,方便拷贝
print(i)
结果
import re
content = '发布于2018/12/23'
result = re.findall('.*?(\d.*\d)', content)
# 这一行的.*表示匹配除换行符外的任意字符,?表示非贪婪匹配,这个放在后面讲
# (\d.*\d)表示一个组,以数字开头,以数字结尾,.*表示中间可以是除换行以外的任意
# 最终返回的结果就是括号内匹配到的结果。
print(result)
# 得到的结果是['2018/12/23']
进程已结束,退出代码 0
欢迎指正!