正则表达式:提取pdf电子书籍中的代码(剔除序号和空格)

正则表达式:提取pdf电子书籍中的代码(剔除序号和空格)

学习pdf书籍中的代码时,总要费劲删除序号空格,才能拷贝到编译器中运行,很不方便。

昨天学习了一些正则表达式的概念,整理出了几行代码,用于提取可编译代码。

 代码

# 用于pdf中的代码块拷贝。
# 由于拷贝后,代码带有序号,特整理出以下命令行,清除序号。
# 把拷贝的带序号代码粘贴在content中(注意最后一行要换行),运行代码即可
import re
content = '''1 import re
2 content = '发布于2018/12/23'
3 result = re.findall('.*?(\d.*\d)', content)
4 # 这一行的.*表示匹配除换行符外的任意字符,?表示非贪婪匹配,这个放在后面讲
5 # (\d.*\d)表示一个组,以数字开头,以数字结尾,.*表示中间可以是除换行以外的任意
字符
6 # 最终返回的结果就是括号内匹配到的结果。
7 print(result)
8 # 得到的结果是['2018/12/23']
'''
result = re.findall('\d (.*)', content)
# ①\d →数字+空格之后的内容②(.*)→提取内容到换行符号处为止
for i in result:
    # 将列表逐行打印,方便拷贝
    print(i)

 结果

 import re
 content = '发布于2018/12/23'
 result = re.findall('.*?(\d.*\d)', content)
 # 这一行的.*表示匹配除换行符外的任意字符,?表示非贪婪匹配,这个放在后面讲
 # (\d.*\d)表示一个组,以数字开头,以数字结尾,.*表示中间可以是除换行以外的任意
 # 最终返回的结果就是括号内匹配到的结果。
 print(result)
 # 得到的结果是['2018/12/23']

进程已结束,退出代码 0
欢迎指正!
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值