正则表达式：提取pdf电子书籍中的代码（剔除序号和空格）

最新推荐文章于 2022-07-20 16:58:58 发布

程风弄潮

最新推荐文章于 2022-07-20 16:58:58 发布

阅读量752

点赞数 2

分类专栏：正则表达式文章标签：正则表达式 python

本文链接：https://blog.csdn.net/weixin_55180591/article/details/115073357

版权

正则表达式专栏收录该内容

1 篇文章 0 订阅

订阅专栏

正则表达式：提取pdf电子书籍中的代码（剔除序号和空格）

学习pdf书籍中的代码时，总要费劲删除序号空格，才能拷贝到编译器中运行，很不方便。

昨天学习了一些正则表达式的概念，整理出了几行代码，用于提取可编译代码。

代码

# 用于pdf中的代码块拷贝。
# 由于拷贝后，代码带有序号，特整理出以下命令行，清除序号。
# 把拷贝的带序号代码粘贴在content中（注意最后一行要换行），运行代码即可
import re
content = '''1 import re
2 content = '发布于2018/12/23'
3 result = re.findall('.*?(\d.*\d)', content)
4 # 这一行的.*表示匹配除换行符外的任意字符，？表示非贪婪匹配，这个放在后面讲
5 # (\d.*\d)表示一个组，以数字开头，以数字结尾，.*表示中间可以是除换行以外的任意
字符
6 # 最终返回的结果就是括号内匹配到的结果。
7 print(result)
8 # 得到的结果是['2018/12/23']
'''
result = re.findall('\d (.*)', content)
# ①\d →数字+空格之后的内容②（.*）→提取内容到换行符号处为止
for i in result:
    # 将列表逐行打印，方便拷贝
    print(i)

结果

 import re
 content = '发布于2018/12/23'
 result = re.findall('.*?(\d.*\d)', content)
 # 这一行的.*表示匹配除换行符外的任意字符，？表示非贪婪匹配，这个放在后面讲
 # (\d.*\d)表示一个组，以数字开头，以数字结尾，.*表示中间可以是除换行以外的任意
 # 最终返回的结果就是括号内匹配到的结果。
 print(result)
 # 得到的结果是['2018/12/23']

进程已结束，退出代码 0