import re
# 程序功能:要将所有<h1>..</h1>中的文本替换掉
key = r"<html><body><h1>hello world</h1><h1>hello wjs</h1></body></html>" # 这段是你要匹配的文本
p1 = r"(?<=<h1>).+?(?=</h1>)" # 这是我们写的正则表达式规则
pattern1 = re.compile(p1) # 我们在编译这段正则表达式
print(pattern1.findall(key)) # 查看下匹配到什么
newKey = re.sub(p1, "替换成的文本", key)
print("原文本:"+key)
print("新文本:"+newKey)
输出:
['hello world', 'hello wjs']
原文本:<html><body><h1>hello world</h1><h1>hello wjs</h1></body></html>
新文本:<html><body><h1>替换成的文本</h1><h1>替换成的文本</h1></body></html>