检查word文档的连续重复字,例如“用户的的资料”或“需要需要用户输入”之类的情况。Word测试文档的内容由学生决定。
import re
# 导入正则的一个模板
from docx import Document
# 导入一个模板,来使用doc文件
doc =Document('testdoc.docx')
text = ''.join( (p.text for p in doc.paragraphs) )
# 把内容放到text里面
result = re.findall(r'(([\u4e00-\u9fa5、!:;,]).?\2)',text)
# 写一个正则来判断是否是重复的词
for word in result:
print(word[0])