Python_正则表达式匹配Word文档

使用正则表达式匹配Word文档中的所有字符

1、原文内容如下:

在这里插入图片描述

2、期望得到的结果:

在这里插入图片描述

3、源码:

// 
from docx import Document
import re

pattern = re.compile("\d{6}[\u4e00-\u9fff]+") # 正则表达式
# pattern = re.compile("\d{6}[^A-Za-z0-9\!\%\[\]\,\。]+")
doc = Document('./地区码.docx') # 原文件
fo = open('id_area.txt', 'a') # 保存的文件,
for i in doc.paragraphs:# 读取所有的段落
    st = pattern.findall(i.text)# 按正则表达式匹配区号和地名
    for t in st: # 遍历分离的区号和地名
        # print(t)
        txt = t[:6] + ',' + t[6:] + '\n' # 在区号和地名间加上逗号和换行符。
        fo.writelines(txt)# 写入文件
fo.close()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值