python遍历读取txt文件夹,正则匹配获取目标字段,去除重复写入txt文档

  • 思路:首先遍历循环文件夹,输出地址判断是否读对了文件,读取出文件中的内容,用正则匹配的模式匹配匹配出对应的字段,将两个匹配出来的列表字段合并,去重,写入目标文件夹中。
import re # 导入正则包
import os

path = "D:\腾讯QQ\QQ下载\资源"  # 文件夹目录
files = os.listdir(path) # 读取文件夹目录
allresult = [] # 定义空列表
for file in files:  # 遍历文件夹
    position = path + '\\' + file  # 构造绝对路径,"\\",其中一个'\'为转义符
    print(position)
    f = open(position, "r", encoding='utf-8')  # 设置文件对象
    data = f.readlines()  # 直接将文件中按行读到list里,效果与方法2一样
    pattern = re.compile('rsas_.\S*') # 匹配从rsas开始,到空格处结束的内容
    result = pattern.findall(str(data)) # 模式匹配方法,找到所有模式为pattern的字段
    pattern2 = re.compile('RSAS_.\S*')
    result2 = pattern2.findall(str(data))
    allresult = allresult + result + result2 # 两个模式为去除来的列表合并
    f.close() # 关闭数据流
print(set(allresult)) # 字段去重
file = open('D:\腾讯QQ\QQ下载\表--多条去除.txt', 'w', encoding='utf-8')
file.write(str(set(allresult))) # 将文件写入目标文件夹
file.close() # 关闭数据流
  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值