Python数据处理工具—去除TXT文件里面相同的数据

前言

        本次分享的是一个对TXT数据进行处理的一个小工具,功能如题,是把TXT里面相同的数据给清洗掉是剩下唯一的一个。

一、数据

 随便在文件里面写了一点数据,可以看到里面有很多重复的数据,那么里面重复的就是我们要进行清理的。

二、代码

1.实现代码

代码如下:

# 去除txt里面相同的数据
f_read = open(r'./需清理的TXT.txt', 'r', encoding='utf-8')  # 将需要去除重复值的txt文本输入
f_write = open(r'./需清理的TXT1.txt', 'w',encoding='utf-8')  # 去除重复值之后,生成新的txt文本 --“去除重复值后的文本.txt”,如果写入到原txt会把之前的数据覆盖
data = set()  # 创建一个存放数据的集合
for a in [a.strip('\n') for a in list(f_read)]:  # 把读取进来的数据变成列表,再逐个循环读取列表里面的数据(去除开头和结尾的换行)
    if a not in data:  # 判断循环的数据在不在集合里,不在就添加进集合
        data.add(a)
        f_write.write(a + '\n')
f_read.close()
f_write.close()
print('完成')

2.结果

可以看到相比于上面的数据,都保留下了唯一的数据,多余的数据都被清理掉了


总结

        整体代码实现还是比较简单的,用到的都是Python自带的一些方法。整体逻辑是读取文件→判断是否在集合里,不在就添加进集合→写入一个新的TXT文件。TXT用的是覆盖写入,会把之前写入的东西覆盖,所以只会保留最后一次集合的结果。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值