python 文本去重 排序

文本:

每行在promotion后面包含一些数字,如果这些数字是相同的,则认为是相同的行,对于相同的行,只保留一行。

思路:

根据字典和字符串切割。

建立一个空字典。

读入文本,并对每行切割前半部分,在读入文本的过程中循环在这个字典中查找,如果没找到,则写入该行到字典。否则,则表示该行已经被写入过字典了(即出现重复的行了),不再写入字典,这就实现了对于重复的行只保留一行的目的。

文本如下:

1
2
3
4
5
6
7
8
9
10
/promotion/232,   utm_source
/promotion/237 ,  LandingPage/borrowExtend/? ;
/promotion/25113, LandingPage/mhd
/promotion/25113, LandingPage/mhd
/promotion/25199, com/LandingPage
/promotion/254  , LandingPage/mhd/mhd4/? ;
/promotion/259  , LandingPage/ydy/? ;
/promotion/25113, LandingPage/mhd
/promotion/25199 ,com/LandingPage
/promotion/25199, com/LandingPage


程序如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
listfile =[]
listson =[]
lista =[]
listrenew = []
with open("G:\\python\\PycharmProjects\\spider\\tempdata.csv", 'r') as listfile:
    # print(type(temp),temp)
    for i in listfile:
         # print(i)
         listson=i.split(",")
         lista.append(listson)
         # print(lista)
listfile.close()
for i in lista:
     if i not in listrenew:
         listrenew.append(i)
# print(listrenew)
 
#  这里是打印了不重复的行(重复的只打印一次),实际再把这个结果写入文件就可以了,
#  就不写这段写入文件的代码了


1,X.lab中的文件内容如下:

     hello,world

     ni,hao

     bu,hao

     hai,hai

     no,no

排序后的内容如下:

     bu,hao

     hai,hai

     hello,world

     ni,hao

     no,no

基本思想:先将文件内容读取到列表中,在列表中进行排序,再从列表中将排好序的元素写进该文件中

[python]  view plain  copy
  1. #!/usr/bin/env python  
  2. #Filename:sortForFile  
  3. f=open('/home/sundy/X.lab')  
  4. result= []  
  5. iter_f=iter(f) #用迭代器循环访问文件中的每一行  
  6. for line in iter_f:  
  7.     result.append(line)  
  8. f.close()  
  9. result.sort()  
  10. f=open('/home/sundy/X.lab','w')  
  11. f.writelines(result)  
  12. f.close()  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值