由于在python 爬虫过程中有爬取到重复的链接,并没有进行去重操作,故,这里再通过python自带的set再次进行去重一次。
下面是给出来的代码
# -*- coding: utf-8 -*-
# @Time : 2018/9/21 13:31
# @Author : 蛇崽
# @Email : 643435675@QQ.com
# @Site : http://www.ltc622.com/
# @File : get_only_teaminfo.py
# @Software: PyCharm 队员信息去重
import json
def read_json():
f = open('team_all2.json', encoding='utf-8')
link_datas = []
f2 = open('all_teaminfos.jason', 'a', encoding='utf-8')
while 1:
line = f.readline()
if not line:
break
jline = json.loads(line)
teamName = jline['teamName']
teamLink = jline['teamLink']
teamId = jline['teamId']
print('link ====== >>>> ', teamLink)
data = {
'teamName':teamName,
'teamLink':teamLink,
'teamId':str(teamId),
}
data = json.dumps(data, ensure_ascii=False)
link_datas.append(data)
link_datas_final = set(link_datas)
for data in link_datas_final:
print(data)
f2.write(data+'\n')
f2.close()
if __name__ == '__main__':
read_json()
说下主要思路:主要是把一个list放进到set里面,然后取出来,便是已经去重过的数据了。
--------------------------------------- 下面是广告 ------------------------------------------------
个人微信:hll643435675(备注:博客)
更多资源请访问:
https://blog.csdn.net/xudailong_blog/article/details/78762262
欢迎光临我的小网站:http://www.00reso.com
欢迎光临这个妹子的SEO优化网站:http://www.ltc622.com/
陆续优化中,后续会开发更多更好玩的有趣的小工具
--------------------------------------- 上面是广告 ------------------------------------------------