python去重

最新推荐文章于 2024-04-25 19:15:00 发布

xudailong_blog

最新推荐文章于 2024-04-25 19:15:00 发布

阅读量868

点赞数

分类专栏： # python3爬虫 python3基础文章标签： json python去重 json去重数据去重

本文链接：https://blog.csdn.net/xudailong_blog/article/details/82891287

版权

python3爬虫同时被 2 个专栏收录

56 篇文章 2 订阅

订阅专栏

python3基础

8 篇文章 0 订阅

订阅专栏

由于在python 爬虫过程中有爬取到重复的链接，并没有进行去重操作，故，这里再通过python自带的set再次进行去重一次。

下面是给出来的代码


# -*- coding: utf-8 -*-

# @Time    : 2018/9/21 13:31
# @Author  : 蛇崽
# @Email   : 643435675@QQ.com
# @Site    : http://www.ltc622.com/
# @File    : get_only_teaminfo.py
# @Software: PyCharm 队员信息去重
import json


def read_json():
    f = open('team_all2.json', encoding='utf-8')
    link_datas = []
    f2 = open('all_teaminfos.jason', 'a', encoding='utf-8')
    while 1:
        line = f.readline()
        if not line:
            break
        jline = json.loads(line)
        teamName = jline['teamName']
        teamLink = jline['teamLink']
        teamId = jline['teamId']
        print('link  ======   >>>>   ', teamLink)
        data = {
            'teamName':teamName,
            'teamLink':teamLink,
            'teamId':str(teamId),
        }
        data = json.dumps(data, ensure_ascii=False)
        link_datas.append(data)

    link_datas_final = set(link_datas)
    for data in link_datas_final:
        print(data)
        f2.write(data+'\n')
    f2.close()
if __name__ == '__main__':
    read_json()

说下主要思路：主要是把一个list放进到set里面，然后取出来，便是已经去重过的数据了。

--------------------------------------- 下面是广告 ------------------------------------------------

个人微信：hll643435675（备注：博客）

欢迎光临我的小网站：http://www.00reso.com

欢迎光临这个妹子的SEO优化网站：http://www.ltc622.com/

陆续优化中，后续会开发更多更好玩的有趣的小工具

--------------------------------------- 上面是广告 ------------------------------------------------

xudailong_blog

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python去重

由于在python 爬虫过程中有爬取到重复的链接，并没有进行去重操作，故，这里再通过python自带的set再次进行去重一次。下面是给出来的代码# -*- coding: utf-8 -*-# @Time : 2018/9/21 13:31# @Author : 蛇崽# @Email : 643435675@QQ.com# @Site : http://www...
复制链接

扫一扫