简单的scrapy去重过滤器

最新推荐文章于 2024-03-20 15:37:43 发布

《落神》

最新推荐文章于 2024-03-20 15:37:43 发布

阅读量593

点赞数 1

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zuo199606184810/article/details/88633985

版权

爬虫专栏收录该内容

37 篇文章 4 订阅

订阅专栏

当爬虫爬到的数据有重复，需要去重时，可以进行如下简单操作。

一个用于去重的过滤器，丢弃那些已经被处理过的item。让我们假设我们的item有一个唯一的id，但是我们spider返回的多个item中包含有相同的id:

from scrapy.exceptions import DropItem
 
class DuplicatesPipeline(object):
 
    def __init__(self):
        self.ids_seen = set()
 
    def process_item(self, item, spider):
        if item['id'] in self.ids_seen:
            raise DropItem("Duplicate item found: %s" % item)
        else:
            self.ids_seen.add(item['id'])
            return item

《落神》 CSDN认证博客专家 CSDN认证企业博客

码龄6年

72: 原创

6万+: 周排名

204万+: 总排名

13万+: 访问

: 等级

1494: 积分

80: 粉丝

25: 获赞

14: 评论

127: 收藏

私信

关注

热门文章

分类专栏

验证码付费 3篇
爬虫 37篇
应用工具 9篇
自动化工具 12篇
python语法 19篇
项目部署 4篇
数据库 8篇
代理 1篇
前端 1篇

最新评论

爬取西瓜视频影视分类
2301_79877829: # -*- coding: utf-8 -*- import scrapy import json import xlwt import datetime from ..items import XiguaspiderItem # https://www.ixigua.com/api/pc/feed/?min_behot_time=0&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A1356CB8354CB7B&cp=5C85ECBB27BB0E1&_signature=ojnZNhAa.ssIFpm2yASWDqI52S # https://www.ixigua.com/api/pc/feed/?max_behot_time=1552274468&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A1157C68A5DD8CE&cp=5C85EDA82C2E5E1&_signature=ojnZNhAa.ssIFpm2yAQSOKI52S """ 西瓜视频：xigua """ class XiguaSpider(scrapy.Spider): name = 'xigua' allowed_domains = ['ixigua.com'] start_urls = ['https://www.ixigua.com/api/pc/feed/?min_behot_time=0&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A1153CD8459DA0F&cp=5C85ED8AE0BF1E1&_signature=ojnZNhAa.ssIFpm2yASWDqI52S'] doc_url = 'https://www.ixigua.com/api/pc/feed/?max_behot_time={}&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A185AC288847AA0&cp=5C88172A3A40AE1&_signature=YaQQuxAbPTDLi1A75tbnUmGkEK' base_url = 'https://www.ixigua.com' custom_settings &#
爬虫---ins注册脚本
《落神》: 可以，需要能收到验证码的邮箱
爬虫---ins注册脚本
2301_79589025: 可以邮箱批量注册ins账号吗？
爬虫---ins注册脚本
Fan0908: 已私信您，期待回复。
记录：selenium点击“下一页”或“继续阅读”出现的错误以及解决方式
焗芋安: 期待新的解决方法

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。