python爬虫scrapy数据增量式爬取

最新推荐文章于 2024-07-28 15:46:11 发布

拒绝者zzzz

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量497

点赞数

本文链接：https://blog.csdn.net/weixin_46453301/article/details/106994849

版权

一、根据url判断

# -*- coding: utf-8 -*-
import scrapy
from redis import Redis
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from increment1.items import Increment1Item
"""
爬取过的数据跳过
1、通过url判断
2、通过数据指纹判断
"""


class FirstSpider(CrawlSpider):
    name = 'first'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.4567tv.tv/index.php/vod/show/id/7.html']

    rules = (
        Rule(LinkExtractor(allow=r'/index.php/vod/show/id/7/page/\d+\.html'), callback='parse_item', follow=True),
    )

    def parse_detail(self, response):
        item = response['item']
        actor = response.xpath('//div[@class="stui-content__detail"]/p[3]//text()'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

拒绝者zzzz

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬虫scrapy数据增量式爬取

一、根据url判断# -*- coding: utf-8 -*-import scrapyfrom redis import Redisfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom increment1.items import Increment1Item"""爬取过的数据跳过1、通过url判断2、通过数据指纹判断"""class F
复制链接

扫一扫