实现增量式爬虫

最新推荐文章于 2024-03-30 21:05:03 发布

荒城以北

最新推荐文章于 2024-03-30 21:05:03 发布

阅读量1.2k

点赞数

分类专栏： scrapy框架

本文链接：https://blog.csdn.net/weixin_44090435/article/details/86601329

版权

scrapy框架专栏收录该内容

13 篇文章 0 订阅

订阅专栏

后续技术类文档更新到微信公众号-------->>喜欢的扫码关注

在这里插入图片描述

scrapy流程的新理解

start_urls谁构造的请求？

 def start_requests(self):
     for url in self.start_urls:
         yield Request(url, dont_filter=True)

当爬虫开始运行时，首先引擎会调用爬虫类的start_requests()方法将start_urls列表中的所有url构造成请求对象，放入请求队列
start_requests()方法yield的请求，不经过爬虫中间件，不过滤域名是否超出allowed_domains

是不是所有的请求，放入调度器之前，都会经过爬虫中间件？

start_urls构造的请求不经过
下载器中间件返回的request请求不经过

scrapy之模拟登陆

携带Cookie

def start_requests(self):
     for url in self.start_urls:
         yield Request(url, dont_filter=True,cookies=cookie_dict)

发送post请求

yield scrapy.FormRequest(
            url="https://github.com/session",
            formdata=formdata,
            callback=self.parse_login
        )

form表单请求

formdata = {
            "login": "noobpythoner",
            "password": "zhoudawei123"
        }
# 发送请求
yield scrapy.FormRequest.from_response(
        response,
        formdata=formdata,
        callback=self.parse_login
    )

scrapy_redis

pip install scrapy_redis

scrapy_reids 只是scrapy的一个组件

增量式爬虫，请求持久化，下次接着爬取
分布式爬虫，reids共享

实现增量式爬虫

在settings.py中添加如下代码

# 指定了去重的类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 指定了调度器的类
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 调度器的内容是否持久化
SCHEDULER_PERSIST = True

# redis的url
REDIS_URL = "redis://127.0.0.1:6379"

# 如果数据需要保存到redis中，选配的
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

生成指纹

RFPDupeFilter.py

 def request_seen(self, request):
        """
        生成请求指纹，并判断请求在不在指纹集合中
        如果返回True，表示已经放入请求队列中了
        返回False，表示该请求还未做过
        """
        fp = self.request_fingerprint(request) #生成指纹
        # This returns the number of values added, zero if already exists.
        # 尝试将指纹放入指纹集合中，如果返回值为0，代表已经存在
        added = self.server.sadd(self.key, fp)
        return added == 0

def request_fingerprint(request):
    """
    对请求生成指纹，利用hashlib的sha1对象，对request的url、method、body进行哈希，会产生一个40位16进制的字符串，作为request的指纹
    """
    fp = hashlib.sha1()
    fp.update(to_bytes(request.method))
    fp.update(to_bytes(canonicalize_url(request.url)))
    fp.update(request.body or b'')
    return fp.hexdigest()

进入队列

def enqueue_request(self, request):
    if not request.dont_filter and self.df.request_seen(request):
        return False
     self.queue.push(request)
     return True