Python scrapy爬取图片管道重温之爬取唯美壁纸

最新推荐文章于 2022-03-13 15:24:54 发布

Sound_of_ Silence

最新推荐文章于 2022-03-13 15:24:54 发布

阅读量219

点赞数

分类专栏： Python request Scrapy

本文链接：https://blog.csdn.net/weixin_44521703/article/details/100552503

版权

Python 同时被 3 个专栏收录

92 篇文章 6 订阅

订阅专栏

request

16 篇文章 0 订阅

订阅专栏

Scrapy

3 篇文章 0 订阅

订阅专栏

本文重温了使用Scrapy爬取图片的过程，特别是rules的用法，揭示了它可以用于抓取下级页面的链接。通过调整规则顺序，实现了从主页面到下级页面的深度爬取。在最终页面中提取URL，通过图像管道下载并存储图片。设置包括修改User-Agent和启用图像管道。经过实践，成功爬取了enterdesk网站的唯美壁纸。

摘要由CSDN通过智能技术生成

重温了一下爬取图片的管道，同时发现了-t crawl格式的新用法，特意记录下来，爬取网站是 enterdesk。

说道新用法，主要是rules的用法，之前一直以为rule只能管理当前页，不能提取下级下下级的链接，还是 too young, sometimes naive, 嘿嘿。

rules是可以支持下级页面的爬取的，但是建议将主页面放在最下，次级页面次之，最下级页面最上，也就是反过来排序，如下面的代码。
当前我们只需要在最下级页面中提取url字段并拿给图像管道，因此，只需要一个parse函数即可。

爬虫文件

# -*- coding: utf-8 -*-
import scrapy

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ..items import Wallpaper2Item


class PrettySpider(CrawlSpider):
    name = 'pretty'
    allowed_domains = ['www.enterdesk.com']
    start_urls = ['https://www.enterdesk.com/special/wmtp/']

    rules = (
        Rule(LinkExtractor(allow=r'//www\.enterdesk\.com/download/\d+-\d+/'), callback='parse_item', follow=False),
        # 下载页找图片地址，需要解析callback
        Rule(LinkExtractor(allow=r'/bizhi/\d+-\d+\.html'), follow=True),
        # # 详情页找下载页，不需要callback
        Rule(LinkExtractor(allow=r'https://www\.enterdesk\.com/bizhi/\d+.html'), follow=True),
        # 详情页，不需要callback
    )



    def parse_item(self, response):
        item = Wallpaper2Item()
        item['image_urls'] = response.xpath('//img[@id="down_main_pic"]/@src').extract()
        print(item)
        yield item

setting中需要修改一下ua，以及开启图像管道，存储图像的位置

LOG_LEVEL = "WARNING"
DOWNLOAD_DELAY = 2
ITEM_PIPELINES = {
   # 'wallpaper2.pipelines.Wallpaper2Pipeline': 300,
    'scrapy.pipelines.images.ImagesPipeline':300,
    # from scrapy.pipelines.images import ImagesPipeline 可以这样找imagespipeline的位置
}

IMAGES_STORE = 'img'

items中开启

import scrapy


class Wallpaper2Item(scrapy.Item):
    # define the fields for your item here like:
    image_urls = scrapy.Field()
    images = scrapy.Field()

无需更多定制即可开爬，结果如下：
在这里插入图片描述

Sound_of_ Silence

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python scrapy爬取图片管道重温之爬取唯美壁纸

重温了一下爬取图片的管道，同时发现了-t crawl格式的新用法，特意记录下来，爬取网站是 enterdesk。说道新用法，主要是rules的用法，之前一直以为rule只能管理当前页，不能提取下级下下级的链接，还是 too young, sometimes naive, 嘿嘿。rules是可以支持下级页面的爬取的，但是建议将主页面放在最下，次级页面次之，最下级页面最上，也就是反过来排序，如下面...
复制链接

扫一扫

专栏目录