scrapy 爬取图片

本文档介绍了如何使用Scrapy框架抓取煎蛋网动物区的图片。配置包括在settings.py中设置参数,items.py定义字段,并解决ImagesPipeline在处理重定向时的错误。在settings.py中添加MEDIA_ALLOW_REDIRECTS=True以允许重定向,确保图片成功下载。
摘要由CSDN通过智能技术生成

记录一下scrapy 框架爬取静态网页图片方法
爬取网站 煎蛋网动物区

  1. settings.py 之中进行设置
BOT_NAME = 'pictures'

SPIDER_MODULES = ['pictures.spiders']
NEWSPIDER_MODULE = 'pictures.spiders'

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 1.5

ITEM_PIPELINES = {
   'scrapy.pipelines.images.ImagesPipeline': 1}
#ITEM_PIPELINES = {'scrapy.pipelines.files.FilesPipeline': 1}

# IMAGES_STORE = '/path/to/valid/dir'
IMAGES_STORE = 'D:/scrapy/images'

# 自定义名称,不设置的话items.py 要使用默认keys (images, image_urls)
IMAGES_URLS_FIELD = 'custom_image_urls'
IMAGES_RESULT_FIELD = 'custom_images'
  1. items.py 进行设置,注意setting.py 中images, image_urls field名字与items定义相同。
import scrapy

class PicturesItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # by default: image_urls images
    custom_image_urls = scrapy.Field()
    custom_images = scrapy.Field()

如果不在items中进行定义,可以省略settings.py 中最后两行 默认为如下

# 这两行可以与items.py一起省略<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值