scrapy 爬取图片

最新推荐文章于 2024-07-23 11:34:57 发布

wtftx

最新推荐文章于 2024-07-23 11:34:57 发布

阅读量520

点赞数

分类专栏： scrapy 框架文章标签： scrapy imagepipeline

本文链接：https://blog.csdn.net/wtftx/article/details/90112477

版权

本文档介绍了如何使用Scrapy框架抓取煎蛋网动物区的图片。配置包括在settings.py中设置参数，items.py定义字段，并解决ImagesPipeline在处理重定向时的错误。在settings.py中添加MEDIA_ALLOW_REDIRECTS=True以允许重定向，确保图片成功下载。

摘要由CSDN通过智能技术生成

记录一下scrapy 框架爬取静态网页图片方法
爬取网站煎蛋网动物区

settings.py 之中进行设置

BOT_NAME = 'pictures'

SPIDER_MODULES = ['pictures.spiders']
NEWSPIDER_MODULE = 'pictures.spiders'

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 1.5

ITEM_PIPELINES = {
   'scrapy.pipelines.images.ImagesPipeline': 1}
#ITEM_PIPELINES = {'scrapy.pipelines.files.FilesPipeline': 1}

# IMAGES_STORE = '/path/to/valid/dir'
IMAGES_STORE = 'D:/scrapy/images'

# 自定义名称，不设置的话items.py 要使用默认keys （images, image_urls)
IMAGES_URLS_FIELD = 'custom_image_urls'
IMAGES_RESULT_FIELD = 'custom_images'

items.py 进行设置，注意setting.py 中images, image_urls field名字与items定义相同。

import scrapy

class PicturesItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # by default: image_urls images
    custom_image_urls = scrapy.Field()
    custom_images = scrapy.Field()

如果不在items中进行定义，可以省略settings.py 中最后两行默认为如下

# 这两行可以与items.py一起省略<

最低0.47元/天解锁文章

wtftx

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录