scrapy 提取图片与信息（自定义管道）

最新推荐文章于 2023-11-14 12:54:08 发布

wtftx

最新推荐文章于 2023-11-14 12:54:08 发布

阅读量844

点赞数

分类专栏： scrapy 框架

本文链接：https://blog.csdn.net/wtftx/article/details/90266982

版权

利用 scrapy 框架提取图片以及有用的信息：
python 3.7
scrapy 1.6
豆瓣top250电影

scrapy的管道文件（pipelines）：

pipelines: 在一个工程里面，在pipelines.py文件中定义管道，管道实际上就是一个类，而这个类定义了一些方法（属性），用来处理我们传进类（管道）中的数据，在处理完以后，再返回被处理以后的数据。多个管道合用，首先是将一个数据先后传进多个管道中处理，最后输出数据。

用scrapy爬取豆瓣top250电影的影名，导演等信息还有海报（图片，需要下载），要处理文本和图片，就需要用到两个管道，图片处理管道MypipeimageslinePipeline和文本处理管道MyitemPipeline

首先是定义items

import scrapy

class Douban250Item(scrapy.Item):
    title = scrapy.Field()
    rank = scrapy.Field()
    grade = scrapy.Field()
    quote = scrapy.Field()

    director = scrapy.Field()
    star = scrapy.Field()
    desc = scrapy.Field()

    douban_images = scrapy.Field()
    douban_image_urls = scrapy.Field()
    image_paths = scrapy.Field()

pipelines

import codecs
import scrapy
from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem

class Douban250Pipeline(object):

    def __init__(self):
        print('starting')
        self.file = codecs.open('douban_movie.csv', 'wb', encoding='

最低0.47元/天解锁文章

wtftx

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
scrapy 提取图片与信息（自定义管道）

利用 scrapy 框架提取图片以及有用的信息：python 3.7scrapy 1.6豆瓣top250电影scrapy的管道文件（pipelines）：pipelines: 在一个工程里面，在pipelines.py文件中定义管道，管道实际上就是一个类，而这个类定义了一些方法（属性），用来处理我们传进类（管道）中的数据，在处理完以后，再返回被处理以后的数据。多个管道合用，首先是将一个数...
复制链接

扫一扫