爬虫之Scrapy框架爬取彼岸壁纸案例分享

最新推荐文章于 2022-07-27 20:53:02 发布

马踏流星

最新推荐文章于 2022-07-27 20:53:02 发布

阅读量644

点赞数

分类专栏：爬虫案例分享文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_49069669/article/details/115563054

版权

爬虫之Scrapy框架爬取彼岸壁纸案例分享

前段时间在网上看到有人爬取了彼岸壁纸的案例，由于爬取的图片较多，爬取速度感觉不快，所以就自己写了个Scrapy框架，个人觉得爬取速度快多了。
代码如下。

文章目录

爬虫之Scrapy框架爬取彼岸壁纸案例分享
一、建立Scrapy项目
二、建立启动文件start
三、设置settings
四、在spiders中建立爬取逻辑
五、在管道pipelines中保存图片
结果展示
总结

一、建立Scrapy项目

在终端输入以下代码建立scrapy框架

scrapy startproject bianwallpaper
cd wallpaper
scrapy genspider bian netbian.com

二、建立启动文件start

建立启动文件的目的是为了避免繁琐的终端输入命令，提高效率

from scrapy import cmdline

cmdline.execute(['scrapy', 'crawl', 'bian'])

三、设置settings

在settings文件中进行相关设置，以便顺利的爬取网站和使用管道
1.设置LOG_LEVELl等级并关闭ROBOTSTEXT协议，注意：必须全部为大写

在这里插入图片描述
2. 设置headers

3. 打开管道pipelines

四、在spiders中建立爬取逻辑

import scrapy
import os


class BianSpider(scrapy.Spider):
    name = 'bian'
    allowed_domains = ['netbian.com']
    url = 'http://www.netbian.com/{}/index{}.htm'
    category = ['rili', 'dongman', 'fengjing', 'meinv', 'youxi', 'yingshi', 'dongtai', 'weimei', 'sheji', 'keai', 'qiche', 'huahui', 'dongwu'