爬虫之Scrapy框架爬取彼岸壁纸案例分享
前段时间在网上看到有人爬取了彼岸壁纸的案例,由于爬取的图片较多,爬取速度感觉不快,所以就自己写了个Scrapy框架,个人觉得爬取速度快多了。
代码如下。
文章目录
一、建立Scrapy项目
在终端输入以下代码建立scrapy框架
scrapy startproject bianwallpaper
cd wallpaper
scrapy genspider bian netbian.com
二、建立启动文件start
建立启动文件的目的是为了避免繁琐的终端输入命令,提高效率
from scrapy import cmdline
cmdline.execute(['scrapy', 'crawl', 'bian'])
三、 设置settings
在settings文件中进行相关设置,以便顺利的爬取网站和使用管道
1.设置LOG_LEVELl等级并关闭ROBOTSTEXT协议,注意:必须全部为大写
2. 设置headers
3. 打开管道pipelines
四、在spiders中建立爬取逻辑
import scrapy
import os
class BianSpider(scrapy.Spider):
name = 'bian'
allowed_domains = ['netbian.com']
url = 'http://www.netbian.com/{}/index{}.htm'
category = ['rili', 'dongman', 'fengjing', 'meinv', 'youxi', 'yingshi', 'dongtai', 'weimei', 'sheji', 'keai', 'qiche', 'huahui', 'dongwu'