此文章以我的另一篇关于数据采集与存储的案例为例写了CrawlSpider的部分功能。
一、创建爬虫项目
(1)使用win+r输入cmd打开windows终端
(2)使用cd命令进入到想要创建爬虫项目的文件夹
(3)创建项目
scrapy startproject 项目名称
(4)cd命令进入spiders文件夹下
cd \项目的名字\项目的名字\spiders
(5)创建爬虫类
scrapy genspider -t crawl 爬虫文件的名字 要爬虫网页的网址
二、观察要爬取网页的地址
https://top.zol.com.cn/compositor/57/manu_1795.html
https://top.zol.com.cn/compositor/57/manu_1673.html
https://top.zol.com.cn/compositor/57/manu_613.html
https://top.zol.com.cn/compositor/57/manu_50840.html
…
地址如上所示,均为
https://top.zol.com.cn/compositor/57/manu_编号.html
的结构
三、编写正则参数
进入spiders文件夹下的爬虫文件中修改如下所示
rules = (
Rule(LinkExtractor(allow=r'/57/manu_\d+.html'),
callback='parse_item',
follow=True),
)