链接提取器CrawlSpider的使用

此文章以我的另一篇关于数据采集与存储的案例为例写了CrawlSpider的部分功能。

一、创建爬虫项目

(1)使用win+r输入cmd打开windows终端
(2)使用cd命令进入到想要创建爬虫项目的文件夹
(3)创建项目
scrapy startproject 项目名称
(4)cd命令进入spiders文件夹下
cd \项目的名字\项目的名字\spiders
(5)创建爬虫类
scrapy genspider -t crawl 爬虫文件的名字 要爬虫网页的网址

二、观察要爬取网页的地址

https://top.zol.com.cn/compositor/57/manu_1795.html
https://top.zol.com.cn/compositor/57/manu_1673.html
https://top.zol.com.cn/compositor/57/manu_613.html
https://top.zol.com.cn/compositor/57/manu_50840.html

地址如上所示,均为
https://top.zol.com.cn/compositor/57/manu_编号.html
的结构

三、编写正则参数

进入spiders文件夹下的爬虫文件中修改如下所示

    rules = (
        Rule(LinkExtractor(allow=r'/57/manu_\d+.html'),
                        callback='parse_item',
                        follow=True),
    )

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值