链接提取器CrawlSpider的使用

学习BigData

已于 2024-03-25 19:05:46 修改

阅读量433

点赞数

分类专栏： Python scrapy爬虫文章标签： python 爬虫开发语言

于 2022-12-09 14:55:41 首次发布

本文链接：https://blog.csdn.net/weixin_52010459/article/details/128252397

版权

Python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

scrapy爬虫

3 篇文章 0 订阅

订阅专栏

此文章以我的另一篇关于数据采集与存储的案例为例写了CrawlSpider的部分功能。

一、创建爬虫项目

（1）使用win+r输入cmd打开windows终端

（2）使用cd命令进入到想要创建爬虫项目的文件夹

（3）创建项目

scrapy startproject 项目名称

（4）cd命令进入spiders文件夹下

cd \项目的名字\项目的名字\spiders

（5）创建爬虫类

scrapy genspider -t crawl 爬虫文件的名字 要爬虫网页的网址

二、观察要爬取网页的地址

https://top.zol.com.cn/compositor/57/manu_1795.html
https://top.zol.com.cn/compositor/57/manu_1673.html
https://top.zol.com.cn/compositor/57/manu_613.html
https://top.zol.com.cn/compositor/57/manu_50840.html
…
地址如上所示，均为
https://top.zol.com.cn/compositor/57/manu_编号.html
的结构

三、编写正则参数

进入spiders文件夹下的爬虫文件中修改如下所示

    rules = (
        Rule(LinkExtractor(allow=r'/57/manu_\d+.html'),
                        callback='parse_item',
                        follow=True),
    )