python网络爬虫（五）

最新推荐文章于 2024-07-10 09:15:55 发布

水州寒

最新推荐文章于 2024-07-10 09:15:55 发布

阅读量147

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_44031088/article/details/91619446

版权

9 篇文章 0 订阅

订阅专栏

Scrapy爬虫框架结构

在这里插入图片描述

根据请求下载网页
不需要用户修改

对所有爬取请求进行调度管理
不需要用户修改

目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制
功能：修改、丢弃、新增请求或响应
用户可以编写配置代码

目的：对请求和爬取项的再处理
功能：修改、丢弃、新增请求或爬取项
用户可以编写配置代码

两者都可以进行页面请求和爬取，python爬虫的两个重要技术路线
两者可用性都好，文档丰富，入门简单
两者都没有处理js、提交表单、应对验证码等功能（可扩展）

在这里插入图片描述

命令	说明	格式
startproject	创建一个新工程	scrapy startproject < name >[dir]
genspider	创建一个爬虫	scrapy genspider [options] < name > < domain >
crawl	运行一个爬虫	scrapy crawl < spider >
settings	获得爬虫配置信息	scrapy settings [options]
list	列出工程中所有爬虫	scrapy list
shell	启动URL调试命令行	scrapy shell [url]

步骤1：建立一个Scrapy爬虫工程
选取一个目录（D：\pycodes\），然后执行如下命令：

D:\pycodes>scrapy startproject python123demo

工程目录
在这里插入图片描述

步骤2：在工程中产生一个Scrapy爬虫
进入工程目录（D：\pycodes\python123demo）,然后执行如下命令：

D:\pycodes\python123demo>scrapy genspider demo python123.io

该命令作用：

D:\pycodes\python123demo>scrapy crawl demo

demo爬虫被执行，捕获页面存储在demo.html

关注