Python网络爬虫与信息提取（北京理工大学慕课）学习笔记4

最新推荐文章于 2021-06-29 21:30:03 发布

陆空生

最新推荐文章于 2021-06-29 21:30:03 发布

阅读量332

点赞数

分类专栏：学习笔记文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43754153/article/details/105611750

版权

学习笔记专栏收录该内容

14 篇文章 2 订阅

订阅专栏

Python网络爬虫与信息提取（基础篇四）

- Scrapy 爬虫框架

Scrapy 爬虫框架

Scrapy 爬虫框架介绍

pip install scrapy

爬虫框架：实现爬虫功能的一个软件结构和功能组件集合
爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫

Scrapy 爬虫框架解析

Engine:

控制所有模块之间的数据流
根据条件触发事件

Downloader

根据请求下载网页

Scheduler：

对所有爬取请求进行调度管理

Downloader Middleware
实施Engine, Scheduler和Downloader之间进行用户可配置的控制
修改，丢弃，新增请求或响应
用户可以编写配置代码

Spider

解析Downloader返回的响应(Response)
产生爬取项(scraped item)
产生额外的爬取请求(Request)

Item Pipelines

以流水线方式处理Spider产生的爬取项
由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
可能操作包括：清理，检验和查重爬取项中的HTML数据，将数据存储到数据库

Spider Middleware
对请求和爬取项的再处理
修改，丢弃，新增请求或爬取项
用户可以编写配置代码

requests库和Scrapy爬虫的比较

相同点：

都可以进行页面请求和爬取
可用性好
都没有处理js, 提交表单，应对验证码等功能（可扩展）

Scrapy爬虫的常用命令

命令	说明	格式
startproject	创建一个新工程	scrapy startproject <name>[dir]
genspider	创建一个爬虫	scrapy genspider [options] <name> <domain>
settings	获得爬虫配置信息	scrapy settings [options]
crawl	运行一个爬虫	scrapy crawl <spider>
list	列出工程中所有爬虫	scrapy list
shell	启动URL调试命令行	scrapy shell [url]

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。