简析selenium和scrapy对接

最新推荐文章于 2024-05-31 21:24:28 发布

「已注销」

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量1.7k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ytyckjh/article/details/99009997

版权

selenium和 Scrapy对接爬取某些需要动态加载的页面,使用selenium模块是诸多方法中的一个,直接使用selenium模块并不复杂,在Scrapy框架下依然可以使用该模块解决动态加载的问题.首先再熟悉下流程 Scrapy的基本流程图如下引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。调度器(用来接受引擎发过来的请求, 压入队列中, 并在引擎...

摘要由CSDN通过智能技术生成

selenium和 Scrapy对接

爬取某些需要动态加载的页面,使用selenium模块是诸多方法中的一个,直接使用selenium模块并不复杂,
在Scrapy框架下依然可以使用该模块解决动态加载的问题.

首先再熟悉下流程

Scrapy的基本流程图如下

在这里插入图片描述

引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。
调度器(用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回.
用于下载网页内容, 并将网页内容返回给EGINE
SPIDERS用来解析responses，并且提取items，或者发送新的请求
管道在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作
下载器中间件位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，
爬虫中间件位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）

基本思路

直接解析接受动态加载页面的响应,无法获得预期的数据,所以我们可以在下载中间件中拦截该响应,并篡改响应,从而获取我们想要的数据.

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
简析selenium和scrapy对接

selenium和 Scrapy对接爬取某些需要动态加载的页面,使用selenium模块是诸多方法中的一个,直接使用selenium模块并不复杂,在Scrapy框架下依然可以使用该模块解决动态加载的问题.首先再熟悉下流程 Scrapy的基本流程图如下引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。调度器(用来接受引擎发过来的请求, 压入队列中, 并在引擎...
复制链接

扫一扫

「已注销」

博客等级

码龄5年

15
原创

4
点赞

24
收藏

3
粉丝

关注

私信

热门文章

最新评论

Scrapy 与 Django 交互
o_spider_o: 请问items中导入APP，运行的时候提示没有APP怎么回事啊？
简析selenium和scrapy对接
吴法吴天的吴: 模块早就有了以前爬过淘宝不知道为什么卡住了
简析selenium和scrapy对接
吴法吴天的吴: 波波老师的网易新闻爬取那一集吗？我按照你的代码走了一次我的显示没有selenium module 不知道啥情况 exe文件已经放在scrapy文件里面了
git基本操作
好想叫你宝贝可是我打不过你老公: 牛逼！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。