使用scrapy集成selenium爬取简书专题全部内容

一.使用普通selenium爬取简书专题

1.载入selenium对应的模块以及time模块
在这里插入图片描述

2.使用selenium登入简书url
在这里插入图片描述
3.等待显示更多刷新出来
在这里插入图片描述
4.重复点击显示更多1
在这里插入图片描述

5.获取全部专题内容并结束
在这里插入图片描述

二。使用scrapy集成selenium爬取简书专题

1.在middlewares新建一个类开启中间件

2.在middlewares中载入selenium相应的模块以及HtmlResponse模块
在这里插入图片描述

3.载入selenium谷歌浏览器驱动
在这里插入图片描述
4.selenium启动谷歌浏览器来浏览爬虫文件中想要浏览的网址
在这里插入图片描述

5.使用显示等待 等待加载成功
在这里插入图片描述

6.条件判断是否这个网页有展示更多 –(点击获取数据) –(直接获取数据)
在这里插入图片描述
7.把获取来的数据传入response 使中间件不去下载器而是直接返回1重点
在这里插入图片描述


  1. driver.page_spirce 可以在selenium获取网页源码 ↩︎ ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值