一.使用普通selenium爬取简书专题
1.载入selenium对应的模块以及time模块
2.使用selenium登入简书url
3.等待显示更多刷新出来
4.重复点击显示更多1
5.获取全部专题内容并结束
二。使用scrapy集成selenium爬取简书专题
1.在middlewares新建一个类开启中间件
2.在middlewares中载入selenium相应的模块以及HtmlResponse模块
3.载入selenium谷歌浏览器驱动
4.selenium启动谷歌浏览器来浏览爬虫文件中想要浏览的网址
5.使用显示等待 等待加载成功
6.条件判断是否这个网页有展示更多 –有(点击获取数据) –无(直接获取数据)
7.把获取来的数据传入response 使中间件不去下载器而是直接返回1(重点)