回顾前面的爬虫流程
常规(蓝色窗口)
最开始的时候必须要有url地址,然后发送请求获取响应,提取数据,保存数据
偶尔(红色窗口)
我们需要从响应中提取url地址,然后重新对它发送请求获取响应
- requests模块:重新对这个url地址发送请求获取响应
- selenium模块:点击一下某个按钮
另一种形式的爬虫流程
1.我们现在不再把url地址放在列表中,而是放在队列中
2.发送请求获取响应
3.对响应进行处理
- 3.1提取数据,将数据放在数据队列中
- 3.2提取url地址,将url地址放在url队列中
4.数据队列,数据保存
scarpy的工作流程
那么scrapy是如何帮助我们抓取数据的呢?