基于Scrapy-redis实现分布式爬虫
Scrapy是一个通用的爬虫框架,但其框架本身不支持分布式,为了提高爬取效率
① 充分利用多台机器的带宽速度爬取数据
② 充分利用多台机器的IP爬取
Python包要求:pymysql、redis、scrapy、re、urllib、json
Github地址:Lianjia_spider
Scrapy-Redis原理图
![1583298721355](https://raw.githubusercontent.com/GGGGeorge-gao/Lianjia_spider/master/Scrapy-redis原理图.png)
整体框架及逻辑
![1583298721355](https://raw.githubusercontent.com/GGGGeorge-gao/Lianjia_spider/master/%E6%B5%81%E7%A8%8B%E5%9B%BE.png)
爬虫及数据可视化分析及预测
1.Lianjia_spider文件夹
- Lianjia_spider:scrapy-redis爬虫
- spiders文件夹:爬虫主体