基于Scrapy-redis实现分布式爬虫与热力图分析及KNN算法的预测
基于Scrapy-redis实现分布式爬虫
Scrapy是一个通用的爬虫框架,但其框架本身不支持分布式,为了提高爬取效率
① 充分利用多台机器的带宽速度爬取数据
② 充分利用多台机器的IP爬取
Python包要求:pymysql、redis、scrapy、re、urllib、json
Github地址:Lianjia_spider
Scrapy-Redis原理图
整体框架及逻辑
爬虫及数据...
原创
2020-03-04 14:01:48 ·
348 阅读 ·
0 评论