多进程+多线程爬取链家武汉二手房价
因为数据分析的需要,就写了爬取链家武汉的数据.因为用scrapy框架感觉太慢了,就自己写了个多进程同步执行的代码.1.数据量:20000+2.程序环境:Python3.6--->用的Anaconda的环境, Spyder3.数据提取的方式:xpath代码的思路是: 因为链家对待爬虫是比较宽容的,因此大家爬取的时候还是要控制一下访问时间间隔和访问进程数.在链家的网站里,在总览界面,会有1...
原创
2018-05-07 20:17:08 ·
741 阅读 ·
0 评论