爬取贝壳和房天下——北京二手房在售和已成交百万级别数据(附详细思路和部分源码)
前言
在港校做RA期间,本周老师安排了爬取国内二手房的交易网站,我先调研对比了各平台,之后选取了房天下和贝壳的数据进行爬取
贝壳
房天下
因课题保密的要求,数据和完整代码无法分享,如果有需要的朋友或老师可以联系我个人微信(liguopingHNU)进行定制化爬取数据
提示:以下是本篇文章正文内容,思路和代码可供参考
文章目录前言一:爬取目标二:网页结构的分析2.1 网站首页2.2 使用selenium访问2.3 多线程加快爬取速度2.4 注册bug2.5 使用request带cookies访问三.问题记录
原创
2020-12-20 22:11:54 ·
1584 阅读 ·
3 评论