Python爬虫三:抓取链家已成交二手房信息(58W数据)

环境:Windows7+python3.6+Pycharm2017

目标:抓取链家北京地区已成交二手房信息(无需登录),如下图,户型、朝向、成交时间价格等,保存到csv。最后一共抓取约58W数据,程序运行8h。

---全部文章: 京东爬虫 、链家爬虫美团爬虫微信公众号爬虫字体反爬Django笔记阿里云部署vi\vim入门----

一、打开北京二手房网页https://bj.lianjia.com/ershoufang/,默认显示的是在售二手房信息,一共45634套,但是只显示了100页,每页30条,这3000条信息是没有任何反爬的,可以直接抓取,如果要抓取全部45634条,应该要按小区来。本文主要讨论已成交二手房信息,数据量更大,难度也要高一点。

 

二、点击页面右上角成交,切换到已成交二手房信息,显示一共有73W条数据,但是也只显示100页,每页30条共3000条信息。而且还有个问题就是近30天内成交的房源的成交时间、价格信息是不显示的。我们可以右键检查进入开发者模式,在网页的html代码中找到房源的详情页面的url,然后进入详情页面抓取成交时间、价格。

 

三、如何抓取尽可能多的房源信息

现在问题就是73W已成交二手房信息,怎么能尽可能多的抓下来。 办法就是这些房源通过分类来抓取,比如分不同区域,价格,小区,这样可以抓到更多的数据。本文选用按小区抓取。点击页面上方小区,进入如下页面,再点击返回全部小区列表。显示一共有11435个小区,虽然下面翻页只有30页,但是我们可以通过构造url来翻页,实测可以翻到100页,100页后都是重复的,共3000个小区。每页的url如下:

第2页:https://bj.lianjia.com/xiaoqu/pg2/

第3页:https://bj.lianjia.com/xiaoqu/pg3/

第100页:https://bj.lianjia.com/xiaoqu/pg100/

  • 30
    点赞
  • 184
    收藏
    觉得还不错? 一键收藏
  • 28
    评论
链家二手房爬虫的过程可以按照以下步骤进行: 1. 构造URL:链家网的二手房信息URL是按页码递增的,例如"https://bj.lianjia.com/ershoufang/pg2/"表示第二页的二手房信息。可以通过循环递增页码来获取多页的信息。\[1\] 2. 添加头信息:为了能够成功访问链家网,需要在请求中添加头信息。这样可以模拟浏览器的请求,避免被网站屏蔽。\[1\] 3. 解析网页:使用BeautifulSoup库解析网页,可以方便地提取出二手房信息。可以通过查找特定的HTML元素或CSS选择器来定位所需的信息。\[1\] 4. 处理信息:对于获取到的二手房信息,可以进行一些简单的处理,例如清洗数据、格式化数据等。可以使用Python的字符串处理函数或正则表达式来实现。\[1\] 5. 保存数据:将处理后的二手房信息保存成CSV文件,可以使用Python的CSV库来实现。这样可以方便地进行后续的数据分析或导入到其他系统中。\[1\] 另外,对于爬虫的作者,建议优先考虑抓取JSON数据而不是网页数据。因为JSON是一个API接口,相比于网页来说,更新频率低且维护成本低。而网页的结构可能会经常变化,导致爬虫的维护工作变得复杂。\[2\] 在链家网中,可以通过以下URL获取其他类型的房产信息: - 海外房产:https://bj.lianjia.com/i/ - 卖房信息:https://bj.lianjia.com/bj/yezhu/ - 新房信息:https://bj.lianjia.com/bj/loupan/fang/ - 小区信息:https://bj.lianjia.com/bj/xiaoqu/ - 成交信息:https://bj.lianjia.com/bj/chengjiao/ - 租房信息:https://bj.lianjia.com/chuzu/bj/zufang/ - 二手房信息:https://bj.lianjia.com/bj/ershoufang/index/ - 写字楼信息:https://shang.lianjia.com/bj/ \[3\] 希望以上信息对您有所帮助! #### 引用[.reference_title] - *1* [python爬取链家二手房信息](https://blog.csdn.net/qq_35557718/article/details/97920146)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [用python爬取链家二手房楼盘](https://blog.csdn.net/sinat_38682860/article/details/90047261)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值