01、引言
作为国内最大的土地出让统计平台,中国土地市场网是一个提供国有建设用地公告公示的网站,其中包括出让公告、地块公示、供地结果等数据。相信能够批量获取这些数据,对于各位科研工作者而言意义重大。
上次小编已经教过大家如何爬取批量爬取任意年份的土地出让数据。但是,许多科研工作者关心的应该是这些数据中详情页的表格。今天,小编就带大家深入了解,如何用ChatGPT辅助我们快速获取详情页。文末附有完整代码的免费领取方式,记得查收噢!
02、步骤
第一步:通过开发者工具找到目标网页
访问中国土地市场网供地结果中的某个详情页(中国土地市场网 (landchina.com)),按下F12打开开发者工具,刷新页面在开发者工具中看到目标网页。
第二步:获得cURL
右键该网页,复制为cURL(bash)
第三步:用ChatGPT获取数据
打开ChatGPT,将以下prompt输入:
作为一位资深的Python爬虫工程师,请你基于以下由三个反引号界定的cURL(bash),写一段Python爬虫程序。
程序需要预留出数据处理的部分。
cURL(bash):
```
复制的cURL(bash)
```
之后,ChatGPT将给你一个可行的代码,复制并运行后,就能获得网站响应的结果。
之后,ChatGPT将给你一个可行的代码。复制并运行后,就能获得网址响应的结果。
第四步:提取数据
这里的参数过于不明确,变量名也是起的有点随意。因此让ChatGPT来处理很容易出错。因此,小编在此帮大家整理好了提取数据的代码:
加入代码后,即可将结果保存为csv文件。
第五步:查看结果
在运行ChatGPT给出的代码后,你应该可以获得这样的csv文件(图中为展示效果手动调整过列间距):
第六步:多页爬取
如果希望爬取多页数据,可以直接更改网址中的id,修改为之前那篇推文让大家爬取的gdGuid即可。
注意事项
1、在使用爬虫进行批量爬取时,需要特别留意爬取的频率。如果频率过高,可能会给网站带来较大的负担,甚至被视为攻击行为,导致IP被封禁,从而导致无法获取到相应的数据。
2、如果确实需要高频率地进行爬取以节省时间,建议使用IP池来进行爬取。你可以根据所购买网站提供的说明文档来了解具体的使用方法,或者向ChatGPT咨询相关问题,它会为你提供帮助。
3、ChatGPT生成的结果并不是完全相同的,即使使用相同的提示。因此,如果生成的代码与文章中不一致,也是可以运行的。如果运行时出现错误,请直接将错误信息复制给ChatGPT,让它帮助你修正代码,直到正确运行为止。
03、结语
希望本文的内容能够帮助读者更加专业地利用爬虫技术,获取中国土地市场网中感兴趣的数据,为研究和学习提供便利。同时,也提醒读者在使用爬虫时要遵守相关法律法规和网站规定,确保合法合规操作。
感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
工具都帮大家整理好了,安装就可直接上手!
三、最新Python学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、Python视频合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
六、面试宝典
简历模板
若有侵权,请联系删除