最近需要做一个金融时间序列的预测,想要下载湖北碳交易数据,一页一页复制粘贴太麻烦,所以尝试用爬虫的方式,第一次做,有很多不足的地方,但是也学到很多,所以把这个过程写下来,就当是复盘啦!
参考的博客:
Python数据爬取超详细讲解(零基础入门,老年人都看的懂)
一些准备工作:
1.安装环境(这里就不详细说了)
2.找到要爬取数据的网址url:我用的是湖北碳排放权交易中心
https://www.hbets.cn/list_51.html
3.获取爬虫所需的header和cookie
首先进入湖北碳排放权交易中心,单击右键,选中“检查”点击它(或者按下F12也可以),然后就进入网页的js语言设计部分啦,如下图。
接下来,点击网页上像WiFi图标的那个“network”,然后按下ctrl+R更新页面,接着浏览name这一部分,找到我们要爬取的文件,右键单击它,复制它的cURL(bash),如下图所示。
复制好之后,我们进入网页: