![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
web scraping
Cmmm丶
分享python科研小技巧~
展开
-
Python Web scraping: 用requests轻松爬取IEA能源数据
点赞发Nature关注中ScienceIEA国际能源署有很多能源消费、碳强度等数据(IEA数据链接)遗憾的是,这些数据都是要收费的。免费的数据也可以获取,不过是5年间隔的。但是,幸运的是,IEA在web端展示的是interactive map. 自己一个个从上面摘也行,就是费眼睛。所以我就写了一个小程序爬取获得了。首先,ctrl+shift+I(如果你是chrome的话)进入inspection模式,然后 ctrl+R刷新找到这个json文件,然后右键copy link address原创 2020-11-19 16:43:55 · 988 阅读 · 2 评论 -
selenium 爬取中国经济社会发展数据库数据 (3) 更新多地区 多关键字 多年爬取,优化关键字筛选方法
点赞发Nature第一版在这第二版在这这次更新了多地区,多时间段,多关键字爬取。其实比较简单,就是加了几个循环语句。稍微进行了一些关键字筛选方法优化,用的是dataframe.str.contains方法,而不是直接用==比较了为的是可以进行大量数据爬取,测试了固定资产、GDP的爬取,是成功的。def find_table(indicator, region, year): wait = WebDriverWait(browser, 40,) browser.find_elem原创 2020-06-08 14:14:51 · 463 阅读 · 0 评论 -
selenium 爬取中国经济社会发展数据库数据 (2)优化爬取速度和解决StaleElementReferenceException
求点赞!!!求点赞!!!求点赞!!!上一版本的爬取测试代码在这添加链接描述对上一版本进行了一些测试,主要问题有两个用time.sleep()作为固定等待时长导致了爬取速度过慢,同时,也有可能存在网速问题等客观因素导致的抛错在进行大量数据爬取时,会抛出StaleElementReferenceException错误对代码进行了一些优化def find_table(indicator, region, year): wait = WebDriverWait(原创 2020-06-07 19:31:32 · 588 阅读 · 0 评论 -
selenium 自动化中国经济社会发展数据库数据获取(python)
求点赞!!!科研找数据的时候是最痛苦的,一个个年鉴地翻眼睛快看瞎了,中国经济社会发展数据库提供了一个很好的数据平台。但是一个个搜还是很麻烦,所以我就想把数据自动获取出来,这样又能节省一大波时间玩。最近试试了selenium,因为它的交互过程让我一个爬虫小白都能轻松明白。我看csdn还没有这样的例子,所以下面做一个北京市GDP获取的例子给大家参考一下:selenium安装和驱动程序获取过程这里就不赘述了,csdn很多博客都有说,我用的是chrome,下面上代码吧:from selenium impor原创 2020-06-06 16:36:21 · 922 阅读 · 0 评论