爬虫案例教学

文献爬虫教学

文献爬虫教学

提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

提示:这里可以添加本文要记录的大概内容:

数据是机器学习的关键,无论是什么领域,对于一名科研工作者的青山而言,总是要面临着文献阅读和检索的问题,如果是要进入一个新的领域或者写一篇综述则需要检索大量的文献,如果纯手工下载的话,无疑是个比较费事费力的活,如果有能够实现大批量下载的技术就比较好,爬虫技术就是解决自动化批量下载的工具,掌握它是非常有用的,能够解放劳动力。
例如,青山这边一边在使用爬虫进行文献爬取,一边煮茶,一边在编辑文本记录爬虫的过程和如何使用的教程。。

一、爬虫是什么?

爬虫是为了大批量的自动化下载文献的工具,极大的解放劳动力。

二、使用步骤

1.打开 Sci-spider的py文件

在这里插入图片描述

2.修改 Sci-spider.py文件中的对应参数

在这里插入图片描述

此处需要注意的是代码行36和37系列
36行的filepath是指从Web of science 上导下来包含目标文献的DOI信息等的TXT文件,将改文件放入到Downloaddoi文件夹中,此处只需要将待下载文献的txt文件地址与‘SRO-276.txt替换即可。
37行的作用是,将36行中的文本文件中的Doi信息提取出来,并且重新存储到一个新的文本文件中,这个文件是在cachefiles文件夹中,将用于存储提取Doi的新文本文件与’SRO.txt‘进行替换即可

3.运行Sci-spider.py文件,随后会将提取的所有Doi信息放在SRO.txt文本文件中,用于后续下载操作。

4.建立一个新的文件夹用于存储下载的文献PDF


如图所示


5.更改文件夹下载信息

在这里插入图片描述
如图所示72行代码,将新建的文件夹与’HEA-sro’进行替换

5.运行Dowload的py文件

此后需要品茶等待即可

总结

可能会出现爬取不完全现象,这是因为有些专利信息和WBS的版权问题,大部分的是能够下载的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值