文献爬虫教学
文献爬虫教学
提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
提示:这里可以添加本文要记录的大概内容:
数据是机器学习的关键,无论是什么领域,对于一名科研工作者的青山而言,总是要面临着文献阅读和检索的问题,如果是要进入一个新的领域或者写一篇综述则需要检索大量的文献,如果纯手工下载的话,无疑是个比较费事费力的活,如果有能够实现大批量下载的技术就比较好,爬虫技术就是解决自动化批量下载的工具,掌握它是非常有用的,能够解放劳动力。
例如,青山这边一边在使用爬虫进行文献爬取,一边煮茶,一边在编辑文本记录爬虫的过程和如何使用的教程。。
一、爬虫是什么?
爬虫是为了大批量的自动化下载文献的工具,极大的解放劳动力。
二、使用步骤
1.打开 Sci-spider的py文件
2.修改 Sci-spider.py文件中的对应参数
此处需要注意的是代码行36和37系列
36行的filepath是指从Web of science 上导下来包含目标文献的DOI信息等的TXT文件,将改文件放入到Downloaddoi文件夹中,此处只需要将待下载文献的txt文件地址与‘SRO-276.txt替换即可。
37行的作用是,将36行中的文本文件中的Doi信息提取出来,并且重新存储到一个新的文本文件中,这个文件是在cachefiles文件夹中,将用于存储提取Doi的新文本文件与’SRO.txt‘进行替换即可
3.运行Sci-spider.py文件,随后会将提取的所有Doi信息放在SRO.txt文本文件中,用于后续下载操作。
4.建立一个新的文件夹用于存储下载的文献PDF
如图所示
5.更改文件夹下载信息
如图所示72行代码,将新建的文件夹与’HEA-sro’进行替换
5.运行Dowload的py文件
此后需要品茶等待即可
总结
可能会出现爬取不完全现象,这是因为有些专利信息和WBS的版权问题,大部分的是能够下载的。