爬虫案例教学

最新推荐文章于 2024-08-07 08:19:34 发布

青山行客

最新推荐文章于 2024-08-07 08:19:34 发布

阅读量192

点赞数 1

文章标签：爬虫 python 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51082412/article/details/125657752

版权

文献爬虫教学

文献爬虫教学

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

提示：这里可以添加本文要记录的大概内容：

数据是机器学习的关键，无论是什么领域，对于一名科研工作者的青山而言，总是要面临着文献阅读和检索的问题，如果是要进入一个新的领域或者写一篇综述则需要检索大量的文献，如果纯手工下载的话，无疑是个比较费事费力的活，如果有能够实现大批量下载的技术就比较好，爬虫技术就是解决自动化批量下载的工具，掌握它是非常有用的，能够解放劳动力。
例如，青山这边一边在使用爬虫进行文献爬取，一边煮茶，一边在编辑文本记录爬虫的过程和如何使用的教程。。

一、爬虫是什么？

爬虫是为了大批量的自动化下载文献的工具，极大的解放劳动力。

二、使用步骤

1.打开 Sci-spider的py文件

在这里插入图片描述

2.修改 Sci-spider.py文件中的对应参数

在这里插入图片描述

此处需要注意的是代码行36和37系列
36行的filepath是指从Web of science 上导下来包含目标文献的DOI信息等的TXT文件，将改文件放入到Downloaddoi文件夹中，此处只需要将待下载文献的txt文件地址与‘SRO-276.txt替换即可。
37行的作用是，将36行中的文本文件中的Doi信息提取出来，并且重新存储到一个新的文本文件中，这个文件是在cachefiles文件夹中，将用于存储提取Doi的新文本文件与’SRO.txt‘进行替换即可

3.运行Sci-spider.py文件，随后会将提取的所有Doi信息放在SRO.txt文本文件中，用于后续下载操作。

4.建立一个新的文件夹用于存储下载的文献PDF

如图所示

5.更改文件夹下载信息

在这里插入图片描述
如图所示72行代码，将新建的文件夹与’HEA-sro’进行替换

5.运行Dowload的py文件

此后需要品茶等待即可

总结

可能会出现爬取不完全现象，这是因为有些专利信息和WBS的版权问题，大部分的是能够下载的。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
爬虫案例教学

文献爬取，爬虫，爬取技术，图片爬取
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。