用DOI号批量爬取开源数据库文献数据（含文献下载）

wqq654

已于 2022-08-09 15:01:44 修改

阅读量3.4k

点赞数 2

文章标签：数据库爬虫其他经验分享

于 2022-07-22 05:16:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wqq654/article/details/125924349

版权

目录

1.新建任务：

【首页】（左侧边栏）【新建】——【自定义任务】

新建任务组，随意输入任务名，点击确定

选择【手动输入】粘贴DOI地址（也可选择其他导入方式），点击【保存设置】

去除弹出的cookie窗口，以免影响视线：（此步视情况，非必要）

添加采集流程：

设置采集字段

PDF文献下载设置

tips1:减少数据采空

tips2：数据去重

以上设置完成后即可点击【采集】，开始数据采集，待完成后导出即可。

tips3：更新待爬取网址

tips4：任务意外中断后，找到已爬取数据，（减少重复爬的时间）

tips5：更改文件下载路径

tips6：筛选无效数据，筛出待二轮爬取数据

筛选无效数据：本例中，即无标题、或无PDF链接地址的数据。

筛选待爬数据：即找出上一步筛选完成后还没有数据的DOI

tips7：查找拼接DOI地址 1

方法一：排序

方法二：查找

tips8：当PDF需要跳转页面获取时/添加步骤

1.新建任务：

依次点击：

【首页】（左侧边栏）【新建】——【自定义任务】

新建任务组，随意输入任务名，点击确定

选择【手动输入】粘贴DOI地址（也可选择其他导入方式），点击【保存设置】

（注意：手动输入最多1万条，文件导入最多1百万条。）

2.采集设置

待页面加载出来：

去除弹出的cookie窗口，以免影响视线：（此步视情况，非必要）

点击下图中的箭头，收起提示框，

依次点击下图标记

上步之后，右侧流程框里多了一个“点击元素”步骤，可如下删除，（不删也没有影响）

添加采集流程：

在网页中选择需要提取的元素，页面底下会出现已选字段，选择完毕后点击【采集数据】

设置采集字段

点击字段名称旁的三个小点，选择对字段的操作，（本例此处删除多余字段），双击字段名可更改字段名称。

最低0.47元/天解锁文章

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
用DOI号批量爬取开源数据库文献数据（含文献下载）

在有DOI号的前提下，使用八爪鱼循环爬取DOI号关联文献基本信息并下载文献。
复制链接

扫一扫

wqq654 CSDN认证博客专家 CSDN认证企业博客

码龄4年

3: 原创

84万+: 周排名

198万+: 总排名

3662: 访问

: 等级

51: 积分

1: 粉丝

2: 获赞

4: 评论

14: 收藏

私信

关注

热门文章

最新评论

asp+access开发网页返回显示系统未初始化
CSDN-Ada助手: 恭喜您又写了一篇博客！看到标题我想您一定解决了一个棘手的问题，非常值得表扬。接下来，如果您愿意，我建议您可以分享一下您是如何解决这个问题的，或者分享一些其他类似的开发经验，让更多的人受益。继续加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
asp+access+IIS开发
CSDN-Ada助手: 非常棒的博客！很高兴看到您在探索asp access IIS开发方面的知识。您的文章非常详细，为读者提供了很多有用的信息。同时，我想为您提供一些扩展知识，希望对您有所帮助。首先，您可以了解一下如何优化数据库性能，这可以避免数据表过大的问题。另外，您可以学习如何使用ASP.NET Core，这是一种更先进的开发框架，可以提高开发效率和性能。希望您能够继续分享更多的知识和经验，谢谢！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
用DOI号批量爬取开源数据库文献数据（含文献下载）
vitaminc1127: 博主的DOI都是同一个出版社或期刊的吗？
用DOI号批量爬取开源数据库文献数据（含文献下载）
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。