用DOI号批量爬取开源数据库文献数据(含文献 下载)

目录

1.新建任务: 

【首页】(左侧边栏)【新建】——【自定义任务】

 新建任务组,随意输入任务名,点击确定

选择【手动输入】粘贴DOI地址(也可选择其他导入方式),点击【保存设置】

2.采集设置

去除弹出的cookie窗口,以免影响视线:(此步视情况,非必要)

 添加采集流程:

 设置采集字段

PDF文献下载设置

tips1:减少数据采空

tips2:数据去重

 以上设置完成后即可点击【采集】,开始数据采集,待完成后导出即可。

 tips3:更新待爬取网址

 tips4:任务意外中断后,找到已爬取数据,(减少重复爬的时间)

tips5:更改文件下载路径

 tips6:筛选无效数据,筛出待二轮爬取数据

筛选无效数据:本例中,即无标题、或无PDF链接地址的数据。

筛选待爬数据:即找出上一步筛选完成后还没有数据的DOI

tips7:查找拼接DOI地址 1

方法一:排序

方法二:查找

tips8:当PDF需要跳转页面获取时/添加步骤



1.新建任务: 

        依次点击: 

  • 【首页】(左侧边栏)【新建】——【自定义任务】

  •  新建任务组,随意输入任务名,点击确定

  • 选择【手动输入】粘贴DOI地址(也可选择其他导入方式),点击【保存设置】

        (注意:手动输入最多1万条,文件导入最多1百万条。)

2.采集设置

待页面加载出来:

  • 去除弹出的cookie窗口,以免影响视线:(此步视情况,非必要)

点击下图中的箭头,收起提示框,

依次点击下图标记

上步之后,右侧流程框里多了一个“点击元素”步骤,可如下删除,(不删也没有影响)

 

  •  添加采集流程:

在网页中选择需要提取的元素,页面底下会出现已选字段,选择完毕后点击【采集数据】

 

  •  设置采集字段

 点击字段名称旁的三个小点,选择对字段的操作,(本例此处删除多余字段),双击字段名可更改字段名称。

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值