科研效率直线提升!如何一键下载会议论文?ACL 2020 论文代码批量下载 打包分享

全文总结

  1. 如何通过代码批量自动化爬取会议论文 代码如下,其他会议同理爬取
    github:https://github.com/superYong2020/automaic_paper_downloading
  2. 配合EndNote一起使用,看论文效率直线提升!
  3. ACL 论文分享,百度网盘提取
    链接:https://pan.baidu.com/s/13nalvoIOVZXik6Dl8zeOPA
    提取码:ugub

1. 提取代码

  1. 配置爬虫
# 配置爬虫
    user_agents = GetUserAgent()
    count = 0
    urls = ["https://www.aclweb.org/anthology/events/acl-2020/#2020-acl-main"]
    url_ins = random.choice(urls)
    headers = {
        "Accept": "*/*",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
        "Cookie": "l=AurqcPuigwQdnQv7WvAfCoR1OlrRQW7h; isg=BHp6mNB79CHqYXpVEiRteXyyyKNcg8YEwjgLqoRvCI3ddxqxbLtOFUBGwwOrZ3ad; thw=cn; cna=VsJQERAypn0CATrXFEIahcz8; t=0eed37629fe7ef5ec0b8ecb6cd3a3577; tracknick=tb830309_22; _cc_=UtASsssmfA%3D%3D; tg=0; ubn=p; ucn=unzbyun; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; miid=981798063989731689; hng=CN%7Czh-CN%7CCNY%7C156; um=0712F33290AB8A6D01951C8161A2DF2CDC7C5278664EE3E02F8F6195B27229B88A7470FD7B89F7FACD43AD3E795C914CC2A8BEB1FA88729A3A74257D8EE4FBBC; enc=1UeyOeN0l7Fkx0yPu7l6BuiPkT%2BdSxE0EqUM26jcSMdi1LtYaZbjQCMj5dKU3P0qfGwJn8QqYXc6oJugH%2FhFRA%3D%3D; ali_ab=58.215.20.66.1516409089271.6; mt=ci%3D-1_1; cookie2=104f8fc9c13eb24c296768a50cabdd6e; _tb_token_=ee7e1e1e7dbe7; v=0",
        "User-Agent": random.choice(user_agents)
    }
  1. 配置论文名称和连接

不同会议和期刊需要根据网页前端爬取到的内容,设置自定义规则,不能直接迁移使用。

 # 匹配论文名称和连接
    paper_url = re.findall(r'href=https://www.aclweb.org/anthology/2020.acl-main.(.*?).pdf data-toggle', response)
    paper_url = ["https://www.aclweb.org/anthology/2020.acl-main."+item+".pdf" for item in paper_url]
    paper_title = re.findall(r'href=/anthology/2020.acl-main.*?/>.*?(.*?)</a>', response)
    paper_title = [item.replace("<span class=acl-fixed-case>", "").replace("</span>", "") for item in  paper_title]
  1. 下载论文
error_file_name = []
    for i, paper_name in enumerate(paper_title):
        paper_name = replace(paper_name, ['@', '!', '?', '。', ':', ':','/','\\','∘', '<', '>'])
        dst_file_name = os.path.join(dst_dir, paper_name+'.pdf')
        if os.path.exists(dst_file_name):
            continue
        response = urlopen(paper_url[i])
        print(paper_url[i], dst_file_name)
        try:
            file = response.read()
            with open(dst_file_name, 'wb') as f:
                f.write(file)
        except Exception as e:
            print(e)
            print("unknown name! parser error", dst_file_name)
            error_file_name.append(dst_file_name)
    print("----------------------------------")
    for item in error_file_name:
        print(item)

2. EndNote批量导入,看论文可以如此轻松!

如果只是想要粗略快速过一遍某些论文,了解前沿研究,不做深入阅读,建议借助EndNote一起使用,省去分类、管理等各种冗余工作,科研效率直线提升!
Endnote批量导入论文文件夹:文件 -> 导入 -> 文件夹
高效率操作:

  • 文章筛选
  • 高亮内容
  • 文章评级

在这里插入图片描述

3. 论文批量分享

已经批量下载好ACL2020所有的接收论文,共779篇,上传至百度网盘,仅供学习交流使用。
链接:https://pan.baidu.com/s/13nalvoIOVZXik6Dl8zeOPA
提取码:ugub

在这里插入图片描述

统计一下2020ACL标题高频词

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值