两个月,刷了八千篇Arxiv,我发现……

文 | 白鹡鸰
编 | 小轶

从五月初到现在,大约刷了八千篇Arxiv之后,我发现我有毛病。

当然,这是读论文上头时的牢骚,不是真心话,只是说,我在Arxiv上投入的精力的努力,与我预计的收获不成正比。

故事的起因是这样的:

作为一个博一的萌新,学校和导师不会直接让你上手科研,而是先上上课,确保来自不同学校的同学们能够拥有相近的知识背景,互相认识认识。但是,当你的日常是上课的时候,看着学长学姐们学术讨论,实验跑得风生水起,人总是会慌的。

“天呐我已经是一个成熟的研究生了,为什么每天还像本科生一样课课课,我也要搞科研!“

然后想想除了课程和作业报告,似乎确实没什么整块的时间可以静下心来研究,最可行的只有每天看看论文了。下定决心的时候是5月,由于各种课程的大作业开始陆续下发,最终,实际能干的事情,就是通过RSS订阅[1],开始遍历Arxiv和一些领域相关Journal的论文。

在开始做这件事情的时候,我充满了干劲和对论文的美好期许:

“每天能够接触到所有研究者最新的idea和发现,我就是时代的弄潮儿!“

“那么多新发的方法,研究与研究之间都是相通的,可以把数理领域的前沿成果拿过来实现我们领域的研究问题,这效果绝对杠杠的!“

“顺带还可以练一练英语速读能力,文科理科两手都抓,太机智了!“

现在回头望去,我就像个戏台上的老将军——浑身插满了Flag。

Arxiv是北京时间每天上午九点更新,美国时间的周末不更新。我订阅了CS领域下 人工智能 AI,机器学习 ML,计算机视觉 CV,信息理论 IT 四个方向的论文。平均每天加起来这些领域会更新150篇上下,周一会更多一点,因此我每周大约会接收到800~900篇论文推送。5月到7月中旬,加起来推送的总量必然有8k以上。

作为一个理智尚存的成年人,我采取的策略是首先速览题目,对于研究相关的、或者看起来很有意思的文章,瞅一眼Abstract。如果Abstract挑不出毛病,再打开原文更详细地阅读。

  • 综述类文章:这类文章的价值是介绍一个方向的研究进展和前沿技术,并总结研究难点痛点,几乎不具有创新性。写得好的往往会直接投稿给期刊,因此在Arxiv上出现频率不高。一篇好的综述除了方法,更重要的是指出有待研究的空白。因此,对于只是罗列方法,总结不足的综述我都不会进一步阅读。

  • 理论/观点型文章:显然,这类文章最重要的就是它的观点和论证过程。一定要搞清楚文章的假设是哪些,限制在哪,如果不合理的话就不用看下去了。论证一般要么靠逻辑,要么靠公式推导,想很快把公式搞懂显然是不现实的,但可以看看是基于哪些数学方法来决定是否值得细看。

  • 方法型文章:这类文章的常见结果中包括“我们做到了xxx方面的SOTA”,但是,模型的评估指标有哪些,和什么样的参考如何比较得出了这个SOTA,往往暗藏玄机。所以,看一眼模型构造,如果不是眼熟的缝合怪,再看一下实验,实验没有太大问题,再瞄一眼结果,到底进步了多少,有没有机理分析。这些全齐活了,文章的具体方法才可能具有可信度。

浏览方法是合理的,实施过程是痛苦的。我看到了五花八门标题美丽,开头让人心神荡漾,实验结果或者方法一言难尽的文章。还有些投稿,只描述了作者想达到的效果,方法刚写了一小段,实验还没跑,导致我最终养成了开文章先看眼页数,免得被画饼欺骗感情的好习惯。

这两个月里,各式各样的SOTA我见了上百篇,近期的few-shot,explanable AI,看起来都是研究热点。然而最终,这大约8k篇的论文中,我挑挑拣拣,目前下载导入Mendeley打算好好研究的只有不到100篇。这样做的时间成本是多少呢?

  • 假设每天我稳定读了150个标题,这大约需要半个小时。

  • 这150个标题中,有10篇能引起我的兴趣,我花十五分钟,过了一下它们的摘要。

  • 作为一个新手,我对于摘要的判断能力还不是很强,因此,这10篇文章中我需要仔细地阅读5~8篇文章的intro,result,conclusion。这至少需要半个小时。

  • 最后,由于我连续读了这么久文章,我奖励自己就地躺平一刻钟。

所以,在Arxiv上刷文章,我每天需要花一个半小时左右,能够获取1~2篇可能有价值的文章。 而作为一个新手,我的研究嗅觉未必足够灵敏,也就是说,在这些决定精读的这些文章中,有50%以上的概率,在继续阅读1~2小时之后,我仍将一无所获。而 如果利用这些时间有目的地定向搜索特定领域的文章, 参考文章的引用量,我将更可能在同样的时间内了解更有价值的研究成果。

在Arxiv上,作为一个研究领域的新手面临的问题是选择太多了,难以甄别有效信息。最初我试图从数理领域获得新的方法的设想并不成功。数理领域的breakthrough出现概率并不高,而且,想要将其他领域的方法迁移到自己的领域,一方面,获取方法的时间成本会成倍地增长;另一方面,踩雷的风险绝不低。

作为一个能够流畅读写论文的研究生,绝对不要指望用Arxiv能对英语水平有多少提升。 很简单,因为Arxiv上的论文,在没有经过会议和期刊对语言的筛选打磨时,英语质量着实参差不齐。目前英语词汇量在1w左右的我感受到的瓶颈,主要来自词汇的使用不够多样化导致的语言生硬,以及做不到快速逐行阅读。而论文能让人锻炼快速阅读的部分并不多,很多内容都是要边思考边看的。论文作者也未必是Native speaker,很可能写文章的时候也词穷。对于这个个人问题,最近摸索的结论是,看CNN和BBC的新闻,对语言的提升效果远好于读论文。

总而言之,Arxiv上良莠不齐,对于研究领域的新手(博一博二及以下)来说,并不应该以刷Arxiv作为信息获取的主要渠道。我的导师在听说我的计划的时候,曾经劝阻过我:

“你现在不应该大量漫无目的地阅读文献。而是应该努力寻找可能给你提供新的研究灵感,或者教会你研究方法的论文。“

也就是说,搜索特定词条下的论文和Tutorial对我这个阶段的研究生帮助会更大。Arxiv在现阶段更适合作为检索是否存在idea撞车的数据库,而非图书馆。至于领域中的老手,刷Arxiv的时间成本应该显著降低(很多方法只要大致浏览就能理解),但若要紧跟研究潮流,每天1~2小时的阅读应该还是少不了的。具体细节,就等我能看到他们眼中的风景时再来和各位分享吧。

不过呢,Arxiv上乐子还是不少的。可以这么说:如果回到两个月前,我不会开始刷Arxiv;但在经历这么多痛苦,逐渐摸索到一些门道之后的现在,我还是打算继续刷下去的。希望接下去,Arxiv能提升我甄别论文的能力,此外,我会对有价值的论文做一些笔记,从而提升自己的理解概括能力。

本文描述的读文献方式“导师见打”,非搞笑人士请勿模仿!

萌屋作者:白鹡鸰

白鹡鸰(jí líng)是一种候鸟,天性决定了会横跨很多领域。已在上海交大栖息四年,进入了名为博士的换毛期。目前以图像语义为食,但私下也对自然语言很感兴趣,喜欢在卖萌屋轻松不失严谨的氛围里浪~~形~~飞~~翔~~

知乎ID也是白鹡鸰,欢迎造访。

作品推荐:

  1. NLP太卷,我去研究蛋白质了~

  2. 谷歌40人发表59页长文:为何真实场景中ML模型表现不好?

  3. 学术&工业界大佬联合打造:ML产品落地流程指南

寻求报道、约稿、文案投放:

添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].^RSS (Really Simple Syndication) 是一种消息来源的格式规范,网站可以按照这种格式规范提供文章的标题、摘要、全文等信息给订阅用户,用户可以通过订阅不同网站 RSS 链接的方式将不同的信息源进行聚合,在一个工具里阅读这些内容。
  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值