NLP——写论文指南

目录

第一篇

一篇 NLP 论文的典型结构

论文作者要关注的点

第二篇

1 调研

2 实验

3 写文章

 4 总结

参考资料


第一篇

发文最核心的一点,就是你的研究有没有做出贡献。

也就是你有没有提出一些新的东西,有没有在前人的基础上做出改进,有没有填补研究的空白……

对于审稿人而言,每次审稿都要面对海量的投稿,论文想要脱颖而出,获得审稿人的青睐,就必须让你的论文散发出与众不同的光芒——有创新的idea

论文的创新是一个探索的过程,要获得创新点/idea,有以下几种方法。

一、关注顶会

统计NLP领域四大顶会:ACL、EMNLP、COLING、NAACL近三年所有录用长文的研究方向。

如果某一个方向前两年没有多少研究,最近一年开始论文猛增,说明这个方向处在研究热点的早期,能填的坑还比较多,较容易发论文。

如果某一个方向前三年都有很多研究论文说明该方向是研究热点,但是能不能填坑非常考验水平。

二、平时多积累

虽然产生“OK”的 idea 很容易,但好的 idea 并不会是廉价的,而且产生更多的 idea 是获得优秀 idea 的最佳方法之一。此外,虽然执行很重要,但一些伟大论文的贡献就在于 idea,即使当时它在执行上并不出色。

一篇 NLP 论文的典型结构

NLP 学术会议(甚至包括期刊)论文已经形成比较固定的结构。绝大部分论文由以下六大部分构成:摘要(Abstract)、介绍(Introduction)、相关工作(Related Work)、方法(Method)、实验(Experiment)、结论(Conclusion)。少数论文会根据创新成果形式不同而略有不同,例如提出新数据集的论文,可能会把 Method 部分调整为 Dataset 的标注与分析,但不影响论文整体构成。每个部分作用不同:

  • 摘要:用 100-200 词简介研究任务与挑战、解决思路与方法、实验效果与结论。
  • 介绍:用 1 页左右篇幅,比摘要更详细地介绍研究任务、已有方法、主要挑战、解决思路、具体方法、实验结果。
  • 相关工作:用 0.5-1 页左右篇幅介绍研究任务的相关工作,说明本文工作与已有工作的异同。
  • 方法:用 2-3 页篇幅介绍本文提出的方法模型细节。
  • 实验:用 2-3 页篇幅介绍验证本文方法有效性的实验设置、数据集合、实验结果、分析讨论等。
  • 结论:简单总结本文主要工作,展望未来研究方向。

乍看这样每篇论文显得死板,实际上这正凸显了学术论文的真正意义,不追求在形式上给读者带来意外,而将读者注意力集中在论文介绍的研究成果上。

论文作者要关注的点

一、学会换位思考。要始终站在审稿人或读者的角度审视论文,思考如何更清晰地表达。

二、注意逻辑严谨。严谨是学术论文的底色,从引用格式、公式符号到谋章造句,都力求风格统一,行文严谨。

章节层面,Introduciton 提到已有方法面临的几个挑战,就要对应本文提出的几个创新思路,对应 Method 中的几个具体算法,对应 Experiment 中的几个实验验证。

段落和句子层面,段间要注意照应,是并列、递进、转折还是总分关系,需要谋划妥当,要有相应句子或副词衔接。段内各句,有总有分,中心思想句和围绕论述句分工协作。

文章参考:2022年,在NLP中还有没有比较新的研究方向?

第二篇

1 调研

选一个细分方向,一般建议方向定了之后就不要变,以后都做这个方向的研究,对于找工作来说面试官重视深度而不是广度。

找方向时可以关注以下特征:

  1. 越细越好(比如医疗领域的信息抽取),大方向都比较卷(比如NLP里的信息抽取)

  2. 实验迭代快:降低做实验的时间成本,注意该方向的数据集不能太大、同时也不能选取太大的基模型、太复杂的pipeline流程。不然实验都没做完就要毕业了。

选定完方向之后,就开始初步调研了,可以按照以下几步:

  1. 读一两篇最近的综述,最好找知名机构写的

  2. 顺着综述的reference,把比较经典、重要的文章都看一下(关于如何读论文,可以参考李沐老师在B站发的各个视频)

  3. 综述的实时性有限,可以使用MLNLP出品的「AI-Paper-Collector」[1]工具,搜索最近顶会上该方向的文章

初步调研的目的是建立起自己对这个方向的知识体系,包括有什么主要问题、针对该问题有什么经典方法、有什么经典数据集、如何评估等。

了解了该领域之后,就开始重头戏了,如何找Idea呢?在讲Idea之前先稍微说两句,部分同学上来就想做特别大的创新,这种想法是比较理想的,一般一年里面全球范围有几篇特别创新的工作就很难得了。所以刚上来不用对自己要求过高,能帮助该方向进步一小步即可。

找Idea的不确定性是最大的,核心就是发现问题和解决问题,可以有以下途径

  1. 多读该方向的文章:量变产生质变,说实话读个几十篇之后就有一定的sense和判断力了,自然就会突然发现某篇文章有什么问题,自己就可以去优化一下

  2. 亲手跑顶会文章代码:照着论文顶会代码debug的过一遍,不仅能够很快的熟悉这个领域,也能在调试的过程中发现和总结问题。在找代码的时候可以参考MLNLP社区开源的顶会论文代码总结[2],能帮助大家快速找到开源代码的会议文章

  3. 关注业内热点:比如预训练、对比学习、Prompt、Diffusion都是这几年的热点,把这些热点方法迁移到自己的领域,很有可能在全样本或者小样本上有所提升

  4. 多和别人交流:比如CV和NLP的很多方法都是互相迁移的,不同领域的也是,有可能你方向上的一个问题,你同学就见过它方向相似的问题和解法

2 实验

有了Idea之后,就可以快速开始尝试是否work了,这一阶段求快,尽快把方法变成代码跑出结论,如果效果好,恭喜你可以继续了。如果效果不好,那就得调整超参数、看数据找哪里出了问题,再继续迭代。这里也是很考验算法er能力的地方,需要代码少出bug、快速迭代、分析数据等综合能力。如果试了一两个月还不work,那恭喜你可以换idea了。

当Idea行得通之后,就可以开始考虑Paper的内容,制定更详细的实验计划了。相比一股脑扎进细节里,提前想好会更加全面。不然最后赶ddl时边写边补很痛苦的。

主要考虑以下点(对应文章章节):

  1. Main Result:都跟哪些SOTA做比对?做几个数据集?如果Idea的创新性有限,那可以再想些附加方法,提升文章的密度

  2. Analysis:分析章节都放什么实验?(消融实验、超参数分析等),可以参考其他文章

3 写文章

写文章,就是把你发现了什么问题、用了什么解决方案,讲成一个完整的故事,体现整个研究的价值。

但对于很多中国同学来说,这也是最痛苦的部分,毕竟不是母语啊。

Anyway,对于没写过英文文章的同学,这里分享一个傻瓜又实用的步骤:

  1. 列出中文提纲,捋清思路,跟有经验的老师、学长对一下

  2. 确定主体之后,用中文写一遍,越细越好,像abstract、intro、analysis最好精确到句,其他章节列出段落提纲,有时间可以全用中文写一遍

  3. 中翻英,先用Google粗翻,再人工精翻,词汇可以多借鉴其他文章,但不要整句抄袭,同时切忌随意创造新的表述

关于写作的技巧、要注意的点还有很多,大家可以参考MLNLP的开源项目「Paper Writing Tips」[3],里面不仅包含了各个Latex细节的写法,还有很多帮助写作的工具,以及投稿前必查的Checklist:

 4 总结

成功做完自己的第一篇工作后,就可以选择继续深入了,虽然前文有强调第一篇工作不必过于追求影响力,但之后就可以慢慢地对自己有要求了,如果总是反复用相同的idea或者方法,面试官问两句就都看出来了。

深入了解一个领域,并作出自己的贡献是件exciting的事情,希望大家秉持初心,做出自己满意的工作。

参考资料

[1]AI-Paper-Collector: https://github.com/MLNLP-World/AI-Paper-Collector

[2]Top AI Conferences Paper with Code: https://github.com/MLNLP-World/Top-AI-Conferences-Paper-with-Code

[3]Paper Writing Tips: https://github.com/MLNLP-World/Paper-Writing-Tips

文章参考:既然决定了卷论文,那就开卷吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值