NLP——写论文指南

黄乐荣

已于 2022-08-24 16:06:00 修改

阅读量590

点赞数 1

分类专栏： NLP&CV 文章标签： nlp

于 2022-08-24 10:33:39 首次发布

原文链接：https://mp.weixin.qq.com/s/6UUKTkGes7mtqiX7rZ5Fjg

版权

NLP&CV 专栏收录该内容

31 篇文章 5 订阅

订阅专栏

第一篇

发文最核心的一点，就是你的研究有没有做出贡献。

也就是你有没有提出一些新的东西，有没有在前人的基础上做出改进，有没有填补研究的空白……

对于审稿人而言，每次审稿都要面对海量的投稿，论文想要脱颖而出，获得审稿人的青睐，就必须让你的论文散发出与众不同的光芒——有创新的idea。

论文的创新是一个探索的过程，要获得创新点/idea，有以下几种方法。

一、关注顶会

统计NLP领域四大顶会：ACL、EMNLP、COLING、NAACL近三年所有录用长文的研究方向。

如果某一个方向前两年没有多少研究，最近一年开始论文猛增，说明这个方向处在研究热点的早期，能填的坑还比较多，较容易发论文。

如果某一个方向前三年都有很多研究论文说明该方向是研究热点，但是能不能填坑非常考验水平。

二、平时多积累

虽然产生“OK”的 idea 很容易，但好的 idea 并不会是廉价的，而且产生更多的 idea 是获得优秀 idea 的最佳方法之一。此外，虽然执行很重要，但一些伟大论文的贡献就在于 idea，即使当时它在执行上并不出色。

一篇 NLP 论文的典型结构

NLP 学术会议（甚至包括期刊）论文已经形成比较固定的结构。绝大部分论文由以下六大部分构成：摘要（Abstract）、介绍（Introduction）、相关工作（Related Work）、方法（Method）、实验（Experiment）、结论（Conclusion）。少数论文会根据创新成果形式不同而略有不同，例如提出新数据集的论文，可能会把 Method 部分调整为 Dataset 的标注与分析，但不影响论文整体构成。每个部分作用不同：

摘要：用 100-200 词简介研究任务与挑战、解决思路与方法、实验效果与结论。
介绍：用 1 页左右篇幅，比摘要更详细地介绍研究任务、已有方法、主要挑战、解决思路、具体方法、实验结果。
相关工作：用 0.5-1 页左右篇幅介绍研究任务的相关工作，说明本文工作与已有工作的异同。
方法：用 2-3 页篇幅介绍本文提出的方法模型细节。
实验：用 2-3 页篇幅介绍验证本文方法有效性的实验设置、数据集合、实验结果、分析讨论等。
结论：简单总结本文主要工作，展望未来研究方向。

乍看这样每篇论文显得死板，实际上这正凸显了学术论文的真正意义，不追求在形式上给读者带来意外，而将读者注意力集中在论文介绍的研究成果上。

论文作者要关注的点

一、学会换位思考。要始终站在审稿人或读者的角度审视论文，思考如何更清晰地表达。

二、注意逻辑严谨。严谨是学术论文的底色，从引用格式、公式符号到谋章造句，都力求风格统一，行文严谨。

章节层面，Introduciton 提到已有方法面临的几个挑战，就要对应本文提出的几个创新思路，对应 Method 中的几个具体算法，对应 Experiment 中的几个实验验证。

段落和句子层面，段间要注意照应，是并列、递进、转折还是总分关系，需要谋划妥当，要有相应句子或副词衔接。段内各句，有总有分，中心思想句和围绕论述句分工协作。

文章参考：2022年，在NLP中还有没有比较新的研究方向？

第二篇

1 调研

选一个细分方向，一般建议方向定了之后就不要变，以后都做这个方向的研究，对于找工作来说面试官重视深度而不是广度。

找方向时可以关注以下特征：

越细越好（比如医疗领域的信息抽取），大方向都比较卷（比如NLP里的信息抽取）
实验迭代快：降低做实验的时间成本，注意该方向的数据集不能太大、同时也不能选取太大的基模型、太复杂的pipeline流程。不然实验都没做完就要毕业了。

选定完方向之后，就开始初步调研了，可以按照以下几步：

读一两篇最近的综述，最好找知名机构写的
顺着综述的reference，把比较经典、重要的文章都看一下（关于如何读论文，可以参考李沐老师在B站发的各个视频）
综述的实时性有限，可以使用MLNLP出品的「AI-Paper-Collector」[1]工具，搜索最近顶会上该方向的文章

初步调研的目的是建立起自己对这个方向的知识体系，包括有什么主要问题、针对该问题有什么经典方法、有什么经典数据集、如何评估等。

了解了该领域之后，就开始重头戏了，如何找Idea呢？在讲Idea之前先稍微说两句，部分同学上来就想做特别大的创新，这种想法是比较理想的，一般一年里面全球范围有几篇特别创新的工作就很难得了。所以刚上来不用对自己要求过高，能帮助该方向进步一小步即可。

找Idea的不确定性是最大的，核心就是发现问题和解决问题，可以有以下途径：

多读该方向的文章：量变产生质变，说实话读个几十篇之后就有一定的sense和判断力了，自然就会突然发现某篇文章有什么问题，自己就可以去优化一下
亲手跑顶会文章代码：照着论文顶会代码debug的过一遍，不仅能够很快的熟悉这个领域，也能在调试的过程中发现和总结问题。在找代码的时候可以参考MLNLP社区开源的顶会论文代码总结[2]，能帮助大家快速找到开源代码的会议文章
关注业内热点：比如预训练、对比学习、Prompt、Diffusion都是这几年的热点，把这些热点方法迁移到自己的领域，很有可能在全样本或者小样本上有所提升
多和别人交流：比如CV和NLP的很多方法都是互相迁移的，不同领域的也是，有可能你方向上的一个问题，你同学就见过它方向相似的问题和解法

2 实验

有了Idea之后，就可以快速开始尝试是否work了，这一阶段求快，尽快把方法变成代码跑出结论，如果效果好，恭喜你可以继续了。如果效果不好，那就得调整超参数、看数据找哪里出了问题，再继续迭代。这里也是很考验算法er能力的地方，需要代码少出bug、快速迭代、分析数据等综合能力。如果试了一两个月还不work，那恭喜你可以换idea了。

当Idea行得通之后，就可以开始考虑Paper的内容，制定更详细的实验计划了。相比一股脑扎进细节里，提前想好会更加全面。不然最后赶ddl时边写边补很痛苦的。

主要考虑以下点（对应文章章节）：