文章目录
- 一、什么是科学论文?
- 二、论文提纲
- 那如何编写提纲呢?
- 三、学术论文写作方法和技巧
- 论文发表流程
- 解决问题
- 审稿阶段
- 第一印象定录拒,5分钟内打动审稿人
- 全心全意为读者服务
- 标题的重要性与摘要的写作技巧
- 介绍的写作技巧与逻辑
- 段落的写法
- 信息元素的易理解度
- 图和表的重要性
- 全局连贯性
- 如何写相关工作
- 必须掌握的工具
- 实验部分
- 时间管理和获得反馈
- 总结
一、什么是科学论文?
论文是对假设、数据和结论的有组织描述,旨在指导读者。论文是研究的重要组成部分。如果你的研究没有发表论文,那还不如不做。“有趣且未发表"等同于"不存在”。要认识到,你的研究目标是提出并检验假设,从这些检验中得出结论,并将这些结论传授给他人。你的目标不是"收集数据”。论文不仅是存储已完成研究计划的档案设备,也是规划正在进行的研究的结构。清楚地了解论文的目的和形式,会对你组织和开展研究大有帮助。一份好的论文提纲也是一份好的研究计划。在开始时,大部分内容是计划;在结束时,大部分内容是提纲。与收集数据并在数据收集"完成"后才开始整理数据的过程相比,在纸上不断理解、分析、总结和重新提出假设的过程对你来说要有效得多。
二、论文提纲
撰写论文之前,先确定好提纲是高效写作的关键。提纲是写作的蓝图,是作者明确文章的结构和核心内容,减少写作过程中的迷失。撰写提纲时,应该进行多次修改和优化。这不仅有助于理清思路,还能避免在撰写正文时浪费大量时间在结构和内容的调整上。虽然撰写论文的正文可能耗时较长,但提前规划提纲可以使得最终的写作过程更加高效,避免过多时间在细节和组织上耗费。
那如何编写提纲呢?
将所有相关的想法记录下来,然后再对这些想法进行分类和整理,有助于在写作初期理清思路和找出关键点。以下是方法的几个关键步骤:
-
自由联想:从一张空白纸开始,记录下所有与论文相关的重要想法,不必担心顺序或条理。关键是把所有潜在的想法、问题和思路都写下来,确保没有遗漏。
-
提出问题:通过问自己一些基本问题来引导思考,明确写作的方向,这些问题包括:
为什么我要做这项工作?
它的意义是什么?
我希望验证哪些假设?
我实际验证了哪些假设?
结果如何?这项工作是否产生了一种新的方法?
我做了哪些测量?涉及哪些化合物,它们有什么特征? -
探索新的假设:如果您开始研究是为了验证一个假设,但当您看到您所掌握的数据时,发现这些数据似乎更能验证另一个假设,请不要担心。把这两个假设都写下来,然后选出假设、目标和数据的最佳组合。论文的最终目标可能与最初设定的目标有所不同,这是科学探索中的常态。
提纲大致三点:
-
前言
我为什么要做这项工作?核心动机和假设是什么?
应完整地写出第一或第二段。要特别注意开头的句子最好能简明扼要地陈述工作目标,并说明这一目标为何重要。一般来说,前言应包含这些要素:- 工作目标:强调研究的应用价值和实际意义。研究不仅要解决学术上的问题,还应当有助于某一领域的技术进步、产业应用或社会影响。
- 实现这些目标的理由:为什么这项工作至关重要?背景,还有谁做过什么?怎么做的?有哪些我们以前做过什么?
- 为读者提供指导:读者应该在论文中注意什么?有哪些有趣的亮点?我们使用了什么策略?
- 摘要/结论:读者对结论的期望是什么?在高级版本的提纲中,还应包括将放在实验部分的所有章节(段落小标题级别)。
-
结果与讨论
结果如何?化合物是如何制造和表征的?测量了什么?
结果果和讨论通常合并在一起,该部分应根据主要议题来组织。各部分应以黑体标明小标题,使结构清晰明了,并帮助读者浏览最终文本,找到感兴趣的部分。具体可以参考顶会、核心期刊、知网论文的标题。 -
结论
这一切意味着什么?证明或推翻了哪些假设?我学到了什么?为什么会有不同?
在提纲中,用简短的短语或句子概括论文的结论。除非需要特别强调,否则不要重复结果部分的内容。结论部分应该是结论,而不是摘要。它应增加新的、更高层次的分析,并应明确指出工作的意义。
三、学术论文写作方法和技巧
论文发表流程
参考清华大学刘洋老师的 CWMT-2014 报告,以机器翻译为例子,论文发表流程如下:
- 确定方向:统计机器翻译
- 确定问题:利⽤用句法对长距离调序建模
- 确定思路:将树到串对泛化为树到串模板
- 确定方法:规则抽取,搜索算法
- 实验验证:数据集、基线系统、评价指标
- 撰写论文:投稿ACL
选择热⻔的方向
选择冷门的方向
解决问题
思维独立性:先思考,再去查文献相互印证
语言学意义:具有语言学理论的⽀撑,符合语言学角度的直觉
数学意义:使用数学工具做形式化,不臆造数学公式
简洁优美:简单、干净、优美
写论文时什么最重要?
思路新颖
影响重⼤
方法正确
对比合理
易于重现
表达清晰
如下图关系:
审稿阶段
你以为审稿人应该是这样审稿的:
审稿人一定是专家,无所不知。打印出来,仔细研读揣摩数天,对于看不懂的地方反复推敲。即使你的英文写得极其糟糕、即使你的文章组织很混乱、即使你的表述很难看懂,审稿人花费了大量的时间后终于看懂了,他认为你的工作是有意义的,决定给你个borderline或以上的分数。
审稿人实际上往往是这样审稿的:
他不一定是专家,一直忙于其他事,在deadline到来之前一天要完成n篇。审稿时他往往先看题目、摘要,扫一下引言(知道你做什么),然后直接翻到最后找核心实验结果(做得好不好),然后基本确定录还是不录(也许只用5分钟!)。如果决定录,剩下就是写些赞美的话,指出些次要的小毛病。如果决定拒,下面的过程就是细看中间部分找理由拒了。
第一印象定录拒,5分钟内打动审稿人
微博上的佐证
观念转变:
全心全意为读者服务
信息的呈现符合读者的认知惯性:深入浅出,引人入胜,让读者快速找到想要的信息
尽量降低读者的理解难度:合理地综合使⽤用信息元素:图>曲线>表>正⽂文>公式
尽量提高读者阅读时的愉悦感:思想新颖、组织合理、逻辑严密 、论证充分、⽂文笔优美、排版美观
标题的重要性与摘要的写作技巧
标题:
用一句话概括你所做的工作,考虑搜索引擎的影响,包含关键词,如下所示:
摘要:
几句话概括你的工作
错误写法:
- 力图把所有细节都说清楚
- 用很专业的术语来描述
- 出现数学符号
简单来说,用语要简单,让外行能看懂
例如:
传统的 n-best 重排技术由于 n-best 列表的范围有限,很多潜在的好方法都被排除在外。相反,我们提出了森林排序(forestranking)方法,即对指数级数量的解析进行打包排序。由于前行为推理在非局部特征方面难以实现,因此我们提出了一种由森林重排激发的近似算法,这种算法可以对整个树库进行实用的判别训练。我们的最终结果是 91.7 分,优于 50 次最优和 100 次最优重排基准,也优于之前在树库中训练的任何重排系统。
介绍的写作技巧与逻辑
写法:
- ⽐题目和摘要更进一步,用几段话说清你的工作
- 要点是充分论证你所做工作的必要性和重要性,要让审稿人认同并迫不及待想往下看。
- 行文逻辑严密,论证充分
常见的逻辑
-
说明问题是什么
-
简单罗列前人工作
-
描述我们的工作
更好的逻辑
-
说明问题是什么
-
目前最好的工作面临什么挑战
-
我们的方法能缓解上述挑战
说明问题是什么撰写例子:
翻译,可能不太准确,撮合着看吧:基于语法的统计机器翻译方法利用并行数据和语法注释,注释的形式可以是短语结构树,也可以是依存树。这些方法大致可分为三类:字符串到树模型(如 Galley 等人,2006 年;arcu 等人,2006 年;Shen 等人,2008 年)、树到字符串模型(如 Liu 等人,2006 年;Huang 等人,2006 年)和树到树模型(如 Eisner,2003 年;Ding 和 Palmer,2008 年)、 通过对源语言和获取语言的语法建模,树对树方法的潜在好处是提供的规则在语言上更有动力。然而,虽然字符串到树和树到字符串模型在实证评估中取得了可喜的成果,但树到树模型的成绩仍然不佳。
面临什么挑战撰写例子:
翻译,可能不太准确,撮合着看吧:我们认为树到树模型面临两大挑战。首先,树到树模型更容易受到解析错误的影响。由于用于训练解析器的数据量和数据域相对有限,解析器在处理现实世界文本时难免会输出格式错误的树。在这种嘈杂句法信息的引导下,基于语法的模型(依赖于 1-best 解析器)很容易在训练阶段学习到嘈杂的翻译规则,并在解码阶段产生退化的翻译(Quirk 和 Corston-Oliver, 2006)。第二,树到树规则的规则覆盖率较低。由于树到树规则要求两边都必须有树,因此树到树模型会丢失更多的语言上未经咀嚼的映射。研究表明,缺少这种非句法映射会极大地影响翻译质量(Marcu 等人,2006 年;Liuet 等人,2007 年;DeNeefe 等人,2007 年;Zhang 等人,2008 年)。
你做了那些工作撰写例子:
翻译,可能不太准确,撮合着看吧:打包森林可以紧凑地编码幂级数多的语句,被证明是缓解上述两个问题的绝佳方法(Mi etal,2008;Mi and Huang,2008)。本文提出了一种基于森林的树对树模型。为了从对齐的森林对中学习 STSG 规则,我们提出了一系列识别树对树规则最小值的概念。我们的解码器首先将源森林转换为翻译森林,然后找到森林中源树的源产量的最佳推导。与摩西模型相比,我们基于森林的树对树模型的 BLEU 绝对值提高了 3.6 分。
段落的写法
段落的写法:
- 每个段落有个论断性的中心句
- 其余部分都是支撑句,围绕中心句展开论证
- 前人工作
- 具体数据
- 支撑句之间可分类组织
- 段尾可以加上衔接句
中心句与支撑句:
翻译,可能不太准确,撮合着看吧:在多个科学领域的许多不同问题中,都需要对序列进行分割和标记。隐马尔可夫模型(HMMs)和随机语法是这类问题中广为理解和使用的概率模型。在计算生物学领域,隐马尔可夫模型和随机语法已被成功用于排列生物序列、查找与已知进化家族同源的序列以及分析 RNA 二级结构(Durbin 等,1998 年)。在计算语言学和计算机科学领域,HMMs 和随机语法已被广泛应用于文本和语音处理中的各种问题,包括主题分割、语音部分 (POS) 标记、信息提取和语法消歧(Manning & Schüitze, 1999)。
翻译,可能不太准确,撮合着看吧:我们认为,向基于语法的模型提供基于短语的模型所能使用的所有双语短语是非常重要的。Chiang (2005) 通过在统计翻译中加入同义词税的同时保留词组的优势,显示了显著的改进。另一方面,仅使用句法短语对可能会妨碍基于语言句法的模态的性能。研究表明,基于语言句法的模型对句法分析很敏感(Quirk 和 Corston-Oliver,2006 年),但由于训练数据的规模和领域有限,处理现实世界的文本仍然不够可靠。
支撑句要论证严密:
翻译,可能不太准确,撮合着看吧:在基线系统内进行计算。尽管这种方法取得了明显的成功,但仍存在一个较大的缺陷。例如,有 41% 的正确解析不在(柯林斯,2000 年)的 ~30 个最佳解析候选名单中。这种情况在句子越长时越严重,因为可能的解释数量通常会随着句子长度呈指数增长。因此,我们通常只能看到 n 个最佳树中的极少变化,例如,50 个最佳树通常只代表 5 到 6 个二元歧义的组合。
信息元素的易理解度
图和表的重要性
- 图和表是论文的骨架,争取让读者按照顺序看就能理解论文的主要思想,不用通过看正文才能懂
- 一般第一遍看,都会看图、找例子
- 然后翻到后面找主要结果
- 再从头看正文
- 把论文的元素放在最应该被放在的地方,符合读者的认知惯性,降低理解难度
图可以参考下面的,在黑白打印审稿中,右图除颜色区分外还可通过实线虚线、线上数据点的形状进行区分
左图三线表不应该有竖线
好看的表格,可以采用 Booktabs 绘制更好看的表格
全局连贯性
如何写相关工作
-
错误
没有引⽤重要论文(可以直接作为rejection的理由)
简单的罗列和堆砌,缺乏深刻到位的评论
通过批评乃至攻击前人工作证明你的工作的创新性 -
正确
向审稿人显示你对本领域具有全⾯面深刻的把握
通过与前人工作的对⽐比凸显你的工作的创新性
为读者梳理领域的发展脉络,获得全局的认识
必须掌握的工具
-
LaTex :
强烈建议用LaTex代替Word -
Bibtex
自动生成参考文献列表 -
MetaPost
编程画矢量图
实验部分
- 在撰写实验部分时,通常应遵循以下结构化流程:首先,数据集的描述应包括原始数据的来源,并明确列出所经历的预处理步骤,以确保最终数据集的有效性。此外,需展示数据的详细统计信息,如数据量、类别数等,并使用表格形式对比不同数据集的规模,注意数字右对齐,且采用逗号表示法,以便审稿人直观比较。评测指标和评测流程的选择则依据任务的新旧程度,若是新任务,则需详尽说明;若为已有任务,可以延续常见的评测标准。
- 在对比方法部分,应简要介绍基准模型(baseline),明确任何关键实现细节或超参数设置,之后进行全面总结,并通过表格形式展示不同方法的性能差异,以便清晰对比。
- 主干实验分析部分应紧扣实验目的,文章中对实验的分析是为了证明文章的贡献、发现或者结论。不要流水账一般,比如A比B好,B比C好,而是要突出原因。重点阐明实验设计和结果如何支持论文的核心贡献和结论。避免单纯列举实验结果的优劣,而要深入探讨其背后的原因与影响。如果实验结果未达预期,也应进行原因分析。最后还要进行统计性检验证明提升有效。讲者举例如下,可以看到作者分析了过往方法的不足和优点,证明了自己方法的优越之处。
- 在模型细致分析部分,可以通过消融实验来深入分析模型各组件的贡献。消融实验通过控制变量法,逐一去除或修改模型的不同组件,观察其对整体性能的影响,从而明确各部分对最终结果的贡献程度。
- 定性实验是通过具体的示例来阐明模型或方法的有效性,解释为何实验结果在特定场景下显著提升。这类实验通常用于支持文章中的motivation(动机),即验证论文所提出的方法或模型在实际应用中的优越性。在定性实验中,举例的目的是直截了当地展示想法的实际效果,而不是进行探索性试验。因此,举例时应围绕核心目标,明确展示如何通过具体例子验证论文的理论或假设。定性例子:
在 NASR 中,改进的图注意网络是路网信息建模的核心组件,它可以生成用于编码结构特征的信息节点表示。对于候选位置 !j,我们计算一个简单的评分公式:nj, - nl, + n , - ni.,其中 n(.)s 是式 (15) 中学习到的节点表示。该公式衡量了 l 与当前位置和目的地的关联度。为了便于比较,我们绘制了实际路线和最短路线。我们可以看到,实际路线上的位置比最短路线上的位置具有更大的关联权重。通过对数据集进行检查,我们发现最短路线包含了几条支路,而这些支路在访问时可能处于交通拥堵状态。另一个有趣的观察结果是,用户访问实际路线上的地点的次数确实比访问历史轨迹的次数要多。
接下来,我们继续研究学习到的成本函数如何帮助 NASR 中的搜索过程。图 4 展示了一个特定用户的轨迹样本。通过比较图 4(a)(原始搜索空间)_和图 4(b)(NASR 缩减后的搜索空间),可以看出我们的模型能够有效地缩小搜索空间。 当放大到该路线的一个子序列时,我们进一步比较了图 4(c)中两个候选地点(绿点)的估计成本值,虽然第二个地点与已探索地点的距离较长,但它位于主干道上,可能会带来更好的交通状况。我们的模型能够通过有效地学习路网和历史数据中的轨迹特征,预测第二个地点的成本更低。
时间管理和获得反馈
-
coarse-to-fine
截稿前一个月开始写 每隔两天改一次
-
听取不同背景读者的反馈意见
专家:专业意见 非专家:发现信息壁垒
-
写到极致,完成完美精致的艺术品
总结
一些投稿经验,如有疏漏,还望见谅,谢谢观看
参考文章: