自动摘要论文阅读 EMNLP 23
文章平均质量分 96
论文阅读 EMNLP 2023
yuyuyu_xxx
这个作者很懒,什么都没留下…
展开
-
NLP论文阅读记录-EMNLP 2023 | 02 Improving Biomedical Abstractive Summarisation with Knowledge Aggregation
通过引文论文的知识聚合改进生物医学抽象总结 (2310)codepaper来自生物医学文献的摘要具有明显的特定领域特征,包括专门的写作风格和生物医学术语,这需要对相关文献的深入理解。因此,由于缺乏特定领域的背景知识,现有的语言模型很难生成与生物医学专家生成的技术摘要相媲美的技术摘要。本文旨在通过聚合源文章中引用的外部论文的知识来提高生物医学抽象概括中语言模型的性能。原创 2023-12-12 18:19:59 · 1024 阅读 · 0 评论 -
NLP论文阅读记录-EMNLP 2023 | 11Large-Scale and Multi-Perspective Opinion Summarization with Diverse Review
大规模、多视角的意见总结,具有多样化的评论子集(2310)codepaper意见总结有望消化更大的评论集并提供不同角度的总结。然而,现有的大多数解决方案由于缺乏信息选择的设计,缺乏从多个角度概括广泛的评论和提供意见总结。为此,我们提出了SUBSUMM,一种用于大规模多视角意见摘要的监督摘要框架。SUBSUMM 由回顾抽样策略集和两阶段训练方案组成。抽样策略考虑了情感导向和对比信息价值,可以选择不同视角和质量水平的评论子集。随后,鼓励总结者依次从次优和最优子集中学习,以便利用大量输入。原创 2023-12-15 11:05:33 · 761 阅读 · 0 评论 -
NLP论文阅读记录-EMNLP 2023 | 12 Improving Consistency for Text Summarization with Energy Functions
使用能量函数提高文本摘要的一致性(2310)code项目没有放出代码paper当前的抽象摘要模型经常生成不一致的内容,即不能从源文档直接推断出的文本、与世界知识不一致或自相矛盾的文本。这些不一致激发了一种新的一致性分类法,我们将其定义为忠实性、事实性和自立性。然而,最近关于减少文档摘要不一致的工作只关注忠实度检测和纠正,而忽略了其他不一致现象,这限制了模型的可扩展性。为了提高总体一致性,我们引入了 EnergySum,其中我们通过设计反映每种一致性类型的能量评分器来应用基于剩余能量的模型。原创 2023-12-18 16:31:06 · 1224 阅读 · 1 评论 -
NLP论文阅读记录-EMNLP2023|05 QTSUMM: Query-Focused Summarization over Tabular Data
在这里插入图片描述通过人工编辑改进摘要(2305)codepaper人们主要查阅表格来进行数据分析或回答特定问题。文本生成系统可以根据用户的信息需求提供准确的表格摘要,可以促进更有效地访问相关数据见解。受此启发,我们定义了一个新的以查询为中心的表摘要任务,其中文本生成模型必须对给定的表执行类似人类的推理和分析,以生成定制的摘要。我们为此任务引入了一个名为 QTSUMM 的新基准,其中包含 2,934 个表中的 7,111 个人工注释的查询摘要对,涵盖不同的主题。原创 2023-12-13 14:51:58 · 902 阅读 · 0 评论 -
NLP论文阅读记录-EMNLP 2023 | 08 Multi-Stage Pre-training Enhanced by ChatGPT for Multi-Scenario
ChatGPT增强的多阶段预训练,实现多场景多领域对话摘要(2310)codepaper对话摘要涉及广泛的场景和领域。然而,现有方法通常仅适用于特定场景或领域。在本研究中,我们提出了一种专门为多场景多领域对话摘要设计的新预训练模型。它采用多阶段预训练策略来缩小预训练目标和微调目标之间的差距。具体来说,我们首先使用大规模多场景多域对话数据进行领域感知预训练,以增强预训练模型的适应性。然后,我们使用 ChatGPT 标注的大规模多场景多域“dialoguesummary”并行数据。原创 2023-12-13 20:16:40 · 956 阅读 · 0 评论 -
NLP论文阅读记录-EMNLP2023| 09 Background Summarization of Event Timelines
事件时间线的背景总结(2310)codepaper生成新闻事件的简明摘要是一项具有挑战性的自然语言处理任务。虽然记者经常策划时间线来突出关键的子事件,但新闻事件的新手在了解其历史背景方面面临着挑战。在本文中,我们通过引入背景新闻摘要任务来满足这一需求,该任务通过相关先前事件的背景摘要来补充每个时间线更新。我们通过合并现有时间线数据集并要求人类注释者为每个新闻事件的每个时间步编写背景摘要来构建数据集。我们使用最先进的摘要系统建立强大的基线性能,并提出一个以查询为中心的变体来生成背景摘要。原创 2023-12-14 14:41:56 · 1056 阅读 · 1 评论 -
NLP论文阅读记录-EMNLP 2023 | 01 Improving Summarization with Human Edits
通过人工编辑改进摘要codepaper最近的工作表明,利用人类反馈范式进行学习可以产生人类决定的高质量文本。现有的工作使用人类反馈来训练通用领域抽象摘要中的大型语言模型(LLM),并获得了超过传统似然训练的摘要质量。在本文中,我们重点关注一种较少探索的人类反馈形式——人类编辑。我们提出了序列比对(非)似然训练(SALT),这是一种在训练循环中同时使用人工编辑和模型生成的数据的新技术。原创 2023-12-12 16:29:09 · 986 阅读 · 0 评论 -
NLP论文阅读记录-EMNLP 2023 | 03 Citance-Contextualized Summarization of Scientific Papers
科学论文的引用语境摘要 (2311)codepaper当前科学论文自动摘要的方法以摘要的形式生成信息丰富的摘要。然而,摘要并不旨在显示论文与其中引用的参考文献之间的关系。我们提出了一种新的情境化摘要方法,可以根据包含参考文献引用(所谓的“引用”)的给定句子生成内容丰富的摘要。此摘要概述了与引用位置相关的被引用论文的内容。因此,我们的方法提取论文的引用并对其进行建模,从引用的论文中检索相关段落,并生成针对每个引用的抽象摘要。原创 2023-12-12 19:59:58 · 1096 阅读 · 0 评论 -
NLP论文阅读记录-EMNLP2023| 04 GEMINI: Controlling The Sentence-Level Summary Style in Abstractive Text
在这里插入图片描述GEMINI:控制抽象文本摘要中的句子级摘要样式(2312 4)codepaper人类专家使用不同的技术编写摘要,包括从文档中提取句子并重写,或者融合文档中的各种信息以对其进行抽象。这些技术非常灵活,因此很难通过任何单一方法来模仿。为了解决这个问题,我们提出了一种自适应模型 GEMINI,它集成了重写器和生成器来分别模仿句子重写和抽象技术。GEMINI 自适应地选择重写特定的文档句子或从头开始生成摘要句子。原创 2023-12-12 21:17:03 · 984 阅读 · 0 评论 -
NLP论文阅读记录-EMNLP 2023 | 06 A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document Sum
通过人工编辑改进摘要(2305)paper预训练语言模型(PLM)在抽象单文档摘要(SDS)方面取得了杰出的成就。然而,这种好处可能无法完全扩展到多文档摘要(MDS),其中跨文档信息的处理更加复杂。以前的工作要么设计新的 MDS 架构,要么直接将 PLM 与串联的源文档一起应用为重新制定的 SDS 任务。虽然前者没有利用之前的预训练工作,并且可能无法在不同领域之间很好地推广,但后者可能无法充分关注 MDS 任务特有的复杂的跨文档关系。原创 2023-12-13 15:32:54 · 866 阅读 · 0 评论 -
NLP论文阅读记录-EMNLP 2023 | 10 Enhancing Biomedical Lay Summarisation with External Knowledge Graphs
利用外部知识图增强生物医学外行总结(2310)codepaper以前的自动外行摘要方法完全依赖于源文章,因为它是为技术受众(例如研究人员)编写的,不太可能明确定义所有技术概念或陈述与外行相关的所有背景信息观众。我们通过使用特定于文章的知识图来增强 eLife(现有的生物医学外行总结数据集)来解决这个问题,每个知识图都包含相关生物医学概念的详细信息。使用自动评估和人工评估,我们系统地研究了将知识图合并到外行摘要模型中的三种不同方法的有效性,每种方法都针对编码器-解码器模型架构的不同区域。原创 2023-12-14 21:21:15 · 978 阅读 · 1 评论