NLP论文阅读记录-EMNLP 2023 | 10 Enhancing Biomedical Lay Summarisation with External Knowledge Graphs


前言

在这里插入图片描述

利用外部知识图增强生物医学外行总结(2310)

code
paper


0、论文摘要

以前的自动外行摘要方法完全依赖于源文章,因为它是为技术受众(例如研究人员)编写的,不太可能明确定义所有技术概念或陈述与外行相关的所有背景信息观众。
我们通过使用特定于文章的知识图来增强 eLife(现有的生物医学外行总结数据集)来解决这个问题,每个知识图都包含相关生物医学概念的详细信息。使用自动评估和人工评估,我们系统地研究了将知识图合并到外行摘要模型中的三种不同方法的有效性,每种方法都针对编码器-解码器模型架构的不同区域。
我们的结果证实,集成基于图的领域知识可以通过大幅提高生成文本的可读性和改进技术概念的解释来显着有益于外行总结。1

一、Introduction

1.1目标问题

外行总结包括生成一个简明的摘要,说明较长的技术(或其他专业)文本的重要性,并且非专家也可以理解(Kuehne 和 Olden,2015)。通俗摘要应包含最少的术语和技术细节(例如方法论),而不是主要侧重于关键技术概念的简化以及解释或相关背景信息,从而使没有技术知识的读者能够掌握文章的一般主题和主要思想。

1.2相关的尝试

文章(Srikanth 和 Li,2021;Goldsack 等人,2022)。然而,由于原始文章是针对已经具备一定领域知识的技术读者的,因此不太可能明确包含外行摘要所需的所有信息,例如背景详细信息或定义。因此,外行摘要通常高度抽象,采用比原始文章更简单的词汇(Goldsack 等人,2022),并且通常由拥有简化和解释文章内容所需知识的专家撰写(King等人,2017)。尽管外行摘要和源文章之间存在差异,但外行摘要的自动方法通常仅依赖于源文章作为输入(Chandrasekaran 等人,2020;Guo 等人,2021;Luo 等人,2022a)。

1.3本文贡献

为了解决这个问题,我们建议利用外部领域知识增强外行摘要模型,开展第一项关于知识图谱增强外行摘要的研究,重点关注生物医学文章。我们通过特定于文章的知识图来增强 eLife(Goldsack 等人,2022),这是一个现有的高质量的概括数据集,其中包含有关文章中涵盖的技术概念和关系的信息。它们之间存在(如图 1 所示),从而提供了领域知识的结构化表示,人类专家作者在撰写通俗摘要时可以利用该知识(§3)。在这样做时,我们假设模型为非专业观众简化和解释技术概念的能力将会提高。
尽管其他形式的摘要任务(例如新闻文章)在使用知识图增强模型方面已经有了重要的研究(Huang et al., 2020; Zhu et al., 2021a; Lyu et al., 2022),但这尚未进行探索以进行外行总结。据我们所知,目前还没有确定将基于图形的知识纳入外行摘要或其他摘要任务的最有效方法的工作。
因此,我们系统地研究了三种不同方法的有效性,将基于图形的信息注入到外行摘要模型(§4)中,并通过自动和人工评估(§5和§6)对其进行评估。
我们的结果表明,基于图的领域知识的集成可以显着改进自动平铺摘要,使模型能够生成更具可读性的文本并更好地解释技术概念。

二.相关工作

2.1 外行总结

外行总结任务是一项相对新颖的任务,由 CL-SciSumm 2020 共享任务系列的 LaySumm 子任务引入(Chandrasekaran 等人,2020)。该任务引入了包含 572 个文章摘要对的多领域语料库,总共吸引了 8 名参与者。 Kim (2020) 提出的获胜系统采用了一种混合方法,使用基于 PEGASUS (Zhang et al., 2020) 的模型来生成初始的抽象概括摘要,然后用 BERT 提取的足够可读的文章句子来增强它。基于模型(Devlin 等人,2019)。
随后的外行总结工作几乎完全集中在新语料库(全部来自生物医学领域)的引入和基准测试上,而不是引入该任务的特定建模方法。郭等人。 (2021) 引入了 CDSR,这是一个源自 Cochrane 系统评价数据库的数据集,而 Goldsack 等人。 (2022) 介绍 PLOS 和 eLife,这两个数据集源自不同的生物医学期刊(公共科学图书馆和 eLife2 两项研究都使用广泛使用的摘要方法对其数据集进行基准测试,其中 BART 变体(Lewis 等人,2020 年)总是取得最强的性能。在另一项高度相关的工作中,Luo 等人。 (2022a) 使用来自 PLOS 的数据解决可读性控制摘要的任务,训练基于 BART 的模型以在受控环境中生成文章的摘要和简明摘要。与以前的工作相比,我们研究了使用特定于文章的知识图来建模和将结构化领域知识集成到外行摘要模型中的未经探索的方法。

2.2 知识图谱增强文本生成

近年来,人们对利用包含外部知识的知识图谱(KG)进行文本生成越来越感兴趣,特别是在常识知识的建模方面。特别是,专注于对话生成(Zhou et al., 2018;Tang et al., 2023)、常识推理(Liu et al., 2021)、故事生成(Guan et al., 2019;Tang et al., 2023)等任务的作品et al., 2022)、论文生成(Yang et al., 2019)都看到了常识知识图谱增强模型的引入。
最近的一些工作也集中在使用知识图谱进行抽象总结,但倾向于对内部知识进行建模。为了提高摘要的真实性和信息量,Huang 等人。 (2020),朱等人。 (2021a)和Lyu等人。 (2022)都利用 OpenIE 从源文档(新闻文章)构建基于事实的知识图。黄等人。 (2020)和朱等人。 (2021a) 使用图注意网络提取图节点特征 (Veliˇ ckovi ́ c et al., 2017),然后使用注意机制将这些特征合并到摘要模型解码器中。吕等人。 (2022) 相反,利用额外的语义丢失措施来尝试使用改编的指针生成器网络来捕获提取的事实。
与之前的工作相比,我们将基于 KG 的技术应用于生物医学外行摘要(而不是新闻文章摘要),这是一个面临额外挑战的领域,包括输入文章的长度过长以及存在需要简化或解释的复杂技术概念。此外,由于任务的独特要求,我们通过主要使用外部领域知识源而不是文章本身来构建知识图来进行创新,就像以前的方法一样。

三.本文方法

3.1 文章知识图

我们通过异构文章特定知识图(KG)增强了 eLife,这是一个用于生物医学外行总结的现有数据集。每个知识图谱都包含有关文章中涵盖的复杂生物医学概念及其之间关系的结构化信息。为了本地化此信息并提供文章中提到概念的位置的指示,我们还选择通过使用特定于章节的节点在图表中对文章基于章节的文档结构进行建模。
下面,我们详细描述:1)我们提取模型使用的知识的过程(第 3.1 节),以及 2)我们如何在知识图谱中构建该知识(第 3.2 节)。我们将基于图的知识集成到摘要模型中的方法将在第 4 节中讨论。

3.1.1 知识提取

为了提取文章的相关领域知识,我们利用统一医学语言系统(UMLS)(Bodenreider,2004)。这种丰富且积极维护的资源长期以来一直被用作生物医学领域 NLP 的关键知识源(McCray 等人,2001;Demner-Fushman 等人,2010;Kang 等人,2021),并由以下部分组成:三个主要组成部分:元同义词库、语义网络以及专业词典和词汇工具。 Metathesaurus 是一个广泛的多语言词汇数据库,包含大量生物医学概念的信息,包括它们的各种名称和定义。语义网络定义了一组语义类型,代表广泛的主题类别,元叙词表中的所有概念都可以分配到这些类别中。此外,还定义了不同语义类型之间发生的高级关系。为了提取给定文章中提到的 UMLS 概念,我们利用 MetaMap(Aronson 和 Lang,2010),它是与 UMLS 一起为此目的提供的词汇工具之一,在之前的工作中广泛使用(Sang 等人,2018; Sharma 等人,2019;Lai 等人,2021)。对于所有的艺术在 eLife 的 cles 中,我们依次将 MetaMap 应用于每个部分,检索所有提到的 UMLS 概念。我们将 MetaMap 限制为仅使用选定数量的英语词汇,而没有禁止的访问限制,但否则使用默认设置运行它。
根据之前作品中的观察结果(Lai 等人,2021),我们发现 MetaMap 虽然成功地将文本中提到的生物医学实体与其相应的 UMLS 概念联系起来,但也经常返回一些不相关的概念。因此,我们采用基于文本重叠的方法来过滤给定部分的原始提取概念池,根据经验,我们发现这种方法可以消除绝大多数噪音。3
对于每个剩余的 UMLS 概念,除了概念和语义类型的正式定义之外,我们还检索与其关联的所有语义类型。值得注意的是,这些定义被用作所有三种 KG 增强方法中不可或缺的组成部分。4 为了确认它们对非专业受众的适合性,我们计算了它们的平均可读性分数,并将其与 Goldsack 等人报告的分数进行比较。 (2022) 获取 eLife 文章的技术摘要和简明摘要。表 1 中给出的分析结果表明,UMLS 定义获得的分数总体上比摘要更接近外行摘要的分数,实际上在四个指标中的两个(FKGL 和 WordRank)中超过了它们。附录中的图 6 给出了用于文本增强的定义格式的示例。在下一节中,我们将描述如何在特定于文章的知识图中表示所有提取的信息。

3.1.2 图构建

每个图 G = {V, E},其中 V 是一组节点(或实体),E 是一组边。每条边 eij ∈ E 定义了实体 vi、vj ∈ V 之间的关系 rij,因此可以表示为三元组 eij = (vi, rij, vj)。所有图都是异构的,包含多种类型的实体和关系。图 2 展示了文章知识图的可视化。5 每种类型的节点描述如下:
文档节点 – 中心根节点,它是图中所有其他节点的祖先。我们简单地使用分配给每篇文章的唯一 ID 来标记该节点。
• 节节点 – 每个节节点代表文档的特定标题部分(例如简介),包括摘要。为了标记这些节点,我们将文章 ID 与摘要的“_Abs”或其他部分的“_Sec{i}”连接起来,其中 {i} 是该部分的索引(从零开始)。
• 元数据节点——识别与文章或其特定部分相关的附加信息。这包括文章和章节标题、文章关键字和发布日期。 • 概念节点——代表UMLS 概念的节点。它们标有唯一的 UMLS 标识符 (CUI)。
• 语义类型节点——表示来自语义网络的语义类型的节点。它们标有其独特的语义类型标识符 (TUI)。除了语义网络中定义的 54 种不同关系类型(例如图 2 中的影响)
之外,我们还定义了几种关系来表示图结构和附加元数据。具体来说,我们定义关系 contains、was_published_in、has_title 和 has_keyword。
在这里插入图片描述

3.2 知识增强的外行总结方法

我们研究了三种不同方法将文章图中的外部知识合并到基于编码器-解码器的摘要模型中的有效性。我们的实验经过精心设计,以便针对每种选定方法的模型架构中的不同方面(即输入、编码器和解码器),从最近在新闻文章领域被证明有效的模型中汲取灵感总结(Zhu et al., 2021a;Pasunuru et al., 2021)。图 3 直观地展示了每种方法如何融入该架构。为了允许摄取完整的输入文章,我们使用 Longformer Encoder-Decoder (Beltagy et al., 2020) 作为所有实验的基础模型。这种基于 BART 的模型用稀疏注意力机制取代了标准的 Transformer 自注意力,该机制可线性缩放到序列长度,从而能够处理更长的序列

在这里插入图片描述
exts(例如研究文章)。我们在下面详细描述每种知识增强方法。
(A) 解码器交叉注意力。我们利用图注意力网络(GAT)(Veliˇ ckovi ́ c et al., 2017)来获得与基本模型编码器并行的文章图 G 的嵌入。

在这里插入图片描述
这些图神经网络(GNN)模型通过使用注意力层有效聚合相邻节点的特征来生成最终的一组节点特征(即图嵌入),并在当前文献中广泛用于聚合基于图的信息NLG 任务(Huang 等人,2020;Zhu 等人,2021b;Liu 等人,2021)。在解码阶段,我们遵循之前的工作(Zhu et al., 2021a),强制我们的模型关注 KG 嵌入 HG。具体来说,在解码器的每个 Transformer 层中,我们都包含第二个交叉注意力机制,该机制直接发生在标准编码器交叉注意力之后(参见图 3 中的箭头 A),并关注基于 GAT 的模型的输出。

(B) 文档嵌入增强
同样,我们使用 GAT 模型获得了嵌入图表示 HG,但我们遵循 Pasunuru 等人的方法,而不是在解码过程中关注图嵌入。 (2021),将嵌入的节点信息组合到最终的文档嵌入中(即编码器的输出)。具体来说,我们将文档和图形嵌入连接起来,然后将它们传递到附加的编码器层。对于给定的输入文档 X,该过程可以形式化如下:
在这里插入图片描述
其中 HX 是文档 X 的嵌入,HC 是连接的文档和图形嵌入,H* 是最终的“增强”文档嵌入,随后在解码过程中进行处理,p 是控制附加编码器的程度的比例因子层输出被合并到最终的增强文档嵌入中。请注意,p 被视为模型的超参数,发现 0.25 的值可提供最强的验证集性能。6
© 文章文本增强。
我们还尝试通过对从图中导出的关键概念(及其关系)的文本解释来简单地增强输入文本。虽然这可能是基于 PLM 的模型解释外部信息的最“自然”方式,但这种方法会导致描述每个元素所需的标记数量,因此它仅限于一组少数概念。我们仅选择那些可能对文章主题最核心的实体(因此与外行摘要相关)。具体来说,我们采用文章摘要中提到的概念节点,并使用图关系和检索到的定义来提供这些显着概念及其语义类型的文本解释,然后将其添加到文章文本中。其格式为“{concept_name} = {concept_definition}”。 {concept_name} 是一个 {semtype_name}。” 对每个选定的概念重复,后面是格式为“{semtype_name} = {semtype_definition}” 的语义类型定义,对所有提到的语义类型重复。

四 实验效果

4.1数据集

我们导出了 eLife(Goldsack 等人,2022)中所有文章的知识图,这是一个包含 4,828 个文章摘要对的生物医学外行摘要数据集。目标摘要是专家撰写的非专业摘要(即非专家目标受众的摘要),输入是相应生物医学研究文章的全文。正如第 1 节中所解释的,我们认为此任务特别适合领域知识增强,因为源和目标之间目标受众的专业水平存在差异,这会导致所使用的语言存在差异(具体来说,减少或解释行话)术语)和所需背景信息的水平。7

4.2 对比模型

作为基线模型,我们采用了 BART(Lewis 等人,2020),这是 Goldsack 等人报告的最先进的基准。 (2022) for eLife,以及其他先前的外行总结作品(Guo et al., 2021)。此外,我们还包括 BARTscaffold(Goldsack 等人,2022)报告的性能,这是 BART 的一种变体,经过训练可以在受控环境中生成文章的摘要和简明摘要,这相当于 Luo 等人提出的模型。 (2022a).8

4.3实施细节

每种基于知识的方法都是通过手动调整 Huggingface 的 Longformer 实现来实现的(Wolf 等人,2020),并遵循之前关于外行总结的工作(Chandrasekaran 等人,2020;Luo 等人,2022b;Goldsack 等人,2022)。 ,2022),使用完整的文章文本作为输入。对于基于 GAT 的模型,我们利用 Deep Graph Library 包(Wang et al., 2019)来实现每层有 4 个注意力头的 3 层 GAT。对于文章图,我们根据节点类型(如第 3.2 节中定义)改变节点初始化方法。具体来说,我们初始化概念和语义类型节点特征,并嵌入它们的文本定义;文档和节节点及其标题文本的嵌入(标题元数据节点随后被忽略);以及剩余的元数据节点(发布日期和关键字)及其文本内容的嵌入。所有嵌入均使用 SciBert(Beltagy 等人,2019)生成,这是一种专门根据 Semantic Sc​​holar(Ammar 等人,2018)的研究论文进行训练的语言模型,广泛用于科学数据(Cohan 等人,2019;Cai等人,2022;Goldsack 等人,2023b)。此外,所有节点嵌入特征都根据节点类型以及随机游走位置编码与 one-hot 特征连接起来(Dwivedi 等人,2021)。使用 allenai/led-base-16384 检查点进行初始化后,我们在 A100 GPU 上训练所有模型,并保留具有最佳验证集性能的检查点(附录中提供了更多详细信息)。

4.4评估指标

Automatic evaluation.
对于每个模型,我们报告了 eLife 测试中几个自动指标的平均分数。按照惯例,我们报告广泛使用的摘要指标:BERTScore(Zhang 等人,2019)和 ROUGE-1、2 和 L 的 F1 分数(Lin,2004)。为了评估生成的摘要的可读性,我们报告了 Flesh-Kincaid 年级水平 (FKGL) 和 Dale-Chall 可读性分数 (DCRS),这两个分数均计算美国年级水平的估计值9 此外,我们使用 BARTScore(Yuan 等人,2021 年)评估事实性,在最近的一项专门针对长文档的研究中,该研究已被证明与人类对事实一致性的判断具有很强的一致性(Yee Koh)等人,2022)。继 Yee Koh 等人之后。 (2022),我们调整 BARTScore 以使用 Longformer(从而允许它处理整个文档作为输入)并在 eLife 上对其进行微调。
Human evaluation.
为了对每个知识增强模型生成的摘要进行全面评估,我们进行了注重可读性和真实性的人工评估。具体来说,利用 eLife 测试集中随机抽取的 5 篇文章,我们要求人类评委按照以下二元标准评估生成的摘要中的每个句子:

  1. 事实性 - 句子是否确实正确(相对于源文章) ;
  2. 可读性 - 外行人是否能够理解这句话。10 为了帮助确定该句子的真实性,注释者可以访问源文章的 PDF 以及参考外行摘要。 11

4.5 实验结果

在这里插入图片描述

表 2 展示了在 eLife 测试集上使用所描述的自动评估指标的不同模型的性能。除了单独应用 KG 增强方法外,我们还尝试组合不同的方法,这我们在很大程度上发现这对模型性能不利。附录中提供了组合方法的讨论和结果(表 6)。我们在下面讨论单独应用的方法的性能,依次关注自动评估的各个方面。
相关性
可以看出,Longformer 在相关性指标方面优于标准 BART 模型,这表明处理整个文档为外行摘要提供了一些好处。此外,所有三种知识增强方法在几乎所有相关性指标上都显着提高了分数(“解码器注意力”模型的 R2 除外)。这有力地表明,基于图形的领域知识的添加为模型提供了相关的外部信息,使它们能够生成与高质量参考更相似的简单摘要。
可读性
对于可读性指标,首先可以注意到,基于 Longformer 的模型获得的 CLI 和 DCRS 分数低于基于 BART 的模型。 CLI 的计算基于其包含的字符、单词和句子的数量,而 DCRS 则基于“熟悉”(即常用)单词的频率,这表明 Longformer 生成的摘要在句法和词汇上较少复杂的。
我们观察到,所有知识增强方法的应用都会导致这两个指标的得分提高,其中文档增强方法获得的收益最大。这表明所有知识增强方法都能够通过增加更常见(即技术性较低)术语的使用来成功影响所生成的摘要的措辞和结构。如表 1 所示,参考外行摘要的平均 CLI 和 DCRS 分数
事实
对于 BARTScore (BAS),我们再次看到所有 KG 增强方法相对于基础 Longformer 模型在统计上显着的改进,其中最大的改进是通过 doc-enhance 方法获得的。为了进一步了解这些结果,我们还计算了通过参考摘要获得的 BARTScore 值,得到平均分 -2.39,这与所有测试模型的得分相似(并且与 BART 相同)。这表明所有模型都能够生成生成概率与参考摘要相似的摘要。然而,鉴于一个模型(文档增强)实际上超过了参考摘要,因此需要进一步分析以了解每种方法生成的摘要的事实正确性的差异,为此我们转向人工评估。

人工评价
鉴于根据源文章评估技术生物医学句子的真实性具有挑战性且耗时,我们仔细计划我们的人工评估,以确保我们结果的可靠性。我们聘请了两名注释者按照第 5 节中规定的程序来评估生成的句子,他们都是 NLP 专家,熟悉常见的模型缺陷(例如幻觉)。表 3 显示了在可读性和真实性方面均被正面分类的句子的总百分比,这些评估者的 Cohan’s κ 值为 0.42。
表 3 中的结果表明,所有 KG 增强方法的应用都会导致模型生成的文本的可读性显着增加,所有模型都得分ing 明显高于基本 Longformer 模型。另外,事实性结果表明,尽管知识图谱方法之间的性能存在细微差异,但它们都没有被认为具有统计显着性。这些结果表明,所有方法都能够有效地将相关外部信息引入模型,使其能够生成更容易为非专业观众理解的文本,而不会显着损害基本模型的事实正确性。
为了更好地了解知识增强方法如何影响生成摘要的可读性,我们在图 4 中提出了一个案例研究,其中我们比较了 KG 增强模型和基本 Longformer 模型及其注释器生成的特定技术概念的解释收视率
这些示例展示了 KGenhancement 方法如何改进模型对技术概念的处理,从而使非专业读者更容易理解它们。具体来说,示例展示了方法如何影响模型在基本模型无法提供解释的情况下生成解释 (b),或在基本模型难以理解的情况下改进解释(a 和 c)。


五 总结

本文提出了第一个关于使用知识图来增强外行摘要的研究,通过包含相关技术概念的特定领域外部知识的特定文章知识图来增强生物医学外行摘要数据集 eLife。
我们比较了将基于图的知识合并到编码器-解码器摘要模型中的三种不同方法,重点关注生成输出的可读性和事实正确性。
我们的结果表明,整合外部知识有可能大大提高外行总结能力,特别是在生成可读文本和解释技术概念方面。我们希望看到未来的工作研究附加图形表示的使用,以及将它们集成到采用不同架构(例如,仅解码器)的更大模型中。

局限性

我们工作的一个可能的限制源于对 UMLS 资源的使用(即 UMLS 概念名称、语义类型和关系、定义等)。访问这些资源需要获得美国国家医学图书馆 (NLM) 的单独许可,其后续分发受此许可协议的限制。
因此,我们可能必须确认那些希望访问本工作中使用的知识图资源的人的许可证状态。为了减少这对共享资源的能力产生的任何潜在影响,我们仅使用部分限制较少的词汇表许可。附录中提供了有关所用词汇的更多详细信息。

  • 21
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值