LinkBERT: Pretraining Language Models with Document Links 论文总结

最新推荐文章于 2024-08-12 12:34:06 发布

南楚巫妖

最新推荐文章于 2024-08-12 12:34:06 发布

阅读量2.3k

点赞数

分类专栏：论文学习日常总结自然语言处理文章标签：深度学习

本文链接：https://blog.csdn.net/yingdajun/article/details/123875103

版权

自然语言处理同时被 3 个专栏收录

40 篇文章 5 订阅

订阅专栏

论文学习

7 篇文章 0 订阅

订阅专栏

日常总结

7 篇文章 0 订阅

订阅专栏

LinkBERT是一种预训练语言模型，通过整合文档间的链接（如维基百科超链接和PubMed引用），增强了多跳知识学习和文档关系理解。在通用领域和生物医学领域，LinkBERT在问答、NLP任务中超越BERT，特别是在多文档理解和少量问答上表现突出。

摘要由CSDN通过智能技术生成

LinkBERT: Pretraining Language Models with Document Links

Link BERT：带有文档链接的预训练语言模型

源码位置:
https://github.com/michiyasunaga/LinkBERT

摘要

语言模型（LM）预训练可以从文本语料库中学习各种知识，帮助下游任务。然而，现有的方法（如BERT）对单个文档建模，并且不能捕获跨文档的依赖关系或知识。在这项工作中，我们提出了LinkBERT，这是一种LM预训练方法，利用文档之间的链接，例如超链接。给定一个文本语料库，我们将其视为一个文档图，并通过将链接文档放置在同一上下文中来创建LM输入。然后，我们用两个联合的自我监督目标对LM进行预训练：蒙面语言建模和我们的新方案文档关系预测。我们发现，LinkBERT在两个领域的各种下游任务上都优于BERT：普通领域（在维基百科上通过超链接进行预训练）和生物医学领域（在PubMed上通过引用链接进行预训练）。LinkBERT在多跳推理和少镜头QA方面尤其有效（HotpotQA和TriviaQA的绝对改善率为5%），我们的生物医学LinkBERT在各种BioNLP任务上创造了最新水平（BioASQ和USMLE的绝对改善率为7%）。我们发布了预训练模型LinkBERT和BioLinkBERT，以及代码和数据

1.介绍

预训练语言模型（LMS），如伯特和GPTs（德夫林等人，2019；Brown等人，2020），在许多自然语言处理（NLP）任务（如文本分类和问答）任务上表现出显著的性能，成为现代NLP系统的基础（BurMasaI等人，2021）。通过执行自我监督学习，如蒙面语言建模（Devlin等人，2019），LMs学习对文本语料库中的各种知识进行编码，并为下游任务生成信息表示（Petroni等人，2019年；Bosselut等人，2019年；Raffel等人，2020年）。

在这里插入图片描述
图1 文档链接（例如超链接）可以提供显著的多跳知识。例如，维基百科的文章《潮汐盆地》（左）描述了该盆地举办“全国樱花节”。这篇超链接文章（右）揭示了这个节日庆祝“日本樱桃树”。综上所述，该链接提供了单个文档中无法获得的新知识（例如，“潮汐盆地有日本樱桃树”），这些知识可用于各种应用，包括回答一个问题“你在潮汐盆地能看到什么树？”。我们的目标是利用文档链接，将更多知识纳入语言模型预训练中。

在这里插入图片描述
图2 我们的方法概述，LinkBERT。给定一个预训练语料库，我们将其视为一个文档图，带有超链接等链接（§4.1）。为了将文档链接知识整合到LM预训练中，我们通过将一对链接文档放置在相同的上下文（链接）中来创建LM输入，除了现有的选项（如在BERT中放置单个文档（连续）或一对随机文档（随机））之外。然后，我们用两个自我监督的目标来训练LM：蒙面语言建模（MLM），它预测输入中的蒙面标记，以及文档关系预测（DRP），它对输入中两个文本段的关系进行分类（连续、随机或链接）（§4.2）。

然而，现有的LM预训练方法通常考虑来自每个输入上下文中的单个文档的文本（刘等人，2019；Joshi等人，2020），并且不在文档之间建立链接模型。这可能会造成限制，因为文档通常具有丰富的依赖关系（例如超链接、引用），并且知识可以跨越文档。例如，在图1中，维基百科文章“华盛顿特区潮汐盆地”（左）描述了该盆地举办“国家樱花节”，超链接文章（右）揭示了该节日庆祝“日本樱花树”的背景。综上所述，超链接提供了新的多跳知识“潮汐盆地有日本樱桃树”，这在单独的文章“潮汐盆地”中是不可用的。在训练前获得这样的多跳知识可能对各种应用非常有用，包括问答。事实上，超链接和参考文献等文档链接无处不在（如网络、书籍、科学文献），并指导我们人类获取知识和知识的方式甚至还有发现（Margolis等人，1999年）。

在这项工作中，我们提出了LinkBERT，一种有效的语言模型预训练方法，它结合了文档链接知识。给定一个文本语料库，我们可以获得文档之间的链接，例如超链接，并通过将链接文档放置在相同的上下文中来创建LM输入，除了现有的将单个文档或随机文档放置在BERT中的选项之外。具体来说，如图2所示，在对锚文本段进行采样后，我们将（1）来自同一文档的连续段，（2）随机文档，或（3）从锚文本段链接的文档，作为输入中的下一段。然后，我们通过两个共同目标对LM进行培训：我们使用蒙面语言建模（MLM）来鼓励学习通过文档链接（如图1中的“潮汐盆地”和“日本樱桃”）带入相同上下文的概念的多跳知识。同时，我们提出了一个文档关系预测（DRP）目标，该目标将第二段与第一段（连续、随机或链接）的关系进行分类。DRP鼓励学习文档之间的相关性和衔接概念（例如“国家樱花节”），而不仅仅是在BERT中的下一句预测目标中学习的能力。

将训练前语料库视为一个文档图，LinkBERT也被视为图上的自我监督学习，其中DRP和MLM对应于图机器学习中的链接预测和节点特征预测（Y ang等人，2015；Hu等人，2020）。因此，我们的建模方法提供了基于语言和基于图形的自监督学习的自然融合。

我们在两个领域对Link进行培训：通用领域，使用带有超链接的维基百科文章（§4）；生物医学领域，使用带有引用链接的PubMed文章（§6）。然后，我们评估了这两个领域中广泛的下游任务（如问答）的预训练模型。LinkBERT在域和任务之间持续改进基线LMs。在一般领域，LinkBERT在MRQA基准（F1分数为4%绝对值）和GLUE基准上都优于BERT。在生物医学领域，LinkBERT超越了PubmedBERT（Gu等人，2020年），并在BLURB生物医学NLP基准（BLURB分数为绝对3%）和MedQA USMLE推理任务（准确度为绝对7%）方面创造了新的技术水平。总的来说，LinkBERT在多跳推理、多文档理解和少量问答方面取得了显著的进步，这表明LinkBERT通过文档链接信息的预训练，比现有的LMs内化了更多的知识。

2 相关工作

检索增强LMs
几部著作（Lewis等人，2020b；Karpukhin等人，2020；Oguz等人，2020；Xie等人，2022）介绍了LMs的检索模块，在给定锚文本（例如问题）的情况下，检索到的文本被添加到相同的LM上下文中，以改进模型推理（例如答案预测）。这些工作显示了在推理时将相关文档放在同一LM上下文中的前景，但它们没有研究在预训练中这样做的效果。Guu et al.（2020）pretrain是一个LM，它有一个检索器，可以学习检索文本，以回答锚文本中的屏蔽标记。相比之下，我们的重点不是检索，而是预培训一个通用的LM，它将跨文档的知识内化，这与上述工作是正交的（例如，我们预培训的LM可用于初始化这些工作的LM组件）。此外，我们关注于合并超链接等文档链接，它可以提供常见词汇检索方法可能无法提供的显著知识（Asai等人，2020）。

预培训LMs和相关文件
几个并行工作使用多个相关文档来预训练LMs。Caciularu等人（2021年）将关于同一主题的文档（新闻文章）放在同一LM语境中，Levine等人（2021年）将词汇高度相似的句子放在同一语境中。我们的工作提供了一种将文档链接合并到LM预训练中的通用方法，其中除了超链接之外，词汇或主题相似性也可以是文档链接的一个实例。我们在这项工作中重点关注超链接，因为我们发现它们可以通过词汇相似性引入可能不明显的显著知识，并产生更高性能的LM（§5.5）。此外，我们还提出了DRP目标，该目标改进了LMs中多个文档的建模以及它们之间的关系（§5.5）。

NLP的超链接和引用链接
超链接通常用于学习更好的检索模型。Chang等人（2020年）；Asai等人（2020年）；Seonwoo等人（2021年）使用维基百科的超链接来训练检索器进行开放域问题回答。Ma等人（2021年）研究了各种超链接感知的预训练任务，以供检索。虽然这些作品使用超链接学习寻回犬，但我们专注于使用超链接为学习通用LMs创造更好的环境。另外，Calixto等人（2021年）使用维基百科超链接学习多语言LMs。引用链接通常用于改进学术论文的总结和推荐（Qazvinian和Radev，2008年；Y asunaga等人，2019年；Bhagavatula等人，2018年；Khadka等人，2020年；Cohan等人，2020年）。在这里，我们利用引文网络来改进预培训通用LMs。

图增广LMs
有几项工作用图来增强LMs，通常是知识图（KG），其中节点捕捉实体并沿其关系进行边。张等（2019）；He等人（2020年）；Wang等人（2021b）将LM训练与KG嵌入相结合。Sun等人（2020年）；Yasunaga等人（2021年）；Zhang等人（2022）将LMs和图形神经网络（GNNs）结合起来，共同训练文本和KGs。与KG不同，我们使用文档图来学习跨文档的知识。

3 预备知识

语言模型（LM）可以从文档库X={X（i）}中预训练出来。LM是由两个函数fhead（fenc（X））组成，其中编码器fenc接收令牌序列X=（x1，x2，…，xn），并为每个令牌（h1，h2，…，hn）生成上下文化的向量表示。头部fhead使用这些表示在预训练步骤中执行自我监督任务，并在微调步骤中执行下游任务。我们以BERT（Devlin et al.，2019）为基础，它通过以下两个自我监督的任务预训练LM。

蒙面语言建模（MLM）。给定一个令牌序列X，一个令牌子集Y⊆ X被屏蔽，任务是根据修改后的输入预测原始标记。Y占X中代币的15%；其中80%被[MASK]替换，10%被随机标记替换，10%保持不变。

下一句预测（NSP）。NSP任务将两个文本段2（XA，XB）作为输入，并预测XB是否是XA的直接延续。具体来说，BERT首先从语料库中采样XA，然后（1）从同一文档中提取下一段XB，或者（2）从语料库中的随机文档中采样XB。这两个段通过特殊标记连接起来，形成一个输入实例[CLS]XA[SEP]XB[SEP]，其中[CLS]的预测目标是XB是否确实跟随XA（连续或随机）。

在这项工作中，我们将进一步将文档链接信息合并到LM预培训中。我们的方法（§4）将以传销和NSP为基础

4 LinkBERT

我们介绍了LinkBERT，这是一种自我监督的预训练方法，旨在利用文档链接信息将更多知识内化到LMs中。具体地说，如图2所示，我们不是将预训练语料库视为一组文档X={X（i）}，而是将其视为一个文档图，G=（X，E），其中E={（X（i），X（j））}表示文档之间的链接（§4.1）。这些链接可以是现有的超链接，也可以通过捕获文档相关性的其他方法构建。然后，我们考虑从文档链接学习的席前任务（第4.2章）：我们通过将链接的文档放置在同一上下文窗口中，除了单个文档或随机文档的现有选项之外，创建LM输入。我们使用传销任务来学习通过文档链接在上下文中聚集的概念，我们还引入文档关系预测（DRP）任务来学习文档之间的关系。最后，我们讨论了获取链接文档的信息对以供LM预培训（§4.3）使用的策略。

4.1文档图

给定一个预训练语料库，我们链接相关文档，以便这些链接能够汇集单个文档中无法获得的知识。我们专注于关于超链接，例如维基百科文章的超链接（§5）和学术文章的引用链接（§6）。超链接有很多优点。它们提供了文档作者认为有用的概念的背景知识，这些链接可能具有高度的相关性，并且还可以引入仅通过词汇相似性可能不明显的相关文档（例如，在图1中，虽然超链接文章提到了“日语”和“Y oshino”樱桃树，但这些词没有出现在主播文章中）。超链接在网络上也无处不在，很容易大规模收集（Aghajanyan等人，2021年）。为了构造文档图，如果文档X（i）到文档X（j）之间存在超链接，我们只需生成一条有向边（X（i），X（j））

为了进行比较，我们还用文档间词汇相似性构建的文档图进行了实验。对于每个文档X（i），我们使用通用的TF-IDF余弦相似性度量（Chen等人，2017；Yasunaga等人，2017）来获取top-k文档X（j）并生成边（X（i），X（j））。我们使用k=5。

4.2训练前任务

创建输入实例
一些作品（高等人，2021；Levine等人，2021）发现，LMs可以学习在相同的上下文中显示的单词之间的更强的依赖关系，而不是单词。为了有效地学习跨文档的知识，除了现有的单个文档或随机文档选项外，我们还通过将链接文档放置在同一上下文窗口中来创建LM输入。具体来说，我们首先从语料库中抽取一个锚文本片段（片段A；XA）⊆ X（i））。对于下一段（段B；XB），我们可以（1）使用同一文档中的连续段（XB）⊆X（i）），（2）从随机文档（XB）中抽取一段样本⊆X（j），其中j 6=i），或（3）从与段a（XB）链接的一个文档中取样一个段⊆ 其中（X（i），X（j））∈ E）。然后，我们通过特殊标记将这两个段连接起来，形成一个输入实例：[CLS]XA[SEP]XB[SEP]。

培训目标
为了训练LM，我们使用两个目标。第一个是传递目标，鼓励LM学习通过文档链接将概念带入同一语境的多跳知识。我们提出的第二个目标是文档关系预测（DPR），它将XB段的关系r分类为XA段（r∈ {连续的、随机的、链接的}）。通过区分连续和随机，DRP鼓励LM学习文档之间桥接概念的相关性和存在性，以及在常规NSP目标中学习的能力。为了预测r，我们使用[CLS]令牌的表示，如在NSP中。综上所述，我们优化了：
在这里插入图片描述
其中席是输入实例的每个令牌，[CLS] XA[SEP] XB[SEP]，HI是其表示。

图机器学习视角
我们的两个训练前任务，MLM和DRP，也被激励为在文档图上的图形自我监督学习。在图的自监督学习中，节点特征预测和链接预测两种任务通常用于学习图的内容和结构。在节点特征预测（Hu et al.，2020）中，节点的一些特征被屏蔽，任务是使用相邻节点预测它们。这与我们的传销任务相对应，在传销任务中，可以使用段B（图上的链接文档）预测段A中的屏蔽令牌，反之亦然。在链路预测（Bordes et al.，2013；Wang et al.，2021a）中，任务是预测两个节点之间边缘的存在或类型。这与我们的DRP任务相对应，在DRP任务中，我们预测给定的文本段对是链接（边）、连续（自循环边）还是随机（无边）。我们的方法可以被看作是基于语言（如BERT）和基于图形的自监督学习的自然融合。

4.3获取链接文件的策略

如§4.1、§4.2所述，我们的方法在文档之间建立链接，并针对每个锚段，对链接文档进行采样，将其放在LM输入中。在这里，我们讨论三个关键轴考虑，以获得有用的链接文档在这个过程中。

关联
在文档之间建立链接时，语义相关性是必不可少的。如果链接是随机建立的，没有相关性，LinkBERT将与BERT相同，只有两个LM输入选项（连续或随机）。相关性可以通过使用超链接或词汇相似性度量来实现，这两种方法都比使用随机链接产生了更好的性能（§5.5）。

显著性
除了相关性之外，另一个需要考虑的因素是链接文档是否可以提供新的有用的知识，这些知识对当前的LM可能并不明显。在这方面，超链接可能比词汇相似性链接更有优势：LMs被证明擅长识别词汇相似性（Zhang等人，2020），而超链接可以带来有用的背景知识，这些知识可能仅仅通过词汇相似性是不明显的（Asai等人，2020）。事实上，我们根据经验发现，使用超链接可以产生更高性能的LM（§5.5）。

差异
在文档图中，一些文档的度可能非常高（例如，许多传入的超链接，如维基百科的“美国”页面），而其他文档的度可能很低。如果我们从每个锚段的链接文档中统一采样，我们可能会在总体训练数据中过于频繁地包含高度的文档，从而失去多样性。为了调整以使所有文档在训练中以相似的频率出现，我们对一个链接文档进行采样，其概率与其程度成反比，正如在图形数据挖掘文献中所做的那样（Henzinger等人，2000）。我们发现这种技术产生了更好的LM性能（§5.5）。

5 实验

我们首先在一般领域中试验我们提出的方法，在维基百科文章中使用超链接（§5.1）对LinkBERT进行预训练，并对一系列下游任务（§5.2）进行评估。我们将BERT（Devlin等人，2019年）作为基线进行比较。我们在§6中进行了生物医学领域的实验。

5.1预训练设置

数据
我们使用与BERT相同的训练前语料库：维基百科和图书语料库（Zhu等人，2015）。对于Wikipedia，我们使用WikiExtractor3来提取Wiki文章之间的超链接。然后，我们通过对§4中描述的连续、随机或链接段进行采样来创建训练实例，三个选项统一出现（33%、33%、33%）。对于BookCorpus，我们通过采样连续或随机的片段（50%，50%）来创建训练实例，如在BERT中。然后，我们结合来自维基百科和BookCorpus的训练实例来训练LinkBERT。总之，我们的培训前数据与BERT相同，只是我们在维基百科文章之间有超链接。

实施
我们根据BERTtiny（4.4M参数）、BERTbase（110M参数）和BERTlarge（340M参数）的配置（Devlin等人，2019年；Turc等人，2019年）对三种尺寸的LinkBERT进行了预训练。我们使用-tiny主要用于消融研究。

对于-tiny，我们使用随机权重初始化从头开始预训练。我们使用AdamW（Loshchilov and Hutter，2019）优化器（β1，β2）=（0.9，0.98），预热前5000步的学习速率，然后线性衰减它。

我们训练10000个步骤，峰值学习率为5e-3，权重衰减为0.01，批量大小为2048个序列和512个标记。在两个GeForce RTX 2080 Ti GPU和fp16上进行了一天的训练。

对于-base，我们使用Devlin等人（2019）发布的BERTbase检查点初始化LinkBERT，并继续预训练。我们使用3e-4的峰值学习率，训练40000步。其他训练超参数与-tiny相同。在四个装有fp16的A100 GPU上进行了4天的训练。

大体上，我们遵循与-base相同的程序，只是我们使用了2e-4的峰值学习率。在八个装有fp16的A100 GPU上训练了7天。

基线
我们比较LinxBERT和BERT。具体来说，对于-tiny尺度，我们将其与BERTtiny进行比较，我们从零开始使用与LinkBERTtiny相同的超参数对其进行预训练。唯一的区别是LinkBERT使用文档链接来创建LM输入，而BERT不使用。

对于-base尺寸，我们将其与BERTbase进行比较，我们采用Devlin等人（2019）发布的BERTbase版本，并在相同的语料库上，以与LinkBERTbase相同的步骤数，继续使用vanilla BERT目标对其进行预训练。

大体上，我们遵循与-base相同的程序。

5.2 评估任务

我们对一系列下游任务进行微调和评估

抽取式问答（QA）
给定一个文档（或一组文档）和一个问题作为输入，任务是从文档中确定答案范围。我们对来自MRQA共享任务（Fisch等人，2019年）的六个流行数据集进行评估：HotpotQA（Yang等人，2018年）、TriviaQA（Joshi等人，2017年）、NaturalQ（Kwiatkowski等人，2019年）、SearchQA（Dunn等人，2017年）、NewsQA（Trischler等人，2017年）和SQuAD（Rajpurkar等人，2016年）。由于MRQA共享任务没有公共测试集，我们将开发集一分为二，以创建新的开发集和测试集。我们遵循BERT（Devlin等人，2019年）用于提取质量保证的微调方法。更多细节见附录B。

GLUE
通用语言理解评估（GLUE）基准（Wang等人，2018年）是一套受欢迎的句子级分类任务。在BERT之后，我们对CoLA（Warstadt等人，2019年）、SST-2（Socher等人，2013年）、MRPC（Dolan和Brockett，2005年）、QQP、STS-B（Cer等人，2017年）、MNLI（Williams等人，2017年）、QNLI（Rajpurkar等人，2016年）和RTE（Dagan等人，2005年；Haim等人，2006年；Giampiccolo）进行了评估等，2007），并报告平均分数。更多微调细节见附录B

在这里插入图片描述

5.3 结果

表1显示了MRQA数据集的性能（F1分数）。LinkBERT在所有数据集上都明显优于BERT。平均而言，BERTtiny量表的绝对增益为+4.1%，BERTbase量表的绝对增益为+2.6%，BERTlarge量表的绝对增益为+2.5%。表2显示了关于GLUE的结果，其中LinkBERT的表现略好于BERT。这些结果表明，LinkBERT在学习对QA任务有用的知识（例如世界知识）方面尤其有效，同时保持句子级语言理解的表现。

5.4 分析

我们进一步研究LinkBERT在下游任务中何时特别有用。

改进的多跳推理
在表1中，我们发现LinkBERT在需要使用多个文档进行推理的QA数据集上获得了显著的收益，比如HotpotQA（比Berttini高出5%）、TriviaQA（比Berttini高出6%）和SearchQA（比Berttini高出8%），而相比之下，团队（+1.4%）每个问题只有一个文档。为了进一步获得定性的见解，我们研究了LinkBERT成功但失败的QA示例。图3显示了HotpotQA的一个代表性示例。回答这个问题需要两步推理：从第一份文件中确定“Roden Brothers被Birks Group接管”，然后从第二份文件中确定“Birks Group总部位于蒙特利尔”。虽然BERT倾向于简单地预测问题实体附近的实体（“多伦多”，在第一个文档中，这只是一跳），但LinkBERT正确地预测了第二个文档（“蒙特利尔”）中的答案。我们的直觉是，由于LinkBERT是通过成对的链接文档而不是单纯的单个文档进行预训练的，因此当上下文中给出多个相关文档时，它可以更好地学习如何在标记之间传递信息（例如，注意）。总之，这些结果表明，使用链接文档进行预训练有助于对下游任务进行多跳推理。

提高对文档关系的理解
虽然MRQA数据集通常使用地面真相文档作为回答问题的上下文，但在开放域QA中，QA系统需要使用检索器获取的文档，其中可能包括除黄金文档之外的嘈杂文档（Chen等人，2017；Dunn等人，2017）。在这种情况下，QA系统需要理解文档关系才能表现良好（Yang等人，2018）。为了模拟这种设置，我们通过在每个问题的原始文档之前添加1-2个分散注意力的文档来修改团队数据集。表3显示了结果。虽然BERT会导致性能大幅下降（-2.8%），但LinkBERT对分散注意力的文档非常敏感（-0.5%）。这一结果表明，使用文档链接进行预训练可以提高理解文档关系和关联特别是，我们的直觉是，DRP目标有助于LM在预培训中更好地识别文档关系，如（锚定文档、链接文档），这有助于识别下游QA任务中的关系，如（问题、正确文档）。我们确实发现，从LinkBERT那里删除DRP目标会损害绩效（§5.5）。理解文档关系的能力也表明了将LinkBERT应用于各种检索增强方法和任务（例如Lewis et al.2020b）的前景，无论是作为主要LM还是密集检索器组件。

改进了few-shot QA性能
我们还发现，林伯特特别擅长少镜头学习。具体来说，对于每个MRQA数据集，我们只使用10%的可用培训数据进行微调，并在表4中报告性能。与表1中的全资源模式相比，在这种少镜头模式下，LinkBERT获得了比BERT更显著的收益（在自然条件下，F1的绝对值为5.4%对1.8%，或相对误差减少为15%对7%）。这一结果表明，在训练前，LinkBERT比BERT内化了更多的知识，这支持了我们的核心观点，即文档链接可以为LMs带来新的、有用的知识。

5.5消融研究

我们对LinkBERT的关键设计选择进行了烧蚀研究
将哪些链接文档输入LMs？我们研究§4.3中讨论的获取相关文件的策略：相关性、显著性和多样性。表5显示了MRQA数据集的消融结果。首先，如果我们忽略相关性，使用随机文档链接而不是超链接，我们可以获得与BERT相同的性能（平均为-4.1%；表5中的“随机”）。其次，使用词汇相似性链接而不是超链接会导致1.8%的性能下降（“TF-IDF”）。我们的直觉是，超链接可以提供更显著的知识，而仅仅从词汇相似性来看可能并不明显。然而，使用词汇相似性链接明显优于BERT（+2.3%），证实了将相关文档放在一起输入LM预训练的有效性。最后，删除文档采样中的多样性调整会导致性能下降1%（“无多样性”）。总之，我们的见解是，要为LM预培训创建信息性输入，链接的文档必须在语义上相关，理想情况下应突出且多样化。

DRP目标的影响
表6显示了DRP物镜的消融结果（§4.2）。在预培训中删除DRP会影响下游QA性能。有多个文档的任务（HotpotQA、TriviaQA和有分散注意力文档的团队）的下降幅度很大。这表明DRP有助于LMs学习文档关系。

6 Biomedical LinkBERT (BioLinkBERT)

生物医学文本预培训LMs可以提高生物医学NLP任务的性能（Beltagy等人，2019年；Lee等人，2020年；Lewis等人，2020a；Gu等人，2020年）。生物医学LMs通常在PubMed上接受培训，其中包含生物医学论文的摘要和引文。虽然之前的著作仅将原始文本用于预培训，但学术论文通过引用（参考文献）彼此之间有着丰富的依赖性。我们假设，合并引用链接可以帮助LMs了解论文之间的依赖关系，以及跨论文的知识

基于这一动机，我们通过引用链接（§6.1）（我们称之为BioLinkBERT）对PubMed上的LinkBERT进行预培训，并对生物医学下游任务进行评估（§6.2）。作为我们的基线，我们遵循并比较了最先进的生物医学LM，PubmedBERT（Gu等人，2020年），它与BERT具有相同的架构，并在PubMed上接受培训。

6.1预训练设置

数据
我们使用与PubmedBERT相同的训练前语料库：PubMed摘要（21GB）使用Pubmed Parser5提取文章之间的引用链接。然后，我们通过对§4中描述的连续、随机或链接段进行采样来创建训练实例，三个选项统一出现（33%、33%、33%）。总之，我们的培训前数据与PubmedBERT相同，只是我们在PubMed文章之间有引用链接。

实施
我们从无到有地对BioLinkBERT进行预训练，采用与PubmedBERTbase相同的超参数（Gu等人，2020年）。具体来说，我们使用峰值学习率6e-4，批量8192，训练62500步。我们在前10%的步骤中预热学习率，然后线性衰减。在八个装有fp16的A100 GPU上训练了7天。

此外，虽然最初的PubmedBERT版本不包括大尺寸，但我们从头开始训练大尺寸（340M参数）的BioLinkBERT，遵循与-base相同的程序，除了我们使用4e-4的峰值学习率和20%的预热步骤。在八个装有fp16的A100 GPU上进行了21天的培训。

基线
我们将BioLinkBERT与Gu等人（2020年）发布的PubmedBERT进行了比较。

6.2 评估任务

对于下游任务，我们在BLURB基准（Gu等人，2020）和MedQA-USMLE（Jin等人，2021）上进行评估，前者是一组多样的生物医学NLP数据集，后者是一个具有挑战性的生物医学QA数据集。

BLURB
由五个命名实体识别任务、一个PICO（总体、干预、比较和结果）提取任务、三个关系提取任务、一个句子相似性任务、一个文档分类任务和两个问答任务组成，如表7所示。我们遵循PubmedBERT使用的相同微调方法和评估指标（Gu等人，2020年）。

MedQA-USMLE
是一项测试生物医学和临床知识的四向多选QA任务。这些问题来自美国医疗执照考试（USMLE）的实践测试。这些问题通常需要多跳推理，例如，给定患者症状，推断可能的原因，然后回答适当的诊断程序（图4）。我们遵循Jin等人（2021）的微调方法。更多细节见附录B。

MMLU-professional
医学是测试生物医学知识和推理的多选择QA任务，是流行的MMLU的一部分基准测试（Hendrycks et al.，2021），用于评估大规模语言模型。我们对上述MedQAUSMLE任务进行了微调，并对该任务进行了评估，无需进一步调整。
在这里插入图片描述

6.3 结果

简介
表7显示了BLURB上的结果。BioLinkBERTbase在所有任务类别上都优于PubmedBERTbase，平均获得+2%的绝对性能提升。此外，BioLinkBERTlarge提供了+1%的进一步提升。总的来说，BioLinkBERT的绝对成绩比之前的最佳水平高出+3%，在BLURB排行榜上创造了新的水平。我们看到了一种趋势，即在文档级别上的收益非常大
回答问题等任务（在BioASQ和PubMedQA上增加7%）。这一结果与一般领域一致（§5.3），并证实LinkBERT有助于更好地了解文档依赖关系。

在这里插入图片描述
图4 MedQA USMLE上多跳推理的案例研究。回答问题（左）需要两步推理（中）：根据问题中描述的患者症状（腿部肿胀、胰腺癌），推断原因（深静脉血栓），然后推断适当的诊断程序（压缩超声）。虽然现有的PubmedBERT倾向于简单地预测问题中出现的一个词（“血液”代表选项D），但BioLinkBERT正确地预测了答案（B）。我们的直觉是，引文链接将相关文档在训练前（右）的同一语境中汇集在一起，这很容易提供推理所需的多跳知识（中）。

MedQA USMLE
表8显示了结果。BioLinkBERTbase比PubmedBERTbase获得2%的准确度提升，而BioLinkBertbertLarge提供了额外的+5%提升。总的来说，BioLinkBERT的绝对成绩比之前的最佳水平高出+7%，开创了一个新的水平。为了进一步获得定性的见解，我们研究了BioLinkBERT成功但基线PubmedBERT失败的QA示例。图4显示了一个具有代表性的示例。回答问题（左）需要两步推理（中）：根据问题中描述的患者症状（腿部肿胀、胰腺癌），推断原因（深静脉血栓），然后推断适当的诊断程序（压缩超声）。我们发现，虽然现有的PubmedBERT倾向于简单地预测一个包含问题中出现的单词的选项（“blood”代表选项D），但BioLinkBERT正确地预测了答案（B）。我们的直觉是，引文链接将相关文档和概念在训练前（右）的相同背景下结合在一起，6这很容易提供推理所需的多跳知识（中）。结合对HotpotQA（§5.4）的分析，我们的研究结果表明，使用文档链接进行预训练有助于跨领域的多跳推理（例如，带有超链接的一般文档和带有引用链接的生物医学文章）。

MMLU-professional medicine
表9显示了性能。尽管只有3400万个参数，但BioLinkBERTlarge在这项QA任务中实现了50%的准确率，显著优于最大的通用领域LM或QA模型，如GPT-3 175B参数（准确率39%）和UnifiedQA 11B参数（准确率43%）。这一结果表明，通过有效的预训练方法，一个小型领域专用的LM可以在QA任务上胜过几个数量级的大型语言模型

7.结论

我们提出了LinkBERT，这是一种新的语言模型（LM）预训练方法，它结合了超链接等文档链接知识。在普通领域（在维基百科上通过超链接进行预训练）和生物医学领域（在PubMed上通过引用链接进行预训练），LinkBERT在广泛的下游任务中都优于以前的BERT模型。对于多跳推理、多文档理解和少量问答来说，收益显著，这表明LinkBERT通过文档链接有效地将显著知识内化。我们的结果表明，LinkBERT可以作为一个强大的预训练LM应用于各种知识密集型任务。