文章目录
论文标题:用于问题回答的高效的一次性端到端实体链接
论文链接:https://arxiv.org/abs/2010.02413
arXiv:2010.02413v1 [cs.CL] 6 Oct 2020
注解:实体链接(EL)指的是将文本中的实体(如人名、地名、组织名等)与知识库(例如维基百科或其他数据库)中的对应实体进行匹配的过程。这个过程对于分析事实性问题(例如“谁是美国的第一任总统?”)以及构建强大的问答(QA)系统非常重要。通过实体链接,可以更好地理解文本中的实体及其关系,从而提高问答系统的准确性和可靠性。
摘要
我们介绍了一种快速的端到端实体链接模型ELQ,该模型用于问题解答,通过使用双向编码器在一次传递中联合进行提及检测和链接。在WebQSP和GraphQuestions数据集上进行评估,这些数据集具有扩展注释,每个问题涵盖多个实体。ELQ在F1得分上分别比之前的最佳结果提高了+12.7%和+19.6%。 具有非常快速的推理时间(在单个CPU上每秒1.57个示例),ELQ可以对下游问题回答系统有所帮助。
在一个概念验证实验中,我们证明使用ELQ显著提高了GraphRetriever(Min等人,2019)的下游问答性能。在一次概念验证实验中,我们证实了采用ELQ极大地提升了GraphRetriever(Min等,2019年)在下游问答任务中的表现。
1 介绍
实体链接(EL)是识别实体并将其映射到数据库中正确条目的任务,对于分析事实性问题和构建强大的问答(QA)系统至关重要。例如,问题“沙克什么时候进入NBA?”可以通过查看沙奎尔·奥尼尔的维基百科文章(Min等人,2019)或知识图谱中的属性(Yih等人,2015;Yu等人,2017)来回答。然而,现实世界中的用户问题总是嘈杂和不明确的,缺乏大小写和标点符号提供的线索,这对当前端到端实体链接系统(Yang和Chang,2015;Sorokin和Gurevych,2018)构成了挑战。尽管最近的预训练模型在实体链接(Logeswaran等人,2019年;Wu等人,2020年)方面已经证明非常有效,但它们仅设计用于实体歧义解决,并要求在输入中给出提及边界。此外,这些系统只在长篇、结构良好的文档(如新闻文章)上进行了评估(Ji等人,2010年),而没有在短小、嘈杂的文本上进行测试。此外,大多数以往的工作主要关注于提高模型预测的准确性,很大程度上忽视了效率。
在这项工作中,我们提出了ELQ,一个快速且准确的实体链接系统,专门针对问题。遵循Wikification设置(Ratinov等人,2011),ELQ旨在确定给定问题中实体的提及边界及其对应的维基百科实体。我们采用基于BERT(Devlin等人,2019)的双编码器,如图1所示。实体编码器根据维基百科中的短描述计算所有实体的实体嵌入。然后,问题编码器从输入问题中导出令牌级别的嵌入。我们使用这些嵌入来检测提及边界,并根据提及嵌入(在提及标记上平均的嵌入)和实体嵌入之间的内积来消除每个实体提及的歧义。我们的模型扩展了Wu等人(2020)的工作,但有一个主要区别:我们的系统不需要在输入中指定提及边界,并且能够在一次BERT传递中同时进行提及检测和实体消歧。因此,在推理时,我们可以有效地识别输入问题中的多个实体。
图1:我们的端到端实体链接系统的概述。我们分别编码问题和实体。我们使用问题表示来共同检测提及和通过内积与实体向量评分候选实体。
我们扩展了Sorokin和Gurevych(2018)的实体消歧注释,以创建一个端到端的问题实体链接基准。在这个基准上进行评估,我们能够在准确性和运行时间方面都超过以前的方法。ELQ在端到端推断时间上比其他任何神经基线快得多(提高了2倍),同时比我们评估的所有先前模型更准确,这表明它对下游问答系统具有实际应用价值。我们通过概念验证实验来验证ELQ在实际问答模型中的适用性,方法是将GraphRetriever(Min等人,2019)增强为使用我们的模型,从而在三个开放领域问答数据集上提高了其下游问答性能(最高达6%)。
2 相关工作
关于实体链接的很多先前工作都集中在长篇、语法连贯的文档上,这些文档包含了许多实体。这种设置并不能准确反映在问题中进行实体链接的困难。尽管之前有一些关于问题中实体链接的工作(Sorokin和Gurevych,2018;Blanco等,2015;Chen等,2018;Tan等,2017),但这些作品(主要来自BERT出现之前的时期)采用了复杂的模型,包含许多相互作用的模块。例如,Sorokin和Gurevych(2018)提出了一种可变上下文粒度(VCG)模型来解决问题中的噪声和缺乏上下文的问题,该模型通过使用字符级、标记级和知识库级模块,从不同粒度级别中获取信号。他们还依赖外部系统作为建模流程的一部分。
在这项工作中,我们采用了一种更为简单的方法,即使用双编码器。双编码器模型已被广泛应用于各种任务中(Seo等,2019;Karpukhin等,2020;Wu等,2020)。它们通过最大内积搜索实现了快速推理时间。此外,正如我们所发现的,双编码器可以分解为可重用的问题和实体编码器,通过独立训练一个组件,我们可以大大加速训练过程。