论文：A Survey on Multi-hop Question Answering and Generation（一份关于多跳式问答和生成的调查）翻译笔记

最新推荐文章于 2025-03-09 15:44:27 发布

QYLZ

最新推荐文章于 2025-03-09 15:44:27 发布

阅读量1.9k

点赞数 21

分类专栏：论文笔记文章标签：人工智能语言模型自然语言处理 python 深度学习知识图谱 chatgpt

本文链接：https://blog.csdn.net/weixin_56242678/article/details/136892577

版权

论文笔记专栏收录该内容

37 篇文章

订阅专栏

文章目录

论文题目：一份关于多跳式问答和生成的调查
1 介绍
2 多跳问题回答任务
3 数据集
4 方法概述
5 拟议的分类法
6 评估技术
7 多跳问题生成
8 结论和未来工作

在这里插入图片描述

论文题目：一份关于多跳式问答和生成的调查

论文链接：https://arxiv.org/abs/2204.09140
arXiv:2204.09140v1 [cs.CL] 19 Apr 2022

问题回答（QA）问题长期以来一直吸引着大量的研究兴趣。它与语言理解和知识检索任务的相关性，以及简单的设置使得QA任务对于强大的AI系统至关重要。最近在简单的问答任务上的成功已经将注意力转向更复杂的设置。在这些任务中，多跳问答（MHQA）是近年来研究最多的一项任务。能够回答多跳问题并进行多步推理可以显著提高NLP系统的实用性。因此，该领域突然涌现出了高质量的数据集、模型和评估策略。“多跳”（multiple hops）的概念比较抽象，导致了需要多跳推理的各种任务。这意味着不同的数据集和模型差异显著，使得该领域难以概括和综述。本工作旨在为MHQA任务提供一个通用且正式的定义，并组织和总结现有的MHQA框架。我们还概述了创建MHQA数据集的最佳方法。本文对这项极具挑战性的任务提供了系统而详尽的介绍，以及对现有尝试的整理。
CCS概念：•信息系统→问答；内容分析和特征选择。
附加关键词和短语：问答，多跳问答，信息检索，神经网络

1 介绍

AI的最终目标之一是赋予机器“思考”的能力。为了实现这一目标，已经提出了许多需要代理进行推理才能达到目标的任务。其中一个例子是问答（QA）任务，给定一个问题和一些相关上下文，目标是预测正确的答案。QA任务提供了一种可量化的评估NLP系统语言理解能力和推理能力的方法[58, 113, 115]。更传统的研究主要关注在单个上下文中进行这种推理[91, 113, 127, 157]。由于深度学习技术的最新进展[83]，机器已经能够在像SQUAD 2.0这样的数据集上成功超越人类的表现[116]。

然而，在简单问答方面的成功只是迈向多步问答目标的一个步骤。此外，Min等人[101]和Qiu等人[113]发现，现有单步问答数据集中的问题可以通过检索少量句子而无需过多推理来回答。此外，模型需要进行多步推理才能回答复杂的问题（请参阅表1）。人类可以轻松地在日常任务中进行多步推理，然而这对于机器来说仍然是一项困难的任务。如果一个智能体在得出最终答案之前能够得出一个或多个中间结论，并且每个中间结论都是下一个结论的必要前提，那么就可以说这个智能体进行了多步推理。这一系列中间结论和最终结论的序列被称为推理链。
在这里插入图片描述

图 1. 多跳推理示例

值得注意的是，人工智能系统无法进行多步推理可能会造成严重限制，大大降低其可用性。例如，假设用户有兴趣了解更多关于 "A 的女儿 "的信息，而在这种情况下唯一可用的相关信息是 “B 的父亲是 C，母亲是 A”。在这种情况下，人工智能系统必须首先推断出 B 是女性，她的母亲是 A。然后，系统必须利用常识推理得出 B 是用户感兴趣的实体的结论，然后检索所需的信息（请参阅图 1，以获得直观帮助）。在人类看来微不足道的事情，却让当前的人工智能系统产生了致命的困惑，这多少有些令人惊讶。因此，我们认为多步推理是一个关键的挑战，解决它将是实现人工智能目标的一大飞跃。多跳问题解答（MHQA）任务是评估代理执行多步推理能力的适当基准任务。其目标是预测一个问题的正确答案，该问题需要在给定的上下文（文本、表格、知识图谱等）中进行多次推理 “跳跃”。

除了上述科学意义之外，MHQA 任务还有各种实际应用。向当前网络搜索系统提出的查询往往需要多跳推理才能找到相关文档。利用多跳推理模型可以大大提高用户使用此类系统的满意度。此外，如果代理能够处理复杂的问题，例如需要多个推理步骤才能找到答案的问题，那么人与代理之间的对话就会更加顺畅，信息量也会更大。因此，在 MHQA 中取得成功的技术可以应用到句子融合 [47, 158] 和抽象总结 [84, 104]、事件发生时间预测 [155] 以及多文档总结 [6, 50, 56, 94] 或时间轴总结 [48, 136, 172, 177] 等需要对多个文档进行信息汇总的任务中。此外，多跳推理能力还能极大地促进质量保证的所有应用，如信息提取 (IE)、引申 (entailment)[11]。

Kumar 等人[79] 认为 MHQA 是一项具有挑战性的任务，他们将问题的难度量化为回答问题所需的推理步骤（或跳转）的数量。这说明了 MHQA 在难度可控问题生成（DQG）[44] 任务中的直接用途，DQG 有多种应用，包括基于课程学习方法的质量保证系统[80] 和设计一定难度的学校考试[120]。

另一个与 MHQA 密切相关的问题是为对话式 QA（聊天机器人）生成说明性问题 [138, 178]。在这种情况下，原始问题/询问可能是模棱两可的，因此需要更多信息来消除歧义。该模型应该用自然语言生成一个澄清问题，向用户询问缺失的信息。这可被视为另一项涉及多步骤推理的任务，MHQA 的改进将对其大有裨益。

最近，针对 MHQA 提出了各种数据集和技术，包括为知识库和知识图谱的 MHQA 而设计的数据集和技术，以及为表格和文本的 QA 而设计的数据集和技术。最近有大量工作都集中在 MHQA 任务上，并取得了重大进展。高质量的数据集 [21, 71, 72, 77, 97, 159, 173] 鼓励人们提出更好的模型，这些模型反过来又在这些基准上取得了令人印象深刻的准确性。近年来，为解决这一任务进行了大量研究。有多种方法将任务建模为在静态或动态图上执行推理，以找到推理路径[14, 15, 30, 34, 40, 61, 113, 128, 142, 179, 181]。一些研究还尝试将多跳问题分解为单跳问题，或根据检索到的信息生成后续问题 [14、95、102、138、181]。
在这里插入图片描述

表 1. 各类多跳问题示例

由于该任务在过去 4 年中受到的关注急剧增加，我们认为，如果能对 MHQA 最近的所有重要作品进行广泛调查，将会使社区受益匪浅。在这项工作中，我们密切关注了从 2016 年到 2021 年期间发表的 51 篇顶级论文，包括但不限于 EMNLP、ACL、NAACL、TACL、AAAI、EACL、SIGIR、ICLR、COLING、CoRR 等。

研究界已经在问题解答领域开展了多项调查，如单跳 QA [2, 12, 33, 60, 103, 132]、开放域 QA [184] 和医疗 QA [68, 88] 等。与 MHQA 最相关的调查主要集中在知识库 QA [32, 43, 82] 和视觉 QA [88, 135, 164]。不过，这些研究可被视为 MHQA 领域更广泛表述的子领域。本手稿旨在调查的 MHQA 领域的子领域。由于现有作品在总结其目标领域我们选择将视觉 MHQA 和知识库与知识图谱上的 MHQA 排除在外。知识库和知识图谱的 MHQA。

我们注意到，尽管最近的模型在 MHQA 基准上的准确性令人印象深刻，但有相当多的工作对这些模型是否真的能够执行多步推理以回答多跳问题持怀疑态度。一些研究[17, 62, 63, 66, 100, 141, 144, 146, 151]进行了实验，证明相当一部分的准确性可以归因于模式匹配和单步推理（也称捷径推理）。这为 MHQA 研究界指明了新的挑战和未来方向。总之，可以说，尽管迄今为止取得了令人鼓舞的进展，但 MHQA 的任务仍然任重而道远。

可解释的 MHQA 是 MHQA 的一种特殊设置，它要求模型在输出正确答案的同时输出正确的推理链（或等同于推理链的某种表示）。这增加了模型对最终用户的责任感和可解释性，因为模型现在还必须解释它是如何得出答案的。人工智能系统的可解释性对其广泛应用于金融、法律和医疗保健等大多数高风险应用领域至关重要[3, 4, 10, 49, 122]。因此，最近的研究[18, 42, 62, 66, 173]都集中在这一领域。Yang 等人[173]还认为，训练模型输出推理链也有助于训练预测正确答案，因为它是 MHQA 的辅助任务。Tu 等人[146]发现，在训练过程中使用推理链作为监督信号，也能提高对抗性示例的性能。

本手稿的贡献可概括为：
•据我们所知，我们的工作是对 MHQA 领域近期工作的首次调查。
•据我们所知，我们首次为 MHQA 提供了一个正式定义，该定义具有足够的通用性，既能涵盖任务的现有变体，也能促进新变体的出现。
•我们提出了 MHQA 现有作品的分类法，从而可以系统地组织和结构化当前的作品。
•我们提供了一套简明的数据注释指南，这些指南已被现有工作所采用，并被认为是有益的。
•我们提出了未来继续开展 MHQA 研究的候选方向。

本文其余部分的结构如下：第 2 节旨在将 MHQA 任务形式化，使其涵盖所有现有的和未来可能出现的变体。第 3 节介绍现有的 MHQA 数据集、创建技术、评论和挑战1。第 5 节正式描述了现有方法的分类，第 4 节详细讨论了这些方法。第 6 节讨论了标准评估指标以及专门为评估多步骤推理/检索而设计的其他评估方法。第 8 节总结了这些见解和评论，为 MHQA 的未来研究提出了有前途的方向。

2 多跳问题回答任务

正式定义多跳问题解答任务并不简单，因为 "跳 "的定义本身就含糊不清。例如，在文本文档的开放域问答中，"一跳 "可以表示跨不同文档的推理[173]，而在长文档的问答中，跨不同章节或段落的推理就是 “一跳”[138]。据我们所知，现有的工作并没有提供包含不同变体的任务的一般定义。我们认为，为了系统地解决这个问题，并很好地了解 MHQA 的进展情况，首先必须有一个通用定义。

我们通过保持上下文概念的抽象性来实现 MHQG 的通用性。根据任务的不同，上下文可以是任何一个独立的信息片段：句子、文档、图像或知识图谱中的实体。考虑到这一点，我们将多跳问题解答任务正式定义为：

让C表示所有上下文的集合，S表示所有问题的集合，A表示所有可能答案的集合。给定一个问题𝑞 ∈ S和一组相关的上下文𝐶 ⊆ C，任务是近似一个函数𝑓 : S × C^𝑛 ↦→ A ∪ {Φ}，满足：
在这里插入图片描述
其中 |= 表示蕴含关系，而 Φ 是当 𝑞 无法使用 C²回答时的输出。

给定一个问题𝑞 和一组上下文 𝐶，𝑓 会返回一个答案 𝑎，该答案通过使用来自 𝐶 的 "黄金 "支持上下文子集 𝑃 来回答𝑞。黄金支持上下文 𝑘 的数量限制为 1 以上，以确保问题无法通过单跳来解决（𝑘 = 1 将任务简化为传统的 QA）。

这一定义提供了解决质量保证任务所需的两个子问题的线索：信息检索（IR）和阅读理解（RC）。通常，𝑓 可分解为 (IR) 𝑔 : S × C^𝑛 ↦→ C^𝑘 和 (RC) 嚗 : S × C^𝑘 ↦→ A ∪ {Φ}, for some 𝑘 ∈ Z, 𝑘 > 1 such that：
在这里插入图片描述
其中，𝑃_q ⊆ 𝐶 是与q 相关的语境集合。

推理链：问题 𝑃 ′_𝑞 = {𝑝′_𝑞,𝑖}_𝑖=1^𝑘的推理链被定义为上文定义的集合𝑃_q的有序排列，使得：

值得注意的是，构成推理链的粒度也可以小于上下文的粒度。例如，当上下文的粒度为段落时，推理链可能由属于这些段落的特定句子或特定实体组成。

跳转：推理链的每个推理步骤都可以称为一个跳转。此外，从一个上下文（即文档、表格等）到另一个上下文的推理步骤可能还需要一些常识性知识。在这种情况下，常识推理也可被视为一次跳转。
也可视为跳转。这里提供的定义没有考虑外部/常识知识的推理跳转，尽管可以通过允许 𝑃_q⊆ 𝐶 ∪ 𝑄（其中 𝑄是外部/常识知识库）来实现。不过，为了简单起见，我们省略了这一点。

正如引言中提到的，最近的许多工作都侧重于可解释的 MHQA，以确保在回答多跳问题时模型的责任性和可解释性。从形式上讲，可解释的 MHQA 是要求 𝑓 输出推理链 𝑃 ′ _q（作为对答案的解释）的 MHQA 设置。
𝑎）。推理链中的一系列 "事实 "通常被称为支持性事实（[173]）。

给出的定义是通用的，可以扩展以适应 MHQA 的多种变体，下面列出了其中的一些。请注意，给出的列表并不全面，建议的 MHQA 定义还可以扩展出新的变体。

通过事实构成的 MHQA：𝐶_𝑖 表示独立的事实。
长文档的 MHQA：如果问题要求模型汇总同一文档中不同章节、段落或句子的信息，那么长文档的质量保证可视为多跳式质量保证 [71，138]。这里，每个 𝐶_𝑖 都是同一文档中的一个章节/段落。
多个文本文档的 MHQA：每个 𝐶_𝑖 都是一个独立的文档。
多选 MHQA：对于每个问题，事先都会给出一小组可能的答案。因此，公式 1 中的 A 取决于 q，A = A(q)。
开域与闭域 MHQA：在开域设置中，与问题相关的上下文集 𝐶 涵盖整个语料库，即 𝐶 = C；而在闭域设置中，𝐶 = C。而在闭域设置中，𝐶 是模型的输入，与问题 q 一起，是 C 的一个小子集，可能对每个问题都不同，即即 𝐶 = 𝐶_q⊂ C。足以回答 𝐶_q，也可能包含不相关的噪音段落。值得注意的是重要的是，开域和闭域之间的区别与 𝐶、C 的大小，而是由任务的输入决定的–每个问题是否都有特定的足够语境子集或是否为每个问题提供了特定的充分语境子集。正如我们将在第 4 节中看到的，开域通过对 C 进行初步检索，可以将开放域设置简化为封闭域设置。
知识库/知识图谱上的 MHQA： C 是一个知识库（KB）或知识图谱（KG），其中具有知识图谱（KG），其中 𝐶_𝑖代表三元组或图谱节点。
可视化 MHQA： C 是一组图像和/或视频（或等同于图像序列）。
带有澄清问题的对话式质量保证：如果回答问题需要模型向用户提出后续问题，则对话式质量保证可视为一个 MHQA 问题。在这项任务中，用户提出一个问题，模型会尝试根据上下文回答。如果模型找不到回答问题所需的信息，它就会为用户生成一个后续问题，并查询缺失的信息。在这里，每个后续问题都可视为一次检索跳转，而找出缺失信息则可视为一次推理跳转[138]。
时态 MHQA：𝐶_𝑖 表示不同的时态上下文，如相关文档时态分布中表示突发事件的时间段、问题的时间范围、从文档内容中提取的时态表达式所表示的时间段[152, 153]，或推断过去事件的时间[155]。

3 数据集

上一节强调了任务的不同形式，这意味着存在多个数据集，这些数据集具有独特性和同等重要性，并适用于问题的不同变体。在本节中，我们将简要总结现有的数据集，并对其进行比较。本节将详细介绍数据集的创建过程、统计数据以及与现有数据集的比较，随后是我们对这些数据集的评论。我们认为，从现有数据集开始讨论是有意义的，因为这将为下文专门讨论在这些数据集上运行的方法的小节提供必要的数据背景和直观感受。

3.1 数据集创建

3.1.1 挑战

为多跳问题解答创建数据集比传统（即单跳）质量保证设置更具挑战性。主要挑战包括

问题所使用的上下文应形成有效、明确的推理链。这意味着用于特定问题的上下文应与预期推理链中的至少一个其他上下文有某些信息重叠或某种蕴涵关系[173]。预期的推理链[173]。
由于问题需要在多个上下文中进行推理，因此问题生成过程本身需要以某种方式封装这些特定上下文中的信息。
生成过程需要确保问题不能通过使用不同的单一语境来回答。例如，"在第二次世界大战开始的那一年，谁是美国的第 P 位居民？"这个问题需要两个上下文，分别包含 "第二次世界大战开始于 1939 年 "和 “富兰克林-D-罗斯福是 1939 年美国的第 P 位居民”。然而，可能有一个单独的上下文包含 “富兰克林-D-罗斯福，第二次世界大战开始时的美国居民，不愿意…”。在开放域质量保证的环境中，这种挑战更为普遍。

因此，研究现有数据集创建过程中采用的方法及其优缺点就变得至关重要、因此，研究现有数据集创建过程中采用的方法、其优点和缺点以及减轻这些缺点的可能方法就变得至关重要。一般来说，数据集创建任务包括数据集创建任务包括 3 个主要步骤：
(1) 生成推理链
(2) 通过众包生成问题
(3) 自动/手动过滤

3.1.2 推理链候选者

建立推理链的方法与任务和领域密切相关，因此每个数据集都有很大不同。因此，我们将分别研究几个数据集。

(i) HotpotQA [173]： HotpotQA 只包含使用英语维基百科 dump5 中的文档首段形成的 2 跳问题。在下列情况下，两个段落会被选为推理链（称为候选段落）：

存在从第一个文档到第二个文档的超链接。构成超链接的实体称为桥实体，问题称为桥问题。
这些段落的实体属于同一类别（例如：迈克尔-乔丹和科比-布莱恩特）。这些实体是从 42 个人工创建的列表中抽取的。这些词对用于创建对比问题。
(ii) HybridQA [21]：在 HybridQA 中，上下文的定义可以是一段话，也可以是一个表格。使用表格作为上下文可以避免使用文本时可能出现的问题模糊性。为确保至少有两次跳转，问题的推理链必须至少包含一个表格和一个文本文档。表格是从 WikiTables [9] 中发布的表格集中筛选出来的，表格单元格中的维基百科超链接用于检索相关段落。每个维基百科页面的第一个段落中最多有 12 个句子被视为段落。
(iii) QAngaroo 数据集[159] - WikiHop 和 MedHop：这些数据集使用带有关系三元组的知识库构建了一个双方图，然后对其进行广度优先遍历，以获得有效的多跳推理链。双向图的一边是知识库中的实体，另一边是语料库中的文档，边表示实体是否出现在文档中。三元组（𝑠,𝑟,𝑜）中的主体实体𝑠被选为遍历的起点，所有与𝑜具有相同类型的实体都是终点。路径中的所有中间端点都被视为可能的候选答案，为到达答案实体而遍历的所有文档都是推理链候选。为避免出现含糊不清的问题，在遍历过程中会忽略任何𝑜′，即∃(𝑠,𝑟,𝑜′) ∈ KB。生成的候选链和 QA 对会进一步手动过滤。
(iv) NarrativeQA [77]：该数据集用于回答长篇故事中的多跳问题。为确保问题确实是多跳的，并且回答需要非本地化推理，要求注释者使用人工生成的故事摘要来形成问题。故事是从古腾堡计划（Project Gutenberg）的书籍中收集的，而电影剧本则是从网上搜索的。
(v) OpenBookQA [97]： OpenBookQA 要求使用一本书（简单地说，就是科学事实集）和广泛的常识（大型开放领域科学句子）来回答科学领域的问题。书籍和常识是 OpenBookQA 中回答问题所需的两个背景。书籍是通过过滤 Jansen 等人[64]确定的 WorldTree 语料库的一个子集收集的，而常识则是从维基百科、ConceptNet 和其他科学语料库中的 1400 万个科学事实中收集的。
(vi) QASC [21]： QASC 也是一个利用科学事实进行两跳质量保证的数据集。推理链的生成过程与 OpenBookQA 非常相似。推理链的两个上下文分别从一组高质量的种子事实和一个大型辅助事实语料库中选择。
(vii) MultiRC [71]：该数据集的目的是创建一个多域多跳问题。从多个数据集中选取不同领域的文档。在这里，多个上下文是同一段落的一部分，生成候选推理链的任务留给了注释者；每份文档都交给了注释者，要求他们形成有效的多跳推理问题。

3.1.3 问题生成

生成多跳 QA 对需要积累不同上下文的信息，这本身就是一个尚未解决的问题 [54, 63, 72, 79, 102, 107, 119, 137, 176]。如上所述，Welbl 等人[159] 利用现有知识库自动生成问题，其中 WikiData 和 DrugBank [163] 被用作知识库，维基百科和 Medline 被用作文档语料库。然而，由于创建技术的原因，这两个数据集中的问题和答案类型受到很大限制。例如，MedHop 数据集中唯一的问题类型是（𝑑𝑟𝑢𝑔₁,𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑡𝑠_𝑤𝑖𝑡h, ?），而在 WikiHop 数据集中，我们有（𝑖𝑡𝑒𝑚₁, 𝑝𝑟𝑜𝑝𝑒𝑟𝑡𝑦, ?）。因此，有人认为，使用知识库自动生成的数据集会受到所使用知识库的实体关系和模式不完整的限制[173, 179]。此外，众所周知，自动生成自由格式文本问题是一项具有挑战性的任务，需要大量的训练数据[45, 102, 106]。

因此，最近的数据集建议问题创建步骤应由人工智能完成。由于这项任务即使对人类来说也不是很简单，因此现有的工作增加了创建问题的综合指南。无论任务如何，这些注释指南都遵循共同的模式，但略有细微差别。我们旨在总结各种数据集所使用的注释指南，希望能为今后的相关工作提供参考。根据现有数据集采用的技术，常见的注释说明和最佳做法包括：
i 确保问题需要多跳推理：

给出任务要求的正反两方面实例。
将问题生成任务分解成更简单的步骤，以防出错。
使用基于规则的技术来提供环中友好提示，防止注释者提交微不足道的错误样本。
使用简单的单步 IR 或基于预训练语言模型（PLM）的技术，检查提交的问题是否只需使用单个上下文即可回答。
要求注释者在提交问题和答案的同时提交推理链。
请另一组注释者仅使用单一上下文回答问题。
如果问题需要多个上下文来回答，则要求不同的注释者来回答。
ii 确保问题可以回答：
要求注释者同时提供问题的答案。
禁止在答案选项中使用否定词语，因为这很容易骗过基线。
要求问题有非常具体的答案。
要求不同的注释者回答问题，并放弃错误率较高的问题。
iii 确保问题和答案的正确性：
限制注释者为数据集目标语言的专家/母语使用者。
要求不同的注释者验证问题是否语法规范。
限制答案长度。
随机调整答案选项以避免偏差。
iv 确保问题具有挑战性：
禁止批注者从输入的上下文中复制大段文字。
要求批注者使问题具有挑战性。
要求批注者创造令人困惑和无关的错误答案选项。
要求注释者考虑实体、事件之间的高层关系，而不是局部关系。

然而，众包数据集也有严重的局限性。Dua 等人[36]认为，这些数据集通常只能呈现底层数据分布的部分情况，而且存在许多偏差，如注释者偏差[46]、标签偏差[37, 55]、幸存者偏差[100, 146]和确定偏差[67]。此外，由于在训练过程中没有对抗环境，模型可以学习推理捷径，在不进行多跳推理的情况下完成任务。

3.1.4 后处理

上述做法和说明无法排除所有人为错误。因此，为了消除这些错误，一般会进一步进行人工筛选或基于规则的自动筛选。例如，Chen 等人[21]在以下情况下删除问题：1）无法从表格或段落中找到答案；2）答案长度超过 20 个词组；3）使用 TF-IDF 检索一跳即可轻松检索到答案段落。Khot 等人[72]、Mihaylov 等人[97]删除了注释者无法正确回答的问题。Khashabi 等人[71] 在注释者仅能使用单个上下文回答问题的情况下删除问题。Welbl 等人[159] 的目标是通过对数据集进行子采样来解决候选答案频率不平衡的问题，以确保具有任何特定候选答案的问题不超过数据集的 0.1%，同时还省略了有关美国的文章。为了解决文档-答案相关性的问题，他们舍弃了文档和候选答案中任何常见配对的问题。

3.2 现有数据集：统计、比较和示例

用于 MHQA 的常用数据集比较见表 2。其中一些数据集有多种设置，我们将在下文中加以说明：
(i) HotpotQA 测试集有两种设置：i) 全维基设置（Full-wiki），这是一种开放域设置，上下文集为所有维基百科页面的首段；ii) 分心设置（Distractor），这是一种封闭域设置，每道题提供一组 10 段文字（2 段黄金段落 + 8 段分心段落）。这 8 个干扰项是使用 TF-IDF 检索器以问题为查询条件收集的。该数据集还评估了预测上位事实的辅助任务。这些句子是注释者用来创建问题的黄金段落中的句子。由于数据集中的许多比较问题都是 "是/否 "类型的，因此许多模型也将答案类型预测作为一项辅助任务。这包括对答案进行 “是”/“否”/提取跨度的三重分类。HotpotQA 的训练集分为简单/中等/困难三种。简单子集主要包括单跳可回答问题（超过 70%），而中等和困难问题之间的区别是通过训练多个基线和测试问题的可回答性来确定的。虽然开发集和测试集只包含难题，但作者表明，简单问题在训练模型时也很有用。
(ii) QAngaroo 数据集包含一个屏蔽版本和未屏蔽的原始数据集，以避免候选者频率失衡。例如，在 MedHop 数据集中，一些药物（如阿司匹林）与更多药物（如异维A酸）发生相互作用，这可能导致候选药物频率失衡。为了缓解这一问题，任何候选表达式都会被一个唯一的占位符随机替换（例如 “孟买是 MASK7 中人口最多的城市”）。有人认为，这样做可以消除答案频率线索，还可以消除频繁出现的答案字符串与相关上下文之间的统计相关性。
(iii) NarrativeQA 问题-答案对是利用电影或书籍的摘要创建的，而模型则被要求根据原始故事（称为故事版本）来回答问题。此外，还提供了另一项难度稍低的任务，即直接使用摘要回答问题（称为摘要版）。

3.3 批评与挑战

即使是精心设计的数据集，数据集是否真的需要模型执行多步推理来得出结论答案，这一点仍然值得怀疑。Min 等人[100]的研究表明，由两种上下文（许多数据集都使用这种上下文）组成的问题并不相同，因为它们不能很好地概括典型用例中产生的多跳问题。因此，人们提出了多种有见地的方法来测试这方面的问题。

Chen 和 Durrett[17]设计了两个基线模型来预测包含答案的句子，并限制它们在不查看其他句子的情况下对每个上下文中的每个句子进行独立评分。因此，在尝试回答多跳问题时，这些模型的理想表现应该很差。然而，与随机分类器相比，这些基线模型的性能与 SOTA 非常接近。这一点在多选 MHQA 数据集（WikiHop 和 HotpotQA 的多选修改版）上的表现比在基于跨度的 MHQA 数据集（HotpotQA）上的表现更为明显。此外，即使候选答案的数量大幅增加，仅通过查看候选答案来预测答案的无上下文基线的性能也几乎与上述基线相当（参见 Chen 和 Durrett [17] 中的图 3）。因此，与基于跨度的问题相比，多选题在测试时更容易被破解，而在训练时则帮助不大。
在这里插入图片描述

表 2. MHQA 数据集比较。C 代表数据集中所有上下文的集合，而 𝐶 代表单个问题的上下文集合。在 OD（开放域设置）中，𝐶 = C。

Min 等人[100]训练了一个单段 BERT 模型[70]，该模型在分心设置上取得了与最先进模型相当的性能，而在开放域设置上则落后于最先进模型，这表明开放域设置对于单跳模型来说更具挑战性，值得今后研究。为了进一步验证分心设置主要可通过单跳解决的假设，我们进行了人工评估。具体来说，当使用全部十个输入段落时，人类的 F1 准确率为 87.37；当缺少一个黄金段落时，准确率为 82.06。为了提高这些干扰项的质量，通过训练单跳 BERT 模型并挑选得分最高的错误段落，收集了一组对抗性干扰项。虽然单跳模型的性能会明显下降，但在对这些干扰项进行微调后，性能就会恢复。

提高干扰项质量的另一个可行方法是添加大量此类干扰项。然而，我们观察到，即使有 500 个干扰项，单跳模型的性能仍然很显著。在开放域设置中，性能明显下降，这表明开放域 MHQA 具有挑战性。在对单跳可解问题进行人工分析时发现，火锅质量保证数据集中有 35% 的问题只能通过匹配实体类型来解决。这些问题需要在开放域环境中进行多跳推理。不过，还有 26% 的问题即使在开放域环境中也可以单跳求解。这些问题的答案可以通过找到唯一满足两个属性的实体得出（交叉型问题），但只需使用其中一个属性也能找到唯一答案。还有 8%的问题是非组合式单跳问题，只有剩下的 27% 的问题需要多跳推理。

同样，Min 等人[102] 将 HotpotQA dev 集分为单跳可解问题（3426 个）和单跳不可解问题（3979 个）。

Das 等人[28]也得出了类似的结论，他们发现有 1184 个问题（20%）的答案跨度在两个辅助段落中都有提及，只需考虑其中一个就能提取出答案。

Xiong 等人[167]进行了一项实验，将可以访问 HotpotQA 中所有辅助段落的 QA 模型与只能访问答案（或第二跳）段落的另一个模型进行了比较，结果发现，具有完全访问权的模型只能从 49.43 EM 提高到 50.96 EM。

Trivedi 等人[145] 发现，MultiRC 中超过 60% 的 dev 问题至少有一个相邻的相关句对，因此多跳推理非常容易。
在这里插入图片描述

图 2. 用于 MHQA 的四种架构。一个模块的自循环表示该模块独立于后续模块，而来自后续模块的传入连接则表示来自该模块的某种反馈。 a) IR 模块和推理模块执行多个跳转，彼此独立，也独立于应答模块。c) 红外模块首先反复检索所有跳转的相关文档。推理模块执行一次跳转，并将输出发送给应答模块。回答模块要么回答问题，要么向推理模块发送反馈，要求再进行一跳推理。 d) 在每一跳，红外模块将其输出发送给推理模块，后者再将其输出发送给回答模块。回答模块要么预测出最终答案，要么向 IR 模块提供反馈，指出缺少某些所需的信息。

4 方法概述

如第 2 节所述，大量工作将 MHQA 任务分为两个步骤：从语料库中提取所有相关上下文的检索（IR）步骤和阅读理解（MRC）步骤。一般来说，现有的工作有三个基本单元–检索器、推理器（或阅读器）和答案预测器8。这些单元如何相互影响，可以作为方法的粗略分类。一种方法是先完成前一个单元的任务，然后再转到下一个单元；另一种方法是在一次迭代中执行两个或三个任务，并在相应的跳转中重复执行。因此，考虑到检索和推理模块的多步性质，有四种可能性。这四种模式如图 2 所示。

少数模型从上下文中检索重要句子或实体，作为推理的中间步骤。由于 MultiRC 和 OpenBookQA 等一些数据集的上下文粒度为句子，因此很难确定什么是推理，什么是检索。为了避免这种混淆，我们将参考第 2 节中对任务的定义。如果某个步骤的输出粒度与上下文的粒度相同，我们就将该步骤称为检索过程的一部分。如果粒度较低，我们则称之为推理。由于现有的大部分工作都集中在前两个单元上，因此我们首先介绍了这些单元所使用的技术，首先是顺序性的，然后是迭代性的。然后，我们将介绍答案预测模块，最后介绍一些实际操作中的辅助任务。
在这里插入图片描述

图 3. 检索模块 检索过程可分解为两个步骤：a) 初步检索，这是一个快速、高召回率的步骤，目的是从开放域设置中的所有上下文集合中检索所有相关上下文。b) 最终检索：这是一个更彻底的步骤，目的是过滤掉所有不相关的上下文。由于输入上下文的数量较少，这一步可以使用更复杂的重新排序模型。有些模型会直接将输入文档的连接传递给推理模块。请注意，MHQA 的闭域设置无需进行初步检索。

4.1 检索

当一个问题的可用上下文集很大时，检索步骤就会成为瓶颈，这在开放域质量保证中尤其具有挑战性。直观地说，多跳检索比单步检索更具挑战性，因为一跳中的任何检索错误都会在随后的每一跳检索中累积，从而导致众所周知的语义漂移问题[170]。Das 等人[28] 通过在 HotpotQA 的 "易 "和 "难 "子集（分别主要包含单跳和多跳问题）上运行简单的 BM25 验证了这一假设，发现准确率从易子集的 53.7% 下降到难子集的 25.9%。同样，Feldman 和 El-Yaniv [41] 运行了一个 TF-IDF 检索器，发现虽然它能在 90% 以上的问题中成功检索出前 32 个段落中的至少一个黄金段落，但往往无法检索出两个黄金段落。

如图 3 所示，现有的检索方法可大致分为两类：一类是开放式领域检索，即模型必须搜索整个上下文集 C；另一类是封闭式领域检索，即为模型提供较小的相关（和嘈杂）上下文集 𝐶 ⊂ C 以及问题 △。在开放域环境下工作的大多数技术都采用两步策略，第一步（称为初步检索）是快速、高召回率的过滤，以获得一组初始相关上下文。然后，第二步（称为最终检索）基本上被简化为闭合域设置，在闭合域设置中可以使用更复杂的技术来进一步去除噪声上下文。

4.1.1 初步检索

开放域检索的第一步（此处称为初步检索）可以是单次检索，就像在单跳问题解答中所做的那样，即模型尝试在单次检索中提取所有相关上下文。我们进一步将这一步骤分为两类：单次检索和迭代检索。

单步方法–（2 次）直观地说，这种策略在提供候选答案的 2 跳情况下效果很好。如果跳转次数超过两次，查询到的排序算法（如 BM25）可能会遗漏必要的信息，无法捕捉到与中间跳转相关的术语。同样，如果不提供候选答案，这种策略也不能很好地捕捉第二跳[34]。为了验证这一假设，[34, 41]使用简单的 BM25 并将原始问题作为查询来评估 HotpotQA 上的第二跳段落召回率，结果发现效果不佳。

Yadav 等人[169] 通过将问题与每个候选答案附加在一起来创建多个查询。在这些查询中使用 BM25 来提取前 𝑛(= 20) 个上下文（在 MultiRC 数据集中为句子）。
Chen 等人[21]解析与给定表格中每个单元格相关联的段落，并检索与问题相关的所有单元格。

迭代法–（9 个作品）因此，大多数现有技术都采用了多步骤检索法。这些方法可进一步分为两小类：
使用实体链接/超级链接： Das 等人[28]认为，查询重构方法不一定使用证据中的实体信息，因为它们可能不是证据中最常见/最突出的术语。许多现有作品在第一跳检索中使用实体提及来查找标题中包含这些实体的维基百科段落。这是一种高效的技术，因为实体可以作为预处理步骤的一部分提取出来。这种技术对 HotpotQA 尤为有效，因为 HotpotQA 的创建过程使用维基百科段落作为桥梁实体的第二跳上下文。不过，这也表明在建立模型时数据集设计存在偏差[40]。在为某个数据集建立模型时，尝试模仿（或受益于）该数据集的创建过程可以提高在该数据集上的准确性，但并不能保证在其他数据集上也有很好的表现。Das 等人[28]还建议不要使用现成的实体链接器，因为它们通常是在维基百科上训练的，可能会导致数据泄漏。

Das 等人[28]使用 BM25 进行第一跳检索，然后为每个提及的实体检索维基百科段落。由于已知 HotpotQA 包含单跳和多跳问题，因此在第一跳检索中为每个实体添加了自链接，以处理单跳问题。
Xiong 等人[167]在第一跳检索中使用了混合 TF-IDF + BM25 方法，以获得 10 个文档。跨度预测和外部实体链接用于从第一跳通道中获取桥梁实体。监督重排器会给出前 10 个实体，这些实体的维基百科段落会被用作第二跳段落。作为一项辅助任务，还增加了跨度损失，用于预测答案段落标题实体。
Ding 等人[34]、Fang 等人[40]检索维基百科中标题包含问题中提到的实体的段落作为第一跳段落。这些段落的超链接被用来获取第二跳段落。
Shao 等人[129]提取关键词并将其与段落标题匹配，然后选出 TF-IDF 分数最高的𝑁₁ 个段落。除此以外，再添加 TF-IDF 分数最高的𝑁₂ 个段落。对于第二跳，添加所有具有来自第一跳段落的超链接和指向第一跳段落的超链接的段落。

查询重构：隐藏空间

Feldman 和 El-Yaniv [41] 首先使用上下文化 ELMo [111] 嵌入的 Bi-GRU 层对问题进行编码，然后使用 MIPS 检索所有相关段落。为了缩小 MIPS 的搜索空间，我们采用了基于 TF-IDF 的检索器 [16] 来获取顶部 𝑛_𝑖 段落。监督重排器会对段落进行评分，前 k 个段落中的每个段落都会被用来修改问题隐藏表示法，为下一步提供 k 个新的搜索向量。重整模块对段落和问题编码使用双向关注[127]，然后使用 ReLU 激活线性层。添加一个残差连接，其输出被传递到一个 Bi-GRU 层，然后是另一个带有 ReLU 激活的线性层。对残差输出进行最大池化处理，得到更新的查询向量。每一步，重新排序器都会选择前 k 个段落。段落编码与问题无关，因此可以预先计算编码，以便在训练和推理过程中进行高效检索。

查询重构：文本空间有些方法通过添加、修改或重新加权问题文本来重新制定问题。改变文本空间中的问题可以使中间问题具有可解释性。

Yadav 等人[170] 将问题与每个候选答案连接起来，以获得初始查询。Yadav 等人[168]使用 GloVe 嵌入[110]的无监督对齐方法检索理由句。他们计算了一个矩阵，其中存储了查询词块与句子词块嵌入的余弦相似度。最大池化
对句子标记进行最大池化处理，为每个查询标记找出最相似的标记。计算该向量与包含查询标记 IDF 值的向量之间的点积，得出总体配准得分。对于 MultiRC，这些句子是从所有相关段落的句子中挑选出来的。对于 QASC，则使用启发式 IR 方法检索相关句子。
启发式 IR 方法检索相关句子。重拟过程只保留未覆盖的标记，如果此类标记的数量< 𝑇 (= 2 - 4)，则从先前检索的句子中添加新的标记。该过程一直重复，直到 a) 没有检索到新的查询词组或 b) 发现所有词组。当使用 GloVe 嵌入的软匹配来识别标记时，效果提高了 10.7%。
Zhang 等人[181]使用带有问题的 TF-IDF 来获取第一跳段落。在随后的每一跳中，基于 ALBERT 的阅读器模块被用作先前检索文档的跨度提取器，以提取与问题相关的文本。提取的跨度与上一步的查询进行连接，以执行下一跳的检索。如此反复，直到阅读器模块找到答案或达到最大跳数。
Qi 等人[112]采用了与 Zhang 等人[181]类似的方法，将 DrQA 的文档阅读器模型用作跨度提取器。在训练过程中，启发式方法被用来寻找神谕查询。
Yadav 等人[171]使用与 Yadav 等人[170]类似的对齐技术检索 k 个理由句。问题 𝑄 与每个检索到的理由 q_𝑘 连接，标记权重分配如下：对于原始问题中的每个标记 𝑡，如果 q_𝑘 包含 𝑡，则 𝑡 的权重为 1，否则为 2。查询用于第二跳检索，以获得最终的 𝑁 上下文集。然后，生成下图中的证据链，并根据每个证据集包含多少查询词（覆盖率）对其进行排序，最后选出前𝑛进行监督重排。
Malon和Bai[95]建议生成基于文本的自由格式后续问题，以执行迭代检索。红外模型（BM25）利用问题检索相关上下文集。基于 BERT 的三向控制器模块可预测每个上下文是否包含最终答案、中间信息或无关信息。QG 模型用于为每个包含中间信息的段落生成后续问题。BERT 用于从包含最终答案的上下文中获取答案。无关段落将被忽略。Zhao 等人的 QG 模型[182] 是在反向 SQuAD 上训练出来的。控制器模型采用交叉熵损失进行训练，以便在地面实况三元组上进行三元分类。

Sidiropoulos 等人[130]在 HotpotQA 数据集上评估了两种迭代检索方法在两次跳转中每一次的性能。他们认为，基于实体的检索受限于此类超链接和段落的可用性，而重构方法则受限于基于词汇的检索性能。他们发现，虽然基于 BERT 的重排后的 BM25 在第一跳检索中表现出色，但在第二跳检索中却失败了（根据第一段检索第二段的能力进行评估）。同样，虽然 Xiong 等人[166]的模型具有最佳的整体性能，但在对第二跳检索进行评估时仍有改进的余地。因此，我们提出了一种混合技术，在第一跳使用重新排序模型，在第二跳使用单跳密集通道检索模型 [131]。结果表明，混合技术优于现有技术，因此需要进一步研究。

4.1.2 最终检索（重新排名）

连接/联合 有些方法不对输入上下文进行过滤，而是直接将上下文的联合或连接传递给推理模型。

Yadav 等人[170] 在初步检索步骤中维护了 N 个并行推理链，并将这些推理链的联合传递给答案预测模块。
Ding 等人[34]和 Yadav 等人[169]没有过滤段落，而是直接以较低的粒度进行推理。

有监督的重新排序 大多数方法都使用一个有监督的模块对输入上下文进行评分和排序，然后使用某种标准过滤相关性较低的文档，再传递给答案预测模块。

Feldman 和 El-Yaniv [41] 使用一个具有 sigmoid 激活功能的线性层来获得问题段落中每个句子的相关性得分。然后对所有句子进行最大池化处理，得出相关性得分，并选出前 k 个最相关的段落。最大集合法允许一个段落中只有一个句子与问题相关并获得高分。
Das 等人[28]使用 BERT 为每一对第一跳和第二跳段落计算查询感知嵌入。这两个段落被串联起来并输入 2 层神经网络以获得分数。得分最高的𝑘 对将被传递给阅读器模块。
Xiong 等人[167]使用双 LSTM 层[59]来预测每个第二跳段落与问题的相关性。
Fang 等人[40] 使用 RoBERTa 编码器[92] 和微调层来获取前 N 个段落。
Zhang 等人[181]将节点（文档）表示法传递给二元分类器以预测其相关性，并保留得分最高的 𝑘 个文档。
Yadav 等人[171] 使用 RoBERTa [92]进行重排训练，预测证据链的 F-1 分数。
Zhang 等人[179]和 20 将带有问题的段落串联起来，然后将其输入 BERT 和二元分类器，并保留得分最高的 N（=3）个段落。Qiu 等人[113]采用了类似的方法，但设置了一个阈值来检索不同数量的段落。
Shao 等人[129]在神经图灵机[51]的启发下使用了门控记忆流网络，以问题和推理链中的前几段为条件，模拟段落成为推理链中下一个上下文的概率。在每一个时间步骤 𝑡 中，BERT 用于计算段落的问题感知嵌入𝑥_𝑡。A KVMemNN 架构将内存建模为一组键值对。该模型将键向量和𝑥_𝑡传递给线性层，并将 Softmax 应用于输出的𝑊_𝑥𝑥_𝑡 · 𝑊_𝑘𝑘_i。Softmax 后的输出乘以另一个矩阵𝑊_𝑣，然后用作权重，同时求和值向量𝑣_𝑖，从而得到读出向量𝑜_𝑡。记忆读取过程类似于计算自我注意力[148]，作者在计算了注意力头的𝑜_𝑡后，将输出进行了合并。𝑜_𝑡和𝑥_𝑡被传递到另一个具有 tanh 和 sigmoid 激活的线性层，从而得出相关性得分 𝑠_𝑡。如果𝑠_𝑡 > 𝑔𝑎𝑡e（其中 𝑔𝑎𝑡e是一个超参数），𝑥_𝑡就会被写入内存。硬负面示例是通过训练基于 BERT 的模型来预测相关性得分𝑠_𝑡，并选择非证据段落中的前 8 位来生成的。
Dua 等人[36]提出的生成式上下文选择可学习预测问题的形成过程。在数学上，该模型试图学习𝑝(𝑎,q|𝐶)，而不是𝑝(𝑎|q,𝐶)（与判别模型一样）。这种概率模型为

其中𝑝(𝑐_𝑖𝑗 |𝐶)是计算任意两个上下文之间兼容性的参数、 𝑝(a|𝑐_𝑖𝑗)是问题生成模型，预测从给定上下文形成△的概率；𝑝(𝑎|q,𝑐_𝑖𝑗)是标准应答模型。在推理过程中，模型以 𝑐_𝑖𝑗^∗ = 𝑎𝑟𝑔𝑚𝑎𝑥_𝑐𝑖𝑗𝑝(q|𝑐_𝑖𝑗) - 𝑝(𝑐_𝑖𝑗 |𝐶) 的形式检索上下文。为了建立这些概率模型，我们使用预先训练好的 T5 来获取上下文嵌入。先验和生成是一起训练的。每一对上下文的并集都会传递给编码器，然后使用指针生成器网络（PGN）[126] 解码器来预测问题。训练目标是提高黄金语境对的问题可能性和负面语境对样本集的不可能性[160]。T5 用于使用最佳语境对回答问题。使用生成模型的优点是可以避免数据集中注释者的偏差。这一假设通过在 Tu 等人[146]建立的对抗性问题集上运行模型得到了验证。结果发现，选择相关句子的多标签句子分类器𝑝(𝑠|q,𝐶)具有更好的性能，但同时也存在更大的偏差。
Chen 等人[21]将每个单元格及其相邻单元格输入单元格编码器，以获得它们的表示。将这些表征汇总后，再送入一个前馈神经网络以获得分数。
Sun 等人[138]分两步进行检索，第一步检索一个段落，第二步从这些段落中检索一个句子。计算段落和句子检索得分的加权和，找出最佳检索句子。从第一跳检索到的段落的检索得分会广播给段落中的句子。检索到的最佳句子将被送入 BERT-large，进行提取式质量保证。

无监督重新排序 Yadav 等人[169, 170]通过实验验证了使用有监督重新排序方法会产生依赖于领域的性能这一隐含缺点。每个领域的性能取决于属于该领域的那部分训练数据。因此，人们试图提出无监督重新排序技术，以达到与有监督重新排序类似的质量水平。

Yadav 等人[169] 考虑了所有 (ⁿ_𝑘)(𝑘 ∈ [2, 5])推理链，这些推理链由 𝑛 检索到的段落组成，并使用一个简单的公式计算分数。他们将 Relevance 定义为推理链的平均 BM25 分数，Overlap 定义为推理链中每对句子之间的单词重叠度，Coverage 定义为句子与问题和答案的单词重叠度乘积。最终得分由 𝑅·𝐶/𝑂 得出。通过实验发现，𝑘 = 3，4 是最佳值，理由是在大小为 2 的链中获得两个正确的检索段落非常困难，而大小为 5 的链则会受到噪声的影响。
Chen 等人[21]以无监督的方式从 HybridQA 数据集中的表格中检索单元格。如果一个单元格的值在问题中被提及，或者是相应列的最小/最大值，那么该单元格就会被选中。如果单元格超链接到 TF-IDF 检索器检索到的其中一个段落，也会被添加进去。

对重新排序方法进行分类的另一种独立方法是根据模块是对每个检索到的上下文进行独立评分，还是将其作为可能的推理链的组成部分进行综合评分。我们将这两类方法分别称为 上下文重新排序 和 推理链重新排序。表 6.1.1 列出了属于这两类的方法。Yadav 等人[169]的研究表明，将推理链作为一个整体进行评估比单独评估每个段落的性能更好。

4.2 阅读理解

4.2.1 基于图的技术 - 8篇作品

基于图的方法的一般流程如下：构建由一种或多种类型的节点（实体、句子、段落、文档节点等）组成的图，并根据一些词汇启发式方法添加边。节点的上下文编码被传递到图神经网络[75]或图注意力网络[150]或图卷积网络[76]的一个或多个层。这些层利用每个相邻节点的表示更新每个节点的表示。这样，经过 𝑛 个这样的层后，被 ≤ 𝑛 条边的路径分开的节点就可以共享彼此的信息了。因此，每一层都要完成一跳的推理过程。有些方法略微偏离了建议的一般流程。我们将在下文中介绍这些差异以及其他细节。

Chen 等人[21]从上一阶段检索到的小区开始，决定跳转到哪个相邻小区。
Ding 等人[34]从检索过程中提取的实体开始构建实体图。对于每个节点，BERT 模型会将其表示法与问题和检索到的段落一起提取出来，并从段落中提取实体添加到图中。这一过程不断重复，直到 a) 无法添加新节点或 b) 提取的节点数量达到上限。包含所提取实体的句子被视为相应实体的 “线索”。然后，使用图形神经网络 (GNN) 将线索用于更新节点表示。线索还可用于支持事实预测的辅助任务。
Fang 等人[40]建议构建一个分层图网络，其中有四类节点，分别代表问题文本、相关段落、这些段落中的句子和这些句子中的实体。在第一跳源句子和第二跳目标段落之间引入了双向边。段落与其句子之间、句子与其包含的实体之间、问题与其包含的实体之间、所有段落之间、每个句子与其上一个句子和下一个句子之间也引入了边。RoBERTa 用于编码，双注意层和 Bi-LSTM 层用于获取节点的初始上下文化表示。在分层图上应用图形注意网络（GAT）[150]，并使用门控注意机制将更新的表示与原始上下文表示合并。合并后的表征传递给答案预测模块。据推测，门控合并能有效处理较少的跳数。
Zhang 等人[181]构建了一个文档图，并在文档具有共享实体时添加了边。文档的问题感知嵌入由 Albert 生成，并用作初始节点表示。GAT 用于更新每个共享实体的表示。为了更新非实体标记的表示，它们与更新后的多文档融合表示一起被送入转换器。更新后的表征将传递给答案预测模块。
Cao 等人[15]将支持文档中提及候选答案的所有实体绘制成实体图。跨文档的边缘添加在关于同一实体的提及之间，而文档内的边缘添加在属于同一文档的每一对节点之间。对于初始表示，GloVe 和 ELMo 分别用于标记级嵌入和上下文嵌入。上下文嵌入至关重要，因为图节点只包含实体标记。为了处理包含多个单词的实体，对它们的嵌入取平均值。这两个内嵌信息被传递到一个单层 NN（由 Bi-LSTM 代替，用于对问题进行编码），以获得初始节点表示，并与 NER 和 POS 内嵌信息进行连接，然后再传递到 GCN 层。
Thayaparan 等人[142]计算了句子中每个单词的 GloVe 嵌入与查询中每个单词的相似度，并在 m（=5）个最接近的句子单词中取平均值，得到句子得分，然后选出前 k（=25 或 30）个句子。只用选出的句子创建一个包含句子节点和文档节点的图。如果文档之间有共享实体，则在文档之间添加边，如果段落与其所有句子之间有共享实体，则在段落与其所有句子之间添加边。在句子之间添加边会增加复杂性，但不会有太大改善。节点的初始表示是通过将句子或段落中包含的实体的 GloVe 嵌入矩阵传递给节点和查询的双线性注意层[74]来计算的。为了将表征压缩到固定大小，我们使用了自注意力。T(=3) 层门控图神经网络用于更新表征。
De Cao 等人[30]创建的实体图与 Cao 等人[15]类似，但有一些额外的边类型：共参边：同一实体的共参提及之间（单独类型，因为这些边的可靠性较低），以及表示两个节点之间没有联系的补码边。共参照边是一种单独的边类型，因为共参照系统中的错误导致这些边的可靠性较低。屏蔽版本不需要这些边。查询表示是通过将 ELMo [111] 传递给双向 RNN [118] 而形成的。通过将 ELMo 上下文嵌入传递到一个前馈网络，形成与查询相关的初始节点表示。然后应用门控关系-GCN[123] R-GCN 的第 L 层，即 GCN 的一个版本，以获得最终表示，并将其传递给预测模块。关系-GCN 能够通过为不同边缘类型连接的相邻节点使用不同的权重矩阵来适应不同的边缘类型。一项消减实验证实，尽管共同参照边缘很有用，但对性能的贡献最小。另一项实验试图通过训练模型来预测边缘类型，但效果不佳。
Qiu 等人[113]构建了一个实体图，并在具有相同提及文本的实体之间、属于同一句子的实体之间以及段落中的每个实体与其标题中的每个实体之间添加了边。问题和上下文被连接起来并传递给一个 BERT，然后再传递给一个双注意层，以获得上下文节点表示。以下四个步骤反复进行： 1) 对实体提及中的标记进行平均最大池化处理，以更新实体嵌入。2) 利用查询和实体之间的关注度来计算掩码权重，并将其乘以实体表征，然后再输入到 GAT。3) 更新后的实体表征与实体词串连接，并使用 LSTM 层更新所有词串的表征。4) 查询和实体表征之间的双向关注用于更新查询表征。由于答案可能不是实体，因此有必要更新每个标记的嵌入。
Zhang 等人[179] 创建了两种不同的图：a) 句子图，在属于同一段落的句子之间以及共享一个实体的句子之间有边；b) 实体图，在同一句子中出现的实体之间、同一实体的不同提及之间以及段落中的每个实体与其标题中的每个实体之间有边。直觉告诉我们，人类首先关注的是与问题相关的段落，然后是句子，最后才是重要的单词。BERT 词嵌入被传递到双向关注层，以获得上下文嵌入。为该层提出一个新颖的相似性矩阵。将自我关注应用于查询，并将查询感知节点嵌入信息传递给 GAT。对句子节点表征应用自我关注，输出由句子中每个单词的表征附加。应用 LSTM 融合两个图的输出。
Huang 和 Yang [61] 形成了一个句子图，并在句子 𝑠_i 和 𝑠_𝑗 之间添加了一条边，其权重𝑤_𝑖𝑗 由以下公式给出：

这些权重使模型能够以一种新颖的方式处理边缘类型。串联的段落和问题被送入一个 BERT，然后是一个双注意层。句子表示是通过从段落编码中提取令牌级嵌入和令牌嵌入加权得到的，其中的权重是通过双层 MLP（多层感知器）计算的。大多数使用 GNN 的方法都是并行地对每个节点进行信息传递。这就要求节点的表示精确更新 𝐿 次，其中 𝐿 需要指定为一个超参数。如果 𝐿 过大，会导致过度平滑。如果𝐿 太小，则会抑制长路径推理。此外，这种算法会执行不必要的更新，导致效率低下。因此，我们提出了一种新颖的信息传递算法，该算法从问题开始执行 BFS，并通过过程中访问的每一条边传递信息。

Thayaparan 等人[142]认为，使用图结构表示法的优势在于减少了以类似路径的方式组合多个相关信息所需的推理步骤。事实上，所需的图（或其中的某些部分）可以离线创建，这给它带来了计算上的优势。不过，图结构也有一定的局限性[129]，尤其是对于热点问答（HotpotQA）中的比较类型问题，因为在这类问题中，关于两个实体的证据段落是独立的。许多技术都假定节点之间的关系是定向的，但事实并非总是如此。对于门控 GNN，计算效率和模型学习能力会随着图中节点和边类型的增加而降低。

虽然图结构在多跳推理中很普遍，但 Shao 等人[128]认为这并不是必要的，图注意可被视为自注意的一种特例。以 Qiu 等人[113]的研究为基准，比较去掉图融合模块后的结果。结果表明，通过微调基于 BERT 的编码器，可以很容易地弥补使用图结构所获得的性能。虽然图结构能使模型只关注相邻节点，但没有任何先验知识的模型仍然可以学习这种行为。进一步的实验验证了这一点。当图融合模块被自注意层取代时，结果非常相似，而将其替换为转换器则会带来显著的改进。对于全连接图而言，图注意力可以简化为自注意力，从而使其成为自注意力的一个特例。注意力模式的可视化和观察与 Kovaleva 等人的研究类似[78]。研究发现，预先训练的转换器能够捕捉几种类型的注意模式：a) 实体之间；b) 共同引用实体之间；c) 实体与其属性之间；d) 实体与句子之间。根据图的结构，这些模式可能被图注意覆盖，也可能不被图注意覆盖。因此，可以说自我注意力比图注意力更普遍、更灵活。

4.2.2 问题分解技术。 - 3作品

其主要思路是将多跳问题分解成多个单跳问题，然后使用单跳 QA 模型来回答每个问题。这种方法对于像 HotpotQA 中的桥梁问题这样使用桥梁实体构建的问题尤为有效。通过找到桥梁实体，这些问题可以很容易地分解成两个子问题。虽然这种技术已被有效地用于 2 跳和二进制比较问题，但对于需要 2 跳以上推理的问题，这种技术还有待测试。这种技术还利用了有关问题结构的知识，因此在问题结构灵活的情况下很难适应。

Min 等人[102]使用的假设是，每个子问题都可以通过复制和轻度编辑多跳问题中的关键跨度来形成。HotpotQA 中的问题分为四类：桥梁（47%）、比较（22%）、交叉（23%）（要求一个实体满足多个属性的问题）和其他（8%）。对于前三类问题，建议编辑方法取决于问题类型。通过训练指针网络来预测𝑝_𝑖𝑗，即𝑖^th词作为𝑗^th索引的概率，从而将问题文本分割成若干跨度。400 个注释由人工生成，用于训练。通过最大化分解的联合概率，为每个问题预测了三个用于桥梁问题的指数、两个用于交叉问题的指数和四个用于比较问题的指数。根据推理类型的不同，这些跨度会稍作修改。任何单跳 QA 模型都可用于回答每个单跳问题。问题、推理类型、答案和证据的串联使用 BERT 编码，并使用带 sigmoid 激活的单层前馈 NN 进行评分。推理类型以得分最高者为准。我们还尝试了另一种方法，即在分解和回答之前预测推理类型，结果发现效果不佳。为了验证最初的假设，我们用基于跨度的问题代替人写的问题对同一技术进行了测试。模型性能差异不大，这表明基于跨度的子问题与自由形式的子问题一样有效。
Cao 和 Liu [14] 将 MHQA 的任务分解为两个部分：粗粒度分解和细粒度交互。分解模块负责使实体名词或代词的高维向量分布更倾向于问题的中间答案。细粒度交互模块是一个改进的双向关注模块。由此产生的上下文表征被传递给自我注意层，然后通过传递给 Bi-GRU 层用于支持事实预测。
Sun 等人[138]针对四个不同的数据集提出了 MHQA 方法： HybridQA、QASPER、HotpotQA-Long 和 ShARC-Long。QASPER 最初是作为长文档的单跳 QA 提出的，而 ShARC 则是作为会话 QA 任务提出的。本文利用了长文档的结构通常分为章节和子章节这一事实，这些章节和子章节可用作独立的上下文，它们之间的依赖性有限。预先训练好的 ETC 模型 [1] 被用作问题编码器和上下文编码器。ETC 是一种预先训练好的掩码语言模型，采用全局-局部关注机制。ETC 为每个句子分配一个特殊的全局标记，该标记只关注句子中的局部标记，其嵌入经过训练，可以总结句子中的局部标记信息。此外，ETC 还采用对比预测编码（CPC）[147] 来训练全局标记的嵌入，使其了解上下文中的其他句子。它接收一系列句子，并输出每个句子的上下文化表示。在会话问答中，问题是由原始问题和由每对后续问题和答案组成的句子连接而成的。ETC 再次用于对问题段落进行编码。对于 2 跳问题（HotpotQA、HybridQA），空句子与问题一起传递给 ETC，以得到两个问题编码。段落嵌入由句子嵌入的加权和计算得出，其中权重是查询向量对该句子的关注度得分。每一步都会对文档中的每个句子和每个段落进行查询，并利用输出结果更新查询表示。更新后的查询表示与下一个查询句子的嵌入相结合，就得到了下一跳的查询向量。

Min 等人[102]还发现，有些问题不是由两个单跳问题组成，而是需要隐含的多跳推理，因此无法分解。其次，对于某些问题，每个子问题的答案在文本中并不明确存在，必须通过常识推理来推断。

4.2.3 杂项技术

基于蕴涵的 MHQA：等式 1 将 MHQA 大致表述为一项 "蕴涵 "任务，其中前提由多个上下文组成，假设为 “a 答案 q”（下文简称𝐻_aq）。这表明蕴涵模型在这项任务中是有用的。然而，将 MHQA 建模为 "entailment "面临三大挑战：a) 更大的可能答案集使得这种方法难以扩展。b) MHQA 需要聚合多个上下文，因此不能直接使用基于单句的 "entailment "模型。Trivedi 等人[145] 的目标是在多重选择数据集 OpenBookQA 和 MultiRC 上解决后两个难题。他们提出了两条简单的基线： Concatenate 将所有句子串联起来作为entailment 任务的输入，而 Max of local decisions 则对每个句子独立进行 entailment，然后用 max 运算汇总结果。这两种基线方法在验证上述挑战方面表现不佳。因此，我们提出了一种由句子相关性模块和多级聚合组成的新方法 “Multee”。句子相关性模块使用预先训练好的 "entailment "模型来生成每个句子的 “假设感知表示”，并将其传递给 "Bi-LSTM "层来生成每个句子的 “上下文表示”，再将其传递给 "前馈层 "来获得相关性分数𝛼_𝑖。多层次聚合模块将每个句子连同假设传递给 𝑘 ESIM [19] entailment stacks，以生成 𝑘 段落级向量，这些向量被连接起来并传递给前馈层以预测词义。每个词义堆栈有 𝑚 层，其中的𝑙层独立处理每个句子，并使用 𝛼_𝑖’s 对输出进行汇总。其余各层处理汇总输出，形成段落级嵌入。交叉注意力层中也会进行聚合，以生成一个交叉注意力矩阵，其中包含每个假设标记和每个段落标记之间的注意力。句子相关性权重也在这里使用。所使用的每个蕴涵堆栈都是在 SNLI [13] 和 MultiNLI [161] 上预先训练过的。
用于 MHQA 的常识性知识：Bauer 等人[7]认为，即使使用大型语料库，预先训练的模型也可能无法捕捉到所有基础常识性知识，因此建议使用 ConceptNet [134] 提取常识性知识，并利用它形成通往答案的推理路径。从问题概念（𝑐₁′ 𝑠）出发，通过以下四个步骤形成一棵由各种推理路径组成的树：a) 从 ConceptNet 中选择关系 𝑟₁ ′ 𝑠，将上下文中的𝑐₁ 链接到另一个概念𝑐₂。b) 从上下文中选择能将𝑐₂ 与另一个概念𝑐₃ 联系起来的关系𝑟₂′ 𝑠。 c) 从上下文中选择能将𝑐₄ 与另一个概念𝑐₅ 联系起来的关系𝑟₃。 d) 从上下文中选择能将𝑐₄ 与另一个概念𝑐₅ 联系起来的关系𝑟₄。这就产生了大量的推理路径，分两步进行评分：a) 𝑛 -𝑠𝑐𝑜𝑟𝑒 是根据上下文 𝐶 中 𝑐₂、𝑐₃、𝑐₅ 中每个概念的词频计算的。𝑐₄以其点向互信息（PMI）[24] 与𝑐_1-3进行评分。b) 𝑐 - 𝑠𝑐𝑜𝑟𝑒 节点得分从叶节点开始累积，并递归更新每个非叶节点。

其中，𝑐_𝑖+1′ 和 𝑐_𝑖+1′′ 是𝑐_𝑖得分最高的两个子节点。在推理树的每一层，每个节点只保留得分最高的两个子节点，其余的都会被剪除，这样就有了总共 2⁴ 条推理路径。上下文表征是通过将标记嵌入每个推理路径而形成的常识表征。更新后的上下文表征与原始的上下文表征通过一个 sigmoid 门结合在一起。该门包含了常识可能是可选的这一事实。因此，该单元被称为 NOIC（必要和可选信息单元）。
表格推理 ：Chen 等人[21]使用 BERT 对表格中的单元格进行编码，表格中的单元格由其值、位置、超链接等表示。一个单元格的编码及其邻近单元格的编码被送入一个前馈模型和一个 Softmax 层，以找到下一跳的单元格。该模型也可以跳转到同一小区。单元值被添加到超链接段落中，并传递给答案预测模块。
用于推理链预测的指针网络： Chen 等人[18]使用 BERT 对问题进行编码，并获得与查询相关的段落编码。从段落编码中提取句子编码的方法类似于 Huang 和 Yang [61]。其他基线包括：a) BERT-Sent，使用 BERT 获取每个句子的查询感知编码；b) BiDAF-Para，使用 BiDAF [127] 对段落进行编码。结果表明，BERT-para 的性能最佳。对 LSTM 指针网络进行训练，以预测推理链中每个句子成为 𝑡 -𝑡 的概率，即 𝑃(𝑠_i=𝑟𝑐_𝑡)。基本真实推理链是使用第 4.4 节中讨论的链提取模型确定的。该模型使用负对数似然法（NLL）和强化学习法（RL）进行训练。然而，RL 并不能显著提高性能。在测试期间，由于最佳链在全部检索完毕之前可能并不明显，因此需要保留一束可能的链。
双向注意力基线： Yang 等人[173]通过修改 Song 等人[133]的架构提出了一种基线。问题和段落的连接被传递给一个 RNN，以结合字符和单词级别的嵌入。双向关注被应用于问题和上下文嵌入，以获得查询感知上下文表示。在传递到自注意层之前，会在这些表征的另一个 RNN 输出上添加一个剩余连接。

4.3 答案预测模块

4.3.1 候选人回答方法

处理候选答案预测的方法通常是通过对问题进行候选感知嵌入来启动检索/推理过程，并独立输出每个候选答案的表征。查询和上下文的双向关注层[15]。这些表征可用于对每个候选者进行独立的二元分类（适用于多正确类型的问题，如 MultiRC）[145, 169- 171]，或对所有候选者进行多向分类（适用于单正确类型的问题，如 OpenBookQA、WikiHop）[15, 18, 30, 170, 171]。De Cao 等人[30]也使用了 5 个模型的集合，每个模型都用不同的权重初始化进行训练。Yadav 等人[170] 在 QASC 中同时使用了这两种回答方法，并发现多向分类可将准确率提高 5%。

4.3.2 跨度回答方法

Yang 等人[173] 将推理模块的输出传递给另一个 RNN，以支持事实预测。另一个 RNN 用于预测答案跨度的开始和结束标记。最后，一个三向分类器层用于从 “是”、"否 "和提取的跨度中预测答案类型。许多侧重于前两个单元的方法都使用这一基线作为答案预测单元 [14、28、41、113、128、129、179]。
Qi 等人[112]对这一基线做了两处改动：a) 在编码前将段落串联起来，使得表征取决于串联时的顺序。因此，共享 RNN 编码器首先对每个段落进行独立编码，然后再将表征连接起来。b) 所有注意力层都由问题和上下文表征串联后的自我注意力所取代。
Ding 等人[34]、Fang 等人[40]用 MLP 代替基线中的 RNN，并直接输入节点表示进行回答。Xiong 等人[167] 只处理桥梁问题，因此使用单个 MLP 对实体进行跨度预测。Thayaparan 等人[142] 只处理支持性事实预测，并使用单一 MLP 进行预测。
Zhang 等人[181]使用 ALBERT 模型来预测已识别段落中的答案跨度。然后，该模型会预测答案是否在给定的段落中找到。如果没有，预测的跨度将用于下一跳的迭代检索。
Min 等人[102]使用现成的单跳回答模块来回答推理器形成的子问题。
Malon 和 Bai [95] 使用一个简单的 BERT 模型来回答被识别为答案段落的问题。Dua 等人[36]也是根据两个确定段落的连接来回答问题。
Chen 等人[18]将问题和所有检索到的推理链中的所有句子连接起来，并输入 BERT 以执行 4 项任务。
Huang 和 Yang [61] 建议使用 GNN 模型的输出。句子得分使用句子节点表示的 MLP 计算。段落得分则使用句子表征上最大池化的 MLP 计算。这两个分数与跨度提取分数相结合，从而预测出最终答案。单独的 MLP 用于预测答案类型和支持性事实。
Sun 等人[138] 将所有检索步骤的嵌入值{𝑘⁰, ··· ,𝑘^∗,··· ,𝑘⁰,··· ,𝑘^∗}合并，并进行加权求和，得到用于最终预测的 K。Softmax 权重 Y_𝑗 是根据所有步骤中检索到的句子计算得出的。

4.3.3 生成式回答方法

Bauer 等人[7]使用自注意层，然后使用 PGN 解码器得到最终答案。

4.4 辅助任务

4.4.1 推理链预测

推理链是可解释的 MHQA 不可分割的一部分。HotpotQA 包含回答问题所需的支持性事实，但这些事实并不是有序的。有几项研究旨在通过使用简单的词法启发式方法来预测这些支持性事实之间的顺序[66, 144, 151]，这样形成的推理链就可以用来进一步训练或评估模型。然而，模型仅通过问题和上下文就能预测推理链也是至关重要的。

Feng 等人[42]提出了一种半监督强化学习方法，通过两个模块来恢复合作游戏方法中的推理链。除了预测推理链，该模型还能预测句子之间的关系。这两个模块是：a) Ranker 模块，在给定𝑘 段落和问题的情况下，选择推理链。问题和段落由 bi-GRU [22] 编码，并使用 Match-LSTM [156] 模型为包含推理链一部分的每个段落获取概率。然后对段落进行采样，并通过传递给 MLP 来更新问题。更新后的问题重复上述过程。排名器模块在正确的推理步骤中选择了正确的段落，从而获得奖励。 b) 预测从当前段落到下一个段落的实体的推理模块。给定由训练有素的排序器选择的第一个段落（称为首段），推理器使用数学-LSTM 模型预测每个实体在第二个段落（称为尾段）中出现的概率。虽然支持事实的排序与 Yang 等人[173]的 HotpotQA 类似，但 MedHop 的推理链需要手动注释。人工标注的方法是提取所有有效路径，即第一句话包含第二句话中的实体，第二句话包含答案。如果相应的段落描述了药物与蛋白质之间的相互作用，则该推理链将被人工标注为 “正”。以这种方式提取的推理链可能不是唯一的。
Chen 等人[18]使用 NER 和共参照解析推导出伪黄金推理链。在属于同一段落的句子之间以及具有共享实体的句子之间用边构建了一个句子（唯一）图。收集推理链的方法是从问题节点开始，在图中找到所有可能的路径，这些路径都会导致包含答案的句子。然后通过两种启发式方法对这些推理链进行排序：a）较短的推理链得分较高；b）句子与问题的 F-1 ROUGE 重叠度较高的推理链得分较高。实验结果表明，b) 是对推理链进行评分的良好标准。人工评估结果表明，与 HotpotQA 中的支持性事实相比，所生成的推理链具有相似的质量。然后对指针网络进行训练，以预测推理链中的每个句子。

4.4.2 部分知识的问答

Khot 等人[73]提出了一项新的 MHQA 子任务，模型必须找出并填补问题解答的知识空白。假定第一跳检索已经理想地完成，任务就是利用检索到的上下文来回答问题。OpenBookQA 的修改版已经发布，其中核心事实是输入的一部分，另外还修改了一些关系。
在这里插入图片描述

图 4. 拟议分类法概览。

5 拟议的分类法

第 4 节以结构化的方式介绍了现有的方法，并为 MHQA 技术的分类提出了一些依据。我们在表 6.1.1 中对其进行了总结。表中使用的缩略语说明如下。

一般情况：
– 使用的数据集：表 6.1.1 中的 MHQA 数据集及其首字母缩略词为：HotpotQA（[173]）在全维基（HP-F）和分散注意力（HP-D）设置下使用的数据集： HotpotQA（[173]）的全维基（HP-F）和分心（HP-D）设置。Sun 等人[138]提供了 ShARC [121] 和 HotpotQA 数据集的修改版本，即 ShARC-Long (Sh-L) 和 HotpotQA-Long (HP-L)。MultiRC [71] (MRC)、ARC [26] (ARC)、QAngaroo 数据集 [159] WikiHop (WH) 和 MedHop (MH)、HybridQA [21] (Hy)、QASPER [29] (QSP)、OpenBookQA [97] (OB)、QASC[72] (QSC) 和 Nr [77]。
– 跳转限制：有些方法要求问题的类型必须正好是两跳问题（Two），或要求将问题中的跳数作为输入（N）。其他方法则可灵活回答任意跳问题，无需额外输入（Any）。
– 答案类型：所提出的方法是否适用于 MCQ 类型的问题 (MCQ)、基于跨度的问题 (Span) 和生成答案 (Gen)。请注意，有些方法关注的答案类型不止一种。
– 特定领域：工作重点是特定领域技术（Specific）还是通用领域技术（Generic）。
检索：
– 检索器类型：初步检索步骤使用的是密集型（Dense）还是词法型（Lexical）检索器。
– 检索次数：初步步骤是单次（Single）还是迭代（Iter）。如果是迭代，则是使用查询重构（Iter-QR）还是实体链接/超链接（Iter-EL/H）。
– 最终检索策略 最终检索步骤是使用上下文的简单连接/联合（Concat），还是使用重新排序方法（RR）。在使用重新排序的情况下，重新排序是有监督的（RR-S-?）还是无监督的（RR-U-?），以及在重新排序过程中是对单个上下文（RR-?-X）还是对整个候选链（RR-?-C）进行评分。
基于 RC：
– 节点粒度：如果推理是基于图的模型，那么它有哪几种节点：实体节点（Ent）、句子节点（Snt）或段落节点（Psg）。请注意，图可能有不止一种类型的节点。(-) 表示推理不是基于图的。
– 关系边：图是否是关系图（Yes）（即有多种类型的边）或不是（No）（即只有一种边类型）。(-) 表示推理不是基于图的。
– 问题分解：推理模块是否使用问题分解（QuesD）（Other）。基于图和基于分解的列均为（-）的行表示使用其他技术的模型，如 [127]。

6 评估技术

6.1 评估指标

多跳质量保证任务和数据集的多样性要求采用不同的评估指标。

6.1.1 答案评估

多选题：当只有一个正确答案时，MCQ 问题很容易评估，并使用对答案选项的分类准确性。为了处理多个候选正确答案，Khashabi 等人[71] 提出了 F1a 和 F1m。精确度和召回率是通过评估每个预测的候选答案来计算的。平均精确度和平均召回率的宏观谐波平均值就是 F1m 分数。F1a 使用所有候选答案的精确度和召回率值的微调平均值。
基于跨度的答案：最常采用的指标是精确匹配 (EM) 和预测字符串标记的 F1 分数。Tang 等人[141] 认为 EM 通常过于严格，并提出了另一种**部分匹配（PM）**方法，即如果 (a) 𝐹1(𝑎_𝑝,𝑎_𝑔) > 0，则预测答案 𝑎_𝑝 被视为与地面真实答案 𝑎_𝑔 部分匹配。 8 或 (b) 𝐹1(𝑎_𝑝,𝑎_𝑔) > 0.6，且𝑎_𝑝,𝑎_𝑔 中的一个是另一个的子串。众所周知，当答案跨度较小时（小于 10 个词块），这些评价指标效果良好。
辅助任务评估：支持性事实 Yang 等人[173] 建议通过报告支持性事实的 EM 和 F1 来评估推理链（注意，这与推理链不同，因为支持性事实是句子，而上下文是段落）。他们还提出了 Joint-EM 和 Joint-F1，其中精确度定义为 𝑃_{𝑗𝑜𝑖𝑛𝑡} = 𝑃_𝑎𝑛𝑠 - 𝑃_𝑠𝑢𝑝 ，召回率定义为 𝑅_{𝑗𝑜𝑖𝑛𝑡} = 𝑅_𝑎𝑛𝑠 - 𝑅_𝑠𝑢𝑝。Qiu 等人[113]通过沿路径乘以相应的软掩码得分和注意力得分，计算实体图中推理路径的得分，并选择得分最高的 k 条路径。如果𝑘条路径都能到达支持事实中的任何一个实体，则称该事实为命中。实体级支持性事实预测（ESP）得分将作为这些支持性事实的精确匹配（EM）值和召回值进行报告。
生成答案：对于较长的文本序列，直接匹配字符串给出二进制分数并不能说明哪些答案更接近黄金答案。因此，需要自然语言生成 (NLG) 评估指标。Kočisk`y 等人 [77] 建议使用 Bleu-1、Bleu-4、Meteor [5, 108] 和 ROUGE-L [87] 来评估其数据集上的预测。Bauer 等人[7] 也使用 CIDer [149] 评估 NarrativeQA 上的长答案，该方法强调注释者的共识。

表 3. 使用拟议分类法对现有工作的综合研究。

6.1.2 检索评估

初步检索： Ye 等人[175]提出了三个评估指标： P EM（段落精确匹配）用于衡量检索器检索推理链中所有黄金段落的能力；PR（段落召回率）用于计算检索段落中黄金段落的召回率；AR（答案召回率）用于检查检索段落中是否有包含答案的段落。Das 等人[28]提出了 acc@𝑘，用于衡量模型能够检索到前 𝑘 个检索文档中所有支持事实的案例比例。Sidiropoulos 等人[130]定义了每跳检索评价，将检索的每一跳独立处理。第一跳检索性能通过在第一跳检索中检索到第一个黄金上下文的案例比例来衡量。对于第二跳，黄金段落被添加到第一跳检索的上下文集合中，并评估检索第二跳黄金段落的能力。由于本文只涉及 2 跳问题，因此定义最初仅限于 2 跳。不过、我们注意到，这可以扩展到𝑛跳，在𝑛跳中，𝑡检索步骤是通过检索𝑛^th检索段落的能力来评估的。其中，𝑅_𝑖 是在𝑖^th过程中检索到的上下文集。
重新排序： Jhamtani 和 Clark[66]要求模型对作为答案有效解释的若干推理链进行分类或排序。因此，他们使用 AUC-ROC[96]（Receiver Operating Characteristics（ROC）曲线下面积）和 F1 分数进行分类，使用 P@1 和归一化累计收益（NDCG）[65]进行排序。P@1 衡量的是排名最靠前的链有效的案例比例，而 NDCG 则是评估排名的常用指标。MRR[65]（平均互易排名）是另一个基于排名的指标，用于评估推理链的排名[63, 77]。Das 等人[28]还使用了平均精度（MAP）[90]，该指标考虑了相关文档在排序列表中的相对位置[69]。

6.2 对抗性评估

正如第 3.1 节所述，数据集中某个问题的可用语境（𝐶）的特定选择可能会导致 “推理捷径”，即模型只需使用单个语境即可正确回答问题。为了避免在 HotpotQA 的分心设置中出现这种捷径，作者使用了 TF-IDF 来检索容易混淆的上下文。Min等人[102]为火锅QA数据集收集了一组不同的分心段落，以评估模型对这种变化是否具有鲁棒性。他们采用了与（Yang 等人[173]）相同的策略，同时确保没有与原始集重叠的干扰段落。通过改变原始问题使正确答案颠倒（例如，将 "哪个更高 "替换为 “哪个更低”），也可以创建一组对抗性的比较问题。Tu 等人[146]使用了一种巧妙的技术来添加虚假的干扰项，从而骗过使用单跳推理捷径来回答问题的模型。最终答案中的一个单词会被另一个具有类似 GloVe 嵌入的单词替换，从而产生一个假答案。例如，"孟买 "被替换为 “德里”。答案段落中所有出现的单词都会被替换，从而得到一个令人困惑的干扰段落。由于答案段落的标题中提到了桥梁实体，因此标题中提到的所有单词也会被替换为类似的实体。这样做是为了切断假分心符与第一个金色上下文之间的联系。这就确保了只有一条推理链，而且模型无法仅通过查看答案段落来回答问题。使用对抗性干扰项进行的评估显示，基线模型的准确率大幅下降。此外，使用对抗性干扰项进行训练后，在原始干扰项上的表现也会更好。因此，更多的混淆性干扰项将有助于更好地训练和测试 MHQA 模型。

6.3 验证多跳推理的程度

尽管各种数据集上的多个评估指标都显示模型的得分有所提高，但模型是否真正进行了多跳推理并按照预期的推理路径得出正确答案，仍然令人怀疑。因此，我们提出了不同的评估技术和对现有数据集的修改，作为测试模型多跳推理能力的基准。

为了评估模型的可解释性，Ding 等人[34] 将模型的逻辑严谨性定义为联合 EM/Ans EM。直观地说，它试图衡量在回答正确的问题中，有多大比例的支持事实预测也是正确的。令人惊讶的是，基线得分仅为 30.3% 和 7.9%。
Wang等人[151]对HotpotQA进行了修改和进一步注释，提供了三种设置：(1) 只提供包含答案的段落；(2) 按随机顺序提供两个支持段落；(3) 按在推理链中出现的顺序提供两个支持段落，其直觉是，采用多步推理回答多跳问题的模型应从支持段落中获益，而试图直接猜测答案的模型反而会被给出的额外信息所迷惑。在使用查询重构和共同匹配方法（见第 5 节分类学）后，对 BERT 和 HotpotReader 这两种常见技术进行了测试，结果发现，通过使用所提供的推理链，这些模型的性能提高甚微（查询重构和共同匹配的准确率分别为 1%和 4%），这凸显了现有技术无法结合多跳推理来执行 MHQA。此外，研究还发现，BERT 和协同匹配的改进幅度略高于各自的对应技术。
Tang 等人[141]使用 BERT 和 DecompRC[102] 生成单跳子问题，包括 HotpotQA 数据集中的 2 跳问题以及这些问题的答案。他们声称，如果一个模型采用多跳推理来回答一个问题，那么它应该能够回答各个子问题。令人惊讶的是，在 50-60% 的正确答案中，至少有一个相应的子问题不能被正确回答。此外，在两个小问题都回答正确的问题中，有 10%的问题回答错误。这表明模型倾向于直接跳到答案，而不是把问题分解成更简单的问题。
Jhamtani 和 Clark [66] 对 QASC 数据集提出了三种修改方案，要求模型明确预测推理链和最终答案（可解释的 MHQA）。 i) eQASC：对于 QASC 中的每个问题，都会自动生成多达 10 个候选推理链，每个候选推理链都会被标注为有效（如果推理链可以暗示答案）或无效（否则）。ii) eQASC-perturbed：在 QASC 的候选推理链中，有一个词/短语可能是两个事实之间的桥梁实体，该词/短语会被一个意思相近的词替换，以确保推理链仍然有效。这项工作是通过众包完成的，即要求工作人员替换候选推理链不同句子中出现的一个词。 iii) eOBQA：OpenBookQA 中的少量问题用于使用 QASC 中的句子生成候选推理链，并通过众包进行注释。这样做是为了测试模型在未见数据集上的泛化能力。
Trivedi 等人[144]使用 “断开推理”（Disconnected Reasoning，DiRe）一词来表示模型能够通过（可能是多个独立的）不完整推理链得出正确答案。为了测量断开推理，我们创建了一个 DiRe 探针，用于检查它们的输出是否可以简单地组合成答案 q，𝐶（'-'表示集合差异）。为了阻止断开推理，我们修改了数据集，使其包括给定𝐶不足以回答问题的负样本，即𝐶 ∩𝑃_q≠ 𝜙，并且要求模型将这些问题识别为无法回答的问题。在运行 DiRe 探针时，发现使用这种修改方法进行训练后，断开推理明显减少。
Inoue 等人[62]认为，要求模型只输出支持性事实可能不足以确保模型的可解释性，应要求模型同时输出推导步骤。推导步骤被形式化为一个三元组，其形式为⟨𝑑^h,𝑑^𝑟,𝑑^𝑡⟩，其中𝑑^𝑡是实体（名词短语），𝑑^𝑟是动词短语，代表两个实体之间的关系。HotpotQA 数据集的一小部分是通过众包方式注释并发布的。在该数据集上评估模型表明了该基准的改进范围。

这些工作的结果意义重大，因为它们表明，现有数据集准确性的提高可能与模型执行多跳推理的能力并不十分相关。此外，这些结果还凸显了现有模型在执行多跳推理方面的低效性，以及数据集在评估多跳推理方面的低效性。这意味着需要更多精心创建的数据集和具有挑战性的基准，这些数据集和基准不允许模型在没有准确遵循所需的推理路径的情况下获得高分。此外，我们还鼓励制定更好、更多的此类测试/问题，以检查并防止模型利用漏洞而不是进行多跳推理。总之，可以说 MHQA 的任务远未完成。

7 多跳问题生成

多跳问题生成（MHQG）的任务是在给定一组上下文的情况下生成一个需要多步推理的复杂问题，此外还可以选择性地给出答案。MHQG在许多领域都有广泛应用，包括教育领域。在教育领域，生成需要多步推理的问题对于激发学生的批判性思维非常有用[89]。QG还具有应用于聊天机器人的直接应用，例如在发起对话、询问和提供详细信息给用户时考虑多个信息来源。MHQG将增强这些聊天机器人的提问能力[174]。它还可以与问答（QA）模型结合作为双重任务，以提高QA系统的推理能力[140]。

传统问题生成（QG）的任务最近引起了大量关注[35, 125, 183]。然而，MHQG是一项比简单QG更具挑战性的任务。它要求模型首先识别可以恰当地组合形成从答案到问题的有效推理路径的分散信息，然后利用这些信息进行推理以生成真实且连贯的问题。

7.1 数据集

MHQA的数据集也可以通过修改模型的输入和所需输出来训练和评估MHQG模型[54，137]。由于HotpotQA有注释的支持事实，它能够提供更强的训练监督，因此，它是MHQG最常用的 dataset。Kumar等人[79]使用DecompRC模型[102]将HotpotQA中的每个问题分解为两个子问题，并微调一个GPT2-small模型以将第一个问题重写为第二个问题。Yu等人[176]将HotpotQA用作有标签的数据库，而将ComplexWebQuestions[139]和DROP[38]用作多跳问题的大规模语料库。

7.2 评估

通常采用诸如BLEU（BLEU1-4）、ROUGE-L、METEOR等语言生成指标来评估MHQG[54, 79, 119, 137, 176]。QBLEU4[105]，一种与人类判断显著相关的QG指标，也被用于评估MHQG[79, 137]。任务还经常需要对生成的问题进行流利度、语义、可回答性等人类评估。Sachan等人[119]也在他们的实验中使用了GLEU[165]。另一种评估MHQG的方法是测量SOTA MHQA模型在使用生成问题进行数据增强训练时的性能提升[79, 107]。

7.3 方法

Kumar等人[79]通过生成需要特定数量推理步骤的问题来解决难度可控问题生成（DQG）[44]。他们的假设是，问题的难度与其所需的推理步骤数量直接相关。所提出的算法的第一步与[39]中相同，构建一个上下文图。将上下文中的所有句子转换为三元组形式{𝑠(𝑠𝑢𝑏𝑗𝑒𝑐𝑡),𝑟 (𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛),𝑜(𝑜𝑏𝑗𝑒𝑐𝑡)}，并在𝑠和𝑜之间添加一个类型为𝑟的关系边。
使用共指消解来合并指向同一实体的节点。接下来，将一个节点𝑁₀作为最终答案进行采样，并以𝑁₀为根，提取一个最大生成树。为了生成一个难度（即跳跃次数）等于𝑑的问题，将树修剪为含有𝑑+1个节点。使用GPT2-small模型在HotpotQA上进行微调，并利用𝑁₀、𝑁₁以及连接两个节点的上下文句子𝑆₁生成初始问题𝑞₀。另一种GPT-2模型被用来逐迭代地重写问题，并逐步提高难度。简单来说，为了生成一个难度为𝑑的问题𝑞𝑑，重写模型会在𝑞₀上运行𝑑次。虽然该模型在最多3个步骤内表现良好，但是随着步骤的增加，输入到重写模型中的内容变得过于庞大，导致生成的问题质量较差。

苏等人[137]借鉴了邱等人[113]的方法，构建了一个图来生成多跳问题。预训练的GloVe嵌入和答案标记嵌入[89]被输入到两个双向LSTM层中，以获得初始上下文表示。使用注意力层和另一个双向LSTM层来获得答案感知的上下文嵌入。答案感知子图是通过遮盖与答案无关的实体并应用图注意力网络来计算的。跨跳的上下文编码通过门控融合模块进行组合。答案嵌入通过双向注意力进行更新，然后使用Maxout Pointer [183]框架在单向LSTM解码器之上生成问题。[113]提出的额外BFS损失被发现可以提高性能。

Gupta等人[54]在训练HotpotQA时利用支持事实的存在，采用支持事实预测（SFP）的RL奖励。与Su等人[137]类似，答案标记特征与文档词嵌入向量连接后，被输入到一个双向LSTM编码器中。编码器的输出被MHQG和辅助事实预测（SFP）模型共享。SFP模型是一个在HotpotQA上训练的二元分类器，用于输出每个句子作为辅助事实的概率。预测的辅助事实和真实辅助事实之间的F1分数被添加为奖励。强化学习算法（REINFORCE）[162] 与自批评序列训练（self-critical sequence training）[117] 框架结合使用，以避免高方差。为了使训练更加稳定，我们引入了类似于 Rennie 等人 [117] 的权重历史。此外，SFP 模型的输出概率也被用于通过另一个双向 LSTM 模型更新答案感知编码。为了生成问题，使用了具有全局注意力机制的LSTM解码器[93]以及复制机制[53,126]。

Sachan等人[119]认为，使用标准的转换器（transformers）而不是图网络（Graph networks）应该足以理解实体之间的关系，以便形成多跳问题。他们将转换器扩展为句子ID嵌入和答案标记指示器嵌入，并通过增加对比损失作为正则化来训练。对比学习设置假定支持事实句子为正样本，其他为负样本，并使用一个MLP构成的二元分类器。在HotpotQA的训练集和开发集上观察到问题长度分布存在显著不匹配，并通过过滤掉所有超过30个单词的问题来缓解这一问题。大多数剪枝的问题都来自train-easy子集。数据过滤和对比训练都被发现可以显著提高性能。
本文提出了一种新颖的图增强变压器编码器（GATE），它比标准的变压器编码器（TE）多了两个额外的层：a) 图注意力子层通过只使用在动态创建的图中连接的节点来计算注意力的相似性分数。该图是一个多关系图，包含三种类型的节点-命名实体提及，共指实体和句子ID。b)融合注意力子层，它使用具有ReLU激活的MLP来聚合图注意力嵌入和TE嵌入。实验表明，仅添加这些层并不能显著提高性能，但是TE和GATE的集成可以。

Pan等人[107]提出了一种针对无监督多跳问答任务的问题生成技术。他们的方法遵循HotpotQA，生成了两种类型的问题：
桥问题：给定两个上下文作为输入，两个上下文共有的所有实体被视为桥实体。一个Google T5模型[114]在SQuAD上微调，以生成两个使用答案实体和桥实体的单跳问题。后者的问题被转换为陈述形式，按照Demszky等人[31]的方法。在桥式实体问题中，将桥式实体替换为“The [MASK] that {s}”，并使用BERT -Large来填充[MASK]。比较问题：将具有NER类型国籍、地点、日期时间和数字的实体视为潜在的比较属性。在两个相同NER类型的实体上生成两个单跳问题，并使用预定义的模板将这些问题组合成一个多跳比较问题。
为了使用表格生成问题，GPT-TabGen模型[20]被用来生成描述给定实体的句子，这些句子然后被用来生成桥接或比较类型的问题。我们引导读者参考原始论文Pan等人[107]中的图4，以更好地理解生成问题的不同类型。使用预训练的GPT-2模型过滤不自然或不流畅的问题。还使用BART模型[85]对生成的问题进行改述。然后使用生成的问题训练模型，最终得到一个零次射击算法。

于等人[176]的目标是在资源匮乏的环境中解决MHQG问题。具体来说，该模型使用少量的标注数据D_L，以(上下文，答案，问题)三元组的形式表示，以及大量的多跳问题D_U。这个想法是首先通过在未标记数据D_U上训练神经隐藏半马尔可夫模型[27]来学习多跳问题的语义。该模型使用两个潜在变量来参数化D_U问题中的相似段：a）一个状态变量z_t，表示第𝑡^𝑡ℎ项属于哪个段，b）一个长度变量l_t，指定当前段的长度。通过一个GRU解码器和一个注意力层来计算词概率。
在第一步中学习到的模式被用作QG模型的先验，以进行正则化。先验通过采样一个长度为𝑙_𝑡的状态序列𝑧_𝑡来估计。推理链提取与Su等人[137]中描述的类似。为了编码文本输入，BERT嵌入向量被传递给一个双向GRU，然后是一个注意力层。解码器是另一个带有复制机制的GRU[52]，它被规范化以适应先前的模式。训练损失是交叉熵损失和RL策略梯度[86]的加权和。奖励函数评估以下三个方面：a)流畅性（遵循Zhang和Lapata[180]），b)可回答性（使用QBLEU4），c)语义（使用WMD）。

8 结论和未来工作

多步问答（Multi-hop QA）在近年来得到了相当频繁的研究，提出了许多不同的模型，旨在模拟多步检索推理过程，并在现有的数据集和基准测试中取得了令人鼓舞的改进。这些能够进行多步推理的系统有各种各样的应用，从能够进行互动对话的聊天机器人助手，到能够检索到与查询文本相关但直接无法到达的结果的搜索引擎。同时，MHQA的任务比其单跳对应任务更具挑战性。由于与问题相距多个跳转的段落可能与问题共享的单词和语义关系很少，因此检索此类上下文的任务具有挑战性，并且受到语义漂移的影响。当前模型结合多个上下文进行推理的能力也受到限制。解决MHQA的进一步挑战包括创建需要模型进行多跳推理的困难数据集，以及评估模型在没有任何捷径的情况下进行推理的能力的任务。一些具有挑战性的基准和评估方法最近被提出，这些方法带来了一些令人惊讶和有趣的观察结果。这些结果指出了现有系统的一些局限性，并呼吁进一步的研究。

在下面，我们列出并讨论了一些我们认为有前途的未来研究方向（包括源于目前公认的缺点的方向）。

8.1 灵活的任意跳模型

如第5节所述，现有的大多数用于多跳问题回答（MHQA）的方法要么仅限于两跳，要么需要将跳数作为超参数。由于自然问题可能需要任意数量的推理步骤，这种限制是人为的。问答系统应该具有灵活性和对问题中跳跃次数的鲁棒性，以便实际使用。为了实现这一目标，应该更多地研究图2中类型III和IV的方法，因为回答模块的反馈可以作为有用的停止标准。

8.2 可解释的多跳问答

尽管在各种多步推理数据集上，模型的性能有了令人印象深刻的提升，但并不清楚模型是否真正执行了多步推理，还是只是在猜测答案。因此，在HotpotQA发布后，许多工作都关注于解释性多跳问答（MHQA）。除了标准的评估指标，还提出了各种评估方法和数据集基准来测试模型的解释性，揭示了一些重要的结果。为了衡量和反映模型在执行多跳推理方面的真正进展，我们鼓励使用更多的此类基准和评估策略。

8.3 更好的数据集

许多作品都强调了现有MHQA数据集的局限性。陈和达鲁特[17]实验证明，无论答案候选数量是少还是非常多，多选择问题都更容易被模型破解。同样，敏等人[102]表明，即使有高达500个干扰项，单跳问答模型也更容易破解干扰设置。杨等人[173]和张等人[179]认为，使用知识库创建的数据集缺乏问题和答案类型的多样性。基于这些观察，建议未来的数据集为开放领域设置，问题可以有跨度基础或生成式的答案，并且不完全依赖于现有知识库的结构。

Das等人[28]、熊等人[167]、闵等人[102]和闵等人[100]发现，现有数据集中有很大一部分问题由于各种原因可以实现单跳解答。其中一个原因就是问题的来源与上下文集相同。因此，鼓励使用不同来源生成和回答问题的[23, 77, 143, 154, 159]等数据集。然而，在两个来源之间存在不一致的情况下，需要关注[40]。

大多数现有研究都关注于带有选择题或跨度答案问题的数据集，但更应关注更具挑战性的生成MHQA问题。

8.4 更好的评估指标

如第6节所述，已经使用了各种评估指标来评估MHQA模型。然而，现有的指标面临一些挑战，可能不足以评估MHQA。由于MHQA比单跳问答更复杂的任务，建议使用更多针对MHQA的特定指标。一个有前途的方向是进行逐跳评估，并将逐跳评分累加以获得最终评分。这种评估需要模型具有可解释性和可解释性。

一些挑战同时存在于单跳和多跳问答评估指标中。例如，在评估基于跨度的答案时，基于词汇匹配的指标会将U.S.标记为不正确，而正确答案是United States[40]。因此，评估指标应该能够在匹配答案时处理同义词。另一个问题可能是，当黄金答案是伦敦时，某个指标给答案U.K.的分数为0。这些情况在像WikiHop这样的数据集中很常见，其中问题的来源和上下文不同[30]，可能有不同粒度的答案。因此，对于答案在地理上接近或答案具有较粗粒度的情况，给予部分分数可能会有所帮助。同样，如果黄金答案是1988年12月，那么回答1989年1月应该会获得一些分数，因为预测的答案在时间上接近黄金答案。部分内容得分也可以奖励给答案具有较粗粒度的情况（例如，1988年12月与1988年）。类似地，使用ConceptNet或WordNet [98]中的上义词关系来评估答案可能是一个可行的方向。

根据类似的理由，评估应该与答案的语义相匹配，而不是与词汇重叠相匹配。因此，像词移动相似性[81]或句子移动相似性[25]这样的评估指标，它们在嵌入式上进行软匹配，可能是一个有前途的方向。由于语言生成任务的评估被广泛认为有改进的空间，所以生成式多跳问答的评估也是一个开放的问题，鼓励开发新的评估技术。

8.5 方法来融入常识

在多跳推理中，可以使用检索到的上下文进行一次跳转，其中上下文可能从语料库中检索，也可能从常识知识中检索。Fang等人[40]发现，他们模型16%的失败是由缺少常识背景知识引起的。Bauer等人[7]提出了一种将常识纳入MHQA的创新方法，其结果令人印象深刻。更多利用丰富常识知识库进行多步推理的技术，可能是一个值得探索的有前途的方向。

8.6 数学问题

质量保证系统无法执行算术运算的问题已经广为人知[57, 109, 124]，这一问题在多跳设置中更加严重。Min等人[100]观察到，HotpotQA中45%的比较问题都是数值问题。Fang等人[40]，Min等人[102]，Qiu等人[113]发现，当查询是两个日期“1959年2月20日”和“1967年2月10日”的比较时，他们的模型无法给出正确的答案。算术计算也可能在非比较型问题中被要求。例如，从上下文"比尔·克林顿：1993-2001"中回答"1994年美国的总统是谁"需要进行一些算术计算。王等人[153]通过计算文本中出现的内容时间表达与问题计算出的时间范围的重叠，使用核密度估计来解决这种时间问题。另一个例子是[155]，它通过基于新闻集合的多变量时间序列分析来预测事件日期，从而回答“何时”类型的问题。具有解决算术比较和计算能力的多跳问答系统将大大提高多跳问答的准确性。

同样，观察到某些特定类型的问题（时间、地理、计数）比其他问题更具挑战性[30、34、102、181]。Zhang等人[181]中的图3显示了HotpotQA中不同类型问题的复杂性和模型性能。专门针对更具挑战性的问题也可能导致更好的多头问答系统。