HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and Textual Data翻译笔记(多跳问题回答数据集)


在这里插入图片描述

论文标题:HybridQA:一个用于表格和文本数据的多跳问题回答数据集

论文链接:https://arxiv.org/abs/2004.07347
arXiv:2004.07347v3 [cs.CL] 11 May 2021

摘要

现有问答数据集主要关注处理同质化信息,基于文本或者知识库/表格信息单独进行。然而,由于人类知识分布在不同形式中,仅使用同质化信息可能会导致严重的覆盖问题。为了填补这一空白,我们推出了HybridQA1,这是一个新的大规模问答数据集,需要对异质信息进行推理。每个问题都与一个维基百科表格和多个与表格中实体链接的自由格式文本文档相对应。这些问题旨在聚合表格信息和文本信息,即缺乏任何一种形式都会使问题无法回答。我们使用了三种不同的模型进行了测试:1) 只包含表格的模型。 2) 只包含文本的模型。 3) 一种混合模型,结合异构信息来找到答案。 实验结果表明,两个基线模型获得的EM分数低于20%,而混合模型能够达到40%以上的EM。这段差距表明在HybridQA中需要聚合异构信息。然而,混合模型的分数仍然远远落后于人类的表现。因此,HybridQA可以作为一个具有挑战性的基准来研究利用异构信息进行问题回答。

1 介绍

问答系统的目标是回答我们感兴趣的任何形式的问题,并提供由自由文本(如维基百科段落)(Rajpurkar等,2016;Chen等,2017;Yang等,2018)或结构化数据(如Freebase/WikiData)(Berant等,2013;Kwiatkowski等,2013;Yih等,2015;Weston等,2015)和WikiTables(Pasupat和Liang,2015)提供的证据。两种形式都有其优点,自由格式的语料库通常具有更好的覆盖范围,而结构化数据在处理复杂多跳问题时具有更好的组合性。由于不同表示形式的优势,人们喜欢在实际应用中将它们结合起来。因此,有时假设问题在一段文章中一定有答案是不理想的。本文旨在模拟一种更真实的环境,其中证据分布在异构数据中,模型需要从不同形式的信息中收集和整合信息以回答问题。已经有一些关于构建混合问答系统(Sun 等人,2019,2018;Xiong 等人,2019)的开创性工作。这些方法采用了仅包含知识库(KB)的数据集(Berant 等人,2013;Yih 等人,2015;Talmor 和 Berant,2018),通过随机遮盖知识库三元组并将其替换为文本语料库来模拟混合设置。实验结果证明了明显的改进,这为混合问答系统整合异构信息的潜力提供了启示。

尽管存在许多有价值的问答数据集(如表1中所列),但这些数据集最初是设计用于在注释过程中使用结构化或非结构化信息的。不能保证这些问题需要聚合异构信息来找到答案。因此,设计混合问答系统可能比非混合系统带来微小的好处,这大大阻碍了构建混合问答系统的研发进展。
在这里插入图片描述

表1:现有数据集的比较,其中#docs表示针对特定问题提供的文档数量。1)基于知识库的数据集:WebQuestions(Berant等人,2013),WebQSP(Yih等人,2016),Web-Complex(Talmor和Berant,2018),MetaQA(Zhang等人,2018),WikiTableQuestion(Pasupat和Liang,2015)。2) 只包含文本的单一段落数据集:像 SQuAD(Rajpurkar 等人,2016 年),DROP(Dua 等人,2019 年)。3) 开放领域的纯文本数据集:TriviaQA(Joshi 等人,2017 年),HotpotQA(Yang 等人,2018 年),Natural Questions(Kwiatkowski 等人,2019 年)。

为了填补这一空白,我们构建了一个异构的问答数据集HYBRIDQA,该数据集是通过众包基于维基百科表格收集的。在注释过程中,每个众包工作者都会看到一个表格以及与其相关的超链接维基百科文章,以便提出需要整合这两种信息的问题。该数据集包含大约7万个问题回答对,与1.3万个维基百科表格相对应。正如Wikitables(Bhaga- vatula等人,2013年)是由高素质的专业人士策划的,以组织有关特定主题的一组信息,它的信息在文本中大多缺失。这种互补性使得WikiTables成为混合问答的理想环境。为了确保答案不能被单跳或同质模型破解,我们仔细采用不同的策略来校准注释过程。示例如图1所示。这张表格旨在描述不同奥运会上的缅甸旗手,其中第二列包含有关奥运会事件的超链接文章,第四列包含有关个人旗手传记的超链接文章。该数据集在以下意义上是多跳和混合的:1)问题需要多个跳转来找到答案,每个推理跳转可以使用表格或文本信息。2)答案可能来自表格或一段文字。
在这里插入图片描述

图1:来自维基百科页面的注释问答对示例。下划线实体具有超链接的段落,这些段落显示在方框中。下半部分展示了根据难度大致分类的人工标注的问题答案对。

在我们的实验中,我们实现了三种模型,即仅表格模型、仅段落模型和一个异质模型HYBRIDER,它结合了两种信息形式来执行多跳推理。我们的实验表明,两个同质模型的准确率仅为20%以下,而HYBRIDER可以实现40%以上的准确率,这说明在HYBRIDQA上进行多跳推理的必要性。由于HYBRIDER仍然远远落后于人类的表现,我们认为这将是社区面临的具有挑战性的下一个问题。

2 数据集

在本节中,我们将描述如何爬取高质量的表格及其关联段落,然后描述如何收集混合问题。HYBRIDQA的统计数据如表2所示。
在这里插入图片描述

表2:我们数据集中表格和段落的统计数据。

表格/段落集合 为简化注释过程,我们在抓取表格时遵循以下规则:1)我们需要行数在5-20之间、列数在3-6之间的表格,这样便于众包工作者查看;2)我们限制表格中超过35%的单元格不包含超链接,以便提供丰富的文本信息。对于表格中的每个超链接,我们获取其维基百科页面,并从介绍部分截取最多前12个句子作为关联的段落。3)我们应用一些额外规则以避免不合适的表格,最后收集到13,000个高质量的表格。

问题/答案集合 我们在亚马逊机械Turk平台上发布了13K个HITs(人类智能任务),每个HIT向众包工作者展示一个爬取的维基百科表格及其超链接的段落。我们要求工作者编写六个问题以及它们的答案。问题注释阶段并不简单,因为我们特别需要依赖于表格和文本信息的问题。 为了实现这一目标,我们在我们的亚马逊Turker界面上提供了丰富的示例,并附有详细的解释,以帮助众包工作者理解“混合型”问题的本质。以下是对指南的描述:
• 该问题需要在两种信息形式之间进行多个步骤的推理才能回答。
• 表格推理步骤具体包括:(i) 根据等于/大于/小于条件过滤表格行,例如“对于第31届奥运会”,(ii) 对某一列进行最高级操作,例如“最早的奥运会事件”,(iii) 在两个单元格之间跳转,例如“哪个事件…参加…”,(iv) 从表格中提取信息,例如“在哪一年这位运动员…”。
• 文本推理步骤具体包括以下几点: (i) 根据特定提及选择段落,例如“柔道选手”; (ii) 从段落中提取一个片段作为答案。
• 答案应为表格中的一个单元格或特定段落的最小文本片段。

根据上述标准,我们聘请了五名计算机科学专业的研究生作为我们的“人类专家”,来决定是否接受一个HIT。完成一个HIT的平均时间是12分钟,报酬为2.3美元/个HIT。

注释去偏见 正如之前的研究论文(Kaushik和Lipton,2018;Chen和Durrett,2019;Clark等人,2019)所指出的,现有的多步推理问答基准存在注释偏差,这使得设计多步模型变得不必要。我们讨论了不同的偏差以及我们的预防措施如下:

  • 表格偏见:我们的初步研究发现,注释者更倾向于询问表格顶部的部分。为了解决这个问题,我们明确地突出显示表格中的某些区域,以鼓励众包工作者就给定的均匀分布区域提出问题。
  • 段落偏见:初步研究表明,注释者喜欢针对段落的前几句提问。为了应对这种偏见,我们使用一种算法来匹配答案和链接的段落以找到它们的跨度,并拒绝那些所有答案都集中在前几句的HITs(人类智能任务)。
  • 问题偏见:最难处理的偏见是“虚假”混合问题,如“2012年奥运会缅甸选手旗手何时出生?”对于图1中列出的表格。虽然看起来需要“2012年奥运会”来在表格上执行跳转操作,但“选手旗手”已经找到了承载者“Zaw Win Thet”,因为表中没有其他选手旗手。阅读“Zaw Win Thet”的文章可以简单地找到答案。为了应对这种偏见,我们要求“人类专家”发现并拒绝这类问题。

统计学 在我们从13K个HITs(78K个问题)中收集到人类注释后,我们将答案追溯到其来源(表格或段落)。然后我们应用几个规则进一步过滤掉低质量的注释:1)答案无法在表格或段落中找到,2)答案长度超过20个词,3)使用TF-IDF检索器可以直接找到高度相似的答案段落而不依赖于表格信息。

我们根据先前的准则过滤问题-答案对,并发布经过筛选的版本。我们的目标是解决需要更深入理解异质信息的多跳混合问题。我们遵循HotpotQA(杨等人,2018年)的方法,在我们的基准测试中构建一个更具挑战性的开发/测试分割。具体来说,我们使用一些统计特征,如“表格的大小”,“答案段落和问题之间的相似性”,“问题是否直接提到该领域”等,粗略地将问题分为两个难度级别:简单(65%)和困难(35%)。我们通过从这两个类别中各取一半来构建我们的开发和测试集。我们将答案范围与表中的所有单元格和段落进行匹配,并将答案来源分为三个类别:1) 答案来自表格单元格中的文本片段,2) 答案来自某个链接的段落,3) 答案是通过使用数值运算(如“计数”、“加法”、“平均值”等)计算得出的。匹配过程是近似的,不能保证100%正确。我们将在表3中总结我们的发现。在以下实验中,我们将为这些细粒度的问题类型报告EM/F1分数,以便更好地理解我们的结果。

在这里插入图片描述

表3:数据拆分:在表格中表示答案来自表格中的纯文本,而在段落中表示答案来自某一段落。

3 数据分析

本节专门分析数据集的不同方面,以提供新数据集的整体特征。

3.1 问题类型

我们启发式地为每个收集到的问题确定问题类型。为了确定问题类型,我们在问题中找到核心问题词(CQW),并采用相邻的三个词汇(杨等人,2018)来确定问题类型。我们在图2中可视化分布,展示了HYBRIDQA问题在句法上的多样性。
在这里插入图片描述

图2:HYBRIDQA中的问题类型,问题类型是通过从问题词或它们前面的介词开始使用规则提取的。

3.2 答案类型

我们进一步从数据集中抽取100个示例,并在表4中呈现答案的类型。如所见,它涵盖了各种答案类型。与(杨等人,2018)相比,我们的数据集涵盖了更多的与数字或日期有关的问题,这反映了表格数据的本质。
在这里插入图片描述

表4:HYRBIDQA中的答案类型。

3.3 推理类型

在这里插入图片描述

图3:不同类型多跳问题的示意图。

我们分析了多跳推理类型,如图3所示。根据我们的统计,大多数问题需要两到三次点击才能找到答案。

  1. 类型I问题(23.4%)使用表格→段落链,首先使用表格范围的操作(等于/大于/小于/第一/最后/最大值/最小值)来定位表格中的某些单元格,然后跳转到它们在同一行中的相邻超链接单元格,最后从超链接单元格的段落中提取一个文本片段作为答案。
  2. 第二类问题(20.3%)使用通过段落→表格链,首先利用问题中的提示来检索相关段落,该段落追溯到表中某些超链接的单元格,然后跳转到同一行内的相邻单元格,最后从该单元格中提取文本片段。
  3. 类型III问题(35.1%)使用Passage → Table → Passage链,它遵循与类型II相同的模式,但在最后一步,它跳转到超链接的单元格,并从其链接的段落中提取答案。这是最常见的模式。
    4)IV型问题(17.3%)使用Passage和Table联合识别一个超链接单元格,基于表格操作和段落相似性,然后从该单元格中提取普通文本作为答案。
    5)V型问题(3.1%)涉及两个并行推理链,而在中间步骤比较被用于找到答案。
  4. 类型VI问题(0.8%)涉及多个推理链,而在中间步骤中涉及到最高级以获得正确的答案。

4 模型

在本节中,我们提出了用于解答HYBRIDQA问题的三个模型。

4.1 仅表格模型

在此背景下,我们设计了一个只能依靠表格信息来找到答案的模型。我们的模型基于SQL语义解析器(Zhong等人,2017;Xu等人,2017),该解析器使用神经网络将给定问题解析成符号形式,并在表格上执行。我们遵循SQLNet(Xu等人,2017)将整个SQL查询的预测展平为一个插槽填充过程。更具体地说,我们的解析模型首先使用BERT(Devlin等人,2019)编码输入问题q,然后按照图4中描述的方式分别解码聚合、目标和条件。聚合位置可以有以下值:“argmax、argmin、argmax-date、argmin-date”,目标和条件位置的可能值基于表格字段及其相应的条目。尽管我们没有这些简单SQL查询的地面真实注释,但我们可以使用启发式方法从含义中推断它们。我们使用合成的问题-SQL对来训练解析器模型。
在这里插入图片描述

图4:表和段落基线的示例,两者都基于BERT编码器。

4.2 仅通过段落模型

在这种设置下,我们设计了一个只使用给定表格中的超链接段落来寻找答案的模型。我们的模型基于DrQA(陈等人,2017),它首先使用多个检索器的集合来检索相关文档,然后将多个文档一起连接以进行阅读理解,使用的是最先进的BERT模型(Devlin等人,2019)。基本架构如图4所示,我们使用检索器从池中检索前5个段落,然后将它们连接成一个文档供MRC模型使用,连接后的文档最大长度设置为512。

4.3混合式增强阅读理解器(HYBRIDER)

在这里插入图片描述

图6:拟议模型的示意图,用于在表格和段落上进行多跳推理。

为了处理异构信息,我们提出了一种称为HYBRIDER的新型架构。我们将模型分为两个阶段,如图6所示,并分别描述如下:

链接 这个阶段的目的是将问题与其相关的单元格从两个来源进行链接:

  • 单元格匹配:旨在将问题中明确提到的单元格进行链接。链接包括三个标准,1)单元格值在问题中被明确提及,2)单元格值大于/小于问题中提到的值,3)如果问题涉及最高级词汇,则单元格值是整个列中的最大/最小值。
  • 段落检索器的目标是通过超链接的段落将问题中隐含提及的单元格连接起来。链接模型包括一个带有2-3词组词汇表的TD-IDF检索器和一个最长子串检索器。这个集合检索器会计算与池中所有段落的距离,并突出显示那些余弦距离低于某个阈值τ的段落。检索到的段落会被映射回表格中的链接单元格。

我们将来自这两个来源的细胞集合称为“检索到的细胞”,表示为C。每个检索到的单元格c由一个包含5个元素的元组表示(内容,位置,描述,来源,分数)。

  • 内容代表表格中的字符串表示形式,
  • 位置指的是表格中的绝对行和列索引,
  • 描述指的是超链接段落中与问题相似度最高的证据句子,
  • 来源表示条目来自哪里(例如等式/最大值/段落等),
  • 分数表示链接分数的归一化得分,范围在[0,1]之间。

推理 这个阶段旨在模拟表格和段落中的多跳推理过程。具体来说,我们将整个过程分为三个阶段:排名阶段pf(c|q, C)、希望阶段ph(c′|q, c)和阅读理解阶段pr(a|P, q)。这三个阶段分别使用三种不同的神经网络进行建模。 我们首先设计了一种单元格编码方案来编码表格中的每个单元格,如图5所示:1)对于“检索到的单元格”,它包含检索来源和得分信息;2)对于“普通单元格”(未检索),我们将来源和得分信息设置为空。我们将它们与表字段和问题连接起来,然后输入到一个编码器模块(BERT)中,以获得其向量表示Hc

在这里插入图片描述

图5:检索到的单元格编码器的示例(绿色)和普通单元格(橙色)。

  1. 排名模型:由于“检索单元格”包含许多噪声,我们利用排名模型预测下一个阶段的“正确”链接单元格。具体来说,该模型将每个单元格c与其相邻的Nc(同一行中的单元格)一起输入到单元格编码器中,以获得它们的表示{Hc}。这些表示被聚合在一起,并进一步输入到一个前馈神经网络中,以获得一个得分sc,该得分在所有链接的单元格C上进行归一化,如下所示:

在这里插入图片描述
2) 跳跃模型:该模型采用前一阶段预测的单元格,并决定要跳转到哪个相邻单元格或自身。具体来说,我们使用它们的拼接表示来表示每个跳跃对(c → c’),即Hc,c′= [Hc, Hc’]。这个表示被输入到一个前馈神经网络中,以获得一个跳跃分数sc,c’,然后通过对所有可能的目标单元格进行归一化处理,如下所示:
在这里插入图片描述
3) RC模型:这个模型最后从上一阶段的跳转单元格c中查找答案。如果该单元格没有超链接,RC模型会简单地将其纯文本作为答案输出,否则,将单元格的纯文本附加到关联的文段P©前,以便进行阅读理解。给定前置段落P和问题作为输入,问题回答模型用来预测答案开始和结束索引的得分,分别表示为gs(P, q, index)和ge(P, q, index)。它们在整个段落|P|上进行归一化,以计算条件概率pr(a|P, q),如下所示:

在这里插入图片描述
而as是答案a的起始索引,ae是答案a的结束索引。 通过将推理过程分为三个阶段,我们成功地涵盖了Type-I/II/III/VI类型的问题。例如,对于Type-III类型的问题,首先使用排名模型从检索器中选择最可能的单元格,然后使用跳转模型跳转到相邻的超链接单元格,最后使用阅读理解模型提取答案。

训练与推断 三阶段分解将问题回答概率p(a|q, T)划分为以下边缘概率:

在这里插入图片描述
在此段落中,作者讨论了一种方法的细节,该方法涉及到边缘化所有连接的单元格以及所有相邻的单元格,这些单元格在正文或链接的段落中有答案a。然而,直接最大化边际似然函数是不必要地复杂的,因为边缘化会导致巨大的计算成本。因此,作者提出将这三个模型分别进行训练,然后将它们组合起来进行推断。

通过使用答案的源位置,我们能够:1)推断检索集C中的哪些单元格c是有效的,这可以应用于训练排名模型;2)推断它跳跃以获取答案的单元格,这可以应用于训练跳跃模型。尽管合成的推理路径有些嘈杂,但仍然足以在弱监督方式下用于训练各个模型。对于RC模型,我们使用包含真实答案的段落来训练它。独立训练避免了边缘化计算,大大降低了计算和时间成本。在推理过程中,我们顺序应用这三个模型来获取答案。具体来说,我们在前两个步骤中使用贪婪搜索,只保留最高概率的单元格,最后使用RC模型提取答案。

5 实验

5.1 实验设置

在链接阶段,我们将检索阈值τ设置为一个特定值。所有距离低于τ的段落都将被检索并作为输入提供给推理阶段。如果找不到距离低于τ的段落,我们只需使用距离最低的文档作为检索结果。增加τ可以提高正确段落的召回率,但也会增加推理步骤中过滤模型的难度。

在推理阶段,我们主要使用BERT(Devlin等人,2019)作为单元格和段落的编码器,因为它具有强大的语义理解能力。具体来说,我们使用了huggingface库提供的四种BERT变体,即base-uncased、based-cased、large-uncased和large-cased。我们为所有模块训练3.0个周期,并在每个周期结束时保存它们的检查点文件。过滤器、跳跃和RC模型使用AdamW(Loshchilov和Hutter,2017)优化器,学习率分别为2e-6、5e-6和3e-5。我们在保存的检查点上留出一个小的开发集进行模型选择,并在推理中使用表现最好的模型。

5.2 评估

遵循以往的研究(Rajpurkar等人,2016),我们采用精确匹配(EM)和F1作为两个评估指标。F1指标测量预测答案与真实答案之间的平均重叠程度。我们对一个来自测试集的保留集进行人类性能评估,该保留集包含500个实例。为了评估人类的表现,我们将每个问题及其表格分发给众包工作者,并比较他们的答案与真实答案。我们得到的估计准确度为EM=88.2和F1=93.5,这比SQuAD(Rajpurkar等人,2016)和HotpotQA(Yang等人,2018)都要高。更高的准确度是由于In-Table问题(超过40%),这些问题的歧义性要小于文本跨度问题。

5.3 实验结果

在这里插入图片描述

表5:不同模型的实验结果,In-Table表示答案在表格中的问题子集,In-Passage表示答案在某段文字中的问题子集。

我们在表5中展示了不同模型的实验结果,其中列出了针对问题和答案在单元格和段落中的细粒度准确率。在表格中的问题(In-Table)比在段落中的问题(In-Passage)要简单得多,因为它们不需要进行阅读理解推理步骤;总体准确率大约比其对应模型高8-10%。在实验的模型变体中,使用BERT-large-uncased作为后端可以实现最佳准确度,比BERT-base-uncased高出约2%。然而,它的性能仍然远远落后于人类的表现,为未来的研究留下了充足的空间。

异质推理 从表5中,我们可以清楚地观察到,使用单独的表格模型或单独的段落模型都无法获得超过20%的准确率。相反,所提出的HYBRIDER通过利用推理过程中的结构化和非结构化数据,可以实现高达50%的EM提升。这强烈支持在HYBRIDQA中进行异质推理的必要性。

检索器阈值 我们还尝试使用不同的τ阈值。拥有一个积极的检索器可以提高提到的单元格的召回率,但会增加排名模型的负担。拥有一个被动的检索器可以保证预测单元格的精确度,但也可能错过后续推理阶段的证据。在这些不同模式之间存在权衡取舍。在表5中,我们在检索阶段使用不同的τ进行实验,并发现模型相当稳定,这意味着模型对于不同的阈值并不敏感。

5.4 错误分析

为了分析HYBRIDER中的错误原因,我们提出将其分为四种类型,如图7所示。具体来说,链接错误是由检索器/链接器在链接阶段未能检索到最相关的单元格导致的。在推理阶段:1)排名错误是由排名模型未能给正确检索到的单元格分配高分导致的。2)跳转错误发生在正确排名的单元格无法跳转到答案单元格时。3) RC错误是指希望正确的单元格 是正确的,但是RC模型无法从其中提取 正确的文本跨度。我们在基于bert-large- uncased模型(τ=0.8)的完整开发集上进行我们的分析, 如图7所示,错误相当均匀地分布在 四个类别中,除了阅读理解 步骤稍显错误。根据逐步误差,我们可以计算其乘积为87.4% × 87.9% × 89.2% × 61.9% ≈ 42%,并且发现结果与整体准确度非常一致,这表明正确执行每个推理步骤的必要性。这种错误级联使问题比以前的同质化问答问题更加困难。
在这里插入图片描述

图7:HybridEr的错误基于其阶段。粉红色的单元格表示答案单元格;绿色表示模型的预测;圆圈表示当前单元格。

通过将推理过程分步骤进行,混合式布局(HY-BRIDER)在解释其原理方面具有很强的优势,但同时也导致了错误传播,即在早期阶段犯的错误在后续阶段是不可逆的。我们认为,未来关于构建端到端推理模型的研究可以缓解在混合式布局中不同阶段之间的这种错误传播问题。

6 相关工作

文本问答 自SQuAD(Rajpurkar等人,2016)数据集兴起以来,有很多努力致力于解决机器阅读理解问题。不同的数据集如DrQA(Chen等人,2017),TriviaQA(Joshi等人,2017),SearchQA(Dunn等人,2017)和DROP(Dua等人,2019)被提出。其中,SQuAD(Rajpurkar等人,2016)的问题相对较简单,因为它们通常只需要在段落中找到一句话就可以回答。以下数据集进一步挑战了问答模型在处理不同场景(如开放领域、长上下文、多跳、离散操作等)的能力。已经取得了巨大的成功,证明深度学习模型在理解纯文本证据方面具有很强的竞争力。与这些数据集不同,HYBRIDQA利用证据形式中的结构化信息,而现有的模型无法处理这一点,这使其与其他数据集区别开来。

基于知识库/表格的问答。结构化知识被称为明确且可组合的,这吸引了大量关注于基于知识库/表格的问答系统。已经有多项数据集,如WebQuestion(Berant等人,2013年),ComplexWebQuestions(Talmor和Berant,2018年),WebQuestionSP(Yih等人,2015年)等,用于使用FreeBase回答自然问题。除了知识库,结构化或半结构化的表格也是一种有趣的形式。不同数据集如WikiTableQuestions(Pa-supat和Liang,2015年)、WikiSQL(Zhong等人,2017年)、SPIDER(Yu等人,2018年)和TabFact(Chen等人,2020年)被提出以建立能够与这种结构化信息交互的模型。 然而,KB(知识库)和表格都被已知存在覆盖范围不足的问题。因此,HYBRIDQA将表格与文本结合作为互补信息来回答自然问题。

信息聚合 关于设计混合问答系统以聚合异构信息的一些开创性研究。GRIFT(Sun等,2018)提出使用早期融合系统,并利用启发式方法构建与问题相关的子图,该子图包含语料库中的句子和知识库中的实体、事实。PullNet(孙等人,2019)改进了GRAFT,使用了一个集成框架,该框架可以动态学习检索和推理异构信息以找到最佳答案。最近,KAReader(熊等人,2019)提出在知识库不完整的情况下,通过阅读检索到的文本片段来重新表述问题。这些模型通过从知识库中屏蔽三元组来模拟一个“假”的KB不完整场景。相比之下,HYBRIDQA中的问题本质上是混合的,因为它需要两种信息形式来进行推理,这使得我们的测试平台更加真实。

7 结论

我们推出了HYBRIDQA,这是一个首次收集的混合问答数据集,涵盖了表格和文本数据。我们发布这些数据,以促进当前利用异构信息回答现实世界问题的研究。我们设计了HYBRIDER作为强大的基准,并提供了关于模型的有趣见解。我们认为,HYBRIDQA是社区解决下一个有趣且具有挑战性的问题。

  • 23
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值