Mintaka: A Complex, Natural, and Multilingual Dataset for End-to-End Question Answering翻译笔记(端到端问题回答)


在这里插入图片描述

论文标题:Mintaka:一个复杂、自然且多语言的端到端问题回答数据集

论文链接:https://arxiv.org/abs/2210.01613
arXiv:2210.01613v1 [cs.CL] 4 Oct 2022

摘要

我们介绍MINTAKA,这是一个复杂、自然且多语种的数据集,专为实验端到端问答模型而设计。Mintaka包含20,000个以英语编写的问答对,这些问答对已使用Wikidata实体进行注释,并翻译成阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语,总共有180,000个样本。Mintaka包含8种复杂问题类型,包括最高级、交叉和多跳问题,这些问题都是从众包工作者那里自然产生的。我们在Mintaka上运行基线,其中最好的模型在英语中达到38%的hits@1,在多种语言中达到31%的hits@1,表明现有模型仍有改进空间。我们将Mintaka发布于https://github.com/amazon-research/mintaka.

1 介绍

问题回答(QA)是学习预测问题答案的任务。问题回答的方法包括基于知识图(KG)的方法,这些方法使用结构化数据来找到正确的答案(Miller等,2016;Saxena等,2020)。机器阅读理解方法,从输入文档中提取答案(Rajpurkar等人,2016年;Kwiatkowski等人,2019年);开放领域方法,学习检索相关文档并提取或生成答案(Zhu等人,2021年),以及闭卷方法,利用模型参数中隐含的知识来回答问题(Roberts等人,2020年)。

使用最先进的技术,QA模型可以在简单问题上取得高表现(Shi 等人,2020,2021),这些问题只需要在知识图谱或文本文档中查找一个事实(例如,“娜塔莉·波特曼是在哪里出生的?”)。然而,在现实世界的应用中,并非所有问题都是简单的。我们定义复杂问题(Lan 等人,2021)为那些需要超越单个事实查找的操作的问题,如多跳、比较或集合交集问题。例如,“泰坦尼克号和黑衣人哪部电影的预算更高?”需要查找两部电影的预算,比较数值,并选择预算更高的电影。处理更复杂的问题仍然是一个开放的问题。

在测量和提高复杂问题的问答性能方面,缺乏数据集是一个挑战。虽然存在几个问答数据集,但它们都有缺点,要么大而简单,比如SimpleQuestions(Bordes等人,2015),要么复杂但小,比如ComplexQuestions(Bao等人,2016)或QALD(Usbeck等人,2018)。最近,有几个既大又复杂的数据集发布,包括KQA Pro(Shi等人,2020)和GrailQA(Gu等人,2021)。这些数据集使用自动生成的问题,然后由人类进行改写,这可能导致问题不太自然,例如“塔斯基吉的WOEID是多少?”(KQA Pro)或者“1520.0是铁路轨道最小宽度吗?”(GrailQA)。这可能导致训练数据与实际问答模型应用案例之间的不匹配。

为了填补这些空白,我们发布了MINTAKA,这是一个大型、复杂、自然引发和多语种的问题回答数据集。Mintaka包含从众包工作者那里收集的20,000个问题答案对。我们通过要求众包工作者为问题和答案文本标注Wikidata ID,将Mintaka与知识图谱相连接。专业译者将20,000个英文问题翻译成阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语,总共构成了180,000个问题的数据集。

在本文中,我们在第3节概述Mintaka,解释我们如何在第4节构建Mintaka,提供对数据集的统计分析,包括在第5.3节对众包工作者的人口统计分析。最后在第6节,我们展示了现有基线模型在Mintaka上的结果,其中最好的模型的命中率@1为38%。这些结果显示现有的模型还有改进的空间。

我们将Mintaka数据集公开发布在https://github.com/amazon-research/mintaka,包括我们随机划分的训练集(14,000个样本)、验证集(2,000个样本)和测试集(4,000个样本)。

2 相关工作

问题回答并不缺乏数据集。 用于阅读理解的问题回答数据集,如SQuAD(Rajpurkar等人,2016年)或Natural Questions(Kwiatkowski等人,2019年),通常是大量的,有些甚至是多语言的,如XQuAD(Artetxe等人,2019年)、MLQA(Lewis等人,2019年)和TyDi QA(Clark等人,2020年)。 然而,这些数据集并非专门为复杂性而设计,答案通常可以在一段文本中找到。

HotpotQA(杨等人,2018年)和MuSiQue(特里维迪等人,2022年)通过引入需要对两篇文档进行推理的多跳问题,增加了阅读理解的复杂性。然而,这两个数据集都没有自然地激发出它们的问题。HotpotQA预先选择两个维基百科段落,并要求工作者使用这两个段落编写问题,而MuSiQue则从现有的单跳问题中组合生成多跳问题。DROP(Dua等人,2019年)是另一个复杂的阅读理解数据集,包括加法、计数和排序等复杂操作。同样,DROP要求众包工作者根据选定的维基百科段落编写问题。DROP还引入了一个约束条件,即工作者需要编写那些现有模型无法解决的问题。

在基于知识图谱的问题回答(KGQA)中,WebQuestionsSP(Berant等人,2013;Yih等人,2016)和ComplexQuestions(Bao等人,2016)是更自然的问题回答数据集。 这两份文档都收集了实际用户通过搜索查询日志或Google Suggest API提出的问题。答案是通过使用FreeBase作为知识图谱进行手动注释的。WebQuestionsSP包含主要是简单问题,而ComplexQuestions则更为复杂,包括多跳问题、时间限制和聚合。这些数据集的主要缺点是规模。WebQuestionsSP包含了5千个问答对,而ComplexQuestions只有2千个。

复杂网页问题(ComplexWebQuestions)是基于WebQuestionsSP的一个数据集,它将问题对的数量增加到35,000个,并引入了更复杂的操作,包括多跳、比较级和最高级。然而,ComplexWebQuestions失去了一些自然性,因为该数据集是通过自动生成查询和问题,然后让众包工作者改写生成的问题来构建的。

最近,有几个大规模复杂的知识图谱问答(KGQA)数据集被发布。LC-QuAD 2.0(Dubey等人,2019年)包括30,000个问题,其中包括多跳问题,并使用更最新的Wikidata和DBpedia知识图谱。GrailQA(Gu等人,2021年)基于FreeBase的64,000个问题甚至更大,其中包含复杂的多跳、计数和比较性问题。KQA Pro(石等,2020)仍然更大,包含基于维基数据的12万个问题,以及复杂的问题,包括交集和最高级。所有这些数据集都牺牲了自然性以换取规模。为了收集问题答案对,作者从知识图谱中生成查询,根据查询生成问题,然后让众包工作者改写这些问题。

最后,大多数数据集只包含英语。多语种和复杂的数据集很少见。QALD 2018(Usbeck等人,2018年)是一个包含11种语言和复杂操作(如计数和比较)的多语种和复杂的数据集,但只包含400个问题。

通过构建Mintaka,我们希望填补现有数据集的一个重要缺口。Mintaka的问题答案对既复杂又自然地从众包工作者那里获取,没有任何限制关于问题可以涉及的事实或文章。我们还将Mintaka翻译成8种语言,使其成为第一个大规模复杂且多语种问答数据集之一。比较Mintaka与现有数据集的表格1。
在这里插入图片描述

表1:Mintaka与现有问答数据集的比较

3 Mintaka

Mintaka是一个复杂的问题回答数据集,包含20,000个用英语收集并翻译成8种语言的问题,总共有180,000个问题。Mintaka包含了众包工作者编写的问题答案对,并在问题和答案中附有Wikidata实体标注。我们收集了八个主题的问题,这些主题的选择是因为它们具有广泛的吸引力并且适合编写复杂的问题。这八个主题是:电影、音乐、体育、书籍、地理、政治、视频游戏和历史。由于我们希望Mintaka成为一个复杂的问答数据集,所以我们明确收集了以下类型的复杂问题。(注意:下面的所有示例都来自Mintaka数据集。)
• 计数:需要计数来回答的问题。例如,问题:有多少宇航员被选入国会?答案:4个 • 比较型:比较两个物体在给定属性(如年龄、高度)上的问题。例如,问题:蒙特布兰峰是否比雷尼尔山更高?答案:是的
• 最高级:关于给定属性的最大值或最小值的问题。例如,问题:谁是《饥饿游戏》中最年轻的献祭者?答案:露儿
• 有序数:基于对象在有序列表中的位置的问题。例如,问题:谁是埃及最后的托勒密王朝统治者?答案:克利奥帕特拉
• 多步推理问题:需要两个或多个步骤(多个跳转)来回答的问题。例如,问:谁是赢得超级碗50的球队的四分卫?答:佩顿·曼宁。
• 交集问题:有两个或多个条件必须满足的答案的问题。例如,问:哪部电影是由丹尼斯·维伦纽瓦执导并由提莫西·查拉梅主演?答:《沙丘》。
• 差异:包含否定词的条件问题。例如,问题:哪个马里奥赛车游戏没有出现过耀西?答案:马里奥赛车Live:家庭赛道
• 是/否:答案是“是”或“否”的问题。例如,问题:Lady Gaga是否与Ariana Grande合作过歌曲?答案:是的。
• GENERIC:问题中只给出了主题,没有复杂性的限制。这些问题往往是更简单的事实查询,例如Q:迈克尔·菲尔普斯是在哪里出生的?A:马里兰州巴尔的摩市

对于每个话题,我们收集了250个每种复杂性类型的问题和500个通用问题,总共每个话题有2,500个问题。

我们还使用专业译者收集了20,000个英文问题的8种语言翻译。由于所有问题都是从美国工人那里以英语收集的,因此在实体方面(例如,美国政治家或用英语写的书籍),这些问题可能具有美国偏见。这是我们做出的选择,因为它可以让我们创建一个完全并行的数据集,在这个数据集中,模型可以轻松地在不同语言之间进行比较。这一选择也在之前的问答数据集(Usbeck等人,2018;Artetxe等人,2019;Lewis等人,2019)中作出。

4 数据集收集

为了构建我们的数据集,我们在三个不同的任务中使用了亚马逊机械土耳其(MTurk)。所有我们的MTurk工作者都位于美国,为了确保高质量,我们要求工作者的批准率至少为98%,并且已经完成了至少5,000个已批准的任务。我们的每个任务都在下面的章节中解释,接口示例可以在附录A中查看。

4.1问题激发

第一个任务是激发复杂的问题。为了实现这个目标,我们为每个主题/复杂度对创建了任务(例如,最高级电影问题,序数体育问题等)。在每个任务中,要求工作者编写关于主题的5个问题和答案,使用给定的复杂度类型。问题和答案都是在自由文本字段中编写。我们对工人编写问题时可以使用的来源没有限制,因此工人不仅限于根据给定的文章或事实来编写问题。在说明中为工人提供了复杂类型的解释和示例。主题比较宽泛,所以在历史这个话题里,工人可以写关于古埃及以及二战的内容。

对于计数和最高级答案,我们要求工作者在回答时提供一个数值。例如,在计数问题中,工作者需要以数字形式(如3)以及构成该答案的实体(如最佳影片、最佳改编剧本和最佳电影剪辑)来提供答案。在超级词语问题中,工作者提供了答案(例如,密苏里河)以及使实体达到最大或最小值的数值(例如,2,341英里)。此外,在计数问题中,如果一个问题有多个答案,我们要求工作者至少列出五个。例如,对于问题“有多少个城市举办过夏季奥运会?”,工作者可以给出数字答案23,但只提供其中的五个城市。因此,对于包含五个以上实体的问题的答案并不能保证完整,而只能提供一个正确的答案样本。

我们每项任务支付1.25美元来编写五个问题。
工人们被限制为每个主题-复杂性对完成一项任务。
收集后,我们还调查了完成我们的问题诱导任务的MTurk工人的人口统计信息。
这项调查的结果在第5.3节中讨论。

4.2 答案实体链接

在上一个任务中,我们以自然语言收集了答案。为了将这些答案与知识图谱连接起来,我们构建了一个答案实体链接任务。我们选择将答案链接到维基数据,因为它是一个庞大且最新的公共知识图谱。尽管我们链接到维基数据,但我们不能保证在撰写本文时每个问题都能通过维基数据得到回答。可能有一些缺失或不完整的事实,使得KGQA系统无法根据问题找到答案实体在维基数据中的位置。

在这个任务中,工作人员被展示了一个问题-答案对,并要求1)在答案中突出显示实体,2)在维基数据上搜索这些实体并提供正确的URL。我们为MTurk工作者构建了一个UI,使他们可以轻松地突出实体,而高亮显示的实体会自动生成到Wikidata的搜索链接。

每个答案都由两个MTurk工作者注释。为了达成一致,我们要求两个工作者识别相同的实体和相同的Wikidata URL。如果有分歧,我们将问题-答案对发送给第三个注释者。问答对中,如果答案是数字或者“是”或“否”,则不包括在答案实体链接中。总的来说,我们标注了20,996个答案实体,并在两个注释员后达到了82%的同意率,在三个注释员后达到了97%的同意率。剩下的3%由作者进行核实。

我们支付了一个基础费率,为每个任务(包括一个单一的问题-答案对)支付0.10美元。如果答案包含多个实体,我们为每个被另一个注释员认可的附加实体支付0.05美元的奖金。

4.3问题实体链接

一个端到端的问题回答模型可以仅使用问题和答案进行训练(Oliya等人,2021)。然而,为了更好地评估端到端方法并训练需要实体的模型,我们还创建了一个MTurk任务来链接问题文本中的实体。

在问题中链接实体比在答案中更具挑战性。虽然答案文本通常很短且包含一个明确的实体(例如,“乔·拜登”),但问题文本可能包含多个可能的实体。在问题“谁是美国总统?”中,工作人员可以选择“美国”,或者“总统”和“美国”,甚至“美国总统”。由于早期测试显示,让工作人员就问题实体达成一致意见很困难,所以我们修改了任务,让工作人员只验证一个跨度,并将实体链接到维基数据。

为了在问题中识别跨度,我们使用spaCy的en_core_web_trf模型(Honnibal等人,2020年)来识别英语句子中的命名实体和带有大写字词的名词短语。然后,我们将带有预测实体高亮显示的问题提供给工作人员。工作人员一次只看到一个实体,并被要求首先验证或修改高亮显示的实体,然后将其链接到维基数据。

对于之前未见过的问题实体,我们让两个注释员对实体进行标注,如果无法达成一致,再由第三个注释员进行标注。对于一些问题实体,我们可以将其与在答案实体链接任务中已经标注过的实体进行精确字符串匹配,例如美国→ Q30。在有匹配的情况下,问题实体由一个注释员进行标注,如果没有达成一致,再由第二个注释员进行标注。

我们标注了12,819个新实体,经过两个注释员后有68%的同意率,经过三个注释员后有78%的同意率;还有15,075个已知实体,经过一个注释员后有80%的同意率,经过两个注释员后有98%的同意率。其余实体由作者核实。我们每个实体支付0.10美元。问题实体的跨度仅在英语中标注,因此Mintaka中的英文问题同时包含实体ID和跨度,而所有翻译后的问题只包含实体ID。

4.4 翻译

我们把Mintaka中的2万个问题翻译成了以下语言和地区:阿拉伯语(沙特阿拉伯)、法语(法国)、德语(德国)、印地语(印度)、意大利语(意大利)、日语(日本)、葡萄牙语(巴西)和西班牙语(墨西哥)。翻译是我们在数据集收集过程中唯一不使用MTurk的步骤。早期在MTurk上进行的翻译任务和编辑自动翻译任务的实验结果不佳,部分语言(如日语)缺乏工作者。因此,我们使用专业翻译人员。

5 数据集分析

5.1 数据集统计

Mintaka数据集的统计数据如表2所示。问题长度基于所有语言中的空格分割,除了日语,其中问题长度以字符计。总共出现了13,232个独特的维基数据实体,分布在所有问题中。最常见的问题实体是美国(Q30;1,495个问题),美国总统(Q11696;565个问题)和超级碗(Q32096,345个问题)。最常见的答案实体是加利福尼亚(Q99,102个答案)、阿拉斯加(Q797,88个答案)和美国(Q30,80个答案)。
在这里插入图片描述

表2:关于Mintaka数据集的统计数据

Mintaka是在只有问题和答案的情况下构建的,所以我们不知道正确的查询路径。然而,我们可以通过识别问题实体与答案实体之间是否存在路径来计算使用维基数据可回答的问题的最大数量。我们发现,在62%的情况下,问题和答案实体之间存在一条路径,且在1个跳转内;在97%的情况下,在2个跳转内与维基数据实体链接的问题可以找到答案。

Mintaka中的大多数(72%)问题可以用实体来回答。还有14%的问题可以通过布尔值(是/否或者比较性问题)来回答。7%可以使用一个数字来回答,例如某人的年龄。6%可以使用日期来回答,例如出生日期。最后,0.1%的答案是字符串形式,例如某人的昵称。表3中示例了一些问答对,更多例子见附录C。
在这里插入图片描述

表3:Mintaka的示例问题-答案对。这里显示的问题和答案注释与Wikidata Q代码一起显示。

5.2 自然度评估

通过自然地从MTurk工作者那里提出复杂的问题,我们旨在收集更接近用户在现实世界中可能提出的问题。为了评估Mintaka与以前的复杂问答数据集相比如何,我们在Mturk上运行了一个自然性评估任务,并使用四个比较数据集。我们将通过不同方式收集问题的数据集进行比较:KQA Pro自动生成的问题,基于WebQuestions的复杂网页问题(CWQ),根据给定维基百科段落自然引发的问题DROP,以及从用户日志中收集的复杂问题(CQ)。我们在这项任务中将这些数据集与Mintaka进行比较,其中工作人员被展示5个问题,分别来自每个数据集,并要求他们从1(最不自然)到5(最自然)对这些问题进行排名。我们从每个数据集中均匀采样了500个问题,并根据每个数据集的长度将其分为四分位数(即Mintaka中最长的问题与其它数据集中最长的问题分组在一起)。

结果如图1所示,显示Mintaka在自然性方面平均排名高于所有其他数据集。我们还发现,使用两样本Kolmogorov-Smirnov检验,Mintaka在统计学上显著高于其他数据集(p值<0.001)。这表明,与自动生成或段落受限的问题相比,Mintaka问题被认为更自然。尽管ComplexQuestions包含真实用户提出的问题,但这些问题是从搜索日志中收集的,可能会表述得不合语法(例如,“迈阿密海豚何时赢得超级碗?”),导致排名范围更广。这些结果证实,Mintaka既是一个复杂的问题集,也是一个自然的问题集。
在这里插入图片描述

图1:一个箱形图展示了每个数据集的四分位数、中位数和均值(黑色钻石)自然度排名,从1(最不自然)到5(最自然)。

5.3 MTurk工作者的人口统计学特征

总共,516名MTurk工作者完成了3,503个问题诱导任务,以收集复杂问题(从任务中删除了一些问题,因为它们是重复的或采样不足,以便获得平衡的数据集大小)。为了更好地了解和衡量我们的数据集最能代表谁,我们邀请了所有完成问题诱导任务的工作者参加人口统计调查。我们支付给工人1.25美元来完成这项调查。我们收到了400个回答(回应率78%)。Worker IDs仅用于邀请MTurk工作人员参加调查。所有人口统计数据都是匿名的,无法将数据与Worker IDs联系起来,且数据仅在汇总时进行分析。

表4可以作为指示器,显示该数据集最适合为谁建模以及哪些人群可能代表性较低。例如,我们的男性工作者比女性工作者要多(58% 对 42%)。只有2%的工作者年龄在18-24岁之间(低于18岁的工作者不能在MTurk注册),而72%的工作者年龄在25至44岁之间。我们拥有的认定为黑人(7%)或西班牙裔(6%)的员工比美国人口普查局(U.S. Census Bureau,2021年)对一般人口的估计(分别为13%和19%)要少,而在认定为亚洲人的员工比例上略高(占员工总数的10%,而美国人口普查中的比例为6%)。
在这里插入图片描述

表4:完成问题诱导任务的员工的人口统计调查结果。未显示获得不到1%响应的选项。

我们的员工往往受教育程度更高,有61%的人表示他们拥有学士学位或更高的学历,而美国人口普查局估计,普通人群中只有32%拥有学士学位或更高的学历(美国人口普查局,2021年)。我们的员工几乎全部全职或兼职工作(91%),并且大部分居住在城市或郊区(85%)。在美国的地理分布显示,更多的员工(35%)分布在南部地区。

6 基准线

6.1 模型

我们在Mintaka上评估了八个基线模型。由于Mintaka只包含问题和答案对,我们只使用可以进行端到端训练的模型。我们评估了3种语言模型,3种基于知识图谱的模型和2种检索器-阅读器模型。对于语言和检索器-阅读器模型,我们使用问题诱导任务中众包工作者编写的答案作为标签。对于我们的知识图谱,我们使用2021年10月18日的维基数据快照。我们在英语中评估所有基本方法(表5),并在所有语言中评估三个易于设置多语种的基本方法(表6)。关于训练数据大小的详细信息可以在附录B中找到。
在这里插入图片描述

表5:在Mintaka上英语基线模型的结果

在这里插入图片描述

表6:基线评估的多语言和单个语言结果。分数以hits@1的形式报告。

T5和MT5(Raffel等人,2020年;Xue等人,2021年)是仅使用语言模型预测问题答案的基线。我们使用XL版本的T5用于英语,而使用MT5用于所有其他语言。我们将两者都微调了10,000步。

T5用于封闭式书籍问答(CBQA)(Roberts等人,2020年)是T5的一个扩展,它被微调为一个问答模型,可以在没有外部来源的情况下隐式存储和检索知识。我们使用Roberts等人(2020)的T5-XL模型,并在Mintaka上进行评估,既作为零次射击,使用在自然问题上微调的模型,又使用在Mintaka上微调了10,000步的模型。我们还运行了一个额外的翻译基线,其中我们自动使用M2M_100模型(Fan等人,2020年)将非英语问题翻译成英语,并使用我们的英语模型返回答案。

KVMEMNET:键值存储记忆网络(Miller等人,2016)的工作原理是首先将知识图谱三元组存储在键值结构化的记忆中。然后,给定一个问题,模型会学习哪些键与问题相关,并使用这些键的值返回答案。我们遵循Shi等人(2020)的实现。

**嵌入式知识图谱问答(EMBEDKGQA)**是一种将预训练的知识图谱嵌入到KGQA模型中的方法。Embed-KGQA包括以下三个部分:1)一个KG嵌入模块,2)一个问题嵌入模块,以及3)一个答案评分模块,它结合问题和KG嵌入来对答案实体进行评分和选择。由于EmbedKGQA在预测答案实体时进行预测,我们在训练期间排除那些答案不是实体的问题,并在测试期间将这些问题计为失败。关于模型可回答的测试集子集的分数可以在附录B中找到。

RIGEL(Oliya等人,2021;Sen等人,2021)是一个基于ReifiedKB(Cohen等人,2020)的端到端问答模型。Rigel使用一个编码器对问题进行编码,然后使用一个解码器返回知识图中所有关系的概率分布。在知识图中,通过这些关系可以得到预测的答案。对于编码器,我们使用英文版的RoBERTa(Liu等人,2019),而对于其他所有语言,我们使用XLM-RoBERTa(Conneau等人,2020)。再次强调,由于Rigel预测的是回答实体,所以在训练时我们排除了那些答案不是实体的问题,并在测试时将其视为失败。

密集段落检索(DPR)(Karpukhin 等人, 2020)是一种检索器-阅读器方法,它使用密集检索器模型根据问题识别相关的维基百科段落,然后使用阅读器模型从检索到的段落中评分答案跨度。对于检索器,我们使用Karpukhin等人(2020)在自然问题上训练的模型;对于阅读器,我们评估了在自然问题上训练的零样本模型和在Mintaka上训练的模型。阅读器查看排名前50的检索段落,我们将得分最高的片段作为答案。

6.2 分析部分

英文基线的结果以命中率@1的形式在表5中显示。命中率@1是根据模型的顶级预测与标签答案匹配的样本数量来计算的,对于文本答案是精确的字符串匹配,对于实体答案是实体ID。关于每种复杂类型的进一步细分,请参阅附录C。表现最好的模型是经过微调的T5,用于闭卷问答,其命中率@1为38%。对输出的分析表明,尽管该模型无法访问外部知识源,但它确实能回忆起一些事实信息,例如伊拉克的首都是巴格达。对于更复杂的问题,该模型通常能在正确的答案附近进行预测。例如,对于“漫威电影宇宙中第二部时间顺序的电影是什么?”这个问题,模型预测的答案是“雷神2:黑暗世界”,这确实是一部漫威电影,然而它缺乏复杂的推理功能来计算出时间顺序上的第二部电影。

经过训练的DPR模型以31%的命中率位居第二。我们发现,只要复杂推理已经在文章中完成,DPR就能够处理复杂问题。例如,该模型可以从包含"罗杰·费德勒在2003年温布尔登锦标赛中赢得了他的第一个大满贯冠军"的文章中回答"罗杰·费德勒什么时候赢得了他的第一个大满贯?“这个问题,答案是"2003年”。然而,在一些情况下,如果理由没有包含在文章中,模型就会遇到困难。例如,对于关于第二部漫威电影的相同问题,模型预测是钢铁侠,但未能找到明确提到按时间顺序排列的第二部电影的文章。

最后,表现最好的KGQA模型是Rigel,其命中率@1为20%。我们的KGQA基线模型仅处理实体答案,并且只能通过关系在知识图谱中导航,因此它们有限制。尽管KGQA模型的得分低于其他模型,但它们确实有优势。像T5-XL这样规模的语言模型计算成本高昂,而且存储在参数中的知识是静态的。基于知识图的方法,如Rigel,可以通过更新外部知识图轻松地进行更新,并且可以返回更易于解释的答案。以漫威问题为例,Rigel预测了一条从漫威电影宇宙到所有漫威电影的路径。虽然Rigel无法进行排序或过滤,但我们可以看到接下来的步骤是什么:确定时间顺序,按时间顺序排列,找到有序列表中的第二个项目。理解模型是如何得出答案以及应该采取哪些步骤来得出正确答案是有用的调试和改进知识图谱问答(KGQA)模型的功能。

表6显示了在Mintaka上评估的结果,既有多语言评估所有语言的结果,也有针对每种语言单独评估的结果。对于几乎所有模型来说,除英语外,其结果都略低于英语。MT5语言模型的性能比英语T5模型差,这可能是因为与T5不同,MT5没有在任何监督任务上进行预训练。然而,我们的使用英文翻译的T5用于CBQA的模型超过了MT5,但是分数仍然低于原始英语问题上的分数,因此自动翻译确实降低了性能。对于Rigel来说,主要的英语差距在编码方面,我们使用XLM-RoBERTa而不是RoBERTa,这表明了多语言编码器和英语编码器之间的性能差距。

所有模型都显示,要实现所有语言的平等,还需要做很多工作。总的来说,基线显示Mintaka是一个具有挑战性的数据集。我们的基线没有一个明确处理Mintaka中所有可用的复杂性类型。仅使用语言模型的模型在处理需要数值运算(如计数)的问题时尤其困难。基于知识图的模型依赖于关系跟随来遍历知识图以找到答案。这阻止了模型正确预测需要更复杂操作的答案,即使知识图谱中包含了所需的事实。添加额外的操作并学习为每个问题选择正确的操作可能会带来显著的改进。 结合强大的语言模型,可能用于编码问题或识别问题实体,以及知识图谱中可解释的事实和操作,是改善Mintaka上更好模型的有前途的方向。

7 结论

在这篇论文中,我们介绍了与维基数据相关联的端到端问答数据集Mintaka。Mintaka通过规模庞大、复杂、自然引发和多语言的特点,填补了QA数据集中的一个重要空白。我们的基准数据显示,现有方法在处理复杂问题方面还有改进的空间,特别是在所有语言中。随着Mintaka的发布,我们希望鼓励研究人员继续推动问答边界,以处理更多语言中的更复杂问题。

A MTurk任务

图2、3和4显示了MTurk工作者完成构建Mintaka数据集的每个任务所使用的界面。所有这些任务都在MTurk上托管。图2是问题引导任务。这个例子是关于写关于电影主题和比较复杂类型的提问。在每个任务中,工作人员都会被展示示例并要求编写五个问题。
在这里插入图片描述

图2:一个示例的MTurk任务,要求工作者编写关于电影的比较性问题。

图3是答案实体注释任务。在这个例子中,一个工作者被展示了一个问题-答案对“Q: 阿尔戈赢得了哪些奥斯卡奖项?A: 最佳影片,最佳改编剧本,最佳电影剪辑”,并被要求识别答案中的实体。问题作为上下文给出,让工作者知道这些奖项指的是奥斯卡奖。在突出显示每个实体后,“搜索Wikidata”按钮会自动填充,以在Wikidata上创建一个给定字符串的搜索链接,该链接将在新窗口或标签页中打开。然后,工作者可以查看所有选择并输入正确实体的URL。
在这里插入图片描述

图3:一个示例答案实体注释MTurk任务,其中一名工作者被要求识别并链接答案中的实体"最佳影片,最佳改编剧本,最佳电影剪辑"。

图4是问题实体注释任务。
这个例子再次展示了问题“Argo赢得了哪些奥斯卡奖项?”其中“奥斯卡”被突出显示。
工作人员被要求一次只关注一个实体,所以即使“Argo”在这个问题中也是一个有效的实体,但在这个任务中,我们只对链接“奥斯卡”感兴趣。工作人员首先需要验证奥斯卡是一个有效且完整的实体,或者在出现错误时修改字符串。然后,类似于答案实体任务,“搜索Wikidata”按钮使工作者可以在Wikidata上搜索字符串并找到正确实体的URL。
在这里插入图片描述

图4:这是一个关于问题实体注释MTurk任务的示例,其中实体已经被高亮显示(在这个例子中是“奥斯卡奖”),工作者被要求确认或修改高亮显示的字符串,然后将其链接到维基数据。

B 模型训练细节

表8显示了每个模型的训练集、验证集和测试集大小。Hits@1子集分数是基于模型可回答的测试子集的分数,而Hits@1调整分数则是对整个测试集进行调整的Hits@1分数。完整的Mintaka数据集有14,000个训练样本、2,000个验证样本和4,000个测试样本。
在这里插入图片描述

表8:所有模型的训练集、验证集和测试集大小的详细信息。Hits@1 子集显示在可用测试集上的 hits@1 分数。Hits@1 调整后的分数对完整的测试集(4,000个问题)进行调整后的 hits@1 分数。

对于T5、为CBQA微调的T5、KVMemNet和训练DPR,我们使用完整的训练集和开发集进行训练,使用完整的测试集进行评估。对于MT5,我们在所有语言上同时进行微调,并报告总体和每个语言的单独结果。我们发现,在个别语言上微调MT5可以得到相似的分数,但计算成本更高。零次射击T5模型和CBQA、DPR模型没有训练集或开发集,因为我们直接在测试集上评估它们。嵌入式知识图谱QA和Rigel模型只对知识图谱中的实体进行预测。这意味着,任何在问题中没有至少一个实体、答案中也没有至少一个实体的样本都不会被用于训练集或开发集。这段文字排除了以下情况:答案是一个数字、布尔值(所有是/否问题)、日期、字符串,或者在实体被找到但没有维基数据链接的情况下(例如,如果识别出了一个视频游戏角色的名字,但没有维基数据ID存在)。嵌入式知识图谱问答(EmbedKGQA)在某些情况下会丢失一些额外的例子,因为在一个实体在维基数据中被找到但没有实体到实体的事实时,这些事实用于构建知识图谱的嵌入。例如,维基数据中的一些实体只存在带有标签(实体到字符串)的事实,但缺乏实体到实体的事实。

C Mintaka示例

表7显示了来自Mintaka数据集的更多问题-答案对例子。
在这里插入图片描述

表7:Mintaka中的示例问题-答案对。这里显示的问题和答案注释与Wikidata Q-codes在同行中。

D 模型训练细节

表9显示了所有训练模型的性能分解,按复杂性类型分类。对于计数问题,我们允许模型返回被计数的实体而不是数字。例如,如果问题是“杰克·吉伦哈尔获得了多少个奥斯卡提名?”,我们可以允许模型返回“最佳男配角奖”而不是“1”。对于实体答案,答案的顺序不重要,但对于文本答案,我们使用精确字符串匹配。

结果显示,对于模型来说,复杂和通用问题仍然具有挑战性。对于通用问题,这表明尽管我们没有指定复杂类型,但这些问题并不简单。对于复杂的问题,我们的一些模型在比较性和是或否问题上表现得更好。然而,在这些问题中,通常是在两个实体之间进行选择,或者在“是”或“否”之间进行选择,所以随机猜测得分可以达到50%。这意味着,得分在50%左右的模型并不一定能完成所需的推理任务。
在这里插入图片描述

表9:所有训练基线的复杂性类型的细分。一些复杂性类型被缩写:“Gen” 是通用问题,“Mhop” 是多跳问题,“Intsct” 是交集问题,“Diff” 是差异问题,“Comp” 是比较性问题,“Superl” 是最高级问题,而 “Ord” 是序数问题。

  • 8
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值