NLP project: Task 2

0 Abstract

数字信息在医学、工程和金融等多个领域的叙述中扮演着重要角色。先前的工作聚焦于数值理解的基础探索,并表明细致的数值理解是一项具有挑战性的任务。在机器阅读理解中,我们的统计数据显示,以前的数据集中只有少数与数字相关的问题出现。这表明设计用于数值学习的基准数据集很少。在这篇论文中,我们提出了一个与数字相关的问题回答数据集,NQuAD,用于细致的数值理解,并为未来的工作提出了几个基线模型。我们将NQuAD与三个机器阅读理解数据集进行了比较,结果显示NQuAD比其他数据集中与数字相关的问题更具挑战性。NQuAD已根据CC BY-NC-SA 4.0许可发布,仅限学术用途。

1 Introduction

近年来,文档中表格[14]与内容[16]的数字信息越来越受到研究者的关注。机器数字理解是一个新兴的研究主题,目前仍处于初级阶段。Naik等人[18]和Wallace等人[27]探讨了词嵌入的数字性。Spithourakis和Riedel[26]评估了语言模型的数字性。之前工作的实验结果表明,神经网络模型倾向于对接近的数字感到困惑[5, 18]。专门设计用于细粒度数字分析的数据集是必需的。在本文中,我们通过从新闻文章中选择细粒度数字选项,并要求机器预测正确的选项,创建了一个与数字相关的问答数据集,命名为NQuAD。

被认为是与数字相关的问题的问题满足以下条件之一:(1)对于机器阅读理解(MRC)问题,答案片段中至少存在一个数字;以及(2)所有答案选项都包含至少一个数字。图1展示了我们数据集中的一个示例,包括一篇新闻文章、一个问题主干和四个答案选项。基于上述定义,表1显示了三个中文MRC数据集(CMRC-2017 [9]、DRCD [24]和CMRC-2018 [8])和四个英文多项选择MRC数据集(MCTest [22]、RACE [15]、MCScript [19]和ARC [7])的统计数据。我们发现这些数据集中只收集了少数与数字相关的实例。这一发现支持了所提出数据集的独特性。

2 Related work

近期,数字理解能力的测试引起了许多研究者的关注。Spithourakis和Riedel[26]使用均方根误差来评估语言模型的预测性能。他们展示了在临床数据集中最佳模型的性能为989.84。Chen等人[5]提出了一个名为Numeracy-600K的数据集。在Numeracy-600K中,任务是预测市场评论和在线文章标题中空白处的数量级。他们显示,在这项任务中,机器可以达到80%的微平均F1分数,并指出当夸大的数字与真实数字之间的差异较小时,模型的表现会更差。所有之前的工作都发现,机器在处理差异显著的数字时表现良好,但对于接近的数字表现较差。这正是激发我们提出用于测试细粒度数字理解能力的数据集的原因。在本文中,我们通过从相关文章中选择四个最接近的候选项作为问题主干的选项,构建了NQuAD。在所提出的数据集中,有87.10%的问题符合选项和答案之间的平均差异小于10的条件。这表明我们的数据集更适合进行细粒度的数字理解测试。

Wallace等人[27]指出,字符级循环神经网络在学习数字理解方面表现良好。Chen等人[1]展示了添加数量级嵌入以表示数字在数值中的位置,可以为数字相关任务提供显著的改进。受到这些工作的启发,我们在提出的模型中用字符和数量级嵌入共同表示一个数字。

3 Datasets

3.1 任务设置背景

当提到数字理解或与数字相关的问题时,大多数人会想到数学推理[23]或数学问题解决[13]。在当前的一些研究中已经做了一些探索[11, 20]。在SQuAD 2.0[21]和DROP[11]中,分别有13.34%和68.83%的问题与数字相关。然而,与这些工作关注于学习如何回答人类阅读理解测试中的问题不同,我们关注于一个基础但重要的问题:基于给定文本选择合适的数字。这个问题之所以重要,是因为根据我们的观察,大约93%的新闻标题中的数字仅仅是复制、转述或四舍五入文章中的某个数字。这意味着,当我们尝试生成包含数字信息的标题时[6],选择正确的数字是一个重要步骤。因此,在本文中,我们提出了一个试点数据集,并探索它以解决所提出的问题。

3.2  数据集构建

我们从数据供应商MoneyDJ收集新闻文章,并获取了2013年6月22日至2018年6月20日期间的新闻文章。共收集了75,448篇中文新闻文章。表2显示了所收集新闻的统计数据。在这个集合中,59.74%的新闻标题包含至少一个数字,99.80%的新闻内容包含数字。

由于新闻文章是由专业记者撰写的,所以在所提出的数据集中使用的标题和文章的质量都是令人满意的。内容也是可信的。因此,我们使用标题中的数字作为所提数据集的真实值。构建NQuAD的过程如下:

  1. 我们筛选出符合至少以下两个条件之一的新闻文章:(1) 标题中没有数字,以及(2) 内容中少于4个数字。
  2. 我们将标题中的一个数字用作目标数字,从标题中掩盖目标数字,并将掩盖后的标题视为问题的题干。注意,我们每个问题只掩盖一个目标数字。对于包含𝑘个数字的标题,我们将形成𝑘个问题,每个问题对应一个数字。
  3. 从新闻内容中,我们选择4个与目标数字值最接近的不同数字作为问题的可行选项。

共有43,787篇新闻文章被选中,其中46.97%的标题包含多于一个数字。标题和内容中的数字平均数量分别为1.65和29.48。每个标题中的每个数字都用来形成一个问题,因此我们最终获得71,998个问题。我们将80%的实例作为训练集,剩余的实例形成测试集。

3.3 The degree of difficulty 难度程度

由于我们的数据集与其他中文数据集在任务设置上的不同,我们不能直接将监督模型应用于所有数据集。为了比较难度程度,我们遵循Spithourakis和Riedel[26]使用相似度作为标准。也就是说,通过选择答案选项中最相似的句子能回答的问题越多,数据集就越简单。这里,我们计算问题题干和答案选项中包含数字的句子之间的相似度。与之前只依赖一个指标的工作不同,我们探索了几种相似度算法。表3显示了NQuAD和其他数据集的实验结果的准确率。在CMRC-2018和DRCD中,分别有大约59.17%和74.22%的与数字相关的问题可以仅通过字面相似度被回答。在我们的数据集中,只有48.28%的问题可以通过选择最相似的选项来回答。这些结果支持了所提出数据集中的与数字相关的问题比其他公开可用的数据集更难。

4 EXPERIMENTS

4.1 Methods

图1为模型输入的一个例子。

图2展示了所提出的增强数字理解模型(Numeracy-Enhanced Model, NEMo)的架构。这个模型分为两部分,包括(1)上下文编码器(Context Encoder, CE)用于问题题干和答案选项中含有数字的句子(𝑆(𝐴), 𝑆(𝐵), 𝑆(𝐶), 和 𝑆(𝐷)),以及(2)数字编码器(Numeral Encoder, NE)用于答案选项((A), (B), (C), (D))。例如,图1中的𝑆(𝐴), 𝑆(𝐵), 𝑆(𝐶), 和 𝑆(𝐷)如下所示:

  • 𝑆(𝐴): “也从上个月增加了0.04个百分点”
  • 𝑆(𝐵): “五大银行新实施的按揭利率在五月份上升到了1.986%”
  • 𝑆(𝐶): “也接近2%的整数警戒线”
  • 𝑆(𝐷): “高达2.5%”

为了编码问题题干和答案选项中含有数字的句子(𝑆(𝐴), 𝑆(𝐵), 𝑆(𝐶), 和 𝑆(𝐷)),我们采用BERT-Large[10]作为文本编码器。通过BERT编码后,我们可以获得令牌嵌入(𝐸(𝑆𝑡𝑒𝑚), 𝐸(𝐴), 𝐸(𝐵), 𝐸(𝐶), 和 𝐸(𝐷))。这些嵌入进一步输入到BiGRU模型中,我们可以为问题题干获得向量(𝑉(𝑆𝑡𝑒𝑚), 𝑉(𝐴), 𝑉(𝐵), 𝑉(𝐶), 和 𝑉(𝐷))。

在数字编码器中,我们将数字编码为字符和数量级(𝐶𝑀)嵌入。也就是说,我们使用字符级表示法表示数字,并添加数量级信息以增加模型的数字理解能力。数字中的每个数字(0至9和标准的小数分隔符)都由一个11维的独热向量表示。因为训练集中最长的数字长度为10,所以数量级嵌入由一个10维的独热向量表示。我们将数字表示和数量级嵌入进行拼接,并使用左填充来固定所有数字的维度。因此,一个数字被表示为一个10×11的张量。我们进一步将𝐶𝑀嵌入输入到BiGRU模型中,从而为答案选项中的数字获取向量(𝑁𝑉(𝐴), 𝑁𝑉(𝐵), 𝑁𝑉(𝐶), 和𝑁𝑉(𝐷))。

在编码了所有信息之后,我们将所有向量拼接为问题表示,并将其传递给多层感知机以预测答案。我们将所提出的模型的性能与以下方法的性能进行比较。

  • BERT嵌入相似度:我们计算问题题干的令牌嵌入总和(𝐸(𝑆𝑡𝑒𝑚))与𝐸(𝐴), 𝐸(𝐵), 𝐸(𝐶), 和 𝐸(𝐷)的余弦相似度,并选择最相似的一个作为答案。
  • Vanilla BERT:这个模型通过BERT-Large编码问题题干和答案选项中包含数字的句子,并使用多层感知机进行预测。
  • BERT-BiGRU:在这个模型中,我们移除了提出模型中的数字编码器(即NE),以展示NE的有效性。
  • BERT-CNN:我们在BERT-BiGRU模型中将BiGRU换成CNN,以展示不同神经网络模型之间的差异。

这一段介绍了几种比较的方法,旨在评估所提出的增强数字理解模型(NEMo)与其他方法的性能。通过这些比较,可以更清楚地了解新增加的数字编码器(NE)对于模型性能的贡献,以及不同的神经网络结构(如BiGRU和CNN)对于处理这类问题的效果差异。

4.2 Results

表4显示了实验结果。NEMo在性能上显著优于基线模型。BERT-BiGRU和NEMo的结果表明,向模型中添加所提出的数字编码器对于提高与数字相关问题的性能是有帮助的。BERT-BiGRU和BERT-CNN的结果显示,在所提出的任务中,使用循环神经网络比使用卷积神经网络更好。

通过比较表3中的结果和BERT嵌入相似度的性能,我们发现使用预训练语言模型的嵌入来计算问题题干和选项中包含数字的句子之间的相似度,比使用无监督相似度算法表现得更好。

此外,在所提出的任务中,使用BERT-BiGRU比使用Vanilla BERT模型能获得更好的性能。

5 Discussions

5.1 Comparison with Numeracy-600K

我们将提出的数据集与最近的数字理解数据集Numeracy-600K[5]进行比较。在Numeracy-600K中,他们的目标是预测市场评论和在线文章标题空白处的数量级。这是一个粗粒度的设置,因为所有问题的答案候选都是相同的。他们展示了模型可以达到80%的微平均F1分数。

相比之下,所提出的NQuAD数据集中的实例的答案候选依赖于新闻文章,这可以被认为是一个细粒度数字理解的测试。为了提供一个基线,在之前工作的基础上,即只将问题题干和候选数字输入模型,我们对提出的模型进行了消融分析。表5显示了移除数字编码器和在NEMo中移除上下文编码器后的实验结果。如果没有包含答案选项中数字的那些句子的信息(𝑆(𝐴), 𝑆(𝐵), 𝑆(𝐶), 和 𝑆(𝐷)),性能将显著下降。这表明上下文对于数字理解测试的重要性,也显示了与之前工作相比,所提出的任务设置和数据集对于测试模型的数字理解能力更为合理。

此外,几项先前的工作[18, 26]展示了区分细粒度数字信息的难度。在所提出的数据集中,选项与答案之间的差异非常接近。如表6所示,选项与答案之间的差异小于10的占87.10%。这提供了所提出的数据集比以前的数据集更难的原因。

5.2 Possible Extensions 可能的拓展

在这一节中,我们指出了使用所提数据集的一些问题,并讨论了未来工作中可能的扩展。与大多数使用问答风格设置的先前工作不同,NQuAD的问题类型是完形填空式的。换句话说,大多数预训练语言模型专注于预测掩码词而不是预测掩码数字。解决这个问题的一种可能方法是,我们可以采用问题生成方法[12, 25]来重新构造所提数据集中的问题。例如,图1中的问题题干可以转换为“新的按揭利率是多少?”通过自动生成的问题,可以在所提数据集中探索许多问答方法。问题改写将提供一个新的方向来回答问题类型是否影响模型的性能。

另一方面,在这项工作中,我们专注于包含答案选项的句子,即𝑆(𝐴), 𝑆(𝐵), 𝑆(𝐶), 和 𝑆(𝐷),并且只在模型中编码这些句子。在分析错误时,我们发现其他句子有时提供了回答问题的额外信息。有了所提数据集中的完整新闻文章,未来的工作可以探索更复杂的任务设置。例如,在所提数据集中只给出新闻文章和问题题干,不显示选项。

最后,所提模型独立编码数字,而不是在预训练过程中共同训练数字理解能力。根据最近研究的经验[6, 10, 17],与相关任务或数据集一起预训练可以提高捕获上下文信息的能力。未来的工作可以在所提数据集中探索不同的预训练方案。例如,预测值[26]或数量级[5]可能是探索意识到数字的预训练设置的一个好方向。此外,理解数字的类别[4]也被证明在数字相关任务[2, 3]中有用。

  • 17
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值