NumEval 论文

0 Abstract

数字与文字具有独特的特性。教会模型理解文本中的数字是一个开放性研究问题。本论文不讨论所需的计算技能,而是聚焦于一个更基础的话题:理解数字。我们指出,大多数预训练的语言模型(LMs)存在数字概念基础处理能力不足的问题,即数值盲。我们提出了一种通过探索数字的表示法来解决这一问题的方法。进一步,我们讨论了改变数字表示法和预微调以及比较数字任务是否可以在包含量化相关任务的三个基准数据集中提高性能。这项研究的结果表明,输入重构和所提出的预微调任务对于RoBERTa模型是有益的。

1 Introduction

数字是叙述中不可或缺的一部分,提供了许多精细的信息。如何使模型学习数字系统一直是许多研究者感兴趣的话题(Spithourakis和Riedel, 2018; Naik等人, 2019; Chen等人, 2019; Wallace等人, 2019; Zhang等人, 2020)。研究者长期以来一直在讨论预训练语言模型(LMs)的一些与数值相关的属性。在这项研究中,我们提出了一个新概念——数值盲。数值盲的问题在模型面对训练数据中没有出现的数字时变得最为明显,例如,当训练数据中的数字范围与测试数据中的不同时。此外,即使数字出现在训练数据中,语言模型也经常难以理解数字。这个问题的一个可能原因是数字可以有各种表示方式,其中一些从它们的子词中难以理解。另一个可能的原因是语言模型没有被预先训练来处理数字。因此,在这项研究中,我们通过输入重构和量化预微调任务来解决数值盲的问题。

输入重构指的是改变数字的表示法,这可以成为理解数字的关键线索之一(Zhang等人,2020; Chen等人,2021)。除了原始表示法外,我们还考虑了基于数字的表示法和科学记数法。表1列出了使用不同表示法的数字示例。我们的实验表明,与基于BERT的模型(Devlin等人,2019; Yasunaga等人,2022)相比,RoBERTa(Liu等人,2019)在理解数字方面的表现较差。然而,通过适当的输入重构方法,其性能可以与原版BERT基模型相媲美。此外,在以前的研究中,使用自我监督学习方法进行预训练被认为是一种有力的方法(Devlin等人,2019; Yasunaga等人,2022)。但是,从头开始预训练一个新的语言模型成本很高因此,另一种方式是设计预微调任务来增强语言模型的能力(Aghajanyan等人,2021)。受到这一想法的启发,我们提出了一种新的预微调任务,以增强模型处理量化问题的能力并提高模型的数值理解能力。具体来说,提议的方法自动生成一个简单的比较数字任务(ComNum)数据集,并使用它来预微调语言模型。本研究使用了代表性的预训练语言模型,包括BERT、RoBERTa和LinkBERT(Yasunaga等人,2022),实验结果表明,使用所提出的ComNum进行预微调可以改善量化自然语言推理(QNLI)任务的性能,无论使用哪种语言模型。

为了评估输入重构和量化预微调任务的影响,我们构建了Quantitative 101数据集,该数据集结合了三个基准数据集:Numeracy-600K(Chen等人,2019)、EQUATE(Ravichander等人,2019)和NumGLUE任务3(Mishra等人,2022)。Quantitative 101中的任务包括量化预测(QP)、量化自然语言推理(QNLI)和量化问题回答(QQA)。未来,Quantitative 101可以作为研究者研究语言模型量化技能的新资源集。

2 Related Work 

数值理解,作为近期自然语言处理(NLP)领域的热门话题之一,融合了包括计算、代数和几何在内的多种技能。一些先前的研究(Spithourakis和Riedel, 2018; Chen等人, 2019)讨论了遮蔽数字任务的预测,而其他研究(Wallace等人, 2019; Naik等人, 2019; Zhang等人, 2020)则从嵌入属性的角度探讨了数值理解。数学文字问题(Chen等人, 2021; Mishra等人, 2022)是一个需要多种数值理解技能的高级任务。数字的文本表示形式,如基于数字或科学记数法的表示,是提高数值理解的可能方向之一。Chen等人(2021)建议使用基于数字的编码器来编码数字。同时,Zhang等人(2020)使用科学记数法来表示数字,并探索了规模理解任务。在本文中,我们探讨了这些数字表示法在量化技能任务中的作用。

近期的趋势是设计预训练任务来增强模型理解自然语言的能力。Devlin等人(2019)提出了两种预训练任务:遮蔽语言模型(MLM)和下一句预测(NSP),扩展了基于Transformer的自然语言处理研究方向的视野。Yasunaga等人(2022)设计了一种新的跨文档预训练任务,称为文档关系预测(DRP),以提高语言模型在几个基准数据集上的性能,特别是那些需要多跳推理和多文档理解技能的数据集。据我们所知,这是最早提出量身定制的预微调任务以理解数字之一的工作。我们的实验结果也支持了所提任务的有效性,特别是在量化自然语言推理(QNLI)任务中。

3 Datasets and Tasks

3.1 Comparing Numbers Dataset (CND) 比较数字数据集

比较数字(ComNum)是基本的量化技能之一。我们提出比较数字数据集(CND)来测试不同预训练语言模型(LMs)执行ComNum任务的能力。CND是一个自动生成的数据集,ComNum任务被设计为一个二分类任务。本质上,模型需要判断给定的比较数字的陈述是真是假。在CND中,只有三种模板,如表2所示。CND中有一个训练集和两个测试集。具体来说,我们从0到199,999中随机选择两个数字并将它们插入到模板中。选定的数字会从数字池中删除以避免重复。最终获得100,000个实例,且所有实例中的数字都是唯一的。注意,每个模板和答案的分布是平衡的。80%的数据集被视为训练集,剩余的20%作为CND-T1测试集。接下来,从4,000,000到5,000,000中随机选择两个数字10000次,以构建CND-T2测试集。因此,训练集和第一个测试集(CND-T1)的数量级从0到5,而另一个测试集(CND-T2)的数量级为6。在这项研究中,我们关注自然数,并且未来的研究可以将我们的结果扩展到小数和分数。由于自然数是无限集,并且让模型学习包含所有数量级和数字的数据集是不可能的,我们按照人类学习过程的方式设计了任务,因为人类不需要从零学到万亿就能比较所有数字。

- CND-T1
  • CND-T1的数字范围较小,通常包含在训练数据中看到的数量级。具体来说,它包括的数字范围是从0到199,999。
  • 这个测试集旨在评估模型在处理训练过程中可能已经遇到的、较为常见的数量级的数字时的表现。
- CND-T2
  • 与CND-T1相比,CND-T2的数字范围更大,其数量级超出了训练数据集中的范围。具体来说,它包含的数字范围是从4,000,000到5,000,000。
  • 这个测试集用于测试模型在面对训练集中未出现的、较大数量级的数字时的适应性和泛化能力。

3.2 Quantitative 101

Quantitative 101汇集了最新的基准数据集,专注于量化任务。Quantitative 101中包含三个任务,分别是量化预测(QP)、量化自然语言推理(QNLI)和量化问题回答(QQA)。本节将简要介绍这些任务,并在附录C中提供进一步的细节。

QP任务

量化预测(QP)任务是预测被遮蔽数字的正确数量级。尽管一个可能的选择是预测给定上下文中的确切数字,但这通常即使对人类来说也是非常困难的。例如,表2中列出的QP示例中,正确答案是2.2。然而,对数量级做出准确的粗略估计通常只对经验丰富的专家可行。我们尝试测试模型在经过大量数据训练后是否也能学习到这种数值理解技能。因此,我们选择Numeracy-600K(Chen等人,2019)作为此任务的数据集。Chen等人(2019)将这个任务设计为一个八类分类任务,包括从1到6的数量级,小数以及大于6的数量级。Numeracy-600K包含两个子集:市场评论和博客标题。

QNLI任务

量化自然语言推理(QNLI)任务是基于量化线索进行自然语言推理。它是ComNum的一个复杂版本,因为给出的句子可能会有所不同。表2中展示的QNLI示例表明,模型需要基于更复杂的语义来比较数字。我们选择EQUATE(Ravichander等人,2019)来进行QNLI的真实世界场景实验。EQUATE包含五个子集,包括RTE-QUANT、AWP-NLI、NEWSNLI、REDDITNLI和压力测试。

QQA任务

量化问题回答(QQA)是另一种格式的任务,用于测试模型是否能理解数字和语义。我们为QQA实验选择了NumGLUE(Mishra等人,2022)的任务3子集。表2提供了这个数据集的一个示例。它采用二分类设置,每个实例有两个选项。

我们选择这三个数据集来测试模型的基本量化技能。我们注意到,这些数据集中的一些实例仅使用理解数字的基本能力就可以解决。然而,NumGLUE中的其他子任务需要包括生成方程在内的推理技能。这些任务不是本文的目标。

4 Method

4.1 数字的表示法

先前研究的发现(Chen等人,2021;Zhang等人,2020)建议两种值得尝试的方法:基于数字的表示法和科学记数法。表1展示了每种方法的一个示例。

原始表示意味着我们没有对输入数据进行任何预处理,结果基于WordPiece(Schuster和Nakajima,2012;Wu等人,2016)和字节对编码(BPE)(Sennrich等人,2016)进行标记化。在基于数字的方法中,我们将一个数值分解为数字。在科学记数法中,我们根据Zhang等人(2020)描述的方法将数值转换为科学记数法,表1提供的示例显示在这种情况下分词器提供了不同的结果。注意,我们对尾数进行了10位有效数字的填充,以保留大多数数值的信息。

4.2 预微调任务

我们使用CND对语言模型进行预微调,以学习比较数字的数值理解能力。我们相信这一学习过程可以使模型意识到数值,并可能帮助回答表2中列出的问题。我们进一步测试所提出的预微调方法在QP、QNLI和QQA任务中是否有帮助。我们主要使用BERT(Devlin等人,2019)、RoBERTa(Liu等人,2019)和LinkBERT(Yasunaga等人,2022)进行实验。由于QP任务的市场评论子集属于金融领域,我们还在这一子集中使用了FinBERT(Araci,2019)进行实验。使用BERT、RoBERTa、LinkBERT和FinBERT作为初始模型的预微调语言模型分别命名为CN-BERT、CN-RoBERTa、CN-LinkBERT和CN-FinBERT。在预微调过程中,我们使用基于数字的或科学记数法重构方法转换输入数据中的数值。因此,每个提议的预微调语言模型根据数字的表示法有两个版本。

5 Experiments

5.1 Innumeracy 数值盲

数值盲可以通过各种实验来测试。在这一节中,我们通过比较数字任务的实证结果观察数值盲现象。我们旨在回答语言模型(LMs)在CND-T1和CND-T2之间是否有不同的表现。我们使用F1分数的微平均值来评估比较数字任务的结果。表3显示了结果。模型在CND-T1中表现良好并不令人惊讶。然而,当我们使用CND-T2进行测试时,模型性能下降。在CND-T2中,数字的数量级与训练集中的不同。我们将这种现象称为“数值盲”,并发现无论是基于数字的表示法还是科学记数法,对于大多数预训练的语言模型而言都表现良好。特别是,使用科学记数法方法导致所有语言模型的性能下降最少。

5.2 实验结果

我们遵循先前研究的设置,使用F1分数的宏平均值来评估QP任务,以及F1分数的微平均值来评估QNLI和QQA任务。

表4展示了基于BERT模型的结果,表5展示了基于RoBERTa模型的结果。为了评估综合性能,我们像以往研究(Dua等人,2019;Mishra等人,2022)一样对所有结果进行了平均,将这个得分命名为Quantitative-101得分。首先,可以观察到所有表示方法和预微调任务都提高了RoBERTa的整体性能,并使RoBERTa的表现与基于BERT的语言模型相当。其次,我们观察到所提出的预微调任务有助于提高QNLI任务的表现。第三,使用合适的重构方法提高了QQA任务的表现。第四,重构方法和预微调任务对于基于BERT的语言模型在QP任务以及整体性能上并没有帮助。

表6显示了基于FinBERT模型在QP评论中的结果。结果表明,使用合适的重构方法可以提高FinBERT的性能。此外,所提出的CN-FinBERT比原始FinBERT表现更好。

总结我们的发现,输入重构方法可以提升RoBERTa和FinBERT的性能。然而,它对基于BERT的模型不起作用。所提出的预微调任务可以改善QNLI任务的表现,无论使用哪种语言模型。

5.3 Ablation Analysis 消融分析

在这一节中,我们对CN-RoBERTa进行了不包含输入重构的训练,以进行消融分析。表7展示了结果。结果表明,量化预测(QP)任务的性能显著提升,量化自然语言推理(QNLI)任务的性能也有所改善。这些结果表明,所提出的预微调任务对于QP任务很重要,但输入重构则不是。然而,没有输入重构的情况下,量化问题回答(QQA)的性能并未得到改善。这一结果暗示对于QQA任务而言,输入重构为模型提供了一些做出预测的线索。总的来说,这项研究没有找到解决量化问题的万能方案,但显示了输入重构和基本的量化预微调设计是有前景的方向。

6 Conclusion

这项研究处理了语言模型的数值盲问题,并显示了数字的表示方式很重要,特别是对于RoBERTa。我们还提出了一种新的预微调任务来改善量化技能,并发现预微调后QNLI任务的性能可以得到提升。我们希望我们在Quantitative 101中的结果能引发更深入的讨论,关于语言模型理解数字的能力。

Limitation

本文的第一个限制是我们专注于由数字(0到9和小数点)表示的数字,并没有讨论用词如“一”和“二”表示的数字。未来的工作可以扩展这项工作的发现,并将数字词转换为数字。

本文的第二个限制是我们没有讨论长文本场景,因为数据集中的实例长度在512以内。未来的工作可以设计与长文档相关的量化任务,并检验所提出的方法是否仍然有效。

本文的第三个限制是我们没有使用输入重构方法从头开始训练模型。我们将其作为未来研究的一个开放问题。

本工作的第四个限制是我们没有实验所有情况,包括使用几个范围的数据和使用所有类型的预训练语言模型进行实验,以证明数值盲现象是一般现象。相反,我们提出了对该现象的初步探索,并进一步关注改善其他量化相关任务的性能。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值