Adversarial Analysis of Natural Language Inference Systems

Adversarial Analysis of Natural Language Inference Systems
自然语言推理系统的对抗分析
原文链接：https://arxiv.org/abs/1912.03441
摘要
SNLI 和 MNLI 等大型自然语言推理 (NLI) 数据集的发布导致了该任务的完全神经系统的快速开发和改进。最近，经过大量预训练、基于 Transformer 的模型（如 BERT 和 MT-DNN）在这些数据集上已达到接近人类的性能。然而，这些标准数据集已被证明包含许多注释工件，允许模型使用简单易错的启发式方法进行快速理解，并且在测试集上仍然表现良好。因此，许多对抗性（挑战）数据集被创建，导致在标准数据集上训练的模型失败也就不足为奇了。尽管对这些数据的额外训练通常会提高模型在该类型数据上的性能，但将这种学习转移到看不见的例子中充其量仍然是部分的。这项工作评估了在现有对抗性数据集上测试不同语言现象的最先进模型的失败情况，并发现即使这些模型在 MNLI 上的表现相似，但它们对这些攻击的鲁棒性却大不相同。特别是，我们发现与语法相关的攻击在所有模型中都特别有效，因此我们对这些示例的模型性能进行了细粒度分析和比较。我们得出关于模型大小和多任务学习的价值的结论（除了比较它们的标准测试集性能），并为更有效的训练数据提供建议。

1、引言

近年来，深度学习模型在许多 NLP 任务上取得并持续改进了最先进的结果。然而，在标准数据集上表现非常好的模型已被证明相当脆弱且容易被欺骗。特别是，对抗性示例或攻击的想法是从计算机视觉中引入的，并且已经开发了各种稍微扰乱输入的方法，导致模型灾难性地失败 [1, 2, 3]。

需要从安全角度研究对抗性攻击，以部署真实世界的系统，但它们也是了解黑盒深度学习系统可解释性的有力镜头。通过检查最先进模型的失败，我们可以了解很多关于它们真正学习的内容，这可能会让我们深入了解提高它们的鲁棒性和总体性能。

关于当前所有 NLP 系统失败原因的一种哲学概括是缺乏对语言的深入、“真实”理解。我们将专注于自然语言推理 (NLI) 的任务，这是一项基本的自然语言理解任务，被认为是更高级理解任务（如问答和摘要）的关键垫脚石。 NLI 任务的设置是在给定前提、回答蕴涵、矛盾或中立的情况下确定假设是否为真。

当前性能最好的 NLI 系统依赖于对通用任务的预训练，然后对标记的任务特定数据集进行微调。这与较旧的（2018 年末之前）模型形成对比，后者主要是在特定任务的标记数据集上训练的特定任务架构。此外，Transformer 架构 [4] 现在优于以前占主导地位的循环架构（LSTM 和变体）。我们想分析哪些类型的对抗性攻击在最近备受赞誉的 NLP 模型（如 BERT [5] 和 MT-DNN [6]）上仍然有效。

我们的贡献如下：
• 我们在各种现有的对抗模型上测试模型
数据集，对不同的语言现象具有高度的粒度。结果表明，预训练的模型在词汇意义方面非常出色，但在逻辑和句法现象方面却表现得最为挣扎。
• 我们专注于 McCoy 等人创建的以语法为中心的数据集。 [1]。我们仔细研究了 30 个子案例，并分析了模型大小（基础与大尺寸）和多任务学习（MT-DNN 与 BERT）的影响。我们还检查了所有模型在哪些子案例中失败。
• 我们尝试使用（扁平化）依赖解析作为输入（不调整架构或数据预处理）来微调模型。我们发现这确实提高了一些（但不是全部）依赖句子层次结构的子案例的性能。
• 最后，我们通过对 MNLI 进行不同量的微调（越来越多的过度拟合）后分析性能来调查 MNLI 的偏差。

2、相关工作

这项工作加入了 NLP 日益增长的运动，超越了改进测试集指标，更深入地分析模型学习和性能 [7]。这种类型的工作相信可解释性的价值，既可以构建更安全的实用系统，又可以找到提高原始模型性能的富有成效的方向。
刘等人。 [8] 使用接种的比喻来解决训练数据和模型架构之间对抗性漏洞的责任。他们在训练期间将一小部分挑战数据集暴露给模型，并在原始测试集和挑战数据集上重新测试其评估性能。

1）如果模型仍然无法通过挑战数据集，则弱点可能在于其设计/架构或训练过程。
2）如果模型现在可以在挑战数据集上成功（不牺牲原始数据集的性能），那么原始数据集有问题。
3）如果模型在挑战数据集上表现更好，但在原始数据集上表现更差，则挑战数据集在某种程度上不能代表它试图测试的现象，例如具有注释伪影或非常偏向特定标签。

不幸的是，即使对抗性训练确实提高了该特定数据集的模型性能，也根本不可能设计和训练所有可能的语言现象。对抗性数据集的一些创建者通过保留一些示例生成方法同时对其他示例进行训练，测试了对抗性鲁棒性对新型示例的可转移性。聂等人。 [9] 发现他们每个基于规则的模板的知识几乎完全不可转让给其他人。事实上，对某些特定模板的训练会导致过度拟合并损害整体稳健性。麦考伊等人。 [1] 发现更多混合的结果，有一些成功转移的案例。

许多用于不同任务的标准数据集已被证明具有明显的注释工件，允许模型学习在训练（和测试）数据中很强的特征，但与实际执行任务无关。 Gururangan 等。 [10] 在标准 NLI 数据集（SNLI 和 MNLI）中找到许多这些工件。例如，中性假设的长度往往更长，因为生成不一定由前提包含的假设的一种简单方法是添加额外的细节。同时，像nobody、no、never这样的强烈否定词是强烈的矛盾指标。考虑到这些工件，他们将数据分为“硬”和“易”版本，模型性能在硬测试集上下降了约 15%。这些发现表明，在对抗性示例上失败并不是模型的错误，因为存在比真正理解任何东西更容易获得高精度的方法。但这也意味着当前的评估指标大大高估了模型的能力和理解力。

3、模型
我们研究的两个新模型通过对具有巨大未标记数据集的通用语言任务进行预训练而获得了大部分能力。他们在各种语言理解任务上取得了最先进的表现。

BERT [5] 在双向掩码语言建模任务上进行预训练，除此之外还有句子对预测，即第二个句子是否可能直接跟随第一个句子。
MT-DNN [6] 在 BERT 的预训练之后，通过在九个 GLUE（通用语言理解评估）基准任务 [11] 上执行多任务学习，建立在 BERT 之上。

BERT 基于 Transformer 架构 [4]，这是一种非循环的、纯粹基于注意力的架构。 BERT 有一个基础版本（12 个 Transformer 层）和一个大版本（24 个层）。我们训练了 BERT 和 MT-DNN 的基础版本和大型版本。这些模型在 MNLI 上从公开可用的预训练检查点开始进行微调。
我们与较旧的循环模型 ESIM（增强型顺序推理模型）[12] 进行了比较。它是特定于 NLI 任务的，仅在 MNLI 上训练，没有大量的预训练。它使用双向 LSTM 对前提和假设句子进行编码，并在这些表示中使用注意力。
我们还考虑了另一个模型，Syntactic TreeLSTM (S-TLSTM)，它与 ESIM 相同，只是它使用一个 TreeLSTM，它将依赖解析作为输入 [12]。该模型可以与 BERT 进行有用的比较，因为它明确使用语言的层次结构与广泛的无监督预训练的模型设计方向完全相反。然而，各种研究表明 BERT 架构实际上确实学习了层次结构：Goldberg [13] 发现 BERT 在针对外部句法分类任务进行微调时表现得非常好，Jawahar 等人。 [14] 表明 BERT 的不同层在不同的抽象层次上学习了语言的结构表示。麦考伊等人。 [1] 在他们的对抗性数据集上测试不同的基于树的模型（SPINN [15]），发现它优于 ESIM，但不优于 BERT。考虑到所有这些，以及目前没有在标准数据集上表现接近 BERT 和变体的基于树的模型这一事实，我们决定不测试 S-TLSTM，尽管它具有哲学上的吸引力。

4、总体结果和分析
首先，作为参考，我们在表 I 中为我们训练（和测试）的模型提供了匹配的 MNLI 开发集的准确性。BERTlarge 结果与公布的结果不太匹配，但我们的硬件有限，并且没有仔细调整超参数。基于 BERT 的模型的表现都相当，甚至 ESIM 也表现不错。
表 I 总体 MNLI 结果
现在让我们分析所选模型在对抗性数据集（也称为挑战集、压力测试）上的性能。我们简要讨论前两个，然后关注最后一个 [1]，因为它在实际区分性能更好的模型的优势方面最有趣。

A. 格洛克纳等人。 (2018)
该数据集是通过基于 WordNet 修改具有不同词汇关系的单个词替换的 SNLI 示例而创建的。它测试词汇推理和相对简单的世界知识。他们测试了一个名为 KIM（基于知识的推理模型）[12] 的模型，该模型建立在 ESIM 的基础上，以多种方式显式地整合来自 WordNet 的知识，包括架构添加。然而，基于 BERT 的模型仍然明显优于 KIM。这可能是由于模型架构造成的，但很可能是由于他们在庞大的多样化语料库上进行了广泛的预训练。模型大小之间或 MT-DNN 和 BERT 之间没有太大区别。这说明词法语义更基础、更底层，所以学习它不需要那么多抽象层，也不需要多任务学习（见表二）。

B.奈克等人。 (2018)
该数据集由各种测试组成，这些测试由手动检查和对当时表现最佳的模型所犯的 100 个错误进行分类 [16] 组成。类别是反义词、单词重叠（附加“and true is true”）、否定词（附加“and false is not true”）、长度不匹配（附加“and true is true”5次）和拼写错误。反义词和拼写是“能力”测试，而其余的是“分心”测试。这些示例是通过修改来自 MNLI 的示例生成的。
表三
来自 [3] 的错误分析动机攻击。所有攻击类别的平均准确度。
BERTlarge 和 MT-DNNlarge 效果最好。整体模型性能趋势与 MNLI 上的性能相同，但差异并不大。此外，当我们检查特定类别的性能时，所有模型在不同类别的测试中具有大致相同的相对性能模式，即它们具有相同的相对成功和失败。这种一致性和一般相似的性能表明如果数据集的针对性不够强，无法获得真正有趣的洞察力。此外，与 McCoy 等人相比。 [1]（下图），生成示例的方式更加人为，可能意义不大。当然，一个健壮的 NLI 系统仍然不应该被这种攻击打败，即能够确定不相关的信息，包括重言式，这个测试表明，即使是最好的模型也没有掌握这种能力。

C.麦考伊等人。 (2019)
他们假设模型利用浅层、易出错的句法启发法来实现 MNLI 的准确性，而不是“真正的”理解。数据集由手动创建的模板生成的示例组成，这些示例打破了这些启发式方法。它们具有三类启发式（每一种都是前一种的特例）。
1）词法重叠：如果前提和假设共享很多词，模型可能会回答蕴涵。它会欺骗词袋（无词序）模型。
2）子序列：假设是来自前提的连续单词串。
床边的球滚来滚去。 􏰀 床滚了。
它也可能混淆序列模型。
3）成分：假设是前提中的句法成分。
如果男孩们睡了，他们就不会吃东西。 􏰀 男孩们睡着了。
它可能会混淆了解语法的模型。
所有三种启发式都涉及模型认为答案是
当它不是蕴涵时，即非蕴涵示例是与启发式相矛盾的示例。因此，蕴涵和非蕴涵示例之间模型性能的极端不平衡是强有力的证据，表明模型确实依赖于假设的启发式算法（表 IV 与 V）。

正如我们在表 V 中看到的那样，所有基于 BERT 的模型在大多数类别中都明显优于基于 LSTM 的 ESIM。但是 BERTlarge 和 MT-DNNlarge 的表现远远好于其他所有数据集，这一差异在我们测试的任何其他数据集中都没有那么明显。结合手动创建模板的粒度，这些巨大的性能差异表明该数据集更直接地探索和揭示了不同模型的优缺点。
BERTlarge 和 MT-DNNlarge 的成功表明，结构/句法信息可以通过具有更多层和参数的更大模型更深入地学习（与词汇语义相反（Glockner 等人，上文））。 BERTlarge 在蕴含示例上的准确度也较低，这也表明它不太可能盲目遵循启发式方法。
MT-DNNbase（建立在 BERTbase 上，因此大小相当）在某些类别中明显优于 BERTbase，表明多任务学习（特别是在语言理解任务上）的价值。

5、细粒度模型对比
A. BERTbase 和 BERTlarge 的比较
BERTlarge 在所有 15 个非蕴含子案例中的表现优于或等于 BERTbase（最差 -1%）。一些模板的改进特别大，例如修改子句：
• 修饰名词的关系从句 (+42.4%)
支持参议员的艺术家们喊道。 􏰀 众议员大喊大叫。
• 介词短语修饰符 (+38%)
教授旁边的经理们表演。 􏰀 教授们表演。
理解修饰从句需要理解组合语义的机制（可能使用某种层次语法），这是语言理解中一个基本但关键的步骤。因此，BERTlarge 在这些示例上优于 BERTbase 的表现证明了对这些示例的理解更加深入。
另一个需要改进的领域是动词和副词特殊子类的词汇意义。
• 带有从句补语的非真动词 (+60.4%)
游客说律师见到了秘书。 􏰀 律师见到了秘书。
该模板使用了各种动词，所有动词都暗示但不包含它们的补语。
• 情态副词 (+26.7%)
也许科学家钦佩律师。 􏰀 科学家钦佩律师。
同样，被动语态是 BERTlarge 改进的一种特殊句法现象，但仍然存在问题。
• 被动语态（3.6% → 29.8%）
经理们得到了运动员的建议。 􏰀 经理为运动员提供建议。

BERTbase 和 BERTlarge 是在相同的数据上进行训练（预训练和微调）的，因此它们学习的丰富程度的差异必须仅在于 BERTlarge 的层数增加了一倍。这些性能改进证明，学习所有不同的语言特殊情况需要更多层。
还有一些部分学习的特殊情况，例如“如果”的含义和相关（逻辑蕴涵）。
• 76.6% → 98.7%：除非教授跳舞，否则学生等待。 􏰀 教授跳舞。
• 均为0%：除非银行家打电话给教授，否则律师会大喊大叫。 􏰀 律师们齐声喊道。
同时，所有模型都无法理解析取（0-2%）的逻辑含义。
• 演员帮助了律师，或者经理阻止了作者。 􏰀 演员帮助律师。

逻辑是作为理解任务的推理的一个非常重要的组成部分，但可以理解，统计模型很难正确学习，因为它在某种意义上不是概率的，除了依赖于单个功能词的确切含义。许多传统的推理系统主要依赖于形式逻辑机制，找到一种将其整合到新模型中的方法似乎是一个很有前途的方向。设计和训练解析和理解形式、符号逻辑的神经网络是一个经过充分研究的问题 [17]，并且在理论上当然知道一般神经网络可以表示任意非线性逻辑关系。困难在于让自然语言模型在训练期间真正关心逻辑以正确使用它来完成特定任务。最近探索了许多不同的方法，包括但不限于修改损失函数以鼓励逻辑一致性 [18]、师生网络中的规则蒸馏 [19] 以及使用概率逻辑的间接监督 [20]。据我们所知，这些还没有被纳入最先进的模型，但它们在测试的基线模型上显示出有希望的结果，尤其是在资源较少的场景中。
所有这些特殊情况几乎肯定会在 BERT 庞大的预训练语料库中遇到，但该无监督阶段不一定会教模型如何使用该信息进行推理。这就是为什么越来越大的预训练可能不是实现语言理解的最有效或至少最有效的方法。

一些子序列模板仍然适用于所有模型，包括大型 BERT 和 MT-DNN（<10%）：
• 经理认识运动员提到了演员 􏰀 经理认识运动员。
• 当学生打架时，秘书跑了。 􏰀 学生与秘书打架。
这些模板本着花园小径句子的精神，其中局部句法歧义会导致句子的顺序阅读导致错误的解释。这种句子在认知科学中得到了广泛的研究，特别是语言处理，因为人类读者首先被误导，然后必须回溯以重新分析句子的组成以正确理解它 [21, 22]。 Goldberg [13] 表明，即使没有任何微调，BERT 在复杂的主谓一致任务上也表现良好，这表明预训练模型已经具备正确解析此类句子的能力。因此，该模型以某种方式知道语法，但不知道如何将其用于推理任务，这种教学失败只能归咎于特定于推理任务的微调。 MNLI 可能很少出现复杂语法，但也许更重要的是，执行任务很少需要完整的语法信息。然而，利用具有挑战性的句法的能力是一项重要的通用技能，因为它表明对语言的深刻、有原则的理解。

B. BERT 和 MT-DNN 的比较
尽管 MT-DNNlarge 在 MNLI 上的表现优于 BERTlarge，但 BERT 在此数据集中的更多子案例上击败了 MT-DNN。特别是，MT-DNNlarge 在测试防止蕴涵的特殊词法含义的子案例中更加挣扎（数字是 MT-DNNlarge 和 BERTlarge 之间的差异）：

条件：如果、除非、是否 (28.4%)
2）“信念”动词：相信，思想，希望（56.1％）
不确定性副词：hopefully,maybe,probably(25.3%)
MT-DNNlarge 唯一明显更好的子案例是被动语态（+32.7%）。
MT-DNN 从预训练的 BERT 开始训练，然后在 GLUE 基准测试中对 9 种语言理解任务进行微调（在再次对 MNLI 进行微调之前）。因此，如果 MT-DNN 的性能比相同大小的 BERT 模型差，则这种微调会导致它忘记之前拥有的一些知识。如果被微调的数据集没有明确地测试该知识，教导模型较少关心来自这些词的信息，就会发生这种情况。考虑到大部分 GLUE 任务都不是直接的 NLI 任务，模型忘记了这些词如何影响蕴涵也就不足为奇了。

6、作为输入的解析
考虑到句法现象是模型的弱点之一，我们进行了一个实验，简单地将扁平化的二进制解析作为输入“句子”传递。我们使用 MNLI 和对抗性数据集附带的自动生成的解析。我们在 McCoy 等人的数据集上进行测试。 [1]。
我们尝试了两种微调方案：

对原始（未解析的）MNLI 进行微调，然后再次对相同的数据进行微调，已解析（在表 VI 中标记为 UP）。
仅对解析后的 MNLI 进行微调（无其他推理-
特定微调）（在表 VI 中标记为 PO）。
我们发现让不同的模型训练得很好是相当困难的。有些损失从未收敛，有些在所有非蕴涵子案例中接近 0%。唯一合理的解析模型是第一种方案 (UP) 下的 BERTlarge 和第二种方案 (PO) 下的 MT-DNNbase。这些困难可能可以通过一些系统的超参数调整来克服，但我们看到两次成功之间的基本一致性（对抗性数据集的模型性能），因此不要认为进行更多测试会很有见地。但模型对微调的反应如此不同的事实表明，这些模型在关于如何解决任务的知识方面具有显着不同的“知识状态”，即它们在预训练后最终处于不同的局部最优。这个想法值得更多分析，因为大量预训练的重点是学习语言的最大可迁移和一般表示。因此，如何引导模型朝着这些理想的局部最优（并远离过度拟合）是一个非常重要和困难的问题。
任何模型都能够学习如何处理解析的事实已经令人惊讶，因为它们的预训练都没有被解析。评估 MNLI（匹配开发集）的解析，BERTlarge 达到 82% 的准确率（与未解析的 86% 相比），MT-DNNbase 达到 84%（等于未解析）。

这些是在解析和未解析输入之间看到 10% 或更大的准确性变化的六个子案例。数字是从未解析到已解析（BERTlarge、MT-DNNbase）的百分比变化。
解析在以下方面做得更好：
• 主题修饰语
教授旁边的经理们表演。 􏰀 教授们表演。 (+11.3%, +36.5%)
支持参议员的艺术家们喊道。 􏰀 众议员大喊大叫。 (+16.5%, +26.5%)
• NP/Z (+7.1%, +15.2%)
由于运动员隐藏，秘书介绍了总统。 􏰀 运动员把秘书藏起来了。
解析后的模型仍然只达到了 21.7% 和 17.2% 的准确率，但这仍然是一些改进。
• 连接（+22.2%，+1.8%（未解析的 MT-DNNbase 已经获得 90.8%））
游客和参议员钦佩运动员 → 游客钦佩运动员。
这是一个蕴涵模板，因此 BERTlarge 的较低准确率实际上表明启发式依赖较少，并且解析改进从 64.4% → 86.6% 确实表明更好的理解（而 MT-DNNbase 的性能可能只是使用启发式）

解析在以下方面做得更糟：
• 非真实动词下的嵌入条款（-35.7%，-10.6%）律师认为游客喊叫。 􏰀 游客们叫喊着。
• 表示不确定性的副词（-26.3%、-16.7%）希望总统介绍医生 􏰀 总统介绍医生。
在这一小组重大变化中，可以说解析的输入在句法、分层示例方面帮助了模型，并在特定的词汇语义上损害了模型。这是一个令人惊讶的直观结果：模型将重点更多地转移到语法上！
然而，在 30 个中，这些是唯一发生显着变化的子案例，这表明解析没有编码那么多有用的信息，或者（更有可能）微调没有教会模型如何使用额外的信息。例如，也许 BERTlarge（在未解析的数据上训练，然后解析完全相同的数据）刚刚学会了忽略括号。
此外，未解析模型得分接近 0 的子案例基本上没有看到任何改进。这些顽固的案例在表七中给出。这些案例中的大多数是对句法现象的测试，因此解析的数据肯定包含有用的信息，但同样，微调在某种程度上不足以教会模型如何使用它。
我们认为解析不一定是应该纳入未来模型/系统的预处理步骤，因为它需要额外的计算和带注释的数据资源。但是这个实验确实表明，在没有诱导偏差的情况下，BERT 的大规模通用预训练并没有捕捉到一些基本的规则式原则。

7、过拟合 MNLI
模型学习和使用易出错的启发式方法只是因为它适用于他们的训练数据集；换句话说，他们过度拟合了他们的训练数据 MNLI。我们通过对 MNLI 进行不同量的微调后评估模型来分析这个过程。我们在 MNLI 上表现最好的 MT-DNNlarge 上执行此实验，并通过评估 McCoy 等人的对抗性数据集来衡量过度拟合。（非蕴涵子情况）。

MT-DNNlarge 模型训练非常快，仅经过一个 epoch 的微调就与最大开发精度相差 1%，并且在第三个 epoch 时开发精度略有下降。这是多任务学习的一个声称的好处：该模型可以更灵活地快速学习不同的任务。
从 epoch 2 到 3，MNLI 开发性能仅下降了 0.1%，但根据对抗性数据集的性能，该模型明显更多地依赖启发式，揭示了更多的过拟合状态。查看特定的子案例，epoch-3 模型在 6 个子案例中的差异超过 10%，与解析输入发生的情况非常相似：
• 提高词汇语义：“信念”动词（相信、认为）（+11.8%）和不确定性副词（希望、也许）（+24.3%）
• 在结构/句法现象方面变得更糟：被动语态 (-24.4%)、连词 (-12.4%) 和主语修饰语 (PP (-15.6%)、关系从句 (-19.1%))
有趣的是，更多 MNLI 微调帮助的子案例与 BERTlarge 击败 MT-DNNlarge 的子案例完全相同。这强烈表明在 MNLI 中强调了这些词的目的； MT-DNN 在对其他 GLUE 任务进行微调时忘记了它，对 MNLI 进行更多微调使其重新学习。
另一方面，更多微调伤害的子案例都集中在结构/语法上，这表明 MNLI 倾向于以影响蕴涵的方式实际利用复杂的句法现象（支持 McCoy 等人的句法启发式假设）。 .
创建具有“无偏差”的大小合理的训练数据集是不可能的。在这里，我们在 MNLI 中找到了一些微妙的例子，强调了这些模型对获取任何有用信号的敏感性。 NLI 是一项非常广泛的任务，很难定义自然或代表性的输入分布是什么，因此最终数据集设计应取决于所需的能力和应用程序。

8、结论
在这项工作中，我们使用对抗性和挑战数据集来探测和分析当前最先进的自然语言推理模型的失败，比较不同大小的 BERT 和 MT-DNN 模型。评估这些数据集可以更好地区分不同模型的实际理解能力，而不是简单地查看它们在 MNLI（他们接受训练的大型数据集）上的表现。我们的分析非常细粒度，针对许多特定的语言现象。我们从更大的模型尺寸和多任务学习中发现了各种改进。我们发现最佳模型最困难的例子是基于逻辑或语法的，包括命题逻辑和花园路径句子。我们尝试将解析作为输入传递给开箱即用的预训练模型，并发现它确实在需要理解语法的示例中提供了一些改进，证明了句法引起的偏差的价值。我们分析了对 MNLI 过度拟合的情况，并揭示了数据集中的一些偏差/伪影。
有些人可能会争辩说，在人为挑战的数据集上测试 NLI 系统是不公平且无用的，因为它不能代表它们在自然、真实世界数据上的表现。但即使人类自然产生的数据不是那么困难（因为人类也很懒惰，使用启发式），不同的是我们总是可以正确地解析句子，利用规则和原则。我们直觉地知道，能力对于稳健、值得信赖和真实的语言理解至关重要。
致谢
本文报告的工作得到美国国家科学基金会的资助，编号为 1659788。本文中表达的任何意见、发现和结论或建议均为作者的观点，并不一定反映国家科学的观点基础。