Analyzing Compositionality-Sensitivity of NLI Models
理解词汇语义但不理解组合语义
发现几个具有不同架构的最先进的模型过度依赖前者而没有使用后者。
组合性的理解缺乏没有反映在对当前数据集的标准评估
在现有模型中去除神经网络或在训练过程中对输入词进行洗牌并不会导致很大的性能损失,尽管组合信息被明显去除。
提出了一种组合敏感性测试设置,它可以分析现有数据集中无法通过词汇特征单独解决的自然例子的模型。
自然语言推理是推断两个句子之间的关系,比如一个是前提的句子和一个是假设的句子,他们的关系可以是蕴涵,中立和矛盾。
我们首先进行调查实验与基于规则的对手和七NLI基础模型,先进的经验表明,跨越多种架构,都不能识别简单的语义差异,当句信息保持不变(例如,主体和客体的交换或添加相同的修饰词不同的州长)。他们在这些例子上的失败与他们在标准评价集上的高表现形成鲜明对比,表明标准评价没有充分评估句子水平的理解。
为了进一步说明测试成分理解的标准评价的不足,我们进行了两个额外的实验,在这个实验中,成分信息被删除或稀释。首先,我们训练和评估最先进的模型,用全连接层取代它们的神经网络。其次,我们用打乱的输入词训练这些模型,并在原始评价数据集上对它们进行评价。在这两个实验中,模型仍然能够在标准评估数据集上取得高性能,这说明标准评估无法将具有组合性理解能力的模型与没有组合性理解能力的模型充分分离。
The main contributions of this paper are three-fold: 1) we introduce two new adversarial setups that expose current stateof-the-art models’ inability to process simple sentence-level
semantics when lexical features give no information; 2) we rigorously test and expose the limits of standard and adversarial evaluations; 3) we propose a novel compositionalitysensitivity test that analyzes a model’s ability to recognize compositional semantics beyond the lexical level, and show its effectiveness in separating models based on architecture.
本文的主要贡献有三方面:1)我们介绍了两个新的对抗设置,暴露了当词汇特征没有给出任何信息时,目前的先进模型无法处理简单的句子级语义;2)严格检验和揭示标准评价和对抗性评价的限度;3)提出了一种新的组合语义敏感性测试方法,分析了模型在词汇层面上识别组合语义的能力,并证明了该方法在基于体系结构的模型分离中的有效性。
我们测试我们的直觉,即模型没有充分捕捉句子的组成性质,通过在一对基于规则的对手上评估它们,我们在不改变词汇特征的情况下,通过扰乱句子的组成性来改变句子的语义。
然后就没啥影响。
为了验证我们的假设,即模型过度依赖词汇级信息,处理组合结构的能力有限,我们创建了由句子对组成的对垒测试集,这些句子的逻辑关系不能单独从词汇信息中提取出来。具体地说,我们用以下两种对立数据进行实验,通过改变句子的组成结构来改变句子的语义:
SOSWAP对抗:我们从SNLI数据集p中获取一个前提,它包含一个主语-动词-宾语结构,并通过交换主语和宾语来创建假设p0。在假设中,前提的语义角色发生了互换,这就导致了矛盾的一对。在图1的左边显示了一个例子。我们能够创建971个这种类型的示例。
ADDAMOD对抗:在这个设置中,我们从SNLI数据集p获得一个前提,它至少有两个不同的名词实体。然后,我们从SNLI数据集中挑选一个用于描述两个名词的形容词修饰语,并通过将修饰语添加到一个名词来创建前提p0,通过将其添加到另一个名词来创建假设h。这就产生了一个中性的对,因为假设包含额外的信息,既不被前提暗示也不被前提反驳。图1的右边显示了一个例子。我们能够创建1783个此类示例。
这两个对手背后的直觉是,虽然组合变化导致的语义差异对人类来说是明显的,但对于不考虑组合信息的模型,两个输入句子几乎是相同的。
我们在SNLI训练集上训练了我们的7个模型,并在对抗性测试集上测试了它们——结果如表2所示。为了确保我们的对抗性生成算法背后的直觉是正确的,我们对100个样本进行了人工评估
在这两个实验中,尽管大多数的例子被我们的人类评估者标记为非必要的,但模型将它们绝大多数归类为隐含性的,表明模型无法识别或处理构成性语义信息。模型在这些对抗性测试集上表现不佳,而在标准评价上表现良好,这使人们对标准评价的有效性和可靠性产生了怀疑。然而,这里所做的对抗性评估有其自身的问题。我们将进一步讨论当前评估的问题
Lexically-Misleading Score
LMS背后的思想是:一个示例在词汇上误导的程度越高,我们就越确信需要组合信息来解决它。因此,我们使用LMS从现有的评估集中选择示例进行评估。
CSλ:选择综合评价指标λ代表了对单个示例测试组合敏感性的信心和保持评价数据的适当样本量之间的权衡。CS0相当于在整个评估数据集上进行测试,而CS0.95(在一个三向分类器中)给出了一个极小的评估集(例如,SNLI上的CS0.95只有148个例子),而且具有高度误导性的词汇特征。从经验上来说,我们发现对于SNLI和MNLI,在评估集的大小和它测试组合敏感性的能力之间,我们可以找到一个很好的平衡点(例如,SNLI上的CS0.7有999个例子)。图2显示了在CS0.7中SNLI验证集中SNLI的高LMS句子对的例子。
总体趋势:我们看到,总的来说,模型的性能会随着真实值的增加而下降,而随着真实值的增加,人类的性能受到的影响要小得多。这与我们的假设是一致的,即人类风格的深度推理(包括词汇和组合知识)与当前过度依赖词汇信息的模型的推理之间存在显著差异。我们还注意到,对于SNLI上的所有模型,MNLI匹配和MNLI不匹配的dev集,在整个dev集上的准确性与CS0.7上的存在很大差距。这表明我们的模型在利用甚至识别组合信息进行语义理解方面能力非常有限。这些发现表明了结构句建模的进一步研究空间和需要。