What if We Simply Swap the Two Text Fragments?_笔记

Haohan Wang, 1 Da Sun, 2 Eric P. Xing 3
1 Language Technologies Institute, School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA
2 School of Information Science, Southeast University, Nanjing, China
3 Machine Learning Department, School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA
{ haohanw, epxing } @cs.cmu.edu
 

What if We Simply Swap the Two Text Fragments?

 

然而,一些工作已经注意到在NLI数据集中收集的统计不规范,这可能导致高估这些模型的性能,并提出了补救措施。

 

With the belief that

some NLI labels should preserve under swapping operations,

we propose a simple yet effective way (swapping the two textfragments) of evaluating the NLI predictive models that naturally mitigate the observed problems.

 

此外,我们继续用交换的方式对预测模型进行训练,并提出用交换不同训练文本片段百分比下模型评估性能的偏差来描述预测模型的鲁棒性。

 

• E: P → H

• C: P → ¬ H

• N: P ⊥ H

where → stands for implication, ¬ stands for negation, and

we use ⊥ to denote that there is no clear relation between P

and H.

The essential part of this paper lies in the fact that for any

two propositions A and B, we have:

• (A → B) ⊥ (B → A)

• (A → ¬ B) ⇐⇒ (B → ¬ A)

• (A ⊥ B) ⇐⇒ (B ⊥ A)

In simpler words, swapping A and B will retain the → ¬ relation and ⊥ relation, but not → relation.

 Therefore, we can simply evaluate an NLI predictive model by swapping the premise and hypothesis in testing data set with the argument: If a model can truly predict inference relationship between pairs of text fragments, it should report comparable accuracy between the original test set and swapped test set for contradiction pairs and neutral pairs, and lower accuracy in swapped test set for entailment pairs.

 

Gururangan et al。(2018)指出,这些工人似乎找到方便的方法来写假设,比如使用否定句(如没有,没有人,没有)突出的矛盾关系,或使用通用的词来替换特定的单词(如狗,动物对吉他乐器,和户外海滩)保证蕴涵关系。因此,这些工作者根据不同的标签创造不同的词分布。

 

因此,NLI数据集中存在混杂因素。从图1中可以看出,语义标签引导工作者对词的选择,从而直接决定假设的词分布。因此,它产生了一个伪信号,即除了这些句子的语义意义之外,单词的分布也与NLI标签有关。如果机器学习模型捕捉到这种虚假的关系,如果用NLI测试数据集定期评估,模型将会报告令人印象深刻的性能,但如果用复杂的方法评估,则会表现出较差的性能。

 

通过交换测试数据集中的前提和假设,我们改变了训练集假设和测试集假设之间的单词分布,因此只能通过这些假信号进行预测的模型在新的测试集中不太可能有效。

 

 For a model that will predict the pairs on semantic levels, we expect:

• (significant) drop of performance for entailment pairs,

• roughly the same performance for contradiction pairs,

• roughly the same performance for neutral pairs.

 

结果6如表1所示。我们可以在许多情况下观察到性能下降,其中一些是显著的。因此,根据我们前面的论证,不幸的是,结果表明,尽管这些模型与原始的评估度量标准有着令人印象深刻的性能,但某些评估模型在捕获semanticlevel信息方面存在潜在的不称职。

 

令人欣慰的是,对于矛盾对和中性对,这些模型仍然能够以比随机机会更好的准确性进行预测。我们认为这是因为模型仍然可以从数据中捕捉到一定数量的语义信息,从而达到高于随机的预测精度

 

为了测试一个NLI模型的健壮性,我们需要一个评估指标来评估模型在语义层面上的性能,独立于单词分布。我们考虑最近提出的压力测试stress test (Naik等,2018年)。它是一种评估方法,帮助检查模型是否能在语义层次上进行预测。他们创建了一个测试集,该测试集是按照各种不同的规则构建的,包括能力测试集(反义词,数字推理),分心测试集(有三种策略:单词重叠,否定和长度错配),还有噪声测试集。总共有六个评价标准。

 

By looking into the last column of Table 2, we can see that different methods showed a different level of robustness.

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值