[论文学习笔记]Contrastive Self-Supervised Learning for Commonsense Reasoning

论文来自ACL 2020 作者:Tassilo Klein,Moin Nabi(SAP AI Research, Berlin, Germany)

摘要:

为解决Pronoun Disambiguation和WSC问题,我们提出了一个自监督的方法。我们的方法利用了与所谓“trigger” words相关的语料库的特征结构,这些“trigger”words负责翻转Pronoun Disambiguation的回答。我们通过构造成对的对比辅助预测来实现这样的常识推理。为了达到这个目的,我们利用了contrastive margin规范的mutual exclusive loss。我们的结构是基于最近提出的transformer networks,BERT,这个网络在许多NLP benchmarks上都展现了很强的能力。实验结果证明,我们的方法减轻了当前监督方法在常识推理上的局限性。这项研究为利用廉价的自我监督以实现常识性推理任务中的性能提升开辟了道路。

Introduction:

自然语言表征学习(如BERT)可以从文本中捕获丰富的语义,持续提高下游NLP任务的表现。然而,尽管最近取得了很多进步,但常识推理距离被解决还有很远的路要走。在许多因素中,这可以归因于可达到的准确性与训练语料库大小和质量之间的强相关性。一个典型的例子是Winograd Schema Challenge(WSC),尽管它对人类来说看似简单,但目前的算法仍无法解决。
下面看一个问题示例:(binary-choice pronoun coreference problem of WSC)
Sentence-1:
The trophy doesn’t fit in the suitcase because it is too small.
Answers: A) the trophy B) the suitcase
Sentence-2:
The trophy doesn’t fit in the suitcase because it is too big.
Answers: A) the trophy B) the suitcase
对于人类来说,把代词“it”解析为“the suitcase”是非常简单的。然而,一个不具有常识推理能力的系统是无法将内在的关系概念化的,因此,无法区别“suitcase”和“trophy”.

最近,研究界实践了很多方法,这些方法建议利用最新的词嵌入和语言模型(LM)技术进行常识推理。这些方法的基本假设是,由于此类模型是在大型文本语料库(例如Wikipedia)上学习的,因此它们在一定程度上隐性地捕获了常识知识。所以,模型允许在推理时对实体之间的复杂关系进行推理。这些方法大多数提出了两个阶段的学习流程:首先,从一个初始self-supervised模型开始,然后在随后的微调阶段获得具有常识的word embeddings. 这种Fine-tuning强制让被学习了的embedding把WSC当作一个朴素的co-reference任务来处理。

但是,解决此任务不仅仅需要采用从大型文本语料库中学习的语言模型。我们猜想认为,在词嵌入阶段使用的当前自我监督的预训练任务(例如,next sentence prediction, masked language model等)过于“容易”以至于无法强制模型捕获常识。 因此,有监督的微调阶段不足以学会推理常识。当在一些常识表示不足的预料库(比如Wikipedia)上训练时,问题会变得更加严重。由于假设琐碎,这些语料库的作者经常在文本中跳过加入这些常识信息。在这种情况下,监督式微调似乎不足以解决任务,并且只能学习根据诸如数据集和语言偏见之类的肤浅线索来“人为”解析代词。

在这项工作中,我们提出使用最少的监督来学习常识性表示(commonsense-aware representation)。具体来说,我们为模型提供了与Winograd挑战测试时间相同的监督级别。为此,我们引入了自我监督的预训练任务,该任务仅需要一对句子间,只有一个词(即“触发”词)不同。应当注意,触发词的概念是Winograd Schema问题的概念所固有的。“触发“词负责切换问题的正确选项。在刚刚的例子中,形容词big和small就是作为”触发“词。给定由触发词建立的上下文,候选答案A在第一句话中是正确的而在第二句话中是错误的,反之亦然。从示例中可以明显看出,触发词引起了训练对之间的互斥关系。我们提出的方法旨在将这种成对关系作为训练阶段的唯一监督信号。使用这种对比自监督的方式训练,可以产生能感知常识的归纳偏置(inductive bias). 这可以归因于几个因素。优化使得分类器在决策时更加严格,并且在具有区分性的同时跨对保持一致。具体来说,在没有强的单个句子信号的情况下,该模型试图跨对组合弱信号。和有监督的任务相比,这个无监督的任务要更难学,并且解析各个关联需要常识性的概念。因此,我们假设以对比自我监督的方式进行训练可以学习更深入的单词关系,从而为常识推理提供更好的泛化特性。

为此,我们建议,通过最大化两个可能的候选的互斥概率,在表征学习阶段引入互斥(MEx)损失。具体来说,给定一对训练句,将待解代词从句子中屏蔽出来,并用语言模型预测:在满足互斥条件的情况下,只有一个候选者能够填补被掩蔽代词的位置。在这个自我监督的任务中,标签(即正确的候选者)不必事先知道。因此,它可以利用数据以成对方式提供的事实,以无监督的方式进行学习。

我们的贡献有两个方面:
(一)我们提出了一种新颖的自我监督学习任务,用于以最小监督的方式训练常识性表示。(二)在表征学习过程中引入了一个pair level的mutual-exclusive loss来强化常识知识。

在这里插入图片描述
颜色表示不同单词的可能性。弱常识信号表明,对于只使用语言模型的Loss时,(图中虚线),两个候选词的likelihood是几乎相等的;但在合并了MEx Loss之后,利用了候选词的互斥性,从而使分类器在各对之间更加严格和一致

Conclusion

该方法在PDP和DPR任务上的性能优于所有方法。在更具挑战性的WSC任务中,它优于所有的无监督方法,同时在性能上与最新的监督方法相当。此外,正如KnowRef上的表现所表明的,它不太容易受到gender和number biases的影响。所有这些加在一起证实了自我监督对于常识推理任务是可能的。
我们认为为了真正解决常识推理,算法应该避免使用标记数据,而应该利用任务本身的结构。Therefore, future work will aim at relaxing the prior of Winograd-structured twin-question pairs. 在大规模Winograd结构化数据集(例如最近发布的WinoGrande)上,可能性会以自我监督的方式自动生成大量相似句子或预训练的集合。
此外,我们试图研究所获得的归纳偏差对其他常识性下游任务的可转移性,这些任务不同于Winograd结构。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值