由于正在看的代码中用到了Gumbel tree LSTM这个模型,简单对这篇论文做了个笔记。
Gumbel-Softmax本文提出的Gumbel tree LSTM是一种新的RvNN结构,它不需要结构化的数据,在没有明确指导的情况下学习构造特定于任务的树结构。们的Gumbel Tree LSTM模型基于树形结构的长期短期记忆(Tree LSTM)架构(Tai、Socher和Manning 2015;Zhu、Sobihani和Guo 2015),这是最著名的RvNN变体之一。为了学习如何在不依赖于结构化输入的情况下组合特定于任务的树结构,我们的模型引入了组合查询向量来度量组合的有效性。使用由组合查询向量计算的有效性得分,我们的模型递归地选择组合,直到只剩下一个表示。我们使用直通(ST)Gumbel Softmax estimator(Jang,Gu,and Poole 2017;Maddison,Mnih,and Teh 2017)对训练阶段的作文进行抽样。ST-Gumbel-Softmax估计器使离散采样操作在后向过程中保持连续,因此我们的模型可以通过标准的后向传播进行训练。此外,由于计算是按层执行的,因此模型易于实现,并且自然支持批处理计算。通过对自然语言推理和情感分析任务的实验,我们发现我们提出的模型优于或至少可以与以前的句子编码模型相媲美,并且收敛速度明显快于它们。
工作贡献如下:
我们设计了一个新的句子编码架构,它可以从纯文本数据中学习如何组合特定于任务的树;我们从实验中证明,所提出的架构优于或有竞争力的最先进的模型。我们还观察到我们的模型比其他模型收敛得更快;具体地说,我们的模型在所有已进行的实验中都明显优于以前的基于解析树的RvNN工作