Learning to Compose Task-Specific Tree Structures论文笔记

最新推荐文章于 2024-10-12 22:38:21 发布

xulijun_811

最新推荐文章于 2024-10-12 22:38:21 发布

阅读量674

点赞数 1

文章标签：自然语言处理 tensorflow pytorch

本文链接：https://blog.csdn.net/xulijun_811/article/details/106630624

版权

这篇论文介绍了Gumbel Tree LSTM，这是一种无需结构化输入就能学习构建任务特定树结构的递归神经网络。模型在自然语言推理和情感分析任务上表现出色，且收敛速度快于现有模型。它使用Gumbel Softmax策略学习树结构，允许端到端的结构学习，而传统Tree LSTM依赖于预先给定的树结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于正在看的代码中用到了Gumbel tree LSTM这个模型，简单对这篇论文做了个笔记。

Gumbel-Softmax本文提出的Gumbel tree LSTM是一种新的RvNN结构，它不需要结构化的数据，在没有明确指导的情况下学习构造特定于任务的树结构。们的Gumbel Tree LSTM模型基于树形结构的长期短期记忆（Tree LSTM）架构（Tai、Socher和Manning 2015；Zhu、Sobihani和Guo 2015），这是最著名的RvNN变体之一。为了学习如何在不依赖于结构化输入的情况下组合特定于任务的树结构，我们的模型引入了组合查询向量来度量组合的有效性。使用由组合查询向量计算的有效性得分，我们的模型递归地选择组合，直到只剩下一个表示。我们使用直通（ST）Gumbel Softmax estimator（Jang，Gu，and Poole 2017；Maddison，Mnih，and Teh 2017）对训练阶段的作文进行抽样。ST-Gumbel-Softmax估计器使离散采样操作在后向过程中保持连续，因此我们的模型可以通过标准的后向传播进行训练。此外，由于计算是按层执行的，因此模型易于实现，并且自然支持批处理计算。通过对自然语言推理和情感分析任务的实验，我们发现我们提出的模型优于或至少可以与以前的句子编码模型相媲美，并且收敛速度明显快于它们。

工作贡献如下：

我们设计了一个新的句子编码架构，它可以从纯文本数据中学习如何组合特定于任务的树；我们从实验中证明，所提出的架构优于或有竞争力的最先进的模型。我们还观察到我们的模型比其他模型收敛得更快；具体地说，我们的模型在所有已进行的实验中都明显优于以前的基于解析树的RvNN工作࿰