Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)

最新推荐文章于 2022-04-12 17:00:00 发布

Mr.Ma-master

最新推荐文章于 2022-04-12 17:00:00 发布

阅读量515

点赞数

分类专栏：论文

本文链接：https://blog.csdn.net/weixin_43876801/article/details/103583045

版权

论文专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章目录

导读
摘要
Softmax瓶颈
有效突破Softmax瓶颈
实验
总结

导读

论文title：Mixtape: Breaking the Softmax Bottleneck Efficiently
论文地址：http://papers.nips.cc/paper/9723-mixtape-breaking-the-softmax-bottleneck-efficiently
在这里插入图片描述

摘要

softmax瓶颈已被证明会限制神经语言模型的表达。Mixture of Softmaxes（MoS）是解决这种理论限制的有效方法，但是与softmax相比，在内存和时间方面都比较昂贵。我们建议使用Mixtape，它是一种输出层，它通过三种新技术（ogit space vectorgating, sigmoid tree decomposition, and gate sharing）更有效地打破了softmax瓶颈。 Mixtape层将MoS层的效率提高了3.5倍至10.5倍，同时获得了类似的性能。配备Mixtape的网络比具有10-30K词汇量的基于softmax的网络仅慢20％至34％，并且性能优于softmax的复杂性和转换质量。

Softmax瓶颈

通常来讲，网络的最后一步是对一个字典做Softmax，然后取其中概率最大的一个作为预测值，即给定上下文 $C$ ，我们想估计下一个字符的条件分布 $P^{*}(X|C)$ .
语言建模的常用方法是使用神经网络对上下文进行编码，将下一个标记转换成向量表示 $h_{c} 和w_{x}$ ，然后通过softmax函数对条件分布进行建模，
网络的预测值：
在这里插入图片描述
我们以矩阵形式写下对数概率：

有效突破Softmax瓶颈

Mixture of Softmaxes (MoS)
MoS使用以下公式进行条件分布：
在这里插入图片描述
之前的A实际上就成为了：

从而成为了一个高秩矩阵。然而，这种方法大量使用了exp运算，从而效率很低，并且需要存储每一个logit，对内存要求要很大。
为了缓解效率问题，我们将介绍我们的新颖方法Mixtape，该方法可提高MoS效率，同时又不影响学习高级表示的能力。

Logit空间向量门控
Sigmoid树分解
门控共享
对数概率矩阵：

实验

我们的实验包括三个部分。首先，我们证明了拟议的Mixtape层能够通过打破softmax瓶颈来改善最新的机器翻译系统。其次，我们比较了Mixtape，MoS和softmax的困惑，翻译质量，速度和内存限制，以证明Mixtape能够在有效性和效率之间取得良好的平衡。第三，通过消融研究，我们展示了门共享的好处。
在这里插入图片描述

WMT14的结果
消融研究与基线比较

总结

本文提出使用Mixtape来更有效地打破softmax瓶颈。与MoS相比，Mixtapeis的计算效率更高。与softmax相比，Mixtape具有可比的效率，并且在准确性方面也优越。根据以上结果，可以将Mixtape用作即插即用层，以总体上改善有条件和无条件文本的生成。

Mr.Ma-master

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)

文章目录导读摘要Softmax瓶颈有效突破Softmax瓶颈实验总结导读论文title：Mixtape: Breaking the Softmax Bottleneck Efficiently论文地址：http://papers.nips.cc/paper/9723-mixtape-breaking-the-softmax-bottleneck-efficiently摘要softmax...
复制链接

扫一扫