导读
论文title:Mixtape: Breaking the Softmax Bottleneck Efficiently
论文地址:http://papers.nips.cc/paper/9723-mixtape-breaking-the-softmax-bottleneck-efficiently
摘要
softmax瓶颈已被证明会限制神经语言模型的表达。Mixture of Softmaxes(MoS)是解决这种理论限制的有效方法,但是与softmax相比,在内存和时间方面都比较昂贵。 我们建议使用Mixtape,它是一种输出层,它通过三种新技术(ogit space vectorgating, sigmoid tree decomposition, and gate sharing)更有效地打破了softmax瓶颈。 Mixtape层将MoS层的效率提高了3.5倍至10.5倍,同时获得了类似的性能。 配备Mixtape的网络比具有10-30K词汇量的基于softmax的网络仅慢20%至34%,并且性能优于softmax的复杂性和转换质量。
Softmax瓶颈
通常来讲,网络的最后一步是对一个字典做Softmax,然后取其中概率最大的一个作为预测值,即给定上下文
C
C
C,我们想估计下一个字符的条件分布
P
∗
(
X
∣
C
)
P^{*}(X|C)
P∗(X∣C).
语言建模的常用方法是使用神经网络对上下文进行编码,将下一个标记转换成向量表示
h
c
和
w
x
h_{c} 和w_{x}
hc和wx,然后通过softmax函数对条件分布进行建模,
网络的预测值:
我们以矩阵形式写下对数概率:
有效突破Softmax瓶颈
Mixture of Softmaxes (MoS)
MoS使用以下公式进行条件分布:
之前的A实际上就成为了:
从而成为了一个高秩矩阵。然而,这种方法大量使用了exp运算,从而效率很低,并且需要存储每一个logit,对内存要求要很大。
为了缓解效率问题,我们将介绍我们的新颖方法Mixtape,该方法可提高MoS效率,同时又不影响学习高级表示的能力。
- Logit空间向量门控
- Sigmoid树分解
- 门控共享
对数概率矩阵:
实验
我们的实验包括三个部分。 首先,我们证明了拟议的Mixtape层能够通过打破softmax瓶颈来改善最新的机器翻译系统。 其次,我们比较了Mixtape,MoS和softmax的困惑,翻译质量,速度和内存限制,以证明Mixtape能够在有效性和效率之间取得良好的平衡。 第三,通过消融研究,我们展示了门共享的好处。
- WMT14的结果
- 消融研究与基线比较
总结
本文提出使用Mixtape来更有效地打破softmax瓶颈。 与MoS相比,Mixtapeis的计算效率更高。 与softmax相比,Mixtape具有可比的效率,并且在准确性方面也优越。 根据以上结果,可以将Mixtape用作即插即用层,以总体上改善有条件和无条件文本的生成。