Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)

导读

论文title:Mixtape: Breaking the Softmax Bottleneck Efficiently
论文地址:http://papers.nips.cc/paper/9723-mixtape-breaking-the-softmax-bottleneck-efficiently
在这里插入图片描述

摘要

softmax瓶颈已被证明会限制神经语言模型的表达。Mixture of Softmaxes(MoS)是解决这种理论限制的有效方法,但是与softmax相比,在内存和时间方面都比较昂贵。 我们建议使用Mixtape,它是一种输出层,它通过三种新技术(ogit space vectorgating, sigmoid tree decomposition, and gate sharing)更有效地打破了softmax瓶颈。 Mixtape层将MoS层的效率提高了3.5倍至10.5倍,同时获得了类似的性能。 配备Mixtape的网络比具有10-30K词汇量的基于softmax的网络仅慢20%至34%,并且性能优于softmax的复杂性和转换质量。

Softmax瓶颈

通常来讲,网络的最后一步是对一个字典做Softmax,然后取其中概率最大的一个作为预测值,即给定上下文 C C C,我们想估计下一个字符的条件分布 P ∗ ( X ∣ C ) P^{*}(X|C) P(XC).
语言建模的常用方法是使用神经网络对上下文进行编码,将下一个标记转换成向量表示 h c 和 w x h_{c} 和w_{x} hcwx,然后通过softmax函数对条件分布进行建模,
网络的预测值:
在这里插入图片描述
我们以矩阵形式写下对数概率:
在这里插入图片描述

有效突破Softmax瓶颈

Mixture of Softmaxes (MoS)
MoS使用以下公式进行条件分布:
在这里插入图片描述
之前的A实际上就成为了:
在这里插入图片描述
从而成为了一个高秩矩阵。然而,这种方法大量使用了exp运算,从而效率很低,并且需要存储每一个logit,对内存要求要很大。
为了缓解效率问题,我们将介绍我们的新颖方法Mixtape,该方法可提高MoS效率,同时又不影响学习高级表示的能力。

  • Logit空间向量门控
  • Sigmoid树分解
    在这里插入图片描述
    在这里插入图片描述
  • 门控共享
    对数概率矩阵:
    在这里插入图片描述

实验

我们的实验包括三个部分。 首先,我们证明了拟议的Mixtape层能够通过打破softmax瓶颈来改善最新的机器翻译系统。 其次,我们比较了Mixtape,MoS和softmax的困惑,翻译质量,速度和内存限制,以证明Mixtape能够在有效性和效率之间取得良好的平衡。 第三,通过消融研究,我们展示了门共享的好处。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • WMT14的结果
    在这里插入图片描述
    在这里插入图片描述
  • 消融研究与基线比较
    在这里插入图片描述

总结

本文提出使用Mixtape来更有效地打破softmax瓶颈。 与MoS相比,Mixtapeis的计算效率更高。 与softmax相比,Mixtape具有可比的效率,并且在准确性方面也优越。 根据以上结果,可以将Mixtape用作即插即用层,以总体上改善有条件和无条件文本的生成。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值