Efficient Representation Learning via Adaptive Context Pooling

自我注意机制通过在所有输入标记之间使用成对注意来建模长期上下文。在这样做的过程中,他们假设单个标记(例如,文本字符或图像像素)定义了固定的注意力粒度,这可能不是在更高级别上对复杂依赖关系建模的最佳选择。在本文中,我们提出了ContextPool,通过调整每个标记的注意粒度来解决这个问题。受ConvNets成功结合池化来捕获远程依赖的启发,我们学会了在给定的注意层中计算注意之前,为每个令牌池化邻近的特性。池权和支持大小是自适应确定的,允许池特性以不同的规模编码有意义的上下文。我们表明,ContextPool使注意力模型更具表现力,通常用更少的层实现强大的性能,从而显著降低成本。实验验证,当我们的ContextPool模块插入变压器模型时,在几种语言和图像基准上使用较少的计算,匹配或超过了最先进的性能,在学习上下文大小或稀疏注意模式方面优于最近的工作,也适用于ConvNets的高效特征学习。

背景:

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值