创新点:
我们介绍以一种统一的注意力块—X线性注意块,它完全采用双线性池来选择性地利用视觉信息或执行多模态推理。
技术上,X线性注意力块同时利用空间和信道双线性注意分布来捕获输入单模态或多模态之间的二阶相互作用特征。
当我们回顾传统的注意力机制时,可以发现它往往利用线性融合来进行跨模态的特征交互学习,所以其本质只挖掘了不同模态间一阶的特征交互,大大限制了注意力机制在视觉与语言这一复杂的跨模态内容推理任务中的作用。针对这个问题,我们在最新的 CVPR 2020 工作 X-LAN 中打造了一个能实现高阶特征交互的注意力机制 X-Linear attention。它可以利用双线性融合技术去挖掘不同模态间二阶乃至更高阶的特征交互信息,以增强跨模态的内容理解。
同时,该 X-Linear attention 可以作为一个灵活的插件接入到目前流行的各种图像描述生成模型中,极大地提升编码器和解码器在模态内和跨模态间的特征交互能力。我们也在最为权威的 COCO 在线评测系统上对所设计的图像描述生成系统进行测试,在多个指标上均达到世界第一的水平。
传统的注意机制与我们的X线性注意块用于图像字幕的比较。
(a)传统的注意机制通过元素线性融合查询(Q)和密钥(K),并计算每个值(V)的空间注意权重,它表征了查询和键之间的一阶交互。
(b)X线性注意块充分利用双线性池来捕捉两阶特征之间的相互作用,并测量空间和信道方向的注意分布。采用两个注意权重来积累双线性池在query和value上的增强值。
回想一下,我们的X线性注意力块是一个统一的注意力块,将X线性注意力块插入图像编码器和句子解码器以捕获更高阶的模式内和模式间交互以进行图像字幕是可行的。接下来,我们将介绍如何通过我们设计的X线性注意力网络(X-LAN)将这些块集成到编解码结构中,如图3所示
图3.用于图像字幕的X线性注意力网络(X-LAN)概述。首先使用更快的R-CNN来检测一组图像区域。接下来,在图像编码器中利用X线性注意块堆栈对区域级特征进行编码,使区域级特征之间具有更高阶的模内交互作用,从而得到一组增强的区域级特征和图像级特征。根据增强的视觉特征,在句子解码器中进一步采用X线性注意块来执行多模式推理。这鼓励探索视觉内容与自然句子之间的高阶模态交互作用,以促进句子生成。