用于多模态注意力学习的超图注意力网络（2020 CVPR）

最新推荐文章于 2024-05-29 22:15:10 发布

呆呆_kk

最新推荐文章于 2024-05-29 22:15:10 发布

阅读量2.5k

点赞数

分类专栏： VQA pytorch 文章标签：学习算法人工智能

本文链接：https://blog.csdn.net/weixin_45339060/article/details/125872750

版权

pytorch 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

VQA

4 篇文章 2 订阅

订阅专栏

摘要

多模态学习中出现的基本问题是不同模态之间的信息水平差异。为了解决这个问题，本文提出了超图注意力网络(HANs)，他在具有符号图的模态之间定义了一个共同的语义空间，并基于在语义空间中构建的注意力图提取模态的联合表示。过程：用每个模态的的符号图构建公共的语义空间，匹配符号图子结构之间的语义，在语义空间中构建图之间的共同注意力图，并使用共同注意力图集成多模态输入，以获得最终的联合表示。

介绍

重新强调了存在的问题：来自不同模态的特征向量被视为了同一个level上的上的抽象信息，即使这些特征向量是从不同的预处理步骤中获得的。如何对齐异构模态的信息？

为了解决这个问题，本文建议使用符号图作为多模态学习的常见语义表示。我们将符号图定义为包含节点和边的有向图，节点表示具有文本形式的语义单元，边表示它们之间的关系。例如，场景图可以用作图像模态的符号图，也可以用作文本模态的自然句子中的依存树。通过从每个低层输入中提取符号图，我们可以比较同一抽象层中模态之间的语义。

基于相同语义空间上的符号图，可以有效地集成多模态输入。在这里，本文提出了一种新的基于图神经网络的算法，称为超图注意网络(HANs)，它利用图的子结构来集成符号信息。HANs的主要思想是构造多模态输入间的共同注意力图，并将输入与共同注意力图进行集成。传统的注意方法通常独立比较节点值来制作注意图，而HANs通过结构相似度来考虑高层语义相似度。

定性分析后的发现：
1）符号图是表示低层信号信息的强有力的方法
2）模式间的信息水平对齐是根本问题。

方法：超图注意力网络

该方法称为超图注意力网络（HANs），由四个部分组成：（1）构造符号图，（2）在符号图上采样随机行走路径以构造超图，（3）匹配超边之间的语义以构造共同注意力图，（4）整合超图以获得多模态输入的最终表示。
Pipline

构建符号图

图像模态：使用[14]中的场景图来构建符号图，节点是对象的标签，属性和节点之间关系对应的单词。边按照以下规则进行定义：1）如果对象节点 $\ v^i_j$ 有属性 $\ v^i_k$ ，那么 $\ (j,k) \in E^i$ ，2）如果两个对象节点 $\ v^i_j$ 和 $\ v^i_k$ 有关系 $\ v^i_l$ ，那么 $\ (j,l) \in E^i$ 和 $\ (l,k) \in E^i$ 。The reason to make edge-labeled scene graphs flat is to align the structure between $G^q$ and $G^i$ .
文本模态：使用Spacy library获取问题句子的依存树，符号表示包含了token和token之间的依赖关系。
由于两种符号图都对应于words的表示，所以可以认为两种符号图处于（公共）相同的信息级别。

构建超图

在构建了两个符号图之后，将通过匹配子图的语义来构建共同注意力图（co-attention map）。由于子图匹配问题是NP-hard问题之一，本文提出了一种简单但功能强大的近似算法HANs。本文将每个超边(通过随机游走算法采样的带有有向边的节点序列)视为一个子图，因此通过计算 $G^i$ 和 $G^q$ 的超边之间的相似性来构建 $\ A$ 。

节点 $v_i$ 被选中的初始概率定义为：
请添加图片描述
$\ N$ 表示总节点数， $deg(v_i)$ 表示节点 $v_i$ 的出度。转移概率 $P^q$ 和 $P^i$ 的定义如下：

(这一段超图的构建自己缺乏理论上的一些知识，所以有点看不明白）

在超图之间构建共同注意力图

现在，用超边缘间语义匹配的方法来近似获得共同注意力图的子图匹配问题。在本节中，定义了每个超边缘 $\ M$ 的语义，并说明了比较超边缘之间语义的方法。
超边的语义定义如下：
请添加图片描述
采用的是GloVe词嵌入，然后求均值获取超边的语义。
现在，通过测量两个超边 $y(m^i)$ 和 $y(m^q)$ 语义之间的相似性来构建共同注意力映射 $\ A$ 。对于相似性度量，使用低秩双线性池化的方法如下：

在这里，共同注意图有两个有趣的特征。首先，共同注意图 $\ A$ 是基于语义和符号表征的比较，而以往研究的是具有不同信息层次的神经表征。其次，所提出的方法不仅考虑了两个节点之间的单一关系，而且通过构造超图来考虑其内在结构，而以往的图匹配研究大多是比较两个节点之间的(神经)表示。
此外，根据超边 $\ y(m)$ 的语义，我们可以考虑利用符号图的结构信息。为了通过考虑相邻节点的信息来获得信息性节点表示，设计了基于消息传递的图神经网络。节点特征矩阵 $\ X \in \mathbb{R}^{S \times d}$ 更新方式如下：
请添加图片描述
（？？？）

获取最终表示

因为公式2获得了共同注意力矩阵 $\ A$ ，所以可以使用双线性算子 $\ B$ ，例如BAN或者MFB来集成两个模态的超图。
如果采用的是BAN：
请添加图片描述

合并视觉特征

使用BUTD提取出的视觉特征 $\ V_i \in \mathbb{R}^{N^v \times d}$ ，利用公式（2）也生成共同注意力图 $A^*$ ，然后获取视觉语义特征 $z_v$ ：
请添加图片描述
最后将 $z_s$ 和 $z_v$ 进行组合来进行答案预测。

呆呆_kk

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
用于多模态注意力学习的超图注意力网络（2020 CVPR）

重新强调了存在的问题来自不同模态的特征向量被视为了同一个level上的上的抽象信息，即使这些特征向量是从不同的预处理步骤中获得的。如何对齐异构模态的信息？为了解决这个问题，本文建议使用符号图作为多模态学习的常见语义表示。我们将符号图定义为包含节点和边的有向图，节点表示具有文本形式的语义单元，边表示它们之间的关系。例如，场景图可以用作图像模态的符号图，也可以用作文本模态的自然句子中的依存树。通过从每个低层输入中提取符号图，我们可以比较同一抽象层中模态之间的语义。定性分析后的发现。...
复制链接

扫一扫