文章来源:ECCV 2019
创新点:将显著性检测引入图文匹配,框架图如下所示
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/39408bb26ec7603c429719e08c5a3185.png)
图片表示
图片表示由两部分组成
- 显著性检测
对整张图进行显著性检测,将网络中不同层的输出进行级联,全连接等操作,最终得到一个显著性注意力权重,将其与region向量相乘,作为显著性视觉向量。 - 目标检测
检测出图片的多个region,将其特征做加和处理
将上面两个输出的特征进行average pooling
作为视觉特征
文本表示
双向GRU,将每个word的特征做加和处理
融合
将文本和图片的特征做加和进行融合,文本和图片分别与融合后的特征进行Attention
操作,利用Attention
结果进行匹配操作。