【论文笔记】Saliency-Guided Attention Network for Image-Sentence Matching

文章来源:ECCV 2019
创新点:将显著性检测引入图文匹配,框架图如下所示
在这里插入图片描述

图片表示

图片表示由两部分组成

  • 显著性检测
    整张图进行显著性检测,将网络中不同层的输出进行级联,全连接等操作,最终得到一个显著性注意力权重,将其与region向量相乘,作为显著性视觉向量
  • 目标检测
    检测出图片的多个region,将其特征做加和处理

将上面两个输出的特征进行average pooling作为视觉特征

文本表示

双向GRU,将每个word的特征做加和处理

融合

将文本和图片的特征做加和进行融合,文本和图片分别与融合后的特征进行Attention操作,利用Attention结果进行匹配操作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值