AMC: Attention guided Multi-modal Correlation Learning for Image Search

来源:CVPR2017

传统图像检索系统排序图像是根据一个单模态的相关性,随着互联网的发展,越来越多的图像可以通过相关的元数据这种丰富的模态形式使用。

本文问题:在学习子空间时,优于查询意图的变化,不是所有的模态具有同等的信息量。

解决方法:针对在图像检索中的问题,引入了两个注意力机制:

  1. 内部注意力机制(inrta-attention):帮助图像检索系统找到每个模态最具信息量的部分;
  2. 外部注意力机制(inter-attention):根据查询意图,平衡不同模态间的重要性。

即作者提出了一种新的学习方法:Attention guided Multi-modal Correlation(AMC)。AMC框架包括三个部分:visual intra-attention network (VAN), language intra-attention network (LAN) ; multi-modal inter-attention network (MTN).

相关性:在AMC space中,查询和与图像相关的模态间的相关性是通过计算查询嵌入向量和多模态嵌入向量的余弦距离。 多模态相关性学习:Canonical correlation analysis (CCA):学习一个子空间将不同模态的相关性最大化。(变种:KCCA, RCCA ,KPCA-CCA)

模型:

输入: a query , images ,related keywords         输出:image

 

                                                                             图1:AMC框架

 

                                                                                      图2:AMC模型框架

数据集:

  1. Keyword datasets
  2. Adobe Stock Dataset(ASD)
  3. Clickture dataset
  4. COCO Image Caption dataset(CIC)

2)和3)用于多模态图像检索任务,4)用于字幕排序任务。

总结:作者提出了AMC框架根据输入查询的意图,处理吗,每个模态中有用的信息,滤除模态中无关的信息。针对此框架,作者进行了多模态图像检索和字幕排序实验。在今后研究中,AMC框架可通过融合更多与图像像相关的模态和外部知识来提升。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值