跨模态图文检索:浅谈MASLN

《Modal-adversarial Semantic Learning Network for Extendable Cross-modal Retrieval》(2018 ACM)

——————————————————————————————
转载请注明出处:https://blog.csdn.net/weixin_44390691/article/details/105179737
——————————————————————————————

当目标集中的类别⊆源集的类别时,从源集到目标集的检索被称为“不可扩展的(non-extendable)”检索;若二者之间不是包含关系,则成为“可扩展的(extendable)”检索。现有的大多数检索方式都是用来进行不可扩展的检索,而这篇文章则提出了一个网络框架,该框架可以用来进行可扩展的检索,并且通过大量的实验数据证明了该框架性能的优势。
在这里插入图片描述
这是本文提出的框架结构,网络由两个子网络组成,分别是跨模态重构子网(Cross-modal Reconstruction Subnetwork)和模态对抗语义学习子网(Modal-adversarial Semantic Learning Subnetwork)。首先将成对的image-text对输入到网络当中,fv和ft两个编码器分别地对图像和文本进行编码,得到各自的图像/文本特征。经过编解码之后,就完成了重构的过程。在重构的过程中,涉及到一个损失项:
在这里插入图片描述
对抗语义学习子网是在跨模态重构子网的基础上进行升华。跨模态重构子网仅仅只利用了原始特征空间中成对数据之间的相关性来进行建模,而对抗语义学习子网则在此基础之上引入了类别嵌入(class embedding),让成对数据能够在更高级的语义层面上相互关联起来,让信息能够进一步在可扩展跨模式检索任务上进行传递(个人感觉类似于知识迁移的概念)。

同样,在对抗语义学习的过程中也产生了损失项,分别是语义相关学习损失、语义辨别性学习损失和模态对抗一致性学习损失。文章给出了对应的公式:

语义相关学习损失:
在这里插入图片描述
语义辨别性学习损失:
在这里插入图片描述
模态对抗一致性学习损失(该项越大越好):
在这里插入图片描述
最后,构造一个整体的损失函数:
在这里插入图片描述
其中的各项参数用随机梯度下降(SGD)学习方法进行优化。

在实验环节,本文用到了三个大型数据集:Wikipedia,Pascal sentence和NUS-WIDE 10k。在这三个数据集上分别进行了“可扩展检索”和“不可扩展检索”的实验,并且和已有的7种最先进的跨模态检索方法进行比较。度量指标采用MAP和CMC曲线图。
在这里插入图片描述
这是不可扩展检索的实验结果。从精确度来看,MASLN高于以上7中检索方法,作者认为这要归因于框架中引入了class embedding,增强了跨模态重构过程中成对数据的相关性,从而更有利于在公共空间中的检索。
在这里插入图片描述
这是可扩展检索的实验结果,可以看出所有方法的精确度都大幅度降低,这是合理的,因为目标集的分布与源集不同,因此所有方法的训练模型都可能无法很好地反映目标集在学习到的公共表示中的成对相关性。但即便如此,MASLN的检索精度仍然优于其他几种方法。

尚存的几点问题:

  1. 该框架的主要数据对象是带标签的数据,因此在有监督学习上的性能较好,但不适用于无监督学习;
  2. 从不可扩展检索的实验结果来看,虽然MASLN的检索精度高于文章提到的7种方法,但据我所知还有远高于这个精度值的方法,有的已经达到了80%-90%的精确度。但由于文章中给出的框架结构太简略,没有提供具体的细节,因此无法分析具体的原因。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于对抗的媒体检索Cross-modal retrieval aims to enable flexible retrieval experience across different modalities (e.g., texts vs. images). The core of crossmodal retrieval research is to learn a common subspace where the items of different modalities can be directly compared to each other. In this paper, we present a novel Adversarial Cross-Modal Retrieval (ACMR) method, which seeks an effective common subspace based on adversarial learning. Adversarial learning is implemented as an interplay between two processes. The first process, a feature projector, tries to generate a modality-invariant representation in the common subspace and to confuse the other process, modality classifier, which tries to discriminate between different modalities based on the generated representation. We further impose triplet constraints on the feature projector in order to minimize the gap among the representations of all items from different modalities with same semantic labels, while maximizing the distances among semantically different images and texts. Through the joint exploitation of the above, the underlying cross-modal semantic structure of multimedia data is better preserved when this data is projected into the common subspace. Comprehensive experimental results on four widely used benchmark datasets show that the proposed ACMR method is superior in learning effective subspace representation and that it significantly outperforms the state-of-the-art cross-modal retrieval methods.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值