A Differentiable Semantic Metric Approximation in Probabilistic Embedding for Cross-Modal Retrieval 用于跨模态检索的概率嵌入中的可变语义度量近似方法
摘要
跨模态检索旨在通过学习一个公共的表示空间来建立多个模态之间的对应关系。通常,图像可以在语义上匹配多个文本,反之亦然,这大大增加了这项任务的难度。为了解决这个问题,提出了概率嵌入来量化多对多关系。然而现有的数据集(例如MS-COCO)和度量(例如。,recall@k)由于非详尽的注释,不能完全表示这些多样性对应关系。基于这一观察结果,我们利用CIDEr计算的语义相关性来寻找潜在的对应关系。然后,我们提出了一个有效的度量标准,称为平均语义精度(ASP),它可以衡量检索集语义相关性的排序精度。此外,我们还介绍了一个新颖简洁的目标,即可微ASP近似(DAA)。具体来说,DAA可以通过S型函数使ASP的链接函数可微,从而直接优化ASP。为了验证我们的方法的有效性,对跨模态检索中常用的MS-COCO、CUB字幕和Flickr30K进行了广泛的实验。结果表明,我们的方法在所有指标上都优于最先进的方法。
介绍
然而,大多数先前的工作[21、39、12、43、10、37、54]都使用投影函数将样本映射为确定性嵌入,这并不能完全考虑到现有数据集(如 MS-COCO)中潜在的多对多关系,且注释并不详尽。具体来说,如图 1 (c ) 第二行所示,在查询标题为 "一个男人用刀切蛋糕 "的情况下,只有一张有注释的图像(第一张图像)被认为是正面的,而其他一些图像在语义层面上也是正确的。为了解决这个问题,Chun 等人[7] 引入了用于跨模态检索的概率嵌入技术,通过将样本按照分布转换成不同的表示形式,从而有力地表示了多对多的关系。
虽然概率模型可以成功捕捉潜在的多对多关系,但概率嵌入的多样性在很大程度上取决于匹配良好的数据集,而人工标注数据集的成本很高。此外,用于跨模态检索任务的常用数据集存在注释不详尽的问题,会遗漏几个正对。这些缺失的阳性配对(MPPs)极大地限制了训练和评估过程中所表达的多重性。为了挖掘这些MPPs,我们提出了一种基于语义的多对多对应挖掘策略,通过语义相似性来表示图像和标题之间的相关性。具体来说,我们使用语义度量 CIDEr [45] 来计算图像和标题之间的语义相似性,即所有 CIDEr 得分大于阈值的图像-文本对都被视为阳性。然后,我们发现 CIDEr 得分大于 0.3 的标题通常能正确描述图像(见图 1 (a))。为了了解常用数据集中 MPP 的数据规模,我们在图 1 (b) 中测量了 MS-COCO 5K 测试集中不同 CIDEr 阈值的潜在阳性数量。可以看到,有 128,050 个图像-文本对的 CIDEr 分数大于 0.3,这意味着每幅图像在语义上同样匹配 25.61 个标题(仅有 5 个注释标题)。这些结果有力地证明了大量潜在的阳性结果被错误地视为阴性结果,严重阻碍了训练和评估过程的多样性。
然而,大多数优化方法[12, 15, 13, 47]和度量标准都围绕着准确预测基本事实中的阳性结果,而忽略了其他检索项与查询之间的相关性。如图 1 ©所示,尽管根据 AP 或 Recall@K 等只关注真值的指标,它们获得了相同的分数,但底部的检索集比上面的检索集更符合我们的期望。这说明基于真值的指标很难完全代表跨模态检索的多重性。为了解决这些问题,我们开展了以下工作。在这项工作中,我们给出了一种解决方案,以缓解 MPP 在训练过程中对概率表示的多重性的阻碍。首先,为了对非真值相关项目进行评估,我们提出了一个新的评估指标,名为平均语义精确度(ASP)。ASP 计算预测排名与语义排名之间的平均偏差。它表示每个检索项的语义排序精度。我们利用 CIDEr 作为判断标题语义相关性的标准。其次,我们提出了一种简洁而新颖的可微分 ASP 近似(DAA)方法,该方法通过将非可微分 ASP 中的离散排序函数放宽为 sigmoid 函数来直接优化 ASP。最终,我们的方法在多个多重性指标上实现了最先进的性能。

图 1:(a) 图像及其五个真值标题的示例。CIDEr 列表给出了 10 个标题,其后的括号中标有它们的 CIDEr 分数,并将真值标记为绿色,这些分数是根据左侧显示的所有真值计算得出的。CIDEr 分数大于 0.3 的标题几乎可以正确描述图像(CIDEr 列表中的最后三个标题)。(b) 超过 CIDEr 临界值的图像-文本对数量。除了真值之外,还有大量具有高度语义对应性的图像-文本对。潜在正对的数量约为已注释正对数量的 4 倍,而 CIDEr 分数大于 0.3。© 两种方法预测的两个检索集的前 100 个条目。每张图片下方是 CIDEr 计算的语义相似度。通过 AP 或 Recall@K 方法,两个检索集获得了相同的分数(只有第一个检索项是真值)。不过,与第一个检索集相比,使用 DAA 模型预测的第二个检索集与文本查询的语义关联度更高。这表明,CIDEr 计算出的相似度与文本查询和图像之间的真实语义相似度基本一致。
本文的主要贡献和新颖之处可总结如下。 i) 我们在最广泛使用的数据集 MS-COCO 上统计了具有强语义相关性的图像-文本对的数量。结果表明,MPP 注释不完整是限制概率嵌入的多对多映射的关键因素。因此,我们提出了一种名为 ASP 的有效评价指标来代替现有的指标,因为现有指标无法反映每个检索项与查询之间的相关性。 ii) 为了消除 MPPs 在训练过程中的不利影响,我们提出了一种新颖简洁的指标学习方法 DAA,它可以直接逼近并优化 ASP。
相关工作
跨模态检索需要一种协调的表示方法[3],以计算查询与不同模态检索项之间的相似性。早期的研究[15]采用典型相关分析(CCA)来学习线性投影函数,最大限度地提高正图像和文本之间的对应性。Faghri 等人[12]首次使用了三重损失(triplet loss),只对最难匹配的负片进行采样,以提高匹配性能。然而,这些方法的缺点之一是忽略了在细粒度级别捕捉两种模式之间的对应关系。之前的一些研究[23, 24, 10]捕捉了视觉区域和单词之间细粒度的局部语义匹配。SCAN [23] 提出通过在视觉基因组 [22] 上预先训练的对象检测器来学习提取区域特征。VSRN [24] 采用图神经网络对 Faster-RCNN [36] 检测器生成的区域建议进行语义推理。在计算费用大幅增加的情况下,它的性能得到了显著提高。SGRAF [10] 通过构建相似性图来识别复杂的匹配模式,并采用相似性注意力过滤模块来消除无意义排列的干扰。然而,上述方法忽略了非详尽注释数据集中潜在的多对多对应关系。Parekh 等人[32]构建了一个扩展的 MS-COCO 数据集,即 CrissCrossed Caption(CxC)数据集,该数据集提供了更密集的注释,可以挖掘出更多无关联图像和标题之间潜在的正相关关系。最近,Chun 等人[7] 在跨模态检索中使用了概率嵌入技术,以获得图像和标题之间的多对多配准。在计算多重性得分时,采用了基于类别相似性的 R-Precision 过渡,将可信匹配纳入其中。此外,一些研究[59, 42]探索了现实分布,使概率模型能更准确地表达多对多的关系。尽管在捕捉潜在对应关系方面已经取得了一些进展[32, 41, 7],但多对多关系仍然严重阻碍了跨模态模型的多对多关系性能。为了解决这个问题,我们采用语义度量来表示图像和标题之间的语义相关性,从而挖掘潜在的正对关系,评估跨模态模型的多重性。
度量学习:度量学习将输入数据映射到嵌入空间中,以便于应用距离度量。大量工作[2, 1, 48, 44, 40, 6, 49]都集中在度量学习上。例如,对比[6]损失和三重[49]损失是应用最广泛的两种方法。前者迫使所有正向实例靠得更近,而负向实例对之间仅有固定的距离。在后者中,正例比负例更接近。虽然已经取得了令人瞩目的成就,但只将距离最小化的动机是有限的。上述方法忽略了排名顺序,而排名顺序对于平均精度 (AP) 等基于排名的指标至关重要。Brown 等人[5]提出了一种可微分的 AP 近似损失,可以在图像检索中直接优化 AP。与三重损失相比,它在基于排名的 AP 指标方面表现更好。在优化 AP 方面已经取得了令人瞩目的进展 [44, 40, 11, 18, 17, 33, 38],但 AP 是一个有限的指标,它只关注真值。在我们的工作中,我们提出了一种基于排序的指标 ASP,以利用潜在的语义信息。此外,我们还提出了一种可微分 ASP 近似(DAA)来直接优化 ASP。据我们所知,DAA 是第一个将直接度量优化用于跨模态检索的工作。

图 2:表示多重性的概率嵌入示例。对于每个正对(如图像 A 和文本 A),它将通过概率编码器生成两个分布。对于来自图像 A 的分布(在共享空间中标为红色),分布内的标题(如文本 B 和 C)都与图像 A 匹配;同样,图像 B 和 C 也能与文本 A 匹配。两个分布(在共享空间中标为紫色)交汇处的图像和文本将相互匹配(如图像 B 和文本 B),而外侧则不匹配。
概率嵌入。Chun 等人[7]曾尝试用概率跨模态嵌入(PCME)来解决跨模态相关性的多重性问题。PCME 将每个样本建模为正态分布(见图 2),可以用均值和方差共同描述。因此,生成概率嵌入的关键在于确定均值嵌入和方差矩阵。
方法
在本节中,我们将详细介绍所提出的方法。在第 4.1 节中,我们首先描述了我们的新评价指标,即平均语义精确度(ASP),它可以轻松而精确地计算检索集的语义相关性得分,即使在嘈杂的数据集中也是如此。在第 4.2 节中,我们将详细介绍如何通过使用可微分 ASP 近似法(DAA)在概率嵌入中直接优化 ASP。
平均语义精确度(ASP)
现有的用于不完全对齐数据集的多样性度量[7, 32]很难完全代表受不完全相关标签限制的检索集的语义排序精确度,例如 PMRP [7] 或 CxC [32]。前者将 MS-COCO[27] 中类标签差值小于 2 的样本视为阳性,但会产生大量假匹配。后者对 MS-COCO 的测试集进行人工标注,但仍会漏掉很多潜在的阳性配对。同时,这两种方法都只适用于 MS-COCO,即不具有普遍性。为了解决这些问题,我们提出了平均语义精确度(ASP)。给定查询集 Ψ = {Qi,i = 0,…,n},查询 q∈ Ψ 只需计算检索集 Ω = {Gi,i = 0,…,m}在各种图像-文本检索数据集中的语义相关性得分即可。数学上

可微分 ASP 近似法(DAA)
对比损失法[6] 和三重损失法[49] 是两种广泛使用的度量学习方法,它们的驱动力都是最小化距离。这两种方法都忽略了排序顺序,而排序顺序对于基于排序的度量非常重要。因此,这些方法将间接优化基于排序的度量。ASP 是一种基于排序的度量,既不可微,也不可解。因此,我们提出了可微分 ASP 近似(DAA)来直接优化 ASP。考虑到基于排序的度量 ASP,它之所以不可微,是因为式 8 中定义的对实例 i 的排序函数 R 的导数要么梯度为零,要么不连续[34],导致无法用基于梯度的方法进行优化。

实验
在本节中,我们将进行实验来验证 DAA 的有效性,因为 DAA 可以直接优化 ASP。我们将介绍评估协议,包括数据集和度量标准以及实现细节。然后,我们报告在 MS-COCO [27]、CUB Captions [7] 和 Flickr30K [52] 上进行跨模态检索任务的实验结果。之后,我们进行了一系列消融研究,以验证 DAA 在提高多重性方面的有效性。同时,我们将对 DAA 的有效性进行实验分析。
评估方案
数据集:我们在 MS-COCO [27] 和 CUB Captions [7] 上进行实验,以展示使用 DAA 的概率嵌入在跨模态检索中的性能。虽然我们的方法是为了提高概率模型的多重性而提出的,但所提出的模型似乎可以集成到任何跨模态检索方法中。因此,我们还在 MS-COCO 和 Flickr30K 的非概率嵌入中使用了 DAA [52],以探索我们方法的通用性。
CUB Captions [7,35,46]是一个基准,旨在减少错误匹配对MS-COCO中概率嵌入的影响。它包含200个细粒度鸟类类别的11788张图像,每张图像有10个字幕。属于同一类的所有图像-文本对都被认为是正对,因此假阴性很少存在。同时,同一类中图像-文本对的同质性可以极大地抑制误报。我们遵循[50]中的类划分,其中包括150个用于训练和验证的类,其余50个用于测试
指标
我们在两个基准测试中都采用了跨模态检索中广泛使用的指标–Recall@K(R@K)。我们报告了 R@1、R@5 和 R@10 的综合评估结果。然而,R@K 只关注根据真值第一个相关项的位置,反映了有限的信息。
R-Precision(R-P)是由 Musgraveet 等人提出的另一种方法[30]。对于每个查询,R-P 计算的是匹配项在最高检索项中的比率,即真值匹配项的数量。简而言之,对于所有匹配项,之前的负项越少,R-P 分数越高。与 R@K 相比,R-P 可以更好地评估跨模态检索中的一对多匹配。与 MS-COCO 一样,我们也采用了 Plausible Match R-Precision(PMRP)[7] 指标作为衡量标准,它利用 MS-COCO 的类标签找出所有隐藏的正向图像-文本对。具体来说,PMRP 将二进制标签向量yv,yt∈{0,1}dlabel 最多相差ζ个位置(ζ∈{0,1,2})的图像-文本对(v,t)视为正匹配。 平均语义精度(ASP)是通过评估检索序列的语义相关性来反映模型多重性的指标。

在本节中,我们将把我们的方法与之前在两个数据集上使用 ResNet 作为视觉编码器的工作进行比较。比较方法包括 VSE0 [12]、VSE++ [12]、PVSE [41] 和 PCME [7]。此外,我们还在 PCME-bert [7]、SAF [10]、SGR [10] 和 SGRAF [10] 等 4 个典型的图像-文本检索基线上使用了我们的方法。PCME-bert 是 PCME 的一种,使用基本版本的 BERT 作为文本编码器。它在概率方法中达到了最先进的性能。对于非概率方法,我们选择了三种常用的基线,它们的性能令人印象深刻,包括 SAF、SGR 和 SGRAF 在 MS-COCO 上的结果。表 1 显示了 MS-COCO 1K 和 5K 测试集中图像到文本 (i2t) 和文本到图像 (t2i) 检索的定量结果。我们发现,我们的方法在每个基线的所有指标上都取得了一致的性能改进。在 PCME-bert 的训练过程中采用了 DAA,从而显著提高了 R@1、PMRP 和 ASP 的性能。至于 MS-COCO (1K),与 PCME 相比,我们在 i2t 和 t2i 中都实现了 PMRP、R@1 和 ASP 的绝对提升,分别为 0.9%、2.4%、3.7% 和 0.7%、3.2%、1.9%。至于 MS-COCO(5K),与 PCME 相比,对 PMRP、R@1 和 ASP 的提升分别为 0.5%、4.0%、3.8% 和 0.5%、3.2%、2.0%。此外,在非概率方法中,使用 DAA 的 SGRAF 在 MS-COCO 1K (5K) 文本和图像检索中的 R@1 分别为 80.2% (60.0%) 和 65.0% (43.5%),达到了最先进的性能。同时,PMRP 和 ASP 的显著提高意味着 SGRAF 甚至比概率模型获得了更高的多重性性能。上述结果表明,DAA 可以有效提高各种跨模态模型的多个指标得分,这表明语义学对于提高跨模态检索中模型的性能非常有用。
CUB Captions 上的结果:为了证明所提议的方法对概率模型的稳健性,我们对所提议的 CUB Captions 进行了实验,以评估概率模型的多重性。特别是在图像到文本检索方面,使用 DAA 的 PCME-bert 在 R-P、R@1 和 ASP 上超过了之前的最佳方法,分别提高了 1.9%、6.3% 和 0.3%。此外,在文本到图片的检索中,使用 DAA 的模型也明显优于最佳模型(R-P 为 1.7%,R@1 为 2.5%,ASP 为 0.8%)。

Flickr30K 上的结果:为了进一步证明 DAA 对非概率模型的鲁棒性,我们在 Flickr30K 上使用了用提出方法 DAA 训练的 SAF、SGR 和 SGRAF。结果如表 3 所示。我们可以看到,DAA 仍然提高了所有模型在 R@1 和 ASP 上的性能。此外,使用 DAA 训练的 SGRAF 在 i2t 上的 R@1 性能提高了 0.9%,ASP 性能提高了 16.4%,在 t2i 上的 R@1 性能提高了 1.4%,ASP 性能提高了 8.6%,达到了最先进的性能。上述结果证明,DAA 在提高跨模态模型性能方面具有很强的普适性,并证明了在跨模态检索中利用语义信息的有效性和重要性。

在本节中,我们对 MS-COCO 5K 进行了多项消融研究,以探索 DAA 在概率模型上优于只关注真值的优化方法(如 Smooth-AP [5])。为了探索 DAA 和 Smooth-AP 的效果,我们测试了使用这两种方法对多个指标的影响。结果如表 4 所示。首先,我们将 PCME-bert 作为基线进行评估,样本数为 5。 随后,我们使用 Smooth-AP 对模型进行训练,发现 PMRP、R@1 和 ASP 仅有少量改进。最后,我们在基线的基础上采用 DAA,结果发现所有指标都有显著提高,尤其是 R@1(i2t 为 2.6%,t2i 为 1.9%)和 ASP(i2t 为 4.1%,t2i 为 2.8%)。ASP 的显著提高表明,DAA 将检索到的相关性高的项目整体前移。这些结果说明,挖掘语义相关性不仅能提高概率模型的多重性,还能改进传统的基于真值的指标,如 R@K。图 1(c)显示了检索结果前 100 名的可视化情况。表 4 中的结果证明,DAA 可以提高整个检索集的语义相似性,而检索集可以被视为具有较大 CIDEr 分数方差的检索集。为了验证 DAA 对不同 CIDEr 分数方差的子集的效果,我们根据 CIDEr 分数从高到低对检索集进行排序,并抽取前 N 个样本计算 ASP。我们在图 3 中画出了基准、DAA 和 Smooth-AP [5]中 ASP 的对比曲线,N 从 0 到整个检索集的长度。结果表明,DAA 可以提高任何检索集的多样性性能。同时,Smooth-AP 和基线的曲线几乎一致,这说明只关注真值对提高多样性是有限的。

为了明确不同方法在训练过程中对多重性的影响,我们在每个epoch测试了基线、Smooth-AP 和 DAA 的 ASP。结果如图 4 所示,图 4 提供了 ASP 与历时的对比定量分析。我们可以观察到,随着训练轮数的增加,使用 DAA 的训练策略的曲线不断增长。这充分验证了 DAA 能有效捕捉复杂的语义对应关系,并增强训练过程中的多重性。基线策略和平滑-AP 策略的 ASP 曲线几乎没有变化,而 R@K 则不断改善。这意味着,提高基本事实中项目的预测准确性可能不会提高多重性。所有这些消减研究都有力地证明,DAA 在提高多重性方面优于只关注真值的优化方法。

结论
本文试图解决用于跨模态检索的概率嵌入中的一个关键问题,即数据集不完全一致,现有的度量标准难以训练和评估模型的多重性性能。为了解决这个问题,我们引入了平均语义精确度(ASP)来评估这些非完全对齐数据集的多重性性能。此外,我们还提出了一种新颖的可微分 ASP 近似(DAA),即使在这些噪声数据集中进行训练,也能使模型多样化。我们证明了 DAA 在提高跨模态检索的概率嵌入多重性方面的有效性,其表现优于最先进的模型。

2万+

被折叠的 条评论
为什么被折叠?



