《Cross-Modal Retrieval With CNN Visual Features: A New Baseline》(2017 IEEE)
研究背景与动机
在此之前,基于深度模型的跨模态检索方法中,大多数都用传统的视觉特征(如BoVW)来作为网络的输入,从而进行跨模态检索。目前还没有研究CNN视觉特征对跨模态检索的影响 ,而那些传统的特征提取技术限制了图像识别的性能。于是,作者在这篇文章中提出了深度语义匹配方法(简称deep-SM)。这个方法是基于之前被提出的SM方法改进的。SM方法是通过学习浅层的线性分类器,来对图像特征进行分类;而deep-SM是学习由多个非线性转换器构成的深度神经网络。
方法
对在ImageNet上经过预训练的CNN进行微调。微调之后将最后一个全连接层fc-8的维数设置为目标数据集的类别数量,再用来提取图像特征;另外,用传统的文本提取模型(如BoW)和一个三层的全连接网络来提取文本特征。最后,利用这两种网络结构,将图像和文本投影到一个高度抽象的同构语义空间中来进行距离度量,从而实现跨模态检索。
实验
数据集:一共五个数据集,三个单标签数据集,两个多标签数据集。
结果分析
1.以Wikipedia数据集为例:先看visual features这一栏:与传统的BoVW特征相比,现成的CNN特征有了很大的改进(fc-6、fc-7),且经过微调后会进一步提高检索性能(FT-fc6、FT-fc7);
2.基于CNN的视觉特征,SM的整体性能优于CCA和T-V CCA;
3.在前3个单标签数据集上,SM的检索精度都略高于deep-SM。主要原因可能是logistic回归生成的文本语义特征表示优于TextNet;
4.表四中列举了几种最新方法在该数据集上的检索性能。可以看出SM+fc7结合起来使用,检索精度可以达到40.0%,比最先进的方法高出7%。