跨模态图文检索:浅谈deep-SM

《Cross-Modal Retrieval With CNN Visual Features: A New Baseline》(2017 IEEE)

研究背景与动机

在此之前,基于深度模型的跨模态检索方法中,大多数都用传统的视觉特征(如BoVW)来作为网络的输入,从而进行跨模态检索。目前还没有研究CNN视觉特征对跨模态检索的影响 ,而那些传统的特征提取技术限制了图像识别的性能。于是,作者在这篇文章中提出了深度语义匹配方法(简称deep-SM)。这个方法是基于之前被提出的SM方法改进的。SM方法是通过学习浅层的线性分类器,来对图像特征进行分类;而deep-SM是学习由多个非线性转换器构成的深度神经网络。

方法

对在ImageNet上经过预训练的CNN进行微调。微调之后将最后一个全连接层fc-8的维数设置为目标数据集的类别数量,再用来提取图像特征;另外,用传统的文本提取模型(如BoW)和一个三层的全连接网络来提取文本特征。最后,利用这两种网络结构,将图像和文本投影到一个高度抽象的同构语义空间中来进行距离度量,从而实现跨模态检索。

实验

数据集:一共五个数据集,三个单标签数据集,两个多标签数据集。




结果分析

1.以Wikipedia数据集为例:先看visual features这一栏:与传统的BoVW特征相比,现成的CNN特征有了很大的改进(fc-6、fc-7),且经过微调后会进一步提高检索性能(FT-fc6、FT-fc7);
2.基于CNN的视觉特征,SM的整体性能优于CCA和T-V CCA;
3.在前3个单标签数据集上,SM的检索精度都略高于deep-SM。主要原因可能是logistic回归生成的文本语义特征表示优于TextNet;
4.表四中列举了几种最新方法在该数据集上的检索性能。可以看出SM+fc7结合起来使用,检索精度可以达到40.0%,比最先进的方法高出7%。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值