图像检索之图像视频检检索模型阅读

	Image retrieval(图像检索)之图像视频检检索Cross-model-trtrieval模型阅读

Abstract
计算机视觉在研究发展的历程中受到自然语言的指导,按照人对客观事物的感知通常是直观
可以观察到图像中的图,通过计算机编解码为像。那么这种像是比较抽象的离散数据具备差
分特征,对于这种差分特征的数据域在部分区域内是连续一个信号,这样就可以更好的使用
CNN来先杀多模态(文本/图像/语音/视频)的跨模态检索技术。

Introduction
该技术我在从《Dual-Path Convolutional Image-Text Embedding with Instance Loss》
这篇论文初步了解到的,在研究过程中牛津大学大学开源一个学习数据集《The Oxford Buil
-dings Dataset》地址为:http://www.robots.ox.ac.uk/~vgg/data/oxbuildings/同时我们
阅读博客和材料也看到郑哲东博士博客中https://github.com/layumi/2016_person_re-ID开源
项目。
第一、在深度学习我们发现比较成熟的应用有人脸比对算法部分、目标追踪里面的同一人相
似度计算,商品检索、CTR推荐预测、草图检索(先mask后检索);第二是传统的match计算问题,
经典的算法是余弦相似度。第三是通过局部特征提取技术的CNN方法对featuremap进行vlad和fv的
编码检索,该技术的成果在CBIR(Content Based Image Retrieval)、Instance retrieval里面
表现。

Relatedworks
由于图片和视频之间数据分布不同,并且语义信息不一致,这必然导致传统的单模态检索方式
不适用于跨模态检索任务。如何挖掘数据内在的联系、如何建立多模态信息特征的统一映射、
如何保证检索速度都是跨模态检索面临的巨大的挑战。
在跨模态检索任务中,对图片的特征提取工作已经趋于成熟,基于深度模型的方法已经在大量分类
任务中验证具有较好的效果。不同于图片特征提取,由于视频复杂的内容和结构特征,视频特征提
取的研究工作在不断探索中。传统的检索方式可以将视频中每一帧进行信息抽取并表达,则图片到
视频的检索工作可以看作图片到视频帧的检索工作。但传统方式对视频的表达必然会导致视频表达
中存在与主要信息内容无关的冗余背景片段,为后续检索工作造成一定的困难。
为了解决上述问题,基于时序信息的深度网络被大量研究。通过同时从时间和空间维度学习特征,
循环神经网络(RNN)和3D卷积网络(3D CNN)被广泛利用在视频领域。作为3D CNN模型的扩展,
R-C3D模型被应用于连续视频的行为检测任务。R-C3D模型首先通过一个C3D模型提取特征,再利用
区域候选网络(RPN)提取候选的活动序列段,最后在分类子网络中进行分类和活动序列段边界的
回归。
针对本任务的需求,我们创新性地采用R-C3D模型来生成候选的活动区域段特征,进一步滤除嘈杂
的背景信息片段,从而获得优越的视频活动区域段表示方法来进行跨模态检索任务。

APIVR:基于对抗学习的跨模态检索方法
本文主要针对基于图片查询的视频检索任务,提出一个基于对抗学习方式的跨模态检索方法——
APIVR方法。
首先,对于视频数据的表示方法,我们新颖地利用行为分类模型R-C3D来提取出基于时序的活动
区域段(proposal-based)特征,并将视频以活动信息包的形式表达。
然后,针对图片到视频包的检索任务,我们创新性地将基于图的多示例学习模块(Graph Multi
-Instance Learning)整合到跨模态检索框架中,用以解决检索过程中视频信息包中存在的信
息冗余问题。
本文提出的跨模态检索框架是基于对抗学习的方式,其中图片和视频包首先分别通过一个三层
全连接网络映射到统一的特征空间中,再由基于几何投影(Geometry-aware)的三元组损失函数、
语义分类损失函数、对抗损失函数共同调整特征的学习,优化映射空间中图片和视频之间的模
态差异。模型整体的框架
acknowledge
https://github.com/liuguiyangnwpu/MassImageRetrieval
https://github.com/willard-yuan/CNN-for-Image-Retrieval
镜头边界检测:http://www.docin.com/p-240579569.html
SIFT:http://baike.baidu.com/item/SIFT
Fisher Vectors:http://blog.csdn.net/ikerpeng/article/details/41644197
Bloom Filters:http://blog.csdn.net/jiaomeng/article/details/1495500
VLFEAT:http://www.vlfeat.org/
YAEL:http://yael.gforge.inria.fr/
Opencv:http://baike.baidu.com/item/opencv
ffmpeg:http://baike.baidu.com/item/ffmpeg
https://github.com/andrefaraujo/videosearch
https://github.com/bcmi/Cross-modal-retrieval

参考文献:
2015年:《Deep Learning of Binary Hash Codes for Fast Image Retrieval》
2016年:《Bags of Local Convolutional Features for Scalable Instance Search》
2016年:《Large-Scale Image Retrieval with Attentive Deep Local Features》
2017年:《Saliency Weighted Convolutional Features for Instance Search》
2020年:《A Proposal-based Approach for Activity Image-to-Video Retrieval》

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值