图像检索之图像视频检检索模型阅读

最新推荐文章于 2024-04-06 21:08:19 发布

Eric An

最新推荐文章于 2024-04-06 21:08:19 发布

阅读量1.6k

点赞数

分类专栏：热点:AGI ,OpenLLM,OpenAgent

本文链接：https://blog.csdn.net/yunxinan/article/details/104258536

版权

热点:AGI ,OpenLLM,OpenAgent 专栏收录该内容

208 篇文章 0 订阅

订阅专栏

	Image retrieval(图像检索)之图像视频检检索Cross-model-trtrieval模型阅读

Abstract
计算机视觉在研究发展的历程中受到自然语言的指导，按照人对客观事物的感知通常是直观
可以观察到图像中的图，通过计算机编解码为像。那么这种像是比较抽象的离散数据具备差
分特征，对于这种差分特征的数据域在部分区域内是连续一个信号，这样就可以更好的使用
CNN来先杀多模态（文本/图像/语音/视频）的跨模态检索技术。

Introduction
该技术我在从《Dual-Path Convolutional Image-Text Embedding with Instance Loss》
这篇论文初步了解到的，在研究过程中牛津大学大学开源一个学习数据集《The Oxford Buil
-dings Dataset》地址为：http://www.robots.ox.ac.uk/~vgg/data/oxbuildings/同时我们
阅读博客和材料也看到郑哲东博士博客中https://github.com/layumi/2016_person_re-ID开源
项目。
第一、在深度学习我们发现比较成熟的应用有人脸比对算法部分、目标追踪里面的同一人相
似度计算，商品检索、CTR推荐预测、草图检索（先mask后检索）；第二是传统的match计算问题，
经典的算法是余弦相似度。第三是通过局部特征提取技术的CNN方法对featuremap进行vlad和fv的
编码检索，该技术的成果在CBIR（Content Based Image Retrieval）、Instance retrieval里面
表现。

Relatedworks
由于图片和视频之间数据分布不同，并且语义信息不一致，这必然导致传统的单模态检索方式
不适用于跨模态检索任务。如何挖掘数据内在的联系、如何建立多模态信息特征的统一映射、
如何保证检索速度都是跨模态检索面临的巨大的挑战。
在跨模态检索任务中，对图片的特征提取工作已经趋于成熟，基于深度模型的方法已经在大量分类
任务中验证具有较好的效果。不同于图片特征提取，由于视频复杂的内容和结构特征，视频特征提
取的研究工作在不断探索中。传统的检索方式可以将视频中每一帧进行信息抽取并表达，则图片到
视频的检索工作可以看作图片到视频帧的检索工作。但传统方式对视频的表达必然会导致视频表达
中存在与主要信息内容无关的冗余背景片段，为后续检索工作造成一定的困难。
为了解决上述问题，基于时序信息的深度网络被大量研究。通过同时从时间和空间维度学习特征，
循环神经网络（RNN）和3D卷积网络（3D CNN）被广泛利用在视频领域。作为3D CNN模型的扩展，
R-C3D模型被应用于连续视频的行为检测任务。R-C3D模型首先通过一个C3D模型提取特征，再利用
区域候选网络（RPN）提取候选的活动序列段，最后在分类子网络中进行分类和活动序列段边界的
回归。
针对本任务的需求，我们创新性地采用R-C3D模型来生成候选的活动区域段特征，进一步滤除嘈杂
的背景信息片段，从而获得优越的视频活动区域段表示方法来进行跨模态检索任务。

APIVR：基于对抗学习的跨模态检索方法
本文主要针对基于图片查询的视频检索任务，提出一个基于对抗学习方式的跨模态检索方法——
APIVR方法。
首先，对于视频数据的表示方法，我们新颖地利用行为分类模型R-C3D来提取出基于时序的活动
区域段（proposal-based）特征，并将视频以活动信息包的形式表达。
然后，针对图片到视频包的检索任务，我们创新性地将基于图的多示例学习模块（Graph Multi
-Instance Learning）整合到跨模态检索框架中，用以解决检索过程中视频信息包中存在的信
息冗余问题。
本文提出的跨模态检索框架是基于对抗学习的方式，其中图片和视频包首先分别通过一个三层
全连接网络映射到统一的特征空间中，再由基于几何投影(Geometry-aware)的三元组损失函数、
语义分类损失函数、对抗损失函数共同调整特征的学习，优化映射空间中图片和视频之间的模
态差异。模型整体的框架
acknowledge
https://github.com/liuguiyangnwpu/MassImageRetrieval
https://github.com/willard-yuan/CNN-for-Image-Retrieval
镜头边界检测：http://www.docin.com/p-240579569.html
SIFT：http://baike.baidu.com/item/SIFT
Fisher Vectors：http://blog.csdn.net/ikerpeng/article/details/41644197
Bloom Filters：http://blog.csdn.net/jiaomeng/article/details/1495500
VLFEAT：http://www.vlfeat.org/
YAEL：http://yael.gforge.inria.fr/
Opencv：http://baike.baidu.com/item/opencv
ffmpeg：http://baike.baidu.com/item/ffmpeg
https://github.com/andrefaraujo/videosearch
https://github.com/bcmi/Cross-modal-retrieval

参考文献：
2015年：《Deep Learning of Binary Hash Codes for Fast Image Retrieval》
2016年：《Bags of Local Convolutional Features for Scalable Instance Search》
2016年：《Large-Scale Image Retrieval with Attentive Deep Local Features》
2017年：《Saliency Weighted Convolutional Features for Instance Search》
2020年：《A Proposal-based Approach for Activity Image-to-Video Retrieval》

Eric An

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
图像检索之图像视频检检索模型阅读

Image retrieval(图像检索)之图像视频检检索Cross-model-trtrieval模型阅读Abstract计算机视觉在研究发展的历程中受到自然语言的指导，按照人对客观事物的感知通常是直观可以观察到图像中的图，通过计算机编解码为像。那么这种像是比较抽象的离散数据具备差分特征，对于这种差分特征的数据域在部分区域内是连续一个信号，这样就可以更好的使用CNN来先杀多模态（文...
复制链接

扫一扫