paper览胜
文章平均质量分 89
文献阅读笔记
Gεorge
生信、计算机待精通
展开
-
Video retrieval--X-pool: Cross-Modal Language-Video Attention for Text-Video Retrieval(论文笔记)
基本信息title:X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrievalsource:CVPR2022field:video retrieval一句话亮点用文本Query对视频K,V的attention定位具体片段Motivation视频承载的信息远多于文本,一句文本query往往只表达了一个视频的部分帧的部分区域信息,因此,同一个视频可以对应多个query。之前的研究大多是将视频看作一个整体,使用m原创 2022-05-19 17:12:41 · 1194 阅读 · 2 评论 -
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(I3D)(论文笔记)
来源:CVPR2017一句话概括:提出膨胀3D卷积(I3D)用于提取视频时空维度特征并进行动作识别; 构建Kinetics人类动作视频数据集动作识别框架视频模型框架分为两类:2D和3D。2D模型需要考虑信息如何在不同帧之间传播,这一过程可以通过时间维度的循环网络如LSTM或特征聚合来实现。本文比较了比较了几类视频模型框架,并提出了双流膨胀3D卷积模型。2D模型可以用到基于图片的预训练模型(如ImageNet)而不用从头训练,3D模型则不方便实现,需要从头训练。双流膨胀3D卷积在这一结构下,3D原创 2022-01-13 18:58:26 · 131 阅读 · 0 评论 -
Align and Prompt: Video-and-Language Pre-training with Entity Prompts(论文笔记)
一句话概括:基于alignment和prompt的视频文本预训练模型摘要翻译视频和语言预训练展示了其在多种下游任务上的可靠的提高。大多数以前的方法通过一个标准的基于transformer的多模态编码器来获取跨模态交互,不能完全解决视频和文本特征错误对齐的问题。此外,学习细粒度的视觉语言对齐通常要求用现有目标检测器来提供目标信息,而这一过程由于目标检测器有限的词汇表和高昂的算力要求而成为系统的瓶颈。在这篇文章中,我们提出*对齐和提示:一种新的视频和语言预训练框架(ALPRO)*,通过在稀疏采样的视频帧上原创 2022-01-13 11:11:57 · 113 阅读 · 1 评论 -
ViViT: A Video Vision Transformer(论文笔记)
摘要我们提出了单纯基于transformer的视频分类模型,借鉴了此类模型在图像分类方面的最新成功。我们的模型从输入视频中提取时空标记,然后用一系列transformer层进行编码。为了处理视频中遇到的长序列标记,我们提出了几个有效的模型变量,这些变量分解了输入的空间和时间维度。虽然已知基于transformer的模型只有在有大量训练数据集的情况下才有效,但我们展示了如何在训练过程中有效地调整模型,并利用预训练图像模型来训练相对较小的数据集。我们进行了全面的消融研究,并在多个视频分类基准上取得了最先进的结原创 2021-12-05 14:51:39 · 507 阅读 · 1 评论 -
TSM: Temporal Shift Module for Efficient Video Understanding(论文笔记)
摘要视频流的爆炸式增长给视频理解的高准确性和低计算成本带来了挑战。传统的2D CNN在计算上很便宜,但不能捕捉时间关系;基于3D CNN的方法可以获得良好的性能,但计算量大,部署成本高。在本文中,我们提出了一种兼具高效率和高性能的时态移位模块(TSM)。具体来说,它既能达到3D CNN的性能,又能保持2D CNN的计算复杂性。TSM沿着时间维度移动部分channel,从而方便相邻帧之间的信息交换。其可以插入2D CNN中,实现零计算、零参数的时间建模。我们还将TSM扩展到在线设置,实现实时低延迟在线视频识原创 2021-12-01 15:58:01 · 149 阅读 · 1 评论 -
Temporal Relational Reasoning in Videos(论文笔记)
文章目录简介原文链接: link简介TRN方法旨在学习和推理视频帧之间在多尺度上的时间段(temporal)独立性,进而理解视频时间片段之间的关系,最终得到理解视频语义的目的。动作识别是计算机视觉领域核心课题之一,视频片段间的关系对于动作识别至关重要。动作识别的难点在于选择合适的时间尺度来描述动作,而此前许多技术都是使用静态帧和光流法等来实现动作识别。TRN是一个即插即用型的模块,可以用于任何CNN网络,作者构建基于TRN的模型,在三个动作识别数据集(Something-Something, Jes原创 2021-10-31 14:59:19 · 71 阅读 · 0 评论 -
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(论文笔记)
文章目录摘要方法介绍TSN-时间分割网络:模型学习摘要深度卷积网络在静态图像的视觉识别方面取得了巨大的成功。然而,对于视频中的动作识别,该方法相对于传统方法的优势并不明显。本文旨在探索视频中动作识别的有效卷积神经网络结构的设计原则,并在有限的训练样本下学习这些模型。我们的第一个贡献是时间分割网络(TSN),一种基于视频的动作识别的新框架,基于长程时间结构建模的思想。它结合了稀疏时间采样策略和视频级监督,使整个动作视频能够高效学习。另一个贡献是我们研究了在时间分割网络的帮助下学习视频数据卷积网络的一系列良原创 2021-10-16 16:04:43 · 88 阅读 · 1 评论 -
VideoBERT: A Joint Model for Video and Language Representation Learning(论文笔记)
文章目录摘要原文链接:https://openaccess.thecvf.com/content_ICCV_2019/html/Sun_VideoBERT_A_Joint_Model_for_Video_and_Language_Representation_Learning_ICCV_2019_paper.html摘要为利用YouTube等平台上可获得的海量未标注数据,自监督学习的重要性日益显现。现有的大多数方法旨在学习低层次表示,而我们提出了一个不依赖任何显式监督的,用于学习高层次表示的视觉-语原创 2021-10-10 21:49:36 · 115 阅读 · 1 评论