- 博客(15)
- 收藏
- 关注
原创 Video retrieval--X-pool: Cross-Modal Language-Video Attention for Text-Video Retrieval(论文笔记)
基本信息title:X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrievalsource:CVPR2022field:video retrieval一句话亮点用文本Query对视频K,V的attention定位具体片段Motivation视频承载的信息远多于文本,一句文本query往往只表达了一个视频的部分帧的部分区域信息,因此,同一个视频可以对应多个query。之前的研究大多是将视频看作一个整体,使用m
2022-05-19 17:12:41 1203 2
原创 Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(I3D)(论文笔记)
来源:CVPR2017一句话概括:提出膨胀3D卷积(I3D)用于提取视频时空维度特征并进行动作识别; 构建Kinetics人类动作视频数据集动作识别框架视频模型框架分为两类:2D和3D。2D模型需要考虑信息如何在不同帧之间传播,这一过程可以通过时间维度的循环网络如LSTM或特征聚合来实现。本文比较了比较了几类视频模型框架,并提出了双流膨胀3D卷积模型。2D模型可以用到基于图片的预训练模型(如ImageNet)而不用从头训练,3D模型则不方便实现,需要从头训练。双流膨胀3D卷积在这一结构下,3D
2022-01-13 18:58:26 141
原创 Align and Prompt: Video-and-Language Pre-training with Entity Prompts(论文笔记)
一句话概括:基于alignment和prompt的视频文本预训练模型摘要翻译视频和语言预训练展示了其在多种下游任务上的可靠的提高。大多数以前的方法通过一个标准的基于transformer的多模态编码器来获取跨模态交互,不能完全解决视频和文本特征错误对齐的问题。此外,学习细粒度的视觉语言对齐通常要求用现有目标检测器来提供目标信息,而这一过程由于目标检测器有限的词汇表和高昂的算力要求而成为系统的瓶颈。在这篇文章中,我们提出*对齐和提示:一种新的视频和语言预训练框架(ALPRO)*,通过在稀疏采样的视频帧上
2022-01-13 11:11:57 122 1
原创 ViViT: A Video Vision Transformer(论文笔记)
摘要我们提出了单纯基于transformer的视频分类模型,借鉴了此类模型在图像分类方面的最新成功。我们的模型从输入视频中提取时空标记,然后用一系列transformer层进行编码。为了处理视频中遇到的长序列标记,我们提出了几个有效的模型变量,这些变量分解了输入的空间和时间维度。虽然已知基于transformer的模型只有在有大量训练数据集的情况下才有效,但我们展示了如何在训练过程中有效地调整模型,并利用预训练图像模型来训练相对较小的数据集。我们进行了全面的消融研究,并在多个视频分类基准上取得了最先进的结
2021-12-05 14:51:39 538 1
原创 TSM: Temporal Shift Module for Efficient Video Understanding(论文笔记)
摘要视频流的爆炸式增长给视频理解的高准确性和低计算成本带来了挑战。传统的2D CNN在计算上很便宜,但不能捕捉时间关系;基于3D CNN的方法可以获得良好的性能,但计算量大,部署成本高。在本文中,我们提出了一种兼具高效率和高性能的时态移位模块(TSM)。具体来说,它既能达到3D CNN的性能,又能保持2D CNN的计算复杂性。TSM沿着时间维度移动部分channel,从而方便相邻帧之间的信息交换。其可以插入2D CNN中,实现零计算、零参数的时间建模。我们还将TSM扩展到在线设置,实现实时低延迟在线视频识
2021-12-01 15:58:01 160 1
原创 Temporal Relational Reasoning in Videos(论文笔记)
文章目录简介原文链接: link简介TRN方法旨在学习和推理视频帧之间在多尺度上的时间段(temporal)独立性,进而理解视频时间片段之间的关系,最终得到理解视频语义的目的。动作识别是计算机视觉领域核心课题之一,视频片段间的关系对于动作识别至关重要。动作识别的难点在于选择合适的时间尺度来描述动作,而此前许多技术都是使用静态帧和光流法等来实现动作识别。TRN是一个即插即用型的模块,可以用于任何CNN网络,作者构建基于TRN的模型,在三个动作识别数据集(Something-Something, Jes
2021-10-31 14:59:19 74
原创 Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(论文笔记)
文章目录摘要方法介绍TSN-时间分割网络:模型学习摘要深度卷积网络在静态图像的视觉识别方面取得了巨大的成功。然而,对于视频中的动作识别,该方法相对于传统方法的优势并不明显。本文旨在探索视频中动作识别的有效卷积神经网络结构的设计原则,并在有限的训练样本下学习这些模型。我们的第一个贡献是时间分割网络(TSN),一种基于视频的动作识别的新框架,基于长程时间结构建模的思想。它结合了稀疏时间采样策略和视频级监督,使整个动作视频能够高效学习。另一个贡献是我们研究了在时间分割网络的帮助下学习视频数据卷积网络的一系列良
2021-10-16 16:04:43 93 1
原创 VideoBERT: A Joint Model for Video and Language Representation Learning(论文笔记)
文章目录摘要原文链接:https://openaccess.thecvf.com/content_ICCV_2019/html/Sun_VideoBERT_A_Joint_Model_for_Video_and_Language_Representation_Learning_ICCV_2019_paper.html摘要为利用YouTube等平台上可获得的海量未标注数据,自监督学习的重要性日益显现。现有的大多数方法旨在学习低层次表示,而我们提出了一个不依赖任何显式监督的,用于学习高层次表示的视觉-语
2021-10-10 21:49:36 120 1
原创 Git学习记录
目录子模块介绍使用子模块子模块在github中的效果子模块介绍有种情况我们经常会遇到:某个工作中的项目需要包含并使用另一个项目。 也许是第三方库,或者你独立开发的,用于多个父项目的库。 现在问题来了:你想要把它们当做两个独立的项目,同时又想在一个项目中使用另一个。Git 通过子模块来解决这个问题。子模块允许你将一个 Git 仓库作为另一个 Git 仓库的子目录。 它能让你将另一个仓库克隆到自己的项目中,同时还保持提交的独立。使用子模块命令:git submodule add <url&g
2021-09-17 17:15:51 28
原创 深度学习知识点记录
目录标准化BN与LN的区别标准化BN与LN的区别Batch normalization和Layer normalization的处理方向垂直,BN是对batch中每个样本的同一channel做normalization;LN是对一个样本的所有channel做normalization。当batch太小时BN不适合,同样当channel太少时LN不适合。..................
2021-09-05 16:51:27 39
原创 不同维度矩阵相乘
在深度学习中经常会遇到不同维度的矩阵相乘的情况,本文会通过一些例子来展示不同维度矩阵乘法的过程。总体原则:在高维矩阵中取与低维矩阵相同维度的分片来与低维矩阵相乘,结果再按分片时的顺序还原为高维矩阵。相乘结果的维度与原来的高维矩阵一致。二维乘一维三维乘一维三维乘二维...
2021-08-07 16:13:27 17837 5
原创 pytorch自定义函数实现自动梯度
Motivation构建模型有时需要使用自定义的函数,为了不影响模型的反向传播,需要实现自动梯度计算(即把自定义函数嵌入计算图)。实现要点:将函数定义为类,需继承自torch.autograd.Function类需实现两个静态方法:forward()和backward(),分别对应前向传播和反向传播函数使用前需调用apply方法从而嵌入计算图,实现自动求导用一个例子来说明:假设我们要实现一个多项式拟合模型: y=a+bP2(cx+d)y = a + bP_2(cx + d)y=a+bP
2021-07-25 20:50:45 1665
原创 从线性代数和图像两个角度理解L2正则化
目录前言L2正则化简介线性代数角度小结从图像角度直观理解小结补充总结前言正则化在机器学习和深度学习中都是很重要的技巧,其核心思想是通过偏差的增加来换取方差的减少----用训练误差的增大来换取泛化误差的减小。实现正则化主要有两类策略:1)向模型添加限制参数的额外约束2)向目标函数增加额外项来对参数值进行软约束常见的L1和L2正则化都是使用的第二种策略L2正则化简介L2正则化项:不考虑偏置参数,添加L2正则化之后的目标函数变成:其中 *J(θ; X, y)*是原来的目标函数,α是决定正
2021-07-23 21:43:15 811
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人