视频片段检索
文章平均质量分 87
Video Moment Retrieval任务
反科研pua所所长
且视他人之疑目如盏盏鬼火,大胆去走你的夜路。
展开
-
【高质量github项目合辑】视频、文本的特征提取
近期的科研工作,用到了许多github上面的开源项目,大多跟视频特征和文本特征的提取相关原创 2022-07-07 20:38:33 · 2473 阅读 · 0 评论 -
【代码学习】C3D提取视频特征
学习目标理论补充:C3D网络特点动手能力 :用C3D提取目标数据集(Charades-STA、ActivityNet Captions、TVR)的滑动窗口(64、128、256、512祯,各个窗口间80%的重叠)特征目标回答特点1):使用3D卷积网络,能够在卷积过程中考虑时序信息,从而进行motion modeling;这是通过将frame视作通道来达到的,比如卷积核大小为3∗3∗33*3*33∗3∗3,那么每次的深度感受野就是333,也就是说,网络每次能在3帧之间建立起联系 特点2)使用同质原创 2022-05-07 22:20:17 · 2795 阅读 · 22 评论 -
【论文阅读】Interventional Video Grounding with Dual Contrastive Learning
阅读目标2021-CVPR上面利用因果理论(干预)来解决数据集的选择性偏置(selection bias)问题的,在2021-SIGIR上面也有一篇类似的,Deconfounded Video Moment Retrieval with Causal Intervention,也使用因果理论解决了bias问题,所以这次的学习目标:对比两篇文章在动机和方法上的不同总结vmr领域应对bias的方法阅读回答为了方便,将Deconfounded Video Moment Retrieval with原创 2022-05-02 22:53:16 · 1026 阅读 · 1 评论 -
SRL数据集准备
引言最近在了解使用SRL(Semantic Role Labeling)任务,学习Tagger代码的过程中,准备需要的数据集花了很多时间和精力,这里来记录下,为日后对新任务的学习积累经验~流程再现这个项目需要用到的数据集是CoNLL-2005,但是非常神奇,从这个链接中只能下载到对单词的标注,没有单词。给各位放张图感受一下这个大无语事件:也就是对于SRL这个任务而言,训练模型需要的是对谓词的指定(最左一栏的comment和produce),以及对谓词相关论元的标注(第二、三、四栏),然而数据集提供原创 2022-04-27 21:11:16 · 633 阅读 · 0 评论 -
【论文阅读】Deep Semantic Role Labeling with Self-Attention
碎碎念被迫要使用语义角色标注(Deep Semantic Role Labeling)技术,本来想直接使用github上的项目Tagger,奈何作者说自己本来用tensorflow写的,后来改成pytorch但没完全改(Model ensemble不可用,且预训练好的模型只提供了tensorflow版本的,需要用pytorch来调用),所以计划来读这篇文章,方便日后的改动任务设置给定一个句子,SRL(Semantic Role Labeling)的目标是定义每个目标动词的论元(可以简单理解为与目标动词原创 2022-04-23 20:50:16 · 2387 阅读 · 0 评论 -
PoS Tagging代码学习与应用
文章目录代码学习(模型训练)新数据集代入(模型应用)此阶段总结未来改进代码学习(模型训练)PyTorch PoS Taggingimport torchimport torch.nn as nnimport torch.optim as optim# torchtext.legacy是torchtext 0.9.0版本的,现在在官方文档中已经找不到了from torchtext.legacy import datafrom torchtext.legacy import datasets原创 2022-04-19 20:51:02 · 1498 阅读 · 0 评论 -
Video Corpus Moment Retrieval实验设置记录
2019-arXiv-Temporal Localization of Moments in Video Collections with Natural Language数据集:DiDeMo, Charades-STA, and ActivityNetcaptions.评价标准:R@KR@KR@K, K∈{1,10,100}K\in \{1, 10, 100\}K∈{1,10,100}, IoU∈{0.5,0.7}IoU \in \{0.5, 0.7\}IoU∈{0.5,0.7} & 正确检索原创 2022-04-13 16:25:31 · 374 阅读 · 1 评论 -
【论文阅读】A Closer Look at Temporal Sentence Grounding in Videos: Dataset and Metric
需要简单了解的知识点高斯核密度估计原数据集的问题(下图分别代表切分前和切分后的数据分布):Charades-STA)大多数标记都从视频的起始处到视频的20%~40%(这一点在之后也没解决,这是数据集收集阶段的问题,不过我认为这一点对模型的能力挖掘影响还是很大的);大多数标记的长度都相差不大(这仍然说的是数据集的问题啊,之后也没有解决);Activitynet)大多数标记都集中于左下、左上、右上三个角落,代表标记中有很多从头开始标记、在尾结束标记和跨越整个视频的(针对这点,后面的解决方案的确起到了一部分原创 2022-02-24 15:59:01 · 337 阅读 · 0 评论 -
VMR-21论文总结
2021-ACL-MTVR: Multilingual Moment Retrieval in Videos这篇文章在TVR数据集的基础上扩展了mTVR数据集,增加了中文的query和subtitle标注;也在XML模型的基础上扩展了mXML模型,使用了参数共享和领域限制方式,让两种语言共同学习、共同获益。一次定位中的基于概率的方法暂时不太明白邻域限制的含义。2021-CVPR-Interventional Video Grounding with Dual Contrastive Learni原创 2022-02-27 22:01:17 · 452 阅读 · 0 评论 -
【论文阅读】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language
表示自己研究的时候,就感觉这是一篇很普通的文章,后来才发现,大家争相把这篇文章当作baseline…摘要及引入通过一个二维图,在视频片段间建模时序关系。二维图的其中一个维度指示片段的开始点,另一个指示结束点。二维图的作用是,可以在覆盖不同长度的视频片段的同时 ,表示他们的邻接关系。(对这个主要论点的理解,首先视频片段的长度是通过二维图上点的位置来体现的,那为什么能表示不同片段之间的邻接关系呢?比如相同横坐标的点,代表的是同一起点的片段,相同纵坐标的点则能表示同一终点的片段,这能指示他们的重叠、相邻关原创 2022-03-07 11:32:33 · 1040 阅读 · 0 评论 -
VMR论文visualization实验总结
就是对每个模型做了哪些检索结果可视化实验的一个汇总原创 2022-03-04 16:36:31 · 291 阅读 · 0 评论 -
【论文阅读】Uncovering Hidden Challenges in Query-Based Video Moment Retrieval
如题原创 2022-03-14 15:41:44 · 5065 阅读 · 0 评论