论文阅读
文章平均质量分 95
何大春
孤行莫厌,长行莫倦!
展开
-
【视频时刻定位】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language 论文阅读
我们解决的问题是通过查询句子从未剪辑视频中检索特定的片段。这是一个具有挑战性的问题,因为目标片段可能会与未剪辑视频中的其他时间片段相关联。现有方法无法很好地应对这一挑战,因为它们单独考虑时间片段,忽略了时间依赖性。在本文中,我们通过一个二维映射来建模视频片段之间的时间关系,其中一个维度表示片段的开始时间,另一个维度表示片段的结束时间。这个二维时间映射可以覆盖具有不同长度的多种视频片段,同时表示它们的相邻关系。基于这个二维映射,我们提出了一个时间邻接网络(2D-TAN),这是一个用于片段定位的单次框架。原创 2024-11-12 00:26:18 · 524 阅读 · 0 评论 -
【无监督视频异常检测】C2FPL:A Coarse-to-Fine Pseudo-Labeling Framework for Unsupervised Video ...论文阅读
视频中的异常事件检测是监控等应用中的重要问题。视频异常检测(VAD)在单类分类(OCC)和弱监督(WS)设置下得到了广泛研究。然而,完全无监督(US)的视频异常检测方法,即在不使用任何标注或人工监督的情况下学习一个完整的系统,尚未得到深入研究。这是因为缺乏任何真实标注极大地增加了视频异常检测的挑战性。为了应对这一挑战,我们提出了一个简单而有效的两阶段伪标签生成框架,该框架能够生成片段级(正常/异常)伪标签,这些伪标签可以进一步用于以监督方式训练一个片段级异常检测器。原创 2024-11-10 01:11:55 · 811 阅读 · 0 评论 -
【视频异常检测】Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models 论文阅读
视频异常检测(VAD)在安全监控和自动驾驶等应用中至关重要。然而,现有的VAD方法提供的检测依据有限,这阻碍了公众对实际部署的信任。本文采用了一种推理框架来处理VAD。尽管大语言模型(LLMs)展现出了革命性的推理能力,但我们发现其直接应用于VAD时效果不佳。具体而言,LLMs中隐含的知识主要关注一般背景,因此可能无法适用于每一个特定的实际VAD场景,导致灵活性和准确性不足。为了解决这个问题,我们提出了AnomalyRuler,这是一种结合LLMs的基于规则的推理框架。原创 2024-11-09 17:02:43 · 588 阅读 · 0 评论 -
【无监督视频异常检测】Learning Anomalies with Normality Prior for Unsupervised Video Anomaly Detection 论文阅读
无监督视频异常检测(UVAD)旨在在没有任何注释的情况下检测视频中的异常事件。由于异常事件稀少、多样且通常定义不明确,这一任务仍然具有挑战性。现有的UVAD方法纯粹依赖数据驱动,通过识别视频中的各种异常模式进行无监督学习。由于这些方法主要依赖特征表示和数据分布,因此只能学习与正常事件显著不同的突出异常,而忽略那些不太明显的异常。为了解决这个问题,本文采用了一种不同的方法,利用与数据无关的先验知识来处理UVAD中的正常和异常事件。我们首先提出了一种新的正常性先验,建议视频的开始和结束部分主要是正常的。原创 2024-10-27 15:18:09 · 805 阅读 · 0 评论 -
【无监督视频异常检测】Learning Anomalies with Normality Prior for Unsupervised Video Anomaly Detection 论文阅读
无监督视频异常检测(UVAD)旨在在没有任何注释的情况下检测视频中的异常事件。由于异常事件稀少、多样且通常定义不明确,这一任务仍然具有挑战性。现有的UVAD方法纯粹依赖数据驱动,通过识别视频中的各种异常模式进行无监督学习。由于这些方法主要依赖特征表示和数据分布,因此只能学习与正常事件显著不同的突出异常,而忽略那些不太明显的异常。为了解决这个问题,本文采用了一种不同的方法,利用与数据无关的先验知识来处理UVAD中的正常和异常事件。我们首先提出了一种新的正常性先验,建议视频的开始和结束部分主要是正常的。原创 2024-10-27 15:11:30 · 610 阅读 · 0 评论 -
Omnipotent Distillation with LLMs for Weakly-Supervised Natural Language Video Localization 论文阅读
自然语言视频定位在视频理解中扮演着关键角色,而利用弱标注数据被认为是一种有前景的方法,可以避免劳动密集型的手动标注过程。然而,这种方法面临两个重大挑战:1)输入分布有限,即人类标注者所标注的语言查询的写作风格有限,阻碍了模型在具有多样化词汇和句子结构的真实场景中的泛化;2)不完整的真实标签,其监督指导不足。为了克服这些挑战,我们提出了一种与大语言模型(LLM)结合的全能蒸馏算法。通过丰富输入样本的分布,获得多样的多视角版本,同时通过一致性来规范它们的结果以进行蒸馏。原创 2024-10-25 23:50:11 · 748 阅读 · 1 评论 -
Deep Learning for Video Anomaly Detection: A Review 深度学习视频异常检测综述阅读
视频异常检测(VAD)旨在发现视频中偏离正常行为或事件。作为计算机视觉领域的一项长期任务,VAD已经取得了显著的进展。在深度学习时代,随着架构能力和容量的不断爆炸式增长,各种基于深度学习的VAD方法不断涌现,极大地提高了检测算法的泛化能力,并拓宽了应用场景。因此,如此众多的方法和大量的文献使得进行全面的综述成为一项迫切的需求。原创 2024-09-28 21:53:15 · 1310 阅读 · 0 评论 -
Visual Co-Occurrence Alignment Learning for Weakly-Supervised Video Moment Retrieval 论文阅读
视频片段检索旨在根据文本查询定位最相关的视频片段。弱监督方法仅利用视频-文本对进行训练,而不需要时间标注。当前大多数方法通过在联合嵌入空间中对齐提议的视频片段和文本。然而,由于缺乏时间标注,这两种模态之间的语义差异使得大多数方法主要关注学习联合特征表示,而较少关注学习视觉特征表示。本文旨在通过视觉领域的监督改进视觉特征表示,从而获取用于跨模态学习的判别性视觉特征。基于观察到的现象,即来自不同视频的相关视频片段(即具有相似活动)通常由相似的句子描述,因此尽管这些视频片段来自不同的视频,其视觉特征也应该相似。原创 2024-09-24 01:46:13 · 690 阅读 · 1 评论 -
Learnable Negative Proposals Using Dual-Signed Cross-Entropy Loss for WSVML 论文阅读
大多数现有的弱监督视频片段定位方法使用基于规则的负提案。然而,基于规则的方法在捕捉整个视频中各种混淆位置方面存在局限性。为缓解这一局限性,我们提出了一种基于学习的负提案,这种提案通过双符号交叉熵损失进行训练。双符号交叉熵损失由一个权重控制,该权重从负值逐渐变化为正值。负值使负提案在早期训练阶段被训练为捕捉与查询无关的时间边界(简单负例),而正值则使其在后期训练阶段捕捉与查询略相关的时间边界(困难负例)。为评估负提案的质量,我们引入了一个新的评估指标,用于衡量负提案在多大程度上捕捉到生成较差的正提案。原创 2024-09-23 21:36:53 · 902 阅读 · 1 评论 -
Gaussian Mixture Proposals with Pull-Push Learning Scheme to Capture Diverse Events for Weakly ...
在弱监督的时序视频定位研究中,先前的方法使用预设的单高斯提议,缺乏表达由句子查询描述的多样事件的能力。为增强提议的表达能力,我们提出了高斯混合提议(GMP),该提议可以通过学习每个高斯在混合中的重要性、中心点和范围来描绘任意形状。在学习GMP时,每个高斯不是在特征空间中训练的,而是直接作用于时间位置。因此,传统的基于特征的高斯混合模型学习方法在我们的情况下并不适用。原创 2024-09-22 15:07:03 · 905 阅读 · 0 评论 -
Weakly Supervised Temporal Sentence Grounding with Gaussian-based Contrastive Proposal Learning 论文阅读
句子定位任务旨在从未剪辑的视频中检测与自然语言查询相对应的最显著时刻。由于标注时间边界耗时且主观性强,弱监督方法最近受到了越来越多的关注。目前大多数现有的弱监督方法通过滑动窗口生成候选片段,这些片段与内容无关且质量较低。此外,它们训练模型时通过从其他视频中随机收集正负视觉语言对来区分,而忽略了同一视频中高度混淆的片段。为了解决上述问题,本文提出了对比候选学习(Contrastive Proposal Learning,CPL)。原创 2024-09-14 00:31:30 · 774 阅读 · 0 评论 -
Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding 论文阅读
本论文首次利用多模态视频进行弱监督的时间视频定位。由于对视频片段进行标注非常费时且主观,弱监督方法近年来受到越来越多的关注。然而,由于监督不足,这些方法本质上可能会影响性能表现。为了解决这一挑战,我们首次关注于利用从多模态视频(如 RGB 帧、光流)中提取的互补信息,在弱监督的背景下引入更丰富的监督。我们的动机是通过整合视频的不同模态,模型可以从协同监督中学习,从而获得更强的泛化能力。然而,处理多个模态不可避免地会增加额外的计算开销,并且在某些特定模态无法访问的情况下可能变得不可行。原创 2024-09-12 01:32:57 · 952 阅读 · 1 评论 -
Weakly Supervised Video Moment Localization with Contrastive Negative Sample Mining 论文阅读
视频时刻定位的目标是定位与给定的自由形式自然语言查询最相关的视频片段。弱监督设定中,训练时只提供视频级描述,因其较低的标注成本,正逐渐受到越来越多的关注。之前的弱监督方法主要使用滑动窗口生成时间提案,这些提案与视频内容无关且质量较低,并且通过训练模型来区分从不同视频中收集的匹配和不匹配的视频-查询对,但忽略了模型需要在视频内部区分未对齐的片段。在本研究中,我们通过引入对比负样本挖掘(CNM)提出了一种新颖的弱监督解决方案。原创 2024-09-11 20:58:54 · 1058 阅读 · 0 评论 -
Weakly-Supervised Video Moment Retrieval via Semantic Completion Network 论文阅读
视频片段检索旨在根据给定的自然语言查询搜索与之最相关的片段。现有方法大多在全监督设置下进行训练,这需要为每个查询手动标注其对应的时间边界。然而,手动标注这些时间边界实际上既费时又昂贵。在本文中,我们提出了一种新颖的弱监督片段检索框架,仅需要粗略的、视频级别的标注用于训练。具体而言,我们设计了一个提案生成模块,该模块聚合上下文信息,一次性生成并评分所有候选提案。然后,我们设计了一种结合利用与探索的算法,选择前K个提案。原创 2024-09-11 17:01:31 · 1474 阅读 · 0 评论 -
Probabilistic Embeddings for Cross-Modal Retrieval 论文阅读
跨模态检索方法通过为来自多个模态的样本构建一个公共表示空间,通常涉及视觉和语言领域。对于图像及其对应的文字说明,由于其对应关系的多样性,这项任务尤其具有挑战性。给定一个图像(或文字说明),可能有多个文字说明(或图像)同样合理。在本文中,我们认为确定性函数不足以捕捉这种一对多的对应关系。相反,我们提出使用概率跨模态嵌入(PCME),在这种方法中,来自不同模态的样本被表示为公共嵌入空间中的概率分布。原创 2024-09-10 19:21:25 · 1353 阅读 · 0 评论 -
ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models 论文阅读
大规模视觉-语言模型(VLMs)如CLIP能够成功地在图像和文本之间找到对应关系。通过标准的确定性映射过程,图像或文本样本被映射到嵌入空间中的一个单一向量。这存在问题:由于多个样本(图像或文本)可以抽象出物理世界中的相同概念,确定性嵌入并不能反映嵌入空间中固有的模糊性。我们提出了ProbVLM,一种概率适配器,通过跨模态和模态内对齐,以事后方式估计预训练VLM嵌入的概率分布,无需大规模数据集或高昂的计算资源。原创 2024-09-09 21:52:02 · 1303 阅读 · 0 评论 -
【弱监督时间动作定位】Weakly-Supervised Temporal Action Localization with Multi-Modal Plateau Transformers 论文阅读
弱监督时序动作定位(WSTAL)旨在仅使用视频级别标注在未剪辑的视频中联合定位和分类动作片段。为了利用视频级别标注,大多数现有方法采用多实例学习范式,其中首先生成帧级/片段级动作预测,然后将其聚合以形成视频级别预测。尽管有尝试通过建模时间关系来改善片段级预测,但我们认为这些实现尚未充分利用此类信息。在本文中,我们提出了多模态平稳变换器(M2PTM^2PTM2PT)用于弱监督时序动作定位(WS-TAL),该方法同时利用片段之间的时间关系、跨数据模态的互补信息以及连续片段之间的时间一致性。原创 2024-09-09 17:08:50 · 1905 阅读 · 1 评论 -
【视频异常检测】Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts 论文阅读
当前的弱监督视频异常检测(WSVAD)任务旨在仅利用粗粒度的视频级别标注来实现帧级别的异常事件检测。现有工作通常涉及从全分辨率视频帧中提取全局特征,并训练帧级别分类器以在时间维度上检测异常。然而,大多数异常事件往往发生在局部空间区域而非整个视频帧中,这意味着基于现有帧级别特征的工作可能会被主导的背景信息误导,且缺乏对检测到的异常的解释能力。原创 2024-09-04 22:31:13 · 1441 阅读 · 0 评论 -
【弱监督时间动作定位】Probabilistic Vision-Language Representation for WSTAL 论文阅读
弱监督时序动作定位(WTAL)旨在仅使用视频级别注释来检测未修剪视频中的动作实例。由于许多现有工作基于动作分类标签来优化WTAL模型,它们面临着任务差异问题(即“通过分类进行定位”)。为了解决这一问题,近期的研究尝试通过视觉-语言预训练(VLP)利用动作类别名称作为辅助语义知识。然而,现有研究仍存在不足之处。以前的方法主要侧重于利用语言模型中的文本信息,但忽略了在联合空间中动态人类动作与VLP知识的对齐。此外,先前研究中使用的确定性表示在捕捉精细粒度的人类动作方面存在困难。原创 2024-09-04 11:55:54 · 1152 阅读 · 1 评论 -
【弱监督时间动作定位】Adaptive Prototype Learning for Weakly-supervised Temporal Action Localization 论文阅读
弱监督时序动作定位(WTAL)旨在仅使用训练期间的视频级标签来定位动作实例,其主要面临两个问题:定位不完整性和背景干扰。为了解决这两个问题,最近的方法采用了注意力机制来激活动作实例并同时抑制背景区域,取得了显著进展。然而,我们认为这两个问题仍未得到很好的解决。一方面,注意力机制为不同视频采用固定的权重,无法处理视频间的多样性,因此在解决定位不完整性问题上表现不足。另一方面,以往的方法只专注于学习前景的注意力,而注意力权重通常存在歧义,导致难以有效抑制背景干扰。原创 2024-09-03 22:21:10 · 792 阅读 · 1 评论 -
【弱监督时间动作定位】Weakly-Supervised Video Anomaly Detection with Snippet Anomalous Attention 论文阅读
随着研究人员对包含在未剪辑视频中的异常事件的兴趣日益增加,视频异常检测成为了一个热门研究方向。在各种视频异常检测场景中,弱监督视频异常检测由于在训练阶段缺乏逐帧标签,只能依靠视频级标签作为粗略监督,因此提出了重大挑战。以往的方法试图要么以端到端方式学习判别特征,要么采用两阶段自训练策略生成片段级伪标签。然而,这两种方法都有一定的局限性:前者往往忽略了片段级的信息特征,而后者容易受到噪声的影响。为了解决上述问题,本文提出了一种用于弱监督异常检测的异常注意力机制。原创 2024-08-08 17:35:24 · 1237 阅读 · 0 评论 -
【弱监督时间动作定位】ACGNet: Action Complement Graph Network for WSTAL 论文阅读
在未剪辑视频中进行弱监督时序动作定位 (WTAL) 已成为一项实用但具有挑战性的任务,因为只提供视频级标签。现有的方法通常利用现成的片段级特征,这些特征存在空间不完整性和时间不连贯性,从而限制了它们的性能。在本文中,我们通过增强片段级表示的一个简单而有效的图卷积网络,即动作补全图网络 (ACGNet),从一个新的角度解决这个问题。它使当前视频片段能够感知来自其他片段的空间-时间依赖性,这些片段可能传递互补线索,从而隐式减轻上述两个问题带来的负面影响。原创 2024-08-06 17:39:56 · 1147 阅读 · 0 评论 -
【弱监督时间动作定位】Dual-Evidential Learning for Weakly-supervised Temporal Action Localization 论文阅读
弱监督时间动作定位(WS-TAL)旨在仅使用视频级标签来定位动作实例并识别其类别。尽管取得了很大进展,现有方法仍存在严重的动作与背景混淆问题,这主要源于聚合操作引入的背景噪声和分类与定位任务之间的巨大动作内变异。为了解决这个问题,我们提出了一种适用于WS-TAL的广义证据深度学习(EDL)框架,称为用于不确定性建模的双证据学习(DELU),该框架扩展了传统的EDL范式,以适应弱监督多标签分类目标。具体来说,针对自适应排除不希望的背景片段,我们利用视频级不确定性来衡量背景噪声对视频级预测的干扰。原创 2024-08-04 22:46:50 · 701 阅读 · 1 评论 -
【视频异常检测】Clustering Aided Weakly Supervised Training to Detect Anomalous Events in Surveillance Vid..
利用仅有的视频级标签来制定检测现实世界异常事件的学习系统是一项具有挑战性的任务,主要原因是存在噪声标签以及训练数据中异常事件的稀少性。我们提出了一种弱监督异常检测系统,该系统有多个贡献,包括一个随机批选择机制以减少批间相关性,以及一个正常性抑制模块,该模块通过利用训练批中的整体信息来学习在视频的正常区域内最小化异常分数。此外,我们还提出了一个聚类损失模块,用于减轻标签噪声并改进异常和正常区域的表示学习。这个模块鼓励主干网络生成两个分别代表正常和异常事件的特征簇。原创 2024-07-30 16:39:59 · 496 阅读 · 0 评论 -
Revisiting Foreground and Background Separation in Weakly-supervised Temporal Action Localization
弱监督时间动作定位旨在仅使用视频级动作标签来定位视频中的动作实例。现有方法主要采用通过分类进行定位的流程,使用视频分类损失来优化片段级预测。然而,这种方法由于分类和检测之间的差异,导致前景和背景(F&B)片段的分离不准确。为了解决这个问题,我们提出通过无监督片段聚类来探索片段之间的潜在结构,而不是过度依赖视频分类损失。具体来说,我们提出了一种新颖的基于聚类的F&B分离算法。该算法包含两个核心组件:一个片段聚类组件,用于将片段分组到多个潜在聚类中;一个聚类分类组件,用于进一步将聚类分类为前景或背景。原创 2024-07-30 01:13:16 · 365 阅读 · 0 评论 -
【弱监督时间动作定位】Relational Prototypical Network for Weakly Supervised Temporal Action Localization 论文阅读
在本文中,我们提出了一种基于原型网络的弱监督未剪辑视频的时间动作定位方法。我们注意到弱监督带来了两个挑战,即动作-背景分离和动作关系构建。与以往的方法不同,我们提出仅通过原始视频实现动作-背景分离。为此,采用了一种聚类损失来将动作与背景分离并学习类内紧凑的特征,这有助于检测完整的动作实例。此外,还设计了一个相似性加权模块,以进一步将动作与背景分离。为了有效识别动作,我们提出构建动作间的关系以进行原型学习。引入了基于GCN的原型嵌入模块来生成关系原型。原创 2024-07-26 21:35:57 · 1063 阅读 · 0 评论 -
【视频异常检测】WEAKLY SUPERVISED VIDEO ANOMALY DETECTION BASED ON CROSS-BATCH CLUSTERING GUIDANCE 论文阅读
弱监督视频异常检测(WSVAD)是一项具有挑战性的任务,因为训练时只提供视频级标签。在以往的研究中,所学习特征的辨别能力不足,并且由于小批量训练策略导致的数据不平衡问题被忽视。为了解决这两个问题,我们提出了一种基于跨批次聚类指导的 WSVAD 新方法。为了增强特征的辨别能力,我们提出了一种批次聚类损失,鼓励聚类分支基于一批数据生成明显的正常和异常聚类。同时,我们通过引入前几批次的聚类结果设计了一种跨批次学习策略,以减少数据不平衡的影响。原创 2024-07-25 23:13:36 · 1401 阅读 · 0 评论 -
Weakly Supervised Contrastive Learning 论文阅读
无监督视觉表示学习因对比学习的最新成就而受到计算机视觉领域的广泛关注。现有的大多数对比学习框架采用实例区分作为预设任务,将每个实例视为一个不同的类。然而,这种方法不可避免地会导致类别冲突问题,从而损害所学习表示的质量。原创 2024-07-25 17:13:21 · 1504 阅读 · 0 评论 -
【视频异常检测】Self-Training Multi-Sequence Learning with Transformer for Weakly Supervised Vi... 论文阅读
弱监督视频异常检测(VAD)使用多实例学习(MIL)通常基于这样一个事实,即异常片段的异常得分高于正常片段。在训练初期,由于模型的准确性有限,容易选择错误的异常片段。为了减少选择错误的概率,我们首先提出了一种多序列学习(MSL)方法和基于 hinge 的 MSL 排序损失,该方法使用由多个片段组成的序列作为优化单元。然后,我们设计了一种基于 Transformer 的 MSL 网络,学习视频级别的异常概率和片段级别的异常得分。在推理阶段,我们建议使用视频级别的异常概率来抑制片段级别异常得分的波动。原创 2024-07-25 13:54:38 · 813 阅读 · 0 评论 -
【时间动作定位】End-to-end Temporal Action Detection with Transformer 论文阅读
时序动作检测(TAD)旨在确定未剪辑视频中每个动作实例的语义标签和时间区间。这是视频理解中一个基础且具有挑战性的任务。以前的方法使用复杂的流程来解决这个任务。它们通常需要训练多个网络,并涉及手工设计的操作,如非极大值抑制和锚生成,这限制了灵活性并阻碍了端到端学习。在本文中,我们提出了一种基于Transformer的端到端TAD方法,称为TadTR。给定一小组可学习的嵌入(称为动作查询),TadTR为每个查询自适应地从视频中提取时间上下文信息,并直接使用上下文预测动作实例。原创 2024-07-24 20:06:37 · 1063 阅读 · 0 评论 -
【弱监督时间动作定位】Weakly Supervised Action Selection Learning in Video 论文阅读
在视频中定位动作是计算机视觉中的核心任务。弱监督时间定位问题研究是否可以仅通过视频级标签来充分解决此任务,从而显著减少所需的昂贵且易出错的注释量。一种常见的方法是训练帧级分类器,其中选择具有最高类别概率的帧来进行视频级预测。然后使用帧级激活来进行定位。然而,由于缺乏帧级注释,分类器会对每一帧施加类别偏差。为了解决这个问题,我们提出了动作选择学习(ASL)方法,以捕捉动作的一般概念,即我们称之为“动作性”的属性。在ASL下,模型通过一个新的无类别任务进行训练,以预测分类器将选择哪些帧。原创 2024-07-18 20:32:06 · 1171 阅读 · 1 评论 -
【弱监督时间动作定位】CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive ... 论文阅读
弱监督的时间动作定位 (WSTAL) 旨在仅使用视频级标签,在未裁剪的视频中定位动作。大多数现有模型遵循“通过分类进行定位”的过程:定位对视频级分类贡献最大的时间区域。通常,它们单独处理每个片段(或帧),从而忽略了丰富的时间上下文关系。这就产生了单片段欺骗问题:“困难”片段过于模糊,无法分类。在本文中,我们认为通过比较学习有助于识别这些困难片段,并提出利用片段对比学习来定位动作,简称为 CoLA。原创 2024-07-16 22:37:24 · 968 阅读 · 0 评论 -
【弱监督时间动作定位】Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in ..
弱监督时序动作定位的任务旨在为感兴趣的动作生成时间边界,同时还需要对动作类别进行分类。近年来,作为有效解决方案的伪标签方法受到了广泛研究。然而,现有方法在训练和测试阶段生成伪标签时采用了不同的流程或设置,导致训练和测试之间存在差距。本文提出从预测的动作边界生成高质量伪标签的方法。然而,我们注意到现有的后处理方法(如NMS)可能会导致信息丢失,这对于生成高质量的动作边界来说是不够的。更重要的是,将动作边界转换为伪标签是非常具有挑战性的,因为预测的动作实例通常是重叠的并且具有不同的置信度分数。原创 2024-07-16 15:46:01 · 595 阅读 · 0 评论 -
【弱监督时间动作定位】Weakly Supervised Temporal Action Localization via Representative Snippet ...论文阅读
弱监督时间动作定位的目标是通过仅有的视频级类别标签,来定位动作的时间边界并同时识别其类别。许多现有方法试图生成伪标签以弥合分类和定位之间的差距,但通常只利用有限的上下文信息来生成伪标签。为了解决这个问题,我们提出了一种代表性片段总结与传播框架。我们的方法旨在挖掘每个视频中的代表性片段,通过在视频片段之间传播信息来生成更好的伪标签。对于每个视频,利用其自身的代表性片段以及来自记忆库的代表性片段,以视频内和视频间的方式传播,更新输入特征。伪标签由更新特征的时间类激活图生成,以纠正主分支的预测。原创 2024-07-15 21:17:49 · 876 阅读 · 0 评论 -
【弱监督时间动作定位】Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature 论文阅读
弱监督的时序动作定位旨在在未剪辑的视频中同时定位动作区域并识别动作类别,仅使用视频级标签作为监督。伪标签生成是一种解决这一具有挑战性问题的有前途策略,但当前的方法忽略了视频的自然时间结构,这种结构可以提供丰富的信息来辅助生成过程。在本文中,我们提出了一种通过推断显著片段特征的新颖弱监督时序动作定位方法。首先,我们设计了一个显著性推断模块,该模块利用时间相邻片段之间的变化关系来发现显著片段特征,这些特征可以反映视频中的显著动态变化。其次,我们引入了一个边界精化模块,通过信息交互单元增强显著片段特征。原创 2024-07-15 17:08:54 · 764 阅读 · 0 评论 -
【弱监督时间动作定位】HR-Pro: Point-supervised Temporal Action Localization via Hierarchical ... 论文阅读
点监督时序动作定位(PSTAL)是标签有效学习领域的一个新兴研究方向。然而,当前的方法主要集中在优化网络在片段级别或实例级别上的表现,却忽视了在这两个级别上点标注所固有的可靠性。在本文中,我们提出了一个层次化可靠性传播(HR-Pro)框架,该框架包含两个注重可靠性的阶段:片段级区分学习和实例级完整性学习,这两个阶段都探索了点标注中高置信度线索的有效传播。在片段级学习阶段,我们引入了一个在线更新的内存模块,用于存储每个类别的可靠片段原型。原创 2024-07-14 22:16:33 · 702 阅读 · 0 评论 -
【弱监督时间动作定位】DUAL-FEATURE ENHANCEMENT FOR WEAKLY SUPERVISED TEMPORAL ACTION LOCALIZATION 论文阅读
弱监督时序动作定位(WTAL)旨在仅使用视频级标签在未剪辑的视频中定位动作。大多数现有方法采用“通过分类进行定位”的范式,并采用预训练识别任务的模型进行特征提取。识别任务和定位任务之间的差距导致了较差的性能。一些最新的工作尝试利用特征增强来获得更好的定位特征,并在一定程度上提升性能。然而,它们仅限于利用视频内信息,而忽略了数据集中有意义的视频间信息。在本文中,我们提出了一种新的双重特征增强(DFE)方法用于WTAL,可以利用视频内和视频间信息。原创 2024-07-13 22:02:08 · 827 阅读 · 0 评论 -
【弱监督时间动作定位】Weakly-supervised Temporal Action Localization by Uncertainty Modeling 论文阅读
弱监督时序动作定位旨在仅使用视频级别标签来学习检测动作类别的时序区间。为此,将动作类别的帧与背景帧(即不属于任何动作类别的帧)分离至关重要。在本文中,我们提出了一种关于背景帧的新视角,即将它们视为与其不一致性相关的分布外样本。随后,可以通过估计每帧作为分布外样本的概率(即不确定性)来检测背景帧,但在没有帧级别标签的情况下直接学习这种不确定性是不可行的。为了在弱监督设置下实现不确定性学习,我们利用了多实例学习公式。此外,我们还引入了背景熵损失以更好地区分背景帧。原创 2024-07-13 17:38:49 · 659 阅读 · 1 评论 -
【弱监督时间动作定位】A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action Localization 论文阅读
弱监督时序动作定位是一项具有挑战性的视觉任务,因为训练视频中缺少动作的真实时序位置。在训练过程中仅有视频级别的监督,大多数现有方法依赖于多实例学习(MIL)框架来预测视频中每个动作类别的开始帧和结束帧。然而,现有的基于MIL的方法存在一个主要限制,即只能捕捉到动作的最具区分性的帧,而忽略了活动的完整范围。此外,这些方法无法有效地建模背景活动,而背景活动在定位前景活动中起着重要作用。原创 2024-07-12 22:35:55 · 930 阅读 · 1 评论 -
【弱监督时间动作定位】Background Suppression Network for Weakly-Supervised Temporal Action Localization论文阅读
弱监督时间动作定位是一个非常具有挑战性的问题,因为在训练阶段没有逐帧标签,唯一的提示是视频级别的标签,即每个视频是否包含感兴趣的动作帧。以往的方法通过聚合帧级别的分类得分来生成视频级别的预测,并从视频级别的动作标签中学习。这种形式化方法并没有完全解决问题,因为背景帧被迫错误分类为动作类别,以准确预测视频级别的标签。本文中,我们设计了背景抑制网络(BaSNet),它引入了一个辅助类别用于背景,并采用了具有不对称训练策略的双分支权重共享架构。这使得BaS-Net能够抑制背景帧的激活,从而提高定位性能。原创 2024-07-12 17:24:38 · 1379 阅读 · 1 评论