自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(137)
  • 收藏
  • 关注

原创 【弱监督时间动作定位】Weakly Supervised Action Selection Learning in Video 论文阅读

在视频中定位动作是计算机视觉中的核心任务。弱监督时间定位问题研究是否可以仅通过视频级标签来充分解决此任务,从而显著减少所需的昂贵且易出错的注释量。一种常见的方法是训练帧级分类器,其中选择具有最高类别概率的帧来进行视频级预测。然后使用帧级激活来进行定位。然而,由于缺乏帧级注释,分类器会对每一帧施加类别偏差。为了解决这个问题,我们提出了动作选择学习(ASL)方法,以捕捉动作的一般概念,即我们称之为“动作性”的属性。在ASL下,模型通过一个新的无类别任务进行训练,以预测分类器将选择哪些帧。

2024-07-18 20:32:06 1055 1

原创 【弱监督时间动作定位】CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive ... 论文阅读

弱监督的时间动作定位 (WSTAL) 旨在仅使用视频级标签,在未裁剪的视频中定位动作。大多数现有模型遵循“通过分类进行定位”的过程:定位对视频级分类贡献最大的时间区域。通常,它们单独处理每个片段(或帧),从而忽略了丰富的时间上下文关系。这就产生了单片段欺骗问题:“困难”片段过于模糊,无法分类。在本文中,我们认为通过比较学习有助于识别这些困难片段,并提出利用片段对比学习来定位动作,简称为 CoLA。

2024-07-16 22:37:24 824

原创 【弱监督时间动作定位】Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in ..

弱监督时序动作定位的任务旨在为感兴趣的动作生成时间边界,同时还需要对动作类别进行分类。近年来,作为有效解决方案的伪标签方法受到了广泛研究。然而,现有方法在训练和测试阶段生成伪标签时采用了不同的流程或设置,导致训练和测试之间存在差距。本文提出从预测的动作边界生成高质量伪标签的方法。然而,我们注意到现有的后处理方法(如NMS)可能会导致信息丢失,这对于生成高质量的动作边界来说是不够的。更重要的是,将动作边界转换为伪标签是非常具有挑战性的,因为预测的动作实例通常是重叠的并且具有不同的置信度分数。

2024-07-16 15:46:01 534

原创 【弱监督时间动作定位】Weakly Supervised Temporal Action Localization via Representative Snippet ...论文阅读

弱监督时间动作定位的目标是通过仅有的视频级类别标签,来定位动作的时间边界并同时识别其类别。许多现有方法试图生成伪标签以弥合分类和定位之间的差距,但通常只利用有限的上下文信息来生成伪标签。为了解决这个问题,我们提出了一种代表性片段总结与传播框架。我们的方法旨在挖掘每个视频中的代表性片段,通过在视频片段之间传播信息来生成更好的伪标签。对于每个视频,利用其自身的代表性片段以及来自记忆库的代表性片段,以视频内和视频间的方式传播,更新输入特征。伪标签由更新特征的时间类激活图生成,以纠正主分支的预测。

2024-07-15 21:17:49 821

原创 【弱监督时间动作定位】Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature 论文阅读

弱监督的时序动作定位旨在在未剪辑的视频中同时定位动作区域并识别动作类别,仅使用视频级标签作为监督。伪标签生成是一种解决这一具有挑战性问题的有前途策略,但当前的方法忽略了视频的自然时间结构,这种结构可以提供丰富的信息来辅助生成过程。在本文中,我们提出了一种通过推断显著片段特征的新颖弱监督时序动作定位方法。首先,我们设计了一个显著性推断模块,该模块利用时间相邻片段之间的变化关系来发现显著片段特征,这些特征可以反映视频中的显著动态变化。其次,我们引入了一个边界精化模块,通过信息交互单元增强显著片段特征。

2024-07-15 17:08:54 686

原创 【弱监督时间动作定位】HR-Pro: Point-supervised Temporal Action Localization via Hierarchical ... 论文阅读

点监督时序动作定位(PSTAL)是标签有效学习领域的一个新兴研究方向。然而,当前的方法主要集中在优化网络在片段级别或实例级别上的表现,却忽视了在这两个级别上点标注所固有的可靠性。在本文中,我们提出了一个层次化可靠性传播(HR-Pro)框架,该框架包含两个注重可靠性的阶段:片段级区分学习和实例级完整性学习,这两个阶段都探索了点标注中高置信度线索的有效传播。在片段级学习阶段,我们引入了一个在线更新的内存模块,用于存储每个类别的可靠片段原型。

2024-07-14 22:16:33 533

原创 【弱监督时间动作定位】DUAL-FEATURE ENHANCEMENT FOR WEAKLY SUPERVISED TEMPORAL ACTION LOCALIZATION 论文阅读

弱监督时序动作定位(WTAL)旨在仅使用视频级标签在未剪辑的视频中定位动作。大多数现有方法采用“通过分类进行定位”的范式,并采用预训练识别任务的模型进行特征提取。识别任务和定位任务之间的差距导致了较差的性能。一些最新的工作尝试利用特征增强来获得更好的定位特征,并在一定程度上提升性能。然而,它们仅限于利用视频内信息,而忽略了数据集中有意义的视频间信息。在本文中,我们提出了一种新的双重特征增强(DFE)方法用于WTAL,可以利用视频内和视频间信息。

2024-07-13 22:02:08 742

原创 【弱监督时间动作定位】Weakly-supervised Temporal Action Localization by Uncertainty Modeling 论文阅读

弱监督时序动作定位旨在仅使用视频级别标签来学习检测动作类别的时序区间。为此,将动作类别的帧与背景帧(即不属于任何动作类别的帧)分离至关重要。在本文中,我们提出了一种关于背景帧的新视角,即将它们视为与其不一致性相关的分布外样本。随后,可以通过估计每帧作为分布外样本的概率(即不确定性)来检测背景帧,但在没有帧级别标签的情况下直接学习这种不确定性是不可行的。为了在弱监督设置下实现不确定性学习,我们利用了多实例学习公式。此外,我们还引入了背景熵损失以更好地区分背景帧。

2024-07-13 17:38:49 566 1

原创 【弱监督时间动作定位】A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action Localization 论文阅读

弱监督时序动作定位是一项具有挑战性的视觉任务,因为训练视频中缺少动作的真实时序位置。在训练过程中仅有视频级别的监督,大多数现有方法依赖于多实例学习(MIL)框架来预测视频中每个动作类别的开始帧和结束帧。然而,现有的基于MIL的方法存在一个主要限制,即只能捕捉到动作的最具区分性的帧,而忽略了活动的完整范围。此外,这些方法无法有效地建模背景活动,而背景活动在定位前景活动中起着重要作用。

2024-07-12 22:35:55 830 1

原创 【弱监督时间动作定位】Background Suppression Network for Weakly-Supervised Temporal Action Localization论文阅读

弱监督时间动作定位是一个非常具有挑战性的问题,因为在训练阶段没有逐帧标签,唯一的提示是视频级别的标签,即每个视频是否包含感兴趣的动作帧。以往的方法通过聚合帧级别的分类得分来生成视频级别的预测,并从视频级别的动作标签中学习。这种形式化方法并没有完全解决问题,因为背景帧被迫错误分类为动作类别,以准确预测视频级别的标签。本文中,我们设计了背景抑制网络(BaSNet),它引入了一个辅助类别用于背景,并采用了具有不对称训练策略的双分支权重共享架构。这使得BaS-Net能够抑制背景帧的激活,从而提高定位性能。

2024-07-12 17:24:38 1297 1

原创 【弱监督时间动作定位】Cross-modal Consensus Network for Weakly Supervised Temporal Action Localization 论文阅读

弱监督时序动作定位(WS-TAL)是一项具有挑战性的任务,旨在通过视频级别的分类监督,在给定的视频中定位动作实例。以往的研究直接使用从预训练特征编码器中提取的外观和运动特征,例如特征拼接或分数级融合。在这项工作中,我们认为从预训练提取器(例如I3D)提取的特征是为修剪视频动作分类而训练的,但并不特定用于WS-TAL任务,导致不可避免的冗余和次优结果。因此,需要对特征进行重新校准以减少与任务无关的信息冗余。在这里,我们提出了一种跨模态共识网络(CO2_22​-Net)来解决这个问题。在CO2_22。

2024-07-11 22:33:26 597 1

原创 【视频异常检测】Multi-Scale Video Anomaly Detection by Multi-Grained Spatio-Temporal Representation Learning

最近的视频异常检测进展表明,外观和运动特征在区分异常模式和正常模式中起着至关重要的作用。然而,我们注意到,异常的空间尺度影响被忽略了。许多异常事件发生在有限的局部区域,而严重的背景噪声会干扰对异常变化的学习。同时,大多数现有方法受限于粗粒度的建模方法,这些方法不足以学习高度辨别性的特征,无法区分小尺度异常与正常模式之间的细微差异。为此,本文通过多粒度时空表示学习来解决多尺度视频异常检测。我们利用视频连续性设计了三个代理任务,以在粗粒度和细粒度水平上执行特征学习,即连续性判断、不连续性定位和缺失帧估计。

2024-06-26 22:27:54 994

原创 【视频异常检测】Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection论文阅读

近来,弱监督视频异常检测(WS-VAD)作为一个当代研究方向兴起,用于仅通过视频级标签来识别视频中的异常事件,如暴力和裸露。然而,该任务面临着诸多挑战,包括处理不平衡的模态信息以及持续区分正常和异常特征。在本文中,我们针对这些挑战提出了一个多模态的WS-VAD框架,以准确检测暴力和裸露等异常事件。在所提出的框架中,我们引入了一种新的融合机制——跨模态融合适配器(CFA),该适配器能够动态选择并增强与视觉模态高度相关的视听特征。此外,我们引入了双曲洛伦兹图注意机制。

2024-06-25 20:17:49 866

原创 Attention-based Convolutional Neural Networks for Sentence Classification 论文阅读

句子分类是口语理解(SLU)和自然语言处理(NLP)中的基础任务之一。在本文中,我们提出了一种新颖的带注意力机制的卷积神经网络(CNN),以提高句子分类的性能。在传统的CNN中,很难有效地编码长期的上下文信息和非连续词之间的关联。相反,我们基于注意力的CNN能够捕获每个词的这些信息,而无需任何外部特征。我们在各种公共和内部数据集上进行了实验。实验结果表明,我们提出的模型明显优于传统的CNN模型,并且在利用丰富的句法特征的模型中取得了竞争性能。

2024-05-16 16:20:25 948

原创 BERT for Joint Intent Classification and Slot Filling 论文阅读

意图分类和槽填充是自然语言理解中两个重要的任务。它们通常受制于规模较小的人工标记训练数据,导致泛化能力较差,特别是对于罕见词汇。最近,一种新的语言表示模型BERT(Bidirectional Encoder Representations from Transformers)在大规模未标记语料库上进行了深度双向表示的预训练,通过简单微调后为各种自然语言处理任务创建了最先进的模型。然而,对于自然语言理解,尚未有太多关于探索BERT的努力。在本工作中,我们提出了一种基于BERT的联合意图分类和槽填充模型。

2024-05-15 21:10:57 889

原创 Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video 论文阅读

视频异常理解(VAU)旨在自动理解视频中的异常事件,从而实现诸如交通监控和工业制造等各种应用。虽然现有的VAU基准主要集中在异常检测和定位上,但我们的重点是更加实用性,促使我们提出以下关键问题:“发生了什么异常?”,“为什么会发生?”,以及“这种异常事件有多严重?”为了追求这些答案,我们提出了一个全面的视频异常因果理解(CUVA)基准。具体而言,所提出的基准的每个实例都涉及三组人类注释,以指示异常事件的“发生了什么”,“为什么会发生”,以及“如何严重”,包括1)异常类型、开始和结束时间以及事件描述,

2024-05-15 16:38:53 1021

原创 StNet: Local and Global Spatial-Temporal Modeling for Action Recognition 论文阅读

这篇论文探讨了视频中的空间-时间建模的最有效网络架构。与现有的CNN+RNN或纯粹基于3D卷积的方法不同,我们提出了一种新颖的空间-时间网络(StNet)架构,用于视频中的局部和全局建模。具体而言,StNet将N个连续的视频帧堆叠成一个超级图像,该图像具有3N个通道,并在超级图像上应用2D卷积来捕获局部空间-时间关系。为了建模全局空间-时间结构,我们在局部空间-时间特征图上应用时间卷积。具体来说,StNet提出了一个新颖的时间Xception块,它在视频的特征序列上分别使用通道级和时间级的卷积。

2024-05-14 20:51:47 985 3

原创 Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained ... 论文阅读

视觉语言模型(VLMs)在大规模图像文本对上进行预训练,已经在各种视觉任务中展现出了令人印象深刻的可迁移性。从这些强大的VLMs中转移知识是构建有效的视频识别模型的一个有前途的方向。然而,目前在这一领域的探索仍然有限。我们认为,预训练VLMs的最大价值在于构建视觉和文本领域之间的桥梁。在本文中,我们提出了一个名为BIKE的新框架,利用跨模态桥梁来探索双向知识:i)我们引入了视频属性关联机制,利用视频到文本的知识生成文本辅助属性,以补充视频识别。

2024-05-13 20:03:06 788

原创 STM: SpatioTemporal and Motion Encoding for Action Recognition 论文阅读

我们知道,时空和运动特征是视频动作识别中两种互补且至关重要的信息。最近的最新方法采用了一个3D CNN流来学习时空特征,并采用另一个流来学习运动特征。在这项工作中,我们旨在在一个统一的2D框架中有效地编码这两种特征。为此,我们首先提出了一个STM块,其中包含一个通道级时空模块(CSTM)来表示时空特征,以及一个通道级运动模块(CMM)来有效地编码运动特征。然后,我们将ResNet架构中的原始残差块替换为STM块,通过引入非常有限的额外计算成本,形成了一个简单但有效的STM网络。

2024-05-13 15:18:37 886 3

原创 TEINet: Towards an Efficient Architecture for Video Recognition 论文阅读

在设计用于动作识别的视频架构时,效率是一个重要问题。3D卷积神经网络在视频动作识别方面取得了显著进展。然而,与其2D对应物相比,3D卷积往往引入了大量参数并导致高计算成本。为了缓解这个问题,我们提出了一种高效的时间模块,称为时间增强和交互(TEI)模块,它可以插入到现有的2D卷积神经网络中(称为TEINet)。TEI模块通过解耦通道相关性建模和时间交互学习了不同的范例来学习时间特征。首先,它包含一个增强运动模块(MEM),用于增强与运动相关的特征,同时抑制不相关的信息(例如,背景)。

2024-05-11 22:16:13 1167 4

原创 TEA: Temporal Excitation and Aggregation for Action Recognition 论文阅读

时间建模对于视频中的动作识别至关重要。它通常考虑了短期运动和长期聚合。在本文中,我们提出了一个称为时间激励与聚合(TEA)块,包括一个运动激励(ME)模块和一个多重时间聚合(MTA)模块,专门设计用于捕获短期和长期时间演变。特别是,对于短期运动建模,ME模块从时空特征中计算特征级的时间差异。然后利用这些差异来激发特征的运动敏感通道。先前工作中的长期时间聚合通常是通过堆叠大量的局部时间卷积来实现的。每个卷积一次处理一个局部时间窗口。相反,MTA模块提出将局部卷积变形为一组子卷积,形成一个分层残差架构。

2024-05-11 19:57:00 1368 3

原创 TDN: Temporal Difference Networks for Efficient Action Recognition 论文阅读

时间建模在视频动作识别中仍然是一个具有挑战性的问题。为了缓解这个问题,本文提出了一种新的视频架构,称为Temporal Difference Network(TDN),重点是捕获多尺度的时间信息以实现高效的动作识别。我们TDN的核心是通过明确利用时间差分算子设计一个高效的时间模块(TDM),并系统评估其对短期和长期运动建模的影响。为了完全捕获整个视频的时间信息,我们的TDN采用了两级差分建模范式。

2024-05-10 21:25:43 1235

原创 Discriminability-Driven Graph Network for Weakly-supervised Temporal Action Localization 论文阅读

弱监督时空动作定位(WTAL)是一项实际但具有挑战性的任务。由于大规模数据集的存在,大多数现有方法使用在其他数据集上预训练的网络来提取特征,这些特征对于WTAL来说并不足够合适。为了解决这个问题,研究人员设计了几个用于特征增强的模块,这些模块改进了定位模块的性能,特别是对片段之间的时间关系进行建模。然而,所有这些方法都忽略了模糊的片段会传递矛盾信息的现象,这会降低相关片段的可辨识性。

2024-05-10 14:49:19 698

原创 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization 论文阅读

弱监督时序动作定位旨在在训练期间仅使用视频级别的类别标签来定位和识别未修剪的视频中的动作。在没有实例级别注释的情况下,大多数现有方法都遵循基于片段的多实例学习(S-MIL)框架,其中片段的预测受视频标签的监督。然而,在训练期间获取片段级别得分的目标与在测试期间获取提议级别得分的目标不一致,导致结果不佳。为了解决这个问题,我们提出了一种新颖的基于提议的多实例学习(P-MIL)框架,该框架直接对候选提议进行分类,包括以下三个关键设计:1)周围对比特征提取模块,通过考虑周围对比信息抑制具有区分性的短提议;

2024-05-09 12:18:09 1001 2

原创 MULTI-SCALE CONTINUITY-AWARE REFINEMENT NETWORK FOR WEAKLY SUPERVISED VIDEO ANOMALY DETECTION 论文阅读

在许多先前的工作中,弱监督视频异常检测被制定为多实例学习(MIL)问题,这将视频表示为多个实例的集合。然而,大多数基于MIL的框架仅关注于从给定的实例中识别异常事件,而不考虑事件的连续性。由于异常事件在真实世界的视频中往往更具连续性,因此本文提出了一种多尺度连续性感知精化网络(MCR)。它利用多尺度连续性的特性,通过引入实例的差异化上下文信息来精化异常分数。同时,设计了多尺度注意力来产生视频级别的权重,以选择适当的尺度并融合不同尺度上的所有分数。

2024-04-23 20:06:07 1135 3

原创 【视频异常检测】Open-Vocabulary Video Anomaly Detection 论文阅读

当前的视频异常检测(VAD)方法在弱监督下通常局限于封闭集设置,并且可能在测试数据中存在未见过的异常类别的开放世界应用中遇到困难。最近的一些研究尝试解决一个更现实的问题,即开放集异常检测(open-set VAD),其旨在检测给定已见异常和正常视频的未见异常。然而,这样的设置侧重于预测帧异常分数,无法识别异常的具体类别,尽管这种能力对于构建更加明智的视频监控系统至关重要。本文进一步探讨了开放词汇视频异常检测(OVVAD),我们旨在利用预训练的大型模型来检测和分类已见和未见的异常。

2024-04-23 16:07:55 1810 2

原创 Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization 论文阅读

时间动作定位对于理解未剪辑视频至关重要。在这项工作中,我们首先确定了由于弱监督而引起的两个未充分探讨的问题,即动作完整性建模和动作上下文分离。然后,通过提出一种新颖的网络架构及其训练策略,我们明确地研究了这两个问题。具体而言,为了模拟动作的完整性,我们提出了一个多分支神经网络,其中的分支被强制发现独特的动作部分。因此,可以通过融合来自不同分支的激活来定位完整的动作。为了将动作实例与周围的上下文分开,我们利用了静止视频剪辑不太可能是动作的先验知识,为训练生成了硬负样本数据。

2024-04-17 21:57:49 836

原创 【视频异常检测】Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised... 论文阅读

弱监督视频异常检测旨在仅利用视频级别标签来识别视频中的异常事件。最近,两阶段自训练方法通过自动生成伪标签并利用这些标签自我调整异常分数取得了显著的改进。由于伪标签起着关键作用,我们提出了一种增强框架,通过利用完整性和不确定性属性来实现有效的自训练。具体而言,我们首先设计了一个多头分类模块(每个头作为一个分类器),并采用多样性损失来最大化不同头部预测的伪标签分布差异。这鼓励生成的伪标签尽可能涵盖多个异常事件。然后,我们设计了一个迭代的不确定性伪标签优化策略。

2024-04-17 16:13:28 1323 1

原创 Weakly Supervised Audio-Visual Violence Detection 论文阅读

由于近年来大量视频的涌现,视频中的暴力检测在实际应用中非常有前景。大多数以前的工作将暴力检测定义为简单的视频分类任务,并使用小规模数据集的单模态,例如,视觉信号。然而,这样的解决方案供给不足。为了缓解这个问题,我们研究了大规模音视频暴力数据上的弱监督暴力检测,并首次引入了两个互补的任务,即粗粒度暴力帧检测和细粒度暴力事件检测,将简单的暴力视频分类推进到帧级别的暴力事件定位,旨在准确地定位未经修剪的视频中的暴力事件。

2024-04-16 17:47:40 1220

原创 Modality-Aware Contrastive Instance Learning with Self-Distillation ... 论文阅读

弱监督的音频-视觉暴力检测旨在利用视频级别标签区分包含多模态暴力事件的片段。许多先前的工作在早期或中间阶段执行音频-视觉整合和交互,但忽略了在弱监督设置下的模态异质性。在本文中,我们分析了多实例学习(MIL)过程中的模态异步性和未区分实例现象,并进一步研究了它对弱监督音频-视觉学习的负面影响。为了解决这些问题,我们提出了一种模态感知对比实例学习与自我蒸馏(MACIL-SD)策略。具体来说,我们利用轻量级的双流网络生成音频和视觉袋,其中单模态背景、暴力和正常实例以无监督方式聚类为半袋。

2024-04-16 11:16:39 1209

原创 【视频异常检测】Learning Multimodal Violence Detection under Weak Supervision 论文阅读

暴力检测在计算机视觉领域已经研究多年。然而,先前的工作要么是表面的,例如对短视频剪辑进行分类,并且只针对单一场景;要么是不足的,例如只使用单一模态,或者基于手工特征的多模态。为了解决这个问题,本文首先发布了一个名为XD-Violence的大规模多场景数据集,总时长为217小时,包含4754个未剪辑的视频,并带有音频信号和弱标签。然后,我们提出了一个神经网络,包含三个并行分支,用于捕获视频片段之间的不同关系并集成特征。

2024-04-15 21:28:14 1648 1

原创 【视频异常检测】Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly 论文阅读

弱监督视频异常检测(WSVAD)是一项具有挑战性的任务。基于弱标签生成细粒度伪标签,然后进行自我训练分类器是目前一个有前景的解决方案。然而,由于现有方法仅使用RGB视觉模态,忽略了类别文本信息的利用,从而限制了更准确伪标签的生成,并影响了自我训练的性能。受基于事件描述的手动标注过程的启发,在本文中,我们提出了一种基于文本提示与正常性引导(TPWNG)的弱监督视频异常检测伪标签生成和自我训练框架。

2024-04-15 15:21:17 1101 3

原创 DePT: Decoupled Prompt Tuning 论文阅读

这项工作突破了提示调整中的基础-新任务权衡(BNT)困境,即调整后的模型对基础(或目标)任务的泛化效果越好,对新任务的泛化效果就越差,反之亦然。具体来说,通过对基础任务和新任务学到的特征进行深入分析,我们观察到BNT源于通道偏置问题 - 绝大多数特征通道被基础特定知识所占据,导致了对新任务重要的任务共享知识的崩溃。

2024-04-15 10:30:40 1035 3

原创 [视频异常检测]Dynamic Distinction Learning: Adaptive Pseudo Anomalies for Video Anomaly Detection 论文阅读

我们引入了动态区分学习(DDL)用于视频异常检测,这是一种结合了伪异常动态异常加权和区分损失函数的新型视频异常检测方法,以提高检测准确性。通过在伪异常上进行训练,我们的方法能够适应正常和异常行为的变化性,而无需固定的异常阈值。我们的模型在Ped2、Avenue和ShanghaiTech数据集上展现了卓越的性能,其中为每个场景定制了单独的模型。这些成就突显了DDL在推进异常检测方面的有效性,为视频监控挑战提供了可扩展和可适应的解决方案。代码还没公布,论文好像也没说σℓσ(ℓ)σℓ。

2024-04-12 22:15:12 844 1

原创 Deformable Convolutional Networks论文阅读

这项工作介绍了两个新模块,以增强卷积神经网络(CNNs)的变换建模能力,分别是可变形卷积(deformable convolution)和可变形RoI池化(deformable RoI pooling)。这两个模块的基本思想是在模块中增加额外的偏移量,从而增强空间采样位置的变换能力,并从目标任务中学习这些偏移量,无需额外的监督。

2024-04-08 22:20:26 1126

原创 【视频异常检测】Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly Detection 论文阅读

弱监督视频异常检测(WSVAD)是一个具有挑战性的问题,旨在仅利用视频级别的标注来学习VAD模型。在这项工作中,我们提出了一种长短时序协同教学(LSTC)方法来解决WS-VAD问题。它构建了两个基于管状体的时空transformer网络,分别从短期和长期视频剪辑中进行学习。每个网络都根据基于多实例学习(MIL)的排序损失进行训练,当剪辑级别的伪标签可用时,还会使用交叉熵损失。采用协同教学策略来训练这两个网络。

2024-04-02 19:37:14 1022

原创 【视频异常检测】Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection 论文阅读

弱监督视频异常检测(WSVAD)是具有挑战性的,因为异常的二进制标签仅在视频级别上给出,但输出需要针对片段级别的预测。因此,在WSVAD中,多实例学习(MIL)被广泛采用。然而,众所周知,MIL往往会产生许多错误警报,因为片段级别的检测器很容易受到简单上下文中异常片段的影响,会被具有相同偏见的正常片段所混淆,并且会错过具有不同模式的异常。(UMIL),旨在学习改善WSVAD的无偏异常特征。

2024-04-01 19:29:31 839 4

原创 Decoupled Multimodal Distilling for Emotion Recognition 论文阅读

这项工作旨在通过语言、视觉和声音等多种形式感知人类情感,即人类多模态情感识别(MER)。尽管先前的MER方法表现出色,但固有的多模态异质性仍然存在,不同模态的贡献差异显著。为了解决这个问题,我们提出了一种分离式多模态蒸馏(DMD)方法,通过促进灵活和自适应的跨模态知识蒸馏,旨在增强每种模态的区分特征。特别地,每种模态的表示被分解为两部分,即与模态无关/独占的空间,以自回归方式进行。DMD利用图蒸馏单元(GD-Unit)对每个分离的部分进行处理,以便每个GD可以以更专业和有效的方式执行。

2024-03-31 18:54:40 1362

原创 【视频异常检测】Learning Prompt-Enhanced Context Features for Weakly-Supervised Video Anomaly Detection 论文阅读

视频异常检测在弱监督条件下面临着重大挑战,特别是由于在训练过程中缺乏帧级别的注释。虽然先前的研究在建模时间关系和学习具有区分性特征方面使用了图卷积网络和自注意力机制以及基于多实例学习(MIL)的分类损失,但这些方法通常采用多分支架构来分别捕获局部和全局依赖关系,从而增加了参数和计算成本。此外,MIL损失的二元约束提供的粗粒度跨类别可分性忽视了异常类别内部的细粒度可辨识性。为了解决这一问题,本文介绍了一个弱监督异常检测框架,重点放在有效的上下文建模和增强的语义可辨识性上。我们提出了一个称为。

2024-03-27 16:52:01 958

原创 【视频异常检测】MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection 论文阅读

弱监督视频异常检测(WS-VAD)旨在基于具有区分性的表示来区分异常事件和正常事件。大多数现有的工作在视频表示方面存在不足。在这项工作中,我们开发了一个多实例自训练框架(MIST),以仅基于视频级别注释有效地完善任务特定的区分性表示。具体而言,MIST由以下两部分组成:1)多实例伪标签生成器,该生成器采用稀疏连续抽样策略来生成更可靠的片段级伪标签;以及2)自引导注意力增强的特征编码器,旨在在提取任务特定表示时自动聚焦于帧中的异常区域。

2024-03-20 22:15:00 1278 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除