- 博客(79)
- 收藏
- 关注
原创 CRCL: Causal Representation Consistency Learning for Anomaly Detection in Surveillance Videos
视频异常检测(VAD)在视频理解领域仍然是一项基础且具有挑战性的任务,在信息取证和公共安全保护等领域有着广阔的应用前景。由于异常情况的罕见性和多样性,现有方法仅利用容易收集的正常事件,以无监督的方式对正常时空模式的内在常态进行建模。尽管这些方法受益于深度学习的发展取得了显著进展,但它们试图对可观测视频和语义标签之间的统计依赖关系进行建模,这是对常态的粗略描述,缺乏对其潜在因果关系的系统探索。
2025-04-23 19:45:25
740
2
原创 Anomize: Better Open Vocabulary Video Anomaly Detection
开放词汇视频异常检测(Open Vocabulary Video Anomaly Detection,OVVAD)旨在检测并分类基础和新颖的异常事件。然而,现有方法在应对新颖异常时面临两大挑战。其一是检测歧义性(detection ambiguity):模型难以为不熟悉的异常赋予准确的异常分数;其二是分类混淆(categorization confusion):新颖异常常被误分类为视觉上相似的基础实例。为了解决这些挑战,我们探索多源补充信息,通过多层次视觉数据与匹配文本信息结合,缓解检测歧义性。
2025-04-23 15:30:32
665
原创 Federated Weakly Supervised Video Anomaly Detection with Multimodal Prompt
视频异常检测(Video Anomaly Detection, VAD)旨在定位视频中的异常事件。近年来,弱监督视频异常检测(Weakly Supervised VAD)取得了显著进展,其在训练时仅需视频级标签。在实际应用中,不同机构可能拥有不同类型的异常视频。然而,出于隐私保护的考虑,这些异常视频无法在互联网上流通。为了训练一个能够识别多种异常类型的更具泛化能力的异常检测器,将联邦学习引入 WSVAD 是合理的。
2025-04-20 17:55:57
1072
原创 VarCMP: Adapting Cross-Modal Pre-Training Models for Video Anomaly Retrieval
视频异常检索(VAR)旨在通过文本描述、同步音频等跨模态查询,从长未修剪视频集合中检索相关的异常或正常视频。跨模态预训练(CMP)模型通过对大规模图像 - 文本等跨模态对进行预训练,能够学习不同模态间的丰富关联,这种跨模态关联能力使其在传统检索任务中具有优势。受此启发,如何利用CMP模型强大的跨模态关联能力,从长未修剪视频中搜索关键视觉组件成为重要研究问题。为此,本文提出一种基于CMP模型的VAR方法VarCMP。
2025-04-20 15:44:44
1453
原创 A Causal Inference Look at Unsupervised Video Anomaly Detection
无监督视频异常检测是一项在工业应用和学术研究中都极具挑战性但又非常重要的任务,它不需要任何形式的已标注正常/异常训练数据。现有方法通常遵循迭代伪标签生成过程。然而,它们缺乏对这种伪标签生成对训练影响的原则性分析。此外,长程时间依赖关系也被忽视了,这是不合理的,因为异常事件的定义依赖于长程时间上下文。为此,首先,我们提出一个因果图来分析伪标签生成过程的混杂效应。然后,我们引入一个简单而有效的基于因果推断的框架,以消除噪声伪标签的影响。
2025-04-13 20:33:27
867
原创 Learning Causality-inspired Representation Consistency for Video Anomaly Detection
视频异常检测是多媒体领域一项至关重要但颇具挑战的任务,在智慧城市和安全社区等方面有着广阔的应用前景。现有方法试图通过统计依赖关系学习正常事件的抽象表征,以此对内在的正常状态进行建模,并通过衡量与所学分布的偏差来识别异常。然而,传统的表征学习只是对视频正常状态的粗略描述,缺乏对其潜在因果关系的探索。对于现实世界中多样的正常事件,所学的统计依赖关系并不可靠,可能会因过度泛化而导致较高的误报率。受因果表征学习的启发,我们认为存在一个因果变量,能够充分表征正常事件的一般模式,而异常事件在这些模式上会呈现出显著变化。
2025-04-13 19:59:31
1136
原创 LARGE-SCALE CONTRASTIVE LANGUAGE-AUDIO PRETRAINING WITH FEATURE FUSION AND KEYWORD-TO-CAPTION AUGMEN
对比学习在多模态表示学习领域已取得显著成果。本文提出一种对比语言-音频预训练流程,通过将音频数据与自然语言描述相结合来构建音频表示。为实现这一目标,我们首先发布了LAION-Audio-630K,这是一个包含633,526个音频-文本对的大规模数据集,数据来源多样。其次,我们构建了对比语言-音频预训练模型,综合考量不同的音频编码器和文本编码器,并在模型设计中融入特征融合机制与关键词转字幕增强技术,进一步提升模型处理可变长度音频输入的能力与性能。
2025-03-29 21:11:27
834
原创 Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature
弱监督时序动作定位旨在仅使用视频级标签作为监督,同时定位未修剪视频中的动作区域并识别动作类别。伪标签生成是解决这一挑战性问题的有前景的策略,但当前的方法忽略了视频的自然时序结构,该结构可以提供丰富的信息来辅助生成过程。本文提出了一种通过推断显著片段特征的新颖弱监督时序动作定位方法。首先,我们设计了一个显著性推断模块,利用时序相邻片段之间的变化关系来发现显著片段特征,这些特征可以反映视频中的显著动态变化。其次,我们引入了一个边界细化模块,通过信息交互单元增强显著片段特征。
2025-03-25 19:56:14
944
原创 Cross-modal Causal Relation Alignment for Video Question Grounding
视频问题定位(Video Question Grounding, VideoQG)要求模型回答问题的同时,推断出相关的视频片段以支持答案。然而,现有的VideoQG方法通常受虚假跨模态相关性的影响,无法识别与目标问题一致的主要视觉场景。此外,视觉语言模型在具有挑战性的下游任务(如VideoQG)中表现出不可靠的泛化性能,且缺乏稳健性。
2025-03-25 13:04:37
906
1
原创 学习Stable Diffusion
将文本特征、噪声图、噪声步(如50,表示逐步添加了50次的噪声)输入U-Net网络,得到当前预测的噪声图,分为有文本特征引导的噪声图和没有文本特征引导的噪声图,将文本引导的噪声图和没有文本引导的噪声图相减--》得到差异图(也就是文本特征所造成的差异)。2.将得到的噪声和文本特征输入U-Net中预测每步的噪声图,将输入的原始噪声图和预测的噪声图相减实现去噪的效果(注意去噪之后还要加上前一步的噪声图,从而实现在补全信息的同时避免逐步去掉噪声导致像素点均为0的问题),如此迭代得到没有噪声的图像。
2025-03-22 16:05:34
523
原创 RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter
文本-视频检索(TVR)旨在将相关视频内容与自然语言查询进行匹配。目前,大多数先进的TVR方法都是基于大规模预训练的视觉语言模型(如CLIP)进行图像到视频的迁移学习。然而,对这些预训练模型进行全量微调以用于TVR会带来极高的计算成本。为此,我们提出使用稀疏相关适配器(RAP)进行高效的文本-视频检索,即通过少量参数化层对预训练模型进行微调。为适应文本-视频场景,我们赋予RAP两个不可或缺的特性:时间稀疏性和相关性。
2025-03-02 23:08:10
767
原创 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization
弱监督时域动作定位旨在仅使用视频级别的类别标签,在未修剪的视频中定位和识别动作。由于缺乏实例级标注,大多数现有方法遵循基于片段的多实例学习(S-MIL)框架,在该框架中,片段的预测由视频标签监督。然而,训练阶段获取片段级分数的目标与测试阶段获取提案级分数的目标不一致,导致结果不理想。为解决此问题,我们提出一种新颖的基于提案的多实例学习(P-MIL)框架,该框架在训练和测试阶段均直接对候选提案进行分类。它包含三个关键设计:1)一个周围对比特征提取模块,通过考虑周围对比信息来抑制具有判别力的短提案;
2025-03-02 19:15:13
710
原创 Actionness Inconsistency-Guided Contrastive Learning for Weakly-Supervised Temporal Action Localizat
弱监督时序动作定位(WTAL)旨在仅给定视频级标签的情况下检测动作实例。为应对这一挑战,近期的方法通常采用由类别感知分支和类别无关分支组成的双分支框架。原则上,这两个分支应产生相同的动作性激活。然而,我们观察到实际上存在许多不一致的激活区域。这些不一致区域通常包含一些具有挑战性的片段,其语义信息(动作或背景)较为模糊。在这项工作中,我们提出了一种新颖的基于动作性不一致引导的对比学习(AICL)方法,该方法利用一致片段来促进不一致片段的表示学习。
2025-01-08 21:36:05
845
原创 Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding
本文首次利用多模态视频进行弱监督时序视频定位。由于标注视频片段耗时费力且具有主观性,近年来弱监督方法受到越来越多的关注。然而,这些方法由于监督不足,本质上可能会影响性能。因此,为应对这一挑战,我们首次关注从多模态视频(如RGB帧、光流)中提取的互补信息,在弱监督背景下自然引入更丰富的监督。我们的动机是,通过整合视频的不同模态,模型从协同监督中学习,从而获得更强的泛化能力。然而,处理多个模态也不可避免地会引入额外的计算开销,并且如果特定模态不可用,可能变得不适用。
2024-12-12 20:46:16
742
原创 CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion
多模态(MM)图像融合旨在生成融合图像,以保持不同模态的优点,如功能亮点和细节纹理。为了应对跨模态特征建模以及分解理想的模态特定和模态共享特征的挑战,我们提出了一种新颖的相关驱动特征分解融合(CDDFuse)网络。首先,CDDFuse使用Restormer块提取跨模态浅层特征。然后,我们引入了一个双分支Transformer - CNN特征提取器,其中包含利用长距离注意力处理低频全局特征的Lite Transformer(LT)块和专注于提取高频局部信息的可逆神经网络(INN)块。
2024-12-12 18:09:17
1294
原创 Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection
弱监督多模态暴力检测旨在通过利用多个模态(如RGB、光流和音频)来学习暴力检测模型,同时仅依赖视频级标注。在实现高效多模态暴力检测(MVD)的过程中,信息冗余、模态不平衡和模态异步被确认为三大关键挑战。针对这些挑战,本文提出了一种新的弱监督MVD方法。具体而言,我们引入了一个基于多尺度瓶颈变换器(MSBT)的融合模块,该模块通过减少瓶颈令牌的数量逐步浓缩信息并融合每对模态,同时利用基于瓶颈令牌的加权方案突出更重要的融合特征。此外,我们提出了一种时间一致性对比损失,以对每对融合特征进行语义对齐。
2024-12-09 17:01:27
894
原创 D3G: Exploring Gaussian Prior for Temporal Sentence Grounding with Glance Annotation
时态语句定位(TSG)旨在根据给定的自然语言查询从非剪辑视频中定位特定时刻。最近,弱监督方法与全监督方法相比仍有较大性能差距,而后者需要繁琐的时间戳标注。在本研究中,我们旨在降低标注成本,同时在 TSG 任务中保持与全监督方法相比具有竞争力的性能。为实现这一目标,我们研究了最近提出的扫视监督时态语句定位任务,该任务仅需为每个查询提供单帧标注(称为扫视标注)。
2024-12-09 14:22:59
936
原创 Harnessing Large Language Models for Training-free Video Anomaly Detection
视频异常检测(VAD)旨在定位视频中的异常事件。现有的研究大多依赖于训练深度模型,以学习正常性分布,使用视频级监督、单类监督或无监督设置。基于训练的方法容易受到领域特定的限制,因此在实际部署中成本较高,因为任何领域变化都需要重新收集数据并重新训练模型。本文与以往的工作大为不同,提出了基于语言的视频异常检测方法(LAVAD),这是一种在新颖的无训练范式下处理视频异常检测的方法,利用了预训练的大型语言模型(LLMs)和现有的视觉-语言模型(VLMs)的能力。我们利用基于VLM的字幕生成。
2024-12-03 16:15:05
969
原创 Weakly Supervised Video Emotion Detection and Prediction via Cross-Modal Temporal Erasing Network
最近,自动预测用户生成视频(UGV)的情感引起了越来越多的关注。然而,现有方法主要集中在少数关键视觉帧上,这可能限制了它们编码表达预期情感的上下文信息的能力。为了解决这一问题,本文提出了一种跨模态时间擦除网络,该网络以弱监督的方式不仅定位关键帧,还能够捕捉上下文和与音频相关的信息。具体来说,我们首先利用不同视频片段之间的模内和模间关系,准确选择关键帧。然后,我们通过反复擦除关键帧来鼓励模型关注包含互补信息的上下文。
2024-11-28 13:44:34
1131
原创 MGFN : Magnitude-Contrastive Glance-and-Focus Network for Weakly-Supervised Video Anomaly Detection
在监控视频中进行弱监督的异常检测是一项具有挑战性的任务。超越现有工作中在长视频中定位异常能力不足的问题,我们提出了一种新颖的浏览-聚焦网络,以有效地整合时空信息来实现精确的异常检测。此外,我们通过实证发现,现有的使用特征幅度来表示异常程度的方法通常忽略了场景变化的影响,因此由于不同场景间特征幅度的一致性问题而导致性能不佳。为了解决这个问题,我们提出了特征放大机制和幅度对比损失,以增强特征幅度对异常检测的区分性。
2024-10-30 13:59:28
712
原创 Injecting Text Clues for Improving Anomalous Event Detection From Weakly Labeled Videos
视频异常检测(VAD)旨在定位长无约束视频中包含异常事件的片段。弱监督(WS)设置,即在训练期间仅提供视频级别的标签,由于其在检测性能与标注成本之间达到了令人满意的平衡而受到了广泛关注。然而,由于缺乏片段级别的密集标签,现有的WS-VAD方法仍然容易出现由误报和不完全定位导致的检测错误。为了解决这一困境,本文提出通过一个专用的双分支框架注入异常事件类别的文本线索来改进WS-VAD。
2024-10-29 15:07:38
956
原创 TDSD: Text-Driven Scene-Decoupled Weakly Supervised Video Anomaly Detection
标题:TDSD:文本驱动的场景解耦弱监督视频异常检测原文连接:https://openreview.net/pdf?id=TAVtkpjS9P源码链接(暂无内容,作者说后续会更新):https://github.com/shengyangsun/TDSD发表:ACM MM视频异常检测因其在公共安全中的重要作用而在近年来受到了工业界和学术界的广泛关注。然而,许多现有的方法忽视了场景对异常检测的影响。这些方法简单地将某些行为或物体的出现标记为异常。实际上,场景上下文在判断异常情况时起着至关重要的作用。例如
2024-10-28 12:26:58
704
原创 Semantic-driven dual consistency learning for weakly supervised video anomaly detection
视频异常检测是计算机视觉中的一个重要挑战,其目标是从大量正常事件中区分出各种异常事件。弱监督视频异常检测最近作为一种有前景的解决方案出现,它能够在仅有视频级别标注的情况下检测出异常片段。然而,关于异常标注的知识仍然没有得到充分利用,这导致了视觉空间与对异常的语义理解之间存在差距,从而无法清晰地捕捉到异常与正常之间的界限。因此,我们提出了一种基于跨模态检测和一致性学习的弱监督范式,利用双重一致性为异常在语义-目标级和目标-片段级提供具有辨识性的表示。具体来说,我们引入了一个跨模态检测网络。
2024-10-10 11:58:35
828
原创 Look Around for Anomalies:Weakly-supervised Anomaly Detection via Context-Motion Relational Learning
弱监督视频异常检测的任务是使用视频级别的标注训练数据来检测帧级别的异常。利用最少的弱标签监督和单一主干分支来探索具有代表性的类别特征是非常困难的。此外,在现实世界场景中,正常与异常之间的界限往往是模糊且会根据具体情况而变化的。例如,即使是同一个人跑步的动作,其是否异常也会因其周围环境是操场还是道路而有所不同。因此,我们的目标是通过加宽单一分支内类别特征之间的相对差距来提取区分性特征。在所提出的类激活特征学习。
2024-09-27 22:23:44
927
2
原创 WSVAD Review
视频异常检测(VAD)在监控、医疗健康及环境监测等多个领域中具有极其重要的作用。尽管已有许多综述聚焦于传统的VAD方法,但它们往往未能深入探讨特定的方法和技术趋势。本综述专注于基于深度学习的VAD技术,并超越了传统的监督训练范式,涵盖了新兴的弱监督、自监督和无监督方法。本文的一个显著特点是探讨了VAD范式中的核心挑战,包括大规模数据集的处理、特征提取、学习方法、损失函数、正则化以及异常评分预测。此外,本文还研究了视觉-语言模型(VLMs)作为VAD的强大特征提取器的应用。
2024-09-26 14:10:51
908
原创 Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection
标题:跨模态融合和注意机制的弱监督视频异常检测源文链接:发表:CVPR-2024。
2024-09-06 11:35:00
940
1
原创 Prompt-Enhanced Multiple Instance Learning for Weakly Supervised Video Anomaly Detection
弱监督视频异常检测(wVAD)旨在仅使用视频级别的标签来进行帧级异常的检测。由于粗粒度标签的限制,多实例学习(MIL)在wVAD中得到了广泛应用。然而,MIL面临着二元监督不足的问题,这限制了其对多种异常模式的建模能力。此外,异常事件与其上下文之间的耦合关系妨碍了清晰异常事件边界的学习。本文提出了一种基于提示增强的多实例学习方法,以检测各种异常事件同时确保清晰的事件边界。具体而言,我们设计了异常感知提示,通过结合异常类别的注释与可学习的提示,能够动态地将语义先验信息融入到视频特征中。
2024-07-27 20:52:23
1194
1
原创 【音频和视频】Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space
近年来,弱监督的音频-视觉暴力检测任务受到了相当大的关注。该任务的目标是在基于视频级别标签的多模态数据中识别出暴力片段。尽管该领域已经取得了进展,但之前研究中使用的传统欧几里得神经网络在捕捉高度区分性的表示方面遇到了困难,这是由于特征空间的局限性所致。为了解决这个问题,我们提出了HyperVD,这是一种创新的框架,它在双曲空间中学习片段嵌入,以增强模型的辨别能力。我们贡献了两个全双曲图卷积网络的分支,这些网络在双曲空间中挖掘片段之间的特征相似性和时间关系。
2024-07-22 21:23:08
1265
原创 CLIP-TSA: CLIP-ASSISTED TEMPORAL SELF-ATTENTION FORWEAKLY-SUPERVISED VIDEO ANOMALY DETECTION
视频异常检测(VAD)——由于其劳动密集型的本质,通常被表述为一种弱监督下的多实例学习问题——是视频监控中的一个挑战性问题,需要在未剪辑的视频中定位异常帧。在本文中,我们首次提议利用来自CLIP的ViT编码视觉特征,这与领域内传统的C3D或I3D特征形成对比,以在这一新颖技术中高效地抽取判别性表示。随后,我们通过运用我们提出的时序自我注意(TSA)机制来建模时间依赖性,并挑选感兴趣的时间片段。消融研究确认了TSA和ViT特征的有效性。
2024-07-19 20:42:34
923
原创 MULTIMODAL EMOTION RECOGNITION BASED ON DEEP TEMPORAL FEATURESUSING CROSS-MODAL TRANSFORMER AND SEL
多模态语音情感识别(MSER)是一个新兴且充满挑战的研究领域,因其相较于单一模态具有更强的鲁棒性特征。然而,在多模态方法中,利用语音表示的不同模态进行模型构建时,其相互关系尚未得到充分探究。为了解决这一问题,我们提出了一种新的方法,用于捕捉音频和文本的深度时序特征。音频特征通过卷积神经网络(CNN)和双向门控循环单元(Bi-GRU)网络进行学习。文本特征则由GloVe词嵌入结合Bi-GRU表示。设计了一个跨模态变换器模块,用于多模态学习,以便更好地捕捉音频与文本特征之间的交互作用和时序信息。
2024-07-17 21:32:41
996
原创 Multi-modal Information Fusion for Action Unit Detection in the Wild
动作单元(AU)检测是情感计算领域的一个重要研究分支,它帮助我们更好地理解人类的情感意图,并能以更自然的方式响应他们的需求和愿望。在本文中,我们介绍了我们在第五届“在野外的”情感行为分析(ABAW)竞赛中的最新技术进展,包括通过标记进行的数据平衡、通过训练于面部数据库的模型提取视觉特征以及通过深度网络和传统方法从音频中提取特征、提出模型结构以将多模态信息映射到统一的多模态向量空间中以及融合来自多个模型的结果。这些方法在Aff-Wild2官方验证数据集上表现出有效性。
2024-07-16 17:36:17
1059
原创 Joint Multimodal Transformer for Emotion Recognition in the Wild
多模态情感识别(MMER)系统通常通过利用诸如视觉、文本、生理和听觉模态之间的跨模态和内模态关系,从而超越单模态系统的表现。本文提出了一种基于联合多模态变换器(Joint Multimodal Transformer,简称JMT)的MMER方法,该方法采用基于键的交叉注意力进行融合。此框架能够利用不同模态的互补特性,以提高预测准确性。独立的后端网络在视频序列中捕获每个模态内的时空依赖关系。随后,我们的JMT融合架构整合了个别模态的嵌入,使模型能有效捕捉跨模态和内模态的关系。
2024-07-15 20:54:51
1169
原创 Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition
尽管近年来多模态情感识别取得了显著进展,但跨模态间丰富的协同关系尚未得到充分利用。在本文中,我们引入了一种名为“递归联合跨模态注意力”(RJCMA)的方法,旨在有效地捕捉音频、视觉和文本模态之间以及模态内部的关系,用于维度情感识别。具体来说,我们基于联合的音频-视觉-文本特征表示与各单独模态的特征表示之间的交叉相关性来计算注意力权重,以此同时捕捉模态内部和模态间的关联。然后,我们将各单独模态的加权特征再次作为输入,通过递归机制送入融合模型,以获得更加精细的特征表示。我们。
2024-07-13 20:20:20
1244
原创 【多模态特征融合】A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition
多模态情感识别最近受到了广泛关注,因为它能够利用多种模态(如音频、视觉和生物信号)之间的多样性和互补关系。大多数先进的音频-视觉(A-V)融合方法依赖于循环神经网络或传统的注意力机制,但这些方法没有有效地利用A-V模态之间的互补特性。在这篇论文中,我们专注于基于从视频中提取的面部和声音模态融合的维度情感识别。具体而言,我们提出了一种联合交叉注意力模型,该模型依赖于互补关系来跨A-V模态抽取显著特征,从而实现对效价和唤醒度的连续值准确预测。
2024-07-13 16:33:46
2416
原创 SSTFormer: Bridging Spiking Neural Network andMemory Support Transformer for Frame-Eventbased Rec
基于事件相机的模式识别是近年来新兴的研究课题。当前的研究者通常将事件流转换为图像、图形或体素,并采用深度神经网络进行基于事件的分类。尽管在简单的事件识别数据集上可以达到较好的性能,但它们的结果可能仍然受到以下两个问题的限制。首先,它们仅使用空间稀疏的事件流进行识别,这可能无法充分捕捉颜色和详细纹理信息。其次,它们要么采用脉冲神经网络(SNN)进行能效较低但效果次优的识别,要么采用人工神经网络(ANN)进行能耗较高但性能优异的识别。然而,很少有研究试图在这两方面之间找到平衡。本文正式。
2024-07-04 22:23:49
524
原创 ECSNet: Spatio-Temporal Feature Learning for Event Camera
神经形态事件相机能通过生成异步和稀疏的事件信号,有效地感知场景中潜在的几何结构和运动线索。由于事件信号布局不规则,如何利用其丰富的时空信息进行识别任务仍是一个重大挑战。现有的方法倾向于将事件视为密集的图像状或点序列表示。然而,它们要么严重破坏了事件数据的稀疏性,要么未能编码稳健的空间线索。为了充分利用其内在的稀疏性并协调时空信息,我们引入了一种紧凑的事件表示,即2D-1T事件云序列(2D-1T ECS)。
2024-07-04 15:50:24
1098
原创 Improving self-supervised action recognition from extremely augmented skeleton sequences
自监督对比学习已被广泛应用于基于骨架的动作识别,因为它能够学习判别性特征。然而,直接将现有的对比学习框架应用于三维骨架学习受到精心设计的数据增强和简单多流决策级融合方法的限制。为了解决这些缺陷,我们提出了一种名为3s-AimCLR++的三流对比学习框架,该框架利用了丰富信息挖掘来自监督动作表示。对于单流对比学习,我们首先提出了极端增强的方法来生成更多的运动模式,这可以引入更多运动模式以提高所学表征的通用性。由于直接使用极端增强导致原始身份的剧烈变化几乎无法提升性能,我们因此。
2024-07-02 16:08:20
684
原创 OmniViD: A Generative Framework for Universal Video Understanding
视频理解任务(如识别、字幕生成和追踪)的核心在于自动检测视频中的对象或动作,并分析它们的时间演变。尽管这些任务有着共同的目标,但它们往往依赖于不同的模型架构和标注格式。相比之下,自然语言处理得益于统一的输出空间,即文本序列,这简化了利用大量训练语料来训练强大的基础语言模型(例如GPT-3)的过程。受此启发,我们旨在通过使用语言作为标签,并额外引入时间与框(time and box tokens)令牌,来统一视频理解任务的输出空间。这样一来,多种视频任务就可以被表述为基于视频的令牌生成问题。
2024-07-01 16:53:03
1014
原创 ExACT: Language-guided Conceptual Reasoning and Uncertainty Estimation for Event-based Action ...
事件相机最近已被证明对于实际的视觉任务(如动作识别)非常有益,这得益于它们的高时间分辨率、功率效率和减少的隐私担忧。然而,目前的研究受到以下两方面的阻碍:1) 由于事件持续时间较长,动态动作具有复杂且模糊的语义,导致处理事件变得困难;2) 事件帧表示中使用固定堆栈导致的冗余动作描述。我们发现语言自然传达了丰富的语义信息,使得它在减少语义不确定性方面极为出色。鉴于这一点,我们提出了ExACT,这是一种全新的方法,首次从跨模态概念化的角度解决了基于事件的动作识别问题。
2024-06-29 16:05:30
1103
原创 Generative Model-Based Feature Knowledge Distillation for Action Recognition
知识蒸馏(KD),一种在计算机视觉中广泛使用的技术,已经成为提高小型神经网络性能的事实标准。然而,在视频任务中,基于KD的主流方法主要集中在设计损失函数和融合跨模态信息上。这忽视了时空特征语义,导致模型压缩方面的进展有限。为了弥补这一差距,本文介绍了一种创新的基于生成模型的知识蒸馏框架,用于训练轻量级的学生模型。特别地,该框架分为两个步骤:首先是特征表示阶段,其中训练一个基于生成模型的注意力模块来表示特征语义;
2024-06-27 20:26:53
868
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人