七77.-CSDN博客

原创【目标检测】Distribution-Aware Calibration for Object Detection with Noisy Bounding Boxes

本文提出了一种基于噪声边界框的目标检测分布感知校准方法（DISCO）。针对噪声边界框导致监督信号失真的问题，DISCO通过建模候选区域的空间分布来校准监督信号。该方法包含三种关键技术：分布感知候选区域增强（DA-Aug）提升分类性能，分布感知边界框优化（DA-Ref）提高定位精度，以及分布感知置信度估计（DA-Est）增强预测可解释性。实验表明，DISCO在噪声边界框检测任务上取得了最先进的性能，尤其在高噪声水平下表现优异。代码已开源在https://github.com/Correr-Zhou/DISCO

2026-01-15 17:17:57 794

原创【世界模型】V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Meta提出V-JEPA 2自监督视频模型，通过100万小时互联网视频预训练实现世界理解与预测。该模型在动作分类（Something-Something v2达77.3%准确率）和动作预测（Epic-Kitchens-100召回率@5达39.7%）任务中表现优异。结合语言模型后，在视频问答任务中达到SOTA（如PerceptionTest 84.0分）。更重要的是，仅用62小时机器人数据微调后，V-JEPA 2-AC能在新环境中实现零样本抓取操作，无需额外训练或奖励。研究表明，大规模自监督学习可构建具备理解

2025-12-25 23:04:25 968

原创【世界模型】Matrix-game 2.0: An open-source real-time and streaming interactive world model

Matrix-Game 2.0是一个开源的实时流式交互世界模型，通过少步自回归扩散实现分钟级高质量视频生成。针对现有交互世界模型实时性差的问题，该框架提出三大创新：(1)基于虚幻引擎和GTA5的可扩展数据生成管道，支持1200小时带精确交互标注的视频采集；(2)动作注入模块，将键盘鼠标输入作为帧级条件；(3)基于因果架构的少步蒸馏方法，实现25FPS的实时生成。实验表明，该系统能在多种场景下保持长时间一致性，解决了传统双向扩散模型的延迟问题和自回归模型的误差累积问题。作者开源了模型权重和代码，推动交互世界建

2025-12-25 11:22:29 1040

原创【世界模型】HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds

HunyuanWorld 1.0提出了一种融合2D与3D生成优势的创新框架，能够从文本或图像输入创建沉浸式、可交互的3D世界。该方法通过全景图作为世界代理实现360°场景覆盖，采用语义分层网格表示支持高效渲染与对象级交互，并兼容现有图形学流水线。实验表明，该方法在生成质量、3D一致性和交互性方面达到SOTA水平，适用于VR、游戏开发等应用场景。项目代码和演示已开源。

2025-12-23 22:33:08 593

原创 layer normalization和batch normalization

常用于长序列文本处理。在样本内部做归一化，假设一个batch内有五句话（五个样本），对于第一句话，I like to eat apples有五个单词，每个单词的向量由五个维度表示，那么对每个单词的五个维度的特征值计算一个均值和方差，从而实现层归一化。解：shape(batch,序列长度，特征维度)===》（一个batch有几个句子，一个句子有几个单词，每个单词的特征由几个维度表示），也就是有几个单词那么就要计算几个均值和方差。

2025-12-12 16:02:21 370

原创【世界模型】Understanding World or Predicting Future? A Comprehensive Survey of World Models

随着GPT-4等多模态大语言模型和Sora等视频生成模型的发展，世界模型（world models）概念受到广泛关注，这类模型是实现通用人工智能（artificial general intelligence, AGI）的核心方向。本文对世界模型相关研究文献进行了全面综述。总体而言，世界模型被视为用于理解世界当前状态或预测其未来动态的工具。本综述提出了世界模型的系统化分类框架，重点强调其两大核心功能：（1）构建内部表征以理解世界运行机制；（2）预测未来状态以模拟并指导决策制定。

2025-12-07 16:23:32 910

原创 Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Locali

弱监督时序动作定位（WTAL）旨在仅借助类别标签完成动作实例的检测与分类。现有绝大多数方法均广泛采用现成的基于分类的预训练（CBP）方式生成视频特征，以实现动作定位。然而，分类与定位任务的优化目标存在差异，这使得时序定位结果面临严重的不完整问题。为在不增加额外标注成本的前提下解决该问题，本文提出从视觉-语言预训练（VLP）中挖掘免费的动作知识——研究中我们意外发现，原始VLP的定位结果存在过完整问题，而这一特性恰好与CBP的结果形成互补。

2025-12-02 16:30:02 747

原创 Weakly Supervised Micro- and Macro-Expression Spotting Based on Multi-Level Consistency

本文提出了一种基于多级一致性的弱监督微表情与宏表情识别框架（MC-WES），旨在通过视频级标签实现细粒度帧级识别，降低标注成本。该框架通过四种一致性策略解决模态间、样本间和任务间的差异问题：模态级显著性一致性捕捉图像与光流的关键关联；视频级分布一致性利用表情分布的稀疏性差异；标签级持续时间一致性结合面部运动持续时间差异；片段级特征一致性强调同类特征的相似性。实验结果表明，MC-WES在CAS(ME)²、CAS(ME)³和SAMMLV数据集上性能媲美全监督方法，显著优于现有弱监督方法。关键词：微表情识别、弱

2025-11-26 22:43:05 600

原创【世界模型】Emu3: Next-Token Prediction is All You Need

本文提出Emu3，一种基于单一Transformer的多模态模型，通过下一个标记预测任务统一处理图像、文本和视频数据。Emu3将不同模态数据统一标记化后联合训练，在生成和感知任务上均超越主流专用模型，包括超越SDXL和LLaVA-1.6等标杆模型，同时支持高保真视频生成。该方法摒弃复杂的多模态架构，仅依赖标记预测范式，展现出强大的通用性和扩展潜力。实验表明，该框架不仅适用于语言模型，还可作为构建通用多模态智能的有效路径。研究开源了核心技术，包括创新的视觉标记器，为后续研究提供基础。

2025-11-24 20:13:27 600

原创【世界模型】Emu3.5: Native Multimodal Models are World Learners

Emu3.5是一款原生多模态世界模型，通过端到端预训练和强化学习，实现视觉与语言交织序列的生成与推理。该模型基于10万亿token的数据集（主要来自互联网视频帧和文本），采用统一的下一个token预测目标，支持长时程多模态生成。创新提出的DiDA方法将单图像推理速度提升20倍，性能与Gemini 2.5 Flash Image相当且在文本渲染更优。Emu3.5具备X2I生成、开放世界编辑等能力，并展现出泛化的世界建模潜力。模型已开源（341亿参数），支持2K分辨率输出，为多模态研究提供新基准。

2025-11-15 20:24:46 1199

原创 Advancing Real-World Image Dehazing: Perspective, Modules, and Training

本文提出了一种结合多重退化模型、新型去雾网络和高斯感知对比损失的图像去雾新方法。针对真实场景中多因素干扰问题，首先构建了包含弱光、噪声等多种退化因素的雾天成像模型，缩小合成与真实数据的分布差异。创新设计了"定位-去除"流程的去雾网络，通过退化定位模块提取判别性特征，利用去除模块消除特征间虚假依赖关系。此外，提出高斯感知对比损失引导网络生成自然去雾效果。实验表明，该方法在多个真实数据集上优于当前最优方法，九项图像质量指标评估验证了其有效性。

2025-11-06 21:00:39 784

原创 Breaking the Synthetic Barrier: Towards Stable and Generalizable Real-World Image Dehazing

本文提出了一种突破合成数据限制的图像去雾新方法。针对现有算法在真实场景中因领域差距导致的性能下降问题，创新性地设计了多级子空间分布适配器(MSDA)和双域同步优化(DDSO)策略。MSDA通过层级化子空间建模，在感知、结构和语义三个层面实现跨域特征对齐；DDSO则联合利用合成数据的监督信息和真实数据的分布特性进行同步优化。实验表明，该方法在多个数据集上显著提升性能，在RTTS数据集上的FADE指标提升37.24%，PM2.5指标提升29.61%，有效解决了真实场景去雾中的残留雾霾和细节丢失问题，具有较强的泛

2025-11-06 10:56:49 911

原创 MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

摘要： MagicTailor提出了一种文本到图像扩散模型中的组件可控个性化新任务，支持用户对概念内的单个组件进行细粒度定制。针对语义污染（非期望元素干扰）和语义失衡（学习比例失调）两大挑战，该框架采用动态掩码退化（DM-Deg）自适应扰动无关语义，并通过双流平衡（DS-Bal）实现均衡学习。实验表明，MagicTailor能有效整合目标组件与概念，生成更具创造力的个性化图像。代码已开源，论文发表于IJCAI 2025。关键词：扩散模型、组件可控、个性化生成、动态掩码退化、双流平衡

2025-11-03 17:38:45 847

原创 EchoTraffic: Enhancing Traffic Anomaly Understanding with Audio-Visual Insights

本文提出EchoTraffic模型，通过融合视听模态提升交通异常理解能力。研究构建了首个大规模视听交通异常数据集AV-TAU，包含29,865段视频和149,325个问答对，支持五项核心任务：异常识别、因果推理、时序定位、预防策略和事件响应。提出的EchoTraffic模型包含音频洞察帧选择器和动态连接器，通过两阶段训练实现多模态融合，在AV-TAU数据集上刷新了SOTA性能。实验证明音频线索显著提升模型理解能力，为多模态交通异常分析开辟了新方向。

2025-11-03 14:04:15 939

原创 Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormer

摘要本文提出PseudoFormer，一种双分支框架，用于弥合弱监督与全监督时序动作定位（TAL）的差距。针对WTAL中伪标签质量、先验知识利用和噪声标签训练三大挑战，PseudoFormer通过以下方法实现突破：(1) 设计RickerFusion模块，将动作提议映射到全局共享空间生成高质量伪标签；(2) 结合弱分支的片段级和提议级先验知识训练全分支回归模型；(3) 引入不确定性掩码和迭代优化机制以应对噪声标签。在THUMOS14和ActivityNet1.3数据集上，PseudoFormer达到SOT

2025-10-17 16:28:39 919

原创 Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multi

本文提出MLLM4WTAL，一种利用多模态大型语言模型（MLLM）增强弱监督时序动作定位（WTAL）性能的新范式。针对传统WTAL方法存在的不完整定位和过完整定位问题，设计了关键语义匹配（KSM）和完整语义重构（CSR）两个模块：KSM通过MLLM提供的关键语义先验定位动作核心区间，CSR则利用完整语义先验挖掘动作完整范围。通过双先验交互蒸馏策略使两个模块相互优化，有效解决了各自缺陷。实验表明，该方法在THUMOS14和ActivityNet1.2数据集上达到最优性能，且能兼容现有WTAL模型提升其表现。创

2025-10-12 15:52:54 998

原创 Dual DETRs for Multi-Label Temporal Action Detection

DualDETR：一种双层级查询框架，用于多标签时序动作检测本文提出DualDETR，通过实例级和边界级双分支解码结构改进时序动作检测性能。不同于传统DETR仅关注实例中心点预测，该方法引入边界级查询（起始/结束）与实例查询并行解码，并采用特征通道划分策略为不同层级提供专属语义表征。通过联合查询初始化策略，将两组查询与编码器生成的proposal对齐，利用位置和内容先验初始化查询向量。实验表明，DualDETR在MultiTHUMOS、Charades和TSU数据集上显著超越现有方法（det-mAP），并

2025-09-27 18:23:47 1108

原创 Multilingual-prompt-guided Directional Feature Learning for Weakly Supervised Video Anomaly Detectio

弱监督视频异常检测因其有效的性能和低成本的标注方式而受到关注，该方法利用视频级标签来区分正常与异常模式。然而，由于异常事件的多样性与不完整性，使得特征学习面临复杂挑战。视觉-语言模型提供了有前景的方法，但设计精确的提示词依然困难。这是因为在真实世界场景下，需要涵盖多样的正常与异常情况，且工作量巨大。为解决这些问题，我们提出结合多语言与多提示词以提升特征学习。通过使用不同语言的提示词来定义“异常”和“正常”，我们从不同语言域探讨这些概念。在每个语言域中，采用多提示词机制进行片段的自适应 Top-K 提示选择。

2025-09-18 18:04:59 855

原创 EMOE: Modality-Specific Enhanced Dynamic Emotion Experts

多模态情绪识别（Multimodal Emotion Recognition, MER）的目标是通过利用视觉、声学和语言等多种模态来预测人类情绪。然而，由于这些模态的异质性，MER 面临两个核心挑战：**模态平衡困境（modality balance dilemma）**与**模态专有性消失（modality specialization disappearance）**。现有方法在处理模态平衡困境时，往往忽视了不同样本间模态重要性的差异。此外，主流的解耦方法虽然能够保留模态特定信息，但常常忽略单模态数据的

2025-09-04 14:04:49 1316

原创 Track Any Anomalous Object: A Granular Video Anomaly Detection Pipeline

本文提出了一种创新的细粒度视频异常检测框架TAO，通过像素级跟踪实现精准异常定位。传统方法多关注帧级或对象级检测，难以处理复杂场景中的重叠异常。TAO创新性地将对象检测与分割模型SAM2结合，通过边界框提取、异常评分、鲁棒过滤和分割推理四个步骤，在无需额外微调的情况下实现像素级异常跟踪。实验表明，该方法在UCSD Ped2和ShanghaiTech数据集上达到SOTA性能，有效解决了现有方法在复杂场景中的局限性，为视频异常检测提供了更精确、实用的解决方案。

2025-08-08 19:48:12 1041 1

原创 A Memory-Assisted Knowledge Transferring Framework with Curriculum Anticipation for Weakly Supervise

作为高级视频理解的重要课题，弱监督在线活动检测（Weakly Supervised Online Activity Detection，WS-OAD）旨在仅使用廉价的视频级标签进行训练，从视频流中识别当前时刻正在发生的行为。该任务本质上极具挑战性，需要同时解决弱监督设置和在线约束两方面交织的问题。本文从知识蒸馏（Knowledge Distillation，KD）的视角处理WS-OAD任务，通过训练一个在线学生检测器，从一个弱监督的离线教师模型中提取双层次知识。为了保证知识迁移的完整性，我们从两个方面改进了

2025-08-08 15:04:50 1251

原创 Exploring Low-Resource Medical Image Classification with Weakly Supervised Prompt Learning

本文提出了一种弱监督提示学习方法MedPrompt，用于自动生成医学文本提示以解决低资源医学图像分类问题。该方法包含无监督预训练的视觉语言模型和弱监督提示学习模型，仅需类别标签即可自动生成高质量提示，显著降低对专家人工设计的依赖。实验表明，在四个医学基准数据集上，MedPrompt在全监督学习中均优于人工提示模型；在零样本和小样本任务中，三个数据集达到最优性能，另一个实现可比结果。该方法提示生成模块轻量高效，具备良好迁移能力，为低资源医学图像分析提供了有效解决方案。

2025-07-21 16:46:54 1223

原创 Exploiting Intrinsic Multilateral Logical Rules for Weakly Supervised Natural Language Video Localiz

本文提出了一种新颖的弱监督自然语言视频定位方法IMLR，通过构建内在时间关系图（ITRG）建模查询间的复杂时间关系。该方法将原始查询及其衍生查询表示为节点，时间关系作为边，并设计了四种多边时间逻辑规则（同一性、包含性、同步性和连续性）。相比现有方法直接融合特征导致不合逻辑预测，IMLR采用关系引导提示生成ITRG，并利用图中规则训练边界感知Transformer模型。实验表明，该方法在Charades-STA和ActivityNet Captions数据集上显著优于现有技术，有效解决了弱监督场景下的时间关系

2025-07-13 23:29:23 1016

原创 Action-Agnostic Point-Level Supervision for Temporal Action Detection

本文提出了一种用于时序动作检测的新型弱监督方法——与动作无关的点级监督（AAPL）。该方法通过无监督方式采样少量视频帧进行标注，显著降低了标注成本。相比传统点级监督需要人工查找每个动作实例，AAPL只需对采样帧标注动作类别。研究者还设计了配套的检测模型和学习方法，在THUMOS'14等5个数据集上的实验表明，AAPL在标注成本与检测性能的平衡上优于现有的视频级和点级监督方法。该方法只需标注3%-10%的帧即可达到与全监督接近的效果，为时序动作检测提供了一种高效的弱监督解决方案。

2025-07-13 20:09:18 922

原创 Can I Trust Your Answer? Visually Grounded Video Question Answering

摘要：本文研究基于视觉的视频问答（VideoQA），探究视觉-语言模型（VLMs）的答案是否真正依赖相关视频内容。作者构建了NExT-GQA数据集（NExT-QA的扩展），包含10.5K个带时间标签的问答对，用于评估模型的视觉依据能力。分析发现，现有VLMs虽在问答准确率上表现良好（如69%），但仅16%的正确答案基于视觉证据，远低于人类的82%。为解决这一问题，作者提出一种高斯掩码优化与跨模态学习结合的定位方法，实验表明其能同时提升定位和问答性能（如NExT-QA测试集准确率达73.1%）。该研究为开发

2025-07-13 18:23:14 610

原创 FACT: Frame-Action Cross-Attention Temporal Modeling for Efficient Action Segmentation

本文提出FACT（Frame-Action Cross-attention Temporal modeling）框架，用于高效动作分割任务。不同于现有方法，FACT通过并行的帧分支（卷积）和动作分支（Transformer）进行时序建模，利用交叉注意力机制实现双向信息传递。创新性地引入匹配损失，确保动作令牌唯一编码动作片段，支持一对多匹配以处理重复动作。实验表明，FACT在四个数据集上（含第一视角和第三人称视频）显著超越现有方法，计算效率提高3倍。此外，框架可结合文本转录信息提升性能，在数据稀缺时表现优异。

2025-07-13 15:22:56 629

原创 Boosting Point-Supervised Temporal Action Localization through Integrating Query

本文提出了一种新颖的点监督时序动作定位框架QROT，通过整合查询重构与最优传输机制解决现有方法的局限性。针对DETR直接应用于点监督任务的两个主要瓶颈：(1)如何有效融合点级标签信息，(2)在缺乏完整标注时如何选择最优解码器候选，QROT设计了语义共识查询编码点标注先验信息，并利用最优传输生成高质量伪标签匹配解码器候选。实验表明，该方法在THUMOS14和ActivityNet-v1.3数据集上显著优于现有MIL基线，实现了更稳定可靠的定位性能。

2025-07-10 16:42:04 1633 2

原创 CITAL: Counterfactual intervention for temporal action localization with point-level annotation

本文提出CITAL框架，一种基于反事实干预的点监督时间动作定位方法。针对现有PTAL方法依赖有偏线索导致误定位的问题，该框架通过因果推理分析动作与背景的关系，提出背景抑制模块(BS)和模仿融合策略(FI)来增强模型对动作本身的关注。同时设计反事实示例生成模块(CEG)，利用点标签和动作分数生成仅含线索的特征。实验表明，该方法在THUMOS14等基准上显著提升mAP指标，且无需额外参数。研究创新性地将因果推理引入PTAL任务，有效解决了背景误识别问题。

2025-07-10 11:21:07 513

原创 Action Unit Memory Network for Weakly Supervised Temporal Action Localization

摘要本文提出了一种新颖的动作单元记忆网络（AUMN）用于弱监督时间动作定位，该网络通过学习动作单元记忆库来解决定位完整性和背景干扰两大挑战。AUMN包含两个关键模块：1）交叉注意力模块自适应更新记忆库并学习动作单元特定分类器；2）自注意力模块聚合上下文信息。此外，作者设计了多样性、同质性和稀疏性三种机制指导记忆网络更新。实验结果表明，在THUMOS14和ActivityNet数据集上，AUMN显著优于现有方法，其中THUMOS14数据集上平均mAP从47.0%提升至52.1%。这是首次使用记忆网络明确建模

2025-07-09 14:09:50 1110

原创 VTD-CLIP: Video-to-Text Discretization via Prompting CLIP

本文提出VTD-CLIP框架，通过将视频内容离散化为文本对齐的语义标记来提升视频表示。该方法利用冻结的CLIP文本编码器构建视觉码本，将帧级视觉特征映射到最近的文本类别嵌入，实现视频到文本的离散化。通过置信度感知融合模块动态加权关键帧，并融入可学习文本提示优化码本更新。在HMDB-51、UCF101等基准测试中，VTD-CLIP相比现有方法展现出更优性能，同时保持零样本泛化能力。该框架避免了复杂时序建模，通过关键帧语义离散化实现高效视频理解。

2025-07-09 10:51:44 1340

原创 Realigning Confidence with Temporal Saliency Information for Point-Level Weakly-Supervised Temporal

点级弱监督时间动作定位（P-TAL）旨在通过使用每个动作实例中的单点注释，在未修剪的视频中定位动作实例。现有方法在没有任何边界信息的情况下预测类别激活序列，不可靠的序列导致生成的动作建议质量与其相应置信度之间存在显著偏差。在本文中，我们意外地观察到，最显著的帧往往出现在每个实例的中心区域，并且很容易被人工标注。在时间显著信息的指导下，我们提出了一种新颖的基于建议级别的插件框架，用于重新学习由基础定位器生成的建议的对齐置信度。所提出的方法包括中心分数学习（CSL）和基于对齐的边界自适应（ABA）。在CSL中，

2025-07-08 18:14:20 1312

原创 Energy vs. Noise: Towards Robust Temporal Action Localization in Open-World

本文提出了一种能量驱动的元净化器（EDMP）方法，用于提升时序动作定位（TAL）模型在开放世界噪声标签下的鲁棒性。针对视频数据中动作边界模糊和类别标注噪声的问题，该方法通过元学习框架结合能量建模区分动作前景与背景。核心模块包括时序精化模块（TRM）修正边界噪声，语义净化模块（SPM）校正类别标签，以及能量协同优化器（ESO）动态调整损失权重。实验表明，EDMP在THUMOS14和ActivityNet1.3数据集上显著提升了模型对混合噪声的鲁棒性，为开放世界场景中的TAL应用提供了有效解决方案。

2025-07-08 14:28:02 490

原创 Proposal-based Temporal Action Localization with Point-level Supervision

本文提出了一种基于动作提议的点监督时间动作定位方法（APN），通过生成灵活长度的动作提议来克服传统MIL框架的局限性。针对点级监督信息不足的问题，该方法创新性地设计了约束k-medoids聚类算法生成密集伪标签，并引入细粒度对比损失优化边界检测。在四个基准数据集上的实验表明，该方法优于现有弱监督方法，部分指标甚至达到全监督水平。主要贡献包括：首个将动作提议引入PTAL任务的框架、高效的伪标签生成算法以及提升边界敏感性的对比优化策略。

2025-07-07 22:15:46 1253

原创 Learning Flow Fields in Attention for Controllable Person Image Generation

摘要本文提出Leffa（Learning Flow Fields in Attention），一种用于可控人物图像生成的新方法，旨在解决现有方法在细粒度细节保留上的不足。通过分析扩散模型中注意力机制，作者发现细节失真源于目标查询未能准确关注参考图像对应区域。为此，Leffa在训练过程中引入流场正则化损失，显式引导注意力图聚焦正确参考键区域，无需额外参数或推理成本。实验表明，该方法在虚拟试衣（VITON-HD、DressCode）和姿态迁移（DeepFashion）任务上均达到SOTA性能，显著减少纹理失真

2025-07-07 17:50:32 671

原创 Similar Modality Enhancement and Action Consistency Learning for Weakly Supervised Temporal Action L

本文提出SEAL方法，用于弱监督时间动作定位（WTAL）。针对现有方法依赖冻结预训练编码器导致的"任务差异"问题，以及忽视动作一致性的不足，SEAL通过相似模态增强（SME）和动作一致性学习（ACL）提升性能。SME构建全局描述符生成伪标签，引导跨模态一致表示；ACL包含过程一致性损失（确保动作完整性）和语义一致性损失（增强同类动作特征相似性）。在THUMOS14和ActivityNet上的实验表明SEAL优于SOTA方法。代码已开源。

2025-06-23 20:15:14 1003

原创 LOCAL PATTERNS GENERALIZE BETTER FOR NOVEL ANOMALIES

本文提出了一种基于局部模式的视频异常检测（VAD）方法，旨在提升模型对未见异常样本的泛化能力。现有VAD方法通常依赖全局模式，易受冗余细节干扰。本方法通过两阶段框架提取局部模式：第一阶段采用图像-文本对齐定位语义相关的空间局部模式；第二阶段通过跨模态注意力精炼特征，并引入时间状态机模块（SMM）增强时序线索。此外，时间运动估计补充了空间模式的动态特征。实验表明，该方法在多个基准数据集上达到最先进性能。代码已开源。

2025-06-23 17:13:09 1024

原创 Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning

视频已成为互联网上广受欢迎的多媒体格式。为更好地理解视频内容，本文提出了一个新课题 HIREST，涵盖视频检索、时刻检索、时刻分割与步骤描述四项任务。已有开创性工作选择基于预训练的 CLIP 模型进行视频检索，并将其作为特征提取器，用于在多任务学习框架下解决其余三个具有挑战性的任务。然而，该方法未考虑跨模态之间的层次结构与关联关系，因而难以学习用户偏好内容的全面认知。本文在“由浅入深”原则的指导下，提出了一种面向查询的音视频认知（QUAG）网络，用于构建可靠的多模态表示，服务于时刻检索、分割与步骤描述任

2025-06-19 18:05:06 988

原创 Gaussian-Based Instance-Adaptive Intensity Modeling for Point-Supervised Facial Expression Spotting

本文提出一种基于高斯的实例自适应强度建模（GIM）方法，用于解决点监督面部表情定位（P-FES）任务中的标签稀疏问题。不同于传统硬伪标签方法，GIM通过构建高斯分布为每个表情实例建模强度变化，并分配软伪标签。该方法包含双分支框架：强度分支学习表情强度分布，动作分支进行表情分类。此外，提出的强度感知对比损失（IAC）通过区分中性帧与不同强度表情帧，有效抑制噪声干扰。在SAMM-LV和CAS(ME)²数据集上的实验验证了该方法的有效性。代码开源地址：https://github.com/KinopioIsAll

2025-06-19 14:23:31 1073

原创 Test-Time Zero-Shot Temporal Action Localization

本文提出了一种无需训练数据的测试时自适应时序动作定位方法T3AL。与现有依赖标注数据进行微调的零样本时序动作定位方法不同，T3AL直接在测试时通过三个阶段自适应预训练视觉语言模型：(1)视频级伪标签生成，(2)自监督动作定位优化，(3)文本引导区域精炼。在两个标准数据集上的实验表明，T3AL在无训练条件下显著优于现有零样本方法，平均mAP提升6.3%-13.5%，验证了测试时自适应在零样本动作定位任务中的有效性。该研究为解决训练数据不可获取时的实际应用场景提供了新思路。

2025-05-28 19:47:30 793

原创 Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding

本文提出了一种基于孪生学习的弱监督视频段落定位方法SiamGTR，通过联合对齐和回归实现无需时间标注的视频段落定位。该方法包含两个共享权重的分支：增强分支利用伪视频生成伪边界监督进行回归训练，推理分支则学习顺序引导的跨模态特征对齐。实验表明，该方法在弱监督或半监督条件下优于现有技术，实现了高效的单阶段定位。该工作首次探索了弱监督视频段落定位任务，为减少视频理解中的标注成本提供了新思路。

2025-05-28 16:07:48 1082

空空如也

空空如也