何大春-CSDN博客

原创【视频时刻检索】Text-Video Retrieval via Multi-Modal Hypergraph Networks 论文阅读

文本-视频检索是一项旨在根据文本查询识别相关视频的挑战性任务。与传统文本检索相比，文本-视频检索的主要难点在于文本查询与视频内容之间的语义鸿沟。先前的研究主要侧重于通过精细聚合词-帧匹配信号来对齐查询和视频。受人类模块化判断文本与视频相关性的认知过程启发，由于视频内容的连续性和复杂性，这种判断需要高阶匹配信号。本文提出了一种块级文本-视频匹配方法，其中查询被分解为描述特定检索单元的语义块，而视频被分割为独立的片段。我们将块级匹配建模为查询词与视频帧之间的多元关联，并引入多模态超图进行多元关系建模。

2025-04-25 23:11:12 1166 1

原创 The advancement in multimodal research has increased focus on Emotion Recognition in Conversations

多模态研究的进步使得对话中的情感识别（Emotion Recognition in Conversations, ERC）受到更多关注，其目标是精准捕捉情感变化。基于图卷积的方法能够更好地捕获情感的动态变化，从而提高情感识别的准确性与鲁棒性。然而，现有方法未能区分对话的交互模式，导致其在建模上下文情感关系时存在局限性。

2025-04-23 01:21:17 387

原创【视频异常检测】Sherlock: Towards Multi-scene Video Abnormal Event Extraction and Localization via ...

先前关于视频异常检测（VAD）的研究主要集中在检测视频中每一帧是否异常，而很大程度上忽略了结构化的视频语义信息（即异常事件发生的内容、时间和地点）。基于此，我们提出了一种新的聊天范式多场景视频异常事件提取与定位（M-VAE）任务，旨在提取异常事件四元组（即主体、事件类型、对象、场景）并定位此类事件。此外，本文认为这项新任务面临两个关键挑战，即全局-局部空间建模和全局-局部空间平衡。为此，本文提出了一个名为Sherlock。

2025-03-17 23:16:26 936

原创【对话推荐系统】Broadening the View: Demonstration-augmented Prompt Learning for CR

对话推荐系统（Conversational Recommender Systems, CRSs）利用自然语言对话来提供个性化的推荐。传统方法主要从孤立的对话中提取用户偏好，这往往导致生成的响应视角有限，局限于单个对话的范围。认识到集体对话示例的潜力，我们的研究提出了一种扩展的CRS模型方法，利用从对话历史和响应中选择的类比来丰富生成和推荐过程。这引入了重要的研究挑战，包括：（1）如何获取高质量的推荐对话示例集合？（2）如何有效利用这些示例来增强CRS模型？为了应对这些挑战，我们引入了一种新颖的。

2025-03-09 02:22:23 1200

原创【对话推荐系统综述】A Survey on Conversational Recommender Systems

推荐系统是一类软件应用程序，旨在帮助用户在信息过载的情况下找到感兴趣的项目。当前的研究通常假设一种一次性交互范式，即根据过去观察到的用户行为来估计其偏好，并通过展示一个排序的建议列表作为主要的、单向的用户交互形式。对话式推荐系统（Conversational Recommender Systems, CRS）则采取了不同的方法，支持更丰富的交互方式。这些交互可以帮助改进偏好获取过程，允许用户对推荐提出问题并给予反馈。近年来，对话式推荐系统的兴趣显著增加。

2025-03-04 23:18:28 558

原创【对话推荐系统】HyCoRec: Hypergraph-Enhanced Multi-Preference Learning for Alleviating Matthew Effect in CRS

马太效应（Matthew Effect）是推荐系统（RSs）中一个众所周知的问题，即“富者愈富，贫者愈贫”，其中热门商品被过度曝光，而不太受欢迎的商品则经常被忽视。大多数方法在静态或接近静态的推荐场景中研究马太效应。然而，当用户与系统进行交互时，马太效应会随着时间的推移而不断放大。为了解决这些问题，我们提出了一种新的范式，即基于超图增强的多偏好学习以缓解对话式推荐中的马太效应（HyCoRec），旨在减轻对话式推荐中的马太效应。

2025-03-02 15:43:31 640

原创【对话推荐系统】Leveraging Historical Interaction Data for Improving Conversational Recommender System 论文阅读

近年来，对话推荐系统（Conversational Recommender System, CRS）已成为一个新兴且实用的研究课题。现有的CRS方法大多侧重于仅从对话数据中学习用户的有效偏好表示。而我们则从一个新的视角出发，利用历史交互数据来改进CRS。为此，我们提出了一种新颖的预训练方法，通过预训练技术将基于物品的偏好序列（来自历史交互数据）和基于属性的偏好序列（来自对话数据）进行整合。我们精心设计了两项预训练任务，以增强物品和属性偏好之间的信息融合。

2025-02-28 15:21:12 678 1

原创【对话推荐系统】FacetCRS: Multi-Faceted Preference Learning for Pricking Filter Bubbles in CRS

过滤气泡是推荐系统（RSs）中一个臭名昭著的问题，它描述了用户仅接触到有限且狭窄的信息或内容，这些内容强化了他们现有的主导偏好和信念，从而导致用户缺乏对多样化和多元化内容的接触。许多现有研究主要集中在静态或相对静态的推荐场景中探讨过滤气泡问题。然而，在现实世界的在线推荐中，由于用户与系统之间的反馈循环，过滤气泡会随着时间的推移不断加剧。为了解决这些问题，我们提出了一种新范式——多维度偏好学习用于刺破对话推荐系统中的过滤气泡（FacetCRS）

2025-02-28 00:06:58 1678

原创【对话推荐系统】Towards Unified Conversational Recommender Systems via Knowledge-Enhanced Prompt Learning

对话式推荐系统（CRS）旨在通过自然语言对话主动获取用户偏好并推荐高质量的项目。通常，CRS由一个推荐模块（为用户预测偏好项目）和一个对话模块（生成适当的回应）组成。为了开发一个有效的CRS，无缝集成这两个模块至关重要。现有的工作要么设计语义对齐策略，要么在两个模块之间共享知识资源和表示。然而，这些方法仍然依赖于不同的架构或技术来开发这两个模块，使得有效的模块集成变得困难。为了解决这个问题，我们提出了一种基于知识增强提示学习的统一CRS模型，名为UniCRS。

2025-02-26 21:48:44 1022

原创【对话推荐系统】COLA: Improving Conversational Recommender Systems by Collaborative Augmentation

会话推荐系统（Conversational Recommender Systems, CRS）旨在通过自然语言对话向用户推荐合适的产品。理解用户对潜在物品的偏好以及学习高效的物品表示对于CRS至关重要。尽管已有多种尝试，但早期的研究大多基于单个对话来学习物品表示，忽略了在所有对话中体现的物品流行度。此外，由于单个对话中反映的信息有限，这些研究在有效捕捉用户偏好方面仍存在不足。

2025-02-25 17:31:47 487

原创【对话推荐系统】C2-CRS: Coarse-to-Fine Contrastive Learning for Conversational Recommender System 论文阅读

对话推荐系统（CRS）旨在通过自然语言对话向用户推荐合适的项目。为了开发有效的CRS，一个主要的技术问题是如何从非常有限的对话上下文中准确推断用户偏好。为了解决这一问题，一种有前景的解决方案是通过引入外部数据来丰富上下文信息。然而，先前的研究主要集中在设计针对某些特定类型外部数据的融合模型，这种方法无法通用地建模和利用多类型外部数据。为了有效利用多类型外部数据，我们提出了一种新颖的从粗到细的对比学习框架，以改进CRS的数据语义融合。

2025-02-24 22:35:15 732 1

原创【对话推荐系统】Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion

对话推荐系统（CRS）旨在通过互动对话向用户推荐高质量的项目。尽管已经为CRS做出了一些努力，但仍然有两个主要问题需要解决。首先，对话数据本身缺乏足够的上下文信息来准确理解用户的偏好。其次，自然语言表达与项目级用户偏好之间存在语义鸿沟。为了解决这些问题，我们结合了面向词和面向实体的知识图谱（KG）来增强CRS中的数据表示，并采用互信息最大化来对齐词级和实体级的语义空间。

2025-02-24 00:23:46 633

原创【对话推荐系统】Towards Topic-Guided Conversational Recommender System 论文阅读

对话推荐系统（CRS）旨在通过交互式对话向用户推荐高质量的项目。为了开发有效的CRS，高质量数据集的支持是必不可少的。现有的CRS数据集主要关注用户的即时请求，而缺乏对推荐场景的主动引导。在本文中，我们贡献了一个新的CRS数据集，名为TG-ReDial（通过主题引导的对话进行推荐）。我们的数据集具有两个主要特点。首先，它结合了主题线索，以确保向推荐场景的自然语义转换。其次，它是以半自动方式创建的，因此人类注释更加合理和可控。

2025-02-23 16:52:34 1208 1

原创【情感识别】SECap: Speech Emotion Captioning with Large Language Model 论文阅读

语音情感在人类交流中至关重要，并广泛应用于语音合成和自然语言理解等领域。大多数先前的研究，如语音情感识别，已将语音情感分类为固定的类别集。然而，人类语音中表达的情感往往很复杂，将其分类为预定义的组别可能不足以充分表示语音情感。相反，通过自然语言直接描述语音情感可能是一种更有效的方法。遗憾的是，目前专注于这一方向的研究并不多。因此，本文提出了一种名为SECap的语音情感描述框架，旨在使用自然语言有效描述语音情感。

2025-02-14 20:24:24 1574 1

原创【手写公式识别】MEMix: Improving HMER with Diverse Formula Structure Augmentation 论文阅读

手写数学表达式识别（HMER）旨在将数学表达式（MEs）的图像转换为相应的LaTeX序列。然而，二维公式结构的内在复杂性与一维LaTeX序列常常不对齐，导致识别模型的鲁棒性下降。加剧这一问题的主要因素是带有复杂结构的标注ME图像的稀缺，这阻碍了模型学习良好的表示和对MEs的适应性。在本文中，受Mixup启发，我们引入了一种称为数学表达式混合（MEMix）的数据增强方法。该方法能够通过简单的矩阵操作生成公式中的典型结构，包括根号、分数和注释。

2025-02-07 10:41:37 1100 1

原创【多模态情绪识别】DepMamba : Progressive Fusion Mamba for Mutilmodal Depression Detection 论文阅读

抑郁症是一种常见的心理障碍，影响着全球数百万人。尽管现有的多模态方法前景广阔，但它们依赖于对齐或聚合的多模态融合，存在两个显著局限性：（i）长时程建模效率低下，（ii）模态间融合与模态内处理之间的多模态融合效果欠佳。在本文中，我们提出了一种用于多模态抑郁症检测的视听渐进融合Mamba模型，称为DepMamba。DepMamba具有两个核心设计：分层上下文建模和渐进多模态融合。一方面，分层建模引入了卷积神经网络和Mamba，以提取长时程序列中的局部到全局特征。

2025-01-10 18:07:30 1396 1

原创 Ubuntu开机The root filesystem on /dev/sdbx requires a manual fsck 问题

Ubuntu开机The root filesystem on /dev/sdbx requires a manual fsck 问题，系统提示/dev/sdb5有问题，手动执行一下修复命令，如果你的是其他盘出问题了，/dev/sdb5改成对应的就行。电脑经常这样，我感觉是我的固态有问题了，即使正常关机，也会出现这个情况。经常出现，记录一下。退出initramfs，输入重启命令应该就能进系统了。等待修复完成，然后输入。

2024-12-31 09:05:46 655

原创 Quo Vadis, Anomaly Detection? LLMs and VLMs in the Spotlight 论文阅读

视频异常检测（VAD）通过整合大语言模型（LLMs）和视觉语言模型（VLMs）取得了显著进展，解决了动态开放世界场景中的一些关键挑战，如可解释性、时序推理和泛化能力。本文深入回顾了2024年基于LLM/VLM的前沿方法，重点关注四个关键方面：（i）通过语义洞察和文本解释增强可解释性，使视觉异常更易于理解；（ii）捕捉复杂的时序关系，检测和定位视频帧中的动态异常；（iii）支持少样本和零样本检测，减少对大量标注数据集的依赖；

2024-12-28 16:42:46 1459 1

原创【点监督动作定位】Learning Action Completeness from Points for Weakly-supervised Temporal Action Localization

我们解决了一个问题：如何仅通过每个动作实例的单帧标签来定位动作的时间区间。由于标签稀疏性，现有方法无法学习动作的完整性，导致动作预测碎片化。本文提出了一个新颖的框架，通过生成密集的伪标签来为模型提供完整性指导。具体而言，我们首先选择伪背景点来补充点级别的动作标签。然后，以这些点为种子，我们搜索可能包含完整动作实例的最优序列，并使其与种子一致。为了从获得的序列中学习完整性，我们引入了两种新的损失函数，分别在动作分数和特征相似性方面对比动作实例和背景实例。

2024-12-19 19:45:44 824

原创【视频异常检测】Real-Time Anomaly Detection and Localization in Crowded Scenes 论文阅读

在本文中，我们提出了一种用于拥挤场景中实时异常检测和定位的方法。每个视频被定义为一组非重叠的立方体块，并通过两种局部和全局描述符进行描述。这些描述符从不同角度捕捉视频的特征。通过结合简单且具有成本效益的高斯分类器，我们可以区分视频中的正常活动和异常事件。局部和全局特征基于相邻块之间的结构相似性，并通过稀疏自编码器以无监督的方式学习得到。实验结果表明，我们的算法在UCSD ped2和UMN基准测试上与最先进的算法相当，但更加高效。实验验证了我们的系统能够在视频中发生异常时，及时、可靠地检测和定位异常。

2024-12-12 17:48:13 1479 1

原创 Probabilistic Face Embeddings 论文阅读

嵌入方法通过在潜在语义空间中比较面部特征，在人脸识别中取得了成功。然而，在完全不受约束的人脸识别场景中，嵌入模型学习到的人脸特征可能是模糊的，甚至可能根本不存在于输入的人脸中，从而导致噪声表示。我们提出了概率人脸嵌入（Probabilistic Face Embeddings，PFEs），将每张人脸图像表示为潜在空间中的一个高斯分布。该分布的均值估计了最可能的特征值，而方差则表示特征值的不确定性。通过概率方法，可以自然地根据不确定性信息推导出匹配和融合PFEs的解决方案。

2024-12-06 21:58:05 1265 1

原创 Data Uncertainty Learning in Face Recognition 论文阅读

数据不确定性的建模对于噪声图像非常重要，但在人脸识别中很少被探讨。开创性工作[35]通过将每个人脸图像的嵌入表示为高斯分布来考虑不确定性，并且效果相当显著。然而，该方法使用来自现有模型的固定特征（高斯的均值），仅估计方差，并依赖于一种临时的且成本较高的度量方式。因此，它并不容易使用，而且不清楚不确定性如何影响特征学习。本工作首次将数据不确定性学习应用于人脸识别，旨在同时学习特征（均值）和不确定性（方差）。我们提出了两种学习方法，既易于使用，又在具有挑战性的无约束场景中超越了现有的确定性方法和[35]。

2024-12-05 19:21:57 1168 1

原创【弱监督视频异常检测】FE-VAD: High-Low Frequency Enhanced Weakly Supervised Video Anomaly Detection 论文阅读

弱监督视频异常检测（WSVAD）旨在识别视频中的异常事件，使用视频级标签而不是帧级标签。以往的研究通常侧重于在时空领域建模异常。然而，异常的表现形式多种多样，仅在时空领域建模是远远不够的。为了解决这一问题并全面捕捉不同形式的异常，我们提出了一种新方法——高低频增强弱监督视频异常检测（FE-VAD），该方法引入了频域信息，用以捕捉和分析不同频率层次的异常特征，从而有助于学习局部和全局时空依赖关系。我们的FE-VAD由时间增强网络（TSN）和高低频增强网络（HLFN）组成。

2024-12-05 01:15:51 1274 1

原创【弱监督视频异常检测】CLIP-Driven Multi-Scale Instance Learning for Weakly Supervised Video Anomaly Detection

现有的弱监督视频异常检测方法主要利用多实例学习（MIL）来识别未修剪视频中的异常片段。然而，异常的语义和表现形式常常具有模糊性，这是MIL难以处理的问题。此外，MIL由于对每个实例进行独立优化，忽略了相邻片段之间的时间相关性，因此容易引发误报。因此，我们迫切需要更好地关联异常的表现形式与其语义，并实现多时间尺度的异常检测。本文提出了一种基于CLIP的多尺度实例学习（CMSIL）框架，该框架包含两个分支：视觉-语言（VL）分支和多尺度实例学习（MSIL）分支。

2024-12-05 00:08:17 1670

原创【弱监督时间动作定位】Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? 论文阅读

多模态大语言模型（MLLMs）的最新突破在深度学习社区中获得了广泛认可，其中视频基础模型（VFMs）和大语言模型（LLMs）的融合已被证明有助于构建强大的视频理解系统，有效地克服了与预定义视觉任务相关的限制。这些复杂的 MLLMs 在理解视频方面表现出卓越的能力，迅速在各种基准测试中达到了前所未有的性能水平。然而，它们的运行需要大量的内存和计算资源，这凸显了传统模型在视频理解任务中的持续重要性。在本文中，我们引入了一种名为 MLLM4WTAL 的新颖学习范式。

2024-12-04 02:14:34 1163 1

原创【弱监督视频异常检测】ReFLIP-VAD: Towards Weakly Supervised Video Anomaly Detection via Vision-Language Model

视觉语言模型最近在与图像相关的任务中取得了显著的成功，展示了其学习深刻且有意义视觉表示的能力。将这种强大的模型应用于视频分析以检测异常仍然是一个显著的挑战。本文提出了重参数化细粒度语言图像预训练-视频异常检测（ReFLIP-VAD），这是一种旨在利用视觉语言能力进行视频异常检测的新颖方法。ReFLIP-VAD 采用提示编码器生成重参数化的可学习提示模板，增强了对异常相关语义的可解释性和理解能力。

2024-11-25 17:22:00 1179 2

原创【视频异常检测】VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection 论文阅读

视频异常检测（VAD）是计算机视觉中视频分析和监控领域的一项关键任务。近年来，基于存储正常帧特征的记忆技术使得VAD受到了越来越多的关注。这些存储的特征被用于帧重建，当重建帧与输入帧之间存在显著差异时即可识别异常。然而，这种方法在优化上面临着诸多挑战，因为需要同时优化记忆模块和编码器-解码器模型。这些挑战包括优化难度增加、实现复杂性高以及性能对记忆大小的依赖性较强。为了解决这些问题，我们提出了一种用于VAD的高效记忆方法，称为VideoPatchCore。

2024-11-25 01:45:24 1674 1

原创【无监督视频异常检测】A Causal Inference Look at Unsupervised Video Anomaly Detection 论文阅读

无监督视频异常检测是一项无需任何形式的标注正常/异常训练数据的任务，这项任务虽然具有挑战性，但对工业应用和学术研究都具有重要意义。现有方法通常采用迭代的伪标签生成过程。然而，这些方法缺乏对伪标签生成过程对训练影响的系统性分析。此外，它们还忽略了对长期时序依赖的考虑，这是不合理的，因为异常事件的定义依赖于长期时序上下文。为此，我们首先提出了一个因果图，用于分析伪标签生成过程中的混杂效应。接着，我们引入了一个基于因果推断的简单而有效的框架，用于消除噪声伪标签的影响。

2024-11-24 15:58:12 1450 2

原创【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读

弱监督语义分割（WSSS）基于图像级标签的研究因其低标注成本而受到广泛关注。现有方法通常依赖于类激活映射（CAM），该方法通过测量图像像素与分类器权重之间的相关性生成分割结果。然而，分类器往往只关注于判别性区域，而忽略了图像中其他有用的信息，导致生成的定位图不完整。为了解决这一问题，我们提出了一种自监督的图像特定原型探索方法（SIPE），包括图像特定原型探索（IPE）和通用-特定一致性（GSC）损失。

2024-11-21 00:59:39 1437 1

原创【弱监督语义分割】SFC: Shared Feature Calibration in Weakly Supervised Semantic Segmentation 论文阅读

图像级弱监督语义分割因其低标注成本而受到越来越多的关注。现有方法主要依赖于类激活映射（Class Activation Mapping, CAM）来生成伪标签，用于训练语义分割模型。在本研究中，我们首次揭示了训练数据中的长尾分布会导致通过分类器权重计算的CAM在头部类别上过度激活，而在尾部类别上激活不足，这主要是由于头部和尾部类别之间共享特征的存在。这种情况会降低伪标签的质量，并进一步影响最终的语义分割性能。为了解决这一问题，我们提出了一种用于CAM生成的。

2024-11-20 00:37:46 1174 1

原创【视频时刻定位】Harnessing Temporal Causality for Advanced Temporal Action Detection 论文阅读

文章信息：作为长视频理解中的一项基础任务，旨在捕捉未剪辑视频中的内在时间关系，并以精确的边界识别候选动作。多年来，各类网络模型，包括卷积网络、图网络以及Transformer，都被用来探索高效的时间建模以改进TAD。然而，这些模块通常对过去与未来信息一视同仁，忽略了一个关键事实：动作边界的变化本质上是因果事件。受到这一见解的启发，我们提出利用动作的时间因果性来增强TAD表示，通过限制模型仅能访问过去或未来的上下文信息。我们引入了。

2024-11-19 01:07:55 1300 1

原创【视频时刻定位】Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video Moment Retrieval 论文阅读

视频片段检索（Video Moment Retrieval, VMR）的目标是在未剪辑的视频中根据给定的语言查询检索出相应的时间片段，这通常是通过构建跨模态对齐策略来实现的。然而，现有的策略往往是次优的，因为它们忽略了模态不平衡问题，即视频中固有的语义丰富性远远超过给定的有限长度句子。因此，为了实现更好的对齐，一个自然的想法是增强视频模态以过滤掉与查询无关的语义，同时增强文本模态以捕捉更多与片段相关的知识。

2024-11-15 23:27:19 1113 1

原创【视频时刻定位】Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding 论文阅读

时序定位旨在定位与给定自然语言查询语义对齐的视频片段。现有方法通常对融合表示应用检测或回归管道，研究重点在于设计复杂的预测头或融合策略。相反，从将时序定位视为度量学习问题的角度出发，我们提出了互匹配网络（MMN），以在联合嵌入空间中直接建模语言查询和视频片段之间的相似性。这一新的度量学习框架能够从两个新方面充分利用负样本：在互匹配方案中构建跨模态负样本对，以及挖掘不同视频间的负样本对。这些新的负样本可以通过跨模态互匹配来最大化两种模态的互信息，从而增强两种模态的联合表示学习。

2024-11-13 00:34:49 798 1

原创【视频时刻定位】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language 论文阅读

我们解决的问题是通过查询句子从未剪辑视频中检索特定的片段。这是一个具有挑战性的问题，因为目标片段可能会与未剪辑视频中的其他时间片段相关联。现有方法无法很好地应对这一挑战，因为它们单独考虑时间片段，忽略了时间依赖性。在本文中，我们通过一个二维映射来建模视频片段之间的时间关系，其中一个维度表示片段的开始时间，另一个维度表示片段的结束时间。这个二维时间映射可以覆盖具有不同长度的多种视频片段，同时表示它们的相邻关系。基于这个二维映射，我们提出了一个时间邻接网络（2D-TAN），这是一个用于片段定位的单次框架。

2024-11-12 00:26:18 1002 1

原创【无监督视频异常检测】C2FPL:A Coarse-to-Fine Pseudo-Labeling Framework for Unsupervised Video ...论文阅读

视频中的异常事件检测是监控等应用中的重要问题。视频异常检测（VAD）在单类分类（OCC）和弱监督（WS）设置下得到了广泛研究。然而，完全无监督（US）的视频异常检测方法，即在不使用任何标注或人工监督的情况下学习一个完整的系统，尚未得到深入研究。这是因为缺乏任何真实标注极大地增加了视频异常检测的挑战性。为了应对这一挑战，我们提出了一个简单而有效的两阶段伪标签生成框架，该框架能够生成片段级（正常/异常）伪标签，这些伪标签可以进一步用于以监督方式训练一个片段级异常检测器。

2024-11-10 01:11:55 1479 1

原创【视频异常检测】Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models 论文阅读

视频异常检测（VAD）在安全监控和自动驾驶等应用中至关重要。然而，现有的VAD方法提供的检测依据有限，这阻碍了公众对实际部署的信任。本文采用了一种推理框架来处理VAD。尽管大语言模型（LLMs）展现出了革命性的推理能力，但我们发现其直接应用于VAD时效果不佳。具体而言，LLMs中隐含的知识主要关注一般背景，因此可能无法适用于每一个特定的实际VAD场景，导致灵活性和准确性不足。为了解决这个问题，我们提出了AnomalyRuler，这是一种结合LLMs的基于规则的推理框架。

2024-11-09 17:02:43 1411 1

原创【无监督视频异常检测】Learning Anomalies with Normality Prior for Unsupervised Video Anomaly Detection 论文阅读

无监督视频异常检测（UVAD）旨在在没有任何注释的情况下检测视频中的异常事件。由于异常事件稀少、多样且通常定义不明确，这一任务仍然具有挑战性。现有的UVAD方法纯粹依赖数据驱动，通过识别视频中的各种异常模式进行无监督学习。由于这些方法主要依赖特征表示和数据分布，因此只能学习与正常事件显著不同的突出异常，而忽略那些不太明显的异常。为了解决这个问题，本文采用了一种不同的方法，利用与数据无关的先验知识来处理UVAD中的正常和异常事件。我们首先提出了一种新的正常性先验，建议视频的开始和结束部分主要是正常的。

2024-10-27 15:18:09 1204 1

原创【无监督视频异常检测】Learning Anomalies with Normality Prior for Unsupervised Video Anomaly Detection 论文阅读

无监督视频异常检测（UVAD）旨在在没有任何注释的情况下检测视频中的异常事件。由于异常事件稀少、多样且通常定义不明确，这一任务仍然具有挑战性。现有的UVAD方法纯粹依赖数据驱动，通过识别视频中的各种异常模式进行无监督学习。由于这些方法主要依赖特征表示和数据分布，因此只能学习与正常事件显著不同的突出异常，而忽略那些不太明显的异常。为了解决这个问题，本文采用了一种不同的方法，利用与数据无关的先验知识来处理UVAD中的正常和异常事件。我们首先提出了一种新的正常性先验，建议视频的开始和结束部分主要是正常的。

2024-10-27 15:11:30 753 1

原创 Omnipotent Distillation with LLMs for Weakly-Supervised Natural Language Video Localization 论文阅读

自然语言视频定位在视频理解中扮演着关键角色，而利用弱标注数据被认为是一种有前景的方法，可以避免劳动密集型的手动标注过程。然而，这种方法面临两个重大挑战：1）输入分布有限，即人类标注者所标注的语言查询的写作风格有限，阻碍了模型在具有多样化词汇和句子结构的真实场景中的泛化；2）不完整的真实标签，其监督指导不足。为了克服这些挑战，我们提出了一种与大语言模型（LLM）结合的全能蒸馏算法。通过丰富输入样本的分布，获得多样的多视角版本，同时通过一致性来规范它们的结果以进行蒸馏。

2024-10-25 23:50:11 834 2

原创 Deep Learning for Video Anomaly Detection: A Review 深度学习视频异常检测综述阅读

视频异常检测（VAD）旨在发现视频中偏离正常行为或事件。作为计算机视觉领域的一项长期任务，VAD已经取得了显著的进展。在深度学习时代，随着架构能力和容量的不断爆炸式增长，各种基于深度学习的VAD方法不断涌现，极大地提高了检测算法的泛化能力，并拓宽了应用场景。因此，如此众多的方法和大量的文献使得进行全面的综述成为一项迫切的需求。

2024-09-28 21:53:15 2806

空空如也

空空如也