WACV2024检测Detection论文49篇速览

最新推荐文章于 2025-03-13 16:26:21 发布

木木阳

最新推荐文章于 2025-03-13 16:26:21 发布

阅读量1.2k

点赞数 32

文章标签： WACV 论文阅读 Detection 目标检测

本文链接：https://blog.csdn.net/weixin_44287798/article/details/139760397

版权

WACV2024 Detection论文摘要速览49篇

在这里插入图片描述

Paper1 CLRerNet: Improving Confidence of Lane Detection With LaneIoU

摘要小结: 车道线检测是自动驾驶和驾驶辅助系统中的关键组成部分。现代基于锚点的深度车道检测方法在车道检测基准测试中表现出色。通过初步的实验，我们首先解耦了车道表示的各个组成部分，以确定我们方法的方向。我们发现现有的基于锚点的检测器已经能够预测正确的车道位置，并且准确代表与真实值相交并集（IoU）的置信度分数最为有利。基于这一发现，我们提出了LaneIoU，通过考虑局部车道角度，使其与指标更好地相关。我们开发了一种新型检测器CLRerNet，它采用LaneIoU作为目标分配成本和损失函数，旨在提高置信度分数的质量。通过仔细和公平的基准测试，包括交叉验证，我们证明了CLRerNet大幅优于现有技术水平——在CULane上的F1分数为81.43%，而现有方法为80.47%；在CurveLanes上的分数为86.47%，而现有方法为86.10%。

主要内容概述：
这段话讨论了车道线检测在自动驾驶系统中的重要性，提出了一种新的车道检测方法（LaneIoU），并通过CLRerNet这一新型检测器来实现。研究表明，CLRerNet在两个常用的车道检测基准测试（CULane和CurveLanes）上都优于现有的方法。

Paper2 3SD: Self-Supervised Saliency Detection With No Labels

摘要小结: 我们提出了一种在概念上简单的自监督显著性检测方法。我们的方法生成并使用伪真实标签进行训练，而这些生成的伪-GT标签不需要任何形式的人为标注（例如，像素级标签或像涂鸦一样的弱标签）。近期工作表明，从分类任务中提取的特征提供了重要的显著性线索，如显著物体的结构和语义信息。我们的方法，称为3SD，利用这个想法通过在显著性物体检测的同时，添加一个自监督分类任务的分支，以获得类激活图（CAM图）。这些CAM图以及输入图像的边缘被用来生成伪-GT显著性图，以训练我们的3SD网络。具体来说，我们提出了一个基于对比学习的多图像块训练方法，用于分类任务。我们显示，与整个图像的简单分类相比，多块分类与对比损失提高了CAM图的质量。

以下主要内容概述：

翻译内容概述：
本文介绍了一种自监督显著性检测方法，该方法无需人工标注，通过生成伪-GT标签进行训练。该方法（3SD）通过并行分类任务来提升CAM图质量，最终在无标签情况下，性能超过了所有现有的弱监督和无监督方法，与全监督方法相当。

Paper3 Brainomaly: Unsupervised Neurologic Disease Detection Utilizing Unannotated T1-Weighted Brain MR Images

摘要小结:

在医学成像领域利用深度神经网络的功率具有挑战性，因为获取大型注释数据集存在困难，特别是对于罕见疾病，注释需要高昂的成本、时间和精力。无监督的疾病检测方法，如异常检测，可以在这些情况下显著减少人力。虽然异常检测通常只关注从健康受试者的图像中学习，但现实世界的情况通常呈现未注释的数据集，其中包含了健康和患病受试者的混合。最近的研究表明，利用这样的未注释图像可以提高无监督的疾病和异常检测。然而，这些方法没有利用到注册神经图像的特定知识，导致在神经疾病检测方面的表现不佳。为了解决这一限制，我们提出了Brainomaly，这是一种基于GAN的图像到图像翻译方法，专门用于神经疾病检测。Brainomaly不仅为神经图像提供了合适的图像到图像翻译，而且还利用未注释的混合图像实现了卓越的神经疾病检测。此外，我们提出了一个伪AUC指标，以解决没有注释样本时的模型选择问题，进一步增强了Brainomaly的检测性能。广泛的实验和消融研究显示，Brainomaly在公开数据集上的阿尔茨海默病检测和使用机构数据集的头痛检测方面，显著优于现有的无监督疾病和异常检测方法。代码可从https://github.com/mahfuzmohammad/Brainomaly获取。

主要内容概述：
这段话介绍了一种名为Brainomaly的方法，这是一种基于GAN的图像到图像翻译方法，专门用于神经疾病检测。该方法旨在解决医学成像领域中深度神经网络应用的一个挑战：获取大型注释数据集的困难。Brainomaly利用未注释的混合图像来提高神经疾病检测的性能，并提出了一种伪AUC指标来增强检测性能。实验结果表明，Brainomaly在疾病检测方面优于现有的方法。

Paper4 Co-Speech Gesture Detection Through Multi-Phase Sequence Labeling

摘要小结:

手势是面对面交流中的基本组成部分。它们随时间展开，通常遵循准备、击打和收回的可预测的运动阶段。然而，目前自动手势检测的主要方法将问题视为二分类问题，将一个片段分类为包含手势或不包含手势，从而未能捕捉到其固有的顺序性和情境性。为了解决这一问题，我们引入了一个新颖的框架，将任务重新定义为多阶段序列标注问题，而不是二分类问题。我们的模型处理随时间窗口的骨骼运动序列，使用Transformer编码器来学习情境嵌入，并利用条件随机场执行序列标注。我们在一个包含多样化同期言语手势的大型数据集上评估了我们的提议，这些数据集来自面向任务的面对面对话。结果一致表明，我们的方法在检测手势击打方面显著优于强基线模型。此外，将Transformer编码器应用于从运动序列中学习情境嵌入，极大地提高了手势单元的检测。这些结果突显了我们框架捕捉同期言语手势阶段细粒度动态的能力，为更细致、更准确的gesture检测和分析铺平了道路。

主要内容概述：
这段话讲述了手势在面对面交流中的重要性，并指出现有自动手势检测方法的不足之处。作者提出了一种新的框架，将手势检测视为多阶段序列标注问题，而不是简单的二分类问题。该框架使用Transformer编码器学习和条件随机场来提高手势检测的准确性和细粒度分析。通过在大型数据集上的实验，该方法被证明在检测手势方面显著优于传统模型。

Paper5 HyperMix: Out-of-Distribution Detection and Classification in Few-Shot Settings

摘要小结: 分布外（OOD）检测是现实世界机器学习系统的重要课题，但有限的内部分布样本设置尚未得到充分研究。在这种少样本OOD设置中，模型在学习数据分布的机会很少，因此在识别OOD样本的任务上具有挑战性。实际上，我们证明了最近的OOD方法在少样本设置下无法胜过简单的基线。因此，我们提出了一个名为HyperMix的超网络框架，它在生成的分类器参数上使用Mixup，以及一种自然的集外异常值暴露技术，这种技术不需要额外的异常值数据集。我们在CIFAR-FS和MiniImageNet上进行了实验，显著优于其他OOD方法在少样本情况下的表现。

主要内容概述：
这段话讨论了OOD检测在少样本设置中的挑战，并指出现有方法在这个设置下表现不佳。随后，作者提出了一个新的框架HyperMix，以及一种异常值暴露技术，这些方法在实验中表现优异，优于其他OOD方法。

Paper6 How Do Deepfakes Move? Motion Magnification for Deepfake Source Detection

摘要小结: 随着深度生成模型的普及，深度伪造视频的质量和数量每天都在提高。然而，在未经处理的视频中存在微妙的真实性信号，目前的生成模型无法复制这些信号。我们通过运动放大对比深度伪造视频和真实视频的运动，以构建一个通用的深度伪造源检测器。面部肌肉下的运动在不同的生成模型中有不同的解释，这在它们的生成残留物中得到了反映。我们的方法利用真实运动与放大的生成伪影之间的差异，通过结合深度和传统的运动放大来检测视频是否为伪造，如果是，则检测其源生成器。在两个多源数据集上评估我们的方法，视频源检测的准确率分别为97.77%和94.03%。我们的方法至少比先前的深度伪造源检测器和其他复杂架构性能提高4.08%。我们还分析了放大量、相位提取窗口、骨干网络、样本数量和样本长度。最后，我们报告了关于肤色和性别的结果，以评估模型偏见。

概述主要内容：
这段话主要讲述了研究者们开发了一种新的方法来检测深度伪造视频的来源。他们利用运动放大技术对比深度伪造视频和真实视频，并通过分析生成模型中的差异来检测视频的真伪及其源生成器。该方法在性能上优于先前的检测器，并且还讨论了多个因素，包括模型偏见。

Paper7 Exploiting CLIP for Zero-Shot HOI Detection Requires Knowledge Distillation at Multiple Levels

摘要小结: 在这篇文章中，我们研究了零样本人-物交互（HOI）检测任务，这是一种新颖的范式，用于识别HOIs，而无需任务特定的注释。为了应对这一挑战性任务，我们使用了CLIP，这是一种大规模预训练的视觉-语言模型（VLM），用于在多个层面上进行知识蒸馏。为此，我们设计了一个多分支神经网络，利用CLIP学习不同层面的HOI表示，包括全局图像、包含人-物对的局部并集区域以及单独的人或物实例。为了训练我们的模型，CLIP被用来为全局图像和局部并集区域生成HOI分数，作为监督信号。广泛的实验证明了我们新颖的多层面CLIP知识整合策略的有效性。值得注意的是，该模型的性能非常强劲，甚至可以与一些全监督和弱监督方法在公共HICO-DET基准上相媲美。

概述主要内容：
这篇文章主要介绍了作者们研究的一种零样本人-物交互检测任务，他们使用了CLIP模型进行知识蒸馏，并设计了一个多分支神经网络。通过这种策略，模型在多个层面学习HOI表示，实验证明这种策略有效，并且模型性能可以与全监督和弱监督方法相媲美。

Paper8 Self-Supervised Learning for Visual Relationship Detection Through Masked Bounding Box Reconstruction

摘要小结: 我们提出了一种新颖的自监督表示学习方法，特别适用于视觉关系检测（VRD）任务。受掩膜图像建模（MIM）有效性的启发，我们提出了掩膜边界框重建（MBBR），这是MIM的一种变体，其中场景内一定比例的实体/对象被掩膜，然后根据未掩膜的对象进行重建。核心思想是，通过对象级别的掩膜建模，网络学习到能够捕捉场景内对象交互的上下文感知表示，从而对视觉对象关系具有很高的预测性。我们在几种设置中广泛评估了学习的表示，定性和定量地展示了MBBR在学习稳健视觉表示方面的有效性，特别是为VRD量身定制的。提出的方法能够在谓词检测（PredDet）评估设置上超越现有的VRD方法，仅使用少量注释样本。

以下主要内容概述：

翻译：我们提出了一种新的自监督学习方法，针对VRD任务。
方法：引入了MBBR，这是MIM的一种变体。
如何工作：通过掩膜部分对象并重建，网络学习上下文感知表示。
结果：在少量样本的设置中，该方法在VRD上效果显著，超越了现有方法。

以下是翻译：

我们呈现了一种新颖的自监督表示学习方法，特别适用于视觉关系检测（VRD）任务。受到掩膜图像建模（MIM）有效性的启发，我们提出了掩膜边界框重建（MBBR），这是MIM的一种变体，其中场景内一定比例的实体/对象被掩膜，随后根据未掩膜的对象进行重建。核心思想是，通过对象级别的掩膜建模，网络学习到能够捕捉场景内对象交互的上下文感知表示，从而对视觉对象关系具有很高的预测性。我们广泛地在几种设置中评估了学习的表示，定性和定量地展示了MBBR在学习稳健视觉表示方面的有效性。该方法能够在仅使用少量注释样本的情况下，超越最先进的VRD方法在谓词检测（PredDet）评估设置上。我们的代码可在https://github.com/deeplab-ai/SelfSupervisedVRD上找到。

Paper9 Embedding Task Structure for Action Detection

摘要小结: 我们提出了一种简单、灵活的方法，通过在深度网络的损失函数中表达动作的时间结构和结构关系，来提高动作检测的准确性和质量。我们描述了如何表示视频数据中隐含的结构，并展示了这些结构如何反映自然偏差，从而改善网络训练。实验结果表明，我们的方法在准确性和动作识别及检测模型的编辑距离方面均优于基线。我们的框架在先前工作的基础上取得了改进，并在多个基准测试中获得了最先进的结果。

概述主要内容：
这段话介绍了作者提出的一种方法，该方法通过在深度学习网络的损失函数中处理动作的时间和结构关系来提升动作检测的准确性和质量。同时，它还讨论了如何表示视频数据中的隐含结构，并说明这些结构如何帮助改善网络训练。实验证明，这种方法有效提升了性能，并在多个基准测试中取得了最先进的结果。

Paper10 ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot End-to-End Temporal Action Detection

摘要小结: 临时动作检测（TAD）涉及在未经剪辑的视频中对动作实例进行定位和分类。虽然标准的TAD采用大规模训练数据的全监督学习与闭合集设置，但最近的零样本TAD方法通过利用大规模对比视觉语言（ViL）预训练模型，展示了有前景的开集设置。然而，现有的零样本TAD方法在如何正确构建定位和分类这两个相互依赖任务之间的强烈关系以及适应ViL模型进行视频理解方面存在局限性。在这项工作中，我们介绍了ZEETAD，它具有两个模块：双重定位和零样本提案分类。前者是一个基于Transformer的模块，用于检测动作事件，同时选择性地收集对后续识别至关重要的高级语义嵌入。后者是一个基于CLIP的模块，为每个时间单元从文本和帧输入生成语义嵌入。此外，我们通过使用轻量级适配器最小更新冻结的CLIP编码器，提高了对未见类的判别能力。在THUMOS14和ActivityNet-1.3数据集上的广泛实验证明了我们方法在零样本TAD中的优越性能，以及从ViL模型到未见动作类别的有效知识转移。

以下是主要内容概述：

TAD是关于视频中的动作定位和分类。
零样本TAD方法展示了开集设置的潜力。
现有方法存在局限性。
本文介绍了ZEETAD，包含双重定位和零样本提案分类两个模块。
方法在多个数据集上展示了优越性能和知识转移能力。

以下是翻译：

临时动作检测（TAD）涉及在未剪辑视频中定位和分类动作实例。尽管标准的TAD采用全监督学习并在大规模训练数据上采用闭合集设置，但最近的零样本TAD方法通过利用大规模对比视觉语言（ViL）预训练模型，展示了有前途的开集设置。然而，现有的零样本TAD方法在如何适当构建定位和分类这两个相互依赖任务之间的强烈关系以及如何适应ViL模型进行视频理解方面存在限制。在本研究中，我们介绍了ZEETAD，它包括两个模块：双重定位和零样本提案分类。前者是一个基于Transformer的模块，用于检测动作事件，同时选择性地收集对后续识别至关重要的语义嵌入。后者是一个基于CLIP的模块，为每个时间单元生成文本和帧输入的语义嵌入。此外，我们通过轻量级适配器最小化更新冻结的CLIP编码器，提高了对未见类的判别能力。在THUMOS14和ActivityNet-1.3数据集上的大量实验证明了我们方法在零样本TAD中的卓越性能，以及从ViL模型到未见动作类别的有效知识转移。代码可在以下地址获取：https://github.com/UARK-AICV/ZEETAD。

Paper11 Out-of-Distribution Detection With Logical Reasoning

摘要小结: 机器学习模型通常只能可靠地推广到训练分布中的样本。因此，检测输入数据是否为分布外（OOD）至关重要，特别是在安全关键的应用中。然而，当前的OOD检测方法往往是领域无关的，并且经常未能融入关于训练分布结构的宝贵先验知识。为了解决这一局限性，我们引入了一种新颖的混合OOD检测算法，该算法结合了基于深度学习的感知系统与基于一阶逻辑的知识表示。逻辑推理系统在运行时使用这个知识库来推断输入是否与关于训练分布的先验知识一致。与纯粹的神經系統相比，结构化知识表示允许人类检查和修改控制OOD检测器行为的规则。这不仅提高了性能，而且在安全关键环境中特别有益的解释性也得到了提升。以下是主要内容概述：

翻译与概述：

机器学习模型通常只能对训练分布中的样本进行可靠泛化。因此，检测输入数据是否处于分布外（OOD）非常重要，尤其是在安全关键的应用中。现有OOD检测方法通常忽略了领域知识，我们的方法如下：

我们引入了一种新颖的混合OOD检测算法。
该算法结合了深度学习感知系统和基于一阶逻辑的知识表示。
逻辑推理系统在运行时使用知识库来推断输入数据。
这种方法允许人类检查和修改规则，提高了性能和可解释性。

以下是详细内容：

翻译：

机器学习模型通常只对训练分布的样本进行可靠的泛化。因此，检测输入数据是否分布外（OOD）是至关重要的，特别是在安全关键的应用中。然而，当前的OOD检测方法往往是领域无关的，并且经常未能融入关于训练分布结构的宝贵先验知识。为了解决这个限制，我们提出了一种新颖的混合OOD检测算法，该算法将基于深度学习的感知系统与基于一阶逻辑的知识表示相结合。逻辑推理系统在运行时使用这个知识库来推断输入是否与训练分布的先验知识一致。与纯粹的神經系統相比，结构化知识表示允许人类检查和修改管理OOD检测器行为的规则。这不仅提高了性能，而且在安全关键的环境中特别有益于解释性。我们通过在几个数据集上的实验来证明我们方法的有效性，并讨论优势和局限性。我们的代码在线上可用。

Paper12 Physical-Space Multi-Body Mesh Detection Achieved by Local Alignment and Global Dense Learning

摘要小结: 从野外捕获的单目RGB图像中检测多人体三维网格的实际大小和位置是出了名的困难，这主要是因为视觉模糊的多样性和缺乏明确的深度测量。现代深度神经网络(DNN)方法在两个主要子任务上取得了众多进展，这些子任务基于要么是两阶段的感兴趣区域(RoI)-Align，要么是单阶段的固定视场(FoV)检测器框架：局部以骨盆为中心的网格回归和全局身体到相机的平移回归。然而，现存的解决方案仍无法实现亚米级的物理空间单目网格检测。以下是翻译和概述：

翻译：
从野外捕获的单目RGB图像中，由于视觉模糊的多样性和缺乏明确的深度测量，检测多人体三维网格的实际大小和位置非常困难。现代DNN方法在以下两个主要子任务上取得了众多进展：基于两阶段的感兴趣区域(RoI)-Align或单阶段的固定视场(FoV)检测器框架，即局部以骨盆为中心的网格回归和全局身体到相机的平移回归。然而，现有解决方案仍无法达到亚米级的物理空间单目网格检测。在这篇文章中，我们识别出两个常见的缺点：(1)局部网格通常是在没有显式对齐图像空间缩放、遮挡和截断下的身体特征的情况下估计的；(2)全局平移是基于弱透视假设估计的，这使网络优先考虑图像空间（前视图）网格对齐，导致网格深度不准确。我们介绍了物理空间多身体网格检测(PMMD)，其中(1)在局部，我们保持身体宽高比，对齐身体到RoI布局，并密集地细化个人RoI特征以提高鲁棒性；(2)在全局，我们学习密集深度引导特征，以修正身体级的局部特征，用于物理深度估计。

概述：

主要内容是，文章讨论了从单目RGB图像中检测多人体三维网格的挑战，指出当前解决方案无法达到亚米级物理空间检测。文章提出了两个常见缺点，并引入了物理空间多身体网格检测(PMMD)方法，该方法在局部和全局层面都有改进，最终实现了最佳的厘米级局部网格指标和首次亚米级全局网格指标。

Paper13 FinderNet: A Data Augmentation Free Canonicalization Aided Loop Detection and Closure Technique for Point Clouds in 6-DOF Separation.

摘要小结: 我们专注于移动机器人基于激光雷达点云的闭环检测（或寻找）与闭环（LDC）问题。当前最先进（SOTA）的方法直接从给定的点云生成学习嵌入，需要大量的数据增强，且在6自由度（DOF）的宽视角变化下不够稳健。此外，无结构点云中缺乏强先验会导致LDC准确性极低。在本研究中，我们提出了一种使用常见的优势地面平面独立对点云进行滚动和俯仰规范化的方法。我们将规范化的点云沿垂直于地面平面的轴离散化，得到的图像类似于数字高程图（DEMs），这揭示了场景中强烈的空间先验。

以下是翻译和概述：

翻译：
我们关注移动机器人基于激光雷达点云的闭环检测（或寻找）与闭环（LDC）问题。最先进（SOTA）的方法直接从给定的点云生成学习嵌入，需要大量数据增强，且在6自由度（DOF）的广泛视角变化下并不稳健。此外，无结构点云中缺乏强先验导致LDC非常不准确。在此原始方法中，我们提出使用常见的优势地面平面独立对点云进行滚动和俯仰规范化的方法。我们将规范化的点云沿垂直于地面平面的轴离散化，得到的图像类似于数字高程图（DEMs），这揭示了场景中的强烈空间先验。我们的实验表明，基于这种DEM的学习嵌入的LDC不仅数据效率高，而且比当前SOTA更稳健、更具有普遍性。我们在KITTI08序列上报告了（平均精度用于闭环检测，平均绝对平移/旋转误差）的改进，分别为（8.4, 16.7/5.43）%，在GPR10序列上为（11.0, 34.0/25.4）%。为了进一步测试我们的技术在6-DOF运动中的点云上的稳健性，我们创建并开源了一个自定义数据集，称为Lidar-UrbanFly Dataset (LUF)。

概述：
该段话主要讨论了移动机器人基于激光雷达点云的闭环检测问题。作者提出了一种新的方法来处理现有技术中的问题，如数据增强需求和不稳健的视角变化。他们使用地面平面进行点云规范化，并生成了类似DEM的图像，这有助于提高准确性。实验结果显示，该方法比现有技术更有效，并且在两个数据序列上都有显著的性能提升。此外，他们还创建了一个新的数据集来进一步验证技术的稳健性。

Paper14 MS-EVS: Multispectral Event-Based Vision for Deep Learning Based Face Detection

摘要小结: 基于事件的感知是一种相对较新的成像方式，它能够实现低延迟、低功耗、高时间分辨率和高动态范围的数据采集。这些特性使得它成为边缘应用和高动态范围环境中的理想传感器。截至目前，大多数基于事件的传感器是单色的（灰阶），能够通过单一通道捕捉到可见光范围内广泛的光谱。在本文中，我们介绍了多光谱事件并研究了它们的优点。特别是，我们考虑了在可见光和近红外范围内的多个波段，并探讨了与单色事件和传统的多光谱成像相比，它们在人脸检测任务中的潜力。此外，我们发布了第一个大规模的双模态人脸检测数据集，包括RGB视频及其模拟的颜色事件，N-MobiFace和N-YoutubeFaces，以及一个包含多光谱视频和事件的小型数据集，N-SpectralFace。我们发现，与传统的多光谱图像的早期融合相比，多光谱事件的早期融合显著提高了人脸检测的性能。这一结果表明，与单色等价的常规多光谱/彩色图像相比，多色事件携带了更多关于场景的有用信息。据我们所知，我们提出的方法是第一个探索多光谱事件的研究，特别是包括近红外数据。

主要内容概述：
本文介绍了一种新型的基于事件的成像方式，即多光谱事件，并探讨了其在人脸检测任务中的优势。作者对比了多光谱事件与单色事件以及传统多光谱成像的性能，并发布了相关数据集。研究结果表明，多光谱事件的早期融合能显著提高人脸检测性能。

Paper15 ShadowSense: Unsupervised Domain Adaptation and Feature Fusion for Shadow-Agnostic Tree Crown Detection From RGB-Thermal Drone Imagery

摘要小结: 准确检测遥感数据中的单个树冠具有重大挑战性，这主要是由于森林冠层的密集性以及多种环境变化的存在，例如重叠冠层、遮挡和变化的光照条件。此外，缺乏用于训练稳健模型的数据增加了另一个限制，这影响了有效研究复杂森林条件的可能性。本文提出了一种检测阴影树冠的新方法，并提供了一个具有挑战性的数据集，包含大约5万对RGB-热图像，以促进未来对光照不变检测的研究。提出的方法（ShadowSense）是完全自我监督的，利用领域对抗训练，无需源领域注释即可进行特征提取，并通过前景特征对齐来适应特征金字塔网络，专注于可见前景区域。然后，它融合了两种模态的互补信息，有效改进了RGB训练检测器的预测并提高了整体准确度。广泛的实验表明，提议的方法优于基线RGB训练检测器以及依赖无监督域适应或早期图像融合的现有技术。我们的代码和数据是可用的。

主要内容概述：
这段话主要讲述了研究者提出了一种名为ShadowSense的新方法，用于检测遥感数据中的阴影树冠。该方法面临挑战，因为森林冠层密集和环境变化。此外，它介绍了提供一个数据集来促进研究。ShadowSense是自我监督的，使用领域对抗训练，并融合了不同模态的信息来提高检测准确度。实验结果显示，该方法优于其他技术。

Paper16 Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on Facial Action Unit Detection

摘要小结: 最近的研究集中在利用多模态数据开发用于面部动作单元（AU）检测的鲁棒模型。然而，多模态数据的异质性在学习有效表征时带来了挑战。其中一个挑战是使用单个特征提取器从多种模态中提取相关特征。此外，先前的研究尚未充分探讨多模态融合策略的潜力。与大量关于晚期融合的工作相比，关于早期融合探索通道信息的调查有限。本文提出了一种新颖的多模态重构网络，名为多模态通道混合（MCM），作为预训练模型，以学习鲁棒表征，促进多模态融合。

翻译内容：
最新研究集中于利用多模态数据开发用于面部动作单元（AU）检测的健壮模型。但是，多模态数据的异质性问题给学习有效表征带来了挑战。一个挑战就是使用单一特征提取器从多个模态中提取相关特征。此外，之前的研究并未完全探索多模态融合策略的潜力。与晚期融合的大量工作相比，早期融合在通道信息探索方面的研究较少。本文提出了一个名为多模态通道混合（MCM）的新型多模态重构网络，作为预训练模型，以便学习鲁棒表征，促进多模态融合。

概述：

研究重点是在多模态数据上的面部AU检测。
多模态数据的异质性导致了学习挑战。
提出了MCM网络作为预训练模型。
MCM采用早期融合设置，包含通道混合模块。
通过面具自动编码器重建被丢弃的通道。
这个方法提高了多模态学习和重建能力。
对下游任务进行了微调，结果显示超越了现有方法。

实验在BP4D+上进行预训练，然后在BP4D和DISFA上进行微调，以评估提出框架的有效性和鲁棒性。

Paper17 EResFD: Rediscovery of the Effectiveness of Standard Convolution for Lightweight Face Detection

摘要小结: 这篇论文分析了提高人脸检测架构计算成本和准确性的设计选择。具体来说，我们重新审视了标准卷积块作为轻量级骨干架构在人脸检测中的有效性。与当前轻量级架构设计倾向不同，后者大量使用深度可分离卷积层，我们展示了在相似参数大小下，大量通道剪枝的标准卷积层可以实现更好的准确性和推理速度。这一观察得到了针对目标数据域（人脸）特性的分析支持。基于我们的观察，我们提议使用通道高度减少的ResNet，其效率惊人，相比其他移动友好网络（如MobileNetV1、V2、V3）更为高效。

概述：

文章探讨了标准卷积块在人脸检测中的应用。
它对比了通道剪枝的标准卷积层与深度可分离卷积层。
提出使用通道减少的ResNet，展示其与移动友好网络的效率。
实验显示，提议的骨干网络可以替代现有先进的人脸检测器，并提高推理速度。
提出了一种新的特征聚合方法，以最大化检测性能。
EResFD检测器在WIDER FACE Hard子集上取得了80.4%的mAP，并且在CPU上对VGA图像推理仅需37.7毫秒。
代码可在指定GitHub链接中找到。

Paper18 ConfTrack: Kalman Filter-Based Multi-Person Tracking by Utilizing Confidence Score of Detection Box

摘要小结: 基于卡尔曼滤波的跟踪检测（KFTBD）跟踪器是解决多人跟踪任务的有效方法。然而，在拥挤的环境下，噪声检测结果（低置信度得分的边界框）可能导致跟踪器的ID切换和跟踪失败，因为这些跟踪器直接利用检测器的输出。本文中，为了解决这一问题，我们提出了一种新的跟踪器，称为ConfTrack，基于KFTBD跟踪器。与传统的KFTBD跟踪器相比，ConfTrack包含新颖的算法，包括低置信度对象惩罚和级联算法，以有效处理噪声检测器输出。ConfTrack在MOT17、MOT20、DanceTrack和HiEve等不同领域的数据集上进行测试。ConfTrack在MOT20数据集上以HOTA和IDF1指标获得最高分，证明了其在拥挤环境中的鲁棒性。

主要内容概述：
这段话介绍了基于KFTBD的跟踪器在多人跟踪任务中的有效性，但指出在拥挤环境下存在一个问题。为了解决这个问题，提出了ConfTrack跟踪器，它包含新算法来处理噪声检测输出。ConfTrack在多个数据集上进行了测试，并在MOT20上取得了最佳成绩，显示了其鲁棒性。

Paper19 Multispectral Imaging for Differential Face Morphing Attack Detection: A Preliminary Study

摘要小结: 面部融合攻击检测正逐渐成为一个日益具有挑战性的问题，原因是高质量和逼真的融合攻击生成技术取得了进展。可靠地检测融合攻击是至关重要的，因为这些攻击是针对边境控制应用的。本文提出了一种用于差异融合攻击检测（D-MAD）的多光谱框架。D-MAD方法基于使用两张面部图像，分别来自电子护照（也称为参考图像）和可信设备（例如，自动边境控制（ABC）门）来检测电子护照中呈现的面部图像是否被融合。所提出的多光谱D-MAD框架引入了一种作为可信捕获的多光谱图像，以获取七个不同的光谱带，以检测融合攻击。在新建的多光谱融合数据集（MSMD）上进行了大量实验，该数据集包含143个独特的数据主体，这些数据主体在多个会话中使用可见光和多光谱相机进行捕捉。结果显示，与可见图像相比，提出的多光谱框架具有更优越的性能。

概述主要内容：
这段话主要讨论了面部融合攻击检测的问题，并提出了一种新的多光谱框架（D-MAD）来检测这种攻击。该框架使用电子护照和可信设备捕捉的面部图像来检测是否发生了融合攻击。此外，该框架利用多光谱图像捕捉七个不同的光谱带来进行检测。实验结果显示，该多光谱框架在检测融合攻击方面表现优异。

Paper20 Booster-SHOT: Boosting Stacked Homography Transformations for Multiview Pedestrian Detection With Attention

摘要小结:

提高多视角聚合对于多视角行人检测至关重要，其目标是从通过一组校准摄像头捕获的图像中获取一个鸟瞰视图的行人占用地图。受到深度神经网络中注意力模块成功的启发，我们首先提出了一种Homography注意力模块（HAM），该模块通过利用一种新颖的通道门和空间门被证明能够提升现有端到端多视角检测方法的性能。此外，我们提出了Booster-SHOT，这是一种端到端的卷积多视角行人检测方法，融入了我们提出的HAM以及先前方法的元素，如视图一致性增强或堆叠单应变换。Booster-SHOT在Wildtrack和MultiviewX上的MODA分别达到了92.9%和94.2%，在Wildtrack上超过了现有技术1.4%，在MultiviewX上超过了0.5%，在多视角行人检测中使用的标准评估指标上整体达到了最先进的性能。

主要内容概述：

这段话讨论了多视角行人检测中提高多视角聚合的重要性。作者提出了一个新的Homography注意力模块（HAM），并展示了它如何提升现有检测方法的性能。此外，作者还介绍了Booster-SHOT，这是一种新的端到端检测方法，它整合了HAM和其他先前技术的元素。该方法在两个数据集上均取得了最先进的性能。

Paper21 Textron: Weakly Supervised Multilingual Text Detection Through Data Programming

摘要小结: 最近一些基于深度学习（DL）的技术在基于图像的多语言文本检测上表现良好。然而，这些技术的性能在很大程度上依赖于训练数据的可用性和质量。存在许多类型的页面级文档图像，包含多种模态、语言、字体和布局的信息，这使得文本检测成为计算机视觉（CV）领域的一个挑战性问题，特别是对于低资源或手写语言。此外，对于文本检测，尤其是多语言环境和印度脚本，包含打印和手写文本的单词级标注数据非常稀缺。传统上，印度脚本文本检测需要在大量的标注数据上训练DL模型，但据我们所知，没有相关数据集可用。手动标注这些数据需要大量时间、努力和专业知识。

以下是翻译和概述：

翻译：
最近的几种基于深度学习的技术在基于图像的多语言文本检测上取得了相当好的效果。然而，这些技术的性能极大地依赖于训练数据的可用性和质量。有大量的页面级文档图像包含多种模态、语言、字体和布局的信息。这使得文本检测成为计算机视觉领域的一个难题，特别是对于资源较少或手写的语言。此外，对于文本检测，尤其是在多语言环境和印度脚本中，缺乏单词级别的标注数据，这些数据包括打印和手写文本。通常，印度脚本文本检测需要在大量的标注数据上训练深度学习模型，但据我们所知，没有相关数据集。手动标注这些数据需要大量时间、精力和专业知识。为了解决这个问题，我们提出了TEXTRON，一个基于数据编程的方法，用户可以将各种文本检测方法插入到基于弱监督的学习框架中。

概述：
这段话主要讨论了基于深度学习的多语言文本检测技术的挑战，尤其是在印度脚本等资源匮乏的环境中。作者提出了TEXTRON方法，这是一种基于数据编程的方法，允许用户在弱监督学习框架中使用不同的文本检测方法。TEXTRON能够利用预训练的DL模型和其他CV技术来提高文本检测性能，即使在没有对应标注数据的情况下也能改善印度语言的检测性能。以下是进一步的成果：

TEXTRON在缺乏标注数据的情况下，提高了印度语言文档的检测性能。
通过大量实验，作者展示了他们的方法相较于当前最先进（SOTA）模型带来的改进，特别是对于手写德瓦纳格里文本。
代码和数据集已在GitHub上提供。

Paper22 SCoRD: Subject-Conditional Relation Detection With Text-Augmented Data

摘要小结: 我们提出了主题条件关系检测（SCoRD），目标是在给定输入主题的情况下，预测它与场景中其他对象的所有关系及其位置。基于Open Images数据集，我们提出了一个具有挑战性的OIv6-SCoRD基准，使得训练和测试分割在<主体，关系，对象>三元组的出现统计方面存在分布偏移。为了解决这个问题，我们提出了一种自回归模型，给定一个主体，它通过将输出视为一系列令牌，预测其关系、对象和对象位置。

Paper23 Attention Modules Improve Image-Level Anomaly Detection for Industrial Inspection: A DifferNet Case Study

摘要小结: 在半自动化的视觉工业检测中，基于学习的方法用于评估视觉缺陷，包括深度神经网络，使得可以在高分辨率图像上处理尺寸很小的缺陷模式。这些往往很少出现的缺陷模式的出现解释了为什么普遍需要标记数据集。为了缓解这个问题并推进无监督视觉检测的现有技术水平，本研究提出了一个基于DifferNet的解决方案，并增加了注意力模块：AttentDifferNet。它在三个工业检测视觉异常检测数据集上提高了图像级检测和分类能力：InsPLAD-fault、MVTec AD和半导体晶圆。与现有技术水平相比，AttentDifferNet取得了改进的结果，这些结果在我们的定性定量研究中得到了突出展示。

以下是主要内容概述：

概述：

AttentDifferNet提出了一种解决方案，用于提升无监督视觉检测。
它在三个数据集上提高了检测和分类能力。
与现有技术相比，AttentDifferNet取得了更好的结果。
平均而言，与DifferNet相比，它在所有三个数据集上的整体AUROC提高了1.77 ± 0.25个百分点。
在InsPLAD-fault数据集上达到了最先进的结果。
AttentDifferNet的变体在当前研究方法中显示出巨大前景，强调了注意力对工业异常检测的重要性。

Paper24 TAMPAR: Visual Tampering Detection for Parcel Logistics in Postal Supply Chains

摘要小结:

由于供应链中贵重物品的数量稳步上升，对包裹的篡改检测变得越来越重要。在这项工作中，我们关注的是最后一英里送货的使用场景，其中只拍摄了一张RGB图像，并与现有数据库中的参考图像进行比较，以检测可能表明篡改的外观变化。我们提出了一个利用关键点检测来识别包裹八个角点的篡改检测流程。这使得可以对每个可见的包裹侧面表面应用透视变换，以创建规范化的正交视图。这些视点不变的包裹侧面表面表示有助于识别供应链中的包裹篡改迹象，因为它们将问题简化为包裹侧面表面匹配与成对的外观变化检测。我们在新收集的用于包裹的篡改检测数据集TAMPAR上进行了多种传统和基于深度学习的更改检测方法的实验。我们分别评估了关键点和更改检测，以及在统一系统中的篡改检测。我们的评估显示了关键点（关键点AP 75.76）和篡改检测（81%准确率，F1分数0.83）在真实图像上的有希望的结果。此外，还进行了针对篡改类型、镜头扭曲和观看角度的敏感性分析。代码和数据集可在https://a-nau.github.io/tampar获取。

主要内容概述：
这段话主要讨论了在供应链中，随着贵重物品的增加，对包裹篡改检测的重要性也在增加。作者提出了一种篡改检测流程，使用关键点检测来识别包裹的角点，并通过透视变换来规范化包裹的侧面视图，以便检测篡改迹象。研究在名为TAMPAR的新数据集上进行了实验，并分别评估了关键点检测和篡改检测的性能。结果显示在真实图像上取得了良好的效果，并对不同篡改类型和拍摄条件进行了敏感性分析。相关代码和数据集可通过提供的链接获取。

Paper25 EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

摘要小结: 翻译：检测图像中的异常是一个重要的任务，特别是在实时计算机视觉应用中。在这项工作中，我们关注计算效率，并提出了一种轻量级特征提取器，该提取器在现代GPU上处理图像的时间不到一毫秒。然后我们使用学生-教师方法来检测异常特征。我们训练一个学生网络来预测正常训练图像，即无异常的训练图像的提取特征。在测试时检测异常是通过学生无法预测其特征来实现的。我们提出了一种训练损失，阻止学生模仿教师特征提取器超出正常图像的范围。这使我们能够大幅降低学生-教师模型的计算成本，同时提高异常特征的检测效果。此外，我们还解决了涉及正常局部特征无效组合的具有挑战性的逻辑异常检测问题，例如对象的错误排序。我们通过高效地整合一个分析图像全局的自动编码器来检测这些异常。以下是主要内容概述：

概述：

这段话主要讲述了以下内容：

图像异常检测在实时计算机视觉应用中的重要性。
提出了一种轻量级特征提取器，能够在极短的时间内处理图像。
使用学生-教师方法来检测异常特征，并通过训练损失提高检测效果。
提出了一种方法来检测具有挑战性的逻辑异常。
介绍了EfficientAD方法，并在多个数据集上进行评估，展示了其在异常检测和定位方面的新标准。
EfficientAD在延迟和吞吐量方面表现出色，是实际应用的经济解决方案，也为未来研究提供了基础。

Paper26 Implicit Neural Representation for Change Detection

摘要小结:

确定在同一地理区域内两个不同时间段获取的一对3D空中激光雷达点云中的变化构成了一项重大挑战，这是由于空间覆盖范围的差异以及采集系统中存在的噪声。检测点云变化的常用方法基于监督方法，这些方法需要大量标记数据，而在实际应用中往往无法获得。为了解决这些问题，我们提出了一种无监督的方法，该方法包括两个部分：用于连续形状重建的隐式神经表示（INR）和用于分类变化的高斯混合模型。INR为编码双时相点云提供了网格无关的表示，具有无与伦比的空间支持，可以通过正则化增强高频细节并减少噪声。每个时间戳的重建在任意空间尺度上进行比较，导致检测能力显著提高。我们将我们的方法应用于一个基准数据集，该数据集包含用于城市蔓延的模拟激光雷达点云。这个数据集涵盖了多种具有挑战性的场景，包括分辨率、输入模态和噪声水平的变化。这允许进行全面的多场景评估，将我们的方法与当前最先进的方法进行比较。我们在交并比指标上以10%的优势超过了之前的方法。此外，我们将技术实际应用在一个现实世界场景中，以识别考古遗址非法挖掘的实例，并通过与现场专家的发现进行比较来验证我们的结果。

主要内容概述：

这段话介绍了一种用于检测3D空中激光雷达点云中变化的无监督方法。该方法面临的主要挑战包括空间覆盖范围的差异和采集系统中的噪声。该方法包括隐式神经表示（INR）和高斯混合模型两个部分。INR用于形状重建，而高斯混合模型用于分类变化。该方法在基准数据集上进行了测试，并在与现有方法比较时表现出了优势。此外，该方法还在现实世界场景中得到了应用。

Paper27 Contextual Affinity Distillation for Image Anomaly Detection

摘要小结: 之前的研究主要关注于无监督工业异常检测中的“结构型”异常，如裂纹和颜色污染，通过匹配或学习局部特征表示来实现。虽然在这类异常的检测性能上取得了显著的高水平，但它们面临着“逻辑型”异常的挑战，这类异常会违反长程依赖关系，例如将正常物体放置在错误的位置。注意到在编码器-解码器范式下的反向蒸馏方法可以从高抽象级别的知识中学习，我们提议使用两个学生（局部和全局）来更好地模仿教师在反向蒸馏中的局部和全局行为。局部学生主要关注精确的局部特征学习，而全局学生则关注学习全局相关性。为了进一步鼓励全局学生捕捉长程依赖性，我们设计了全局上下文浓缩块（GCCB）并提出了一种用于学生训练和异常评分的上下文亲和损失。实验结果显示，提出的方法在MVTec LOCO AD数据集上取得了新的最先进性能，且没有使用复杂的训练技术。

概述主要内容：
这段话主要讨论了无监督工业异常检测的研究，指出了之前研究在处理“逻辑型”异常方面的挑战。作者提出了一种新的方法，通过使用两个学生（局部和全局）在反向蒸馏中模仿教师的局部和全局行为，并引入了全局上下文浓缩块和上下文亲和损失来提高性能。实验结果表明，这种方法取得了显著的成果。

Paper28 ATS: Adaptive Temperature Scaling for Enhancing Out-of-Distribution Detection Methods

摘要小结: 翻译：分布外（OOD）检测对于确保机器学习模型在现实世界应用中的可靠性和鲁棒性至关重要。由于不需要额外的再训练，这可能会降低模型性能并增加训练时间，因此事后OOD检测方法受到了广泛关注。然而，大多数现有的事后方法仅依赖于编码器输出（特征）、logits或softmax概率，这意味着它们无法获取可能在特征提取过程中丢失的信息。在这项工作中，我们通过引入自适应温度缩放（ATS）来解决这个问题，这是一种新颖的方法，它根据中间层的激活动态计算温度值。将这种样本特定的调整与类依赖的logits融合，我们的ATS在信息在特征提取过程中丢失之前捕获额外的统计信息，从而实现更鲁棒、更强大的OOD检测方法。我们进行了大量实验来证明我们方法的有效性。值得注意的是，我们的方法可以与依赖于logits的SOTA事后OOD检测方法无缝结合，从而提高它们的性能和鲁棒性。

概述内容：

这段话主要讨论了OOD检测的重要性，并介绍了作者提出的一种新的方法——自适应温度缩放（ATS）。OOD检测对于机器学习模型非常关键，而现有的方法存在一些限制。ATS方法通过动态计算温度值，捕获在特征提取过程中可能丢失的信息，从而提高了OOD检测的鲁棒性和效果。此外，该方法可以与其他SOTA方法无缝结合，提升其性能。

Paper29 RPCANet: Deep Unfolding RPCA Based Infrared Small Target Detection

摘要小结: 深度学习（DL）网络在红外小目标检测（ISTD）中取得了显著性能。然而，这些结构在可解释性方面存在不足，被认为是黑箱，因为它们忽视了ISTD领域的专业知识。为了缓解这个问题，本研究提出了一种可解释的深度网络，用于检测红外暗目标，名为RPCANet。具体来说，我们的方法将ISTD任务表述为在宽松的鲁棒主成分分析（RPCA）模型中的稀疏目标提取、低秩背景估计和图像重建。通过将迭代优化更新步骤展开为深度学习框架，耗时的复杂数阵计算被理论指导的神经网络所取代。RPCANet检测目标具有清晰的解释性，并保留了图像的固有特征，而不是直接将检测任务转化为矩阵分解问题。大量实验证明了我们深度展开框架的有效性，并展示了其可靠的结果，超过了基线方法在定性和定量评估方面。

概述主要内容：
这段话介绍了RPCANet，这是一种新型的深度学习网络，用于红外暗目标的检测。该网络提高了可解释性，并通过将任务表述为RPCA模型中的几个步骤来避免被视为黑箱。RPCANet通过深度学习框架改进了计算，并且在实验中被证明是有效的，超过了其他基线方法。

Paper30 Benchmarking Out-of-Distribution Detection in Visual Question Answering

摘要小结: 当面对分布外（OOD）的问题或图像时，视觉问答（VQA）系统可能会提供不可靠的答案。如果被真实用户或次级系统依赖，这些失败可能从令人烦恼到可能危及生命。在单一模态设置中检测OOD样本已得到充分研究；然而，对于视觉和语言设置，关注有限。在这项工作中，我们研究了在多模态VQA任务中检测OOD的问题，并基准测试了一套方法以识别OOD图像-问题对。在我们的实验中，我们利用流行的VQA数据集来基准测试检测性能在各种难度下的表现。我们还生成了复合数据集以检查单个模态的影响以及图像-问题一致性的影响。结果显示，仅凭答案信心通常是一个较差的信号，基于图像生成问题或检查模型注意力的方法可以带来显著更好的结果。我们发现检测无根据的图像-问题对和图像分布中的小变化仍然具有挑战性。

概述主要内容：
这段话讨论了在视觉问答（VQA）系统中检测分布外（OOD）样本的重要性。它指出，当VQA系统遇到OOD问题或图像时，可能会给出不可靠的答案，这可能导致严重后果。研究主要集中在多模态VQA任务中的OOD检测，作者进行了一系列实验，并发现了一些更有效的方法来识别OOD样本。此外，研究表明，仅依赖答案信心是不够的，其他方法更为有效。

Paper31 HalluciDet: Hallucinating RGB Modality for Person Detection Through Privileged Information

摘要小结:

一种强大的方法是将视觉识别模型适应到新领域，通过图像转换来实现。然而，常见的图像转换方法仅关注生成与目标域相同分布的数据。考虑到一个跨模态应用，例如从航空图像中检测行人，由于红外（IR）到可见光（RGB）图像之间的数据分布有较大差异，仅关注生成的翻译可能导致性能不佳，因为损失关注的是与任务无关的细节。在本文中，我们提出了HalluciDet，一个用于目标检测的IR-RGB图像翻译模型。它不是专注于在IR模态上重建原始图像，而是寻求减少RGB检测器的检测损失，因此无需访问RGB数据。该模型生成一个新的图像表示，增强场景中感兴趣的对象，并大大提高检测性能。我们通过实证比较了我们的方法与图像翻译和IR微调方面的最先进方法，并显示我们的HalluciDet在大多数情况下通过利用预训练RGB检测器中编码的特权信息来提高检测准确度。代码：https://github.com/heitorrapela/HalluciDet…

主要内容概述：

这段话介绍了一种名为HalluciDet的图像翻译模型，该模型专门用于目标检测。与传统的图像翻译方法不同，HalluciDet不专注于生成目标域的数据，而是减少RGB检测器的检测损失。这使得模型能够在不需要RGB数据的情况下，生成新的图像表示，增强场景中的对象，并提高检测性能。作者还通过比较实验证明了HalluciDet在提高检测准确度方面的优势。

Paper32 Improving Fairness in Deepfake Detection

摘要小结: 尽管近年来有效深度伪造检测器的发展，但最近的研究表明，用于训练这些检测器的数据中的偏见可能导致不同种族和性别之间的检测准确度存在差异。这可能使得不同群体不公平地被针对或被排除在检测之外，使得未检测到的深度伪造操纵公众舆论，侵蚀对深度伪造检测模型的信任。尽管现有研究专注于评估深度伪造检测器的公平性，但据我们所知，还没有方法在算法层面上鼓励深度伪造检测的公平性。在这项工作中，我们首次尝试通过提出新颖的损失函数来提高深度伪造检测的公平性，这些函数同时处理了人口统计信息（如种族和性别的注释）可用和不可用的情况。从根本上说，这两种方法都可以用来将许多现有的深度伪造检测器转变为鼓励公平性的检测器。在四个深度伪造数据集和五个深度伪造检测器上的大量实验证明了我们方法在提高深度伪造检测公平性方面的有效性和灵活性。

以下是概述：

这段话主要讨论了深度伪造检测器中存在的一个问题，即数据偏见可能导致不同种族和性别在检测准确度上的差异。这可能导致不公平的对待。目前，尽管有研究关注公平性，但还没有算法层面上的方法来鼓励公平性。本文提出了一个解决方案，通过新颖的损失函数来提高检测公平性，无论是人口统计信息可用还是不可用。实验证明这种方法是有效和灵活的。

Paper33 Lightweight Delivery Detection on Doorbell Cameras

摘要小结: 尽管视频动作识别和健壮的时空建模最近取得了进展，但大多数提出的方法都依赖于丰富的计算资源来运行庞大且计算密集型的卷积或基于变压器的神经网络，以获得满意的结果。这限制了这些模型在功率和计算资源有限的边缘设备上的部署。在这项工作中，我们研究了一个重要的智能家居应用——基于视频的送货检测，并提出了一种简单且轻量级的工作流程，该流程可以在资源受限的门铃相机上运行。我们提出的工作流程依赖于运动线索来生成一组粗糙的活动提案，然后使用移动友好的3DCNN网络对它们进行分类。在训练过程中，我们设计了一种新颖的半监督注意力模块，帮助网络学习健壮的时空特征，并采用基于证据的优化目标，允许量化网络预测的不确定性。在我们的精选送货数据集上的实验结果表明，与替代方案相比，我们的管道显著有效，并突显了我们训练阶段创新的好处，以实现免费且显著的推理时间性能增益。

概述主要内容：
这段话主要讨论了当前视频动作识别面临的挑战，即计算资源限制。作者提出了一种简单且轻量级的工作流程，用于基于视频的送货检测，适用于资源受限的设备。此外，作者还介绍了训练过程中使用的新颖半监督注意力模块和基于证据的优化目标，实验结果表明该方法的有效性。

Paper34 Semi-Supervised Scene Change Detection by Distillation From Feature-Metric Alignment

摘要小结: 场景变化检测（SCD）是多种应用中的关键任务，例如视觉监控、异常检测和移动机器人。最近，针对城市和室内环境，已经开发出了监督式的SCD方法，这些环境中输入的图像对通常因为摄像头视角的不同而未对齐。然而，监督式SCD方法需要目标域的像素级变化标签和对齐标签，这些标签的收集既耗时又昂贵。为了解决这个问题，我们设计了一种基于输入图像对的特征度量对齐的无监督损失和正则化方法。所提出的无监督损失使SCD模型能够在目标域上联合学习光流和变化图。此外，我们提出了一种基于蒸馏损失的半监督学习方法，以提高SCD模型的鲁棒性。该方法基于学生-教师结构，并结合了未标记目标数据的无监督损失和标记合成数据的监督损失。

Paper35 JOADAA: Joint Online Action Detection and Action Anticipation

摘要小结: 行动预判涉及通过将过去的事件与未来事件相连接来预测未来的行动。然而，这种推理忽略了现实生活事件的层次结构，被认为是三个主要部分：过去、现在和未来。我们认为考虑这三个主要部分及其依赖关系可以提高性能。另一方面，在线行动检测是在流式传输中预测行动的任务。在这种情况下，人们只能访问过去和现在的信息。因此，在在线行动检测（OAD）中，现有方法会遗漏语义或未来信息，这限制了现有方法的性能。总结来说，对于这两个任务，完整的知识集（过去-现在-未来）是缺失的，这使得推断行动依赖关系以实现良好性能变得具有挑战性。

以下是翻译内容：

行动预判涉及到通过将过去的事件与未来的事件相连接来预测未来的行动。以下是主要内容概述：

主要内容概述：

动作预判和挑战：

动作预判需要预测未来动作，但忽略了事件的层次结构。
事件的层次结构包括过去、现在和未来三个主要部分。
考虑这三个部分及其依赖关系可能提高性能。

在线行动检测：

这是预测流式行动的任务。
在这个任务中，只有过去和现在的信息可用。
现有方法缺失未来信息，限制了性能。

两个任务的挑战：

两个任务都缺少完整的知识集（过去-现在-未来），导致推断行动依赖关系困难。

解决方案：

提出了一个将两个任务融合在一个统一架构中的方法。
结合行动预判和在线行动检测，覆盖了在线行动检测中缺失的未来信息依赖。

模型介绍：

JOADAA是一个统一模型，可以同时进行行动预判和在线行动检测。
该模型在三个挑战性数据集上进行了验证，包括THUMOS、CHARADES和Multi-THUMOS。

成果：

JOADAA在这些基准上为两个任务都取得了SOTA（最先进）结果。

Paper36 Deep Image Fingerprint: Towards Low Budget Synthetic Image Detection and Model Lineage Analysis

摘要小结: 高质量的图像生成已经变得广泛可获取，并且是一个快速发展的过程。因此，任何人都可以生成与真实图像无法区分的图像。这导致了广泛的应用，包括恶意使用，带有欺骗性的意图。尽管对于生成图像的检测技术有所进步，但我们仍然缺乏一种稳健的检测方法。此外，模型个性化技术可能会影响现有方法的检测能力。在这项工作中，我们利用卷积神经网络(CNNs)的架构特性来开发一种新的检测方法。我们的方法可以检测来自已知生成模型的图像，并使我们能够建立细调生成模型之间的关系。我们测试了由生成对抗网络(GANs)和近期依赖扩散模型的大型文本到图像模型(LTIMs)生成的图像上的方法。我们的方法在相同条件下训练的其他方法中表现最佳，并且在生成图像的Stable Diffusion和MidJourney上达到了与最先进预训练检测方法相当的性能，所需训练样本显著更少。

概述主要内容：
这段话讨论了高质量图像生成的普及和其快速发展，指出这导致了包括恶意应用在内的广泛用途。同时，提到了目前缺乏稳健的检测方法。文中介绍了作者利用CNNs特性开发的新检测方法，该方法能够检测特定生成模型的图像，并探讨了不同生成模型之间的关系。最后，该方法在测试中表现优异，尤其是在特定生成图像上达到了先进性能。

Paper37 CoD: Coherent Detection of Entities From Images With Multiple Modalities

摘要小结: 然而，在现实世界的场景中，通常存在多种不同模态的数据源，这使得准确定义各种产品或信息的对象边界变得困难。例如，在从文档中提取信息时，可能需要利用视觉信息（如图像/对象）和OCR的文本信息来检测和分类与对象相关的信息，如文本块、表格和图形。如果视觉和文本信息与同一对象相关，模型应检测包围所有多模态信息的边界框。在计算机视觉中，对象检测问题在文献中传统上被视为单模态问题，这带来了重大挑战。本研究提出了一种在多模态场景中自动识别对象边界的新方法。研究提出了一种端到端的方法，该方法使用变压器在多模态环境中检测对象边界。所提出的模型以多尺度图像特征、基于OCR的文本提取和单词的2D位置嵌入为输入，通过自注意力机制和交叉注意力机制相互作用。此外，该研究还提出了一种领域自适应模型，以解决在这些场景中训练样本和测试样本之间通常存在的显著领域差距。所提出的方法在硬负样本、多模态和领域转移场景下分别显示出27.2%、5.0%和1.7%的显著改进。消融研究证实了所提出组件的有效性。

主要内容概述：
这段话主要讨论了在多模态数据场景中对象边界检测的问题，并提出了一个新的解决方法。现有的对象检测问题通常被视为单模态问题，但在现实世界中，不同模态的数据往往同时存在，给对象边界的定义带来了挑战。文章提出的方法利用变压器在多模态环境中进行对象边界检测，并使用多尺度图像特征、OCR文本提取和单词位置信息作为输入。此外，还提出了领域自适应模型来解决训练和测试样本之间的领域差异问题。实验结果显示该方法在多个场景下取得了显著的性能提升。

Paper38 Beyond Fusion: Modality Hallucination-Based Multispectral Fusion for Pedestrian Detection

摘要小结: 行人检测是许多下游应用中的基本任务。可见光和热成像作为两种最重要的数据类型，通常用于在各种环境条件下检测行人。许多最先进的工作已经提出使用双流（即双分支）架构来结合可见光和热信息，以提高检测性能。然而，传统的基于可见光-热融合的方法在能见度较差的条件下无法从可见光分支获取有用信息。可见光分支有时甚至可能将噪声引入组合特征中。在本文中，我们提出了一种新颖的热成像与可见光融合架构用于行人检测。我们不是简单地使用两个分支分别提取热和可见光特征然后融合，而是引入了一个幻觉分支来学习从热域到可见域的映射，形成一个三分支特征提取模块。然后我们自适应地融合来自所有三个分支（即热、可见光和幻觉）的特征图。有了这个新的集成幻觉分支，我们的网络在具有挑战性的低能见度条件下仍然可以获得相对好的可见光特征图，从而提高整体检测性能。最后，我们通过实验证明了所提出架构优于传统融合方法。

概述主要内容：
这段话主要介绍了作者提出的一种新型热成像与可见光融合架构，用于行人检测。该架构通过引入幻觉分支来学习热域到可见域的映射，形成三分支特征提取模块，并在低能见度条件下提高了检测性能。实验结果表明，这种方法优于传统的融合方法。

Paper39 FG-Net: Facial Action Unit Detection With Generalizable Pyramidal Features

摘要小结:

自动检测面部动作单元（AUs）使得客观面部表情分析成为可能。由于AU标签的高成本和现有基准数据集的有限大小，之前的AU检测方法往往会对数据集过度拟合，当在不同的语料库中进行评估时，会导致性能显著下降。为了解决这一问题，我们提出了FG-Net用于可泛化的面部动作单元检测。具体来说，FG-Net从一个在大规模多样化面部图像数据集上预训练的StyleGAN2模型中提取特征图。然后，利用这些特征通过金字塔CNN解释器来检测AUs，使得训练高效并能捕捉到关键局部特征。由于从预训练生成模型中提取了可泛化和富含语义的特征，所提出的FG-Net在基于热图的面部AU检测中具有强大的泛化能力。我们进行了大量实验，使用广泛使用的DISFA和BP4D数据集评估了域内和跨域的AU检测。与现有技术相比，提出的方法在保持域内竞争性表现的同时，实现了卓越的跨域性能。此外，FG-Net数据高效，即使在1000个样本上进行训练时也能达到竞争性表现。我们的代码将发布在 https://github.com/ihp-lab/FG-Net。

主要内容概述：

这段话主要介绍了一种名为FG-Net的新方法，用于面部动作单元（AUs）的可泛化检测。该方法利用预训练的StyleGAN2模型提取特征，并通过金字塔CNN解释器进行AU检测。FG-Net在跨域AU检测上表现出色，同时在域内也保持竞争性表现，且数据高效。实验使用了DISFA和BP4D数据集进行评估。

Paper40 Detection Defenses: An Empty Promise Against Adversarial Patch Attacks on Optical Flow

摘要小结: 对抗性补丁放置在任意场景位置时，会破坏光流预测的可靠性。因此，它们对现实世界中的运动检测及其下游应用构成了现实威胁。潜在的补救措施是防御策略，可以检测并移除对抗性补丁，但它们对底层运动预测的影响尚未得到研究。在本文中，我们详细检查了目前可用的检测并移除防御策略ILP和LGS，针对一系列最先进的光流方法，并阐明它们对最终流预测的质量和鲁棒性的副作用。特别是，我们实施防御感知攻击，以研究当前防御是否能够抵抗考虑防御机制的攻击。我们的实验得出了两个令人惊讶的结果：检测并移除防御不仅降低了良性场景的光流质量，而且在这样做时，它们还损害了所有测试的光流方法（除FlowNetC外）在补丁攻击下的鲁棒性。由于目前使用的检测并移除防御未能提供承诺的光流对抗鲁棒性，它们引发了虚假的安全感。代码可在 https://github.com/cv-stuttgart/DetectionDefenses. 获得。

概述主要内容：
这段话主要讨论了对抗性补丁对光流预测的影响，以及当前的防御策略可能存在的问题。文章指出，对抗性补丁会对光流预测的可靠性构成威胁，并探讨了检测并移除这些补丁的防御策略。研究发现了两个意外结果，这些防御策略不仅降低了光流质量，还可能削弱鲁棒性，导致虚假的安全感。

Paper41 Holistic Representation Learning for Multitask Trajectory Anomaly Detection

摘要小结: 视频异常检测涉及在视频中识别异常事件。除了视觉信号之外，视频异常检测还使用骨架序列来处理。我们提出了一种骨架轨迹的整体表示方法，以学习不同时间段的各个片段上的预期动作。我们的方法使用多任务学习来重建轨迹的任何连续未观察的时间段，从而允许对过去和未来的时间段进行外推，以及对中间时间段进行内插。我们使用一个端到端的基于注意力的编码器-解码器来编码时间上被遮挡的轨迹，共同学习被遮挡轨迹段落的潜在表示，并重建不同时间段的预期动作轨迹。在三个基于轨迹的视频异常检测数据集上的大量实验表明，我们的方法具有优势且有效，在骨架轨迹的异常检测上取得了最先进的结果。

主要内容概述：这段话主要介绍了作者们在视频异常检测领域提出的一种新方法。该方法使用骨架序列来识别视频中的异常事件，并采用了一种新的表示方法来学习不同时间段上的预期动作。通过多任务学习和基于注意力的编码器-解码器，该方法能够重建轨迹的未观察部分，有效检测骨架轨迹中的异常事件。实验结果显示，该方法在三个数据集上均取得了先进的效果。

Paper42 ReConPatch: Contrastive Patch Representation Learning for Industrial Anomaly Detection

摘要小结: 异常检测对于提前识别工业制造中的产品缺陷（如错误的零件、对准的组件和损坏）至关重要。由于缺陷观测罕见且缺陷类型未知，异常检测在机器学习中被认为是一项挑战。为了克服这一困难，最近的方法利用了从自然图像数据集中预先训练的常见视觉表示并提取相关特征。然而，现有方法仍存在预训练特征与目标数据之间的差异，或者需要精心设计的输入增强，特别是对于工业数据集。本文介绍了ReConPatch，它通过训练从预训练模型中提取的补丁特征的线性调制来构建异常检测的判别特征。ReConPatch采用对比表示学习来收集和分配特征，以产生目标导向且易于分离的表示。为了解决对比学习中缺少标记对的问题，我们使用数据表示之间的两种相似度度量，即成对和上下文相似度，作为伪标签。我们的方法在广泛使用且具有挑战性的MVTec AD数据集上达到了最先进的异常检测性能（99.72%）。此外，我们在BTAD数据集上也取得了95.8%的先进性能。

概述主要内容：

这段话主要讲述了异常检测在工业制造中的重要性，以及当前面临的挑战。文章提出了ReConPatch方法，通过对比表示学习来提高异常检测的性能。该方法在两个数据集上取得了先进的性能表现。

Paper43 Favoring One Among Equals - Not a Good Idea: Many-to-One Matching for Robust Transformer Based Pedestrian Detection

摘要小结: 我们研究了基于变换器的行人检测模型相较于基于卷积神经网络（CNN）的模型性能较低的原因。CNN模型生成密集的行人提案，单独精炼每个提案，并使用非极大值抑制（NMS）生成稀疏预测。相比之下，变换器模型为每个真实行人框（GT）选择一个提案，并从中反向传播正梯度。所有其他提案，其中许多与所选提案高度相似，都会传递负梯度。尽管这导致了稀疏预测，无需NMS，但任意选择众多相似提案中的一个，阻碍了有效训练，降低了行人检测的准确度。

以下是对主要内容概述：

翻译：
我们探讨了基于变换器的行人检测模型相较于基于卷积神经网络（CNN）的模型性能较低的原因。CNN模型生成密集的行人提案，分别优化每个提案，并通过非极大值抑制（NMS）生成稀疏预测。然而，变换器模型为每个真实行人框选择一个提案，并从中传递正梯度。其他提案，很多与所选提案相似，都会传递负梯度。这种做法虽然省去了NMS的需求，但随意选择相似提案中的一个，阻碍了有效训练，降低了行人检测的准确度。

概述：
以下是主要内容：

研究了变换器模型性能低于CNN模型的原因。
提出了一种基于最小成本流的方法，替代了常用的Kuhn-Munkres匹配算法。
引入了约束，例如每个真实框至少匹配一个提案，多个同样好的提案可以匹配到一个真实框。
提出了第一个结合了他们匹配算法的变换器行人检测模型。
实验结果显示，在多个数据集上，该方法优于当前的最先进技术（SOTA）。
代码可在指定链接找到。

性能对比：
他们的方法在多个数据集上的漏检率分别为3.7 / 17.4 / 21.8 / 8.3 / 2.0，而当前SOTA为4.7 / 18.7 / 24.8 / 8.5 / 3.1。

Paper44 Face Presentation Attack Detection by Excavating Causal Clues and Adapting Embedding Statistics

摘要小结: 最近的人脸呈现攻击检测（PAD）利用领域自适应（DA）和领域泛化（DG）技术来解决在未知领域的性能下降问题。然而，基于DA的PAD方法需要访问未标记的目标数据，而大多数基于DG的PAD解决方案依赖于先验，即已知的领域标签。此外，大多数基于DA/DG的方法计算量大，需要复杂的模型架构和/或多阶段训练过程。本文提出从因果角度将人脸PAD建模为复合DG任务，并将其与模型优化相联系。我们通过反事实干预挖掘高级表示中隐藏的因果因素。此外，我们引入了类引导的MixStyle来丰富类内的特征级数据分布，而不是关注域信息。类引导的MixStyle和反事实干预组件均不引入额外的可训练参数和可忽略的计算资源。广泛的跨数据集和分析实验证明了我们方法的有效性和效率，相较于最先进的PAD。

以下是主要内容概述：

翻译内容：该段话讨论了PAD的最新技术，指出了DA和DG技术的使用，并提出了它们的一些挑战。
主要内容：文章提出了一种新的方法，将人脸PAD视为复合DG任务，并引入了类引导的MixStyle和反事实干预来提高效率。该方法无需额外参数和计算资源，且在实验中被证明有效。

Paper45 S3AD: Semi-Supervised Small Apple Detection in Orchard Environments

摘要小结:

作物检测对于精确农业应用（如自动产量估算或果实采摘）至关重要。然而，由于缺乏大规模数据集以及图像中作物相对尺寸较小，例如在果园环境中进行苹果检测仍然具有挑战性。在这项工作中，我们通过以半监督的方式重新制定苹果检测任务来解决这些挑战。为此，我们提供了大型、高分辨率的数据集MAD，其中包含105张带标签的图像和14,667个注释的苹果实例，以及4,440张未标记的图像。利用这个数据集，我们还提出了一种新颖的半监督小型苹果检测系统S3AD，该系统基于上下文关注和选择性拼接，以改善对小苹果的挑战性检测，同时限制计算开销。我们对MAD和MSU数据集进行了广泛评估，结果显示S3AD在很大程度上优于强大的全监督基线，包括几种小对象检测系统，最多提高了14.9%。

主要内容概述：

这段话主要讨论了作物检测在精确农业中的重要性，尤其是苹果检测的挑战。作者提出了一种半监督方法来重新制定苹果检测任务，并提供了大型数据集MAD。此外，他们还提出了S3AD系统，以提高对小苹果的检测能力。通过广泛评估，他们展示了S3AD系统在性能上的显著提升，并分析了数据集中苹果属性对各种系统结果的影响。

Paper46 Revolutionize the Oceanic Drone RGB Imagery With Pioneering Sun Glint Detection and Removal Techniques

摘要小结: 太阳反光问题对高分辨率海洋无人机影像的海洋遥感构成了重大挑战，因为它会污染图像并遮挡浅水区域的关键特征，导致海底基质的识别不准确。尽管已经提出了各种基于物理的统计方法来解决遥感中的这个光学问题，但针对高分辨率消费级无人机RGB影像的太阳反光检测和去除方法仍然缺乏。本文中，我们提出了一个用于高分辨率无人机RGB图像中太阳反光检测和去除的开创性流程，旨在恢复被太阳反光遮挡的真实特征。我们的方法包括开发一个基于前景注意的语义分割网络（FANet），用于准确和精确地检测太阳反光，而有效的太阳反光去除是通过使用光流场的像素传播实现的。实验结果表明，我们的FANet在识别太阳反光方面非常有效。

以下是主要内容概述：

翻译内容：
太阳反光问题对使用高分辨率海洋无人机影像的海洋遥感构成了重大挑战，因为它会污染图像并遮挡浅水区的重要特征，导致对海底基质的识别不准确。尽管已有提议各种基于物理的统计方法来解决遥感中的这个光学问题，但针对高分辨率消费级无人机RGB影像的太阳反光检测和去除方法仍然不足。本文中，我们介绍了一个用于高分辨率无人机RGB图像中太阳反光检测和去除的先驱性流程，目的是恢复被太阳反光遮挡的真实特征。

主要内容：

文章讨论了太阳反光对海洋遥感的影响。
提出了一种新的方法，即FANet，用于检测太阳反光。
使用像素传播和光流场来去除太阳反光。
实验结果显示FANet在识别太阳反光方面非常有效，且优于其他方法。
这项工作为低成本使用消费级无人机进行精确的海洋生态监测和海底地形绘图奠定了基础。

Paper47 What’s in the Flow? Exploiting Temporal Motion Cues for Unsupervised Generic Event Boundary Detection

摘要小结:

泛事件边界检测（GEBD）任务旨在识别通用、无分类的边界，将视频分割成有意义的事件。当前的方法通常涉及在大量数据上训练的神经模型，这需要大量的计算能力和存储空间。我们探讨了与GEBD相关的两个关键问题：非参数算法能否胜过无监督的神经方法？仅靠运动信息是否足够实现高性能？这一探询驱使我们利用运动线索来识别视频中的通用事件边界的算法。在这项工作中，我们提出了FlowGEBD，这是一种用于GEBD的非参数、无监督技术。我们的方法包括两个利用光流算法：（i）像素追踪和（ii）流归一化。通过对具有挑战性的Kinetics-GEBD和TAPOS数据集进行彻底的实验，我们的结果确立了FlowGEBD作为无监督方法中的新领先技术（SOTA）。FlowGEBD在Kinetics-GEBD数据集上超过了神经模型，F1@0.05得分达到0.713，与无监督基线相比绝对增益为31.7%，并在TAPOS验证数据集上实现了平均F1得分0.623。

主要内容概述：

这段话介绍了泛事件边界检测（GEBD）的任务目标，并讨论了当前方法的局限性，如需要大量计算资源。随后，作者提出了两个关键研究问题，并介绍了他们提出的FlowGEBD方法，这是一种非参数、无监督的技术。该方法利用光流进行像素追踪和流归一化。实验结果显示，FlowGEBD在两个数据集上均取得了优异的性能，成为无监督方法中的新领先技术。

Paper48 SyntheWorld: A Large-Scale Synthetic Dataset for Land Cover Mapping and Building Change Detection

摘要小结:

合成数据集因其实惠性而受到认可，在推进计算机视觉任务和技术方面发挥着关键作用。然而，在遥感图像处理方面，合成数据集的创建变得具有挑战性，这是由于需要更大规模和更多样化的3D模型。这种复杂性加上真实遥感数据集的困难，包括有限的数据获取和高昂的标注成本，这放大了对高质量合成替代品的需求。为了解决这一问题，我们推出了SyntheWorld，这是一个在质量、多样性和规模上无与伦比的合成数据集。它包括4万张具有亚米级像素的图像和八类细粒度的土地覆盖标注，同时还提供了4万对双时相图像对，以及用于建筑变化检测的建筑变化标注。我们在多个基准遥感数据集上进行了实验，以验证SyntheWorld的有效性，并研究在何种条件下我们的合成数据能带来优势。该数据集可在 https://github.com/JTRNEO/SyntheWorld 获得。

主要内容概述：

这段话介绍了合成数据集在计算机视觉任务中的重要性，尤其是在遥感图像处理领域的挑战。随后，作者介绍了SyntheWorld这一合成数据集，强调了其在质量、多样性和规模上的优势。数据集包含了4万张图像和详细的标注，适用于多种用途。作者还进行了实验来验证数据集的有效性，并讨论了合成数据带来优势的条件。最后，提供了数据集的获取途径。

Paper49 SphereCraft: A Dataset for Spherical Keypoint Detection, Matching and Camera Pose Estimation

摘要小结:

本文介绍了SphereCraft，这是一个专门为球形关键点检测、匹配和相机位姿估计设计的数据库。该数据库通过提供来自不同检测器的提取关键点及其对应的真实值，解决了现有数据库的局限性。其中包括具有照片级真实感渲染和精确3D网格的合成场景，以及从不同的球形相机获取的真实世界场景。SphereCraft使针对多个相机视点的算法的开发和评估成为可能，推动了涉及球形图像的计算机视觉任务的最新技术。

主要内容概述：

这段话主要介绍了SphereCraft这一数据库，它专为球形图像的关键点检测、匹配和相机位姿估计而设计。数据库解决了现有问题的局限性，提供了丰富的数据，包括合成场景和真实世界场景。此外，它还促进了相关算法的发展，并有助于提高计算机视觉任务中球形图像的处理技术。数据库可通过指定链接获取。