【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（11 月 29 日论文合集）（上）_improving lane detection generalization: a novel f-CSDN博客

本文链接：https://blog.csdn.net/wzk4869/article/details/134718989

文章目录

一、检测相关(16篇)

一、检测相关(16篇)

1.1 Unified-modal Salient Object Detection via Adaptive Prompt Learning

基于自适应提示学习的统一模态显著目标检测

https://arxiv.org/abs/2311.16835

现有的单模态和多模态显着对象检测（SOD）方法专注于设计为各自的任务量身定制的特定架构。然而，为不同的任务开发完全不同的模型会导致劳动力和时间消耗，以及高计算和实际部署成本。在本文中，我们第一次尝试解决单模态和多模态SOD在一个统一的框架称为UniSOD。然而，为模态变量输入分配适当的策略是具有挑战性的。为此，UniSOD通过自适应提示学习来学习具有特定任务提示的模态感知提示，这些提示被插入到所提出的预训练基线SOD模型中以处理相应的任务，同时与训练整个模型相比，只需要很少的可学习参数。每个模态感知提示是从可切换提示生成块生成的，该可切换提示生成块仅依赖于单模态和多模态输入来执行结构切换。UniSOD在RGB，RGB-D和RGB-T SOD的14个基准数据集上实现了一致的性能改进，这表明我们的方法有效地统一了单模态和多模态SOD任务。

1.2 Multi-Channel Cross Modal Detection of Synthetic Face Images

合成人脸图像的多通道交叉模式检测

https://arxiv.org/abs/2311.16773

合成生成的人脸图像已被证明与人类的真实图像无法区分，因此可能导致对数字内容缺乏信任，因为它们可以用于传播错误信息。因此，开发用于检测完全合成的面部图像的算法的需要是显而易见的。感兴趣的是由最先进的基于深度学习的模型生成的图像，因为这些图像表现出高度的视觉真实感。最近的工作表明，在现实环境下检测这样的合成人脸图像仍然很困难，因为新的和改进的生成模型被提出，具有快速的速度和任意的图像后处理可以应用。在这项工作中，我们提出了一个多通道的架构，用于检测完全合成的人脸图像，分析信息的频率和可见光谱使用交叉模态焦点损失。我们将所提出的架构与使用二进制交叉熵训练的几个相关架构进行比较，并在跨模型实验中显示，使用交叉模态焦点损失监督的所提出的架构通常可以实现最具竞争力的性能。

1.3 Cross-level Attention with Overlapped Windows for Camouflaged Object Detection

伪装目标检测中窗口重叠的跨层关注

https://arxiv.org/abs/2311.16618

照相机拍摄的物体会自适应地将其颜色和纹理与环境相适应，这使得它们与周围环境无法区分。现有的方法表明，高层次的语义特征可以突出被隐藏对象与背景之间的差异。因此，它们将高级语义特征与低级详细特征相结合，以实现准确的隐藏对象检测（COD）。与以前的多级特征融合设计不同，我们指出，增强低级别特征对COD来说更迫在眉睫。本文提出了一种重叠窗口跨层注意力算法（OWinCA），实现了由最高层特征引导的低层特征增强。通过在最高层和低层特征图上滑动对齐的窗口对，高层语义通过跨层注意被显式地集成到低层细节中。此外，它采用重叠窗口划分策略，以减轻窗口之间的不一致性，防止全局信息的丢失。这些采用使拟议的OWinCA，以提高低层次的功能，促进分离的对象。相关的建议OWinCANet融合这些增强的多层次功能，通过简单的卷积运算，以实现最终的COD。在三个大规模的COD数据集上进行的实验表明，我们的OWinCANet显着优于目前最先进的COD方法。

1.4 Improving Lane Detection Generalization: A Novel Framework using HD Maps for Boosting Diversity

改进车道检测泛化：一种利用高清地图提高多样性的新框架

https://arxiv.org/abs/2311.16589

车道线检测是车辆在道路上导航和定位的重要任务。为了保证检测结果的可靠性，车道线检测算法必须在各种道路环境中具有鲁棒的泛化性能。然而，尽管基于深度学习的车道检测算法的性能有了显著提高，但它们在响应道路环境变化时的泛化性能仍达不到预期。在本文中，我们提出了一种新的框架，单源域泛化（SSDG）的车道检测。通过将数据分解为车道结构和环境，我们使用高清（HD）地图和生成模型增强多样性。我们不是扩大数据量，而是从战略上选择数据的核心子集，最大限度地提高多样性并优化性能。我们广泛的实验表明，我们的框架提高了车道检测的泛化性能，与基于域自适应的方法相比。

1.5 Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach

时空伪异常生成的视频异常检测：一种统一方法

https://arxiv.org/abs/2311.16514

视频异常检测（VAD）是一个开集识别任务，通常被表述为一类分类（OCC）问题，其中训练数据由具有正常实例的视频组成，而测试数据包含正常和异常实例。最近的工作已经研究了仅使用正常数据创建伪异常（PA），并对关于对象异常和运动速度的真实世界异常做出强有力的假设，以在训练期间将关于异常的先验信息注入基于自动编码器（AE）的重建模型中。这项工作提出了一种新的方法，用于生成通用的时空PA通过使用预先训练的潜在扩散模型修复图像的掩蔽区域，并进一步使用混合来扰乱光流，以模拟数据中的时空失真。此外，我们提出了一个简单的统一框架，通过学习三种类型的异常指标，即重建质量，时间不规则性和语义不一致性，在OCC设置下检测真实世界的异常。在Ped2、Avenue、ShanghaiTech和UBnormal四个VAD基准数据集上进行的大量实验表明，该方法在OCC设置下的性能与其他现有的最先进的基于PA生成和重建的方法相当。我们的分析还检查了PA在这些数据集上的可转移性和泛化性，通过PA识别现实世界的异常，提供了有价值的见解。

1.6 Generating Human-Centric Visual Cues for Human-Object Interaction Detection via Large Vision-Language Models

基于大型视觉语言模型的人-物交互检测中以人为中心的视觉线索生成

https://arxiv.org/abs/2311.16475

人-物交互检测的目的是检测人-物对并预测它们之间的交互。然而，人类行为的复杂性和这些相互作用发生的不同背景使其具有挑战性。直观的、以人为中心的视觉线索，如参与者、肢体语言和周围环境，在塑造这些互动中起着至关重要的作用。这些线索在解释看不见的相互作用时特别重要。在本文中，我们提出了三个提示与VLM从人类的多个角度在图像中生成以人为中心的视觉线索。为了利用这些丰富的以人为中心的视觉线索，我们提出了一种新的方法命名为HCVC的HOI检测。特别是，我们开发了一个基于变压器的多模态融合模块与multitower架构集成的实例和交互解码器的视觉提示功能。我们广泛的实验和分析验证了利用所生成的以人为中心的视觉线索进行HOI检测的有效性。值得注意的是，实验结果表明，该模型优于现有的国家的最先进的方法在两个广泛使用的数据集。

1.7 Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection

弥合鸿沟：一个统一的视频理解框架，用于瞬间检索和亮点检测

https://arxiv.org/abs/2311.16464

随着人们对视频分析需求的不断增长，视频矩检索（MR）和高光检测（HD）已经引起了人们的广泛关注。最近的方法将MR和HD视为类似的视频接地问题，并与基于变压器的架构一起解决它们。然而，我们观察到MR和HD的重点不同，一个需要感知局部关系，另一个优先考虑对全球背景的理解。因此，缺乏针对特定任务的设计将不可避免地导致两个任务的内在特性的关联的局限性。为了解决这个问题，我们提出了一个统一的视频通信框架（UVCOM），以弥合差距，并有效地共同解决MR和HD。通过在多粒度上对模态内和模态间进行渐进式集成，UVCOM实现了对视频处理的全面理解。此外，我们提出了多方面的对比学习，以巩固局部关系建模和全球知识积累，通过对齐的多模态空间。在QVHighlights、Charades-STA、TACoS、YouTube Highlights和TVSum数据集上的大量实验证明了UVCOM的有效性和合理性，其性能明显优于现有方法。

1.8 Centre Stage: Centricity-based Audio-Visual Temporal Action Detection

中心阶段：基于中心度的视听时间动作检测

https://arxiv.org/abs/2311.16446

以前的单阶段动作检测方法仅使用视觉模态来建模时间依赖性。在本文中，我们探讨了不同的策略，将音频模态，使用多尺度交叉注意融合的两个模态。我们还证明了从时间步到动作中心的距离和预测边界的准确性之间的相关性。因此，我们提出了一种新的网络头来估计接近的时间步长的行动中心，我们称之为中心得分。这导致对展示更精确边界的提案的信心增加。我们的方法可以与其他一级无锚架构集成，我们在EPIC-Kitchild-100动作检测基准测试的三个最新基线上证明了这一点，我们实现了最先进的性能。详细的消融研究展示了融合音频和我们提出的中心性评分的好处。我们提出的方法的代码和模型可在https://github.com/hanielwang/Audio-Visual-TAD.git上公开获得