【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(11 月 23 日论文合集)

一、检测相关(7篇)

1.1 Transfer Learning-based Real-time Handgun Detection

基于迁移学习的手枪实时检测

https://arxiv.org/abs/2311.13559

传统的监控系统依赖于人类的注意力,限制了其有效性。本研究采用卷积神经网络和迁移学习来开发用于自动手枪检测的实时计算机视觉系统。全面分析了在线手枪检测方法,强调减少误报和学习时间。迁移学习被证明是一种有效的方法。尽管存在技术挑战,但所提出的系统实现了84.74%的准确率,表现出与相关工作相当的良好性能,可以实现更快的学习和准确的自动手枪检测,以增强安全性。这项研究通过减少对人类监控的依赖来推进安全措施,展示了基于迁移学习的方法在有效和可靠的手枪检测方面的潜力。

1.2 Towards Detecting, Recognizing, and Parsing the Address Information from Bangla Signboard: A Deep Learning-based Approach

基于深度学习的孟加拉招牌地址信息检测、识别与解析

https://arxiv.org/abs/2311.13222

Retrieving textual information from natural scene images is an active research area in the field of computer vision with numerous practical applications. Detecting text regions and extracting text from signboards is a challenging problem due to special characteristics like reflecting lights, uneven illumination, or shadows found in real-life natural scene images. With the advent of deep learning-based methods, different sophisticated techniques have been proposed for text detection and text recognition from the natural scene. Though a significant amount of effort has been devoted to extracting natural scene text for resourceful languages like English, little has been done for low-resource languages like Bangla. In this research work, we have proposed an end-to-end system with deep learning-based models for efficiently detecting, recognizing, correcting, and parsing address information from Bangla signboards. We have created manually annotated datasets and synthetic datasets to train signboard detection, address text detection, address text recognition, address text correction, and address text parser models. We have conducted a comparative study among different CTC-based and Encoder-Decoder model architectures for Bangla address text recognition. Moreover, we have designed a novel address text correction model using a sequence-to-sequence transformer-based network to improve the performance of Bangla address text recognition model by post-correction. Finally, we have developed a Bangla address text parser using the state-of-the-art transformer-based pre-trained language model.

1.3 DoubleAUG: Single-domain Generalized Object Detector in Urban via Color Perturbation and Dual-style Memory

DoubleAUG:基于颜色摄动和双重记忆的城市单域广义目标检测器

https://arxiv.org/abs/2311.13198

城市场景中的目标检测对于智能交通系统中的自动驾驶至关重要。然而,与传统的目标检测任务不同,城市场景图像在风格上变化很大。例如,晴天拍摄的图像与雨天拍摄的图像有很大不同。因此,在晴天图像上训练的模型可能无法很好地推广到雨天图像。在本文中,我们的目标是解决城市场景中的单域可推广对象检测任务,这意味着在一种天气条件下训练的模型应该能够在任何其他天气条件下的图像上表现良好。为了解决这一挑战,我们提出了一种新的双增强(DoubleAUG)方法,包括图像和特征级增强方案。在图像级增强中,我们考虑了不同天气条件下颜色信息的变化,并提出了一种颜色扰动(CP)方法,该方法随机交换RGB通道以生成各种图像。在特征级增强中,我们提出利用双重风格记忆(DSM)来探索整个数据集上的不同风格信息,进一步增强模型的泛化能力。大量的实验表明,我们提出的方法优于国家的最先进的方法。此外,消融研究证实了我们提出的方法中每个模块的有效性。此外,我们的方法是即插即用的,可以集成到现有的方法,以进一步提高模型的性能。

1.4 P2RBox: A Single Point is All You Need for Oriented Object Detection

P2RBox:面向对象检测只需单点

https://arxiv.org/abs/2311.13128

定向对象检测是计算机视觉中的一个专门子领域,在各种场景中都有应用,特别是在处理任意方向的对象时表现出色。相反,将对象视为单点的点注释为旋转和水平边界框提供了一种具有成本效益的替代方案,但由于丢失了大小和方向信息而牺牲了性能。在这项研究中,我们介绍了P2 RBox网络,它利用点注释和掩码生成器来创建掩码建议,然后通过我们的检查器模块和约束器模块进行过滤。该过程选择高质量的掩码,随后将其转换为旋转框注释,用于训练完全监督的检测器。具体来说,我们精心设计了一个基于多实例学习原则的检查器模块,以评估掩码的语义得分。我们还提出了一个更强大的掩模质量评估与约束模块。此外,我们还引入了一个对称轴估计(SAE)模块,该模块受到对称矩阵谱定理的启发,将性能最佳的掩码提案转换为旋转的边界框。P2 RBox使用三种完全监督的旋转对象检测器:RetinaNet,Rotated FCOS和Oriented R-CNN。通过结合Oriented R-CNN,P2 RBox在DOTA-v1.0测试数据集上达到62.26%。据我们所知,这是训练具有点监督的定向对象检测器的第一次尝试。

1.5 Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for Advanced Object Detection

航空图像的创新视野:LSKNet满足高级目标检测的DiffusionDet

https://arxiv.org/abs/2311.12956

在航空图像分析领域,目标检测起着关键作用,对遥感、城市规划和灾害管理等领域具有重要意义。这项研究解决了这一领域的固有挑战,特别是小物体的检测,管理密集的元素,并考虑不同的方向。我们提出了一个对象检测模型的深入评估,该模型将大型选择性内核网络(LSKNet)作为其骨干与DiffusionDet头集成在一起,利用iSAID数据集进行实证分析。我们的方法包括引入新的方法和广泛的消融研究。这些研究批判性地评估了损失函数、箱回归技术和分类策略等各个方面,以改进模型在对象检测中的精度。本文详细介绍了LSKNet主干与DiffusionDet头协同作用的实验应用,这是一种专为满足航空图像目标检测特定挑战而定制的组合。这项研究的结果表明,该模型的性能,特别是在准确性和时间的权衡大幅提高。该模型的平均精度(MAP)约为45.7%,这是一个显著的改进,在相同的数据集上比RCNN模型高出4.7%。这一进步强调了所提出的修改的有效性,并在航空图像分析中设定了新的基准,为更准确和更有效的目标检测方法铺平了道路。该代码可在https://github.com/SashaMatsun/LSKDiffDet上公开获取

1.6 Contextualised Out-of-Distribution Detection using Pattern Identication

使用模式识别的上下文超出分布检测

https://arxiv.org/abs/2311.12855

在这项工作中,我们提出了CODE,这是可解释AI领域现有工作的扩展,它识别特定于类的重复模式,为视觉分类器构建一个强大的分布外(OoD)检测方法。CODE不需要任何分类器再训练,并且是OoD不可知的,即,直接调整到训练数据集。至关重要的是,模式识别使我们能够提供来自In-Distribution(ID)数据集的图像作为参考数据,为置信度分数提供额外的背景。此外,我们引入了一个新的基准的基础上扰动的ID数据集,提供了一个已知的和可量化的措施之间的差异ID和OoD数据集作为参考值OoD检测方法之间的比较。

1.7 A Novel Defocus-Blur Region Detection Approach Based on DCT Feature and PCNN Structure

一种基于DCT特征和PCNN结构的散焦模糊区域检测新方法

https://arxiv.org/abs/2311.12845

数字图像中的运动或离焦效应是造成散焦模糊图像中模糊区域的主要原因。它可能会对各种图像特征(如纹理、像素和区域)产生不利影响。因此,在对模糊区域和非模糊区域进行分割后,对散焦模糊图像中的合焦目标进行检测是非常重要的。最先进的技术容易产生噪声像素,并且用于开发分割度量的局部描述符也很复杂。为了解决这些问题,本研究,因此,提出了一种新的和混合聚焦检测方法的基础上离散余弦变换(DCT)系数和PC神经网络(PCNN)结构。该方法部分解决了现有的对比度方案的局限性,从散焦数据集中的离焦平滑区域检测到聚焦平滑对象。视觉和定量的评估表明,所提出的方法优于参考算法的准确性和效率。该方法在Zhao的数据集上的最高F分数为0.7940,而在Shi的数据集上的最高F分数为0.9178。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值