【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(9 月 21 日论文合集)

一、检测相关(5篇)

1.1 Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism

GOLD-YOLO:基于集散机制的高效目标探测器

https://arxiv.org/abs/2309.11331

在这里插入图片描述
在过去的几年中,YOLO系列模型已经成为实时目标检测领域的领先方法。许多研究通过修改架构、增加数据和设计新的损失来将基线提升到更高的水平。然而,我们发现以前的模型仍然遭受信息融合问题,虽然特征金字塔网络(FPN)和路径聚合网络(PANet)已经缓解了这一点。因此,本研究提供了一种先进的聚集分布机制(GD),这是实现卷积和自注意操作。这种新设计的模型被命名为Gold-YOLO,它增强了多尺度特征融合能力,并在所有模型尺度上实现了延迟和准确性之间的理想平衡。此外,我们首次在YOLO系列中实现了MAE风格的预训练,使YOLO系列模型可以从无监督预训练中受益。Gold-YOLO-N在COCO val 2017数据集上获得了出色的39.9% AP,在T4 GPU上获得了1030 FPS,比之前具有类似FPS的SOTA模型YOLOv 6 -3.0-N高出+2.4%。PyTorch代码可在https://github.com/huaweinoah/Efficient-Computing/Detection/Gold-YOLO获得,MindSpore代码可在https://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLO获得。

1.2 From Classification to Segmentation with Explainable AI: A Study on Crack Detection and Growth Monitoring

基于可解释人工智能的从分类到分割:裂纹检测与扩展监测研究

https://arxiv.org/abs/2309.11267

在这里插入图片描述
监测基础设施中的表面裂缝对于结构健康监测至关重要。自动视觉检测提供了一个有效的解决方案,特别是在难以到达的区域。机器学习方法已经证明了它们的有效性,但通常需要大型注释数据集进行监督训练。一旦检测到裂纹,监测其严重性通常需要精确分割损伤。然而,用于分割的图像的像素级注释是劳动密集型的。为了减轻这种成本,可以利用可解释人工智能(XAI)从分类器的解释中导出分割,仅需要弱图像级监督。本文提出了应用这种方法来分割和监测表面裂纹。我们评估各种XAI方法的性能,并研究这种方法如何促进严重程度量化和增长监测。结果表明,虽然由此产生的分割掩模可能会表现出较低的质量比监督的方法产生的,他们仍然有意义,使严重程度监测,从而降低了大量的标签成本。

1.3 Locate and Verify: A Two-Stream Network for Improved Deepfake Detection

定位验证:一种改进的双流网络深伪检测方法

https://arxiv.org/abs/2309.11131

在这里插入图片描述
Deepfake席卷全球,引发信任危机。当前的深度伪造检测方法通常在泛化性方面不足,倾向于过拟合图像内容,例如背景,这在训练数据集中经常发生但相对不重要。此外,目前的方法严重依赖于几个占主导地位的伪造区域,并可能忽略其他同样重要的区域,导致伪造线索的不充分的揭露。本文力求从三个方面来解决这些不足:(1)我们提出了一个创新的双流网络,有效地扩大了模型提取伪造证据的潜在区域。(2)我们设计了三个功能模块来处理多流和多尺度的功能,在协作学习计划。(3)面对获取伪造标注的挑战,我们提出了一种半监督补丁相似性学习策略来估计补丁级伪造位置标注。从经验上讲,我们的方法显着提高了鲁棒性和可推广性,在六个基准测试中优于以前的方法,并将Deepfake检测挑战预览数据集上的帧级AUC从0.797提高到0.835,将CelebDF _ \_ _v1数据集上的视频级AUC从0.811提高到0.847。我们的实现可在https://github.com/sccsok/Locate-and-Verify上获得。

1.4 Weak Supervision for Label Efficient Visual Bug Detection

标签有效视觉漏洞检测的弱监督

https://arxiv.org/abs/2309.11077

在这里插入图片描述
随着视频游戏发展到广阔、细节化的世界,视觉质量变得至关重要,但也越来越具有挑战性。传统的测试方法,受资源的限制,在解决过多的潜在bug时面临困难。机器学习提供可扩展的解决方案;然而,对大标记数据集的严重依赖仍然是一个限制。针对这一挑战,我们提出了一种新的方法,利用未标记的游戏和特定领域的增强来生成数据集和自我监督的目标,在预训练或多任务设置下游视觉错误检测。我们的方法使用弱监督缩放数据集精心制作的目标,并促进自主和交互式弱监督,纳入无监督聚类和/或交互式方法的基础上的文本和几何提示。我们证明了第一人称玩家剪辑/碰撞错误(FPPC)在广阔的巨人地图游戏世界,我们的方法是非常有效的,改善了一个强大的监督基线在一个实用的,非常低的流行率,低数据制度(0.336 $\rightarrow $0.550 F1分数)。只有5个标记为“好”的样本(即,0个bug),我们的自我监督目标单独捕获足够的信号来胜过低标签监督设置。建立在大型预训练视觉模型上,我们的方法是适应各种视觉错误。我们的研究结果表明,适用于在视频游戏中更广泛的图像和视频任务的数据集,超越视觉错误。

1.5 Dynamic Tiling: A Model-Agnostic, Adaptive, Scalable, and Inference-Data-Centric Approach for Efficient and Accurate Small Object Detection

动态平铺:一种模型不可知的、自适应的、可扩展的、以数据推理为中心的小目标检测方法

https://arxiv.org/abs/2309.11069

在这里插入图片描述
我们介绍动态平铺,一个模型不可知的,自适应的,可扩展的小对象检测方法,锚定在我们的推理数据为中心的哲学。动态分块以用于初始检测的非重叠分块开始,并且利用动态重叠率以及分块最小化器。这种双重方法有效地解决了碎片化的对象,提高了检测精度,并通过减少通过对象检测模型的前向传递次数来最小化计算开销。适应各种操作环境,我们的方法否定了需要费力的重新校准。此外,我们的大-小过滤机制提高了一系列物体大小的检测质量。总体而言,动态平铺优于现有的模型无关的均匀裁剪方法,为效率和准确性设定了新的基准。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值