CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather with a High-quality Real Snow Dataset
朋友圈看到的一篇文章,名字挺有趣,从arxiv下载来读读
从名字来看主要是读cross fusion部分,雪地场景数据集不必在意
Abstract
-
现有的检测器难以学习在雪中检测的潜在信息。
-
建立了一个真是世界的雪地目标检测数据集(real-world snowy object detection dataset),命名为RSOD。
-
开发了一种具有独特激活功能的无监督训练策略,称为Peak Act,用来定量评估雪对每个物体的影响。
-
CF(Cross Fusion)是一个即插即用的特征聚合模块,集成了特征金字塔和路径聚合网络的优点。可以处理雪的模糊、失真、覆盖等不利检测问题——一开始我觉得在烟雾检测上兴许也适用,后来发现不是的,它不是检测雪,是检测雪中的物体,雪只是一种遮挡物来看的。
1. Introduction
提出一个问题:建立真实的RSOD数据集和开发特征聚合模块来学习潜在信息的协同作用,真的可以增强雪地条件下前沿(cutting-edge)OD网络的能力吗?
To answer this question:
-
RSOD,用于检测真实的雪地目标。包含2100个真实世界的雪景图像,以COCO和YOLO格式进行注释。
-
引入积雪覆盖率(SCR)指标,定量评价积雪对物体的影响。
-
提出交叉融合模块(CF)。
CF块同时聚合了主干不同阶段的功能。通过直接融合这些特征,可以恢复高层特征中被破坏的对象的低层信息。
CF模块支持不同的输入输出阶段。
-
提出了一种轻量级目标检测网络CF-YOLO,将YOLOv5的neck部分替换为CF。不仅在实际雪地场景中具有良好的优化能力,而且具有有效的泛化能力。(数据集:RSOD+COCO)
2. Related Work
A~C介绍了不同天气条件下目标检测的工作和基准数据集。
D. Feature Fusion
现有的特征融合工作包括FPN、PANet、NAS-FPN、BiFPN、ASFF等。
- FPN:通过自上而下的路径,集成来自主干不同阶段的特征。
- PANet:在FPN的基础上,采用自下而上的路径扩展来增强整个特征层次。
- BiFPN:通过跨尺度连接轻松快速地进行多尺度特征融合。(其实是给不同尺度的特征根据重要性赋予不同的权值,当然了,这个权值是网络训练出来的。)
- OctConv:将特征分解到不同的空间频率,以提高CNN的效率。
- gOctConv:对任意输入输出分支具有灵活的特征融合能力。在本文中,我们使用gOctConv作为交叉融合块的基本组件。
3. REAL-WORLD SNOWY OBJECT DETECTION DATASET
真实世界的雪地检测数据集
数据集,跳过。
4. METHODOLOGY
-
在雪景图像中,一些大型的物体更有可能被YOLOv5遗漏。由于许多研究表明,检测模型在大型物体上的表现更好,所以对YOLOv5做了一个小调整,把检测置信度阈值设置为0.01。
YOLOv5已经检测到了大物体,但是置信度太低,无法通过非最大抑制(NMS)。原因是大雪会改变物体的轮廓、纹理和表面,遗漏和扭曲了低层视觉信息。
- 分析:不同大小的物体在不同的阶段进行预测,大物体在最后阶段进行预测,即大物体特征通过最深的网络之后,低层视觉信息被遗漏和失真,而这种无意义的信息会随着网络传播。在深层网络中,深层的感受野相对较大,因此,更深层可能会考虑更多无意义的特征,这可能会稀释有意义的特征,干扰网络从被雪覆盖的物体中提取有意义的特征,并降低预测的置信度。
(1). Cross Fusion交叉融合
CF块的提出,是为了解决上面的问题,它可以直接整合不同层次的特征。它可以缩短传播路径,当网络更深入时,减轻了有意义特征的稀释。
CF块使用gOctConv作为CF模块的融合组件。
如图,不同尺度的输入特征图同时送到CF层,直接到达低级特征。CF块还允许不同的in-out分支,即插即用。
CF可以提供更短的低层和高层特征之间的路径,CF的特征融合过程之一可以表示为:
公式中的O1为CF输出的上支,其他支路同理。
(2). CF-YOLO
用CF块代替YOLOv5的neck部分,从而提出CF-YOLO。如图:
CF-YOLO的结构非常灵活,可以通过更改CF(n)、进出阶段的数量以及gOctConv(K)的内核大小来修改它。在这篇论文中,堆叠了两层CF(n=2)。CF的核大小分别为1或3。
conclusion
总之,这是一款具有竞争力的轻量级通用探测器。(虽然在雪地场景下的检测还可以,但是在COCO上的AP只能说和YOLOv5不相上下)
可惜,源码没有放出来!
反思
论文中提到的gOctConv,只是提到,没有具体介绍,找一下论文读一读。
链接:“Highly efficient salient object detection with 100k parameters”
https://arxiv.org/abs/2003.05643.pdf