卫星视频的运动目标检测：DSFNet论文阅读笔记

加油菜鸟！

于 2023-02-08 10:46:21 发布

阅读量945

点赞数 2

文章标签：计算机视觉深度学习目标检测人工智能 Powered by 金山文档

本文链接：https://blog.csdn.net/weixin_45819089/article/details/128925266

版权

前言：卫星监控在城市规划、交通监控、军事侦察等各个场景都有重要应用。来自卫星视频的移动物体检测 (MOD) 是自动卫星监视中最重要的任务之一，并受到了极大的关注。具体来说，MOD旨在定位和识别视频中具有语义相似性（空间方面）和连续运动（时间方面）的对象，并在对象跟踪任务中发挥重要作用。由于某些挑战，来自卫星视频的 MOD 仍未解决。

title:《DSFNet: Dynamic and Static Fusion Network for Moving Object Detection in Satellite Videos》

论文题目：《DSFNet：用于卫星视频中运动目标检测的动态和静态融合网络》

作者：Chao Xiao 单位：国防科技大学

Published in: IEEE Geoscience and Remote Sensing Letters ( Volume: 19)

期刊：IEEE GEOSCIENCE AND REMOTE SENSING LETTERS, VOL.19,2022

原论文链接源代码链接

摘要：

由于感兴趣目标的极小尺寸和高度复杂的背景，卫星视频中的运动目标检测 (MOD) 仍然具有挑战性。帧内（静态）和帧间（动态）信息对 MOD 都非常重要。本文提出了一种名为动态和静态融合网络 (DSFNet) 的双流检测网络来解决卫星视频中的 MOD 问题。具体来说，DSFNet 由用于从单帧中提取静态上下文信息的 2-D 主干和用于从连续帧中提取动态运动线索的轻量级 3-D 主干组成。然后将提取的静态和动态特征融合并输入检测头以检测卫星视频中的运动目标。本文对从吉林一号卫星收集的视频进行了大量实验，结果证明了所提出的 DSFNet 的有效性和稳健性。

主要挑战：

1.极小物体：由于成像距离远，感兴趣的运动物体的尺寸往往非常小（例如，吉林一号卫星视频中的大多数运动车辆小于20像素），导致缺乏纹理和外观信息几何线索。

2.物体与背景的局部对比度低：由于各种复杂的场景和成像噪声，有时感兴趣的物体被淹没在簇中，从而与背景的局部对比度低。

3.非静止卫星成像平台引起的运动伪影：卫星的慢速运动导致一些静止背景物体的局部未对准和动态强度变化，这对感兴趣物体的运动没有信息，并可能导致 MOD 中的运动伪影。

主要贡献：

1.首次提出了一个名为 DSFNet 的双流网络，以结合静态上下文信息和动态运动线索来检测卫星视频中的小运动物体。

2.对于静态流，重新定制了下采样方案，并使用特征图的浅层来保持小运动物体的精确位置和细节。对于动态流，设计了一个轻量级的 3-D 卷积网络来有效地从卫星视频中提取动态运动线索。最后进一步提出了一种多尺度分层特征融合方案来融合来自两个流的特征，该融合方案可以有效提高检测性能。

3.对从吉林一号收集的数据集进行的大量实验表明，所提出的 DSFNet 大大优于最先进的方法。

DSFNet 总体架构：

图1

DSFNet由2D静态流（左）和3D动态流（右）组成。当前帧和 T 个连续帧首先被馈送到静态和动态流以分别生成特征表示。然后这两个流产生的特征被融合并馈送到检测头以产生最终的检测结果。

A. 2D静态流

对于静态流，视频中的每一帧 $\text{[math]}$ 被馈送到 DLA-34 以生成分层特征 $\text{[math]}$ 。由于浅层特征包含细节和精确位置信息，而深层特征传递语义信息，因此采用多个特征融合块 (FFB) 来聚合分层特征。 FFB 模块的细节如图 1 所示，可以表示为

$\text{[math]}$

其中 i 大于 1。dc(⋅) 表示核大小为 3×3 的可变形卷积，Up(⋅) 表示转置卷积层。 FFB 中的可变形卷积用于减轻低级和高级特征之间的未对齐。

融合后得到三层增强特征 $\text{[math]}$ 。由于分层特征融合和浅层特征的利用，静态流的输出特征图不仅可以保持精确的位置和细节，还可以增强卫星视频中小运动物体的特征。

B. 3D动态流

对于3-D动态流，T个连续帧 $\text{[math]}$ 被馈送到由三个3-D卷积层组成的自主开发的3-D网络，以生成分层特征 $\text{[math]}$ 。 3-D 网络的细节如图 1 所示。为了降低计算复杂度，将每个 3-D 卷积替换为三个 1-D 卷积块，即 1-D 卷积、批量归一化和一个 ReLU）。

为了融合层次特征，首先利用 3-D 最大池化来减少时间维度，然后使用几个 FFB 模块进行特征聚合。在此之后，可以得到三个增强的特征图 $\text{[math]}$ 作为输出。设计的 3-D 主干仅包含三层 3-D 卷积块，因此重量轻且计算效率高。此外，由于 3-D 卷积可以同时获取空间和时间信息，因此可以通过设计的 3-D 主干提取目标的动态运动线索。

C. 特征融合与检测

静态流负责捕获有关对象和场景的外观和上下文信息，而动态流旨在跨帧封装对象的运动信息。来自两个流的特征自然地相互补充，因此可以有效地融合以获得更好的表示。因此，执行逐元素求和来融合从两个流中提取的特征。该过程可以表述为

$\text{[math]}$

其中⊕表示逐元素求和。

由于卷积网络的后几层捕获更强的语义，而前几层捕获小目标的更多详细信息，因此以分层方式融合多级特征图。具体来说，特征图 $\text{[math]}$ 和 $\text{[math]}$ 被馈送到一个 FFB 模块以生成特征图 $\text{[math]}$ ，然后将其与 $\text{[math]}$ 一起发送到另一个 FFB 模块以生成特征图 $\text{[math]}$ 。该过程重复 n−1 次以实现渐进的分层特征融合，n 设置为 3。最后，将融合后的特征图 $\text{[math]}$ 馈送到检测头，生成检测结果。

检测头由三个并行分支组成，分别预测热图、对象中心偏移和边界框大小。每个分支由一个 3×3 二维卷积层（具有 128 个通道）、一个 ReLU 和一个 1×1 二维卷积层实现。通过解码这三个分支的输出得到最终的检测结果。

实验：

A.实验设置

数据集来自“吉林一号”视频卫星，其中72个视频作为训练集，7 个视频作为测试集。选择视频中移动的车辆作为目标。使用五个连续的帧作为网络的输入；批量大小batch size设置为 4；执行随机镜像和颜色抖动以进行数据扩充；优化器使用Adam ；训练轮次epoch=65；初始学习率learning rate=1.25×10^−4。在 45 个 epoch 和 55 个 epoch 之后，学习率降低了 10 倍。所有模型都在两个 Nvidia RTX 2080Ti GPU 上实现。

B.与最先进技术的比较

本文将DSFNet与几种最先进的方法进行比较，包括传统方法（VIBE 、GoDec 、DECOLOR 、DTTP 、E-LSD 、D&T 和 B-MCMD ）和基于 CNN 的方法（ClusterNet ）。使用精确率、召回率和F1分数作为评估指标。定量和定性结果分别显示在表 I 和图 2 中。

表1

图2

1）定量结果：

表一给出了不同方法的定量检测结果。可以观察到，DSFNet 在所有七个视频上都产生了最高的 F1 分值，并且在所有三个指标上都取得了最高的平均分。可以看出，DSFNet 对传统方法的改进是显著的。这是因为，DSFNet 可以学习小型移动物体的判别特征，并对各种具有挑战性的场景（例如，局部对比度低的目标、局部未对准和光照变化）表现出鲁棒性。与基于深度学习的 ClusterNet 方法相比，DSFNet 在检测性能上仍然有明显的提高。这是因为 ClusterNet 仅使用时空信息来检测移动物体，并且对场景中的非静止物体敏感，从而导致许多误报（如图 2 所示）。相反，DSFNet 不仅利用时空动态信息促进移动物体的检测，而且利用静态上下文信息抑制非静止卫星成像平台引入的误报，从而提高检测性能。

2）定性结果：

图2显示了不同方法的定性检测结果。可以看出，DSFNet 不仅减少了由动态变化（即图 2 中第 1 行和第 3 行的放大区域）引起的误报，而且还提高了局部对比度较低的移动车辆的检测性能背景（即图 2 中第 2 行和第 4 行的放大区域）。尽管如此，所比较的方法对各种场景都没有表现出鲁棒性，并且在未对准或光照变化的区域中误报增加。

本文还评估了不同方法在不同交集联合 (IoU) 阈值上的性能。结果如图 3 所示。随着 IoU 阈值的增加，平均 F1 分数的值均降低。与其他方法相比，DSFNet 可以随着 IoU 阈值的增加保持最佳性能。当 IoU 阈值增加到 0.5 时，DSFNet 仍然可以获得大约 0.7 的平均 F1 分数，而比较方法的平均 F1 分数下降了一半以上。这是因为，所有比较的方法都是基于分割的方法，它们主要关注位置而不是可以完全封装目标的目标边界框。因此，当 IoU 阈值增加时，比较方法的性能将急剧下降。相比之下，DSFNet 不仅关注目标的精确位置，而且还预测包含完整目标的边界框，因此对不同的 IoU 阈值更加稳健。

图3

3）时间成本：

为了比较不同方法的效率，记录了不同方法在大小为 1024×1024 的输入图像上的平均时间成本（s）。结果列于表II。可以看出，DSFNet 大大优于比较方法，是第二快的方法（比 D&T 稍慢）。这是因为 DSFNet 需要一次处理五帧才能产生单帧的检测结果，而最快的方法 D&T 仅通过帧差一次处理三帧。而与 DECOLOR 、ELSD 和 B-MCMD 等基于背景减除的方法相比，DSFNet 在性能和效率之间实现了卓越的平衡。

表2

结论：

本文提出了一种用于卫星视频中 MOD 的双流检测网络 DSFNet。 DSFNet 融合了静态上下文信息和动态运动线索来检测移动目标。广泛的实验结果表明， DSFNet 不仅可以检测到与背景局部对比度低的运动物体，还可以抑制由局部未对准和动态强度变化引起的误报。此外，实验结果表明，DSFNet 大大超越了之前的最先进技术。

关注我了解更多计算机视觉、深度学习、人工智能知识。