摘要
- 目前的遥感解译模型通常集中于单一的任务,如检测、分割或字幕。但是,针对特定任务设计的模型无法实现综合多层次解译。该领域也缺乏多任务联合解译数据集。
- 本文提出Panoptic Perception,一个新的任务和一个新的细粒度数据集(FineGrip)实现一个更全面和普遍的RSIs解译。该新任务:
- 集成了像素级、实例级和图像立面信息,用于通用图像感知;
- 从粗粒度到细粒度捕获图像信息,实现更深层次的场景理解和描述;
- 通过多任务学习,使各种独立任务相互补充和增强。
- 通过强调多任务交互和感知结果的一致性,该任务能够同时处理细粒度前景实例分割、背景语义分割和全局细粒度图像字幕。具体地说,FineGrip数据集包括2649张遥感图像,12054个细粒度实例分割掩码,有20个前景事物类别,7599个背景语义掩码和13245个字幕句子。
- 此外,提出了一个基于联合优化的全视觉感知模型。对FineGrip的实验结果证明了全视觉感知任务的可行性,以及多任务联合优化对个体任务有益的效果。
- 论文链接:https://arxiv.org/abs/2404.04608
- 代码链接:FineGrip
动机
- RSI解译在图像分类、目标检测、语义分割、实例分割、图像字幕生成、多种任务中呈现了快速发展趋势。然而,这些任务只涵盖了单个任务的解释。然而,这些任务的模型通常是独立设计的,而忽略了RSIs中丰富的语义和上下文关系。因此,期望实现对RSIs的多层次、细粒度、感知解译。
- 最近,出现了新的研究来促进更全面的RSI解释。然而,关于RSI全光学分割的数据集和研究却很少,并且,全光学分割仍然关注于像素级和实例级的解译。另外,细粒度对象识别是识别目标对象的特定子类别的关键任务。然而,这些任务不能处理从像素级到图像级的多模态解释,缺乏综合感知能力和跨多模态任务的通用解释模型。
方法
-
引言
- 本文引入Panoptic Perception(全景感知),如图1所示,可以同时处理多层次解译中的各种子任务,包括前景实例的细粒度实例分割、背景区域的语义分割和图像字幕生成。这一创新任务和传统任务不同,不仅关注个人解译水平,而且促进互相强化和交互优化。多任务的协同处理要求模型在不同层次上全面理解全局上下文关系和语义信息。反过来又增强了模型提取和利用RSIs中丰富信息的能力。提出的全景感知集成了像素级、实例级和图像级理解来构建一个通用的解释框架。
- 构建了FineGrip数据集支持新任务的开发。包括2,649张遥感图像,具有细粒度的飞机实例分割注释、不同的背景语义和细粒度的句子描述注释。据我们所知,这是第一个为RSIs集成细粒度检测、实例分割、语义分割和细粒度图像字幕注释的数据集。此外,还利用SAM构建了一个半自动的分割标注系统。它充分利用了SAM鲁棒的零样本能力,显著提高了前景分割的标注效率。
- 为了验证所提出的全景感知的可行性和数据集的有效性,提出了一个端到端全景感知