【FineGrip】全光学感知:一种新的通用遥感图像解释任务和细粒度数据集(IEEE TGRS 2024)

摘要

  • 目前的遥感解译模型通常集中于单一的任务,如检测、分割或字幕。但是,针对特定任务设计的模型无法实现综合多层次解译。该领域也缺乏多任务联合解译数据集。
  • 本文提出Panoptic Perception,一个新的任务和一个新的细粒度数据集(FineGrip)实现一个更全面和普遍的RSIs解译。该新任务:
    • 集成了像素级、实例级和图像立面信息,用于通用图像感知;
    • 从粗粒度到细粒度捕获图像信息,实现更深层次的场景理解和描述;
    • 通过多任务学习,使各种独立任务相互补充和增强。
  • 通过强调多任务交互和感知结果的一致性,该任务能够同时处理细粒度前景实例分割、背景语义分割和全局细粒度图像字幕。具体地说,FineGrip数据集包括2649张遥感图像,12054个细粒度实例分割掩码,有20个前景事物类别,7599个背景语义掩码和13245个字幕句子。
  • 此外,提出了一个基于联合优化的全视觉感知模型。对FineGrip的实验结果证明了全视觉感知任务的可行性,以及多任务联合优化对个体任务有益的效果。
  • 论文链接:https://arxiv.org/abs/2404.04608
  • 代码链接:FineGrip

动机

  • RSI解译在图像分类、目标检测、语义分割、实例分割、图像字幕生成、多种任务中呈现了快速发展趋势。然而,这些任务只涵盖了单个任务的解释。然而,这些任务的模型通常是独立设计的,而忽略了RSIs中丰富的语义和上下文关系。因此,期望实现对RSIs的多层次、细粒度、感知解译。
  • 最近,出现了新的研究来促进更全面的RSI解释。然而,关于RSI全光学分割的数据集和研究却很少,并且,全光学分割仍然关注于像素级和实例级的解译。另外,细粒度对象识别是识别目标对象的特定子类别的关键任务。然而,这些任务不能处理从像素级到图像级的多模态解释,缺乏综合感知能力和跨多模态任务的通用解释模型。

方法

  • 引言

    • 本文引入Panoptic Perception(全景感知),如图1所示,可以同时处理多层次解译中的各种子任务,包括前景实例的细粒度实例分割、背景区域的语义分割和图像字幕生成。这一创新任务和传统任务不同,不仅关注个人解译水平,而且促进互相强化和交互优化。多任务的协同处理要求模型在不同层次上全面理解全局上下文关系和语义信息。反过来又增强了模型提取和利用RSIs中丰富信息的能力。提出的全景感知集成了像素级、实例级和图像级理解来构建一个通用的解释框架。
    • 构建了FineGrip数据集支持新任务的开发。包括2,649张遥感图像,具有细粒度的飞机实例分割注释、不同的背景语义和细粒度的句子描述注释。据我们所知,这是第一个为RSIs集成细粒度检测、实例分割、语义分割和细粒度图像字幕注释的数据集。此外,还利用SAM构建了一个半自动的分割标注系统。它充分利用了SAM鲁棒的零样本能力,显著提高了前景分割的标注效率。
    • 为了验证所提出的全景感知的可行性和数据集的有效性,提出了一个端到端全景感知
### 关于光学光学遥感图像数据集 在研究领域中,存在多个公开可用的光学光学遥感图像数据集,这些数据集广泛应用于目标检测、分类、分割以及云检测等多种任务。以下是几个常见的数据集及其特点: #### 1. **Landsat 数据系列** Landsat 是美国地质调查局(USGS)提供的一组长期运行的地表观测卫星影像数据集。它提供了多种波段的多光谱图像,适用于土地覆盖变化监测、植被指数计算以及其他环境科学研究。该数据集支持通过 R-Landsat 软件包进行辐射校正地形校正处理[^1]。 #### 2. **Sentinel-2 数据集** 由欧洲航天局(ESA)发布的 Sentinel-2 提供高空间分辨率(10米至60米)的多光谱图像,涵盖了可见光、近红外短波红外等多个波段。其丰富的光谱信息使其成为农业监控、城市规划等领域的重要资源。 #### 3. **UC Merced 土地使用数据集** 这是一个小型但高质量的遥感图像数据集,包含来自加州中部地区的航空照片,分为不同类别的土地用途类别(如农田、住宅区等)。每张图片大小为 256×256 像素,非常适合用于训练机器学习模型以完成分类任务。 #### 4. **NWPU-RESISC45 遥感图像数据集** 西北工业大学开发的大规模遥感场景理解数据库 NWPU-RESISC45 包含超过 31,500 张标注好的遥感图像样本,分布于 45 类自然社会环境中常见的人造结构或地理现象之中。此集合特别适合测试各种计算机视觉算法性能表现如何适应复杂的现实世界条件下的挑战。 #### 5. **DIOR 多尺度对象识别数据集** DIOR 是一个面向细粒度物体实例级别的大规模遥感图像数据集,具有多样化的背景干扰因素设计思路。利用 DIOR 可以很好地验证 anchor-free 方法对于小尺寸目标检测的能力提升效果[^2]。 #### 6. **Cloud Dataset from Deep Matting Paper** TGRS2020 的论文提出了针对遥感图像中的云层遮挡问题而构建的一个专门用来做云检测实验的小型合成数据集。这套资料不仅包含了带标签的真实拍摄到含有部分被掩盖区域的照片外加人工生成模拟出来的完全纯净天空状况作为对比参照物;同时还给出了详细的评价指标体系以便后续研究人员能够更加公平合理地比较各自提出的解决方案之间的优劣差异之处[^3]。 #### 7. **CVPR2024 Referring Remote Sensing Image Segmentation Data** 根据 CVPR2024 上发表的文章摘要描述来看,这项工作可能涉及到了一个新的特定类型的交互式语义分割应用场景——即给定一段文字描述之后让系统自动定位并提取出相应感兴趣的部分轮廓边界线位置关系等内容的信息表达形式转换过程。虽然具体使用的数据源尚未明确指出,但从题目推测应该也属于遥感影像范畴之内的一部分子集范围内的产物[^4]。 以上列举了一些常用的或者新近出现过的有关联性的选项供大家参考选用时考虑进去即可满足大部分情况下所需的基础素材需求了。 ```python import requests from bs4 import BeautifulSoup def fetch_datasets(): url = 'https://example.com/datasets' # Replace with actual URL containing dataset links. response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') datasets = [] for link in soup.find_all('a'): href = link.get('href') if '/dataset/' in href: # Assuming all relevant datasets have this pattern in their URLs. datasets.append(href) return datasets print(fetch_datasets()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值