遥感大模型

最新推荐文章于 2024-09-04 10:54:12 发布

大奎帝国

最新推荐文章于 2024-09-04 10:54:12 发布

阅读量956

点赞数 26

文章标签：笔记

本文链接：https://blog.csdn.net/xiaokui6/article/details/139425530

版权

遥感大模型

简介
- 单一模态

简介

随着高光谱遥感技术的迅猛发展，光谱成像数据呈爆炸式增长，现有的分析方法和解译手段已不能满足全要素精细地物感知的需求，人工智能大模型的出现，为解决高光谱遥感数据信息充分提取与挖掘、实现“吃干榨净”提供了技术保障。
斯坦福大学的研究定义基础模型（FM）为：指在广泛数据上训练的模型（通常使用大规模的自监督方法），可以用于广泛的下游任务（通过微调等方法）。

GPT-4等是目前比较流行的基础模型。在遥感领域，基础模型也在快速发展。本文汇总整理一些典型的研究。总体上看，可以分为视觉遥感基础模型和视觉-语言遥感基础模型。

目前该领域发展很快，如果有更好的遥感基础模型推荐，欢迎留言补充。

单一模态

2.1 基础模型
RingMo: A Remote Sensing Foundation Model With Masked Image Modeling
发表时间：2022.7.28
论文链接：https://ieeexplore.ieee.org/abstract/document/9844015

GitHub：https://github.com/comeony/RingMo

简介：利用 RS 图像的生成式自监督学习 (SSL) 的优势，提出了一个名为 RingMo 的 RS 基础模型框架，它由两部分组成。首先，通过收集来自卫星和航空平台的200万张遥感图像，构建了一个大规模数据集，涵盖了全球多个场景和物体。其次，提出了一种针对复杂遥感场景中密集和小物体设计的遥感基础模型训练方法。

下游任务：场景分类、目标检测、语义分割、变化检测

Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model
发表时间：2022.12.8

论文链接：https://ieeexplore.ieee.org/abstract/document/9956816

GitHub：https://github.com/ViTAE-Transformer/Remote-Sensing-RVSA

简介：首次尝试提出适合 RS 任务的大型视觉模型，并研究此类大型模型的性能。为了处理RS图像中的大尺寸和任意方向的物体，提出了一种新的旋转可变尺寸窗口注意力来取代变压器中原来的完全注意力，减少计算成本和内存占用，同时通过提取学习更好的对象表示来自生成的不同窗口的丰富上下文。

下游任务：场景分类、目标检测、语义分割

SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery
发表时间：2023.1.15

论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/hash/01c561df365429f33fcd7a7faa44c985-Abstract-Conference.html

GitHub：https://sustainlab-group.github.io/SatMAE

简介：提出了 SatMAE，一种基于掩码自动编码器（MAE）的时态或多光谱卫星图像的预训练框架。通过时间嵌入以及跨时间独立屏蔽图像块利用时间信息。同时证明了将多光谱数据编码为具有不同光谱位置编码的频带组是有益的。

下游任务：Land Cover Classification、Multi-label Classification、Building Segmentation

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning
发表时间：2023.4.6

论文链接：http://openaccess.thecvf.com/content/ICCV2023/html/Reed_Scale-MAE_A_Scale-Aware_Masked_Autoencoder_for_Multiscale_Geospatial_Representation_Learning_ICCV_2023_paper.html

GitHub：https://github.com/bair-climate-initiative/scale-mae

简介：提出了 Scale-MAE，这是一种预训练方法，可以在整个预训练过程中明确学习不同已知尺度的数据之间的关系。 Scale-MAE 通过以已知输入比例屏蔽输入图像来预训练网络，其中图像覆盖的地球区域决定了 ViT 位置编码的比例，而不是图像分辨率。 Scale-MAE 使用标准 ViT 主干对屏蔽图像进行编码，然后通过带通滤波器对屏蔽图像进行解码，以较低/较高尺度重建低频/高频图像。

下游任务：land-use/land-cover classification、semantic segmentation

A Billion-scale Foundation Model for Remote Sensing Images
发表时间：2023.4.11

论文链接：https://arxiv.org/abs/2304.05215

简介：提出一种在遥感领域放大和微调ViT的有效方法，首次提出十亿参数级别的遥感大模型。

下游任务：Rotated Object Detection、Semantic Segmentation

SatlasPretrain: A Large-Scale Dataset for Remote Sensing Image Understanding
发表时间：2023.8.21

论文链接：http://arxiv.org/abs/2211.15660

GitHub：https://satlas-pretrain.allen.ai/

简介：提出了 SATLASPRETRAIN，这是一个广度和规模都很大的遥感数据集，结合了 Sentinel-2 和 NAIP 图像，以及 137 个类别和 7 种标签类型下的 3.02 亿个标签。

下游任务：Classification、Segmentation

Towards Geospatial Foundation Models via Continual Pretraining
发表时间：2023.8.31

论文链接：http://arxiv.org/abs/2302.04476

GitHub：https://github.com/mmendiet/GFM

简介：研究了一种新的范例，以最小的资源成本创建高效的地理空间模型。

下游任务：Change Detection、Classification、Segmentation、Super-resolution

2.2 图像分割
SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model
发表时间：2023.9.22

论文链接：https://arxiv.org/abs/2304.05215

简介：利用 SAM 和现有的 RS 目标检测数据集来开发一个高效的pipeline，用于生成大规模 RS 分割数据集，称为 SAMRS。 SAMRS 总共拥有 105,090 张图像和 1,668,241 个实例，在大小上超出现有高分辨率 RS 分割数据集几个数量级。它提供对象类别、位置和实例信息，可单独或组合用于语义分割、实例分割和对象检测。

数据类型：RGB

下游任务：Semantic Segmentation, Instance Segmentation、Object Detection

RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model
发表时间：2023.6.28

论文链接：https://ieeexplore.ieee.org/abstract/document/10409216

GitHub：https://github.com/bair-climate-initiative/scale-mae

简介：设计了一种基于 SAM 基础模型并结合语义类别信息的遥感图像自动实例分割方法。为 SAM 输入生成适当提示，使得SAM 能够为遥感图像生成语义上可辨别的分割结果。

数据类型：RGB

下游任务：Instance Segmentation

The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot
发表时间：2023.6.28

论文链接：https://www.sciencedirect.com/science/article/pii/S1569843223003643

简介：探索涉及使用各种输入提示（例如边界框、单个点和文本描述符）跨多尺度数据集测试 SAM在遥感数据集上的应用。同时使用一种新颖的自动化技术，将文本提示派生的一般示例与一次性训练相结合。提高了SAM在遥感图像上的分割准确性，凸显了 SAM 在遥感图像中部署的潜力，并减少了手动注释的需求。

数据类型：RGB

下游任务：Image Segmentation

RingMo-SAM: A Foundation Model for Segment Anything in Multimodal Remote-Sensing Images
发表时间：2023.11.13

论文链接：https://ieeexplore.ieee.org/abstract/document/10315957

简介：提出了一种称为RingMo-SAM的多模态遥感图像分割的基础模型，它不仅可以分割光学和SAR遥感数据中的任何内容，还可以识别对象类别。首先，通过收集该领域的多个开源数据集，构建包含数百万个分割实例的大规模数据集来训练模型。然后，通过构建实例型和地形型类别解耦掩码解码器（CDMDecoder），实现了各种对象的类别分割。此外，还设计了一种嵌入多模态遥感数据特征的提示编码器。不仅支持多框提示，提高复杂遥感场景下多目标的分割精度，还支持SAR特征提示，提高SAR图像的分割性能。

数据类型：RGB；SAR

下游任务：Semantic Segmentation

SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object and Boundary Constraints
发表时间：2023.12.5

论文链接：https://arxiv.org/abs/2312.02464

GitHub：https://github.com/sstary/SSRS

简介：提出了一个简化的框架，旨在通过利用称为 SAM 生成对象 (SGO) 和 SAM 生成边界 (SGB) 的两个新概念来利用 SAM 的原始输出。提出了一种新颖的对象损失，并进一步引入边界损失作为增强组件，以帮助通用语义分割框架中的模型优化。引入了对象一致性的概念来利用缺乏语义信息的分段区域。通过对对象内预测值的一致性施加约束，对象损失旨在增强语义分割性能。此外，边界损失通过将模型的注意力引导到对象的边界信息来利用 SGB 的独特特征。

数据类型：RGB；NIRRG

下游任务：Semantic Segmentation

三、文本-图像多模态
3.1 基础模型
RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
发表时间：2023.6.19

论文链接：https://arxiv.org/abs/2306.11029

GitHub：https://github.com/ChenDelong1999/RemoteCLIP

简介：提出了 RemoteCLIP，这是第一个用于遥感的视觉语言基础模型，旨在学习具有丰富语义的鲁棒视觉特征，以及用于无缝下游应用的对齐文本嵌入。为了解决预训练数据的稀缺问题，利用数据缩放，基于 Box-to-Caption (B2C) 和 Mask-to-Box (M2B) 转换来转换异构注释，并进一步合并无人机图像，从而产生 12 倍大的预训练数据集。

下游任务：Cross-modal Retrieval、Object Counting、Zero-shot Image Classification、Few-shot Classification、Full-shot Linear Probing and k-NN Classification

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Model
发表时间：2023.6.20

论文链接：https://arxiv.org/abs/2306.11300

GitHub：https://github.com/om-ai-lab/RS5M

简介：提出了一个新框架，其中包括领域预训练视觉语言模型（DVLM），弥补了通用视觉语言模型（GVLM）和特定领域下游任务之间的差距。此外，还提出了遥感（RS）领域的图文配对数据集RS5M，其中包含500万张带有英文描述的RS图像。该数据集是通过过滤公开可用的图像文本配对数据集和使用预先训练的 VLM 对仅带有字幕标签的 RS 数据集进行过滤而获得的。这些构成了第一个大规模RS图像文本配对数据集。对 CLIP 模型进行了微调，并在 RS5M 上尝试了几种参数高效的微调方法来实现 DVLM。

下游任务：Zero-shot Classification、Remote Sensing Cross-Modal Text–Image Retrieval、Semantic Localization

RSGPT: A Remote Sensing Vision Language Model and Benchmark
发表时间：2023.7.28

论文链接：https://arxiv.org/abs/2307.15266

GitHub：https://github.com/Lavender105/RSGPT

简介：构建了一个高质量的遥感图像描述数据集（RSICap），以促进遥感领域大型 VLM 的开发。RSICap 包含 2,585 个人工注释的说明文字，具有丰富且高质量的信息。该数据集提供每张图像的详细描述，包括场景描述（例如住宅区、机场或农田）以及物体信息（例如颜色、形状、数量、绝对位置等）。同时提供了一个名为RSIEval的基准评估数据集。该数据集由人工注释的标题和视觉问答对组成，允许在遥感背景下对 VLM 进行全面评估。RSGPT 是一种预训练方法，专为高效且通用的遥感 (RS) 视觉语言任务而设计。

下游任务：Remote Sensing Image Captioning、Remote Sensing Visual Question Answering

GeoChat : Grounded Large Vision-Language Model for Remote Sensing
发表时间：2023.11.24

论文链接：https://arxiv.org/abs/2311.15826

GitHub：https://github.com/mbzuai-oryx/geochat

简介：提出了 GeoChat - 第一个多功能遥感 VLM，它提供具有高分辨率 RS 图像的多任务对话功能。具体来说，GeoChat 不仅可以回答图像级查询，还可以接受区域输入以进行特定于区域的对话。此外，它可以通过参考对象的空间坐标，在视觉上将其响应中的对象接地。为了解决特定领域数据集的缺乏，通过从现有的不同 RS 数据集扩展图像文本对来生成一个新颖的 RS 多模态指令跟踪数据集。

下游任务：Scene Classification、Visual Question Answering、Visual Grounding

REMOTE SENSING VISION-LANGUAGE FOUNDATION MODELS WITHOUT ANNOTATIONS VIA GROUND REMOTE ALIGNMENT
发表时间：2023.12.12

论文链接：https://arxiv.org/abs/2312.06960

简介：介绍了一种在不使用任何文本注释的情况下训练遥感图像视觉语言模型的方法。使用在地面上拍摄的同地互联网图像作为连接遥感图像和语言的中介。具体来说，使用大量配对的互联网和卫星图像训练遥感图像的图像编码器，以与 CLIP 的图像编码器对齐。

下游任务：Zero-shot Image Segmentation、Visual Question Answering (VQA).

3.2 参考遥感图像分割（RRSIS）
RRSIS: Referring Remote Sensing Image Segmentation
发表时间：2023.6.14

论文链接：https://arxiv.org/abs/2306.08625

简介：首次将RIS引入遥感，提出了一个用于RRSIS的数据集RefSegRS。

下游任务：Referring Remote Sensing Image Segmentation

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation
发表时间：2023.12.19

论文链接：https://arxiv.org/abs/2312.12470

GitHub：https://github.com/Lsan2401/RMSIN