AIGC & 遥感 & 大模型 卫星影像有什么不同吗?

文章探讨了遥感影像生成的现状和动机,如样本扩充和娱乐性,特别是在智能解译中的挑战。提到使用生成模型处理罕见地物和布局。此外,零样本任务,如场景分类和语义分割,以及视觉语言模型如CLIP的应用被指出。文章还讨论了跨模态学习和预训练模型在弥合数据域差距中的作用,包括多模态对比学习和季节对比学习,以及MaskedAutoEncoder在多光谱和时间序列卫星影像上的应用。
摘要由CSDN通过智能技术生成

大模型热,AIGC热忽如一夜春风来,站在遥感×AI的十字路口,结合读到的一些论文不禁展开一些畅想。

遥感影像生成

目前看到的遥感影像生成做的都是光学影像,可能是一方面可以从CV领域迁移,而且可观赏性更强。所以平时也在思考这个任务的动机,一方面是扩充样本?另一方面是往娱乐性质靠?先说扩充样本,比较期待的是针对遥感影像智能解译中的corner case,通过生成模型生成同类图片,克服小样本条件下的学习困难。针对罕见地物和其罕见布局,可以通过文本描述的方式创造出与之对应的视觉内容。人类关于地球机理的先验知识以文本为载体,通过生成模型“转化”为图像的形式。

例如使用相同的prompt: 一张卫星影像关于许多绿树和建筑物位于密集的居住区,水体淹没了部分道路,鸟瞰图

(没咋做prompt engineering,就随便试一试)

基于华为的悟空画画
基于OpenAI的DALL·E

零样本任务

遥感领域内零样本场景分类、零样本目标检测、零样本语义分割都有出现

零样本场景分类

 Y. Li, Z. Zhu, J.-G. Yu, and Y. Zhang. Learning deep crossmodal embedding networks for zero-shot remote sensing image scene classification. IEEE Transactions on Geoscience and Remote Sensing, 59(12):10590–10603, 2021. 12, 13

零样本语义分割

 Zhang, Jielu, et al. "Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models." arXiv preprint arXiv:2304.10597 (2023).

可以预见,越来越多视觉语言模型(如CLIP)的涌现会更加推动遥感领域中的零样本任务发展。这种以文本作为查询的好处是粒度可大可小,十分灵活。

对于一些corner case,如地表异常(洪涝、地震、deforestation等罕见场景),我们往往没有足够的数据按传统的做法训练一个识别模型,零样本学习/小样本学习或许能用于解决这个问题。

具有遥感领域特色的预训练

毕竟自然影像数据训练的大模型还是存在domain gap,制造基于海量地理数据(可见光、SAR、多光谱、LiDaR、甚至街景、POI、OSM)的地学foundation model很令人兴奋。

遥感影像也是一种图像,所以有很多工作直接迁移了CV中预训练方式(监督学习、MAE、对比学习等)。

还有一部分工作尝试把遥感领域多个传感器的数据放在一起训练,例如让可见光模态的信息和SAR模态的信息互补。“It allows each modality to learn features which are more clearly distinguishable in the other modality, while also retaining the features from the original modality.

Jain, Umangi, Alex Wilson, and Varun Gulshan. "Multimodal contrastive learning for remote sensing tasks." arXiv preprint arXiv:2209.02329 (2022).

还有考虑到卫星重访这个性质,我们往往能获得同一地点不同时间拍摄的影像,时间跨度往往还很大。不同时间拍摄的影像外观差异往往很大,(季节差异、光照天气差异等等)。

针对这一遥感领域特色,研究者提出季节对比学习,让模型学习提取季节不变性特征。

O. Manas, A. Lacoste, X. Giro-i Nieto, D. Vazquez, and P. Rodriguez, ´ “Seasonal contrast: Unsupervised pre-training from uncurated remote sensing data,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 941题

 研究者也有将Masked Auto Encoder扩展到multi-spectral和temporal卫星影像上。

Cong, Yezhen, et al. "Satmae: Pre-training transformers for temporal and multi-spectral satellite imagery." Advances in Neural Information Processing Systems 35 (2022): 197-211.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值