大模型热,AIGC热忽如一夜春风来,站在遥感×AI的十字路口,结合读到的一些论文不禁展开一些畅想。
遥感影像生成
目前看到的遥感影像生成做的都是光学影像,可能是一方面可以从CV领域迁移,而且可观赏性更强。所以平时也在思考这个任务的动机,一方面是扩充样本?另一方面是往娱乐性质靠?先说扩充样本,比较期待的是针对遥感影像智能解译中的corner case,通过生成模型生成同类图片,克服小样本条件下的学习困难。针对罕见地物和其罕见布局,可以通过文本描述的方式创造出与之对应的视觉内容。人类关于地球机理的先验知识以文本为载体,通过生成模型“转化”为图像的形式。
例如使用相同的prompt: 一张卫星影像关于许多绿树和建筑物位于密集的居住区,水体淹没了部分道路,鸟瞰图
(没咋做prompt engineering,就随便试一试)
零样本任务
遥感领域内零样本场景分类、零样本目标检测、零样本语义分割都有出现
Y. Li, Z. Zhu, J.-G. Yu, and Y. Zhang. Learning deep crossmodal embedding networks for zero-shot remote sensing image scene classification. IEEE Transactions on Geoscience and Remote Sensing, 59(12):10590–10603, 2021. 12, 13
Zhang, Jielu, et al. "Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models." arXiv preprint arXiv:2304.10597 (2023).
可以预见,越来越多视觉语言模型(如CLIP)的涌现会更加推动遥感领域中的零样本任务发展。这种以文本作为查询的好处是粒度可大可小,十分灵活。
对于一些corner case,如地表异常(洪涝、地震、deforestation等罕见场景),我们往往没有足够的数据按传统的做法训练一个识别模型,零样本学习/小样本学习或许能用于解决这个问题。
具有遥感领域特色的预训练
毕竟自然影像数据训练的大模型还是存在domain gap,制造基于海量地理数据(可见光、SAR、多光谱、LiDaR、甚至街景、POI、OSM)的地学foundation model很令人兴奋。
遥感影像也是一种图像,所以有很多工作直接迁移了CV中预训练方式(监督学习、MAE、对比学习等)。
还有一部分工作尝试把遥感领域多个传感器的数据放在一起训练,例如让可见光模态的信息和SAR模态的信息互补。“It allows each modality to learn features which are more clearly distinguishable in the other modality, while also retaining the features from the original modality.”
还有考虑到卫星重访这个性质,我们往往能获得同一地点不同时间拍摄的影像,时间跨度往往还很大。不同时间拍摄的影像外观差异往往很大,(季节差异、光照天气差异等等)。
针对这一遥感领域特色,研究者提出季节对比学习,让模型学习提取季节不变性特征。
研究者也有将Masked Auto Encoder扩展到multi-spectral和temporal卫星影像上。