1. 解决的问题
目前的大型视觉语言模型(VLMs)虽然能用于对给定的自然图像内容进行对话,但是这种通用领域的模型在遥感影像的场景中往往表现不佳,造成在遥感影像中特定查询时出现不准确或伪造的信息。为了解决这些问题,本文提出了第一个多功能遥感模型Geo Chat,将多模态指令调整扩展到遥感领域以训练多任务会话助手。它能够提供高分辨率遥感图像的多任务会话功能:
- 回答图像级别的查询;
- 接受区域输入来进行特定区域的对话;
- 通过参考物体的空间坐标在其响应中直观地显示物体。
2. 本文的贡献
本文的贡献主要包括以下三个方面:
- 通过扩展现有的不同遥感数据集的图像文本对,生成了一个新的遥感多模态指令跟踪数据集;
- 提出了第一个多功能遥感模型Geo Chat(利用本文创建的数据集对 LLaVA1.5 进行 LoRA 微调);
- 解决了缺乏评估现有 VLM 遥感对话能力的评估基准问题,为遥感中的会话基础设置了评估协议,以便与该方向的未来工作进行比较。
3. Geo-Chat
Geo-Chat 能够完成的任务如下:
- 图像级对话任务:通过用户输入的图像和文本,在整张图像上执行视觉问答、场景分类和图像描述;
- 区域级对话任务:根据用户提供的图像、文本和空间框位置执行区域级描述、对话的任务;
- 接地的对话任务:通过任务令牌来引导 Geo Chat 提供不同粒度的对象位置。
3.1 Geo Chat 的架构
Geo Chat 遵循 LLaVA-v1.5 的架构,由 3 个核心组件组成:全局图像编码器、多层感知机(两个线性层)和 LLM(大语言模型)。并且在 LLaVA 的基础上添加了特定的任务提示,架构中的每个组件描述如下:
3.1.1 任务令牌
本文通过不同的任务令牌<