【论文阅读】GeoChat : Grounded Large Vision-Language Model for Remote Sensing

1. 解决的问题

        目前的大型视觉语言模型(VLMs)虽然能用于对给定的自然图像内容进行对话,但是这种通用领域的模型在遥感影像的场景中往往表现不佳,造成在遥感影像中特定查询时出现不准确或伪造的信息。为了解决这些问题,本文提出了第一个多功能遥感模型Geo Chat,将多模态指令调整扩展到遥感领域以训练多任务会话助手。它能够提供高分辨率遥感图像的多任务会话功能:

  • 回答图像级别的查询;
  • 接受区域输入来进行特定区域的对话;
  • 通过参考物体的空间坐标在其响应中直观地显示物体。

2. 本文的贡献

        本文的贡献主要包括以下三个方面:

  • 通过扩展现有的不同遥感数据集的图像文本对,生成了一个新的遥感多模态指令跟踪数据集
  • 提出了第一个多功能遥感模型Geo Chat(利用本文创建的数据集对 LLaVA1.5 进行 LoRA 微调);
  • 解决了缺乏评估现有 VLM 遥感对话能力的评估基准问题,为遥感中的会话基础设置了评估协议,以便与该方向的未来工作进行比较。

3. Geo-Chat

        Geo-Chat 能够完成的任务如下:

  • 图像级对话任务:通过用户输入的图像和文本,在整张图像上执行视觉问答、场景分类和图像描述;
  • 区域级对话任务:根据用户提供的图像、文本和空间框位置执行区域级描述、对话的任务;
  • 接地的对话任务:通过任务令牌来引导 Geo Chat 提供不同粒度的对象位置。

3.1 Geo Chat 的架构

        Geo Chat 遵循 LLaVA-v1.5 的架构,由 3 个核心组件组成:全局图像编码器多层感知机(两个线性层)和 LLM(大语言模型)。并且在 LLaVA 的基础上添加了特定的任务提示,架构中的每个组件描述如下:

3.1.1 任务令牌

        本文通过不同的任务令牌<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值