【Change-Agent】实现交互式综合遥感变化的解释与分析

摘要

  • 监测地球表面的变化对理解自然过程和人类的影响至关重要,因此需要采用精确和全面的解译方法。遥感卫星图像为监测这些变化提供了一个独特的视角,导致遥感图像变化解译(RSICI)成为一个重要的研究重点。目前的RSICI技术包括变化检测和变化字幕,每个在提供全面的解释方面都有局限性。
  • 为了解决这个问题,提出了一个交互式的Change-Agent,将一个多层此的变化解译MCI模型作为眼睛,LLM作为大脑,可以按照用户指令,实现全面的变化解译和深刻的分析,比如变化检测和变化字幕、变化对象计数、变化原因分析等。
    • 提出的MCI模型包含像素级变化检测和语义级变化字幕两个分支,其中多个时间迭代交互层(BI3)利用局部感知增强(LPE)和全局差异融合注意(GDFA)模块来增强模型的鉴别特征表示能力。
  • 为了训练MCI模型,构建了带有变化掩码和双时态图像字幕的LEVIR-MCI数据集,大量的实验证明了所提出的变化解释模型的有效性,并强调了Change-Agent在促进全面和智能解译方面的潜力。
  • 论文链接:https://arxiv.org/abs/2403.19646
  • 代码链接:GitHub - Chen-Yang-Liu/Change-Agent: Change-Agent: Towards Interactive Comprehensive Remote Sensing Change Interpretation and Analysis

动机

  • 虽然变化检测可以准确定位变化区域,但是缺乏对变化的深入理解,如地面物体的特征或者它们之间的空间关系。相反,变化字幕可以提供丰富的语义级解译信息,但是可能无法提供精确的像素级变化定位。因此,迫切需要探索一种多级变化解译(MCI)方法,同时提供像素级和语义级变化信息。
  • 此外,实际应用往往需要对像素级和语义级变化解译结果进行全面的分析和进一步处理,以满足特定的需求,例如,用户可能需要对变化对象进行统计分析,会花费研究人员大量时间和精力,并要求用户的技术熟练程度。

方法

  • 如图1所示,和以往的单一技术不同,本文借助MCI模型的Change-Agent可以同时实习精确的像素级变化检测和语义级变化字幕。利用MCI模型和LLM,Change-Agent可以根据用户需求熟练的解译变化,智能分析和处理变化解译信息,最终提供符合用户期望的量身定制结果。

  • LEVIR-MCI (LEVIR Multi-level Change Interpretation)例子如图2所示,包含10077张双时间图像。每幅图像的空间大小为256×256像素,高分辨率为0.5m/像素,并有相应的注释掩码和5个注释字幕。
  • Change-Agent结构如图4所示
  • MCI模型作为眼睛,LLM作为大脑。LEVIR-MCI数据集支持MCI模型的多任务训练。LLM可以利用其固有的丰富知识来实现agent调度,并提供深刻的分析和决策支持。
  • 孪生网络提取多尺度视觉特征,低级特征提供详细的信息,高级特征具有丰富的语义。变化检测分支利用多尺度特征来细化预测的变化图,变化字幕利用最高级的视觉特征生成描述句子。
  • Bi-temporal Iterative Interaction (BI3) Layer:有效地增强和融合双时间特征
    • 利用局部感知增强(LPE)模块和全局差分融合注意(GDFA)模块来提取感兴趣的鉴别特征。
      • LPE模块使用不同大小的卷积内核来提取在不同尺度上的多个特征映射。该设计丰富了特征信息的多样性,提高了模型的局部特征感知能力。
      • GDFA模块利用不同的特征来生成空间注意权重,并执行特征之间的交互和融合。这有助于模型关注感兴趣的变化,而忽略不相关的干扰。
    • 通过LPE模块和GDFA模块的结合,BI3层提高了模型的特征表示,改变了识别能力。在LPE和GDFA模块之后,将层归一化(LN)应用于双时间特征。随后,一个带有残差的MLP进一步细化了归一化特征,获得了增强的双时间特征。
  • Change Detection and Captioning Branch
    • Change Detection:利用从主干网络中提取的多尺度双时间特征,该分支便于细化掩模预测。具体来说,具有残差连接的多个双时迭代交互BI3层迭代地增强和细化双时高级特征,有效地捕获语义变化。由于低级特征包含更详细的信息,因此它们对于精细化的变化边界检测至关重要。进一步结合了多个基于卷积的双时间融合(CBF)模块,用于四个尺度的双时间特征融合。随后,通过DeConv,将特征从下到上逐步进行集成,增强了模型的变化识别能力,提高了变化检测精度。
    • Change Captioning:利用多个BI3层来交互式地处理从主干网络中提取的高级语义特征,从而获得揭示感兴趣变化的双时态视觉特征。随后,一个基于卷积的domain bridging模块进一步处理双时态特征,以促进从视觉域到文本域的过渡。最后,这些处理后的特征被输入一个Transformer解码器,以生成描述这些变化的说明性句子。
  • LLM: Brain of Change-Agent
    • 如下图所示,LLM擅长文本相关任务,但是缺乏固有的视觉感知能力。为了弥补此差距且实现类似于人类能力的变化解译和分析,为Agent提供了一套Python工具,包含视觉特征提取主干、变化检测分支、变化字幕分支和相关的python库。利用这些工具,LLM自动制作python程序,随后由python解释器执行,完成固有功能以外的任务,之后,LLM将处理结果反馈给用户。除了提供变化图和描述外,还可以实现对象计数、图像处理、变化原因估计、对未来变化的预测等等。
    • 为了方便通过LLM准确地生成格式化的Python代码和工具调用,一个精心制作的文本提示符是必要的。受[63]中使用的提示的启发,设计了一个文本提示,指导模型正确使用工具。此提示以系统指令的角色输入到LLM,如图9所示。
    • [63] S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. Narasimhan, and Y. Cao,
      “React: Synergizing reasoning and acting in language models,” arXiv
      preprint arXiv:2210.03629 , 2022.

实验

loss:CC和CD均使用交叉熵损失,采用一种归一化的方法将两个任务的损失缩放到一个数量级,确保每个损失的贡献程度相同。

SOTA对比

Ablation Studies

损失简单结合和缩放后结合

和基线对比可视化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值