change caption
文章平均质量分 91
及时行樂樂樂
这个作者很懒,什么都没留下…
展开
-
【RSICRC】Towards a multimodal framework for remote sensing image change retrieval and captioning
尽管数据集规模庞大,但是,获得的图像是同一个地理区域(德克萨斯州,美国)发生的变化。在一个对比的学习框架中,这些例子被认为是假阴性的,并可能使训练阶段具有挑战性。从单个图像到一对图像上并不简单,需要一种机制处理假阴性,即被对比损失确定为负的例子,但实际上是正的。如果我们的模型被设置为编码器主干进行微调,只需要更新ResNet系结构的最后两个卷积层的权重,或ViT的变压器层的权重。如前所述,这项工作的目标是将标题功能与仅使用单一模型的文本图像检索相结合。原创 2024-07-12 17:57:35 · 1244 阅读 · 0 评论 -
【PromptCC】遥感图像变化字幕的解耦范式
摘要摘要动机方法1) Soft class-specific prompt:通过加权和图像级分类器的预测概率生成:2) Hard class-specific prompt:根据图像级分类器的分类结果,选择中的一个生成:最后,生成的多提示预训练后的LLM具有强大的特征表示能力,受GPT家族(如GPT-2、GPT-3和ChatGP)在语言生成任务上的巨大成功的启发,本文使用GPT-2作为标题生成器。原创 2024-06-26 15:53:30 · 1250 阅读 · 0 评论 -
【Change-Agent】实现交互式综合遥感变化的解释与分析
摘要摘要监测地球表面的变化对理解自然过程和人类的影响至关重要,因此需要采用精确和全面的解译方法。遥感卫星图像为监测这些变化提供了一个独特的视角,导致遥感图像变化解译(RSICI)成为一个重要的研究重点。目前的RSICI技术包括变化检测和变化字幕,每个在提供全面的解释方面都有局限性。为了解决这个问题,提出了一个交互式的Change-Agent,将一个多层此的变化解译MCI模型作为眼睛,LLM作为大脑,可以按照用户指令,实现全面的变化解译和深刻的分析,比如变化检测和变化字幕、变化对象计数、变化原因分析等。原创 2024-06-26 14:55:24 · 733 阅读 · 0 评论 -
【CARD】多变化字幕的上下文感知差异提炼(ACL 2024)
遵循之前的multi-change captioning方法,使用预先训练的ResNet-101提取一对图像的局部特征,特征维数为1024×14×14,将其投影到较低的512维度中,可训练的[CLS]特征的维数也被设置为512,模型的隐藏层大小和单词嵌入大小分别设置为512和300。此外,公共上下文特征引导模型挖掘局部不变的特征,并从这对特征中减去,提取局部不同的特征。前者帮助挖掘局部共性来推断局部差异特征,后者增强局部差异特征,确保所有的变化被提炼出来。的公共上下文特征,第r个after图像。原创 2024-06-22 15:56:28 · 856 阅读 · 0 评论 -
【SITS_CC】卫星图像时间序列的变化字幕(IEEE GRSL)
但是如图3(b),在SITS数据上不可行,在t0-t3图像没有变化,但在t3和t4的最后一幅图像出现了显著变化,很明显,这种融合策略生成的输出句子不能正确描述时间t3和t4之间某些建筑物的外观。提供了一个明确的方向,使用现有相邻图像之间的变化字幕来训练本文的模型,然后,通过特殊的时间依赖相关正则化,合并非相邻的时间信息,并在SITS。使用改进的ResNet-101架构作为从SITS中提取图像特征的骨干,通过调整池化层,可以保留大部分图像信息,同时适应不同的输入大小,从而确保后续处理的空间大小保持一致。原创 2024-06-04 22:01:06 · 999 阅读 · 0 评论 -
【Lite_Chag2cap】一种用于遥感图像变化字幕的轻型transformer
attention kernels的稀疏分解方法可视化。解码器包括几个transformer解码器层,每个层由一个掩蔽的多头注意力子层和一个前馈网络组成。尽管如此,由于注意力机制的高复杂性和参数量,特别是在transformer架构中,在计算资源有限的工业环境中的部署和实际应用仍然具有挑战性。在各种数据集上的实验结果表明,即使transformer编码器的参数和计算复杂度降低了90%以上,提出的网络仍然可以与其他最先进的RSICC方法相比获得具有竞争力的性能。原创 2024-05-24 19:33:01 · 596 阅读 · 1 评论 -
【RSCaMa】基于状态空间模型的遥感图像变化字幕
摘要摘要joint spatial-temporal建模Mamba (a state space model),并提出空间差异感知SSM(SD-SSM),克服了以往基于CNN和transformer方法在感受野和计算复杂度方面的局限性。为了实现有效的时间建模,考虑到Mamba的时间扫描特征与RSICC的时间性之间的潜在相关性,提出Mamba, GPT-style decoder, 和Transformer decoder。原创 2024-05-10 20:57:08 · 837 阅读 · 0 评论