论文解读(4)-UrbanCross

UrbanCross: Enhancing Satellite Image-Text Retrieval with Cross-Domain Adaptation
[2404.14241] UrbanCross: Enhancing Satellite Image-Text Retrieval with Cross-Domain Adaptation (arxiv.org)
在之前的基础上引入了跨域的理念(也就是不同国家)

摘要

因为以前的卫星图像都是来自一个国家的,因此在不同国家之间不具有泛化能力,所以本文引入了一个包含了三个国家的新数据集。
然后就是:
LLM for textual refinment
SAM(一种分割模型) for visual augmentation

1. 介绍

首先介绍了目前对于卫星图像的基本处理方法,一个是content-based,直接用图像去生成标题,然后再对标题进行文字的对比,这个方法存在信息丢失。
而像CLIP那种方法就可以很好的避免这样的情况。

数据视角:利用卫星图中的地理标签对图像进行描述(不是用自己的文字描述)
模型角度:(这里没有特别理解,好像是说)

主要的贡献:
1)数据增强:就是上述的那一块
2)Cross-Domain Adaptation:
引入了个Adaptive Curriculum-based Source Sampler,用来根据他们之间的相似度来管理数据
原文:

Adaptive Curriculum-based Source Sampler, which initially samples source data based on similarity to the target domain

后续用image-text的操作进行微调

the Adversarial Cross-Domain Image-Text Fine-tuning Module for subsequent fine-tuning. This integrated strategy ensures a seamless transition from simpler to complex samples, applying weighting to align with domain-specific traits, thus effectively addressing the challenges posed by diverse data distributions across domains.

3)extensive experiment(广泛的实验):
就是讲最后的表现

2. Preliminaries

基础的介绍,这里内容没有什么新颖的

在这里插入图片描述

3. 方法

分三个步骤:
1)Image Caption and Segmentation:(图像描述和分割)
描述部分就是用的geo tag,然后以卫星图和geo tag 为提示词输入进LLM里,得到一段描述。
然后同事用图像分割来对卫星图进行处理,得到不同的比例,并与刚刚得到的文本进行相似度计算(similarity calculation)(这一块相似度计算非常有意思)

2)multi-modal pre-training:
首先image,segments和text这三样独立编码,最后通过成对对比损失(pairwise contrastice loss)融合到一起,相似的靠得近,反之,不同的距离较远。

3)adaptive adversarial domain adaptation:
在这里使用了adapztive curriculum-based sampler处理source和target domains
然后慢慢微调,从上面的相似的部分开始,逐渐调整完。

3.1 Image Captioning and Segmentation
  • 他们并没有选择直接把卫星图像塞给LLM,而是给了一定的描述

在这里插入图片描述

在这里插入图片描述

  • 这个是一个基于相似度的criterion
    这一块没有看明白,这个阶段不是没有任何的模型调整吗,为什么还要criterion
3.2 Multi-modal Pre-training

用的是CLIP Vision Transformer:
还是一样先分割成一个一个16*16的小块
然后
在这里插入图片描述

最后是经过layer normalization:
在这里插入图片描述

然后segent和text之间还是构建了一个对比损失:
这里没有给详细公式了,应该和原来那样差不多

3.3 Adaptive Adversarial Domain Adaptation

源域,目标域:
在这里插入图片描述

  • 这里的话应该可以理解为一个是图像数据集的域,另一个是需要计算的目标域,因为两者存在着差异,所以需要自适应处理。

所以再训练过程中,会先从简单的(相似度较高的开始训练)

这个公式用来衡量相似度:
在这里插入图片描述

  • E P j t E_{P^t_j} EPjt target
  • E P j s E_{P^s_j} EPjs source

在这里插入图片描述

  • 这里相当于是一个简化的过程,

最后进行一个image-text的对抗损失

在这里插入图片描述

  • 第一个是归一化吧
  • 然后归一化完了以后,上面的第二个公式给训练中的每一个source分配权重,感觉有点奇怪

Si是上面W2的一行的累加:
在这里插入图片描述

最后具有这样的一个性质:
The weighted triplet loss aims to bring positive pairs closer and separate negative pairs

在这里插入图片描述

4. 实验

4.1 没有地域自适应的情况下,的比较实验

在这里插入图片描述

选择的是一些 常见的benchmark,想什么recall,mean recall等等
R@1,R@5这些看这篇:
评测标准召回率Recall@K的理解与实例解析-CSDN博客

recall就是所有正例中被正确预测出来的比例,看这篇:
召回率(recall)和精度(precision)_recall precision-CSDN博客

4.2 消融实验

在这里插入图片描述

  • 11
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值