论文解读(11)-AddressCLIP

加油,继续看论文!
AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization
2407.08156 (arxiv.org)

摘要

In this study, we introduce a new problem raised by social media and photojournalism, named Image Address Localization (IAL), which aims to predict the readable textual address where an image was taken.

  • 主要是如何根据图像,识别出位置

分为两个步骤:
1)预测地理坐标(geographical coordinate)
2)转换为地址信息(human-readable address)

1. Introduction

首先讲述应用场景,例如这方面可以用于商务、旅游等场景。
在这里插入图片描述

  • 右侧是想到达到的效果
  • 直接返回一个文字性地址表述,而不是GPS坐标

(然后为什么没有做成图像转coordinate,coordinate再转为地址,文章是说这样转换可能存在歧义,因此采用端到端的训练方式)

the conversion from GPS to readable addresses often presents ambiguities, and the Image-GPS-Address pipeline is not end-to-end.

2. Related Work

(这些如果不懂的话可以正好去看相关的论文)

  • Image Geo-localization
  • Transfer learning in Vision-Language
    (transfer learning 迁移学习)

3. Problem Statement

主要存在两个问题:
1)

variable street lengths can result in coarsely localized addresses, particularly for highways that extend for kilometers, creating a pronounced long-tail distribution issue and diverse inner-address visual features that hinder precise localization during inference

  • 街道长度不一,对于很长的街道内部会存在多样化的差异

2)

address ambiguity arises at street intersections, where images could be equally attributed to intersecting streets, thus lacking a clear and singular textual supervision signal.

  • 交叉路口带来的问题

解决方案:

  • 文字描述解决模糊性
  • 分割法统一街道长度
    在这里插入图片描述

4. 框架

  • 所以他们认为IAL(Image Address Localization)主要就是做vision-text alignment(视觉-文本对齐)

框架
在这里插入图片描述

  • (6,几乎和CLIP一模一样)
4.2 Image-Text Alignment

因为直接的地址描述太单薄了,所以引入了格外的文字描述。

在这里插入图片描述

  • 就是contrastive loss,这一块可以看UrbanCLIP那一部分
4.3 Image-Geography Matching
  • (这一块应该是整体框架的最上面部分)
    在这里插入图片描述

在这里插入图片描述

  • 好家伙,就是坐标转矩阵
    在这里插入图片描述

  • 这里是CLIP中的similarity矩阵

最后,用这两个矩阵计算loss,(可以,确保了物理上靠近的点,特征也应当相似)
在这里插入图片描述

4.4 总loss计算

在这里插入图片描述

5. 数据集

  • 这里主要讲他们新创建了三个数据集,但对于算法而言不重要,所以跳过

6. 实验

在这里插入图片描述

  • 感觉也是没什么好比较的(拿优化过的去原CLIP比)

后面部分不是重点了,并且因为是在新的数据集上训练的,没有实际的对比价值,因此重点还是在前面的算法部分吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值