加油,继续看论文!
AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization
2407.08156 (arxiv.org)
摘要
In this study, we introduce a new problem raised by social media and photojournalism, named Image Address Localization (IAL), which aims to predict the readable textual address where an image was taken.
- 主要是如何根据图像,识别出位置
分为两个步骤:
1)预测地理坐标(geographical coordinate)
2)转换为地址信息(human-readable address)
1. Introduction
首先讲述应用场景,例如这方面可以用于商务、旅游等场景。
- 右侧是想到达到的效果
- 直接返回一个文字性地址表述,而不是GPS坐标
(然后为什么没有做成图像转coordinate,coordinate再转为地址,文章是说这样转换可能存在歧义,因此采用端到端的训练方式)
the conversion from GPS to readable addresses often presents ambiguities, and the Image-GPS-Address pipeline is not end-to-end.
2. Related Work
(这些如果不懂的话可以正好去看相关的论文)
- Image Geo-localization
- Transfer learning in Vision-Language
(transfer learning 迁移学习)
3. Problem Statement
主要存在两个问题:
1)
variable street lengths can result in coarsely localized addresses, particularly for highways that extend for kilometers, creating a pronounced long-tail distribution issue and diverse inner-address visual features that hinder precise localization during inference
- 街道长度不一,对于很长的街道内部会存在多样化的差异
2)
address ambiguity arises at street intersections, where images could be equally attributed to intersecting streets, thus lacking a clear and singular textual supervision signal.
- 交叉路口带来的问题
解决方案:
- 文字描述解决模糊性
- 分割法统一街道长度
4. 框架
- 所以他们认为IAL(Image Address Localization)主要就是做vision-text alignment(视觉-文本对齐)
框架:
- (6,几乎和CLIP一模一样)
4.2 Image-Text Alignment
因为直接的地址描述太单薄了,所以引入了格外的文字描述。
- 就是contrastive loss,这一块可以看UrbanCLIP那一部分
4.3 Image-Geography Matching
- (这一块应该是整体框架的最上面部分)
-
好家伙,就是坐标转矩阵
-
这里是CLIP中的similarity矩阵
最后,用这两个矩阵计算loss,(可以,确保了物理上靠近的点,特征也应当相似)
4.4 总loss计算
5. 数据集
- 这里主要讲他们新创建了三个数据集,但对于算法而言不重要,所以跳过
6. 实验
- 感觉也是没什么好比较的(拿优化过的去原CLIP比)
后面部分不是重点了,并且因为是在新的数据集上训练的,没有实际的对比价值,因此重点还是在前面的算法部分吧。