原文:
LEARNING GENERALIZED ZERO-SHOT LEARNERS FOR OPEN-DOMAIN IMAGE GEOLOCALIZATION
StreetCLIP Preprint (arxiv.org)
摘要
- 本文的任务是Image geolocalization(图像地理定位)
predicting the geographic coordinated of origin for a given photo.
- 根据图像找地理坐标
StreetCLIP是在CLIP上进行训练,可以在zero-shot中达到一个很好的效果
1. Introduction
没什么特别需要讲的,主要是在介绍image geolocalization 的历史, 以及以往算法泛化能力不足
2. Related Work
2.1 Image Geolocalization
也称为visual place recognition(VPR)(视觉位置识别)
有很多分类:
-
Closed-Domain Image Geolocalization
这个是有一组固定的地位位置类别,所以这个问题会更偏向于多分类。 -
Open-Domain Image Geolocalization
这个的域更广,对地区没有进行限制。
StreetCLIP因为有着CLIP在zero-shot上的优势,所以可以很好的解决上述问题
2.2 Learning Under Distribution Shifts
- 与迁移学习有点类似,但是task不变,只是如何处理数据集的分布问题
2.3 Generalized Zero-Shot Learning
- 这部分可以看CLIP
3. preliminaries (前置条件)
这里介绍CLIP的工作方式,可以参考CLIP的,主要是基于相似矩阵来完成
4. 架构
因为CLIP是文本-图像对应,所以需要生成caption:
语句如下:
A Street View photo close to the town of {city} in the region of {region} in {country}.
- 用来后续的匹配
- 与CLIP类似
总体而言,就是CLIP换皮
5. 实验
- 说实话,对比的模型有点老了,不知道是不是因为这方面做的人比较少
- 总体而言,有所上升,但是感觉上升的空间还有很大,毕竟都用上CLIP大语言模型了,指标却只上升了一点点。