论文解读(13)-StreetCLIP

原文:
LEARNING GENERALIZED ZERO-SHOT LEARNERS FOR OPEN-DOMAIN IMAGE GEOLOCALIZATION
StreetCLIP Preprint (arxiv.org)

摘要

  • 本文的任务是Image geolocalization(图像地理定位)

predicting the geographic coordinated of origin for a given photo.

  • 根据图像找地理坐标

StreetCLIP是在CLIP上进行训练,可以在zero-shot中达到一个很好的效果

1. Introduction

在这里插入图片描述

没什么特别需要讲的,主要是在介绍image geolocalization 的历史, 以及以往算法泛化能力不足

2. Related Work

2.1 Image Geolocalization

也称为visual place recognition(VPR)(视觉位置识别)

有很多分类:

  • Closed-Domain Image Geolocalization
    这个是有一组固定的地位位置类别,所以这个问题会更偏向于多分类。

  • Open-Domain Image Geolocalization
    这个的域更广,对地区没有进行限制。

StreetCLIP因为有着CLIP在zero-shot上的优势,所以可以很好的解决上述问题

2.2 Learning Under Distribution Shifts
  • 与迁移学习有点类似,但是task不变,只是如何处理数据集的分布问题
2.3 Generalized Zero-Shot Learning
  • 这部分可以看CLIP

3. preliminaries (前置条件)

这里介绍CLIP的工作方式,可以参考CLIP的,主要是基于相似矩阵来完成

4. 架构

在这里插入图片描述

因为CLIP是文本-图像对应,所以需要生成caption:
语句如下:

A Street View photo close to the town of {city} in the region of {region} in {country}.

  • 用来后续的匹配

在这里插入图片描述

  • 与CLIP类似

总体而言,就是CLIP换皮

5. 实验

在这里插入图片描述

  • 说实话,对比的模型有点老了,不知道是不是因为这方面做的人比较少
  • 总体而言,有所上升,但是感觉上升的空间还有很大,毕竟都用上CLIP大语言模型了,指标却只上升了一点点。
  • 21
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值