论文解读(13)-StreetCLIP

jiabooo

于 2024-08-01 15:22:51 发布

阅读量545

点赞数 21

分类专栏：论文解读文章标签：论文笔记论文阅读人工智能 CLIP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63767221/article/details/140848874

版权

论文解读专栏收录该内容

14 篇文章 0 订阅

订阅专栏

原文：
LEARNING GENERALIZED ZERO-SHOT LEARNERS FOR OPEN-DOMAIN IMAGE GEOLOCALIZATION
StreetCLIP Preprint (arxiv.org)

摘要

本文的任务是Image geolocalization（图像地理定位）

predicting the geographic coordinated of origin for a given photo.

根据图像找地理坐标

StreetCLIP是在CLIP上进行训练，可以在zero-shot中达到一个很好的效果

1. Introduction

在这里插入图片描述

没什么特别需要讲的，主要是在介绍image geolocalization 的历史, 以及以往算法泛化能力不足

2. Related Work

2.1 Image Geolocalization

也称为visual place recognition（VPR）（视觉位置识别）

有很多分类：

Closed-Domain Image Geolocalization
这个是有一组固定的地位位置类别，所以这个问题会更偏向于多分类。
Open-Domain Image Geolocalization
这个的域更广，对地区没有进行限制。

StreetCLIP因为有着CLIP在zero-shot上的优势，所以可以很好的解决上述问题

2.2 Learning Under Distribution Shifts

与迁移学习有点类似，但是task不变，只是如何处理数据集的分布问题

2.3 Generalized Zero-Shot Learning

这部分可以看CLIP

3. preliminaries （前置条件）

这里介绍CLIP的工作方式，可以参考CLIP的，主要是基于相似矩阵来完成

4. 架构

在这里插入图片描述

因为CLIP是文本-图像对应，所以需要生成caption：
语句如下：

A Street View photo close to the town of {city} in the region of {region} in {country}.

用来后续的匹配

在这里插入图片描述

与CLIP类似

总体而言，就是CLIP换皮

5. 实验

在这里插入图片描述

说实话，对比的模型有点老了，不知道是不是因为这方面做的人比较少
总体而言，有所上升，但是感觉上升的空间还有很大，毕竟都用上CLIP大语言模型了，指标却只上升了一点点。

关注

21
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文解读(13)-StreetCLIP

本文的任务是Image geolocalization（图像地理定位）根据图像找地理坐标StreetCLIP是在CLIP上进行训练，可以在zero-shot中达到一个很好的效果。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。