论文解读(2)-UrbanCLIP

加油,继续看第二篇论文
UrbanCLIP: Learning Text-Enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web
UrbanCLIP: Learning Text-Enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web (arxiv.org)

(注意profiling是指分析或者是剖析)

摘要

这个文章的主要核心在于两个问题:

  • 文本模态能否增强城市区域分析?
  • 如果能的话,那就具体是在哪些方面呢?

i) Can text modality enhance urban region profiling?
ii) and if so, in what ways and which aspects?

UrbanCLIP是第一个将文本模态整合到城市图像的LLM增强框架

思路是将卫星图像转化为文字,然后再用image-text pairs这种一对一对的方法去训练模型。

在这里插入图片描述

  • 右侧的就是论文中所提出的方法

1. Introduction

Urban region profiling(城市区域分析):
通俗点来说,这就是总结城市区域的关键特征,帮助城市规划。

因为人工的从成本较高,所以模型选择是来自网络平台的数据,具有不断更新、易于访问的特点。

从上边的图就可以看到有两种主流的方案:
1)基于特定任务的监督训练

  • 需要大量的人工标注数据(多数用卫星图像进行训练)
    2)自监督训练(论文与网上所解释的无监督训练也有出入):
  • 这里更像是强调多模态的融合,就是不仅仅是从卫星图像中提取信息,而是从方方面面中提取信息。

2. 准备工作

2.1 公式

输入:urban region(地域)、satellite image(卫星图像)、location description(对地点的描述,这里可以手工写或者通过模型进行转换,文章里用的是LLM进行转换)、urban indicator(评估的指标,例如population、GDP等等)

2.2 相关工作
  • 这块就不介绍了,基本是对上述方案的重复介绍。

3. Methodology方法

在这里插入图片描述

分为两个部分:

  • 一个是图像转语义的训练
  • 另一个是后半部分对图像进行输出,预测指标

可选项:

  • 对比不同数据源之间的信息差距
  • 构建一个对抗式模型框架
3.1 文字生成与优化

在这里插入图片描述

1)使用了LLaMA-Adapter V2模型将图像转化为文字,提示词在左下方
2)优化:因为文字转述可能会出现错误或者描述模糊的情况

  • 先使用了text cleaning 用包里的工具进行清洗
  • 再进行语义检测, (人工或者使用BLIP进行打分式的过滤)(但是模型评估模型这部分出现了问题)

(我的想法:可以通过模型在从文字转成图像啊,如果最后转换成的图像一致那么表述应当准确)

3.2 训练-单模态
视觉模态的学习:

感觉用的就是transformer架构:
首先是将卫星图像 I g I_g Ig分解成不同的patch I p I_p Ip ,然后扔进网路里面计算权重, e p I = W P I P T + b p e_p^I=W_PI_P^T + b_p epI=WPIPT+bp (就是非常传统的权重计算公式)
然后E负责提供相应的位置:
e E I = e p I + E e_E^I = e_p^I + E eEI=epI+E

然后通过权重计算得出Q、K、V矩阵
在这里插入图片描述

文字表述的学习:

在这里插入图片描述

与上面唯一不同点在于这里用的是M-MSA:masked multi-head self attention
transformer这一块可以看这篇文章:
一文看懂Transformer(详解)_transformer公式-CSDN博客

3.3 多模态的学习

既然单模态的学习公式有了,那怎么才能让模型结合两者呢?

模型对齐任务
在这里插入图片描述

  • 这里是定义了池化层的公式

在这里插入图片描述

  • 这里不是很理解
  • image—>text 分母是整个图像对单个文字输出
  • text----->image 是拿整个文字的数字去对图片的每一个小块比较
模态交互任务

在这里插入图片描述

3.4 最后是指标的预测

在这里插入图片描述

  • 总的loss由上述的两个loss组成

预测
用MLP(多层感知机)完成
所以可以理解为上述的所有操作都是对图像提供了一个加强理解,所有的loss计算都不涉及最后的指标,而最后将这个加强过滤后的结果扔进MLP里。
在这里插入图片描述

3.5 Discussion
  • 支持多模态的扩展: 未来可以把POI加上
  • 后期可以加入引导下游任务的提示,例如明确想知道碳排放的时候,就可以引入引导词:
The carbon emission is [MASK]

4. 实验

1) 数据集采用的是百度API里的对北京、上海、广州、深圳的数据集
2)使用的模型的评价指标
R 2 R^2 R2 R M S E RMSE RMSE M A E MAE MAE
R 2 R^2 R2是越高越好,其他两个是越低越好
可以看这篇统计学 决定系数(Coefficient of Determination) 和 相关系数 (Correlation of Coefficient )-CSDN博客

在这里插入图片描述

RQ2就是消融实验:检测每一个部件的作用

后续是成果展示,可以直接看原文。

  • 9
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值