论文解读(2)-UrbanCLIP

jiabooo

于 2024-07-19 13:50:04 发布

阅读量681

点赞数 9

文章标签：论文笔记论文阅读智慧城市

本文链接：https://blog.csdn.net/weixin_63767221/article/details/140547183

版权

加油，继续看第二篇论文
UrbanCLIP: Learning Text-Enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web
UrbanCLIP: Learning Text-Enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web (arxiv.org)

（注意profiling是指分析或者是剖析）

摘要

这个文章的主要核心在于两个问题：

文本模态能否增强城市区域分析？
如果能的话，那就具体是在哪些方面呢?

i) Can text modality enhance urban region profiling?
ii) and if so, in what ways and which aspects?

UrbanCLIP是第一个将文本模态整合到城市图像的LLM增强框架

思路是将卫星图像转化为文字，然后再用image-text pairs这种一对一对的方法去训练模型。

在这里插入图片描述

右侧的就是论文中所提出的方法

1. Introduction

Urban region profiling（城市区域分析）：
通俗点来说，这就是总结城市区域的关键特征，帮助城市规划。

因为人工的从成本较高，所以模型选择是来自网络平台的数据，具有不断更新、易于访问的特点。

从上边的图就可以看到有两种主流的方案：
1）基于特定任务的监督训练：

需要大量的人工标注数据（多数用卫星图像进行训练）
2）自监督训练（论文与网上所解释的无监督训练也有出入）：
这里更像是强调多模态的融合，就是不仅仅是从卫星图像中提取信息，而是从方方面面中提取信息。

2. 准备工作

2.1 公式

输入：urban region（地域）、satellite image（卫星图像）、location description（对地点的描述，这里可以手工写或者通过模型进行转换，文章里用的是LLM进行转换）、urban indicator（评估的指标，例如population、GDP等等）

2.2 相关工作

这块就不介绍了，基本是对上述方案的重复介绍。

3. Methodology方法

在这里插入图片描述

分为两个部分：

一个是图像转语义的训练
另一个是后半部分对图像进行输出，预测指标

可选项：

对比不同数据源之间的信息差距
构建一个对抗式模型框架

3.1 文字生成与优化

在这里插入图片描述

1）使用了LLaMA-Adapter V2模型将图像转化为文字，提示词在左下方
2）优化：因为文字转述可能会出现错误或者描述模糊的情况

先使用了text cleaning 用包里的工具进行清洗
再进行语义检测，（人工或者使用BLIP进行打分式的过滤）（但是模型评估模型这部分出现了问题）

（我的想法：可以通过模型在从文字转成图像啊，如果最后转换成的图像一致那么表述应当准确）

3.2 训练-单模态

视觉模态的学习：

感觉用的就是transformer架构：
首先是将卫星图像 $I_g$ 分解成不同的patch $I_p$ ，然后扔进网路里面计算权重， $e_p^I=W_PI_P^T + b_p$ (就是非常传统的权重计算公式)
然后E负责提供相应的位置：
$e_E^I = e_p^I + E$

然后通过权重计算得出Q、K、V矩阵
在这里插入图片描述

文字表述的学习：

在这里插入图片描述

与上面唯一不同点在于这里用的是M-MSA：masked multi-head self attention
transformer这一块可以看这篇文章：
一文看懂Transformer（详解）_transformer公式-CSDN博客

3.3 多模态的学习

既然单模态的学习公式有了，那怎么才能让模型结合两者呢？

模型对齐任务
在这里插入图片描述

这里是定义了池化层的公式

在这里插入图片描述

这里不是很理解
image—>text 分母是整个图像对单个文字输出
text----->image 是拿整个文字的数字去对图片的每一个小块比较

模态交互任务

在这里插入图片描述

3.4 最后是指标的预测

在这里插入图片描述

总的loss由上述的两个loss组成

预测：
用MLP（多层感知机）完成
所以可以理解为上述的所有操作都是对图像提供了一个加强理解，所有的loss计算都不涉及最后的指标，而最后将这个加强过滤后的结果扔进MLP里。
在这里插入图片描述

3.5 Discussion

支持多模态的扩展：未来可以把POI加上
后期可以加入引导下游任务的提示，例如明确想知道碳排放的时候，就可以引入引导词：

The carbon emission is [MASK]

4. 实验

1）数据集采用的是百度API里的对北京、上海、广州、深圳的数据集
2）使用的模型的评价指标
$R^2$ 、 $RMSE$ 、 $M A E$
$R^2$ 是越高越好，其他两个是越低越好
可以看这篇统计学决定系数(Coefficient of Determination) 和相关系数 (Correlation of Coefficient )-CSDN博客

在这里插入图片描述

RQ2就是消融实验：检测每一个部件的作用

后续是成果展示，可以直接看原文。

jiabooo

关注

9
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文解读(2)-UrbanCLIP

文本模态能否增强城市区域分析？如果能的话，那就具体是在哪些方面呢?UrbanCLIP是第一个将文本模态整合到城市图像的LLM增强框架思路是将卫星图像转化为文字，然后再用image-text pairs这种一对一对的方法去训练模型。右侧的就是论文中所提出的方法总的loss由上述的两个loss组成预测用MLP（多层感知机）完成所以可以理解为上述的所有操作都是对图像提供了一个加强理解，所有的loss计算都不涉及最后的指标，而最后将这个加强过滤后的结果扔进MLP里。
复制链接

扫一扫