加油,继续看第二篇论文
UrbanCLIP: Learning Text-Enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web
UrbanCLIP: Learning Text-Enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web (arxiv.org)
(注意profiling是指分析或者是剖析)
摘要
这个文章的主要核心在于两个问题:
- 文本模态能否增强城市区域分析?
- 如果能的话,那就具体是在哪些方面呢?
i) Can text modality enhance urban region profiling?
ii) and if so, in what ways and which aspects?
UrbanCLIP是第一个将文本模态整合到城市图像的LLM增强框架
思路是将卫星图像转化为文字,然后再用image-text pairs这种一对一对的方法去训练模型。
- 右侧的就是论文中所提出的方法
1. Introduction
Urban region profiling(城市区域分析):
通俗点来说,这就是总结城市区域的关键特征,帮助城市规划。
因为人工的从成本较高,所以模型选择是来自网络平台的数据,具有不断更新、易于访问的特点。
从上边的图就可以看到有两种主流的方案:
1)基于特定任务的监督训练:
- 需要大量的人工标注数据(多数用卫星图像进行训练)
2)自监督训练(论文与网上所解释的无监督训练也有出入): - 这里更像是强调多模态的融合,就是不仅仅是从卫星图像中提取信息,而是从方方面面中提取信息。
2. 准备工作
2.1 公式
输入:urban region(地域)、satellite image(卫星图像)、location description(对地点的描述,这里可以手工写或者通过模型进行转换,文章里用的是LLM进行转换)、urban indicator(评估的指标,例如population、GDP等等)
2.2 相关工作
- 这块就不介绍了,基本是对上述方案的重复介绍。
3. Methodology方法
分为两个部分:
- 一个是图像转语义的训练
- 另一个是后半部分对图像进行输出,预测指标
可选项:
- 对比不同数据源之间的信息差距
- 构建一个对抗式模型框架
3.1 文字生成与优化
1)使用了LLaMA-Adapter V2模型将图像转化为文字,提示词在左下方
2)优化:因为文字转述可能会出现错误或者描述模糊的情况
- 先使用了text cleaning 用包里的工具进行清洗
- 再进行语义检测, (人工或者使用BLIP进行打分式的过滤)(但是模型评估模型这部分出现了问题)
(我的想法:可以通过模型在从文字转成图像啊,如果最后转换成的图像一致那么表述应当准确)
3.2 训练-单模态
视觉模态的学习:
感觉用的就是transformer架构:
首先是将卫星图像
I
g
I_g
Ig分解成不同的patch
I
p
I_p
Ip ,然后扔进网路里面计算权重,
e
p
I
=
W
P
I
P
T
+
b
p
e_p^I=W_PI_P^T + b_p
epI=WPIPT+bp (就是非常传统的权重计算公式)
然后E负责提供相应的位置:
e
E
I
=
e
p
I
+
E
e_E^I = e_p^I + E
eEI=epI+E
然后通过权重计算得出Q、K、V矩阵
文字表述的学习:
与上面唯一不同点在于这里用的是M-MSA:masked multi-head self attention
transformer这一块可以看这篇文章:
一文看懂Transformer(详解)_transformer公式-CSDN博客
3.3 多模态的学习
既然单模态的学习公式有了,那怎么才能让模型结合两者呢?
模型对齐任务
- 这里是定义了池化层的公式
- 这里不是很理解
- image—>text 分母是整个图像对单个文字输出
- text----->image 是拿整个文字的数字去对图片的每一个小块比较
模态交互任务
3.4 最后是指标的预测
- 总的loss由上述的两个loss组成
预测:
用MLP(多层感知机)完成
所以可以理解为上述的所有操作都是对图像提供了一个加强理解,所有的loss计算都不涉及最后的指标,而最后将这个加强过滤后的结果扔进MLP里。
3.5 Discussion
- 支持多模态的扩展: 未来可以把POI加上
- 后期可以加入引导下游任务的提示,例如明确想知道碳排放的时候,就可以引入引导词:
The carbon emission is [MASK]
4. 实验
1) 数据集采用的是百度API里的对北京、上海、广州、深圳的数据集
2)使用的模型的评价指标
R
2
R^2
R2 、
R
M
S
E
RMSE
RMSE 、
M
A
E
MAE
MAE
R
2
R^2
R2是越高越好,其他两个是越低越好
可以看这篇统计学 决定系数(Coefficient of Determination) 和 相关系数 (Correlation of Coefficient )-CSDN博客
RQ2就是消融实验:检测每一个部件的作用
后续是成果展示,可以直接看原文。