论文解读(1)-城市多模态综述

jiabooo

于 2024-07-16 20:49:51 发布

阅读量575

点赞数 22

文章标签：论文笔记论文阅读智慧城市

本文链接：https://blog.csdn.net/weixin_63767221/article/details/140476339

版权

Deep Learning for Cross-Domain Data Fusion in Urban Computing: Taxonomy, Advances, and Outlook.

yoshall/Awesome-Multimodal-Urban-Computing: A professional list on Multi-modal Data Fusion Models and Key Datasets for Urban Computing. (github.com)

（本文只是对于论文的一个梳理，并且给出了自己对于这篇论文的较为通俗的理解，所以与原文的表述上会有不同，比较适合刚接触城市多模态的学习）

在这里插入图片描述

所谓多模态就是有多种信息获取的渠道从而带来不同模态的信息，因此可以从不同信息之间提取联系，从而达到更好的效果。

在这里插入图片描述

总共可以分为三个部分：

Application引用
Fusion融合
Data数据

好吧，这个github本身并没讲的很深入，还是去看看下面的实际论文吧。

1. 整体介绍

Cross-Domain Data Fusion：
城市计算需要整合来自方方面面的数据来源和不同模态下的数据，因此需要有跨域的操作。

Urban computing necessitates the integration of extensive and diverse datasets sourced from various sources and modalities [391, 390, 67], also referred to as Cross-Domain Data Fusion, which arises from the recognition that relying solely on a singular data source or modality may prove inadequate for the holistic implementation of urban tasks.

例如，气象预测就需要整合气象数据与地理信息，城市规划也需要考虑人口密度、经济等等。

2. 数据

数据来源可以分为五方面：

geographical data （地理数据）
traffic data （交通数据）
social media data (社交媒体数据)：图片、视频等等
demographic data（人口统计数据）
environment data （环境数据）

2.1 地理数据（Geographical Data）

地理对于空间建模有很大的帮助

在这里插入图片描述

可以大体分为三类：

兴趣点：（Points of Interest (POI) data）
这个很有意思，就是地理上有一个很重要的概念“兴趣点”，这里可以是当前的地标建筑或者是具有重要意义的位置，所以兴趣点信息中通常隐含了一些其他信息，不仅仅是纯粹地理位置，还包括开放时间、用户评价等等信息。因此可以说是对地理环境的一个整体评价。
卫星图 ：（Satellite image data）
卫星图和街景图，这两个就比较常见了。卫星图的优点在于：全球覆盖性、实时性、并且也能提供一些具体的细节。总体而言，卫星图比较容易获取。
街景图：（street-view image data）
可以进一步补全地理环境的细节，很容易获取。

2.2 交通数据（Traffic Data）

与地理数据不同的是，交通数据与人类活动有关，与社会经济元素有紧密的联系。
因此可以分为四类：

trajectory data：轨迹数据
traffic flow data：交通流量数据
road network data：路网数据
miscellaneous data：杂项数据

在这里插入图片描述

trajectory data——轨迹数据：

由多个P点组成，每一个点包含x，y和t

traffic flow data：交通流量数据：

用于理解城市中车辆和行人的动态信息

感觉和轨迹有点类似，但是不同点在于轨迹着重于单个实体的移动，而交通流量注重于某一个时刻里不同地区的流量（一个微观，一个宏观）

road network data：路网数据：

也就是具体的道路的数据
例如，导航，送餐等服务都是基于这些数据

miscellaneous data：杂项数据：

包括交通安全、交通物流等等

2.3 社交媒体数据（Social Media Data）

很多社交软件都允许用户上传geo-textual data（地理文本数据），
这个可以被用于一个可以表达用户社交的一个模态。

geo-tagged photos（带有地理标记的照片):

引入了空间层面上的信息，这样可以丰富对于内容的理解
应用例如个性化旅游

geo-tagged mobile video data（带有地理标记的手机视频）

2.4 人口统计信息（Demographic Data）

这个可以提供有关特定人群的相关信息，比如population data（人口数据） 、Crime data（犯罪信息）、和land use data（土地利用信息）

关于土地利用信息，我这里不是很熟。论文是这样说的它包括物业数据、住宅数据、业务数据等等。主要用于城市规划，如何更好地利用每一块土地，或者评估土地的价值。

2.5 环境信息（Environment Data）

环境信息，特别指气象数据（meteorological data ）

通常包括降雨、温度、湿度、露点、风速等
（露点（Dew point）是指在固定气压之下，空气中所含的气态水达到饱和而凝结成液态水所需要降至的温度）
可以分析时空相关性、帮助精准预报天气等等

绿化数据：

用于评估生态，生物多样性等等

空气质量数据:

用于识别污染源、有助于制定计划

3. Methodology Perspective

从融合方法角度去考虑

一共有四种：

Feature-Based Data Fusion（基于特征的数据融合）:
较为简单的融合方法，就是从不同手段中提取特征，然后进行融合
Alignment-based Data Fusion(基于对齐的数据融合)：
这里讲究数据的对齐，也就是一致性，例如一个图片和一句文字，这两个信息不再是相互独立的，而是需要保证图片所示和文字表示是一致的。
Contrast-based Data Fusion （基于对比的数据融合）：
例如，对比不同区域，不同时段的交通特征，用于增加模型的辨别能力
Generation-based Data Fusion（基于生成的数据融合）
例如，模拟场景，评估城市规划结果

3.1 Feature-Based Data Fusion

通过加法或者乘法的方式，让每一个数据集都有一定的贡献
拼接方法：
基于图的数据融合：

在这里插入图片描述

但是不是每个图的节点之间中都存在直接联系，所以引出了
heterogeneous graph-based data fusion：
（基于图的异构数据融合）
在这里插入图片描述

3.2 Alignment-based Data Fusion

在这里插入图片描述

基于注意力的机制：

这段就是上述图的具体的一个应用

Encoder-based Alignment：
这样多个模态将会使用一个共享的编码器结构，而不是每一个模态一个独立的编码器。

3.3 Contrast-based Data Fusion

Contrast-based Data Fusion
包括instance contrast、batch contrast、 temporal contrast等等
主要用于增强模型的可辨别性
在这里插入图片描述

这个后续会详细介绍

3.4 基于生成的数据融合

通过生成与输入数据相关的数据来帮助识别多模态之间复杂对应关系

By generating new content that correlates with input data, generative models are driven to discern intricate correspondences between multimodal information, thereby facilitating efficient information aggregation.

主要可以分为四类:

autoregressive (自回归)
（例如基于往年的时空信息进行数据预测）
mask modeling (掩膜)
（例如，先掩盖一部分，然后通过其他信息去还原掩膜部分）
diffusion-based（基于扩散）
（可以理解为加噪声去噪声，从而进行学习的过程）
LLM-enhanced model （LLM增强）
使用大语言模型进行数据融合

4. Application Perspective （引用层面）

4.1 Urban Planning

城市的规划需要多方面的考虑，因此很适合多模态的使用

这里列举了一些需要考虑到的因素：
在这里插入图片描述

规划不仅仅是建设层面的，还包括对社会人流的事件预测等等。

而规划方面也分的很细，例如道路的规划，区域的规划（对应之前的Point of Interest），土地利用建设等等

4.2 交通

当然，交通也需要多模态的支持，主要应用有道路安全、流量控制、效率的提升等作用。

无论是模拟还是预测，这都有助于交通的规划策略

不仅是对于城市规划层面的交通管理，对于个人而言，导航也是一个基于多模态的交通产物。
在这里插入图片描述

4.3 金融

主要用于实时城市经济的测量和未来经济发展预测

4.4 公共安全保障

这里其实上，个人觉得和上述的几个层面都有点联系，比如交通安全和环境安全等方面。但是这里更着重于预测事故的发生或者环境的变化。

4.5 社交

例如推荐系统，这个也需要多模态的介入，通过时空信息等信息去整合人类的行动轨迹特征。

4.6 环境

主要是环境的多角度检测，未来预测

4.7 能源

从城市规划或者交通层面去减少能源的消耗。

5. 未来挑战

在这里插入图片描述

LLM：目前LLM主要都是基于文本，这对于信息传达来说不够准确，也无法处理复杂的关系情况
Agent-based Simulation：（基于主体的模型），用来模拟一个个体（或单个组织）的行为，评估对于整个系统的影响。
Multi-source Data Privacy：隐私性也是一个难题，很难保证模型不会记住某几个个体的特殊特征，从而侵犯个人隐私。
Open Benchmark：很难制定一个统一的评估标准
Downstream Task Diversity：下游任务的多样性，现在多模块还是聚焦于城市规划和交通，但是生活中还有其他的挑战可以尝试去运用这些技术
Computation Efficiency：计算效率问题，虽然理论很美化，但是现实中能不能实际部署也是一个问题。

jiabooo

关注

22
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文解读(1)-城市多模态综述

**Deep Learning for Cross-Domain Data Fusion in Urban Computing: Taxonomy, Advances, and Outlook.**
复制链接

扫一扫