写在开头:两篇博客对时空大数据挖掘的几大重要研究方向方法做了比较细致的整理。内容主要来自一次直播。小曦觉得这些内容对刚刚接触这个领域的同学们有比较好的引导作用。希望各位各位也能找到自己的兴趣点,找到在STDW领域研究的那份乐趣,收获属于自己的Top papers!
由于个人想试着记录自己的学习生活,后续会努力发布一些讲解视频在同名B站up主页。
领域内学习资料待整理完毕后,小曦也将无偿分享给各位需要的朋友们。
急需学习资料的伙伴们也可以通过vx(见个人主页)添加询问,如有相关资料可分享给大家。
目录
承接工作1,我们继续来看ST轨迹研究的相关工作。http://t.csdnimg.cn/kcWaG
工作1中最后提到的方法会比原来的RNN慢10倍,由于需要推测两点间的位置关系。
进一步,提出Transformer的模型:TrajFormer
将轨迹输入到CPE(连续化的编码),对两个点的连续性进行建模;文章中,采用squeeze function对建模进行加速。
对相邻距离范围中的点,从时间和空间间隔的角度对其相关性进行分析
在以上两个工作中,主要强调的是对irregularity的建模分析。
二、时空格网
如何制作网格:
将城市化为不同的格子,对某一数据(如人流量的轨迹),按照不同时间段里每个格子内的数值大小投影至其中。
直观效果:这样的图在时间轴上展开就会得到类似视频的数据。
**那么,在现实环境中,我们会遇到哪些问题呢?
细粒度的数据在很难大量获取,但通过遥感得到的影像数据(粗粒度)可以通过一定方法恢复成细粒度数据。
放大后的图像粒度之间在时空上是有关联的。
首先,考虑保持粒度之间的层次性
1.直接训练dl模型in和out前后data的损失-->不能很好保证前后时空数据前后的相关性。
改进:先将预测目标转化为一个分布矩阵,得到对应大小的区域分布;对该分布做normalize;接着,用最近邻方法对每一个格子的数据做upsampling。这样做可确保最后的out结果与原来的值大小相等。
Moreover,分布矩阵会受到外部因素的影响:
结合空间分层和额外依赖因素,设计放大器:
首先,将栅格数据丢入进行特征提取
接着,考虑外部因素,结合进去:与原来的特征融合
最后,采用distributional upsampling的方法:
实验对比:
实验发现:
1.distribution matrix的使用极大提升了training efficiency 和 performance。
2.外部因素如何影响时空数据挖掘——外部数据类似某种先验知识,有助于提升模型对整体特征的把控。当我们没有足够的数据时,就非常需要这种先验知识。
三、时空预测问题
挑战:
1.复杂的时空关联
2.额外的因素影响
3.长程的空间关联(在地理空间理论中,距离越远,关联性越弱,但对应大尺度的时空关联情况而言,就可能存在较远距离的时空相关性,因为其影响因素的场强足够。又比如,在一个城市中,开车半小时就可以有一个较远距离的移动,跨越地区。)
时空关系网:
1.对时间维度的临近行、季节性和趋势性进行建模:
2.额外因素的建模:
3.学习时间和空间上的依赖:
其中,backbone抓取局部特征,GloNet模块建模学习全局的特征,并训练第一个loss;第二个loss来自预测模块
如何对两个不同分布情况的城市进行统一建模?
经搜索发现:北京的网络搜索结果非常deep,由于城市归模大、人口多、交通设施系统复杂,长程相关性大;而贵阳的网络搜索结果非wide,由于其地形影响交通网络建设,虽不如北京密集但多交错,人口较少且集中。
Conclusion on ST Grid Data
四、时空图
Problem1: Forecasting ST Graph over Regions
从栅格数据到不规则的数据:
其中一种方法是根据路网进行划分,得到相对均匀的数据分布情况
1)将轨迹投影到城市图中,可以进一步得到每个区域的人流分布情况;2)时间展开,可以描述区域之间的关系。具体的,如何在区域间进行时空网络的建模,见下图MixRNN的思路:其中邻近点关系与受到同一事件影响的Hypergraph并行的建模思路是值得学习的。
Problem2: Forecasting ST Graph over Road Networks
如何通过对历史点的预测和geo-attributes实现未来预测?
注意:与空间位置特征和空间内在关联有着紧密的联系。
得出结论(如上图实验曲线):
1.具有相似地理属性的空间位置,一般具有相似的时间特征。
2.具有相似的空间关联性(如图所示,早晚的人流量增减情况R1,R2两地相似)。
区别传统方法(上半部分)通过分布学习边和点的characteristics进而generate时空相关性特征:
先学习每个点和边的meta knowledge!去影响ST correlation
具体方法:三层架构
创新点:Mate GAT & RNN--> 对每个节点自身多样的时间属性进行建模
1. 如何抽取每个节点的mate-knowledge: 1)Edge : 空间距离+路网距离;2)node:经纬度+POI密度:
E/NMK同时会进入MK学习器去生成GAT和RNN的weight
整体上,第一层是最普通的RNN:
第二层(主要贡献):MK GAT:
常规:拼接Embedding,将现有的点数据进行FCN Attention。
对比之下,应当考虑:
MK 中点与边的knowledge) --> 拥有相似MK的点和边会得到相似的Wij,即Spatial correlation!--> 因此,通过MK(新)网络,可以得到更确切的Spatial correlation。
整体上:
第三层:M-RNN
不同于常规RNN,元学习应用每个点自身属性的差异性,个性化学习每个点的特征。即:每个点都有自身的权重,是通过Mate learning网络学习得到。
五、时空序列
节点间的特征:1)无明确的图结构;2)其间空间相关性是非线性的
Challenge:
相关工作:GeoMAN
创新点分析:
1.Local 与 Global之间的影响
在考虑PM2.5时,动态考虑其他因素对其的影响(local);
考虑多点对当前分析点的影响(global)对上述两个影响的可视化:
可以直观看到S0内部因素和其余站点随时间而产生的影响。
解决方法:
切分邻域为24个区域,对每个区域进行分析,若其中有点,则进行average pooling,得到对应值域的区域色,若无则虚化,在之后不考虑。-->之后只需要对区域进行attention即可。 (很妙的想法!如果说科研能带给你乐趣,也许这算一个吧。)
总结:
最后,感谢大家能够阅读这篇博客,希望你们都有所收获。
同时,很抱歉相隔很久才更新工作2。由于个人希望能以更好的方式给大家分享干货内容,提升内容质量。之后会利用课余时间学习视频制作,努力录制视频在b站同名up主页更新讲解。