今天我们给大家分享一份基于微博数据中的地理标记信息而得到的2018-2021年微博流动指数数据,该数据通过统计微博用户出发地与目的地的地理坐标,分别得到了每周/月/年在各省/市之间的微博用户流入与流出量,可用于研究人类迁徙活动的时空动态。
数据来源于Lingbo Liu(2022)等学者在期刊ISPRS International Journal of Geo-Information上的一篇名为《Assessing Reliability of Chinese Geotagged Social Media Data for Spatiotemporal Representation of Human Mobility》(中国带地理标记的社交媒体数据在表征人类时空流动性方面的可靠性评估)的论文。
截至2021年第三季度,新浪微博的月活跃用户约为5.73亿,比上年同期增加了6200万,是中国最大的社交媒体平台之一,拥有庞大的用户基础,用户可以在发微博时附带地理位置标记,经过数据处理与统计而获得的微博流动指数数据可以为我们进行中国人口流动轨迹的相关研究提供支持。
在此之前,百度迁徙数据是经常被使用的人口流动数据,该数据集由中国最大的搜索引擎公司百度提供,它基于百度地图用户的位置服务功能收集而来,以用户的定位记录为基础,将收集到的定位信息进行聚合处理,合并成更大的地理单元如城市、省份,这样就可以得到特定时间段(如每日、每周、每月等)城际、省际之间的人员流动数据。同时,基于用户的起点和终点,百度迁徙数据也构建了OD组合(Origin-Destination pairs),例如,如果一个用户从北京移动到上海,这将形成一个从北京(出发地)到上海(目的地)的OD组合。
相较于专业且数据体量巨大的百度迁徙数据,作者选取了由带地理位置标记的新浪微博数据组成的微博流动指数来表示不同时间段城际、省际之间的人员流动情况,微博流动指数的优势主要在于:1.数据连续性高:微博作为一个社交媒体平台,可以提供时空连续的数据流,有利于持续追踪人类活动和流动模式;2.数据覆盖度高:微博用户群体庞大,尤其在年轻一代中很受欢迎,微博发文信息可揭较好地揭示人类活动的多样性和复杂性;3.可反映特殊事件影响:相较于导航类有地理位置信息的软件外,微博可以捕捉到特殊事件(如COVID-19疫情)期间的人类流动性变化,为研究疫情传播等社会现象提供了有价值的数据;4.具备补充语义信息的潜力:除位置信息外,微博数据还可结合用户发文内容进行语义分析,增加数据的深度和丰富性。
虽然有诸多优势,微博流动指数数据的准确性还是需要经过验证的,作者通过时间与空间多维度的相关性分析将其与百度迁徙数据进行了对比研究,并以COVID-19疫情传播情况为案例比较了二者捕捉特殊时间人类流动的准确度。结果表明:微博流动指数能显示出于百度迁徙数据相似的人口流动模式,尤其在省级层面上的相关性较高,且月度尺度上的相关性高于周度尺度;在不同地区与不同时间段,二者相关性存在差异,皮尔逊相关性系数的结果分布在0.459至0.758之间,能较好的反映人口流动情况,结合语义信息的补充,微博流动指数也能较好的与特殊事件下的人口迁移动态相匹配。
数据内容方面,微博流动指数数据也使用与百度迁徙数据相同的OD组合模式来表达不同出发地、目的地之间的人口流动情况。大致的数据处理过程可分为为三步:1.收集某时间段内带有地理位置标签的新浪微博用户发文数据,并将地理位置信息原始坐标聚合为省市(各省市有其唯一代码);2.将同一用户在相同省市区域内的连续运动轨迹汇总成一条记录;3.基于用户在不同省市区域间的运动轨迹构建起OD网络,该网络分为带有方向属性(即有先从点A到点B,再从点B到点C的这种时间和方向上都有先后顺序的)与不带方向属性(即点与点之间的移动没有先后,只记录位置的变化),基于与百度迁徙数据的相关性研究,作者选取了带有方向属性的OD网络来获得各省市的流入、流出人口规模。
基于以上研究,作者将微博流动指数数据公开至哈佛大学开放数据存储库Harvard Dataverse网站上,也就是我们这次分享的数据,具体包括以下几个文件夹:
其中,“china_city_basemap”与“china_province_basemap”两个文件夹为中国城市与省份底图,属性表中可查询各省市的ID编号,其中,“GbCity”字段为市编号, “GbProv”字段为省编号,该编号在后续数据中可用来查询出发地与目的地。
“city”文件夹内为城际人口流动数据,“province”文件夹内为省际人口流动数据,每个文件夹内都包括:2018-2021年周/月/年度本地与从其他出发地流入的人口数量以及该地总流入人口数量、本地与从其他目的地流出的人口数量以及该地总流出人口数量。以2018年的数据为例,文件“2018_City_Monthly_Inflow_Counts.csv”为市级月度本地与其他各市异地人口流入数量,如下图所示:
而文件“2018_City_Monthly_Inflow_TotalScale.csv”为市级月度从异地流入的人口总数量,如下图所示:
其他“周/月/年度省、市级本地与其他各省、市异地人口流入数量”文件以及“周/月/年度省、市级从异地流入的人口总数量”文件与上面两图类似。
注意,由于微博数据在日度尺度上较为稀疏,所以研究者将时间尺度进一步聚合,仅提供周/月/年度数据。
以下为数据的详细介绍:
01 数据详情
数据来源:
数据来源自harvard dataverse平台上分享的数据,网址为:https://dataverse.harvard.edu/dataverse/weibomobilityindex(人口流动数据)https://doi.org/10.7910/DVN/MR5IJN/NSVBSU (中国各省底图数据)https://doi.org/10.7910/DVN/MR5IJN/Y2PYKY(中国各市底图数据)
大家如果使用该数据,注意按照该数据网站中的下载及引用方法进行下载操作与引用!
数据说明:
数据文件夹中的“introduction”文件夹中有该数据的说明文件,里面有微博流动指数与百度迁徙数据较为详细的对比,也有基于微博流动指数数据的人口迁移情况可视化表达等,大家可以自行查阅。还有一份表格版本的各省市ID编号文件。
数据格式:
各省市底图为shp文件,其余人口流动数据为表格文件,附带数据说明文件
时间范围:
2018-2021年(逐年/月/周)
空间范围:
分省市数据
02 数据获取
查看原文链接获悉数据获取方式~