基于网格尺度的上海市人口分布空间聚集特征分析与冷热点识别

本文链接：https://blog.csdn.net/weixin_45812624/article/details/141423097

在上篇文章提到了同一研究空间在不同尺度下的观察可能会带来不同的见解和发现，这次我们把尺度缩放到网格，来看网格尺度下的空间自相关性、高/低聚类，这些，因为尺度缩放到网格尺度了，全国这个行政区范围就显的太大了，我们把行政区范围放到上海市，数据源用的是我这篇文章：ArcGIS Pro 实现人口分布栅格TIFF数据的网格提取与可视化_arcgis人口密度栅格处理-CSDN博客

看来当连续剧看是有好处的，至少体现了在思维上的连续性。

这里接上面这篇文章提到网格人数字段''rastervalu'' = -9999，这批数据是栅格数据匹配到的网格没匹配出结果的部分，原因是网格画的太细了，栅格数据精度不够，可以适当在画渔网的时候画大一些比如2000m*2000m的渔网之类的，或者行政区边界与它地图自带的边界不一致等原因，缺省值分布位置如图，但是不影响我们对主要特征分析；

这里用了自然间断分级法分了10类，为了让整体效果更有层次感，过度的自然一些；

我们对数据做了全局莫兰指数分析，p值: 0.000000，p值极小，小于常用的显著性水平（比如0.05），这表明观测到的空间自相关性具有统计学意义，不是由随机误差引起的，这里解释一下，当P值比较小的时候（可能<0.000001 之类），注意，这个数字并不是真的零，而指的是它是一个非常小的数字，在默认小数点后的几位才出现数字，你写论文的时候个0.001就可以了，没人专门为这个纠结挑错的，因为你使用一些软件例如SPSS，譬如某个统计检验的显著性概率P为0.0000032，此等情况下，SPSS默认只显示3位小数点的数字，那么它就是显示为0.000（三位小数后的数字被隐藏没有显示），z得分: 75.229127是一个非常高的z得分，它表示观测到的Moran's I值偏离随机期望的程度。z得分越大，说明空间自相关性越强，而且这里的z得分远超临界值，说明观测到的空间自相关性非常显著，全局Moran I值为0.826521，这说明数据在空间上呈现出高度的正相关性，结论为人口分布在空间上成自相关性且呈现高度正相关性。

我们对数据又做了高/低聚类分析，对了，因为做高/低聚类分析需要所有值都是正值，所以选择所有'rastervalu'' = -9999的部分改成0即可；p值: 0.000000，p值极小，小于常用的显著性水平，这表明观测到的高值或低值聚类具有统计学意义，不是由随机误差引起的，z得分: 83.877983是一个非常高的z得分，而且这里的z得分远超临界值，说明观测到的高值或低值聚类非常显著，General G观测值: 表示实际观测到的高值或低值聚类强度，值为0.000554，这说明数据在空间上存在显著的高值聚类，结论为人口分布在空间上存在有聚集且存在高值聚类。

因为我们在空间上确定数据在空间上存在显著的高值聚类，那我们通过热点分析进一步来定位具体的热点或冷点位置，另外这里有几个tips想解释清楚；

tips1：在高/低聚类分析中，如果z得分是正值，这确实意味着存在高值聚类，但是指的是偏向性，偏向于高值聚类还是低值聚类，但这并不一定意味着不存在低值聚类。实际上，可能存在同时存在的高值聚类和低值聚类。z得分只是指定了某一点与其相邻点之间的关联性，它只告诉你这一点与其他高值点的关联程度有多强烈，而不是排除其他类型的聚类；

tips2：输入要素类是否至少包含 30 个要素，如果少于 30 个要素，则结果不可靠。

tips3：GIZcore与GI_Bin在内容展示上的区别：GIZcore侧重于单个点的局部空间聚集情况，而GI_Bin则是在全局尺度上划分出不同强度的热点和冷点区域。

tips4：就是这个空间关系概念化的影响，这里对每个方法进行解释，选择哪种空间关系定义方式取决于你的研究问题、数据特性和分析目的，官方默认值是3；

反距离：这是一种距离衰减权重的方式，随着距离增加，影响会逐渐减弱。例如，离得越近的点影响越大，离得越远的影响越小。
反距离平方：这种方式与反距离类似，但影响衰减的速度更快，即距离加倍会导致影响减少四倍。
固定距离范围：在这个范围内，所有的点都会受到同等的影响，超过这个范围就没有影响了，如果是空的话，该默认距离将是确保每个要素至少具有一个近邻的最小距离。
无差别区域：在这种模型里，每个单元格被视为一个独立的实体，不会考虑与其他单元格的距离关系。
K最近邻：选择K个最近的邻居作为影响因素，最接近的K个点会对目标点产生影响。
仅邻接边：只有直接相连的边（比如网格中的相邻单元格）才会相互影响。
邻接边扭曲：这是一种加权的方法，其中连接两个单元格的边可以根据它们之间的特征（如地形坡度）进行调整。
通过文件获取空间权重：这种方式允许用户根据特定规则或外部文件定义空间权重，比如根据特定的边界或网络结构。

这里给出一些各种空间关系的推荐选择倾向：

反距离：当研究问题涉及空间梯度，如人口密度、温度、湿度等随距离变化的现象时，反距离是一种很好的选择。它能反映近距离的影响大于远距离的情况。
反距离平方：如果要强调更强烈的距离衰减，即远处的影响几乎忽略不计，反距离平方可能更为合适。例如，空气污染浓度随距离的平方递减。
固定距离范围：当研究问题涉及特定半径内的影响，如商业区的服务半径、住宅区的可达性等，固定距离范围可确保只考虑该范围内的要素。
无差别区域：如果研究问题涉及全局现象，且希望所有临近要素都有相同的影响，无差别区域可能适用。例如，全球气候模型可能不需要考虑距离的影响。
K最近邻：当研究问题涉及局部现象，且只需要考虑最接近的几个要素时，K最近邻可能有用。例如，疾病传播可能只受最近感染者的直接影响。
仅邻接边：如果数据是网格状的，且只关心共享边界的要素，仅邻接边可能适合。例如，城市街区的人口统计分析。
邻接边扭曲：如果数据包含复杂的拓扑关系，如河流网络或山脉，邻接边扭曲可能能较好地反映这些关系。例如，水体污染扩散可能受地形影响。

我们在全局尺度上的GI_Bin值看热点和冷点区域；

我们可以看到上海市中心及周边地区呈现红色，这表明这些地方是人口高度聚集的区域，具有很高的置信度。此外，还有一些较小的红色和橙色斑块分布在城市的其他地方，表示这些地方也是人口较密集的区域，我们对着上海市城市总体规划（2017-2035年）上海市域城乡体系规划图来看一看，包括主城区、嘉定新城、松江新城、惠南、唐镇，呈现人口分布的高高聚集，也就是''热点''聚集的网格，也验证了上海人口的发展模式：一个主城区，五大新城的发展格局；