【地理人工智能交叉】通过整合兴趣点和Word2Vec模型感知城市土地利用的空间分布

今天也是菜醒的一天

已于 2022-04-22 16:12:07 修改

阅读量4.4k

点赞数 10

分类专栏：论文分享 # 2Vec 文章标签： word2vec 人工智能

于 2022-04-21 16:51:34 首次发布

本文链接：https://blog.csdn.net/zn0412/article/details/124196201

版权

论文分享同时被 2 个专栏收录

13 篇文章

订阅专栏

2Vec

2 篇文章

订阅专栏

【IJGIS】Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model

原文链接：http://dx.doi.org/10.1080/13658816.2016.1244608
核心思想：
本文将NLP思想应用在了地理场景汇总，将区域以及其中的POI信息看作文章和单词，并使用word2vec中CBOW模型生成POI和TAZ的特征向量，最终使用K均值和随机森林确认土地使用类型。
下图是在阅读论文过程中的学习笔记
在这里插入图片描述

以下是原文的翻译，如果有翻译不对的地方请及时与我沟通。

摘要

城市土地利用信息在各种城市规划和环境监测过程中发挥着重要作用。在过去的几十年里，随着遥感（RS）、地理信息系统（GIS）和地理大数据技术的快速发展，人们开发了许多方法来确定城市土地利用的精细程度。兴趣点（POI）已被广泛用于提取与城市土地利用类型和功能区有关的信息。然而，由于缺乏可靠的模型，要量化兴趣点的空间分布和区域土地利用类型之间的关系是非常困难的。以前的方法可能忽略了可以从POI中提取的丰富空间特征。在这项研究中，我们建立了一个创新的框架，通过整合百度POI和Word2Vec模型，在交通分析区（TAZs）的范围内检测城市土地利用的分布。这个框架是在2013年使用谷歌的一个深度学习语言的开源模型中实现的。首先，考虑到TAZs和内部POI的空间分布，使用贪心算法将珠江三角洲（PRD）的数据转变成TAZ-POI语料库。然后，利用Word2Vec模型提取了POI和TAZ的高概念特征向量。最后，为了验证POI/TAZ向量的可靠性，我们实施了一个基于K-Means的聚类模型来分析POI/TAZ向量和部署TAZ向量之间的相关性，用随机森林算法（RFA）模型识别城市土地使用类型。与一些最先进的概率主题模型（PTMs）相比，所提出的方法可以很好地获得最高的准确性（OA=0.8728，kappa=0.8399）。此外，这些结果可用于帮助城市规划者监测城市土地的动态使用，并评估城市规划方案的影响。

1 引言

       土地利用和土地覆盖（LULC）是极其重要的地理空间特征（Ellis，2007年；Arsanjani等，2013年），在环境监测、城市规划和政府管理等许多领域发挥着重要作用（Williamson等，2010年；Yin等，2011年；Hayashi and Roy，2013年；La Rosa and Privitera，2013年；Liu等，2014年；Regan等，2015年）。近年来，快速的城市化和现代文明在中国产生了多样化和复杂的城市土地使用类型，如住宅区、教育设施和商业区，在不同的规模上。此外，城市或区域土地利用模式不仅由政府规定的城市布局决定，而且还受人们生活方式的影响，这些生活方式不能被定型，并随着城市的进一步发展而不断变化（Yuan等，2012）。因此，快速感知城市土地利用的空间结构，准确识别城市功能结构，对于制定有效的城市规划政策和法规具有重要意义。
       随着遥感技术和计算技术的快速发展，具有高空间分辨率（HSR）的RS图像已被广泛用于提取和分析LULC。面向对象的分类（OOC）是LULC分析中最流行的方法之一。有许多研究通过地面物体的物理特征，如光谱、形状和纹理特征，利用OOC从HSR图像中提取城市土地利用模式（Blaschke，2010；Dupuy等，2012；Hu and Wang，2013；Blaschke等，2014）。然而，如果不考虑地面物体之间的空间关系，OOC方法只能识别具有低层次语义特征的土地覆盖信息。为了缩小土地利用分类的 “语义差距”，Bratasanu（2011）首次提出了 "场景分类 "的概念，通过从光谱特征中构建虚拟词来应用于HSR RS图像（Bratasanu等人，2011）。通过建立虚拟词袋（BoVW）模型，多特征信息，如光谱、纹理和SIFT，可以融合在一起，从而提高LULC分类性能。最近的研究主要集中在如何整合BoVW和概率主题模型（PTMs）来识别具有高级语义信息的土地利用类型，如机场、住宅区和学校（Yang和Newsam 2010，Sun等人2012，Chen等人2013，Zhao等人2013，Tokarczyk等人2015，张和杜2015，Zhong等人2015，Wen等人2016）。然而，针对纯RS图像的方法只能反映出地面物体的自然属性。一个地区的土地利用类型往往与内在的社会经济活动有密切的关系，这一点很难从纯RS图像中检测出来。
       为了解决在城市应用中使用RS的上述问题，"社会传感 "和 "城市计算 "的概念已经被提出，以监测土地使用动态，并进一步实现全城计算，以更好地服务居民和城市（Zheng等人，2014，Liu等人，2015）。多源地理空间大数据，如POI、移动电话信号、行驶中的汽车轨迹和社交媒体数据，已经被部署到城市计算中（Zheng等人，2014，Liu等人，2015）。例如，由于其在互联网上的高可及性，POI可以有效地呈现区域功能（Yuan等人，2012，Zheng等人，2014）。近年来，人们对通过POI对城市土地利用进行分类进行了大量深入讨论（Tian and Shen 2011, Yuan et al. 2012, Jiang et al. 2015）。通过提取基于内部POI类别频率的各种指标，可以使用回归模型或经验模型（如LUTE模型）来估计区域土地利用类型（Jiang等人，2015，Long和Liu，2013，Rodrigues等人，2012）。此外，由于城市土地利用的复杂性，仅通过POI频率来分析土地利用模式显然是不理想的。因此，Yuan等人（2012）在2012年首次提出了一个基于POI的语义分析模型，即发现不同功能的区域（DRoF）（Yuan等人，2012）。通过将区域视为文件，将区域的功能视为主题，将POI的类别视为元数据，将人类的流动模式视为词语，DRoF构建了一个Latent Dirichlet Allocation（LDA）模型来挖掘区域高级语义信息和城市土地利用类型，与纯粹基于图像的方法相比，成功地提高了准确性（Yuan等人，2012，张和杜2015）。
       上述研究只把POI的频率作为对一个地区土地利用类型的判断，而没有考虑内在的空间相关性，这可能导致大部分POI的空间信息被浪费。如果我们将区域视为文件，将城市土地利用类型视为主题，将内部的POI视为基本词汇，那么区域内POI的空间分布就可以被视为文件中的词汇序列。因此，基于POI的序列和土地利用类型之间的关系可以通过连续空间语言模型进行量化（Schwenk 2007）。通过利用上下文关系的潜力，可以更好地挖掘出POI内部的信息。基于这些假设和研究结果，本研究引入了一个名为Google Word2Vec的开源深度学习语言模型。Word2Vec模型可以根据文档中的上下文关系将单词投射到高维向量空间（Mikolov等人，2013a, 2013b, 2013c）。最近的研究证明，Word2Vec在分析词对之间的相关性和识别文本的语义方面有卓越的能力（Yu和Dredze 2014，Lilleberg等人2015，Mikolov等人2013c，Zhang等人2015）。
       在这项研究中，我们试图通过整合Word2Vec模型和POI来感知城市土地利用的空间分布。我们首先构建了一个基于交通分析区（TAZ）和POI的语料库，然后通过一个基于CBOW的Word2Vec模型将POI类别量化为特征向量。TAZ向量可以通过内部POI向量的平均和来估计。为了验证产生的特征向量的可靠性，我们设计了几个实验，使用基于K-Means的区域聚合和基于TAZ向量的随机森林算法（RFA）进行土地利用分类。我们还采用了一个深度学习语言模型，以有效地挖掘地面物体的空间分布信息，并仅用POI来识别局部范围内的城市土地使用。最后，该方法被用于识别中国南部最发达和最大的城市群之一的珠江三角洲（PRD）的土地利用类型。此外，还对所提出的方法和一些最先进的主题模型进行了比较。

2 研究区域和数据描述

研究区域包括整个珠三角，总面积为54,002平方公里，是中国最重要的经济区之一。作为华南地区的政治、文化和经济中心，该地区的特点是广东省的人口密度最高。珠三角的城市结构非常复杂，其中包含了大量的土地使用类型，如住宅社区、购物中心、临床设施和教育建筑。根据广东省国土资源厅提供的政府土地利用数据，研究区以TAZ为单位有99065个地块和14种城市土地利用类型。图1和表1分别说明了研究区域内各土地利用类型的空间分布和数量比例。
在这里插入图片描述

在这项研究中，POI数据集是通过百度地图服务（http://map.baidu.com）提供的应用编程接口（API）获取的，百度地图服务是中国最广泛使用的搜索引擎和地图服务提供商。我们获取了1,403,453条具有多级类别的百度POI记录。除了类别层面的升级，POI的描述也提供了更多的细节，并且信息是以独立的中文短语形式给出的，不需要事先进行单词分割。例如，最终级别为 "中学 "的POI的最高级别和第二级别类别将分别为 "教育 "和 “中等教育”。二级类别中对 "中等教育 "的描述比顶级类别中的 "教育 "更加具体。在我们的POI数据集中，顶级类别中有20个标签，而二级类别中有超过400个标签。具体来说，这20个顶级类别的POI标签分别是企业（COR）、购物（SHP）、餐饮（CAT）、生活服务（LIF）、住宅社区（RSC）、政府（GOV）、诊所设施（CLF）、道路（ROD）、交通设施（TRA）。汽车服务（AMS）、金融业（FII）、行政地标（ADL）、教育（EDU）、酒店（HOT）、娱乐（ENT）、位置注释（LOC）、商务楼（BUB）、自然山（MOU）、风景名胜（SCE）和绿地（GRE）。基于TAZs的划分与广东省国土资源局提供的政府土地利用数据（2010）的单位相同。

3 方法

图2显示了拟议方法的流程图。该方法试图使用谷歌Word2Vec模型将百度POI转化为高维向量，然后将POI向量应用于感知TAZ单元的城市土地利用和功能结构。该程序包括三个部分。(1) 利用百度POI和TAZs建立TAZ-POI语料库。(2) 在TAZ-POI语料库的基础上，利用Word2Vec模型得到所有POI类别的特征向量，通过对里面的POI向量之和进行平均计算得到TAZ向量。(3) 通过从POI向量计算出的TAZ向量来提取TAZ的城市土地利用类型。为了证明POI向量的有效性和潜力，我们将分析POI之间的关联性，然后评估分类的准确性。此外，为了测试所提出的方法的可靠性，我们将与最先进的主题模型进行比较，其细节将在第四部分给出。
在这里插入图片描述

3.1 建设TAZ-POI语料库

       语料库通常指的是自然语言处理（NLP）领域中一个大型的、有组织的、经过良好采样和处理的文本集合（Ng等人，1997）。具体来说，一个语料库由许多文件组成，每个文件都包含几个词。在一个语料库中，文档和词的顺序代表了上下文关系，与自然语言相似。基于这些概念，我们的研究区域可以被看作是一个语料库，其中包含的每个TAZ可以被看作是一个文档，而POI可以被看作是词。为了获得足够数量的词，我们从百度POI的第四级分类中选择描述来组成文档。
       通过语料库的有组织构成，词语的上下文关系能够在一定程度上揭示出POI的空间分布属性和位置关系。为了以有组织的形式将词语联系起来，并将每个文件分配给现实的含义，我们提出了一种基于 "贪心算法 "思想的 "最短路径 "方法来构建基于TAZ的文件。使用这种方法，POI通过它们的空间关系相互连接起来。首先，我们找出每个TAZ中经过所有POI的最短路径，并按顺序记录这些POI。在接下来的步骤中，根据POI的顺序，使用单词构建基于TAZ的文档。假设在一个给定的TAZ中存在N个POI。用 $P_1(x_{p1}, y_{p1}),P_2(x_{p2}, y_{p2}), ...,P_n(x_{pn}, y_{pn})$ 表示POI的位置坐标（x, y），用下标索引 i 表示第 i 个POI( $i∈I\{1, 2, 3, ..., n\}$ )，用如下方法可以得到POI的顺序：
       （1）首先，计算每个POI对<P, P>的欧氏距离S，并选择最远的POI（表示为 $P_s$ 和 $P_e$ ）作为路径的端点。因此，操作完成后，最短路径的POI顺序为 $L\{P_s,P_e\}$ ，等待插入的POI集为 $A\{P_x|x∈I\cap P_x∉L\}$ ：显然，路径长度 $l$ 是 $L$ 中每个相邻POI对的距离总和。让 $t$ 成为当前时刻的指标；现在的路径长度将是 $l(t) = S_{s,e}$ 。
        （2）这一步的任务是插入和更新最短路径。在这一步中，我们利用贪心算法的思想，确保每次插入的POI都是局部最优的，试图找到最短路径的全局最优。具体来说，我们的目标是从一个集合 $A$ 中选择 $P_i$ ，并将其插入到POI顺序 $L$ 的正确位置。为位置选择建立了一个迭代循环。假设在 $t + 1$ 时刻， $P_i$ 被插入到属于顺序 $L$ 的 $P_m$ 和 $P_n$ 之间；因此，新的路径长度可以在数学上计算为 $l(t+1) = l(t)-S_{m,n} + S_{m,i} + S_{n, i}$ 。反复将 $P_i$ 插入 $L$ 中的不同位置，并比较路径长度 $l (t + 1)$ ，在完成所有位置的遍历后，迭代循环将结束。假设在 $P_m$ 和 $P_n$ 之间插入 $P_i$ 使得路径最短，那么点 $P_i$ 就会被固定在这个位置，这意味着POI顺序 $L$ 将被更新为 ${. .,P_m,P_i,P_n,. .\}$ ，而等待插入集 $A$ 将变成 $A\{P_x|x∈I\cap P_x∉L\}$ 。
       （3）前面的步骤重复进行，直到等待插入集 $A$ 中的所有点都被放入顺序序列 $L$ 中。最后，基于 TAZ 的文件中 POI 的顺序序列可以成功获得。
       同样，语料库中文件的排列也是基于最短路径的算法。假设研究区域存在 $M$ 个 $T A Z$ ，为了便于辨认，我们将 $T A Z$ 表示为 $T_1(x_{T1},y_{T1}),T_2(x_{T2},y_{T2}), ... , T_m(x_{Tm},y_{Tm})$ ，其中 $x_{Tj},y_{Tj})$ 表示第j个TAZ的中心点坐标。将上述贪心算法应用于TAZ的中心点坐标，可以得到语料库中基于TAZ的文档的顺序。由于获得了基于 $T A Z$ 的文档中 $P O I$ 的顺序和基于 $T A Z$ 的文档在语料库中的顺序，我们的Word2Vec训练语料库，即TAZ-POI，因此成功构建。

3.2 计算每个POI类别的特征向量

       Word2Vec是谷歌在2013年开源的一个模型（https://code.google.com/p/ word2vec/），是一个将单词转化为高维空间向量的深度学习工具（Mikolov等人 2013a）。通过使用输入训练语料库建立神经网络语言模型（NNLM），Word2Vec模型可以通过其上下文内容将每个词映射为特征性的实值向量（Mikolov等人，2013a, 2013b, 2013c）。在本研究中，我们假设TAZ-POI语料库的大小为T，语料库中第 $t$ 个 POI 的最终级别类别为 $w_t$ ，以第 $t$ 个 POI 为中心的上下文采样窗口大小表示为 $c$ ；因此，NNLM的最大似然函数可以用公式（1）来估计（Mikolov等人，2013a, 2013b, 2013c, Yu和Dredze 2014）。
$\begin{aligned} l(\theta)=logL(\theta)=\frac{1}{T}\sum^T_{t=1}logp(w_t|w^{t+c}_{t-c}) \tag{1}\\ \end{aligned}$
       在方程（1）中， $w^{t+c}_{t-c}$ 表示 $w_t$ 中心的词集，其上下文采样窗口大小为 $c$ ，其中中心 $w_t$ 被排除在采样集之外。 Word2Vec 模型提供了两种解决方程（1）的数学模型，如连续词袋（CBOW）和 Skip-Gram。与 Skip-Gram 模型中对词对的随机抽样相比，CBOW的连续输入和训练过程可以更好地反映描述词的上下文关系（Yu和Dredze 2014）。因此，本文采用基于 CBOW 的 Word2Vec 模型来提取 POI 向量。 CBOW对 $p(w_t|w^{t+c}_{t-c})$ 的定义如下（Mikolov等人，2013c）。
$\begin{aligned} p(w_t|w^{t+c}_{t-c})=\frac{exp(-E(w_t,w_{t-c}^{t+c}))}{\sum^{T}_{i=1}exp(-E(w_i,w^{t+c}_{t-c}))} \tag{2}\\ \end{aligned}$
        $E$ 是一个能量函数，其中 $E(w_i,w_j)=-(w_i·w_j)$ 。方程（2）显示了当前语境为 $c$ 时，第 $t$ 个 POI 的发生概率。在基于 CBOW 的 Word2Vec 模型的迭代训练过程中，可以通过随机梯度下降（SGD）算法整合 Hoﬀman 树来估计最佳 POI 向量。
       理论上，相似的 POI 类别的特征向量在高维空间中具有大致相同的角度和方向。这意味着 POI 对的相似性与相关 POI 向量之间的角度呈反比关系。为了证明Google Word2Vec获得的 POI 向量的有效性和可靠性，我们采用了基于余弦距离的 K-Means 进行 POI 向量聚类。第 i 个和第 j 个 POI 之间的余弦距离可以通过以下公式进行数学计算。
$\begin{aligned} D(P_i,P_j)= 1-cos(\theta)=1-\frac{\sum^K_{k=1}V_{ik}·V_{jk}}{\sqrt{\sum^K_{k=1}V_{ik}^2}·\sqrt{\sum^K_{k=1}V_{jk}^2}}\tag{3}\\ \end{aligned}$
       在公式（3）中， $cos(\theta)$ 是第 $i$ 个 POI 到第 $j$ 个 POI 在 [-1, 1] 范围内的余弦距离， $v_i$ 和 $v_j$ 是维度为 K 的第 $i$ 个和第 $j$ 个 POI 向量。在对 POI 向量进行聚类后，我们通过比较低层 POI 类别和高层类别的聚类结果来估计 POI 向量的可靠性。应该注意的是，K-Means 的性能取决于初始聚类中心；因此，我们引入了修正的迭代异常模式（AP）方法来获得初始聚类中心（Rutkowski 2007）。平均剪影值可以作为确定 POI 集群数量 K 的标准（Rousseeuw 1987, Yuan等人2012）。数据集中第 $i$ 个 POI 的剪影值用 $s (i)$ 表示，范围为-1到1。 $s (i)$ 值接近 1 表示该 POI 的聚类合适且远离其他聚类， $s (i)$ 值接近 0 表示该 POI 处于两个自然聚类的边界， $s (i)$ 值接近 -1 表示该 POI 如果被聚类在其邻近的聚类中会更合适。因此，所有 POI 的平均剪影值 $\overline s$ 可以反映出聚类结果的可靠性。因此，最佳聚类数K可以通过平均轮廓值 $\overline s$ 接近 1 来估计，最佳聚类结果将在下面的章节中用于分析城市结构。

3.3 提取每个TAZ的城市土地使用类型

3.3.1 通过POI向量进行区域聚合

在基于CBOW的Word2Vec模型支持下，我们可以获得所有POI类别的特征向量。最近关于文本语义定位分析的研究表明，使用文本中所有词的加权平均计算的文档向量可以有效地描绘一个文档（Xue等人，2014，Zhang等人，2015）。因此，在我们的研究中，我们通过对POI向量内部进行加权平均来获得TAZ向量。假设在第i-th个TAZ中有N个POI $P_{i,1},P_{i,2},...,P_{i,n})$ 。然后，TAZ向量可以通过公式（4）进行数学推理：
$\begin{aligned} vectors\_of\_TAZ_i = \frac{\sum^{N}_{k=1}vectors\_of\_type(P_{i, k})}{N} \tag{4}\\ \end{aligned}$
在公式（4）中， $vectors\_of\_type(P_{i,k})$ 类型的向量表示第i-th个TAZ中第k-th个POI类型的特征向量，TAZ向量由内部POI向量的加权平均来估计。为了估计TAZ向量与实际土地利用之间的关系，采用所提出的基于余弦距离的K-Means方法对TAZ进行聚类，并将聚类结果与政府的土地利用数据在TAZ的功能上进行比较。

3.3.2 基于（随机森林）RFA的监督分类法

       此外，还采用了一种监督分类方法来预测所有TAZ的土地利用类型，该方法被用来与建议的方法进行比较。以前的研究表明，支持向量机（SVM）在解决高维和非线性分类问题方面表现良好（Mountrakis等人，2011；Huang和Zhang，2013；Mordelet和Vert，2014）。然而，SVM对初始参数高度敏感，因此在训练和预测过程中会产生不确定性（Liu等人，2003）。RFA是一种最先进的非线性和非参数分类模型，可以解决变量之间的相关性和高维和非线性分类领域的过度问题（Breiman 2001, Biau 2012, Palczewska等人2014）。
       假设 $X_{ij}(i∈[1,M],j∈[1,N])$ 和 $Y_i(i∈[1,K])$ 是TAZ的特征向量和土地利用类型，其中M是训练数据集中TAZ的总数，N表示TAZ向量的尺寸，K是每种城市土地利用类型的总计数。使用Bagging方法，RFA根据训练数据集的维度，随机抽取m×n维（m<M；n<N）样本。在这些选定的样本数据上训练C树，不进行修剪操作。在RFA方法中，变量并不完全采取分割节点；相反，只随机选择部分变量进行决策。使用这种方法，可以减少每棵决策树的相关性，从而提高每棵决策树的分类精度。此外，RFA的泛化误差可以通过训练过程后的袋外估计（OOB）对决策树的误差进行平均计算。在以前的研究中，已经表明，使用RFA建立的模型克服了空间变量之间的多种相关问题，特别是在更高的尺寸筛选情况下（Fakhraei等人，2014）。最后，通过使用随机森林的决策树，可以将TAZs的土地利用类型确定为最大投票类型。
       在本研究中，通过随机选择部分土地利用数据和相关的TAZ向量作为训练数据集，将基于RFA的模型应用于研究区域内TAZ单元的土地利用类型感应。为了保证分类结果的可靠性，分类实验重复了100次，并以总体精度（OA）和卡帕系数的平均值作为精度标准。此外，几个最先进的话题模型（TF-IDF、LDA和pLSA），可以正确地提取话题特征并训练RFA分类器，将被采用来与我们提出的方法进行比较。

4 结果和讨论

我们的研究团队建立了一个软件应用程序，并在Windows 8.1(x64)上使用C++实现了第3节中提出的所有模型。几个开源的C/C++库，如Google Word2Vec（https://code.google.com/p/word2vec/）、GDAL（http://www.cgal.org/）和Shark（http://image.diku.dk/shark/）库，被应用于本项目，用于提取POI向量和识别TAZ单元的城市土地使用类型。基于LDA的主题模型的源代码由普林斯顿大学提供（http://www. cs.princeton.edu/~blei/topicmodeling.html）（Blei et al. 2003）。相关的应用和结果（POI向量数据）可以从我们的GeoSOS网站（http://www. geosimulation.cn/）下载。

4.1 实施和结果

4.1.1 POI向量提取和相关分析

在研究区域内，944,698个百度POI均匀地分布在37,584个TAZ中，没有POI的TAZ被排除在分析之外。在贪心算法的基础上，采用最终级别的POI类别，共计419个，来建立TAZ-POI语料库。在建立基于POI的CBOW模型的过程中，我们将输出词向量的维度设置为200，样本窗口大小为5；迭代次数设置为20，其他参数设置为推荐值。通过将POI的空间分布转化为视觉词的上下文关系，419个五级POI类别的特征向量可以由Google Word2Vec模型来估计。
余弦距离被用来表示不同类别的POI之间的相关性。基于K-Means的POI向量聚类结果可以有效地量化不同POI类别之间的关系。POI向量和余弦距离矩阵的结果可在互联网（http://pan.baidu.com/s/1 gene5IN）上免费下载。例如，结果表明，"房地产 "类别的POI与 “售楼处”、"住宅小区 "和 "停车区 "的POI有很强的相关性，"ATM "POI与银行POI高度相关。如图3所示，我们发现，当K=2、4和10时，平均剪影值达到最大。为了分析POI集群和POI类别之间的相关性，我们使用顶级POI类别计算每个集群中不同类型的POI的比例，如表2所示。
在这里插入图片描述

当K=2时，群组C1主要包含虚拟的POI，仅作为地名标签，如道路标签（ROD）、位置注释（LOC）和自然山体（MOU）；群组C2的成分代表绝大多数的实际地面物体，涵盖了大多数城市土地的使用。当K=4时，我们可以观察到C1代表虚拟标签的POI，C2指政府（GOV）和住宅社区（RSC），C3是购物（SHP）和生活服务（LIF）的混合。C4主要涵盖商业和商务设施。显然，随着聚类数K的增加，具有类似功能的POI会集中在一个聚类中，而同质POI之间的异质性逐渐变得明显。当K达到10时，很明显，每个集群的功能已经被一个或两个主导的POI类别所确定，如政府（C2），购物（C3），诊所（C5），商业/公司（C6）和娱乐（C10）。POI向量的聚类结果表明，具有同质功能的城市微观实体具有相似的空间分布特征，而异质实体之间也存在一定程度的空间关联性。因此，我们有理由相信，POI向量能够有效地量化POI的空间语义特征，而多尺度聚类的结果表明，POI向量可以用来揭示实际区域土地利用类型与POI内部空间结构之间的关联。

4.1.2 确定城市土地使用情况

（1）基于k-means的区域聚合
在这里插入图片描述

【图5】不同集群中土地使用类型的比例（K=2，3，4）土地使用类型。公共设施（PFL），绿地和广场（GSL），工业用地（IUL），商业和商务设施（CBF），住宅用地（RUL），行政和公共服务（APS），道路街道和运输（RST），物流和仓库（LWL），特殊用途用地（SUL），城乡建设用地（URC），区域交通设施（RTF），区域公共设施（RPF），其他建设用地（OCL），矿业用地（MUL）。

       根据公式（3），TAZ向量可以通过内部POI向量的加权平均来获得。如图4所示，平均轮廓值随着聚类数K的增加而强烈波动，这表明聚类数K可以用来衡量TAZ范围内不同区域之间的功能异质性。换句话说，通过指定适当的聚类数K值，两个TAZ可以在城市土地利用模式的相似度方面被划分为不同的聚类。图4显示，TAZ向量聚类结果的前3个平均剪影值为2、3和4，这意味着采取这些数值时，TAZ向量的聚类是恰当的。因此，我们使用这些K值来分析土地利用类型。基于政府的土地利用数据和高铁RS影像，图5显示了不同的K值在每个聚类中的土地利用区域的比例。K值不同的区域聚类结果注释如下：
       K=2：
       居住区和购物区[K=2，C1]。在这一集群区域，50%以上的土地利用类型与居民生活相关，如住宅区、商业和商务区、行政区域和公共服务。我们可以从图6中观察到，这个集群区域主要位于住宅区和旧城中心，是住宅区、商业区、道路和公共服务设施的大量混合区域。
       工作和建筑区[K=2，C2]。在这个集群区域，土地利用类型的主要类别是区域公共/交通设施、工业和建筑用地。此外，图6显示，该集群区域主要涵盖了新兴商业中心、新城区和工厂院落，表明相应的人口组织包括较少的永久居民和更多的工作和流动人口。
       K=3 和 K=4：
       发达住宅区[K = 3, C1]和[K = 4, C1]。与使用K = 2得到的住宅比例相比，这个集群剔除了一些主导功能为商业和娱乐的区域。例如，二沙岛以西是豪华住宅区，东部地区密布着娱乐和公共设施，当K大于2时，很容易识别。
       公共设施和建筑区[K=3，C2]和[K=4，C2]。与K=2时的情况相比，我们有理由相信，这个集群是从 “工作和建筑区”[K=2，C2]中剥离出来的。图6中，二沙岛以东（珠江中游）、广州高教园区中心广场（广州东南部）和城市周边的建筑工地都可以清楚地看到这个区域，其相应的城市功能属于公共设施和建设区的范围。
       工作区[K = 3, C3]和[K = 4, C3]。与[K = 2, C2]相比，这个集群区域取消了部分公共交通区、所有公共设施和所有建筑区，而包括了大部分工业区、商业中心和物流及仓库。如图6所示，商业中心、中央商务区和新兴商业区，如北京路（著名的购物中心）、广州的珠江新城（CBD）和珠海的拱北（购物中心），都位于这个集群区域内。
       新兴住宅区[K=4, C4]。这个聚类区域与建筑和区域设施表现出弱相关，因为它为居民的生活提供了一个平衡的土地使用配置，其中包括绿地、生活服务和住宅区等。仔细研究这个集群，我们可以发现这个集群是从[K=3，C2]中提取出来的。通过与高铁RS图像的仔细比较，我们最终将这个区域集群归类为新兴的住宅区。
在这里插入图片描述

图6. 通过研究区的TAZ向量进行的基于K-Means的聚类结果（聚类的颜色设置与图5相同）。(a1)~(a3)广州市区(K=2,3,4), (b1)~(b3)深圳南山区(K=2,3,4), (c1)~(c3)中山市区(K=2,3,4), (d1)~(d3) 珠海市区(K=2,3,4)。

（2）基于RFA的分类
通过上述基于K-Means的区域聚合，已经表明TAZ向量与区域土地利用类型有很强的关联性。在本节中，我们采用一些基于RFA的方法来评估所提出的方法的性能。一些政府的土地利用数据被选作训练样本。一些最先进的语义模型，如术语频率-反文档频率（TF-IDF）（Aizawa 2003，Yuan等人2012）、概率潜在语义分析（pLSA）（Bosch等人2006）和LDA（Blei等人2003，Li等人2010），也被用于分类，与我们提出的方法进行对比。在这项研究中，语义语言模型和参数的设置被配置如下：

建议的方法。随机选择50%的土地利用数据和相关的TAZ向量来训练一个基于RFA的分类器。
TF-IDF。首先，使用内部POI的分布频率计算TAZs的TF-IDF值。然后，随机选择50%的TAZs及其TF-IDF特征来建立一个基于RFA的分类器。
pLSA。向量尺寸和迭代次数的模型参数分别被设定为200和100。与TF-IDF类似，50%的TAZs及其基于pLSA的语义向量被随机选择，以建立一个基于RFA的分类器。
LDA。主题数和α分别设置为200和0.025，最大迭代数和迭代间的最小误差分别调整为100和0.0001。总共50%的TAZs和它们的Dirichlet主题分布概率被随机选择，以建立一个基于RFA的分类器。

上述基于RFA的分类器，用于预测研究区域内所有TAZ的土地利用类型，使用Shark v3.0库（http://image.diku.dk/shark/）提供的推荐数量（100）的决策树来实现。对于交叉验证，训练数据集和袋外数据集的百分比分别被设定为0.5和0.5。为了保证分类结果的可靠性，包括随机抽样和土地利用分类在内的实验对每个语言模型都重复了100次。表3显示了土地利用分类的准确性评估结果。图7显示了这些方法对研究区域的混淆矩阵，图8显示了四个选定城市的土地利用分类图。
在这里插入图片描述

【图7】通过从（a）Word2Vec、（b）TF-IDF、（c）pLSA和（d）LDA中提取的特征分类结果的混淆矩阵。

在这里插入图片描述

图8. 使用几种语言模型（Word2Vec/TF-IDF/pLSA/LDA）对研究区域进行基于RFA的土地利用分类的结果。(a1)_{(a5)广州市中心区，(b1)}(b5)深圳南山区，(c1)_{(c5)中山市中心区，(d1)}(d5)珠海市中心区。在这张图中。土地利用类型包括公共设施（PFL）、绿地和广场（GSL）、工业用地（IUL）、商业和商务设施（CBF）、住宅用地（RUL）、行政和公共服务（APS）、道路街道和交通（RST）、物流和仓库（LWL）、特殊用途土地（SUL）、城乡建设用地（URC）、区域交通设施（RTF）、区域公共设施（RPF）、其他建设用地（OCL）和矿业用地（MUL）。

正如预期的那样，TF-IDF方法在土地利用分类中表现不佳。在这种方法中，TF-IDF值只使用POI的分布频率获得，因此忽略了类似POI之间的关系，在提取文件（TAZs）的潜在语义信息方面获得的表现不佳（Blei等人，2003年；Li等人，2010年）。PTMs，如pLSA和LDA，能够挖掘潜在的语义特征，并对特征和不同类别的场景之间的相互作用进行建模（Bosch等人，2006，Zhang和Du，2015）。PTMs已被广泛应用于HSR RS影像的场景分类中（Zhang和Du 2015，Zhong等人2015）；然而，他们在本研究中获得的结果并不令人满意。据我们所知，城市土地利用类型不仅与内部微观实体的类别和数量有关，还与它们的空间分布模式有关（Jiang和Yao，2010）。传统的PTMs只考虑了POI的比例，而忽略了它们的空间相关性和背景关系，这可能导致土地利用分类精度低。此外，基于LDA的模型的性能对初始超参数的设置相当敏感，最佳参数的设置根据基于LDA的模型如何被用来解决特定的任务而有所不同（Lu等人，2011）。
上述分析表明，与基于RFA的方法相比，我们提出的方法能以最低的计算时间获得最高的分类精度。通过考虑POI的数量特征和空间分布特征，建议的方法将POI映射到一个高维的特征空间，并获得更好的结果，其中与RFA相比需要更少的参数。因此，所提出的方法可以使用较少的参数将POI映射到高维的特征空间中。这种方法对于量化城市土地利用类型和POI空间分布模式之间的关联关系应该是有用的。

4.2 讨论

在本节中，我们将首先讨论POI向量尺寸和POI采样窗口大小设置的影响。到目前为止，还没有关于Word2Vec的参数敏感度的报告。相反，Word2Vec模型的计算成本在一些文章中被讨论。例如，Mikolov的研究表明，增加向量维度会使计算复杂性增加一倍（Mikolov等人，2013a）。因此，我们设计了两个实验来分析拟议模型的参数敏感性。图9和图10显示了在不同的实验中分类精度的变化。我们注意到，基于POI向量的分类精度首先增加，然后随着X轴的增加而达到稳定状态，X轴在图9和图10中分别代表向量尺寸和采样窗口大小。可以说，在训练过程中，当向量和采样窗口的尺寸设置得太小时，输入的信息就会变得不充分，从而导致快速过度收敛问题，进一步产生不准确的单词（POI）向量，导致分类精度低下。相反，当这两个参数被设置为一个合适的尺度时，土地利用分类的OA可以提高到大约0.85，并变得稳定。
在这里插入图片描述

       我们的整体土地利用分类准确率略低于之前使用Word2Vec模型进行自然文本情感分类的研究（Xue等人，2014；Lilleberg等人，2015；Zhang等人，2015）。这主要有两个原因：一方面，与自然文本分析相比，不同的土地利用类型之间的复杂关系导致在确定区域的实际功能方面存在困难；另一方面，由于中国的快速发展，由规划部门提出的土地利用布局可能与实际情况不符（Tian and Shen 2011, Long et al.2012）。此外，在本研究中，我们的验证数据与百度POI数据（2015）相比，在时间尺度上表现出明显的差异。这将不可避免地增加土地利用分类的误差。
       此外，在市中心的内部有很多混合的土地利用类型，而土地利用类型是人工解释的硬分类结果。本研究的主要目的是研究POI矢量的潜力和有效性，因此在选择分类样本时，我们没有考虑到纯斑块和混合斑块的问题，这在一定程度上造成了分类的遗漏。在未来的研究中，我们将进一步发展RFA模型，考虑纯土地利用类型的地块的统计抽样，以获得每个地块的土地利用比率。
       由于从百度API获得的POI数据缺乏土地面积和人口的属性，在TAZ向量的构建过程中，TAZ内的POI都被设定为相同的权重。虽然缺乏我们想要的详细属性，但建议的方法仍然获得了精确的聚类和分类结果。可以解释的是，在一个城市中，常见的地面物体（便利店、住宅区等）和不常见的地面物体（大学、医院等）可以看作是自然语言中的常见词和不常见词，它们通过上下文关系进行解释。在谷歌Word2vec模型中，不常见的词的权重将被提升，而常见的词将根据其在上下文中的出现而被赋予较低的重要性，这保证了在没有足够厚的属性信息的情况下，POI的文本分类的良好性能（Lilleberg等人，2015）。在未来的研究中，我们将在模型中涉及更多的多源空间数据（如高铁图像和特殊统计数据），并对不同类型的POI的加权问题进行详细讨论。
       尽管存在上述一些不足，但所提出的方法能够将空间因素纳入语料库建设过程中。该方法是第一个通过考虑POI的空间分布特征将POI映射到高维空间向量的方法。分析表明，POI向量有可能识别城市功能结构和土地利用类型。例如，根据POI向量之间的余弦距离，我们可以了解到与 "药店 "POI有最高空间相关性的向量是 “快照打印”、"超市 "和 “便利店”。此外，通过TAZ向量的区域聚合，我们可以通过指定不同的聚类数量来深入了解多尺度的城市空间结构。据我们所知，由于缺乏有效的方法，以前关于城市土地利用分类的研究只使用了POI类别的频率作为判断，而没有考虑POI空间分布的基本特征（Yuan等人，2012，Jiang等人，2015）。在这方面，我们的研究提供了一种新的方法来挖掘POI的空间分布特征。
       此外，这项研究可以帮助城市规划者监测城市土地利用的动态变化，评估城市规划方案的影响。在这项研究中，POI向量被用来检测城市土地利用类型，而且所使用的POI在互联网上不断更新。因此，这表明可以通过与POI的更新速度保持一致来监测城市土地利用的变化。在未来的研究中，所提出的方法可用于通过整合HSR RS图像绘制ﬁner城市土地利用分布图。具有相同功能的区域不仅具有相似的社会经济属性（如POI的空间分布），而且呈现相似的空间模式。因此，在我们即将开展的工作中，如何将高铁RS图像和地理空间大数据结合起来，以获得更准确、更复杂的土地利用模式是首先要解决的问题。

5 总结

在这项研究中，我们建立了一个框架，通过整合POI和深度学习语言模型（Google Word2Vec）来感知TAZ单位的城市土地利用的空间结构。其目的是通过考虑POI的上下文关系，在一个细小的斑块尺度上对城市土地利用进行分类。首先，一个基于贪婪算法的最短路径模型被用来建立一个TAZ-POI语料库，其中TAZ和POI类别分别被认为是文件和基本词汇。在下一步，通过建立基于CBOW的Word2Vec模型，将POI和TAZs映射到高维空间向量，结果表明POI的空间相关性已经被空间向量合理量化。此外，基于K-Means的区域聚合的结果有效地揭示了多尺度的复杂城市结构。通过与一些先进的主题模型（TF-IDF、pLSA和LDA）的比较，所提出的方法被应用于城市土地利用的分类，获得了最高的准确性和eﬃciency（OA=0.8728，kappa=0.8399，平均计算时间=161.0040秒）。在我们未来的研究中，将对所提出的方法与HSR RS图像进行整合，以满足城市规划和环境管理的各种应用。