【Place2Vec】从ITDL到Place2Vec--通过从增强的空间背景中学习嵌入来推理地方类型的相似性和关联性

From ITDL to Place2Vec – Reasoning About Place Type Similarity and Relatedness by Learning Embeddings From Augmented Spatial Contexts
在这里插入图片描述
原文链接:https://dl.acm.org/doi/abs/10.1145/3139958.3140054


摘要

       对兴趣点(POI)类型的理解、表示和推理,如汽车修理厂、车身修理厂、加油站或天文馆,是地理信息检索、推荐系统、地理知识图谱,以及研究一般城市空间的一个关键方面,例如,从用户生成的内容中提取功能或模糊的认知区域。这些任务的一个先决条件是能够捕获POI类型之间的相似性和关联性。直观地说,在没有汽车维修场所的情况下,返回车身修理厂甚至加油站的空间搜索仍有可能满足一些用户的需求,而返回天文馆则不能。地方层次结构经常被用来扩展查询,但是大多数现有的层次结构相对较浅,而且是从一个单一的角度来结构的,因此把可能在某些特征上密切相关的POI类型与另一个相距甚远。这导致了如何从数据中学习POI类型表示的问题。像Word2Vec这样从语言环境中产生词嵌入的模型是一种新的和有希望的方法,因为它们有一个直观的相似性概念。然而,地理空间的结构,例如POI类型之间的相互作用,与语言学有很大不同。在这项工作中,我们提出了一种新的方法,使用距离分级、信息理论的方法来生成嵌入,以增加POI类型的空间背景。我们证明了我们的工作优于Word2Vec和其他使用三种不同评估任务的模型,并且与人类对POI类型相似性的评估密切相关。我们在网上公布了570个地点类型的嵌入以及人类相似性评估的集合,供其他人使用。

1 引言和动机

       语义相似性和关联性测量是地理信息检索、推荐系统、本体工程等各种方法的重要组成部分;最近的概述见[10]。鉴于分类对人类认知的重要性[8],地方类型是所有主要地名录和POI数据库公布的三个组成部分之一(另外两个是位置和名称)。地方类型作为一个特定类型的地方所提供的功能的代理。直观地说,夜总会的存在(无论其名称或位置如何)意味着在夜间有一定的噪音,有年轻的人口,有单身人士,有较高的与毒品有关的犯罪的可能性,有可能在深夜得到饮料或小吃,等等。虽然每个夜总会在某种程度上有所不同,但夜总会与酒吧和更广泛的音乐场所有许多共同特点,而它们既不能替代面包店,也不能替代理发师。因此,如果在搜索半径内没有某种类型的POI,例如夜总会,系统应该返回一个类似类型的地方,例如酒吧。这就意味着,语义相似性测量应该反映人类对相似性的评估,无论是关于地点类型还是其他主题。
       为了衡量相似性,我们可以从语法上比较类型标签,计算地方类型层次结构中的距离,计算其扩展中的共同点,等等。新的方法依赖于通过学习所有类型的词嵌入来比较它们的语言意义,然后计算它们的余弦相似度。然而,这种方法并不考虑任何隐含在这些地方类型中的空间信息,如它们的共现模式。这种想法类似于语言学中的分布语义学,可以进一步概括为:地方可以通过它们的邻居来分类。在语言学中的原始对应物是:你可以通过一个词的陪伴来了解它[5]。
       在这项工作中,我们接受了地理空间的分布式语义的想法,并使用不同的潜在表征与增强的空间语境来探索地方类型的相似性和关联性。空间语境既是内在的也是外在的增强。为了在我们的方法中考虑距离,距离衰减和距离滞后被用作内在调整,以增强空间语境。我们意识到地方和空间之间有一个明显的区别,即地方是注入了人类意义的空间[26],所以我们也考虑到了签到次数,即人气,作为人类活动的代理。最后,为了调整地方类型遵循幂律分布的事实,我们还考虑到一定距离内类型的独特性。我们从信息论的角度来处理这两个方面,即通过测量信息含量。


本文的贡献如下:
       我们说明,仅靠常用的语言学模型不能充分捕捉地理空间的结构,如不同类型的地方共同出现的独特模式。相反,我们提出了一个基于增强的空间语境的新模型,使地理距离成为一等公民,并从信息论的角度调整这些语境,即在一定距离内地方类型的独特性以及它们作为人类活动的代表的受欢迎程度。

  • 我们说明,仅靠常用的语言学模型不能充分捕捉地理空间的结构,如不同类型的地方共同出现的独特模式。相反,我们提出了一个基于增强的空间语境的新模型,使地理距离成为一等公民,并从信息论的角度调整这些语境,即在一定距离内地方类型的独特性以及它们作为人类活动的代表的受欢迎程度。
  • 我们针对自上而下的Yelp POI类别层次结构,对不同的地点类型嵌入进行了全面评估。这一评估基本上将归纳法(自下而上的地点类型嵌入)和演绎法(自上而下的地点层次结构)结合起来。
  • 我们利用Amazon的Mechanical Turk Human Intelligence Tasks(HIT)建立了两个基线,用于测量地方类型的相似性和关联性。我们的评估结果显示,我们的方法比纯粹基于语言的嵌入具有更好的准确性,这证实了明确的空间背景的重要性。事实上,我们证明了一个显著的事实:尽管人类可以依赖他们丰富的文化经验、类型标签的含义、他们的背景知识等,但从完全通过我们增强的空间语境创建的嵌入中得到的相似性评估,即仅仅通过研究地方类型的空间模式和它们的相对流行度,与人类的相似性判断密切相关。
  • 虽然所得到的地点类型嵌入可用于广泛的依赖相似性评估的任务,如常用于地理信息检索、核心关系解决和本体对齐,以及推荐系统,但我们引入了一个新的视角,即压缩,作为一个有趣的未来研究领域,处理地点类型是否可以被替代或作为其他POI类型的代理,例如,通过最小数量的地点类型来总结社区。
  • 最后,我们将嵌入以及来自Mechanical Turk的数以千计的人类相似性评估在http://stko.geog.ucsb.edu/place2vec,供未来使用。
           本文的其余部分组织如下。第2节总结了关于嵌入和地理空间语义的现有工作。第3节介绍了数据集并提供了我们整个工作中使用的基本概念。第4节详细解释了我们如何对增强的空间语境进行建模。第5节介绍了三种评价方案,第6节是评价。最后,第7节总结了这项研究并指出了未来的方向。

2 相关工作

       大多数关于POI嵌入的研究源于使用神经网络语言模型的单词嵌入技术[2]。这一类中最成功的模型之一是Word2Vec,它由Skip-Gram和Continuous-Bag-of-Words组成,由Mikolov等人提出[19, 20]。它使用神经网络,利用自然语言的分布语义。Skip-Gram通过预测给定中心词的上下文词来学习嵌入,而Continuous-Bag-of-Words则反其道而行之。
       以前与地理信息相关的嵌入工作可以分为两类。第一类是考虑地理环境对词嵌入的影响。在研究地理环境对词的语义影响程度的首次尝试中,Cocos和Callison-Burch[3]使用来自Google Places和OpenStreetMap(OSM)的地理环境,在地理位置的推文中训练词嵌入。他们的工作与我们相似,因为他们也意识到了地理空间语境的重要性,但他们的工作范围仍然限于语言领域。此外,他们的结果表明,地理背景不像文本背景那样具有丰富的语义。与此相反,我们将证明增强的空间语境确实含有丰富的语义信息。Zhang等人[31]也承认单词的语义因地理空间的不同而存在差异。他们提出了不同主题分布下的向量空间转换,以产生不同地理语境之间的映射。然而,他们的方法还是侧重于语言方面,而地理方面在他们的模型中没有被直接考虑。
       第二类与我们的工作更为相似,直接对地理实体进行建模。Yao等人[28]和Zhang等人[30]与我们的研究相比,重点非常不同,他们利用嵌入技术来检测城市土地使用的空间分布,并揭示城市动态。我们的重点是探索对空间环境的不同调整对嵌入结果的影响程度。Feng等人[4]和Zhao等人[32]学习嵌入,以预测未来的POI访问或推荐POI。这是最初基于预测的Word2Vec模型的副产品。我们的工作有一个不同的重点,因此不需要时间上的序列数据,如用户的签到序列。相反,我们对地方类型的语义感兴趣,并利用嵌入作为一种手段来构建表征,分享它们,并衡量不同类型的(语义)相似性,例如在查询扩展[10]和提取[12]的背景下。
       这将我们的工作与地理信息检索和地理空间语义学的研究联系起来,这里更具体的是与语义签名的社会感应框架[9]联系起来,该框架基于主题、时间和空间的角度来描述地方类型,称为频谱签名。例如,Adams和Janowicz[1]研究了兴趣点的主题带,使用Latent Dirichlet Allocation从关于地点类型的非结构化文本中提取主题。Quercini和Samet[23]提出了一套基于图形的相似性措施,以确定一个概念与维基百科链接结构中的位置的相关度。这些与地点相关的概念,在他们的工作中被称为地方词汇,也可以被看作是区分地理实体的签名。关于时间角度的研究也显示了有希望的结果。Ye等人[29]研究了基于位置的社会网络背景下的地方的时间维度。McKenzie和Janowicz[17]将时间特征应用于反向地理编码,以调整基于时间扭曲模型的空间范围搜索所返回的排名。到目前为止,空间视角,即是否可以完全从空间模式中学习地点(类型)表征的问题,受到的关注较少。Mülligann等人[22]使用了一个基于结合点模式分析和语义相似性的措施,而Zhu等人[33]提出了27个空间统计特征来描述数字地名录中地方类型的不同方面。我们的工作可以看作是这一研究思路的延续,也是对语义签名框架的贡献,我们使用了新颖的方法,如增强的空间语境来克服以前工作的局限性。事实上,我们将证明这些语境(即使是单独使用)能够重现人类的相似性判断,也就是说,在人类的评估和我们的模型之间产生强烈的关联。

3 预备了解

       本研究中使用的各个兴趣点及其类别来自Yelp数据集挑战赛3。这个数据集涵盖了来自四个国家(英国、德国、加拿大和美国)11个不同城市的场所。我们选择了拉斯维加斯作为研究区域,但我们的方法可以推广到不同的城市和场所类型模式;关于区域效应的讨论见[18]。Yelp数据集将其1030个POI类型分为22个根类别,如餐馆、购物、艺术和娱乐、专业服务、健康和医疗等等。POI集 L 中的每个POI l i l_i li由三部分组成,一个POI名称 n ∈ N n∈N nN,一个地理标识符(这里是一个地方位置的经纬度,被建模为中心点) g ∈ G g∈G gG,和一组相关的POI类型 { t 1 , t 2 , t 3 , . . . , t k } ⊆ T \{t_1,t_2,t_3,...,t_k \}⊆T {t1,t2,t3,...,tk}T
       在分析了拉斯维加斯的 1030 个地方类型及其频率后,我们看到等级-频率分布中有一个长尾(图1)。对数图也显示了一个线性趋势。用线性回归法拟合 l o g ( f r e q u e n c y ) log(frequency) log(frequency) l o g ( r a n k ) log(rank) log(rank),得到的R-squared值为 0.8543,表明该模型与数据非常吻合,p值为 2.2 e − 16 2.2e-16 2.2e16,表明这种缩放效应非常显著。简单地说,这些统计数字表明,等级频率确实遵循幂律分布,少数 POI 类型在数据中占主导地位。这是我们在下一节讨论的增强的空间环境中提出的基于信息内容的频率调整的一个重要动机。
在这里插入图片描述

4 方法

       在这一节中,我们描述了潜在表示方法和增强的空间语境。潜在表示法源于自然语言处理,并已在许多领域成功使用。通过承认地理空间和语言表达之间在语境形成上的差异,我们引入了三种方法来模拟确定潜在表征中的地理影响。这些方法包括:naive空间语境、简单的增强空间语境和信息理论、距离滞后(ITDL)的增强空间语境。

4.1 潜在表示方法

       最近的工作表明,基于分布式语义学假设,潜表征模型Word2Vec可以有效地捕捉词空间中的语义关系[19, 20]。通过分析POI类型分布,我们知道,与词频分布[14]类似,它遵循幂律分布。这促使我们利用Word2Vec模型及其背后的分布语义学假设来研究地理空间中的POI类型。
       我们选择了 Skip-Gram 模型,该模型在给定中心类型的情况下预测背景POI类型。我们的目标是通过我们的训练数据来接近真实的地点类型概率分布。一个典型的方法是使用交叉熵来衡量所学概率和真实概率之间的差异。由于我们的数据是离散的,而且我们只关心中心地点类型,交叉熵可以简化为:
D ( y ^ , y ) = − y c l o g ( y ^ c ) (1) \begin{aligned} D(\hat y,y)=-y_clog(\hat y_c) \tag{1}\\ \end{aligned} D(y^,y)=yclog(y^c)(1)
       其中 y ^ \hat y y^ y y y 分别是学习到的概率分布和真实的概率分布。 y ^ c \hat y_c y^c 是给定中心地点类型(用指数 c 表示)的情境 POI 类型的预测概率, y c y_c yc 是给定中心地点类型的情境 POI 类型的真实概率。 y ^ c \hat y_c y^c 可以进一步定义为:
y ^ c = P ( t 1 , t 2 , t 3 , . . . , t m ∣ t c ) (2) \begin{aligned} \hat y_c=P(t_1,t_2,t_3,...,t_m | t_c) \tag{2}\\ \end{aligned} y^c=P(t1,t2,t3,...,tmtc)(2)
       其中 t 1 , t 2 , t 3 , . . . , t m t_1,t_2,t_3,...,t_m t1,t2,t3,...,tm 是上下文场所类型, t c t_c tc 是中心场所类型。为了计算概率,我们应用 Naive Bayes 假设。请注意, y c y_c yc 将永远是 1 。最后,我们使用 softmax 函数将分数转化为概率,并用矢量表示代替 POI 类型。目标函数定义为:
m i n i m i z e J = − l o g ∏ t = 1 m e x p ( u t T v c ) ∑ k = 1 ∣ T ∣ e x p ( u k T v c ) (3) \begin{aligned} minimize \quad J=-log\prod_{t=1}^{m} \frac{exp(u_t^Tv_c)}{\sum^{|T|}_{k=1}{exp(u_k^Tv_c)}} \tag{3}\\ \end{aligned} minimizeJ=logt=1mk=1Texp(ukTvc)exp(utTvc)(3)其中 u t u_t ut v c v_c vc 分别是上下文地点类型向量和中心地点类型向量; ∣ T ∣ |T| T 是一个 POI 类型的基数(cardinality),即其扩展。我们在 TensorFlow 中使用Mini-Batch Gradient Descent和Noise-Contrastive Estimation[21]实现该模型。

4.2 Naive的空间背景

       利用地理空间结构的一个直观方法是,根据中心地点类型和背景地点类型的共同出现,对空间背景进行天真地建模。我们把上下文地点类型表示为 t c o n t e x t t_{context} tcontext,中心地点类型表示为 t c e n t e r t_{center} tcenter 。这种天真的方法忠实于原始的 Word2Vec 模型,并使用近邻方法捕捉空间背景信息。与自然语言的顺序性不同,Yelp中的兴趣点分布在一个二维地理空间中。因此,我们没有使用固定大小的滑动窗口来构建 ( t c e n t e r , t c o n t e x t ) (t_{center}, t_{context}) (tcenter,tcontext) 对,而是在每个中心兴趣点周围创建空间缓冲区来检测 k 个最近的邻居兴趣点并记录它们各自的地方类型作为我们的训练对。由于每个中心POI l i l_i li 和每个环境POI l j l_j lj 可以分别有一组场所类型 T l i T_{l_i} Tli T l j T_{l_j} Tlj,我们使用笛卡尔积 T l i × T l j = { ( t c e n t e r , t c o n t e x t ) ∣ t c e n t e r ∈ T l i ∧ t c o n t e x t ∈ T l j } T_{l_i} ×T_{l_j} = \{(t_{center},t_{context})|t_{center}∈T_{l_i} ∧ t_{context}∈T_{l_j}\} Tli×Tlj={(tcenter,tcontext)tcenterTlitcontextTlj} 来获得每个中心 POI 和候选环境 POI 的训练对。当我们遍历所有中心和上下文 POI 时,我们将这些训练对附加到训练数据SCnaive的最终列表中。

4.3 简单的增强型空间背景

       在天真的空间背景下,地理成分,即距离,仅仅被用作搜索街区的标准,而不是直接建模。在这第二种方法中,我们通过纳入距离衰减 与/或 聚合签到计数(作为相对流行或主导地位的代理)来增强天真的空间背景。这种方法背后的原理是,我们承认距离和人类活动都是建模 POI 类型潜在表征的重要组成部分,因此,希望通过单独和组合建模来研究它们如何对最终结果作出贡献。在这里,我们把一个 POI 点 l i l_i li 的受欢迎程度 P l i P_{l_i} Pli 定义为与 l i l_i li 相关的总签到数。通过增强空间背景,我们将 ( t c e n t e r , t c o n t e x t ) (t_{center},t_{context}) (tcenter,tcontext) 元组在训练数据集中出现的次数增加了 β \beta β,其中 β ∈ { n ∣ n ∈ Z , n ⩾ 1 } \beta∈\{n|n∈Z,n ⩾ 1\} β{nnZ,n1}
       对于单独纳入活动,系数β被定义为:
β c h e c k i n l j = ⌈ 1 + l n ( 1 + P l j ) ] ⌉ (4) \begin{aligned} \beta^{l_j}_{checkin}=\lceil1+ln(1+P_{l_j})]\rceil \tag{4}\\ \end{aligned} βcheckinlj=1+ln(1+Plj)](4)其中 β c h e c k i n l j β^{lj}_{checkin} βcheckinlj 是训练元组 ( t c e n t e r , t c o n t e x t ) (t_{center}, t_{context}) (tcenter,tcontext) 在上下文 POI 为 l j l_j lj 时的增强因子。这是一种外在的增强方法。
       为了单独纳入距离衰减,我们将增强因子定义为:
β d i s t a n c e l j = ⌈ 1 + ∑ k = 1 ∣ L ∣ P l k ∣ L ∣ 1 + d α ( l i , l j ) ⌉ (5) \begin{aligned} \beta^{l_j}_{distance}=\lceil \frac{1+\frac{\sum^{|L|}_{k=1}P_{lk}}{|L|}}{1+d^{\alpha}(l_i,l_j)}\rceil \tag{5}\\ \end{aligned} βdistancelj=1+dα(li,lj)1+Lk=1LPlk(5)其中|L|是POI的总数, d ( l i , l j ) d(l_i,l_j) d(li,lj) 是中心 POI l i l_i li 和上下文POI l j l_j lj 之间的距离,而 α 是反距离系数,在我们的案例中设置为1。分子是给定 POI 数据集的一个平滑常数。这是一种内在的增强方法。
       为了将距离衰减和空间背景下的人类活动结合起来,将内在和外在的方法结合起来的增强因子被定义为:
β c o m b i n e d l j = ⌈ 1 + l n ( 1 + P l j ) 1 + d α ( l i , l j ) ⌉ (6) \begin{aligned} \beta^{l_j}_{combined}=\lceil \frac{1+ln(1+P_{l_j})}{1+d^{\alpha}(l_i,l_j)}\rceil \tag{6}\\ \end{aligned} βcombinedlj=1+dα(li,lj)1+ln(1+Plj)(6)
       正如人们所看到的,所提出的增强因子是基于背景POI的签到以及中心POI到背景POI的距离,从而在空间背景中纳入更多的地理信息。事实上,天真的空间环境是增强的空间环境的一个特例,其中因子β等于1。对于简单的增强空间背景,我们的假设是,作为背景的POI的受欢迎程度对中心POI有积极的影响,而背景POI对中心POI的影响则随着它们之间距离的增加而减少。通过在这些地理成分的基础上设置一个增强因子β,我们以一种揭示地理空间中更多潜在信息的方式拉伸POI类型的原始分布。举一个直观的例子来说明我们的原理,一个单一的体育场和体育馆类型的地方可能会主宰一个社区,而许多单独的停车位和酒吧尽管频率较高,但只起到支持性的作用。

4.4 ITDL增强的空间环境

       虽然简单的增强空间环境方法直接对距离和人类活动进行建模,但增强因素只适用于使用k-近邻方法的原始空间环境。在这个意义上,情境中的POI被限制在k个最近的邻居,而不管它们离中心POI有多远或多近。然而,不同的地方类型很可能遵循不同的空间分布,形成不同的空间集群。例如,餐馆类型的地方可能与许多其他类型的地方(如酒店、酒吧和百货公司)紧密相连,产生一个密集的空间集群,而警察局类型的POI和其他地区服务的地方与附近的地方(通过其类型)相比,将显示出非常不同的模式。这种空间变化意味着在不同的距离内可以捕获不同的空间背景信息。此外,对于这类类型,我们所关注的距离迅速增加,因此,天真地对搜索缓冲区或最近邻居的数量设置一个单一的阈值,将导致许多不同地方类型的空间背景同质化,从而牺牲了空间异质性和众多的区分地理空间语义特征。有鉴于此,我们建议为每个POI设置多个不同的空间背景。受Kriging等空间统计中的半变量图的启发,我们利用距离滞后,即离散分档,来构建我们的空间语境。这种通过给定滞后期的分档也调整了地方中心点的不确定性(也称为容忍度)。事实上,以前的工作表明,不同的数据库供应商,如Yelp和Foursquare,其POI的中位距离是63米[17]。在下文中,我们将使用h=100米的滞后距离。
       我们为每个距离滞后使用一个默认的距离仓宽度,从而为同一个POI产生多个空间背景。每个空间背景都可以用来学习一个潜在的表征,该表征编码了中心POI类型和所述距离仓内的背景POI类型之间的分布语义。我们采用这种方法的理由是,由于地方的性质(和功能)以及它们与其他地方和地区的互动,一个包罗万象的空间背景,即使加上距离衰减和人类活动,也不足以理解地理模式的整体变化。相反,我们建议首先通过将连续的地理空间,即距离划分为离散的滞后期来捕捉地方背景,然后将这些不同滞后期的语义信息结合起来,以获得每个地方类型的更全面的全球视野;见图2
在这里插入图片描述

       由于我们的目的是捕捉不同地方类型之间的空间互动,我们希望在此基础上设置我们的空间环境的最大阈值。我们将 D t i D_{t_i} Dti 定义为同一类型 t i t_i ti 的成对 POI 距离的集合。对于每个 POI 类型 t i t_i ti,我们计算最小的类内距离 m i n ( D t i ) min(D_{t_i}) min(Dti),并使用这些类内距离的最大值作为我们空间背景的阈值 TS(这里是每个类型下限的最大值):
T S = m a x ( m i n ( D t 1 ) , m i n ( D t 2 ) , m i n ( D t 3 ) , . . . , m i n ( D t n ) ) (7) \begin{aligned} TS=max(min(D_{t_1}),min(D_{t_2}),min(D_{t_3}),...,min(D_{t_n})) \tag{7}\\ \end{aligned} TS=max(min(Dt1),min(Dt2),min(Dt3),...,min(Dtn))(7)这是最大的距离值,对于所有地方类型中的至少一种类型,以搜索不会遇到与中心相同类型的背景 POI。这个 TS 值有助于捕捉尽可能多的类间空间互动。因此,对于每个中心POI,有 s = ⌊ T S h ⌋ s=\lfloor\frac{TS}{h}\rfloor s=hTS 个空间环境。
       对于每个空间背景,我们提出了一种新颖的信息论、距离滞后的增强方法。简单的增强空间背景考虑到了距离衰减和人类活动,而在ITDL增强空间背景中,我们关注的是当地环境中的人类活动以及每个距离仓中每个地方类型的独特性。纳入人类活动的第一个组成部分被定义为:
A = − l o g 2 ( 1 − P t j 1 + ∑ k = 1 ∣ M ∣ P t k h ) (8) \begin{aligned} A= -log_2(1-\frac{P_{t_j}}{1+\sum^{|M|}_{k=1}P^h_{t_k}})\tag{8}\\ \end{aligned} A=log2(11+k=1MPtkhPtj)(8)其中 P t j P_{t_j} Ptj 是一个地方类型 t j t_j tj 的受欢迎程度(签到次数), ∑ k = 1 ∣ M ∣ P t k h \sum^{|M|}_{k=1}P^h_{t_k} k=1MPtkh 是一个宽度为 h 的距离仓内所有地方类型的签到次数总数。这是一个关于 P t j 1 + ∑ k = 1 ∣ M ∣ P t k h \frac{P_{t_j}}{1 + \sum^{|M|}_{k=1}P^h_{t_k}} 1+k=1MPtkhPtj 的单调递增函数,这意味着如果一个地方类型在仓内所有地方类型中具有很高的受欢迎程度,这个组件值将非常高。第二个分量采用了信息论中的信息含量(这里指的是惊奇)的概念来模拟给定一个距离仓的地方类型的唯一性:
U = − l o g 2 ( F t j h ) (9) \begin{aligned} U=-log_2(F^h_{t_j})\tag{9}\\ \end{aligned} U=log2(Ftjh)(9)其中 F t j h F^h_{t_j} Ftjh 是在一个距离仓中遇到地方类型tj的概率。U 本质上代表了一个距离仓内的地方类型 t j t_j tj 的信息含量。较大的 F t j h F^h_{t_j} Ftjh 值将导致信息含量减少。最后,我们用一个凸组合来整合这两个部分,我们的ITDL增强被定义为:
β I T D L l j = ⌈ ω A + ( 1 − ω ) U ⌉ (10) \begin{aligned} \beta^{lj}_{ITDL}=\lceil\omega A+(1-\omega)U\rceil\tag{10}\\ \end{aligned} βITDLlj=ωA+(1ω)U(10)其中 ω 和 1-ω 是各部分的权重。直观地讲,这使我们能够区分高度流行的独特地方(某种类型的)和凭借其类型而流行的地方。算法1显示了构建ITDL增强的空间环境 S C I T D L SC_{ITDL} SCITDL 的详细程序。为了提高该算法的效率,我们将整个任务分成 s 个可以并行运行的任务,因此每个工作者只为一个距离仓构建空间背景。简而言之,对于 ITDL 增强方法,我们使用单独的情境设置来捕获外在成分,如地方类型的流行性和独特性,并使用多个空间情境仓组合来捕获内在成分,如距离和空间变化。
在这里插入图片描述


5 评估方案

       在这一节中,我们介绍了三种不同的基础真理,我们建立这些基础真理来评估我们提出的方法。这些基础事实的结果也可以用来评估其他涉及地方类型相似性和关联性的任务。我们利用这个自上而下的层次结构,评估我们自下而上的方法能够在多大程度上接近Yelp的层次结构。第二个基础事实是通过Amazon Mechanical Turk的人类智能任务(HIT)获得的,这是一个二进制测试。第三个是通过另一个HIT获得的,它为不同的POI类型提供相似性和关联性排名。这三个基础事实结果,一个使用来自Yelp的自上而下的信息,另外两个由人类评委提供,为我们的工作提供了一个全面的评价。

5.1 基于层级的评估方案

       原始的Yelp分类为我们提供了一种自然的方式来计算不同POI类型基于其层次结构的相似性和关联性。对于我们的任务来说,有两种主要的方法来衡量(语义)相似性和关联性:基于分布的措施和基于知识的措施[7]。虽然我们提出的方法旨在捕捉分布式语义,但从Yelp类别中得出的评价方案属于基于知识的衡量方法。对于这类措施,已经提出了众多的模型。总之,基于边缘的度量和基于信息内容的度量是两个广泛使用的子组。在我们的研究中,我们从每个子组中选择两个措施来形成我们的评价方案。此外,由于基于信息内容的衡量标准取决于信息内容的定义,我们也选择了两种不同的信息内容定义,以便提供一个更全面的评价方案。最后,我们有6种基于Yelp层次的不同测量方法。
       第一个基于边缘的测量是由Wu & Palmer[27]提出的,它被定义为:
S I M W P ( t 1 , t 2 ) = 2 N 3 N 1 + N 2 + 2 N 3 (11) \begin{aligned} SIM_{WP}(t_1,t_2)=\frac{2N_3}{N_1+N_2+2N_3}\tag{11}\\ \end{aligned} SIMWP(t1,t2)=N1+N2+2N32N3(11)
t l c s t_{lcs} tlcs被定义为地方类型 t 1 t_1 t1 t 2 t_2 t2 的最小共同超类。 N 1 N_1 N1 是从 t 1 t_1 t1 t l c s t_{lcs} tlcs 的最短路径。 N 2 N_2 N2 t 2 t_2 t2 t l c s t_{lcs} tlcs 的最短路径。N3 是从tlcs到根的最短路径。第二个基于边缘的测量是由Leakcock & Chodorow[13]提出的:
S I M L C ( t 1 , t 2 ) = − l o g ( N 2 D ) (12) \begin{aligned} SIM_{LC}(t_1,t_2)=-log(\frac{N}{2D})\tag{12}\\ \end{aligned} SIMLC(t1,t2)=log(2DN)(12)其中 D 是分类法的最大深度,N 是地方类型 t 1 t_1 t1 t 2 t_2 t2 之间的最短路径。
       对于基于信息含量的测量,我们使用Lin[15]和Jiang & Conrath[11]提出的模型。他们的定义分别如公式13和公式14所示。 I C IC IC 是每个地方类型的信息含量, t l c s t_{lcs} tlcs 是 Yelp 层次中地方类型 t 1 t_1 t1 t 2 t_2 t2 的最小共同超类。Jiang & Conrath的方法计算了 t 1 t_1 t1 t 2 t_2 t2 之间的距离,所以相似度等于 S I M J C ( t 1 , t 2 ) = 1 / D I S J C ( t 1 , t 2 ) SIM_{JC} (t_1,t_2) = 1/DIS_{JC}(t_1,t_2) SIMJC(t1,t2)=1/DISJC(t1,t2)
S I M L i n ( t 1 , t 2 ) = 2 I C ( t l c s ) I C ( t 1 ) + I C ( t 2 ) (13) \begin{aligned} SIM_{Lin}(t_1,t_2)=\frac{2IC(t_{lcs})}{IC(t_1)+IC(t_2)}\tag{13}\\ \end{aligned} SIMLin(t1,t2)=IC(t1)+IC(t2)2IC(tlcs)(13)
D I S J C ( t 1 , t 2 ) = I C ( t 1 ) + I C ( t 2 ) − 2 I C ( t l c s ) (14) \begin{aligned} DIS_{JC}(t_1,t_2)=IC(t_1)+IC(t_2)-2IC(t_{lcs})\tag{14}\\ \end{aligned} DISJC(t1,t2)=IC(t1)+IC(t2)2IC(tlcs)(14)
       in和Jiang & Conrath提出的两个模型都依赖于信息内容的定义,所以我们也包括两个不同的信息内容定义,可以从地方类型的层次结构中计算出来。Sánchez等人[24]提出的信息含量定义为:
I C S a n c h e z = − l o g ( ∣ l e a v e s ( t i ) ∣ ∣ s u b s u m e r s ( t i ) ∣ + 1 m a x _ l e a v e s + 1 ) (15) \begin{aligned} IC_{Sanchez}=-log(\frac{\frac{|leaves(t_i)|}{|subsumers(t_i)|}+1}{max\_leaves+1})\tag{15}\\ \end{aligned} ICSanchez=log(max_leaves+1subsumers(ti)leaves(ti)+1)(15)其中 ∣ l e a v e s ( t i ) ∣ |leaves(t_i)| leaves(ti) 是层次结构中地方类型 t i t_i ti 的叶子数量, ∣ s u b s u m e r s ( t i ) ∣ |subsumers(t_i)| subsumers(ti)是层次结构中比 t i t_i ti 更一般的地方类型数量, m a x _ l e a v e s max\_leaves max_leaves 是根地方类型的叶子数量。Seco等人[25]提出的信息含量定义为:
I C S e c o = 1 − l o g ( ∣ h y p o ( t i ) ∣ + 1 ) l o g ( m a x _ t y p e s ) (16) \begin{aligned} IC_{Seco}=1-\frac{log(|hypo(t_i)|+1)}{log(max\_types)}\tag{16}\\ \end{aligned} ICSeco=1log(max_types)log(hypo(ti)+1)(16)其中 ∣ h y p o ( t i ) ∣ |hypo(t_i)| hypo(ti) 是比 t i t_i ti 更具体的 POI 类型的数量, m a x _ t y p e s max\_types max_types 是层次结构中类型的最大数量。将这些信息内容的定义与Lin和Jiang & Conrath的方法结合起来,可以得出四个衡量标准。
       通过使用这些语义相似性措施,我们计算出Yelp地点类型的成对相似性。由于这六种测量方法在测量内容上有所不同,因此得出的分数也略有不同。根据相似度得分,对于每个地方类型,我们产生一个相似地方类型的排名,从最相似到最不相似。我们为Yelp中的每个POI类型获得了六组不同的排名。为了确认这个评价方案的有效性,我们使用肯德尔协调系数W来评估这六组排名之间的一致性。所有(1030个)地方类型在六个测量中的平均Kendall’sW是0.981,表明测量之间几乎完全一致。此外,在我们的实验中,我们使用了93个地方类型的子集(见第6节),协调性仍然稳定在0.979。这一结果意味着我们基于场所类型层次的评价方案是有效的。为了评估这一结果,我们模仿地理信息检索的任务,例如,根据给定的地方类型找到最相似的地方类型。通过选择1030个排名中的第一个地方类型,我们可以得到所有六个测量的结果。为了评估我们的潜在表征,我们根据增强的空间语境,使用成对相似度生成我们自己的每个地方类型的排名,并使用平均互换等级(MRR)来测试我们方法的性能。

5.2 二进制HIT评估方案

       基于层级的评价方案有一些潜在的缺点。首先,等级制度是由一小部分人创建的,这可能会导致偏见的产生。此外,在这个有1000多个地方类型(节点)的层次结构中,平均路径长度只有1.73,这表明分类法非常浅。这将导致在使用层次结构生成的排名中出现平局。最后,层次结构总是编码一些基本的本体论承诺,例如,将艺术和娱乐归入一个共同的类别。因此,除了基于层次结构的评价之外,我们还利用亚马逊的Mechanical Turk来进行二元HIT评价方案。
       对于HIT任务,我们产生了80个三联体,三联体中的每个元素都是一个场所类型。例如,其中一个三联体是(牙医、教育、牙齿矫正师)。我们的任务是从每个三联体中选择与其他两个三联体最不相似的地方类型。对于三联体中的每个地方类型,人类法官将作出二元决定;见图3。我们在Amazon Mechanical Turk上发布了HIT任务,这80个测试中的每一个都是由25个人类工作者完成的。每个测试的最终结果是由25个人类工作者的模式答案决定的。例如,测试(牙医、教育、矫正师)的最终答案是教育,因为这是最经常被排除的类型。
       为了评估由增强的空间语境产生的潜在表征,对于每个三联体,我们使用2-组合计算成对的相似性分数。例如,对于上述三联体,我们计算三对(牙医、教育)、(牙医、正畸医生)和(教育、正畸医生)的相似性分数。我们挑选分数最高的一个,并使用我们的方法返回另一个地方类型作为这个测试的结果。例如,如果(牙医,正畸医生)的分数最高,那么教育就是我们方法的结果。我们对所有三联体的不同方法的准确性进行评估。
在这里插入图片描述

5.3 基于排名的HIT评估方案

       虽然基于二进制的HIT评价可以通过依靠人类评委来补充Yelp的分级任务,但这个任务相对来说是比较容易的。因此,对于基于排名的HIT评价方案,我们希望使用人类评委来为每个地方类型生成一个排名结果。我们选择了10个地方类型,对于每个地方类型,我们选择了7个候选地方类型进行排名,所以总共有70个POI类型对。我们要求亚马逊Mechanical Turk上的25名人类评委在1-7的范围内对这些对中的每一个的相似度进行评分。在研究语义相似性的背景下,这样的任务可以被认为是非常具有挑战性的[10],并且需要更加关注用户界面的设计(图4),以调整人类相似性判断的一些众所周知的特征,特别是这种判断是已知的非对称性。此外,我们选择了一个基于滑块的设计,以方便成对的视觉比较;见[6]。
在这里插入图片描述

       在收到结果后,我们有来自25位人类评委对每个地方类型的排名。为了检查排名是否一致,从而检查任务是否有意义,我们使用Kendall的协调系数W来评估评委之间的一致分数。测试中所有地方类型的平均Kendall’s W得分是0.79,这表明一致性非常高。
       为了使用提议的增强空间语境来评估我们的地点嵌入,我们根据成对的相似度得分为每个地点类型生成一个排名。然后,我们计算我们的排名和来自HIT任务的排名之间的平均Spearman等级相关系数,作为评估我们模型性能的标准。

6 实验和结果

       在本节中,我们讨论了评估我们工作的实验及其结果。我们还指出了我们工作中出现的一个有趣的研究问题。首先,我们必须定义POI类型嵌入的维数。接下来,我们将我们的嵌入与从谷歌新闻语料库中训练出来的最先进的词嵌入作为基线,使用所提出的评价方案进行比较,以重申增强空间语境以从地理空间获得更丰富的语义信息的必要性。此外,我们利用降维技术对来自不同增强空间语境的不同嵌入空间进行了可视化分析,并将地方类型简介作为理解地方类型相似性和相关性的可视化辅助工具。最后,我们简要地看一下从我们的工作中产生的一个非常有趣的研究问题,即仅仅使用POI类型的一个子集来学习所有的POI类型是否有压缩的潜力。从城市规划的角度来看,这个问题也可以从总结的角度来构思,问是否有某些地方的类型表明了一个街区(当被建模为一组POI时)。

6.1 选择维度

       潜在表征模型的一个重要参数是嵌入向量的维数。由于与自然语言的词汇量相比,地方类型的总数相对较少,我们选择了从10到100的维度,步骤间隔为10,以确定我们模型的最佳维度数。由于我们希望在空间环境中结合内在和外在的信息,我们重点使用这个任务中的增强因子 β c o m b i n e d l j \beta^{l_j}_{combined} βcombinedlj,它考虑到了地理距离和POI流行度的影响。图5显示了使用基于Yelp层次结构的评价方案、二元HIT测试和基于排名的HIT的维度测试结果。虽然六个测量值的绝对值有差异,但总体趋势非常相似。它表明,使用70个维度可以产生最好的整体结果,我们将在下面描述的实验中使用这个数字。
**加粗样式**

6.2 比较

       通过引入增强的空间语境,我们想证明潜伏在地理模式中的语义信息的丰富性。首先,为了证明POI类型嵌入的必要性,我们将从谷歌新闻语料库中训练的词嵌入与从Yelp POI和我们的增强空间语境中训练的地点类型嵌入的评估结果进行比较。词嵌入已被用于各种信息检索任务,并经常被用作地理信息检索的代理。然而,许多词嵌入技术只考虑单字,如谷歌的预训练的Word2Vec嵌入,这意味着它们不适合许多地名类型,如汽车维修。此外,正如上文所论证的,地理空间与单词空间有本质的不同,因此,单词嵌入缺乏捕捉不同地理实体之间的空间互动和距离(衰减)效应的能力,而这是衡量地方类型相似性和关联性的重要因素。
       为了支持我们的论点,我们用不同的空间语境,即一个用天真的空间语境,四个用增强的空间语境,将单词嵌入与提议的地方类型嵌入进行了比较。回顾一下,在ITDL增强的空间语境中有一个权重参数ω,用来调整A(活动性)和U(唯一性)的相对重要性。我们测试了我们的模型,ω值从0.1到1不等,0.1为步长区间。我们的TS值为2644.5米,因此,对于ITDL方法和100米的滞后,每个ω值的空间背景总数为s = ⌊2644.5/100⌋ = 26。最后,我们可以得到234个不同的增强空间语境,并使用平行线程从每个语境中学习地方类型嵌入。为了比较评估结果,对于每个ω值,我们测试26个仓中每个仓的性能,并将前五个仓的嵌入向量串联起来,生成350维的最终地方类型嵌入。我们使用最佳的ω值作为我们的ITDL增强空间语境的最终结果。
       我们使用基于层次的评价方案和二元HIT评价方案将预训练的Google Word2Vec结果与我们的地方类型嵌入进行了比较。SCnaive是没有增强的空间环境。SCcheck in, SCd ist ance, SCcombined和SCIT DL是第四节中详细介绍的方法。表1显示了基于层次结构的评估结果。如前所述,使用谷歌新闻语料库训练的词嵌入只包含单字,所以我们选择一个子集(93个地方类型)作为我们的测试数据。所有的方法都使用第5节中描述的六种措施进行测试。表2显示了二进制和基于排名的HIT结果。层次和二元评价显示,通过使用空间语境获得的结果,即使没有任何增强,也大大优于纯粹基于语言学角度的结果,从而也显示了我们的方法比第2节中概述的先前工作的好处。这证实了我们的假设,即地理空间承载着丰富的潜在语义信息,而这些信息是单靠词汇空间无法捕捉的。对于基于排名的评估方案,我们放弃了Google Word2Vec嵌入,以便能够使用大词,并且因为使用单纯的语言环境已经在两个较简单的任务中表现不佳。在所有三项评估中,ITDL增强的空间语境能够模拟更多的语义信息,因此,在地方类型相似性测试中产生了更好的结果。ρ为0.7,即与人类的判断有很强的相关性,准确率为0.95,这在更难的HITs中变得最为明显。这是一个了不起的结果,因为人类利用更丰富的信息来推理相似性,例如,类型标签的含义(和相似性),背景知识,例如,关于亚洲食品相似的文化和历史原因,等等。在财务上,值得一提的是,短距离以及长距离的仓对这些结果有贡献,例如,最高的ρ是由4-17-1-5-24仓的串联得到的(ω=0.1),其中24代表离中心POI 2400米处的100米距离滞后。
在这里插入图片描述
在这里插入图片描述

6.3 地方类型简介

       虽然我们在评估中使用了串联的地点类型嵌入,但单个增强的空间环境可以单独用于分析不同地点类型的特征。在这里,我们提出了一个三维可视化,即地方类型简介,作为一个工具来比较不同的POI类型和它们的语义关系。我们使用t-Distributed Stochastic Neighbor Embedding(t-SNE)[16]将我们在每个距离仓中的地点类型嵌入减少到两个维度,然后将这些二维空间中的每一个堆叠在一起,建立一个三维轮廓。图6显示了在ω=0.5条件下生成的选定类型的剖面图,x轴和y轴是使用t-SNE降维后的两个组成部分,z轴是距离仓。
在这里插入图片描述

       人们可以看到,酒吧、餐馆和酒店总是聚集在一起,无论它们在哪个距离仓中。警察部门在每个仓中都有一定的距离。健康和医疗仍然远离所有其他类型的POI。这种模式表明,酒吧、餐馆和酒店在每个距离区间都有非常相似的背景,这意味着它们与其他兴趣点类型的互动方式相似。在接下来讨论压缩潜力时,我们将回到这个论点。

6.4 场所类型压缩

       到目前为止,我们的实验都是基于所有的POI类型,这意味着我们使用所有的类型为每个增强的空间环境生成我们的训练数据,并运行潜在表示模型来检索地方类型嵌入。然而,这种方法是很耗时的,因为(tcenter,tcontex t)对的数量在以后的距离区间内会增加,而且也可能导致过度拟合。为了获得更简洁的结果,我们提出了地方类型压缩的新想法。我们的直觉是,许多地方类型,如餐馆和夜生活,都是按照类似的模式与其他类型(通过他们的POI)共同定位的。因此,我们的假设是,这些类型可以作为代理,例如,我们可以省略所有的夜生活场所(以及它们的17个子类型的场所),仍然可以为包括夜生活在内的所有类型学习良好的嵌入。一些地方类型,如专业服务,与其他地方类型的互动模式较弱,因此很难用其他POI类型来代表它们。
       为了测试我们的假设,我们选择了四个不同的根基场所类型。餐馆、夜生活、专业服务以及健康和医疗。我们在训练中从背景POI类型中删除这些地方类型及其子类型,并使用ITDL增强的空间背景运行我们的模型。此外,我们在运行我们的模型时删除了这四种类型以外的所有18种地方类型(共有22种根地方类型)。表3显示了二元HIT评估的准确性结果和基于排名的HIT的Spearman’s ρ结果。结果显示,放弃餐馆或夜生活对最终嵌入的影响不大,而放弃专业服务或健康和医疗将导致性能的(小)下降。因此,考虑到所研究的570个类型,即使从这些类型中删除69个,例如,通过删除餐馆的超类型,我们也会有足够的代理类型,即以类似方式与其他类型互动的类型。然而,放弃18个地方的超类型,并试图仅仅在剩下的4个超类型上生成嵌入,将导致大幅减少。这证实了我们的假设,即我们可以压缩我们的模型,并且仍然可以获得高质量的地方类型的潜在表示。
在这里插入图片描述


7 结论和未来工作

       在这项研究中,我们提出了一种新的方法,即增强的空间语境,通过学习向量嵌入并使用它们来推理地方类型的相似性和关联性来捕捉地方类型的语义,这是地理信息检索的一个常见前提条件。通过将使用所提出的方法生成的地方类型嵌入与最先进的词嵌入进行比较,我们能够表明我们的信息理论、距离滞后的增强空间语境大大超过了基线,并更好地捕捉了潜在的语义信息。我们还建立了三种不同的评估方案来系统地评估所得到的POI嵌入。我们在网上公布了嵌入以及HIT的结果,以促进可重复性,并希望它们可以被其他从事地方类型矢量表示的人重新使用。我们使用地方类型简介作为可视化不同地方类型之间语义关系的一种方式。最后,我们概述了指示性POI类型的想法及其在压缩中的使用,作为一种新的研究途径。
       在未来,我们将更详细地探索地点类型压缩,以确定不同的POI类型组合如何影响整个地点类型嵌入的质量,并将跟进使用它们来总结街区的想法。最后,我们在这里关注的是测地距离,但我们的方法可以在未来的工作中得到推广,例如使用L1距离(出租车)。

  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值