DisenPOI Disentangling Sequential and Geographical Influence for Point-of-Interest Recommendation

最新推荐文章于 2024-09-14 20:22:29 发布

海豚没有海

最新推荐文章于 2024-09-14 20:22:29 发布

阅读量876

点赞数 25

分类专栏：推荐算法论文阅读 POI 文章标签：论文阅读推荐算法

本文链接：https://blog.csdn.net/weixin_43954673/article/details/138113650

版权

论文阅读同时被 3 个专栏收录

17 篇文章 0 订阅

订阅专栏

推荐算法

16 篇文章 0 订阅

订阅专栏

POI

6 篇文章 0 订阅

订阅专栏

论文阅读——DisenPOI: Disentangling Sequential and Geographical Influence for Point-of-Interest Recommendation

DisenPOI：解开兴趣点推荐的顺序和地理影响

代码仓库：https://github.com/Yifang-Qin/DisenPOI

摘要

兴趣点（POI）推荐在各种位置感知服务中发挥着至关重要的作用。据观察，POI 推荐受到顺序和地理影响 的驱动。然而，由于在推荐过程中没有对主导影响进行标注，现有的方法往往将这两种影响纠缠在一起，这可能会导致推荐性能次优和可解释性差。在本文中，我们通过提出 DisenPOI 来解决上述挑战，这是一种新颖的用于 POI 推荐的解缠结双图框架 ，它联合利用两个独立图上的顺序关系和地理关系，并通过自我监督来解开这两种影响 。与现有方法相比，我们的模型的关键新颖之处在于通过对比学习提取顺序和地理影响的解开表示 。具体来说，我们根据用户的签到顺序构建了一个地理图和一个时序图。我们定制他们的传播方案，使其具有序列/地理意识，以更好地捕获相应的影响。从签入序列中提取偏好代理作为两种影响的伪标签，通过对比损失来监督解开。对三个数据集的广泛实验证明了所提出模型的优越性。

1 INTRODUCTION

最近的 POI 推荐工作致力于将地理影响与用户签到数据的顺序转换相结合。尽管目前很多的 POI 推荐具有多功能性，但很少有方法可以明确揭示协作信号。用户和 POI 之间的复杂交互可以很容易地用图来描述，因此一种有前景的方法是利用丰富的图结构 来利用 POI 之间的高阶连接。

图神经网络（GNNs）可以很好的捕获高阶邻居之间的相似性，但是目前的工作没有利用地理关系 这一突出的特征。

作者认为序列影响和地理影响应该被视为平等的对应物，都是POI推荐中的重要驱动力量。一方面，用户可能会重新去相似的POI；另一方面，附近的POI也更有可能被访问。之前的方法没有试图区分这些因素。

在这里插入图片描述

对于地理和序列的双重影响，不应该是简单的组合，应该解开。描述用户偏好用更细的粒度和提高POI推荐质量。目前用于推荐的解开模型（disentanglement models）有用动态路由（dynamic routing）和自监督信号（self-supervised signals）。

目前两大挑战：（1）如何描述这两个高阶连接对用户签到数据的影响？（2）如何明确理清这两种对POI推荐的影响？

为了解决上述挑战，作者提出了 DisenPOI ，一种新颖的用于 POI 推荐的解缠结双图框架，它明确地模拟了对用户签到数据的顺序和地理影响。 DisenPOI 构建了两个解开的 POI 图：基于空间亲和力的地理图和基于交互历史的顺序图。为了更好地捕获不同图拓扑上的高阶连通性，提出了距离感知和序列感知 GNN 在相应的地理和顺序图上传播。作者采用对比学习方法以自我监督的方式解开图表示。在解开表示的帮助下，DisenPOI 可以提出反映顺序和地理影响的推荐。

贡献：

根据用户的访问交互构建对偶图，以共同利用顺序关系和地理关系，分别为两个图设计序列和地理感知传播方案，以提高嵌入质量。
作者建议提取顺序和地理影响的解开表示。序列和地理代理作为自监督信号获得。
对 POI 推荐的三个现实世界基准进行了广泛的实验。模型始终优于强大的基线，在所有三个基准数据集上实现了最先进的性能。

2 RELATED WORK

2.1 Location-based POI Recommendation

介绍了一些基于位置的POI推荐模型。

2.2 GNN-based Recommendation

GNN 通过传递和聚合从相邻节点收集的消息来学习图节点的隐藏表示。图结构存在于用户和项目之间，这使得GNNs成为建模推荐任务的理想模型。然而，每个观察到的交互都可能受到各种环境影响以及不同的用户兴趣的驱动。GNN 学习的表示无法轻易揭示这些**丰富的语义 ** 。

2.3 Disentangled Learning in Recommendation

解缠表示学习旨在从数据背后的不同潜在因素中学习单独的解释表示，目前的研究只对一种类型的图拓扑进行解缠学习，作者的模型使用2个解开的图来利用顺序和地理关系，并提取观察到的交互背后的丰富语义。

3 PRELIMINARY

定义了用户序列，历史签到序列，POI序列。地理图（无向），序列图（有向）

4 THE PROPOSED MODEL

在这里插入图片描述

四个模块：

给定用户的签到历史和目标POI，模型首先将涉及POI的ID映射到隐藏空间，以获得他们的初始嵌入。
构建2个图 $G_g$ 和 $G_s$ ，分别反应给定访问历史的地理特征和顺序特征。在绘制的图上使用两个图传播模块来从解开的视图生成表示。
应用软注意力机制 提取两个模块访问背后的用户偏好，以动态衡量访问过的POI和附近的POI对目标POI的影响。为了明确地将这种混合影响分解为两个独立的领域，我们引入了对比辅助损失 ，以确保每个模块能够从相应的 POI 图中提取分解的信息。
最后，我们使用 **MLP 层 ** 来聚合这些解开的表示并生成目标 POI 的 CTR 预测。

4.2 Propagation on Disentangled Graphs

图传播层对构建的图进行编码，并输出两组具有地理和顺序信息的 POI 表示。由于这两个解开的图是根据顺序/地理关系组织的，因此我们分别对它们应用序列/地理感知的图传播方案，以更好地利用每个图的内在特征。

4.2.1 Geographical Graph Propagation Layer. 给定基于位置的图 $G_g$ ，我们使用 GNN 的消息传递方案构建地理图传播层。

Message Construction.（信息构建） 对一对邻居POI $v_i,v_j$ 在第 $l$ 层的消息定义为：

在这里插入图片描述

其中 $f_d (·)$ 是消息编码函数，它从前一个 GNN 层获取项目表示 $h (l - 1)$ 。具体来说，第一层的输入使用 POI 的嵌入 $X$ 进行初始化：

在这里插入图片描述

$f_d (·)$ 的实现为：

在这里插入图片描述

其中 $W_1,W_2 ∈ \Bbb R^{D×D}$ 是可训练的权重矩阵，作为下层表示的线性变换。为了考虑距离的影响，包含了按元素生成的项目。距离核 $(d_{i j} ) = e^{−d^2_{ij}}$ 随着 $d_{i j}$ 呈指数衰减， $v_i$ 和 $v_j$ 之间的距离增大。我们使用图拉普拉斯范数（graph Laplacian norm），如 GCNs ，其中 $N_i$ 和 $N_j$ 分别表示 $G_g$ 上 $v_i$ 和 $v_j$ 的第一跳邻居。

Message Aggregation.（消息聚合） 为了在每个 GNN 层上生成节点表示，消息聚合函数定义为：

在这里插入图片描述

其中$ m_{j←j} = W_1h^{(l −1)}_j$ 由 $v_j$ 的表示导出。

沿着 $L$ 个 GNN 层传播后，我们采用第 $L$ 层的隐藏表示作为 $V$ 中所有 POI 的地理编码：

在这里插入图片描述

对于具有签到历史 $s_u$ 的用户 $u$ ，我们假设可以通过聚合他/她的签到历史中 POI 的高阶地理邻居来捕获他/她的地理偏好。实际上，用户的地理编码 $H_{g,u}$ 是 $s_u$ 中出现的所有 POI 的地理嵌入列表。

4.2.2 Sequential Graph Propagation Layer. 给定目标用户 $u$ 和构建的序列图 $G_{s,u}$ ，我们获得用户访问历史中每个项目的隐藏表示，以利用序列影响。用户的访问序列不仅包含他对 POI 的偏好信息，还包含他的兴趣的演变历史，这意味着他对下一个 POI 访问的倾向。作者采用图传播方法 ，可以充分利用会话图中的顺序信息，他使用门控图神经网络（GGNNs） 来更好地利用顺序信息。对于每个节点$ v_i ∈ G_{s,u}$ 及其嵌入 $x_i ，v$ 的隐藏表示更新为：

在这里插入图片描述

连接矩阵 $A_v \in \Bbb R^{|\mathcal V| \times 2|\mathcal V|}$ 确定 $G_{s,u}$ 中节点的连通性， $W_s和U_s$ 是可训练参数。受门循环单元（GRU）的启发，GGNN 按顺序在顺序图的所有节点上进行。隐藏状态的传播由更新门 $z^t_v$ 和重置门 $r^t_v$ 控制。我们得到最后一个隐藏层的输出作为 POI 的顺序编码：

在这里插入图片描述

4.3 Soft-attention Mechanism

在对两个图编码之后，作者介绍了一个软注意力机制根据当前的目标POI $v_t$ 去更好的聚合编码。

对于地理图编码 $H_{g,u}=[h_1, h_2, ..., h_{|s_u|}]$ ，将 $v_t$ 的隐藏表示 $h_t$ 表示为查询，即软注意力机制生成地理嵌入 $e_{g,u}$ 如下公式：

在这里插入图片描述

其中 $\sigma$ 表示sigmoid函数，注意力向量 $\alpha_g \in \Bbb R^D$ ，query和key矩阵 $Q_g,K_g \in \Bbb R^{D \times D}$ 是训练参数，相同的对于序列图 $H_{s,u}=[h_1', h_2', ..., h_{|s_u|}']$ ，我们让 $v_t$ 的初始嵌入为 $x_t$ 作为请求向量去生成序列嵌入 $e_{s,u}$ ：

在这里插入图片描述

4.4 Self-supervised Disentanglement

由于顺序效应和地理效应对下次访问 POI 具有不同的影响，因此必须区分这两种表示形式，让 $e_{g,u}$ 和 $e_{s,u}$ 相互分离，以便模型可以充分利用这些信息进行CTR预测。具体的，两个读出函数（readout）应用于图传播层的输出，我们选择均值池化作为读出函数，应用于地理邻居和用户之间访问过的POI，以生成两个代理 $e_{g,u}和e_{s,u}$ 。通常，我们有：

在这里插入图片描述

分别对 $s_u$ 的一跳地理邻居 $\mathcal N_{s_u}和s_u$ 进行均值池化。因为 $p_{g,u}和p_{s,u}$ 分别从2个不同的图中读出的，所以可以假设每个代理都携带其相应图特征的代表信息。

在发送嵌入及其代理来生成自监督信号之前，我们按照之前的工作[1]，为每个解开的表示设计了投影头（projection heads）。

在这里插入图片描述

[1] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 2020. A simple framework for contrastive learning of visual representations. In International conference on machine learning. PMLR, 1597–1607.

$proj_g和proj_S$ 是具有可训练参数的线性变换。投影头将嵌入投影到另一个潜在空间，可以轻松地澄清来自不同方面的信息。

作者将投影池表示 $p_{g,u'}和p_{s,u}'$ 视为 $e_{g,u}'和e_{s,u}'$ 的隐藏代理，这为自监督解缠带来了监督信号。对比损失函数：

在这里插入图片描述

$f (\cdot)$ 表示Bayesian Personalized Ranking loss[2]，通常，我们有：

在这里插入图片描述

$< \cdot,\cdot >$ 表示两个给定表示的内积。

[2] Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. 2012. BPR: Bayesian personalized ranking from implicit feedback. arXiv preprint arXiv:1205.2618 (2012).

4.5 Location-based CTR Prediction Layer

4.5.1 Model Prediction. 在获得用户访问历史的解纠缠嵌入 $e_{g,u}和e_{s,u}$ 后，我们将嵌入与目标 $v_t$ 的嵌入 $x_t$ 和地理表示 $h_t$ 连接起来。应用 2 层 MLP 来预测 $v_i$ 的点击率，即 $\hat y$ ，这是 CTR 预测中的常见做法 [3, 4]。形式上， $\hat y$ 的计算方式为：

在这里插入图片描述

[3] Guorui Zhou, Na Mou, Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep interest evolution network for click-through rate prediction. In Proceedings of the AAAI conference on artificial intelligence, Vol. 33. 5941–5948.

[4] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep interest network for click-through rate prediction. In Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 1059–1068.

4.5.2 Target Function and Curriculum Learning. 给定标签 $y$ ，我们采用二元交叉熵损失进行监督 CTR 预测，其公式为：

在这里插入图片描述

整体模型损失：

在这里插入图片描述

为了优化模型，作者提出了一种课程学习方法（a curriculum learning method），使训练过程遵循由易到难的过程。具体来说，我们通过动态增加对比损失的权重来通过预热程序来训练模型：

在这里插入图片描述

其中 $\alpha和\gamma$ 是超参数， $k$ 表示当前学习编号。在课程训练下，解开的力度会提升到最大。

5 EXPERIMENT

Datasets： Foursquare（Tokyo、New York）、Meituan

在这里插入图片描述

按时间顺序对每个数据集中记录的用户交互进行排序。所有访问过的 POI 以及对应的之前访问过的子序列构成了正样本。对于每个正样本，我们随机选择一个用户未访问过的 POI 作为负样本。每个用户的最后一次交互被保留用于评估，而剩余部分用于训练。然后将评估集随机分为两个大小相等的子集，分别作为测试集和验证集。

Baselines.

DIN (A): a classical method for sequence-based CTR prediction that uses target attention for user’s context embedding.
DIEN (A): a variant of DIN which leverages GRUs to capture the evolution of user interest.
SR-GNN (B): a graph-based method that models user’s interaction history as session graphs.
NGCF (B): a graph-based method that applies GNN on the user-item interaction graph.
LightGCN (B): a variant of NGCF. It’s one of the state-of-art methods for graph-based recommendation.
GeoIE ©: one of the state-of-art location-based recommendation methods, which takes the influence of geographical location and distance into consideration.

Evaluation: AUC、Logloss

实验结果详细看论文。