论文阅读——MMPOI- A Multi-Modal Content-Aware Framework for POI Recommendations

最新推荐文章于 2024-11-12 12:42:16 发布

yuqishen

最新推荐文章于 2024-11-12 12:42:16 发布

阅读量1.3k

点赞数 14

分类专栏：论文阅读推荐算法 POI 文章标签：论文阅读推荐算法

本文链接：https://blog.csdn.net/weixin_43954673/article/details/139418713

版权

MMPOI: A Multi-Modal Content-Aware Framework for POI Recommendations

ABSTRACT

兴趣点（POI）推荐系统旨在根据用户的签到顺序推荐未来潜在的访问，但面临着数据稀缺的挑战。这一挑战主要源于数据稀疏问题，即用户仅与少量 POI 进行交互。大多数现有研究试图通过关注 POI 签到序列来解决这个问题，而不考虑通常与 POI 相关的大量多模态内容信息（例如文本和图像数据）。在本文中，我们提出了一种新颖的 POI 推荐（MMPOI）多模式内容感知框架。我们的方法通过从新的角度整合有关 POI 的多模式内容信息来解决数据稀疏问题。具体来说，MMPOI利用预训练模型进行模态间转换，并采用统一的预训练模型从每个模态中提取模态特定的特征，有效地弥合了不同模态之间的语义差距。我们建议建立一个多模态轨迹流图（MTFG），它将多模态语义结构与签入序列相结合。此外，我们设计了一个自适应多任务 Transformer，它可以对用户的多模式运动模式进行建模，并将其集成到下一个 POI 推荐任务中。对四个真实世界数据集的大量实验表明，MMPOI 的性能优于最先进的 POI 推荐方法。为了促进可重复性，我们发布了代码和我们收集的多模式 POI 推荐数据集。

INTRODUCTION

介绍了什么是POI，解释了为什么POI推荐目前的挑战是数据稀疏性。
目前的方法倾向于结合辅助信息（side information）例如时间信息、地理信息、类别和社交关系；还有些方法利用超图和知识图谱来探索高阶用户 - POI 关系，或采用采样技术来减轻稀疏数据的挑战。然而，他们都没有考虑与POI相关的大量多模式内容信息（例如视觉和文字）。

受到多模态推荐方法和预训练语言模型的启发，作者提出使用预训练模型来有效利用POI的多模态内容信息，并将此类多模态信息整合到签到序列中，来提高POI推荐的准确性。

挑战：

不同情态内容的语义空间存在显著差异。
多模态数据包含大量噪声，可能会给POI推荐任务引入大量噪声从而影响准确性。
多模态内容和用户签到序列之间存在着显著的语义差别。

作者提出：一种新颖的 POI 推荐（MMPOI）多模式内容感知框架。

对于挑战1，文本和视觉模态之间的不同表示空间，MMPOI采用 image2text 预训练模型将POI图像转换为自然语言描述。随后，应用统一的预训练语言模型从每种模态中提取特征，从而将多模态内容映射到共享语义表示空间
对于挑战2，作者建立特定于模态的相似结构图来对POI的潜在语义相关性进行建模，并采用 kNN稀疏方法来过滤掉重要的关系。该策略有效减轻了多模态噪声对推荐准确性的影响
对于挑战3，作者提出了一种多模态轨迹流图（MTFG），它将多模态潜在语义关系与签入序列集成在一起。此外，我们构建了地理轨迹流图（GTFG）来捕获地理序列关系。
最后，作者通过考虑影响用户行为的各种因素来设计自适应多任务 Transformer。

贡献：

我们提出了一种新颖的 MMPOI 模型，通过结合 POI 的多模态内容信息来解决数据稀疏问题。据我们所知，我们的研究代表了利用 POI 的多模态内容信息进行下一个 POI 推荐的首次尝试。
MMPOI利用预训练模型将多模态内容映射到共享语义空间，并构建多模态轨迹流图，将去噪后的多模态知识与签到序列有效集成。此外，MMPOI 建立地理轨迹流图来提取地理序列模式，并采用自适应多任务 Transformer 来捕获用户的运动模式。
为了支持多模态 POI 推荐，我们收集了广泛使用的 Foursquare 数据集的多模态内容。在 Foursquare 和 Yelp 数据集上进行的实验表明，MMPOI 在推荐准确率方面比最强基线高出 8% - 11%。

RELATED WORK

Next POI Recommendation

早期工作基于Markov chains，重点是预测用户在POI之间的偏好来推荐下一次访问。

最近的研究经常使用RNN和自注意力机制。例如LSTPM、STAN。这些方法侧重于捕获单个签到序列中 POI 之间的时空关系，而没有很好地利用多个签到序列之间的关系。

为了解决这个问题，最近的一些研究结合了图表示学习技术。GETNext、AGRAN、STHGCN。然而，现有的 POI 推荐方法忽略了与 POI 相关的多模态内容信息。

本文介绍了一种用于 POI 推荐的多模式内容感知框架，标志着利用该框架的首次尝试。

Multi-Modal Recommendation

多模态推荐方法利用海量的多模态项目内容信息来提高推荐性能，在很多应用上都取得了成功，比如短视频平台、社交媒体平台、电商平台。

早期的方法倾向于将项目的多模态内容特征集成到矩阵分解框架中进行推荐。如VBPR、VECF。

近期大量方法整合GNNs去建模多模态特征，例如MMGCN、LATTICE。这些方法基于GCN建模并依赖 item 间的语义关系，但不能直接应用时空数据。

此外，一些方法介绍了用对比学习方法来融合多模态特征进行推荐。例如，BM3、MMSSL。

不同于这些多模态推荐方法，我们使用预训练模型将多模态数据映射到共享语义空间。然后使用KNN稀疏方法来滤除多模态数据中的噪声。此外，作者有效的将POI的多模态内容特征与签到序列列相结合已解决POI推荐任务。

THE PROPOSED METHOD

如图一，作者提出的MMPOI框架主要由4个主要的组成：

image2text pre-trained model 被用来转换POI图像到文本描述，然后使用统一的预训练语言模型从每种模态中提取特定于模态的特征。
POI 的模态特定特征被聚合并与用户签到序列相结合，构建用于 POI 表示学习的多模态轨迹流图。
建立地理轨迹流图来建模地理序列关系。签到表示是从空间位置、多模式 POI 内容、用户偏好和时间模式中学习的。
提出了一种自适应多任务 Transformer 来对用户运动模式进行建模并提供 POI 推荐。

在这里插入图片描述

Preliminaries

定义了一些公式中的字母含义

Multi-Modal Feature Extraction

如图一所示，方法主要考虑来自三种POI模式的内容信息：图像，评论，元数据。作者使用预训练image2text模型 BLIP2 去转换POI图像到相应的文字描述。可以观察到模态转换后同一 POI 的不同模态之间存在明显的语义一致性。然后，我们采用统一的预训练语言模型 Sentence-BERT 从每种模态中提取模态特定的特征。具体来说，考虑到一个 POI 可以与多个图像相关联，我们通过将 $ v^{i’}_p \in \mathcal V’_p$

馈入 Sentence-BERT 并对嵌入结果求平均值来获得 POI p 的图像模态表示：

$e^v_p=mean(sum(BERT(v^{1'}_p),BERT(v^{2'}_p),...,BERT(v^{|\mathcal V_p|'}_p)))$

与图像模态类似，POI的评论模态和元数据模态也是这样。

Multi-modal Trajectory Flow Graph

在本文中作者的目标是利用POI的多模态内容信息来缓解数据稀疏问题并提高推荐性能。然而，直接集成多模态特征信息不可避免地会引入大量噪声。因此受别人工作的启发，作者构建了一个模态特定结构图（modal-specific structure graph），它捕获 POI 之间特定于模态的 k 最近邻居 (kNN) 关系。该方法用于滤除噪声并捕获 POI 潜在特征之间的重要结构关系。

为了有效地整合 POI 的多模态特征和用户的签到序列特征，我们构建了一个去噪密集多模态轨迹流图（MTFG）来学习 POI 的多模态表示。

Learning Modal-Specific Structure Graph.

相似分数用余弦相似度函数。

$S^o_{ij} = \frac {(e^o_i)^T e^o_i} {||e^o_i||||e^o_j||}$