WWW2020 | 基于GNN和哈希学习的高效推荐系统-CSDN博客

本文链接：https://blog.csdn.net/weixin_44289754/article/details/108289535

嘿，记得给“机器学习与推荐算法”添加星标

最近看了篇利用哈希技术来提高基于图神经网络的推荐系统检索速度的文章。该文的亮点本人认为主要有以下两点：（1）模型同时学习用户/物品的实值表示和离散表示，用于协调模型的效率和性能，（2）该文提出了一个端到端的训练框架，解决了哈希模型在反向传播中遇到的优化困境：即模型中包含非光滑函数sign(.)。因此把这篇文章推荐给大家。

标题：Learning to Hash with Graph Neural Networks for Recommender Systems

来源：WWW 2020

链接：https://arxiv.org/abs/2003.01917

1 Motivation

推荐系统已成为我们日常生活中支持各种在线服务的基本工具，比如网络搜索和电子商务平台。给定一个query，我们期望推荐引擎返回一小部分用户感兴趣的物品集合。这一过程中，包含了Recall和Ranking两个重要阶段。Recall主要是为了从大量（百万级）的物品中高效的检索出少量（几百几十）个候选物品；Ranking负责利用预测排序模型为用户生成一个精确的排序列表。为了提升召回质量，网络嵌入模型已经被广泛应用于推荐场景。在众多网络嵌入模型中，图神经网络（GNN）[1]作为结构化神经网络的一种特殊实例，在信息检索领域取得了最优性能。尽管如此，但在连续空间中筛选出这样一部分候选物品的计算成本太高，线性搜索的计算复杂度为，其中为物品总数，为特征维数。当较大（百万级）时，这样的复杂度仍使得模型效率低下。因此，在实际的推荐中，如何提高召回阶段的效率成为了一个亟需解决的问题。

哈希技术[2]由于其从大数据中检索的高效性而引起了越来越多的关注。最近基于手工特征的哈希模型和深度哈希模型被相继提出，但前者需要首先学习实值表示，然后在后续步骤中利用符号阈值函数将其二进制化为哈希码，这样一种机制可能无法学得紧凑的二进制码，导致次优解；后者主要用于生成高质量二进制代码，与之相关联的实值嵌入的代表性能力可能很差，如图1所示。