论文《Sequential Recommendation with Graph Neural Networks》阅读

最新推荐文章于 2024-06-17 17:37:16 发布

行者^_^煜煜

最新推荐文章于 2024-06-17 17:37:16 发布

阅读量785

点赞数 1

分类专栏：论文阅读文章标签：机器学习深度学习神经网络推荐算法

本文链接：https://blog.csdn.net/xingzhe123456789000/article/details/126522614

版权

论文阅读专栏收录该内容

46 篇文章

订阅专栏

论文《Sequential Recommendation with Graph Neural Networks》阅读

论文概况
主要亮点及主要思路
主要内容介绍
总结

论文概况

今天带来的是清华和快手公司联合完成的作品，发表在SIGIR 2021上关于序列化推荐的论文，模型名称为SURGE。

主要亮点及主要思路

作者使用GNN完成序列化推荐任务，有别于会话推荐（Session-based Recommendation, SBR），序列化推荐（Sequential Recommendation， SR）由于序列长度比较长，所以直接用GNN效果不太好（过度平滑问题导致GNN只能收集短序列信息，一般最多4跳），所以需要改造图以使图稠密。这里作者使用了度量学习（Metric Learning）完成图构造。
作者使用簇（cluster）完成兴趣抽取。

下面，进行主要内容介绍。

主要内容介绍

基于度量学习的图构造

首先模型需要将序列构造成图，但是SR中的序列是长序列且大多不重复，因此无法直接使用GNN。作者这里使用Metric Learning（或称为相似度学习）将相似物品进行靠近完成图构造。具体地，针对每个节点向量（ $\vec{h}_i \in \mathbb{R}^{d}$ ）进行线性变换得到相似度矩阵 $M$ 如下：
$M_{ij}=\cos(\vec{w} \odot \vec{h}_i, \vec{w} \odot \vec{h}_j) \tag{1}$

使用多头方式完成多方面语义，改造式（1）如下（注，原文公式2应该写错了）：
$M_{ij}^\delta = \cos(\vec{w}_\delta \odot \vec{h}_i, \vec{w}_\delta \odot \vec{h}_j), M_{ij} = \frac{1}{\phi}\sum\limits_{\delta=1}^{\phi}{M_{ij}^\delta} \tag{2}$

根据得到的矩阵 $M\in \mathbb{R}^{n\times n}$ 完成邻接矩阵构造（ $n$ 为当前序列中item数量），将矩阵中排前 $\epsilon n^2$ 的item设置为1，其余为0完成一个相对稠密的矩阵构造（ $\in \mathbb{R}^{n\times n}$ ）方便后续GNN学习。

GNN上的兴趣传播

这部分的目的为将原来的节点向量 $\{ \vec{h}_1, \vec{h}_2, \cdots, \vec{h}_n \}$ 更新为 $\vec{h}_1^\prime, \vec{h}_2^\prime, \cdots, \vec{h}_n^\prime$ ，其中任意 $\vec{h}_i^\prime \in \mathbb{R}^{d^\prime}$ 。

具体的，上面通过度量学习完成了邻接矩阵 $A$ 的构造，使用 $A$ 完成节点聚合（aggregation），具体如下（ $E_{i j}^{\delta}$ 的具体构造方法见后文）：

$\vec{h}_{i}^{\prime}={\mathop{\|}}_{\delta=1}^{\phi} \sigma\left(\mathrm{W}_{\mathbf{a}}{ }^{\delta} \cdot \text { Agg }\left(E_{i j}^{\delta} \ \vec{h}_{j} \mid j \in \mathcal{N}_{i}\right)+\vec{h}_{i}\right) \tag{3}$

$\|$ 表示拼接，最终完成多头整合的向量 $\vec{h}_{i}^{\prime} \in \mathbb{R}^{\delta d^{\prime}}$

簇注意力和询问注意力

簇（cluster）就是指将原来序列中的 $n$ 个物品根据兴趣整合到 $m$ 个簇中已完成兴趣的集中，询问就是指目标物品（target item），就是将要预测的物品。

不得不说的是，文中关于询问/目标这一部分的描述感觉上是有问题的，或至少是交代不清，具体还得看代码才能知道他要表达什么。现在按照文中想要表达的意思进行理解和梳理如下。

$\alpha_{i}=\text {Att}_{c}\left(\mathbf{W}_{\mathrm{c}} \vec{h}_{i}\left\|\vec{h}_{i_{c}}\right\| \mathbf{W}_{\mathbf{c}} \vec{h}_{i} \odot \vec{h}_{i_{c}}\right) \tag{4}$

这里的 $\vec{h}_{i_{c}}$ 是将图 $A$ 中节点 $i$ 的 $k$ -hop邻居节点进行平均得到，由此即可以得到 $\alpha_{i}$ 。
同理，
$\beta_{j}=\text {Att}_{q}\left(\mathbf{W}_{\mathbf{q}} \vec{h}_{j}\left\|\vec{h}_{t}\right\| \mathbf{W}_{\mathrm{q}} \vec{h}_{j} \odot \vec{h}_{t}\right) \tag{5'}$

这里 $\vec{h_t}$ 表示目标物品。这里就是我们提出的疑问所在，如果是target-aware，那么这个target和预测物品必须是一一对应的，那么这里的 $\beta_{j}$ 应该有 $|\mathcal{V}|$ 个（不是 $n$ 个，是所有物品大小—— $|\mathcal{V}|$ 个），即预测一个，就对应有一个 $\beta$ ，之后与 $\beta$ 相关的参数也都应该如此，我们这里修改原文的 $\beta$ 如下（后续的参数也都相应修改）：

$\beta_{j}^t=\text {Att}_{q}\left(\mathbf{W}_{\mathbf{q}} \vec{h}_{j}\left\|\vec{h}_{t}\right\| \mathbf{W}_{\mathrm{q}} \vec{h}_{j} \odot \vec{h}_{t}\right) \tag{5}$

得到 $\alpha$ 和 $\beta$ 后，就可以得到 $E$ ，具体如下：

$E_{ij}^t = \operatorname{softmax}_{j} \left(\alpha_{i}+\beta_{j}^t\right) = \frac{\exp \left(\alpha_{i}+\beta_{j}^t \right)} {\sum_{k \in \mathcal{N}_{i}} \exp \left(\alpha_{i}+\beta_{k}^t \right)} \tag{6}$

兴趣提取

$\begin{aligned} &\left\{\vec{h}_{1}^{*}, \vec{h}_{2}^{*}, \ldots, \vec{h}_{m}^{*}\right\} = S^{\top}\left\{\vec{h}_{1}^{\prime}, \vec{h}_{2}^{\prime}, \ldots, \vec{h}_{n}^{\prime}\right\}, \\ &\left\{\gamma_{1}^{*}, \gamma_{2}^{*}, \ldots, \gamma_{m}^{*}\right\} = S^{\top}\left\{\gamma_{1}, \gamma_{2}, \ldots, \gamma_{n}\right\}, \end{aligned} \tag{7}$

这里的 $\in \mathbb{R}^{n \times m}$ 就是用来簇聚类的，将 $n$ 个物品聚类形成 $m$ 个簇。 $\gamma_{i}$ 表示重要性是系数，实际上是 $\beta_i$ 做 $\operatorname{softmax}$ 完成的，具体做法文中没有介绍。

对于 $S$ 的学习，具体如下：
$S_{i:}^t = \operatorname{softmax}\left(\mathrm{W}_{\mathbf{p}} \cdot \text { Agg }\left(A_{i j} * \vec{h}_{j,t}^{\prime} \mid j \in \mathcal{N}_{i}\right)\right) \tag{8}$

这里我们同样加上了 $\cdot ^t$ 以对target进行标识。式（8）通过 $\mathrm{W}_{\mathbf{p}}$ 完成了 $m$ 个聚簇关系的学习。

正则化项

相同聚类正则

$L_M = \| A, SS^\top \|_F \tag{9}$

$S$ 表示 $n$ 个物品被分配到 $m$ 个簇的概率，则 $SS^\top$ 表示两个物品被分配到同一个簇的概率。这个正则项可以保证在 $A$ 中有联系的物品会被尽量分配到一个簇。

单一分类正则

同一个物品被分配到一个簇是最理想的，如果一个物品在各个簇的分配概率比较平均就不好了，因此，提出以下正则：
$L_A= \frac{1}{n}\sum\limits_{i=1}^n{H\left(S_{i:}\right)} \tag{10}$

这里的 $H\left( \cdot \right)$ 指熵函数，实现细节未给出。

聚簇排序相关性正则

物品 $\left\{\vec{h}_{1}^{\prime}, \vec{h}_{2}^{\prime}, \ldots, \vec{h}_{n}^{\prime}\right\}$ 之前是有时序关系的，在时序上把持先后发生，为保证映射后的聚簇embedding $\left\{\vec{h}_{1}^{*}, \vec{h}_{2}^{*}, \ldots, \vec{h}_{m}^{*}\right\}$ 也有相同的时序关系，使用以下正则：

$L_P = \|P_nS, P_m\|_2 \tag{11}$

其中， $P_n = [1, 2, \cdots, n]$ ， $P_m = [1, 2, \cdots, m]$ 。

说实话，不清楚这一步的目的是啥，不同物品映射到不同的簇已经打乱时序关系了，聚簇向量改变顺序不也不影响吗？这个时序关系起不到作用吧感觉。

比如说，映射过去的向量如果由 $\left\{\vec{h}_{1}^{*}, \vec{h}_{2}^{*}, \ldots, \vec{h}_{m}^{*}\right\}$ 变成 $\left\{\vec{h}_{2}^{*}, \vec{h}_{1}^{*}, \ldots, \vec{h}_{m}^{*}\right\}$ ，不只说明两个聚簇谁是谁，跟时序有关系吗？真心求问，请各位评论区指教。