论文《Attentive Recurrent Social Recommendation》阅读

行者^_^煜煜

已于 2022-10-18 11:07:51 修改

阅读量824

点赞数 3

分类专栏：论文阅读文章标签：机器学习人工智能大数据推荐系统 lstm

于 2021-04-21 23:42:44 首次发布

本文链接：https://blog.csdn.net/xingzhe123456789000/article/details/115909277

版权

论文阅读专栏收录该内容

39 篇文章 15 订阅

订阅专栏

论文《Attentive Recurrent Social Recommendation》阅读

论文概况
Introduciton
Problem Definition and Preliminaries
论文总结

论文概况

这篇论文是合工大吴乐老师组发表在SIGIR 2018上关于时序性推荐系统方向的一篇文章。这篇文章结合了RNN、Attention和Social Recommendation三个方向，完成了一个基于动态和静态两类注意力网络的时序性的推荐系统，提出了模型ARSE。

论文地址：ARSE

论文代码未公开

Introduciton

根据Introduction部分的内容我们大概能了解文章的创新点。这里我们首先介绍一下，在推荐系统方向，General Recommendation 算法主要是结合一些环境特征（context information）或者user/item的特征去进行推荐，完成矩阵补全（Matrix Completion）问题或二部图的预测（Bipartite Graph Prediction）问题。但是这类方法主要的缺点是数据稀疏性问题，为解决这一问题，就有了利用user-user关系的社交推荐（Social Recommendation），Social Recommendation基于邻居节点会互相影响的假设。另外，基于用户的兴趣会不断变化，提出Sequential Recommendation方向，就是用户的latent factor不是静态的，而是会随着时间变化而不断变化，因此处理的数据就不只是一个interaction matrix而是若干个（随时间长短变化）。处理Sequential RS问题，就涉及到了序列的学习，可以通过诸如RNN、LSTM等模型进行学习，本文即选用LSTM来完成序列的学习。

下面我们按照段落介绍：

段落	内容
Paragraph.1	CF（Collaborative Filtering，协同过滤）一直以来都是推荐系统方向的主流，但是有着Data Sparsity的缺陷
Paragraph.2	使用社交网络可以缓解Data Sparsity问题，可以使用Social Recommendation
Paragraph.3	静态地描述用户属性不符合事实，因为用户的兴趣在一直变化，可以使用Sequential Recommendation/ Dynamic Recommendation，也就是随时间变化的时序性问题
Paragraph.4	解决时序性问题，RNN可以提供解决方案。而在推荐系统方面，还没有RNN在推荐上的应用。
Paragraph.5	综上，本文提出了一个Attentive RNN网络来解决时序性的社交问题。

因此，我们可以看到本文的亮点主要集中在Attention + RNN + Social RS以及几个元素的组合上。

Problem Definition and Preliminaries

问题形式化：给定user集合 $\ \ (|U|=M)$ ，item集合 $V\ \ (|V|=N)$ ，user-user的社交网络矩阵 $S\in\mathbb{R}^{M\times N}$ （ $S$ 是静态的，不随时间变化的，即好友关系保持不变），交互矩阵集合 $[R^1, R^2, \cdots, R^T]$ ，其中 $t$ 时刻的交互矩阵（interaction matrix） $R^t \in \mathbb{R}^{M\times N} \ \ (t\in \{1, 2, \cdots, T\})$ ；需要预测的是 $T + 1$ 时刻的交互矩阵 $\hat{R}^{T+1}$ 。

Preliminary

作者在这部分中介绍了LSTM模型的大致细节。这里贴张图，用于大家大致参考。
LSTM

这里需要注意的是，在LSTM每一步的输入中， $h_{t-1}$ 表示上一步的隐藏状态vector，本次输入的向量input vector $x_t$ 在输入LSTM内部前，先进行向量拼接（concatenation）再输入模型。

The Proposed Model

作者将ARSE分为两部分，DARSE(Dynamic Attentive Recurrent Social rEcommendation，动态注意力循环社交推荐) 和 SARSE (Static Attentive Recurrent Social rEcommendation，静态注意力循环社交推荐)。 DARSE考虑随时间变化而变化的部分；而SARSE考虑的是静态的部分。预测结果是两者的简单相加。

需要注意的是，在这里的Table 1，有一点引起人困扰的是 $Q$ 、 $W$ 、 $P$ 分别表示item动态latent matrix、item静态latent matrix、user静态latent matrix，user的动态latent matrix不需要吗？这里需要说明的是，user的动态latent matrix不只一个，而是有T个。可以表示为 $H^t |t=1, 2, \cdots, T$ 。这里之所以有多个 $H^t$ ，是因为用户兴趣随时间而变化，因此需要有多个放到LSTM中。 $H^t$ 中的每一行 $h_a^t \in \mathbb{R}^{D}$ 就是任意用户 $a$ 在 $t$ 时刻的的latent vector，同时也是LSTM的hidden state vector。这里我们应该就可以看出Collaborative Filtering 和 LSTM 是如何结合起来的。

而item和用户的静态属性都是不随时间变化的，因此不需要改变。另外， $x_a^t$ 并不对应到一个矩阵 $X^t$ ，这里的 $x_a^t$ 是通过对矩阵 $Q$ 中的某一行进行选择得到的，具体的，后文进行详细介绍。

这里需要声明一点的是，Table 1中应该有一个书写小错误，这里的矩阵 $P$ 应该大小是 $\times M$ ，而不是 $\times N$ ，欢迎评论区讨论指正。

The General Framework

首先，我们给出预测的 $\hat{r}_{ai}^t$ 的计算公式：
$\hat{r}_{ai}^t = \hat{r}_{D, ai}^t+ \hat{r}_{S,ai}^t = {q}_{i}^\mathsf{T} h_a^t + {w}_{i}^\mathsf{T} \tilde{p}_a \tag{5}$

这里需要注意的是， $^\mathsf{T}$ 是矩阵的转置符号，在原文中用 $\ ^{'}$ 表示。

${q}_{i}$ 表示 item $i$ 的dynamic latent vector。
$h_a^t$ 表示 user $a$ 在时刻 $t$ 的dynamic latent vector。
${w}_{i}$ 表示 item $i$ 的 static latent vector。
$\tilde{p}_a$ 表示 user $a$ 的static latent vector。
这里之所以 $\tilde{p}_a$ 上有波浪符号，是因为这是在集成了 ${p}_a$ vector本身和注意力加权的邻接节点vector之后的表示，看下图也可以大概看明白。

ARSE

由架构图我们也可以看出来，静态的user只和静态的item进行向量之间的内积计算，动态的user只和动态的item进行内积计算。

Dynamic Attentive Social Recurrent Recommendation

动态的部分简称为DARSE，作者认为每个人的喜好变化会影响社交关系的亲疏远近；同样，社交关系的变化也会影响每个人的喜好变化，这其中是interplay的关系。

作者一共分成了三层，我们分别介绍如下：

Input Pooling Layer

$x_a^t = Pooling(Q(:, L_a^t)) \tag{6}$

这一步的目的是为了把任意用户在任意时刻变长的喜欢列表 $L_a^t$ 变为定长以方便后续LSTM处理。这里形成了用户 $a$ 在时刻 $t$ 的固定大小的向量表示 $x_a^t$ ，代表了用户 $a$ 在时刻 $t$ 的喜好特征，也是后续LSTM的输入向量。这里的 $Q(:, L_a^t)$ 就是一个切片处理，把用户 $a$ 的喜好item对应的列取出来进行压缩处理，得到一个D维的向量。

Dynamic Attentive Network

这里是为了得到用户 $a$ 的邻居节点的环境向量 $\tilde{h}_a^t$ 。 $\tilde{h}_a^t$ 是任意与 $a$ 相邻的用户 $\ \ (b\in S_a)$ 在时刻 $t$ 的动态向量 ${h}_b^t$ 的注意力加权之和。那么问题来了，注意力怎么算呢？公式如下：

$\alpha_{ab}^t = \frac{\exp(m^t(a,b))}{\sum_{c\in S_a}{\exp(m^t(a,c))}} \tag{7}$
$m^t(a,c)=ReLU(A_5 \times ReLU(A_1 \times h_a^{t-1} + A_2 \times h_c^{t-1} + A_3 \times e_a + A_4 \times e_c)) \tag{8}$
可以看到，这里的注意力系数 $\alpha_{ab}^t$ 就是 $m^t(a,c)$ 的归一化值，而 $m^t(a,c)$ 就是一个双层的MLP计算完成的，通过 $a$ 的 $t - 1$ 时刻的动态向量、 $a$ 的相邻用户 $c$ 的 $t - 1$ 时刻的动态向量、 $a$ 的结构embedding、 $c$ 的结构embedding计算完成。这里， $e_a$ 、 $e_c$ 是 $a$ 与 $c$ 的图节点embedding（文中使用denosing autoEncoder完成）。我们可以看到 $t$ 时刻动态注意力是由节点及其邻居节点的结构特征和 $t - 1$ 时刻的latent向量（代表用户的兴趣特征）共同决定的。

有了上面的注意力权重，就可以计算每个节点 $a$ 的社交上下文信息（social contextual informaiton），形式上是加权的邻接节点动态社交影响力之和（weighted dynamic social influence from social neighbors），如下式所示：

$\tilde{h}_a^t = \sum_{b\in{S_a}} \alpha_{ab}^{t} \times h_b^t \tag{10}$

Social LSTM Layer

这一层是将上文中在Input Pooling Layer中学到的节点喜好向量 $x_a^t$ 和Dynamic Attentive Network层学到的节点环境向量 $\tilde{h}_a^{t-1}$ 输入LSTM模型中，用下式中的 $f_{LSTM} (\cdot)$ 表示。

$h_a^t = f_{LSTM}([x_a^t, h_a^{t-1}, \tilde{h}_a^{t-1}]) \tag{11}$

上式中， $h_a^{t-1}$ 是上一时刻的LSTM hidden state vector，将 $x_a^t$ 和 $\tilde{h}_a^{t-1}$ 进行拼接后作为input vector，可以得到下一时刻的hidden state vector $h_a^t$ ，这也是用户 $a$ 在时刻 $t$ 的dynamic latent vector。

Dynamic Output Layer

这里不做过多解释，使用向量内积完成动态部分的输出计算。

$\hat{r}_{D, ai}^t = q_i^{\mathsf{T}} \cdot h_a^t$

Static Attentive Social Recurrent Recommendation

Dynamic解释清楚以后，这部分就不用做过多解释了，SARSE就是一个加了注意力的Collaborative Filtering模型。具体如下：

$\hat{r}_{S, ai}^t = w_i^{\mathsf{T}} \cdot \tilde{p}_a \tag{17}$

$n^t(a,c)=ReLU(B_5 \times ReLU(B_1 \times p_a + B_2 \times p_c + B_3 \times e_a + B_4 \times e_c)) \tag{14}$

$\beta_{ab} = \frac{\exp(n^t(a,b))}{\sum_{c\in S_a}{\exp(n^t(a,c))}} \tag{15}$

$\tilde{p}_a = \sum_{b\in S_a}{\beta_{ab} \times p_b + p_a}$

这里需要注意的是，最终在SARSE的预测输出中使用的向量是 $\tilde{p}_a$ 而不是 $p_a$ ，这里用的是注意力计算完成后由 $p_a$ 和其邻接节点的静态向量加权求和后的向量加和计算完成。

Model Training

$L_{\Theta}(R, \hat R) = -\sum\limits_{t=1}^{T} \sum\limits_{a=1}^{M} \sum\limits_{i=1}^{N} [ r_{ai}^t \log(\hat{r}_{ai}^t) + (1-r_{ai}^t) \log(1-\hat{r}_{ai}^t) ] \tag{18}$

使用二分类的log loss损失函数进行训练。

论文总结

这篇文章提出了一个ARSE模型，使用注意力机制、LSTM模型和social Recommendation相结合的方式，结合使用了静态注意力和动态注意力，值得推荐。

稍微有点瑕疵的部分就是本文的参考文献部分年份都稍微有点久远[笑哭]，除此以外，都是惊喜。

行者^_^煜煜

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
论文《Attentive Recurrent Social Recommendation》阅读

论文《Attentive Recurrent Social Recommendation》阅读论文概况Introduciton论文概况这篇论文是合工大吴乐老师组发表在SIGIR 2018上关于时序性推荐系统方向的一篇文章。这篇文章结合了RNN、Attention和Social Recommendation三个方向，完成了一个基于动态和静态两类注意力网络的时序性的推荐系统，提出了模型ARSE。论文地址：ARSE论文代码未公开Introduciton根据Introduction部分的内容我们大概能了
复制链接

扫一扫