DSIN模型解读

最新推荐文章于 2023-08-15 00:42:53 发布

zhong_ddbb

最新推荐文章于 2023-08-15 00:42:53 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习推荐系统文章标签：机器学习人工智能推荐系统 DSIN

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/113194989

版权

深度学习同时被 2 个专栏收录

26 篇文章

订阅专栏

推荐系统

22 篇文章

订阅专栏

文章目录

- 模型结构
- - User Behaviors 部分
  - 其他部分

深度会话兴趣网络Deep Session Interest Network for Click-Through Rate Prediction，跟 DIN， DIEN 相比，最大的不同在于对用户的历史点击行为划分为不同session，对每个session使用Transformer学习session embedding，最后使用BiLSTM对session序列建模。

在推荐系统中，用户兴趣是十分广泛的，但在一个较短的时间内，用户的兴趣是集中的，我们称这段时间为一个Session。例如：把间隔30分钟以上的不同行为item划归成不同的Session。

模型结构

在这里插入图片描述

User Behaviors 部分

一共包括四层。

1、第一层是Session Division Layer是对用户的历史行为划分到不同session；

这一层将用户的行文进行切分，首先将用户的点击行为按照时间排序，判断每两个行为之间的时间间隔，前后的时间间隔大于30min，就进行切分。文章将间隔超过30分钟作为session的划分，比如将历史点击序列 $\mathcal S$ 转换为session $\mathcal Q$ ，第 $k$ 个session表示为：
$Q_k =[b_1,\cdots,b_i,\cdots,b_T] \in R^{T\times d_{model}}$
其中， $T$ 是第 $k$ 个session的长度， $d_{model}$ 是输入item的embedding大小。

2、第二层是Session Interest Extractor Layer是学习session的表征；

在这里插入图片描述

在每一个session内，每个用户的行为是高度相关的。为了刻画相同session内行为间的相关性，DSIN使用了Bias Encoding。DSIN使用multi-head self-attention对每个session建模。为了刻画不同session间的顺序。

2.1 Bias Encoding

为了利用序列间的顺序关系，self-Attention机制将位置编码应用于输入的嵌入。此外，还需要捕获位于不同session的会话的顺序关系和偏差。所以，定义基于位置编码的偏差bias为：
$\bold {BE}_{(k,t,c)} = \bold w_k^K + \bold w_t^T + \bold w_c^C$
其中， $\bold w_k^K$ 是session的bias， $\bold w_t^T$ 是位置的bias， $\bold w_c^C$ 是每个物品的bias。

入bias encoding后，用户的session表示为:
$Q = Q + B E$
2.2 Multi-head Self-attention

在推荐系统中，用户的点击行为会受各种因素影响。多头自我注意机制(Multi-head Self-attention)可以捕获不同表示子空间中的关系。每个head的输出可以表示为：
$\begin{aligned} \text { head }_{h} &=\text { Attention }\left(\mathbf{Q}_{k h} \mathbf{W}^{Q}, \mathbf{Q}_{k h} \mathbf{W}^{K}, \mathbf{Q}_{k h} \mathbf{W}^{V}\right) \\ &=\operatorname{softmax}\left(\frac{\mathbf{Q}_{k h} \mathbf{W}^{Q} \mathbf{W}^{K} \mathbf{Q}_{k h}^{T}}{\sqrt{d_{\text {model }}}}\right) \mathbf{Q}_{k h} \mathbf{W}^{V} \end{aligned}$
其中， $\mathbf{Q}_{k h}$ 表示第 k 个 session的第 h 个 head。

然后将 head 的输出concat到一起，再接入一个FFN网络(全连接网络)：
$\mathbf I_k^Q = FFN(Concat(head_1,\cdots,head_H)W^O)$
其中， $W^O$ 表示线性矩阵。

经过Multi-head self attention处理之后，每个session得到的结果仍然是 $\mathbf T \times d_{model}$ 大小，随后，经过一个avg pooling操作，将每个session兴趣转换成一个 $d_{model}$ 维向量
$\mathbf I_k = \mathbf {Avg}(\mathbf I_k^Q)$
论文同时还依次进行残差连接和层归一化。

3、第三层是Session Interest Interacting Layer是学习session之间的演变；

在这里插入图片描述

使用双向LSTM建模session之间的演变。双向意味着存在向前和向后RNN，以及隐藏状态H的计算如下：
$\mathbf H_t =\vec {\mathbf h_{ft}} \oplus \vec {\mathbf h_{bt}}$
上式中的两项分别表示前向的隐藏层状态和反向的隐藏层状态。

4、第四层是Session Interest Activating Layer是学习当前item和历史点击session的相关性。

这部分主要是通过Attention机制刻画Item和session之间的相关性。用户的session与目标物品越相近，越应该赋予更大的权重。使用注意力机制来刻画这种相关性：
$\begin{aligned} a_{k}^{H} &=\frac{\left.\exp \left(\mathbf{H}_{k} \mathbf{W}^{H} \mathbf{X}^{I}\right)\right)}{\sum_{k}^{K} \exp \left(\mathbf{H}_{k} \mathbf{W}^{H} \mathbf{X}^{I}\right)} \\ \mathbf{U}^{H} &=\sum_{k}^{K} a_{k}^{H} \mathbf{H}_{k} \end{aligned}$
其中 $\mathbf X^I$ 是目标item的embedding