BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer阅读笔记

最新推荐文章于 2023-06-22 23:20:36 发布

八宝袋

最新推荐文章于 2023-06-22 23:20:36 发布

阅读量395

点赞数

分类专栏：笔记推荐系统调研文章标签： transformer 深度学习推荐算法

本文链接：https://blog.csdn.net/weixin_44569973/article/details/125508186

版权

笔记同时被 3 个专栏收录

14 篇文章 0 订阅

订阅专栏

推荐系统

13 篇文章 2 订阅

订阅专栏

调研

10 篇文章 0 订阅

订阅专栏

BERTRec笔记

BERTRec (arxiv)
一篇2019的文章，浅读一下

摘要

从用户的历史行为中对其动态偏好进行建模，对于推荐系统来说是具有挑战性的，也是至关重要的。以前的方法采用顺序神经网络将用户的历史交互行为从左到右编码为隐性表征，以便进行推荐。尽管它们很有效，但我们认为这种从左到右的单向模型是次优的，因为其局限性包括：a）单向架构限制了用户行为序列中隐藏表征的能力；b）它们通常假设一个严格的顺序，这并不总是实用的。为了解决这些局限性，我们提出了一个名为BERT4Rec的顺序推荐模型，它采用了深度双向自我关注来模拟用户行为序列。为了避免信息泄露和有效地训练双向模型，我们采用了Cloze目标来进行顺序推荐，通过对其左右上下文的共同调节来预测序列中的随机屏蔽项目。通过这种方式，我们学习了一个双向表示模型，通过让用户历史行为中的每个项目融合左右两边的信息来进行推荐。在四个基准数据集上进行的广泛实验表明，我们的模型始终优于各种先进的序列模型。

方法

1 概述

在这里插入图片描述
看下符号系统：
$\mathcal U, \mathcal V$ : 用户，项目集合;
$\mathcal S_u$ : 用户 $u$ 的交互序列.

2 模型结构

在这里插入图片描述
和SASRec的区别在于，BERTRec用的是一种双向的自注意力来建模行为序列。

2.1 Embedding层

在这里插入图片描述
项目向量+位置向量

2.2 注意力层

在这里插入图片描述
很常规的multi-head self-attention，没有改动，这里的 $H^l$ 是叠加了位置向量的项目embedding的堆叠。

这里用的是GELU激活函数，好像这个激活函数在NLP模型上很常用。

和RELU还是有区别

2.3 输出层

在这里插入图片描述
这里有个 $\mathbf E$ , 是项目矩阵，前面的 $\mathbf v\in \mathbf E$ , 这里作者说，在输入和输出用同一个项目embedding矩阵，目的在于防止过拟合，和减少模型参数。

3 模型训练

由于这个双向模型会导致最终输出已经包含目标项目的信息，这样训练的模型是没啥用的，有一个链式的解决办法（经典的时间序列训练方法），就是第一轮（[v1], v2），第二轮（[v1,v2], v3）, 但是这样太费空间时间。
作者的解决方法叫做：Cloze task （应该是NLP里的方法，不详细了解了），就是在句子中屏蔽一些单词，在推荐系统的序列中，就是把历史序列的一些项目给mask了，用一个超参数 $ρ$ 来控制mask的比例，根据左右信息来预测这个mask掉的id
在这里插入图片描述
这个好像是用预测所有被mask的项目来训练，用的对数损失。