论文速读——Filter-enhanced MLP is All You Need for Sequential Recommendation
过滤器增强型 MLP 是顺序推荐所需的全部
ABSTRACT
最近,RNN、CNN和Transformer等深度神经网络已应用于顺序推荐任务,旨在从记录的用户行为数据中捕获动态偏好特征以进行准确推荐。然而,在在线平台中,记录的用户行为数据不可避免地包含噪声,深度推荐模型很容易对这些记录的数据过度拟合。为了解决这个问题,我们借鉴了信号处理中的滤波算法的思想,可以衰减频域中的噪声。在我们的实证实验中,我们发现过滤算法可以显着改进代表性的顺序推荐模型,并且将简单的过滤算法(例如带阻滤波器)与全 MLP 架构集成甚至可以优于基于 Transformer 的竞争模型。受其启发,我们提出了 FMLP-Rec,这是一种具有可学习过滤器的全 MLP 模型,用于顺序推荐任务。全MLP架构赋予我们的模型较低的时间复杂度,并且可学习的滤波器可以自适应地衰减频域中的噪声信息。在八个真实数据集上进行的大量实验证明了我们提出的方法相对于竞争性 RNN、CNN、GNN 和 Transformer 方法的优越性。我们的代码和数据可通过以下链接公开获取:https://github.com/RUCAIBox/FMLP-Rec。
1 INTRODUCTION
过滤组件在项目表示中减少噪声影响具有重要的作用。作者在每个堆叠块中合并了一个滤波器组件,其中执行快速傅里叶变换(FFT)以将输入表示转换为频域,并且逆FFT过程恢复去噪表示。过滤器组件在减少项目表示噪声的影响方面发挥着关键作用
优势:
- 可以有效地衰减噪声信息并从所有频率中提取有意义的特征(例如,长期/短期项目交互)。
- 在不考虑成对项目相关性的情况下需要更少的时间成本,从而产生更轻、更快的网络架构。
2 PRELIMINARIES
问题定义(略)
傅里叶变换
- 离散傅里叶变换:离散傅立叶变换 (DFT) 在数字信号处理领域至关重要,是本方法的重要组件。
- 快速傅立叶变换:为了计算 DFT,之前的工作中广泛使用了快速傅立叶变换 (FFT)。在本文中,作者考虑使用 FFT 和滤波算法来减少用户交互项目序列中噪声特征的影响。
3 EMPIRICAL ANALYSIS WITH FILTERING ALGORITHMS FOR RECOMMENDATION
证明:(1) 顺序推荐模型中过滤算法的有效性;(2) 将过滤算法与全 MLP 架构集成的有效性。
Sequential recommendation algorithms. 对两种具有代表性的顺序推荐模型 GRU4Rec 和 SASRec 进行了实验,在两个模型的嵌入层和序列编码器层之间添加非参数过滤层,并且不改变其他组件。在过滤层中,给定项目序列的嵌入矩阵,我们对特征的每个维度进行以下操作:FFT→过滤算法→IFFT。过滤算法:
- 高通滤波器(HPF) 使高频信号通过并衰减低频信号。 FFT 后,我们将信号低频一半的值设置为零。
- 低通滤波器(LPF) 使低频信号通过并衰减高频信号。 FFT 后,我们将较高频率的一半信号的值设置为零。
- 带阻滤波器(BSF) 衰减中频信号,并让其他信号通过。 FFT之后,我们将信号的中频一半的值设置为零。
结论:
- 项目嵌入矩阵可能包含影响顺序推荐模型性能的噪声。
- 嵌入层上适当的过滤算法有助于缓解上述问题。但对于不同的模型,最适合的过滤算法也可能不同。
- 嵌入矩阵中的低频信息对于顺序推荐似乎更重要。自然界和人类行为中的低频信号通常是有意义的周期性特征。
The effect on all-MLP models. 基于SASRec的架构,删除了基于Transformer的序列编码器层中的多头自注意力块,但在嵌入层之后添加了一个过滤层。还像之前一样选择HPF、LPF和BSF算法,其他组件不变。这样,变体模型仅依靠 MLP 来对项目序列进行建模。
我们在图 1 中报告了带有 SASRec 的全 MLP 变体模型的性能。在删除多头自注意力块后,大多数模型变体仍然表现良好。带 LPF 的变体模型甚至大幅优于 SASRec 模型。这表明适当的过滤算法可以激发简单的全 MLP 模型超越复杂的基于 Transformer 的模型的潜力。通过去除噪声信息和自注意力块,模型更加轻量级,从而降低了过度拟合的风险。
4 METHOD
与原始 Transformer 架构类似,FMLP-Rec 还堆叠多个神经块来生成推荐的顺序用户偏好的表示。主要区别在于用新颖的过滤器结构替换 Transformer 中的多头自注意力结构。
*Embedding Layer.*由于项目和位置嵌入矩阵是随机初始化的,因此可能会影响过滤机制并导致训练过程不稳定。受最近工作 的启发,我们执行 dropout 和层归一化操作来缓解这些问题。
Learnable Filter-enhanced Blocks. 由两个子层组成,即滤波器层和逐点前馈网络。在滤波器层中,我们对频域中的各个维度的特征进行滤波操作,然后进行跳跃连接和层归一化。前馈层。在逐点前馈网络中,结合了 MLP 和 ReLU 激活函数来进一步捕获非线性特征。
Prediction Layer. 偏好得分和损失函数。
除了噪声衰减之外,作者还表明所提出的滤波器块还可以从记录的数据中捕获顺序特征。他从理论上证明我们提出的可学习滤波器相当于循环卷积。(详细看论文4.2节)
5 EXPERIMENT(实验和结论详细看论文5、6节)
本文主要是为了说明可学习的滤波器是一个通用模块,可以应用于其他顺序推荐模型。
实验表明:首先,与可学习过滤器集成后,所有基线都实现了更好的性能。它表明可学习滤波器通常可用于减少噪声信息对其他模型的影响,甚至对于不同的架构也是如此。其次, FMLP-Rec 仍然优于所有基线及其变体。这是因为模型仅采用 MLP 层,其参数较少,更适合顺序推荐任务中的可学习过滤器。
这篇文章主要证明了采用可学习的滤波器(通用模块)可以增加顺序推荐方法的性能且具有兼容性,本文又结合采用Full-MLP可以进一步增加性能。