论文阅读——MMMLP: Multi-modal Multilayer Perceptron for Sequential Recommendations
MMMLP:用于顺序推荐的多模态多层感知器
摘要
顺序推荐旨在通过捕获用户交互项目的历史序列来向用户提供潜在有趣的产品。尽管它促进了广泛的物理场景,但多模态序列的顺序推荐长期以来一直被忽视。描述用户历史交互的多模态数据无处不在,例如产品图片、文字描述、交互项序列等,从多个角度提供语义信息,全面描述用户的偏好。然而,现有的顺序推荐方法要么无法直接处理多模态,要么遭受高计算复杂度的困扰。为了解决这个问题,我们提出了一种新颖的多模态多层感知器(MMMLP),用于维护多模态序列以进行顺序推荐。 MMMLP 是一种纯粹基于 MLP 的架构,由三个模块组成:特征混合器层、融合混合器层和预测层,并且在功效和效率上都具有优势。大量实验表明 MMMLP 以线性复杂度实现了最先进的性能。我们还进行消融分析来验证每个组件的贡献。
1 INTRODUCTION
先介绍了序列推荐系统(sequential recommendation systems, SRS)的好,再介绍了SRS的技术发展史:RNN → \rightarrow → LSTM、GRU(仍然受到无法维持长期依赖关系和并行的困难) → \rightarrow → self-attention
现有的工作一般都强调使用辅助信息 来准确摸你用户顺序行为,很少有研究探索多模态 顺序推荐。然而在推荐系统领域,多模态数据越来越受关注,它从多个角度提供有关用户交互的语义信息。
多模态顺序推荐系统使用交互历史和序列信息来研究用户的偏好来推荐相关项目。基于 RNN 和基于自注意力的模型集成商品特征越来越普遍。然而,RNN 无法维持长期依赖关系,而注意力的计算成本很高。
为了解决上述问题,作者提出了一种基于纯 MLP 架构的用于序列推荐的多模态多层感知器(MMMLP)
,它有效地捕获和融合多模态信息以产生明智的下一项预测。我们的模型由三层组成:特征混合器层、融合混合器层和预测层。
本文贡献:
- 这是处理具有线性复杂性的多模态顺序推荐的首次尝试
- 提出了新颖的 MMMLP 框架,用于在顺序推荐中融合和对齐多模态信息,有效捕获用户的细粒度偏好
- 提出的方法是捕获多模式顺序推荐上下文的开创性努力,兼容性研究表明作者提出的特征混合器层 可以增强其他推荐模型。
2 FRAMEWORK
整体架构如上图所示,本文主要关注与图像和文本信息的合并。主要分为三层:the Feature Mixer Layer, Fusion Mixer Layer, and Prediction Layer。首先,特征混合层将三个混合器模块提取的图像、文本和项目信息合并在一起,还包括了归一化和残差连接,来增强训练的稳定性。然后,融合混合层使用融合方法将输出的 Y i 、 Y t 和 Y s Y^i、Y^t和Y^s Yi、Yt和Ys融合多种模态表示。最后,根据融合表示对预测层中的下一个推荐进行预测。
2.3 Feature Mixer Layer
三个混合模块的处理过程是类似的,细节图如上。处理公式以Image为例:
I
^
∗
,
i
=
I
∗
,
i
+
T
M
(
L
a
y
e
r
N
o
r
m
(
I
)
∗
,
i
)
,
f
o
r
i
=
1
…
D
I
,
I
^
j
,
∗
=
I
j
,
∗
+
C
M
(
L
a
y
e
r
N
o
r
m
(
I
^
)
j
,
∗
)
,
f
o
r
i
=
1
…
N
,
(1)
\hat I_{*,i} = I_{*,i} + TM(LayerNorm(I)_{*,i}), \qquad for\;i=1…D_I,\\ \hat I_{j,*} = I_{j,*} + CM(LayerNorm(\hat I)_{j,*}), \qquad for\;i=1…N,\tag 1
I^∗,i=I∗,i+TM(LayerNorm(I)∗,i),fori=1…DI,I^j,∗=Ij,∗+CM(LayerNorm(I^)j,∗),fori=1…N,(1)
I
∗
,
i
I_{*,i}
I∗,i表示对列维度的操作,
I
j
,
∗
I_{j,*}
Ij,∗表示对行维度的操作,
I
^
\hat I
I^表示
图像模态的中间表示
\color{#F00}{图像模态的中间表示}
图像模态的中间表示。
T
M
TM
TM表四token mixer令牌混合器,
C
M
CM
CM表示channel mixer通道混合器。
I
^
∗
,
i
=
I
^
∗
,
i
+
W
2
σ
(
W
1
L
a
y
e
r
N
o
r
m
(
I
^
)
∗
,
i
)
,
f
o
r
i
=
1
…
D
I
,
Y
j
,
∗
i
=
I
^
j
,
∗
+
W
4
σ
(
W
3
L
a
y
e
r
N
o
r
m
(
I
^
)
j
,
∗
)
,
f
o
r
i
=
1
…
N
,
(2)
\hat I_{*,i} = \hat I_{*,i} + W^2\sigma(W^1 LayerNorm(\hat I)_{*,i}), \qquad for\;i=1…D_I,\\ Y_{j,*}^i = \hat I{j,*} + W^4\sigma(W^3 LayerNorm(\hat I)_{j,*}), \qquad for\;i=1…N,\tag 2
I^∗,i=I^∗,i+W2σ(W1LayerNorm(I^)∗,i),fori=1…DI,Yj,∗i=I^j,∗+W4σ(W3LayerNorm(I^)j,∗),fori=1…N,(2)
σ
\sigma
σ是 GRLU 激活函数,
I
^
j
,
∗
\hat I_{j,*}
I^j,∗表示对图像特征矩阵的列维操作,即交叉标记处理。
I
^
j
,
∗
\hat I_{j,*}
I^j,∗表示行操作,即跨通道处理。
W
1
和
W
2
W^1和W^2
W1和W2表示第一层的学习权重,
W
3
和
W
4
W^3和W^4
W3和W4表示第二层的学习权重。
Y
i
Y^i
Yi是图像模态的学习表示。
2.4 Fusion Mixer Layer
单流方法。
Y
^
∗
,
i
=
Y
^
∗
,
i
+
W
1
4
σ
(
W
1
3
L
a
y
e
r
N
o
r
m
(
Y
^
)
∗
,
i
)
,
f
o
r
i
=
1
…
D
,
Y
j
,
∗
f
=
Y
^
j
,
∗
+
W
1
6
σ
(
W
1
5
L
a
y
e
r
N
o
r
m
(
Y
^
)
j
,
∗
)
,
f
o
r
i
=
1
…
N
,
(3)
\hat Y_{*,i} = \hat Y_{*,i} + W^14\sigma(W^13 LayerNorm(\hat Y)_{*,i}), \qquad for\;i=1…D,\\ Y_{j,*}^f = \hat Y_{j,*} + W^16\sigma(W^15 LayerNorm(\hat Y)_{j,*}), \qquad for\;i=1…N,\tag 3
Y^∗,i=Y^∗,i+W14σ(W13LayerNorm(Y^)∗,i),fori=1…D,Yj,∗f=Y^j,∗+W16σ(W15LayerNorm(Y^)j,∗),fori=1…N,(3)
Y
^
=
L
i
n
e
a
r
(
Y
i
∥
Y
t
∥
Y
s
)
\hat Y = Linear(Y^i \lVert Y^t \lVert Y^s )
Y^=Linear(Yi∥Yt∥Ys) 所以
D
=
D
I
+
D
T
+
D
S
D=D_I+D_T+D_S
D=DI+DT+DS,
∥
\lVert
∥表示串联运算,
Y
f
Y^f
Yf是该模块的输出。
2.5 Model Optimization
经过上述操作之后获得了一系列隐藏状态,其中包含 每个交互的顺序、跨通道和跨特征依赖关系 \color{#F00}{每个交互的顺序、跨通道和跨特征依赖关系} 每个交互的顺序、跨通道和跨特征依赖关系。
关于
x
i
x_i
xi的预测分数函数如下:
y
^
i
=
s
o
f
t
m
a
x
(
h
N
⋅
(
Y
i
f
)
T
)
(4)
\hat y_i = softmax(h_N·(Y_i^f)^T) \tag 4
y^i=softmax(hN⋅(Yif)T)(4)
其中,
h
N
h_N
hN表示用户基于之前
N
N
N次交互的偏好。
算法详细:(解释请看论文)
3 EXPERIMENTS
数据集:
baseline:FPMC、BPR、GRU4Rec、SASRec、GRU4RecF+、SASRecF+、FDSA+、MLPMixer。
实验结果:
RQ1: How does the MMMLP perform compared with current advanced baselines?(表现)
(i)从GRU4Rec开始,基于深度学习的方法大大优于BPR等传统方法,这表明深度学习模型在捕获顺序推荐中的顺序相关性方面做得更好。更具体地说,我们还可以观察到:
(ii)与基于 RNN 的模型相比,自注意力模型通常具有更好的性能。这可以归因于自注意力捕获序列模式的能力更强。
(iii) 能够处理多模态特征的模型(带有+的模型),例如GRU4RecF+、FDSA+和SASRecF+,通常优于不能处理多模态特征的模型,例如GRU4Rec和SASRec,这表明多模态特征的重要性-顺序推荐中的模态特征。
(iv)MLPMixer可以实现与SASRec、FDSA+和其他SOTA方法相当的性能,这表明 简单的 M L P 架构可以取代自注意力机制 \color{#F00}{简单的MLP架构可以取代自注意力机制} 简单的MLP架构可以取代自注意力机制。
(v) MMMLP 始终优于包括 SASRecF+ 或 FDSA+ 在内的所有多模态基线,这表明 基于 M L P M i x e r 的多模态信息融合非常有效,甚至可以与基于 T r a n s f o r m e r 的多模态信息融合能力相媲美 \color{#F00}{基于 MLPMixer 的多模态信息融合非常有效,甚至可以与基于 Transformer 的多模态信息融合能力相媲美} 基于MLPMixer的多模态信息融合非常有效,甚至可以与基于Transformer的多模态信息融合能力相媲美。
RQ2: How do the hyper-parameters afect performance?(超参数)
作者研究了图像混合器层深度和文本混合器层深度,结果如下图。可以看见当层深为4的时候,模型在两个数据集上的表现能力最好。
RQ3: How do the components in the framework contribute to performance?(消融)
-
MLPMixer: MLPMixer is a plain MLPMixer and does not include item features.
-
MMMLP-Image: MMMLP-Image is a simplifed MMMLP, which only uses the image extractor to extract visual features.
-
MMMLP-Text: MMMLP-text is a simplifed MMMLP, which only uses text extractor to extract text features.
-
C/B-MMMLP: CNN and Bert are used as the image and text extractors of MMMLP.
实验结论:
(i)在不合并多模态特征的情况下,MLPMixer的性能明显较差,这证实了在顺序推荐中包含多模态特征的重要性。
(ii)对于 MMMLP 的两个简化版本,我们可以观察到 MMMLP 总是比它们都表现得更好,而 MMMLP-Text 和 MMMLP-Image 比普通 MMLPMixer 表现更好。这表明图像或文本信息都可以增强模型的有效性。
(iii) MMMLP 始终优于 C/B-MMMLP 整体指标,这可以归因于我们提出的特征混合器层比预训练的图像或文本提取器表现更好。
RQ4: Can our proposed Feature Mixer Layer enhance other sequential recommendation methods?(兼容性)
从图中,我们可以观察到所有三个修改版本都优于原始的多模态顺序推荐模型。此外,由我们提出的图像和文本混合器取代的GUR4RecF_TI、SASRec_TI 和 FDSA_TI 比仅由图像或文本混合器取代的 GUR4RecF_T(I)、SASRec_T(I)、FDSA_T(I) 工作得更好。这些观察结果表明:(i)我们提出的文本和图像混合器可以捕获来自项目的不同和补充信息,并且(ii)我们提出的混合器具有出色的兼容性,可以应用于其他多模式顺序推荐模型并提高其性能。
ubiquitously 无处不在
be inundated with 被……淹没
users are regularly inundated with diverse and trendy content 用户经常被多样化和时尚的内容淹没