论文阅读——MMMLP Multi-modal Multilayer Perceptron for Sequential Recommendations_mmmlp: multi-modal multilayer perceptron for seque-CSDN博客

本文链接：https://blog.csdn.net/weixin_43954673/article/details/136349402

论文阅读——MMMLP: Multi-modal Multilayer Perceptron for Sequential Recommendations

MMMLP：用于顺序推荐的多模态多层感知器

摘要

顺序推荐旨在通过捕获用户交互项目的历史序列来向用户提供潜在有趣的产品。尽管它促进了广泛的物理场景，但多模态序列的顺序推荐长期以来一直被忽视。描述用户历史交互的多模态数据无处不在，例如产品图片、文字描述、交互项序列等，从多个角度提供语义信息，全面描述用户的偏好。然而，现有的顺序推荐方法要么无法直接处理多模态，要么遭受高计算复杂度的困扰。为了解决这个问题，我们提出了一种新颖的多模态多层感知器（MMMLP），用于维护多模态序列以进行顺序推荐。 MMMLP 是一种纯粹基于 MLP 的架构，由三个模块组成：特征混合器层、融合混合器层和预测层，并且在功效和效率上都具有优势。大量实验表明 MMMLP 以线性复杂度实现了最先进的性能。我们还进行消融分析来验证每个组件的贡献。

1 INTRODUCTION

先介绍了序列推荐系统（sequential recommendation systems, SRS）的好，再介绍了SRS的技术发展史：RNN $\rightarrow$ LSTM、GRU（仍然受到无法维持长期依赖关系和并行的困难） $\rightarrow$ self-attention

现有的工作一般都强调使用辅助信息 来准确摸你用户顺序行为，很少有研究探索多模态 顺序推荐。然而在推荐系统领域，多模态数据越来越受关注，它从多个角度提供有关用户交互的语义信息。

多模态顺序推荐系统使用交互历史和序列信息来研究用户的偏好来推荐相关项目。基于 RNN 和基于自注意力的模型集成商品特征越来越普遍。然而，RNN 无法维持长期依赖关系，而注意力的计算成本很高。

为了解决上述问题，作者提出了一种基于纯 MLP 架构的用于序列推荐的多模态多层感知器（MMMLP），它有效地捕获和融合多模态信息以产生明智的下一项预测。我们的模型由三层组成：特征混合器层、融合混合器层和预测层。

本文贡献：

这是处理具有线性复杂性的多模态顺序推荐的首次尝试
提出了新颖的 MMMLP 框架，用于在顺序推荐中融合和对齐多模态信息，有效捕获用户的细粒度偏好
提出的方法是捕获多模式顺序推荐上下文的开创性努力，兼容性研究表明作者提出的特征混合器层 可以增强其他推荐模型。

2 FRAMEWORK

在这里插入图片描述

整体架构如上图所示，本文主要关注与图像和文本信息的合并。主要分为三层：the Feature Mixer Layer, Fusion Mixer Layer, and Prediction Layer。首先，特征混合层将三个混合器模块提取的图像、文本和项目信息合并在一起，还包括了归一化和残差连接，来增强训练的稳定性。然后，融合混合层使用融合方法将输出的 $Y^i、Y^t和Y^s$ 融合多种模态表示。最后，根据融合表示对预测层中的下一个推荐进行预测。

2.3 Feature Mixer Layer

在这里插入图片描述

三个混合模块的处理过程是类似的，细节图如上。处理公式以Image为例：
$\hat I_{*,i} = I_{*,i} + TM(LayerNorm(I)_{*,i}), \qquad for\;i=1…D_I,\\ \hat I_{j,*} = I_{j,*} + CM(LayerNorm(\hat I)_{j,*}), \qquad for\;i=1…N,\tag 1$