【多模态】《TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback》 Arxiv‘22

最新推荐文章于 2024-07-21 22:29:21 发布

chad_lee

最新推荐文章于 2024-07-21 22:29:21 发布

阅读量397

点赞数

分类专栏：多模态论文解读推荐系统文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/yanguang1470/article/details/125903235

版权

《TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback》 Arxiv’22

NLP和CV领域预训练与大模型已经非常流行，涌现出BERT、GPT-3、ViT等，实现了one4all范式，也就是一个通用大模型服务于几乎所有下游任务。但是推荐系统在该方向发展缓慢，模型的可迁移性范围有限，通常只适用于一个公司内部的业务场景，无法实现广义上的可迁移性和通用性。

文章首先指出了：这主要是因为RS过度依赖用户ID与物品ID信息，基于ID的协同过滤范式使得RS脱离复杂的内容建模，并且DL+GCN又使得CF的性能经历了一段提升期，已经主导了推荐系统领域。但是基于ID的RS的性能已经出现了严重瓶颈，逼近天花板了，而且ID本身的不可共享性导致几乎没有迁移性。

因此提出从ID回到基于内容的推荐，实现大规模混合模态的通用推荐系统。

混合模态场景

在这里插入图片描述

通用推荐的实现是基于一个常见的推荐场景，即用户的物品交互行为由**混合模态（MoM: Mixture-of-modality）**的物品组成，用户交互的物品可以是文本（text）形式，视觉（vision）（图像/视频等）形式，或两种模态形式都存在。本文先在MoM的source domain下预训练模型，这样可以迁移到任何domain的下游任务。

数据集是QQ浏览器的新闻推荐场景，7天的记录。

TransRec

在这里插入图片描述

Item Encoder

首先item encoder是预训练的BERT和ResNet-18，即上图黄绿色块。

对于文本item i，将word token序列 $\boldsymbol{t}=\left[t_{1}, t_{2}, \ldots, t_{k}\right]$ 输入BERT，然后经过self- attention pooling得到文本item的最终表征：
$Z_{i, t}=\operatorname{SelfAtt}(\operatorname{BERT}(\boldsymbol{t}))$
对于图片item i，将ResNet的输出的feature map过一个MLP，得到图片item的最终表征：
$\boldsymbol{Z}_{\boldsymbol{i}, \boldsymbol{v}}=\operatorname{MLP}(\operatorname{ResNet}(\boldsymbol{v})) \text {. }$

User Encoder

用户则由他的物品交互序列来表示，所以User Encoder的输入是用户交互过item的embedding，然后用BERT（记为

最低0.47元/天解锁文章

chad_lee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【多模态】《TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback》 Arxiv‘22

通用推荐的实现是基于一个常见的推荐场景，即用户的物品交互行为由**混合模态（MoMMixture-of-modality）**的物品组成，用户交互的物品可以是文本（text）形式，视觉（vision）（图像/视频等）形式，或两种模态形式都存在。但是推荐系统在该方向发展缓慢，模型的可迁移性范围有限，通常只适用于一个公司内部的业务场景，无法实现广义上的可迁移性和通用性。文章还验证了数据对于模型的上限，越多的预训练数据对于TransRec的性能提升越大，在工业界中有源源不断的数据可以扩充。...
复制链接

扫一扫

专栏目录