【多模态】《TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback》 Arxiv‘22

《TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback》 Arxiv’22

NLP和CV领域预训练与大模型已经非常流行,涌现出BERT、GPT-3、ViT等,实现了one4all范式,也就是一个通用大模型服务于几乎所有下游任务。但是推荐系统在该方向发展缓慢,模型的可迁移性范围有限,通常只适用于一个公司内部的业务场景,无法实现广义上的可迁移性和通用性。

文章首先指出了:这主要是因为RS过度依赖用户ID与物品ID信息,基于ID的协同过滤范式使得RS脱离复杂的内容建模,并且DL+GCN又使得CF的性能经历了一段提升期,已经主导了推荐系统领域。但是基于ID的RS的性能已经出现了严重瓶颈,逼近天花板了,而且ID本身的不可共享性导致几乎没有迁移性。

因此提出从ID回到基于内容的推荐,实现大规模混合模态的通用推荐系统

混合模态场景

在这里插入图片描述

通用推荐的实现是基于一个常见的推荐场景,即用户的物品交互行为由**混合模态(MoM: Mixture-of-modality)**的物品组成,用户交互的物品可以是文本(text)形式,视觉(vision)(图像/视频等)形式,或两种模态形式都存在。本文先在MoM的source domain下预训练模型,这样可以迁移到任何domain的下游任务。

数据集是QQ浏览器的新闻推荐场景,7天的记录。

TransRec

在这里插入图片描述

Item Encoder

首先item encoder是预训练的BERT和ResNet-18,即上图黄绿色块。

对于文本item i,将word token序列 t = [ t 1 , t 2 , … , t k ] \boldsymbol{t}=\left[t_{1}, t_{2}, \ldots, t_{k}\right] t=[t1,t2,,tk]输入BERT,然后经过self- attention pooling得到文本item的最终表征:
Z i , t = SelfAtt ⁡ ( BERT ⁡ ( t ) ) Z_{i, t}=\operatorname{SelfAtt}(\operatorname{BERT}(\boldsymbol{t})) Zi,t=SelfAtt(BERT(t))
对于图片item i,将ResNet的输出的feature map过一个MLP,得到图片item的最终表征:
Z i , v = MLP ⁡ ( ResNet ⁡ ( v ) ) .  \boldsymbol{Z}_{\boldsymbol{i}, \boldsymbol{v}}=\operatorname{MLP}(\operatorname{ResNet}(\boldsymbol{v})) \text {. } Zi,v=MLP(ResNet(v))

User Encoder

用户则由他的物品交互序列来表示,所以User Encoder的输入是用户交互过item的embedding,然后用BERT(记为

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值