人工智能奥创纪元:当推荐系统遇到大模型LLM

本文探讨了大模型LLM如何改变推荐系统,对比了传统模型与LLM的优缺点,涉及特征工程、外部知识的利用,以及如何通过LLM进行文本理解和增强推荐效果。文章还提及了大模型在场景迁移和整体流程控制中的潜力,以及预训练与微调策略的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大家好,我是kaiyuan。

大模型LLM在越来越多的领域开始崭露头角,比如我们在今年上半年曾在某电商平台落地过较为直观简单的LLMx搜索项目(我们称之为LLM应用的第一阶段),同时拿到线上收益,LLM的潜力可见一斑。

如果你也对LLM颠覆搜推广范式充满期待(虽然可能还要不少时间),持续梳理follow大模型在推荐系统中的应用工作,欢迎一起讨论!

既然是大模型在推荐系统中的应用,那么首先要梳理对比下传统推荐模型和LLM的优缺点,推荐到底在 "馋" LLM的什么?

推荐系统大模型
场景千人千面、领域各异通用模型,one for all
输入物品(百万、千万)字词文本(十万)
参数规模亿级别千亿、万亿(计算复杂度高)
学习范式Online learningPretrain-finetuning Prompt learning
模型能力缺乏语义信息、推理能力、可解释性等;可以充分利用协同信号引入外部世界知识,语义信号丰富;可解释性强;缺少协同信号;冷启动友好
placeholderplaceholderplaceholder
challengeMismatch between LLM pretrain objective and RS; LLM rely more on semantics, omit collaborative information;

Mismatch between LLM pretrain objective and RS;

LLM rely more on semantics, omit collaborative information;

从应用视角出发,将LLM应用拆解到传统推荐系统的各个模块。参考自上交和华为合作的工作:How Can Recommender Systems Benefit from Large Language Models: A Survey。

一般推荐系统都包括以下几个关键流程:

用大模型做特征工程:利用LLM的外部通用知识和逻辑推理能力,将原始的输入信息生成额外的辅助信息,可以是对item或user的描述、标签、知识图谱补全等等。

ID-based 推荐系统存在一些问题

GPT4Rec通过用户的商品交互序列(title文本),通过合适的promt方式,生成虚拟query交给搜索引擎,检索出要推荐的商品。

传统新闻推荐系统受限于冷启动、用户特征建模、新闻内容理解等问题,无法很好地捕捉用户兴趣。利用LLM强大的能力,通过prompt的方式丰富新闻数据和理解能力。

GENRE(GEnerative News REcommendation),使用已有新闻数据的标题、摘要、分类等信息,构建合适的prompt喂给LLM,生成更丰富的信息特征。

论文中主要使用了三种利用LLM强化RS特征的方式:

传统推荐系统通常是domain-specific,无法融入世界/外部知识。有两种外部知识有助于推荐系统:

KAR(Knowledge Augmented Recommendation),

Narrative-driven recommendation (NDR) ,叙述驱动推荐系统,指用户通过自然语言的方式描述偏好和需求,推荐系统给出合适的结果。但目前研究大多都是基于用户历史行为数据的推荐,缺乏对NDR场景下长文本的处理能力。

NDR问题定义,给定用户u及其需求表述q,推荐系统f需要从候选集C中推荐出合适结果R。假设候选集和需求是相同领域的。

MINT(Data augMentation with INteraction narraTives),

相当于针对有描述类推荐的场景里(NDR),弥补了传统id-based推荐系统的文本处理能力;有点像推荐搜索化,将用户长本文通过LLM生成搜索query,然后去候选集里检索。

百度和港大合作的工作,用LLM解决推荐系统的数据稀疏性问题(论文讨论对象是基于图神经网络的推荐系统)。传统普遍做法是引入知识图谱、社交关系等,但在引入信息的同时也会引入噪声。

借用LLM的强大世界知识和推理能力,来辅助生成增强信息。包括以下增强方式

图片

图片

使用大模型的通用语义表达能力进行编码,弥补传统推荐系统的信息缺失(例如文本等),进一步丰富user/item侧的语义表征。

场景是百度搜索召回,建模query-doc之间的相关性匹配。

简单说就是用ERNIE替代了传统双塔中的MLP等编码器,更好地建模q-i表征。双塔顶层交互方式参考了poly-encoder的模型,在训练和预测有一些不同,以适应模型上线需求。

更多详细参考:大规模搜索+预训练,百度是如何落地的?

人大和阿里合作的序列表征工作,发表在KDD'22。现有的推荐系统多基于item-id,导致其很难迁移到新场景(需要重训)。作者认为自然语言文本信息可以作为不同领域场景的桥梁,解决上述问题。

UniSRec,通过预训练方式建模通用item表征和通用序列表征,进而学习跨不同推荐场景的可迁移表征。

由于存在域间差异,简单地将不同域序列表征混合起来不会有很好的效果(因为多个域学习到的表征很可能是冲突的,会导致跷跷板现象)。

在传统self-attention网络的基础上,引入两个对比任务:sequence-item and sequence-sequence,缓解多领域序列表征之间的融合。

训练时将两种任务以多任务学习方式进行联合优化:

高效微调 :固定模型主要架构参数,在domain transfer时仅微调MoE的参数。

来自西湖大学SIGIR'23的工作,探索基于多模态大模型的推荐系统能否和经典基于ID范式的推荐系统硬刚【探索讨论向】。

作者指出很多之前的工作有尝试将NLP/CV预训练模型引入推荐系统,但往往都是关注在冷启动和新物品场景。这对于IDRec而言是不公平的,如果在非冷启场景,MoRec也能打败IDRec,那么推荐系统将有望迎来经典范式的变革。

实验设置:MoRec和IDRec唯一的不同之处是使用预训练的模态编码器来替代IDRec中的ID embedding向量。同时使用了两种常用的推荐网络模式,DSSM 和 SASRec。

Q1:在常规场景(非冷启动)MoRec能够打败IDRec吗?A1:与推荐模式有关,SASRec可以,但DSSM不行。意味着MoRec需要一个强大的推荐骨干(SASRec优于DSSM)和训练方法(seq2seq优于 <u,i> pair)才能激发基于模态的项目编码器的优势

Q2:对于推荐场景,NLP、CV的预训练模型产生的表征有足够的通用能力吗?我们应该怎样使用预训练模型生成的表征?A2:尝试两种方案,two-stage(先用预训练模型提取模态表征,然后作为特征加入推荐模型训练)和end2end(同时训练预训练编码器和推荐模型网络)。结果表明,end2end的方式效果更好,说明nlp、cv预训练得到的表征还没有做到真正的通用性和泛化性。

其他:

几个结论:

把大模型作为打分工具,得到最终排序好的候选list。通常是通过在LLM训练中引入相关的任务来实现,可以分为三种研究方向:

亚马逊在KDD'23的工作,针对序列推荐场景的冷启动和场景迁移问题,提出了用自然语言的方式对用户行为和商品进行建模。具体地

图片

图片

图片

图片

随着LLM参数的越来越大,涌现出小模型所不具有的很多能力(in-context learning 、logical reasoning等),于是可以通过大模型进行推荐系统的整体流程控制。

从大模型训练和推理两个阶段出发,将现有工作分为四个象限

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值