LLM in RS (Conversational Recommendation)

本文探讨了在大型语言模型时代,如何利用零-shot方法将LLMs转化为对话式推荐系统,解决了重复物品问题,重新思考了评估方法,揭示了LLMs主要依赖内容/上下文知识而非协作知识。此外,文章还介绍了RecLLM的全量调优方法及其在推荐流程中的应用。
摘要由CSDN通过智能技术生成

LLM in RS (Conversational Recommendation)

一:23-Recommender Systems in the Era of Large Language Models (LLMs)
二:23-Large Language Models as Zero-Shot Conversational Recommenders
三:23-Leveraging Large Language Models in Conversational Recommender Systems
四:23-Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档


一:Recommender Systems in the Era of Large Language Models (LLMs)

LLM in RS 的流程图

二:Large Language Models as Zero-Shot Conversational Recommenders

主要是运用了一个新的数据集,另外就是在以前的标准CRS评估中解决了一个重复的物品捷径(repeated item shortcut),这可能会导致关于模型设计的不可靠的结论。不过这篇论文的实验分析角度值得考虑。
存在的重复item存在于先前的评估测试样本中作为一个真实item。这允许创建一个简单的基线(例如,从当前对话历史中复制提到的项目),优于大多数现有模型,导致关于当前CRS推荐能力的虚假结论。

引入了一个简单的提示策略来定义LLM的任务描述𝑇、格式需求𝐹和会话上下文𝑆,记为F,然后用处理器Φ将生成结果后处理到排序项目列表中。

结论

1:证明了LLMs主要使用的是先进的 content/context knowledge,而不是传统的 collaborative knowledge(即主要起作用的是用多轮的对话信息,传统的喜欢A的也喜欢B这种协同信息在LLMs中起到的作用并不大)。
2:CRS数据集本质上包含了高水平的内容/上下文信息,这使得CRS任务比传统的推荐任务更适合于LLM。
3: llm存在流行偏差(依旧会推荐一些比较流行的item)和对地理区域的敏感性等限制。
LLMs的频率(GPT-4)的散点图产生的建议和地面真实项目。
按国家划分的地面真实项目数量,按国家对应的recall@1

总结

1:这篇文章的大创新点是去除原有数据中的重复项,这种方法不仅可以证明LLM的有效性,同样也可以在评估传统的CRS模型进行评估。
2:分析的角度很多,①证明了LLMs 更依赖于content/context knowledge而非collaborative knowledge;②LLMs评测时出现的幻觉情况;③基于GPT的LLMs比现存在的CRS有更好的content/context knowledge;④:LLM推荐在CRS中存在流行偏差;⑤:LLMs的推荐行难呢过更地理位置有关。这些角度以后做消融实验都可以进行考虑。

三:Leveraging Large Language Models in Conversational Recommender Systems

主要是提供了一个使用LLM构建端到端大规模CRS的路线图:RecLLM;是用一种Full-Tuning的方法进行实现的。

(1)对话管理模块使用LLM与用户进行对话、跟踪上下文和进行系统调用,例如向推荐引擎提交请求,所有这些都作为一个统一的语言建模任务。
(2)在基于LLM的CRS中,在大型item语料库上提出了各种易于处理的解决方案。
(3)Ranker模块使用LLM将从对话上下文中提取的首选项匹配到项目元数据,并生成显示给用户的建议。LLM还共同为其决策提供可以呈现给用户的解释。
(4)系统LLM使用可解释的自然语言用户配置文件,以调节会话级上下文并提高个性化。
(5)一个可控的基于LLM的用户模拟器可以插入到CRS中,以生成用于调优系统模块的合成对话。
RecLLM的整体结构图

总结

这一篇主要是用了full-tuning的方法进行微调。整个推荐的流程是比较新颖的。但是没有开源代码。

四:Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

提出了一种新的评估方法以及评估了LLM的可解释性。证明模拟用户代替可代替真实用户。用包括主观和客观的方式进行评估。

用prompt给LLM和用户模拟器进行指令约束,对话模拟器分为free-form chit-chat和Attribute-based question answering两种方式进行性能评估,客观角度用recall进行评估,主管角度用说服力(评估解释的质量,目的是评估是否可以说服用户接受建议)进行证明。
在这里插入图片描述

结论

由于现有评估协议过于强调基于会话上下文的真实注释的拟合,导致一般CHatGPT的性能表现并不好。因此提出了一种利用基于llm的用户模拟器的交互式评估方法。
(1) ChatGPT在功能方面,在准确性和可解释性方面都优于目前领先的CRSs;
(2) 现有的crs通过交互中准确性有所提高,但在可解释性方面表现较差;
(3) 不同的最优交互策略在不同的场景中有所不同。还证明了评估方法的有效性和可靠性(基于LLM的用户模拟器生成代替人类生成)。

总结

二、使用步骤

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值