LLM in RS (Conversational Recommendation)
一:23-Recommender Systems in the Era of Large Language Models (LLMs)
二:23-Large Language Models as Zero-Shot Conversational Recommenders
三:23-Leveraging Large Language Models in Conversational Recommender Systems
四:23-Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models
提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
- LLM in RS (Conversational Recommendation)
- 一:Recommender Systems in the Era of Large Language Models (LLMs)
- 二:Large Language Models as Zero-Shot Conversational Recommenders
- 三:Leveraging Large Language Models in Conversational Recommender Systems
- 四:Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models
- 二、使用步骤
- 总结
一:Recommender Systems in the Era of Large Language Models (LLMs)
二:Large Language Models as Zero-Shot Conversational Recommenders
主要是运用了一个新的数据集,另外就是在以前的标准CRS评估中解决了一个重复的物品捷径(repeated item shortcut),这可能会导致关于模型设计的不可靠的结论。不过这篇论文的实验分析角度值得考虑。
存在的重复item存在于先前的评估测试样本中作为一个真实item。这允许创建一个简单的基线(例如,从当前对话历史中复制提到的项目),优于大多数现有模型,导致关于当前CRS推荐能力的虚假结论。
结论
1:证明了LLMs主要使用的是先进的 content/context knowledge,而不是传统的 collaborative knowledge(即主要起作用的是用多轮的对话信息,传统的喜欢A的也喜欢B这种协同信息在LLMs中起到的作用并不大)。
2:CRS数据集本质上包含了高水平的内容/上下文信息,这使得CRS任务比传统的推荐任务更适合于LLM。
3: llm存在流行偏差(依旧会推荐一些比较流行的item)和对地理区域的敏感性等限制。
总结
1:这篇文章的大创新点是去除原有数据中的重复项,这种方法不仅可以证明LLM的有效性,同样也可以在评估传统的CRS模型进行评估。
2:分析的角度很多,①证明了LLMs 更依赖于content/context knowledge而非collaborative knowledge;②LLMs评测时出现的幻觉情况;③基于GPT的LLMs比现存在的CRS有更好的content/context knowledge;④:LLM推荐在CRS中存在流行偏差;⑤:LLMs的推荐行难呢过更地理位置有关。这些角度以后做消融实验都可以进行考虑。
三:Leveraging Large Language Models in Conversational Recommender Systems
主要是提供了一个使用LLM构建端到端大规模CRS的路线图:RecLLM;是用一种Full-Tuning的方法进行实现的。
(1)对话管理模块使用LLM与用户进行对话、跟踪上下文和进行系统调用,例如向推荐引擎提交请求,所有这些都作为一个统一的语言建模任务。
(2)在基于LLM的CRS中,在大型item语料库上提出了各种易于处理的解决方案。
(3)Ranker模块使用LLM将从对话上下文中提取的首选项匹配到项目元数据,并生成显示给用户的建议。LLM还共同为其决策提供可以呈现给用户的解释。
(4)系统LLM使用可解释的自然语言用户配置文件,以调节会话级上下文并提高个性化。
(5)一个可控的基于LLM的用户模拟器可以插入到CRS中,以生成用于调优系统模块的合成对话。
总结
这一篇主要是用了full-tuning的方法进行微调。整个推荐的流程是比较新颖的。但是没有开源代码。
四:Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models
提出了一种新的评估方法以及评估了LLM的可解释性。证明模拟用户代替可代替真实用户。用包括主观和客观的方式进行评估。
用prompt给LLM和用户模拟器进行指令约束,对话模拟器分为free-form chit-chat和Attribute-based question answering两种方式进行性能评估,客观角度用recall进行评估,主管角度用说服力(评估解释的质量,目的是评估是否可以说服用户接受建议)进行证明。
结论
由于现有评估协议过于强调基于会话上下文的真实注释的拟合,导致一般CHatGPT的性能表现并不好。因此提出了一种利用基于llm的用户模拟器的交互式评估方法。
(1) ChatGPT在功能方面,在准确性和可解释性方面都优于目前领先的CRSs;
(2) 现有的crs通过交互中准确性有所提高,但在可解释性方面表现较差;
(3) 不同的最优交互策略在不同的场景中有所不同。还证明了评估方法的有效性和可靠性(基于LLM的用户模拟器生成代替人类生成)。
总结
二、使用步骤
1.引入库
代码如下(示例):
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2.读入数据
代码如下(示例):
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())
该处使用的url网络请求的数据。
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。