1. 推荐系统的问题定义及其在工业界与学术界的差异
2. 推荐系统的离线评测及典型的数据泄漏问题
3. 推荐系统的数据构建问题
4. 大模型在推荐系统的模型层面的定位问题
分享嘉宾|孙爱欣 南洋理工大学 副教授
出品社区|DataFun
01
02
推荐系统的离线评测及典型的数据泄漏问题
可以看到用户A所有的交互都是发生在t1之前,它对用户C来说可能有一定的贡献,但是用户C所有的交互是发生在用户A离开系统之后的,现实中是不可能对用户A的推荐产生影响的。但是因为数据泄露,用户C的这些交互对用户A的评测点起到什么作用呢,我们并不清楚,所以我们进行了一些测试。我们采用上述4个数据集进行了测试,采用Leave-one-out作为数据划分,选取了4个常见的推荐模型,BPR、NeMF、LightGCN和SASRec。
03
推荐系统的数据构建问题
04
大模型在推荐系统的模型层面的定位问题
下图是NLP领域的发展情况。刚开始的时候我们仅关注于word embedding,就是将文本转化成深度学习模型可以采用的一种输入模式。之后研究的重点变为具体应用而设计的模型结构。当语言模型有新进展时,例如BERT、RoBERTa等模型出现时,应用模型的具体结构就变得不是那么重要了,很多时候考虑的是BERT加一个判别层就达到一个很好的效果。当现在有了大语言模型之后,我们发现模型结构在很大程度上被简化成一种提示的或询问的形式,就是描述问题,让大模型给一个判断,这个时候应用模型结构就变得微乎其微了,更多的时候是去优化提示。当我们把这个场景应用到推荐时,核心问题在于如何去描述一个推荐问题的场景,然后将该描述输入给大模型,让它能够做出一定的判断。另一方面就是如果在推荐研究中用大模型作为一个推荐的解决方案,现有常用的离线评测在多大程度上能够反映了线上的落地场景。
分享嘉宾
INTRODUCTION
孙爱欣
南洋理工大学
副教授
孙爱欣博士是新加坡南洋理工大学计算机科学与工程学院(SCSE)的副教授和副院长(学术)。他分别在2001年和2004年获得南洋理工大学计算机工程一等荣誉学士学位和博士学位。他的研究兴趣包括信息检索、文本挖掘、社群计算和数字图书馆。他发表过200多篇论文,这些论文在谷歌学术上总共获得了16000多次引用,h指数为59。孙博士是ACM Transactions on Information Systems(TOIS)、Neurocomputing的副编辑,也是Journal of the Association for Information Science and Technology(JASIST)和Information Retrieval Journal的编辑委员会成员。他曾担任WSDM2023的 DC co-chair,SIGIR2020、ICDM2018、CIKM2017的 Demo co-chair,AIRS2019的PC co-chair,以及ADMA2017的General Chair。他还曾担任SIGIR、WWW、WSDM、EMNLP、AAAI和IJCAI等多个会议的领域主席、高级程序委员会成员或程序委员会成员。