CORE: Simple and Effective Session-based Recommendation within Consistent Representation Space精读

不想做web3的刻晴不是好NLPer

已于 2022-10-26 17:11:59 修改

阅读量428

点赞数 2

文章标签：深度学习机器学习人工智能

于 2022-10-13 20:45:56 首次发布

本文链接：https://blog.csdn.net/weixin_61132158/article/details/127232436

版权

论文链接：https://arxiv.org/pdf/2204.11067v1.pdf

SIGIR 2022 维持于同一表征空间下的会话推荐

本文在session-based recommendation领域解决了一个痛点问题，即在同一batch下，每个session的长度恒定，如diginetica数据集下长度都为50，可是session平均的长度却不到5。因此有大量的空白被0填充，在转为session embedding vector的时候没有相应变成了0。

这一个问题还是比较明显的，在我刚开始做sequential recommendation这一块时，发现了每个user的embedding vector有一部分是完全相同，我还怀疑过embedding不会被训练，hhh。

总而言之，赵鑫老师组的这篇对我挺有启发意义的。未来可以试着做一些对抗攻防，因为session领域训练依靠的知识还是比较少的。假如我在item embedding中加入点噪声，那么我猜就直接干掉这个模型了。（这是可以说的吗）

1 导读

Session-based recommendation指的是用户在匿名情况下根据短期的点击序列来预测下一次点击的推荐系统。然而，非线性encoder学习得到的每一session的embedding vector是和item的embedding vector不在同一表征空间，因而导致结果不正确。因此，本篇文章设计了CORE框架，将item embedding线性组合作为session的embedding，并且提出一种鲁棒距离测定方法，防止过拟合。

2 方法

首先，每个商品映射到统一embedding空间，hi=Emb(vi)∈Rd表示商品vi的embedding；然后，通过编码器Encoder编码序列中的商品embedding得到会话embeddinghs=Enconder([hs,1,...,hs,n])∈Rd；最后预测下一个商品y^=Decoder(hs)∈Rm，其中m为商品数。

2.1 表征一致编码

本节目的是将会话编码到商品embedding空间中，缓解会话和商品表征不一致问题。由于大多数现有编码器采用直接堆叠在输入商品embedding上的非线性编码器（例如，RNN 或 Transformer），因此编码的会话embedding与商品不在同一表征空间中。一个自然的想法是是否可以移除商品embedding上的非线性激活函数，并将会话编码为商品embedding的线性组合。