【超长序列建模】阿里ETA：《End-to-End User Behavior Retrieval in Click-Through Rate Prediction Model》

最新推荐文章于 2024-08-06 22:00:00 发布

chad_lee

最新推荐文章于 2024-08-06 22:00:00 发布

阅读量1.2k

点赞数

分类专栏：论文解读推荐系统 CTR 文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/yanguang1470/article/details/126331416

版权

在这里插入图片描述

之前我们说SIM是去向量检索，这一步性能优化的是基于建立离线索引，离线索引虽然加快了search的速度，但也带来了两个“不一致”的问题：

目标不一致：GSU建立索引所使用的item embedding是另一个模型pre-trained（上图），它和当前精排模型可能会存在分布不一致，所表达的语义未必符合正在训练的精排模型的要求。
更新频率不一致：工业界的推荐模型基本都是online learning（几分钟训一次的增量训练）。但是建立离线索引耗时费力，无法频繁更新（半个小时～半天）。精排模型的其他部分都在用最新的数据实时更新，只有GSU部分还在使用过时的索引，成为性能短板。

所以首先要取消离线索引，让target item在线直接从user behaivor sequence中找到与自己相似的historical items：

target item embedding与每个historical item embedding都是最新的（共享的embedding），没有了更新频率上的gap
embedding都是由精排模型的目标更新（embedding都为了优化精排模型的目标），没有了优化目标的gap。

最自然想到的方法就是target attention，让target item与每个historical item逐一点积，这兜兜转转由回到了起点，我们就是从attention出发来的。

一种解决方法是SimHash。

在这里插入图片描述

SimHash是Locality-Sensitive Hashing(LSH)的一种实现，其过程：

给定一个随机矩阵 $\in R^{m \times d}$ 的矩阵，每一行代表一个hash function。
对任意 d 维的向量 x，计算 $\operatorname{ign}(R x)$ ，也就是将x映射成m维长的整数向量（大于0为1，小于0为0）。
因为结果向量的每位只能是0或1，从而 $h (x, R)$ 可以表示成一个m-bit的整数。 $h (x, R)$ 可以称为hash signature，或hash fingerprint。

SimHash的优点在于其locality-preserving属性：两个向量 $v_1$

关注

专栏目录