推荐系统召回总结(持续更新)_推荐系统常见的召回方式-CSDN博客

本文链接：https://blog.csdn.net/whgyxy/article/details/123292005

本文详细介绍了推荐系统的核心架构，包括候选池、召回、粗排、精排、重排和混排阶段。在召回阶段，分为非个性化召回（如热门、时新、特殊通道）和个性化召回（人口属性、内容、协同过滤）。模型召回则利用线性模型（如FM、FFM）、DSSM和YouTubeDNN等方法。评估指标包括AUC和HitRecall@K，并讨论了负样本优化和模型结构优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

召回分类

非个性化召回

时新召回

对于一些新产生的物料，由于没有曝光点击数据，没法从后验指标里面筛选出来，需要一个专门的新物料召回通道，满足对于新物料的拉取。

特殊通道召回

对于一些产品活动的物料、政策制定的物料，需要从特殊通道中召回。

个性化召回

人口属性召回（Demographic-based）

基于用户的基础属性的召回。

基于用户年龄段、性别、学历、地域等基础属性的召回。关键是找到不同基础属性对应的优质素材。这里注意，如果某一个属性（例如性别）不同取值（例如男、女）对应的热门物料差别不大，这个属性召回理论上效果不明显。

CB召回（Content-based）

基于物料内容的召回。

cate1/cate2召回：物料所属的一级类目/二级类目/标签信息作为倒排索引的key，倒排索引的value为这个key下面的优质物料集合。用户trigger为兴趣画像中对应的一级/二级/标签兴趣画像。

创作者召回：物料所属的创作者作为倒排索引的key，倒排索引的value为这个创作者所属的优质物料集合。

CF召回（Collaborative Filtering-based ）

协同过滤召回，可以分为UserCF和ItemCF。

UserCF：基于目标用户，计算其相似用户集合，然后根据相似用户的正向行为作为候选集。
step1：计算目标用户的topN相似用户集合U。
step2：将相似用户集合U中每个用户的正向行为取出，过滤掉目标用户历史(已曝光/消费/点击）行为
关键是计算用户的相似度。例如要计算用户u和v的相似度，N(u)表示用户u正向行为集合，N(v)表示用户v的正向行为集合，可以通过Jaccard公式或者余弦公式来计算相似度
Jaccard公式：
$w_{uv} = \frac {\sum_{i\in N(u) \cap N(v)} \frac {1}{\log_a{1 + \vert{N(i)}\vert}} } {\sqrt {\vert{N(u)}\vert\vert{N(v)}\vert}}$
余弦公式：
$w_{uv} = \frac {\vert{N(u) \cap N(v)} \vert} {\sqrt {\vert{N(u) \vert \vert N(v)} \vert}}$
欧几里得距离公式：

$d (x, y)$ = $\sqrt {\sum_{i=1}^n(x_i-y_i)^2}$

$s i m (x, y)$ = $\frac 1{d(x,y)}$

皮尔逊相关系数：
$\frac {\sum x_iy_i - n \overline {xy}} {(n-1)S_xS_y} = \frac {n \sum x_iy_i - \sum x_i \sum y_i} {\sqrt {n \sum x_i^2-(\sum x_i)^2} \sqrt {n \sum y_i^2 - (\sum y_i)^2}}$

ItemCF：基于目标用户，计算目标用户的正向行为物料的相似物料，这些相似物料作为目标用户的召回候选集。
step1：计算各物料之间的相似度。
step2：根据目标用户的历史正向行为物料集合，找到对应的相似物料，过滤掉目标用户历史(已曝光/消费/点击）行为
关键是计算物料的相似度。例如要计算物料i和物料j的相似度，N(i)表示对物料i有正向行为的用户集合，N(j)表示对物料j有正向行为的用户集合，下面用余弦公式计算i和j的相似度。
$w_{ij} = \frac {\vert N(i) \cap N(j) \vert} {\sqrt {\vert N(i) \vert \vert N(i) \vert }}$

CF召回的优缺点。
优点：

计算速度较快，依赖较少
利用了用户、物料之间的相关性。
缺点：
只利用了ID信息，除ID之外的其他信息（side information）未利用，损失较多信息精度较低，泛化能力较差。
对于热门物料或者活跃用户，由于出现的频次较高，容易形成马太效应，所有用户和这个用户相似/所有物料和这个物料相似，需要做热门打压。CF类召回容易出现下发物料类目上的聚集效应，即头部下发的物料类目/作者集中度变高。
对于行为稀疏的用户或者物料不友好，这类用户或者物料计算出的相似度数值存在置信度问题。

模型召回（Model-based ）

基于用户特征、物料特征、上下文特征来用模型找到用户的相关候选物料。

线性模型：FM召回、FFM召回

FM通过因子分解的方式对每个类别特征引入一个 $k$ 维的隐向量，根据两个对应的隐向量的点积来确定二阶交叉特征的权重。
$\hat {y} (x) = w_0 + \sum_t w_t x_t + \sum_{t<s}<v_t,v_s>x_tx_s$
其中点积部分由如下方式计算， $k$ 是隐向量长度的超参数，数值大小影响模型准确性及泛化能力。
$<v_t,v_s> = \sum_{f=1}^kv_{t,f}*v_{s,f}$
我们把特征 ${x_i,x_2,...,x_n}$ 按照用户和物料对公式进行拆分，拆分为偏置项 $w_0$ 、用户侧一阶特征、物料册一阶特征、用户特征与物料特征交叉、用户特征和用户特征交叉、物料特征和物料特征交叉几个部分。
用户特征 $user = {x_{u_1},x_{u_2},..,x_{u_m}}$ ，
物料特征 $item = {x_{i_1},x_{i_2},..,x_{i_k}}$
$\hat {y} (x) = w_0 + \sum_{u_t \in user} w_{u_t} x_{u_t} + \sum_{i_s \in item} w_{i_s} x_{i_s} + \sum_{x_{u_t} \in user} \sum_{x_{u_s} \in user} <v_{u_t},v_{u_s}>x_{u_t}x_{u_s}+ \sum_{x_{i_t} \in item} \sum_{x_{i_s} \in item} <v_{i_t},v_{i_s}>x_{i_t}x_{i_s} + \sum_{x_{u_t} \in user} \sum_{x_{i_s} \in item} <v_{u_t},v_{i_s}>x_{v_t}x_{i_s}$
对目标用户来说，用户相关特征的计算不影响物料的排序
$w_0 + \sum_{u_t \in user} w_{u_t} x_{u_t} + \sum_{x_{u_t} \in user} \sum_{x_{u_s} \in user} <v_{u_t},v_{u_s}>x_{u_t}x_{u_s}$
不同的item，特征不同，对应的预估值不同，下面公式项决定item的分数排序，左边2项是物料侧得分，最后一项是交叉项得分。
$\sum_{i_s \in item} w_{i_s} x_{i_s} + \sum_{x_{i_t} \in item} \sum_{x_{i_s} \in item} <v_{i_t},v_{i_s}>x_{i_t}x_{i_s} + \sum_{x_{u_t} \in user} \sum_{x_{i_s} \in item} <v_{u_t},v_{i_s}>x_{u_t}x_{i_s}$

交叉项得分可以写成两个向量的内积形式
$\sum_{x_{u_t} \in user} \sum_{x_{i_s} \in item} <v_{u_t},v_{i_s}>x_{u_t}x_{i_s} = (\sum_{x_{u_t} \in user}v_{u_t})(\sum_{x_{i_s} \in item}v_{i_s})$
可以看出这个内积是用户隐向量之和与物料隐向量之和的乘积。
$E m b e d d i n g (u s e r) = [1, 用户隐向量之和]$
$E m b e d d i n g (i t e m) = [物料侧分数，物料侧隐向量之和]$
问题就转换成了两个Embedding的ANN检索问题了，先离线构建好物料侧的向量Embedding，然后针对目标用户，计算出用户的Embedding，根据ANN检索方式求topN相似物料。
DSSM
原文是查询词query和文档doc的匹配问题，在推荐中对应用户和物料的匹配问题。DSSM基本思想是将query和doc映射到同一个低维向量空间，通过query向量和doc向量的相似度来表征两者的相关性。
在这里插入图片描述
应用在推荐中，结构图如下所示，一个塔为用户塔，一个塔为物料塔，输入是用户特征组成的embedding向量和物料特征组成的embedding向量（上下文特征embedding可以放在用户侧），然后通过中间的MLP映射层，最后将匹配层的用户embedding和物料embedding通过cosine来得到相关性结果。

在这里插入图片描述
用户塔和物料塔表示层的计算示例如下

    user_emb = user_tower(layers=[256, 128, 32])
    item_emb = item_tower(layers=[256, 128, 32])
    
    user_output = tf.nn.l2_normalize(user_emb, axis=1, epsilon=1e-7, name='user_tower')
    item_output = tf.nn.l2_normalize(item_emb, axis=1, epsilon=1e-7, name="item_tower")

    dot = tf.reduce_sum(tf.multiply(user_output, item_output), axis=1, keepdims=True)
    logits = tf.layers.dense(dot, 1, activation=None)
    
    y_pred = tf.sigmoid(logits)
    loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=logits, labels=y_label))

YouTubeDNN
模型结构图
在这里插入图片描述
模型包括三个激活函数为Relu的隐层结构，输入为用户的观看历史视频、搜索历史视频、人口属性等信息。

在时刻 $t$ ，为用户 $U$ （上下文信息 $C$ ）在物料候选池 $V$ 中计算物料 $i$ 的类别，物料池中每个物料表示一个类，物料 $i$ 也是一个类。

离线训练输出层是softmax层，输层出公式如下
$p(w_t=i|U,C) = \frac {e^{v_iu}} {\sum_{j \in V}e^{v_ju}}$

直接使用用户embedding和物料embedding做线上ANN检索，加快召回速度。用户embedding在输出层接的是softmax的全连接层，得到概率分布。其权重矩阵 $W$ 即 $n$ 个物料embedding组成的
$p=(Embedding(user))_{1\times k} W_{k \times n}^T$
用户embedding和物料embedding点积得到观看概率，点积越大，表示用户对这个物料越感兴趣
训练输出层做负采样

序列模型Mind

序列模型SASREC

图召回GraphEmbedding

端到端训练TDM

召回优化

评价指标

AUC 召回侧模型的auc指标一般较高，主要原因是加入了随机负样本，模型学习的时候是相对较为容易的，在某些头部物料较为集中的场景，如果负样本仅仅采用随机负采样，得到的auc指标可能会到0.95+，主要原因是模型能根据物料的一些反馈信号很容易区分出正负样例。因此对模型、样本、特征进行升级，这个指标的变化往往不能真正反映模型效果的变化。一般使用HitRecall@K指标。
HR@K
$=\sum_{i=1}^N \frac {\vert topK \vert \cap \vert Real \vert} {K}$
例如用户A、B、C在测试集中真实行为物料分别有4个、3个、5个，三个用户推荐的top10列表与真实的交集分别是2个、1个、3个，那么
$\frac {2+1+3} {10+10+10} = 0.25$