搜索推荐的主要框架

最新推荐文章于 2024-08-05 18:25:58 发布

Icevivina

最新推荐文章于 2024-08-05 18:25:58 发布

阅读量4.3k

点赞数

分类专栏：机器学习算法文章标签：搜索

本文链接：https://blog.csdn.net/zhouhong0284/article/details/83018266

版权

机器学习算法专栏收录该内容

19 篇文章 0 订阅

订阅专栏

搜索推荐的主要框架

1.倒排索引召回

1）召回模型有三种：
1.基于行为的召回：根据用户的购买行为推荐相关/相似的商品；（长期行为和实时行为）
2.基于用户偏好的召回：用户画像和多屏互通（移动端到PC端）；
3.基于地域的召回；
4.基于搜索词的召回（倒排索引）；

2）倒排索引
倒排是指由属性值来确定记录的位置。
倒排索引由单词词典和倒排文件组成，
单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
倒排文件记录所有单词的倒排列表顺序。
好处是在找含有该词的文件时，不需要扫描所有文件，而只需要在单词词典中找到该词，然后找到该词对应的倒排列表即可。
Lucene倒排步骤：
1.取得关键词；
2.建立倒排索引；lucene将上面三列分别作为词典文件（Term Dictionary）、频率文件(frequencies)、位置文件 (positions)保存
3.实现查找。

3）冷启动
1.利用用户注册信息，可以利用人口统计学的一些特征，如性别、国籍、学历、居住地来预测用户的偏好，当然在极度强调用户体验的今天，注册过程的过于繁琐也会影响到用户的转化率，所以另外一种方式更加简单且有效，即利用用户在其他地方已经沉淀的数据进行冷启动，具体方式为利用用户社交网络账号授权登陆，导入社交网站上的好友信息或者一些行为数据，比如QQ音乐就可以通过获取用户在QQ中的浏览信息；
2.制造选项，让用户选择自己感兴趣的点后，即时生成粗粒度的推荐。
3.提供热门内容，类似刚才所介绍的热度算法，将热门的内容优先推给用户。
4.通过用户在时间和地点的上下文来进行实时的预测。

2.规则过滤

如果是商品的话，就过滤掉没有内存，或者是涉及到敏感词汇

3.建立特征：特征会涉及到用户画像，知识图谱

1）用户画像：通过对用户行为及相关场景的分析，构建用户画像，比如包括性别，年龄，购物类型，购买力，消费信用水平等等

4.搜索排序，模型融合：深度学习，在线学习，算法模型

排序学习是一个有监督的机器学习过程，对每一个给定的查询－文档对，抽取特征，通过日志挖掘或者人工标注的方法获得真实数据标注。然后通过排序模型，使得输入能够和实际的数据相似。
常用的排序学习分为三种类型： PointWise，PairWise和ListWise。
比较重要的有pairwise里面的RankNet；listwise里面的LambdaRank核LambdaMART.

RankNet：对于每一对pair都会进行一次权重的更新，同一个query下的所有文档pair全部带入神经网络进行前向预测，然后计算总差分并进行误差后向反馈，这样将大大减少误差反向传播的次数。
λi决定着第i个doc在迭代中的移动方向和幅度，真实的排在Ui前面的doc越少，排在Ui后面的doc越多，那么文档Ui向前移动的幅度就越大(实际λi负的越多越向前移动)。这表明每个f下次调序的方向和强度取决于同一Query下可以与其组成relative relevance judgment的“pair对”的其他不同label的文档。
缺点：无法更关注靠前位置的相关文档的排序位置的提升。

LambdaRank是一个经验算法，它不是通过显示定义损失函数再求梯度的方式对排序问题进行求解，而是分析排序问题需要的梯度的物理意义，直接定义梯度，即Lambda梯度。
损失函数的梯度代表了文档下一次迭代优化的方向和强度，由于引入了IR评价指标，Lambda梯度更关注位置靠前的优质文档的排序位置的提升。有效的避免了下调位置靠前优质文档的位置这种情况的发生。
可以看出LambdaMART的框架其实就是MART，主要的创新在于中间计算的梯度使用的是Lambda，是pairwise的。MART需要设置的参数包括：树的数量M、叶子节点数L和学习率v，这3个参数可以通过验证集调节获取最优参数。