漫谈搜素引擎的排序模型

最新推荐文章于 2024-05-30 19:40:25 发布

杨步涛的博客

最新推荐文章于 2024-05-30 19:40:25 发布

阅读量4.2k

点赞数

分类专栏：机器学习(广告、推荐、数据挖掘) 搜索(lucene&solr) 文章标签：机器学习搜索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangbutao/article/details/42501371

版权

机器学习(广告、推荐、数据挖掘) 同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

搜索(lucene&solr)

12 篇文章 0 订阅

订阅专栏

万变不离其宗，搜索引擎的搜索结果排序算法模型，可以抽象为计算每一个doc的p(d|q)，

利用朴素贝叶斯算法原理，p(d|q)=p(q|d)*p(d)/p(q)，p(q)对于每一个doc都是一样的，所以最终的排序打分是p(q|d)*p(d)，p(q|d)是query和doc的匹配程度，p(d)是每个doc的本身的打分，而doc本身的打分可以定义的角度非常多，和诸多的因素有关。

Lucene默认的排序算法是特征向量空间的TF-IDF模型，

score(q,d)= coord(q,d)·queryNorm(q)·∑( tf(t in d)·idf(t)^2·t.getBoost()·norm(t,d) )

公式这么一大串，其实可以概括为query和doc的相关性的匹配，以及boost(boost可以应用于doc上)，lucene这种模型的缺点是精确度不高。对于电商搜索方面的排名规则，可以把doc方面的各个维度(人气、热度、作弊、卖家因素、商品因素、、)的参数综合权重设置到doc的boost中，来影响doc的boost分数。

还有一种相关性的基于概率模型的BM25模型，在Lucene4中已经有提供，BM25的公式这里就不细说了，感兴趣的可以去搜一下。

在网页中排序，除了query和网页的相关性外，还网页的本身的pagerank有关系。

在solr中的一些影响boost排序做法，可以使用edismax(pf,qf)、bf查询的配置来影响boost打分。

有了query和doc的相关性以及doc本身的因素打分，在实际应用中，如何融合这些影响搜索排序的因素，一种做法是人工进行对各种因素进行评估，按照权重把这些因素进行相加。对于各种因素的组合，针对策略不断的细化，当规模达到一定程度时，人工的方式已经很难对这些因素的权重进行调整。于是另外一种做法是采用机器学习的方式LTR，结合用户的搜索和点击行为，进行模型学习，根据模型自动的进行因素权重调整(关于LTR后续章节再详细介绍）。

由此可见，无论是搜索，还是推荐、广告投放，都会涉及排序，排序的做法越来越多的利用机器学习的方式进行建模，这几个方面都已趋于融合。

杨步涛的博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。