聊聊排名算法

最新推荐文章于 2022-04-05 17:03:52 发布

春文秋武

最新推荐文章于 2022-04-05 17:03:52 发布

阅读量2.1k

点赞数 1

分类专栏：搜索文章标签：排名算法

本文链接：https://blog.csdn.net/whuqin/article/details/49621351

版权

搜索专栏收录该内容

12 篇文章

订阅专栏

很多网站或应用会提供各样的排行榜，如热门查询、热门应用、最佳文章、论坛评论/文章列表展示等。前段时间做游戏的搜索热词就看了几篇文章，总结记录下。先介绍下流传比较广的算法，再说下我的算法。

Hacker News热门新闻

Hacker News是一个新闻聚合网站，用户可以submit/up vote新闻，网站需要根据新闻的质量、提交时间排序，以期望把新鲜热门文章找出来。

s c o r e = v - 1 ( t + 2 ) G

$score = \frac{v-1}{(t+2)^G}$

$v$ 是文章获得up vote数，减一的目的是去除提交者自己的vote
t是文章已存在已经发布的时间，当前时间-submit时间
G是一个调节参数，用于调节时间的比重

该算法受时间影响很大，随着时间流逝，score会骤然下降。G越大，下降越快。如下图:

g = 1 / t = 25, s c o r e = 3.7 g = 2 / t = 5, s c o r e = 2

$g=1/t=25, score=3.7\\g=2/t=5, score=2$
这里写图片描述

Reddit最新受欢迎新闻

Reddit也是一个类似的社交新闻网站，用户可以submit、up vote、down vote新闻。看下它的热门文章是如何算出来的。

s c o r e = l o g 10 z + y * t s 45000

$score=log_{10}z + \frac{y*t_s}{45000}$

$t_s=A - B$
A:文章提交的时间；B是一个固定时间，2005/12/8:07:46:43
$x=U - D$ , U: up votes; D: down votes
$y=\begin{cases} 1 & \text{if x > 0} \\0 & \text if x == 0\\ -1 & \text if x < 0 \end{cases}$
$z=min(|x|, 1)$

$score$ 的第二个加数部分是个常量， $t_s$ 在新闻提交的时候就确定了，45000是12.5小时的秒数。
$score$ 的主体是第一个加数 $log$ 函数， $log$ 使早期投票更有影响。 $log_{10}10=1$ , $log_{10}100=2$ ，10以后的90个投票才使 $score+1$ 。下图也反映了越往后 $score$ 越平缓。
这里写图片描述

2015/11/04:20:00:00新增的新闻截止到2015/11/05:20:00:00，经过一天获得5000个up vote，算下得分：

s c o r e = 3.7 + 6947 = 6950.7

$score=3.7 + 6947=6950.7$
那么今天2015/11/05:20:00:00新增的新闻获得100个vote，得分：

s c o r e = 2 + 6949 = 6951

$score=2 + 6949=6951$
可以看出时间对

score $score$ 的影响很大，1天的时间就抵掉了5000个vote，很大的稀释了vote的影响。随着时间流逝vote影响迅速减小，保证了最新的新闻会出现在排行榜前面。反对票多的新闻，也会被打压下去，基本没有出来的机会。

Reddit评论

在某文章下，显示出最好的评论。评论是不需要考虑时间，只考虑up vote/down vote。Reddit采用了Wilson Score Confidence Interval算法。

s c o r e = 1 1 + 1 n z 2 [p^+ 1 2 n z 2 - z 1 n p^(1 - p^) + 1 4 n 2 z 2 - - - - - - - - - - - - - - - - - \sqrt]

$score=\frac{1}{1+\frac{1}{n}z^2}[\hat{p} + \frac{1}{2n}z^2 - z\sqrt{\frac{1}{n}\hat{p}(1-\hat{p}) + \frac{1}{4n^2}z^2}]$

n是总采样数，up + down；
$\hat{p}$ 是支持率, up/n；
$z$ 是置信水平对应的标准正态分布的分位数，可以查正态分布表获得，如0.95置信水平对应的z-score是1.65。

该算法考虑了支持率和数据采样规模，相当于在一个置信水平和采用规模下，找支持率 $\hat{p}$ 的置信区间。当n足够大的时候，score就是当前的支持率。该算法适用于最好/最优之类的排名场景。

$A: up = 1, down = 0, z=1.65: score =\frac{1}{1+1.65^2}=0.2686 \\B: up = 10, down = 1, z=1.65:score = 0.64\\C: up=40,down=20,z=1.65:score=0.53$

如上排名顺序为B、C、A。A场景虽然支持率是100%，但是投票数太少，排到了最后。B虽然只有10个支持票，但推断下当获得40个支持票时，反对票可能是4个，少于C的20个反对票。所以B优于C。

游戏搜索热词

搜索词没有vote数，也很难获得第一次出现的时间。可以考虑的有单位时间内出现的次数、变化趋势。时间单位设为天，搜索词次数是在下载日志中，输入该搜索词的唯一用户数。

s c o r e = {α l o g 10 c 1 l o g 10 s + c 1 - c 2 c 2 0 if c 1 >= N && c 2 >= N if c 1 < N || c 2 < N

$score=\begin{cases}\alpha\frac{log_{10}c_1}{log_{10}s} + \frac{c_1 - c_2}{c_2} & \text{if $c_1$ >= N && $c_2$ >= N} \\0 & \text{if $c_1$ < N || $c_2$ < N}\end{cases}$

${c_1}$ : 昨天的下载日志中，搜该词的唯一用户数，一天内一个用户最多输入该词一次
${c_2}$ : 同${c_1}，但来自于前天的下载日志
$s$ : 昨天下载日志中，唯一用户总数
N: 固定域值，如超过100才能进入热门词候选
$\alpha$ : 固定值，用于调节绝对值和变化趋势间的比重