互联网大厂面试官：推荐系统最经典的排序模型有哪些？你了解多少？

本文链接：https://blog.csdn.net/weixin_46838716/article/details/126550218

互联网大厂面试官：推荐系统最经典的排序模型有哪些？你了解多少？

提示：最近系统性地学习推荐系统的课程。我们以小红书的场景为例，讲工业界的推荐系统。
我只讲工业界实际有用的技术。说实话，工业界的技术远远领先学术界，在公开渠道看到的书、论文跟工业界的实践有很大的gap，
看书学不到推荐系统的关键技术。
看书学不到推荐系统的关键技术。
看书学不到推荐系统的关键技术。

王树森娓娓道来**《小红书的推荐系统》**
GitHub资料连接：http://wangshusen.github.io/
B站视频合集：https://space.bilibili.com/1369507485/channel/seriesdetail?sid=2249610

提示：文章目录

今天开始，咱们就针对互联网大厂的面试官在面试中提出的问题来写

比如，美团推荐系统面试官常问的问题：

推荐系统最经典的排序模型有哪些？你了解多少？

这就要求你熟悉绝大部分经典的排序模型了

从传统经典方法到DL方法，到最新的进展，包括部署上线要考虑的问题

一、用户画像

用户画像是整个推荐系统最基础且最关键的模块，服务于整个推荐系统各个环节。

因此，用户画像数据的质量直接决定了推荐系统效果的好坏。 【数据是核心】

用户画像主要基于用户的行为日志信息挖掘出用户的长期兴趣、短期兴趣、用户行为统计信息、用户DMP信息、用户负反馈等等信息。

二、召回

一个推荐系统中的召回模块，通常由几十个召回通道构成，
每一个召回通道侧重点各不相同，常见的召回算法有：
CF类召回（ICF、UCF）、
规则类召回（最新、最热关键词等）、
以及各种基于语义向量也就是embedding的召回，比如DSSM双塔召回，图召回（其实就是各种x2vec）。

主要是为了降低后面排序环节的候选集大小，通常会把百万级的候选集缩小到千级别的候选集。
这么做就是为了发掘用户可能潜在喜欢的物品，同时也是为了大大降低计算量

二、粗排

粗排的存在完全就是因为精排排序受限于时间复杂度，

因为目前的精排模型往往是层数很深的DNN网络，由于线上时间的限制，
所能预估排序的规模终究有限，所以才有了粗排这么一个环节。

【粗排将几千个物品继续用漏斗筛选几百个出来，这样速度要快才行，否则精排算不了】

常见的粗排模型有DSSM等。

由于粗排是给精排服务的，因此这里还涉及到粗精排目标一致性的问题，
常用的做法就是粗精排特征对齐。

近年来，工业界在粗排环节也有很多尝试，比如引入知识蒸馏的思想，
把精排-粗排构建一个teacher-student网络，即用精排模型指导粗排模型的训练。

三、精排

目前无论是学术界还是工业界，大部分的精力都集中于精排这个环节。

所以面试官才要问你这个问题：推荐系统最经典的排序模型有哪些？你了解多少？

因此你有必要好好透彻地了解一波，这些排序模型，这是作为工作之后要调参尝试的基础能力。

主要有几个方面的因素：
1.精排环节是模型层出的环节，学术界以论文为导向，自然把精力都放在了模型上面，不然着实没法水论文啊。

2.这一波深度学习浪潮席卷了CV、NLP、推荐，
虽然是由于数据、算力和算法三个因素共同助推了深度学习的浪潮，
首先数据量自不用说，每年都在以指数的速度在增长，硬件算力优化历来都是小众，很多人没兴趣甚至也没能力去搞。
加之工业界的成果如果想共享或者有影响力，最好的方式依然是发论文，而发论文嘛又回到了第一条里。
本次推荐系统系列博客也主要集中在精排阶段的常用模型上。

【之前我讲的24篇主要是小红书的推荐系统工业界实现】

精排阶段的目标就是排出用户可能最喜欢的item列表，
用的比较多的排序方式还是point-wise，因此本质上就是个ctr预估模型，
因此精排模型的演进实际上就是CTR模型的演进历程。

下面用一张图来简单的总结下工业界常用的CTR模型的演进历史，
在这里插入图片描述
能够看出基本都围绕着如何更好的从样本中学出有用的信息，
因此特征工程的重要性无与伦比，
从统计机器学习时代的LR，进化到embedding+MLP的范式，
也都是在围绕着如何学到更加有用的高阶交叉特征信息。

在统计机器学习时代，LR在工业界占据统治地位，
LR有着诸多的优点：简单可解释性强，易于分布式并行训练。
但LR只是个线性模型，没办法学到学到一些高阶交叉信息，
因此如果想学到更加细粒度的信息，需要大量的特征工程，既人工做二阶交叉特征，
但这样的话，时间复杂度又回飙升，比如N 方个特征，两辆交叉复杂度就到了 O(N^2)
所以rendle大佬提出了FM模型用于学习二阶交叉特征，
Facebook则利用gbdt进行特征组合然后输入到LR里，提出了GBDT+LR的模型。

待到深度学习来临后，embedding+MLP的范式成为主流，
详细的后面在单独介绍每个模型时再一一详述，这里不再赘述，
大家看看上面的图就好（为了这张图特意去下了个xmind，哈哈）。

四、混排==重排【前面24篇文章的叫法】

混排，顾名思义，就是多种不同类型的内容混合排序，
在信息流推荐中，比如手百的信息流内容类型可能会包括：资讯，视频，小视频，图文，动态等等内容。

在用户请求时，为了多样性的考虑，这些内容以列表页的形式展现给用户，
那么必然涉及到排序，所以有了混排，
最终的目的还是为了提高用户的点击率。
此外混排还会涉及到一些策略，比如冷启用户的曝光处理，以及一些强制曝光策略等。

咱们的目标就是要随机打乱，保证多样性，同时还要插播广告啥的，赚钱呢！

五、在离线一致性：ABtest

推荐系统中，大多人只关注模型部分，
但实际上整个推荐系统是一个庞大的工程
（虽然相比较广告是小巫见大巫，等后面有机会写一写关于广告的那些事儿），
离线的模型训练只是推荐系统的一个环节，

对于有过工业界经验的人来说，最头疼的莫过于如何保证离线一致性了，
因此通常负责离线模型的同学和负责在线工程的同学不是同一个，
往往还是不同的语言，比如离线python，在线C++，就会导致很多不一致的问题。

在离线不一致主要有两部分：
1.特征的在离线不一致；
2.模型的在离线不一致。

先来说说产生在离线不一致的根源，
以特征为例：在离线没有采用统一的框架，比如在线用一套C++抽取框架，
离线用一套java抽取框架，还是不同的人实现的，那么必然产生在离线不一致的情况。
因此，最好的解决办法，就是在离线采用相同的特征抽取框架。

模型也是，离线在线采用相同的代码框架，在百度内部，模型部分在离线采用相同的C++代码编译出来的bin文件，
只要参数不配置错误，就能从根源上避免在离线不一致的情况。

此外在离线特征一致性的监控也非常重要，能够检测出不一致的特征，及时修复。
【关于这部分问题，我在前面24篇文章已经透彻地讲过业界小红书是咋搞的】

下一篇文章开始，我会仔细一个个把精排模型梳理清楚都有哪些？他们有啥特点？
面试官很在乎你的基础功底的，所以你务必自己理解透了

总结

提示：如何系统地学习推荐系统，本系列文章可以帮到你

（1）找工作投简历的话，你要将招聘单位的岗位需求和你的研究方向和工作内容对应起来，这样才能契合公司招聘需求，否则它直接把简历给你挂了
（2）你到底是要进公司做推荐系统方向？还是纯cv方向？还是NLP方向？还是语音方向？还是深度学习机器学习技术中台？还是硬件？还是前端开发？后端开发？测试开发？产品？人力？行政？这些你不可能啥都会，你需要找准一个方向，自己有积累，才能去投递，否则面试官跟你聊什么呢？
（3）今日推荐系统学习经验：下一篇文章开始，我会仔细一个个把精排模型梳理清楚都有哪些？他们有啥特点？
面试官很在乎你的基础功底的，所以你务必自己理解透了