个人总结：推荐算法篇（附协同过滤等）综述

最新推荐文章于 2022-08-03 20:51:00 发布

原创

最新推荐文章于 2022-08-03 20:51:00 发布

· 5.5k 阅读

46 ·

版权

文章标签：

#机器学习 #推荐算法 #协同过滤

本文深入解析现代推荐系统的架构与算法，涵盖在线、近线及离线处理流程，详细阐述基于内容、协同过滤、模型等推荐方法，以及矩阵分解、神经网络等高级技术，助力构建精准个性化推荐。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现代推荐系统

对于在线部分来说，一般要经历几个阶段。首先通过召回环节，将给用户推荐的物品降到千以下规模（因为在具备一定规模的公司里，是百万到千万级别，甚至上亿。所以对于每一个用户，如果对于千万级别物品都使用先进的模型挨个进行排序打分，明显速度上是算不过来的，资源投入考虑这么做也不划算）；如果召回阶段返回的物品还是太多，可以加入粗排阶段，这个阶段是可选的，粗排可以通过一些简单排序模型进一步减少往后续环节传递的物品；再往后是精排阶段，这里可以使用复杂的模型来对少量物品精准排序（打分），排序阶段核心目标是要精准，因为它处理的物品数据量小，所以可以采用尽可能多的特征，使用比较复杂的模型，一切以精准为目标。对某个用户来说，即使精排推荐结果出来了，一般并不会直接展示给用户，可能还要上一些业务策略，比如去已读，推荐多样化，加入广告等各种业务策略。之后形成最终推荐结果，将结果展示给用户。

对于近线部分来说，主要目的是实时收集用户行为反馈，并选择训练实例，实时抽取拼接特征，并近乎实时地更新在线推荐模型。这样做的好处是用户的最新兴趣能够近乎实时地体现到推荐结果里。

对于离线部分而言，通过对线上用户点击日志的存储和清理，整理离线训练数据，并周期性地更新推荐模型。对于超大规模数据和机器学习模型来说，往往需要高效地分布式机器学习平台来对离线训练进行支持。

方法概述

（1）基于内容的推荐:根据物品内容（文本信息、属性信息、分类信息等），基于用户以往的喜欢记录，对用户的兴趣爱好进行建模（即用户画像，user profile），以及表达物品的特征（即物品画像，item profile）。然后在物品集合中计算物品画像与用户画像的相似度，选择最相近的N个物品（Top-N）推荐给用户。

基于内容的方法通常会抽取推荐物品的信息进行描述，常用的方法是加权关键词向量，用户画像和物品特征可以表示为。抽取的关键词作为推荐对象的特征，权重可以用TF-IDF、熵、信息增益和互信息等进行计算。例如在新闻等文本相关推荐领域，就可以先进行分词，然后利用TF-IDF计算权重，抽取关键词形成特征，建立加权关键字向量。对于用户画像，则可以使用户所有交互过的物品的加权关键字向量进行加权平均来表示。