推荐系统(3):倒排索引在召回中的应用

本文介绍了倒排索引的概念及其在推荐系统中的应用,特别是在内容召回和策略召回中的作用。倒排索引能快速从大规模内容库中召回匹配信息,降低检索时间。在推荐系统中,它用于根据用户画像和行为召回相关内容,同时讨论了倒排索引面临的挑战,如数据量级、索引划分、构建与更新,并提到了Elasticsearch在处理这些问题上的策略。最后,文章比较了不同开源搜索解决方案在推荐场景下的适用性。
摘要由CSDN通过智能技术生成

往期文章:

  1. 推荐系统工程系列(1):浅谈推荐系统架构
  2. 推荐系统工程实践(2):详解去重设计与实践

本文同步发表于

  1. 知乎专栏: 倒排索引在召回中的应用
  2. 微信公众号: yanianthe的公众号: 倒排索引在召回中的应用

在这里插入图片描述

欢迎订阅,一起学习一起成长~

1. 什么是倒排索引

倒排索引这个概念,在信息检索领域使用比较广泛。核心的需求是:如何从超大规模的内容库中召回匹配关键字的结果

比如,在谷歌中搜索包含 ”推荐系统“ 关键字的内容。最直观的做法是针对数据库中所有内容一条一条匹配。但这样查找复杂度至少是O(n),面对成千上亿的海量数据,效率上远远达不到要求。

因此,搜索引擎常规做法都是预先针对内容建立一个关键字索引。记录关键字对应的文档Id,位置,甚至是权重(分数),查询的时候,直接到表中获取关键字的文档列表,倒排索引一般使用hash索引结构,查询复杂度O(1)。可以极大减少检索时间。
在这里插入图片描述

2.倒排索引在推荐系统中的应用

在个性化推荐领域,倒排索引同样承担着召回的大任。搜索场景中,关键字是用户主动输入,推荐系统中的"关键字",更多的是依靠用户当下场景,上下文以及浏览行为等。

2.1 内容召回

其中一个比较大的应用场景是内容召回,也叫CB类召回。

在工业级推荐系统中,经常会离线分析用户的行为,得到一份对不同标签的偏好值。做的细一些,还会根据时间,偏好等不同维度进行划分。
在这里插入图片描述

根据用户的不同画像系统,通过倒排索引召回,可以增加用户的内容丰富度,比如最近 原神比较火,用户也频繁点击观看,那么下一次推荐中,可以召回更多原神相关的内容。

内容召回的特点是: 用户兴

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值