Datawhale组队学习——推荐系统Task05 用户倒排索引表的构建

最新推荐文章于 2024-07-17 21:04:45 发布

zxc123qwer

最新推荐文章于 2024-07-17 21:04:45 发布

阅读量1.1k

点赞数

文章标签：推荐系统 python 数据库

本文链接：https://blog.csdn.net/zxc123qwer/article/details/122246690

版权

以下学习笔记来自Datawhale组队学习的推荐系统课程，项目地址：
https://github.com/datawhalechina/fun-rec

当我们了解了新闻物料的构建以及前后端交互的基础之后，剩下的就是去了解推荐流程在当前项目中是怎么实现的了，另外，以下内容主要是看的项目里docs下的md文件来的，实际代码有一些更改，不过大体逻辑应该是一样的。

在这里插入图片描述

倒排索引

一个未经处理的数据库中，一般是以文档ID作为索引，以文档内容作为记录。而倒排索引简单来说就是将单词或记录作为索引，将文档ID作为记录，这样便可以方便地通过单词或记录查找到其所在的文档。

详细倒排索引可以参考这里：https://zhuanlan.zhihu.com/p/28320841

推荐系统流程构建主要包括offline和online两部分

Offline

offline部分主要是基于前面存储好的物料画像和用户画像进行离线计算，为每个用户提供一个热门页列表和推荐页列表并进行缓存，方便online服务的列表获取。以下为这两个列表的生成以及缓存到redis的流程。

热门页列表

当用户点击热门按钮，就会获取离线部分事先为用户生成好缓存到了redis中的数据。热门页即热度值较高的页面（根据它的发布时间，用户对它的行为记录(获得的点赞数，收藏数和阅读数)去计算该文章的热度信息）。
每天凌晨物料处理完，会得到每篇文章的发布时间(静态特征)以及每篇文章目前为止累计的获赞数，被收藏数和被阅读数(动态特征)，这时候，我们就可以遍历物料池中的每篇文章，拿到文章的发布时间，与当前时间作差得到文章的时效性，然后根据时效性过滤掉发布太久的文章，然后再结合文章的动态特征，基于热度公式，就能计算文章的热度值。每篇文章都有一个热度值，根据热度值排序，就可以得到文章热门列表，把该列表以zset的形式缓存到redis，之所以zset，是因为可以帮助我们根据hot value自动排好序。这是一份公共的热门列表，这个可以作为每个用户热门列表的初始化状态。
由于每个用户的喜好兴趣不同，对于同一个热门页，点击的文章可能会有所不同，而我们给用户曝光的时候，往往是会先过滤掉对用户曝光过的内容，所以为了每个用户的个性化曝光，当用户登录的时候，我们会给每个用户单独生成一个热门页列表，初始化状态就是上面的公共列表。之后，用户再去点击热门的时候，就从自己的热门页列表中获取文章了。

代码在 recprocess/recall 下的hot_recall.py下

def get_hot_rec_list(self):
        """获取物料的点赞，收藏和创建时间等信息，计算热度并生成热度推荐列表存入redis
        """
        # 遍历物料池里面的所有文章
        for item in self.feature_protrail_collection.find():
            news_id = item['news_id']
            news_cate = item['cate']
            news_ctime = item['ctime']
            news_likes_num = item['likes']
            news_collections_num = item['collections']
            news_read_num = item['read_num']
            news_hot_value = item['hot_value']

            #print(news_id, news_cate, news_ctime, news_likes_num, news_collections_num, news_read_num, news_hot_value)

            # 时间转换与计算时间差   前提要保证当前时间大于新闻创建时间，目前没有捕捉异常
            news_ctime_standard = datetime.strptime(news_ctime, "%Y-%m-%d %H:%M")
            cur_time_standard = datetime.now()
            time_day_diff = (cur_time_standard - news_ctime_standard).days
            time_hour_diff = (cur_time_standard - news_ctime_standard).seconds / 3600

            # 只要最近3天的内容
            if time_day_diff > 3:
                continue
            
            # 计算热度分，这里使用魔方秀热度公式， 可以进行调整, read_num 上一次的 hot_value  上一次的hot_value用加？  因为like_num这些也都是累加上来的， 所以这里计算的并不是增值，而是实时热度吧
            # news_hot_value = (news_likes_num * 6 + news_collections_num * 3 + news_read_num * 1) * 10 / (time_hour_diff+1)**1.2
            # 72 表示的是3天，
            news_hot_value = (news_likes_num * 0.6 + news_collections_num * 0.3 + news_read_num * 0.1) * 10 / (1 + time_hour_diff / 72) 

            #print(news_likes_num, news_collections_num, time_hour_diff)

            # 更新物料池的文章hot_value
            item['hot_value'] = news_hot_value
            self.feature_protrail_collection.update({'news_id':news_id}, item)

            #print("news_hot_value: ", news_hot_value)

            # 保存到redis中
            self.reclist_redis.zadd('hot_list', {'{}_{}'.format(news_cate, news_id): news_hot_value}, nx=True)

总结：
就是每天遍历物料池，对于每篇文章，基于动态信息和静态特征计算热度值，并进行热度值排序，生成公共热门模板，作为每个用户单独热门列表的初始。

推荐页列表

推荐页是推荐系统的关键，对于每个用户，我们会生成不同的推荐页面，这就是我们所知悉的"千人千面"，如何做到这一点？就需要借助已经存好的用户画像和物品画像，制作特征，然后通过模型预测排序，做到所谓的个性化。当然，对于一个新来的用户，由于我们事先没有存储好用户画像，因此这里我们当做冷启动处理。所以这块分成了冷启动和个性化推荐两块进行梳理。

冷启动：冷启动主要是针对新用户，通过一些粗略的信息，比如年龄，性别(用户注册时会获取到)等，获取到一些大类别下的文章(适合该年龄，该性别看的文章)，然后再根据文章的热度信息，给新用户生成一份冷启动推荐列表。当然这里只是说了一种简单的方式，冷启动其实也是一种比较复杂的场景，感兴趣同学可以查阅一些其他资料。

代码在 recprocess/cold_start下的cold_start.py下

def generate_cold_start_news_list_to_redis_for_register_user(self):
        """给已经注册的用户制作冷启动新闻列表
        """
        for user_info in self.register_user_sess.query(RegisterUser).all():
            if int(user_info.age) < 23 and user_info.gender == "female":
                redis_key = "cold_start_group:{}".format(str(1))
                self.copy_redis_sorted_set(user_info.userid, redis_key)
            elif int(user_info.age) >= 23 and user_info.gender == "female":
                redis_key = "cold_start_group:{}".format(str(2))
                self.copy_redis_sorted_set(user_info.userid, redis_key)
            elif int(user_info.age) < 23 and user_info.gender == "male":
                redis_key = "cold_start_group:{}".format(str(3))
                self.copy_redis_sorted_set(user_info.userid, redis_key)
            elif int(user_info.age) >= 23 and user_info.gender == "male":
                redis_key = "cold_start_group:{}".format(str(4))
                self.copy_redis_sorted_set(user_info.userid, redis_key)
            else:
                pass 
        print("generate_cold_start_news_list_to_redis_for_register_user.")

个性化: 个性化推荐主要是针对老用户，我们通过正常推荐流程，捕捉其兴趣爱好，做到个性推荐，优化用户体验。所以这块走正常推荐流程，比如我们所熟知的召回→排序→重排→个性化列表生成，召回的目的是根据用户部分特征，从海量物品库，快速找到小部分用户潜在感兴趣的物品交给精排，重点强调快，精排主要是融入更多特征，使用复杂模型，来做个性化推荐，强调准。而重排侧，主要是结合精排的结果，再加上各种业务策略，比如去重，插入，打散，多样性保证等，主要是技术产品策略主导或改善用户体验的。

总结：

首先先根据用户的类型分成两波，如果是新用户，就走冷启动推荐流程，通过用户粗略信息，给用户生成一份冷启动推荐列表。如果是老用户，就走个性化推荐流程，通过召回→排序→重排等，给老用户生成一份个性化列表。最终都存储到Redis中。

Online

Online是为用户在使用APP或者系统的过程中触发的行为提供一系列服务，当用户刚进入系统的时候，会进入新闻的推荐页面，此时系统会为该用户获取推荐页文章并进行展示，当用户进入热门页，系统就会为该用户获取热门页列表并进行展示。

获取推荐页列表：这个服务在用户刚进入系统，以及在推荐页中浏览文章刷新下拉过程中进行触发，当系统触发该服务的时候，首先会判断该用户是新用户还是老用户
- 如果是新用户，就从离线存储好的冷启动列表中读取推荐列表，选择指定的数目(比如一次触发给用户推荐10篇)的文章推荐，但推荐之前，需要去除已曝光的文章(避免重复曝光，影响用户体验)，所以对于每个用户，我们还会记录一份已曝光列表，方便我们去重，同时，当批文章曝光出去，还要即使更新我们的曝光列表。
- 如果是老用户，就从离线存储好的个性化推荐列表中读取，和上面一样，选择指定数目的文章，去掉曝光，生成最终推荐列表，同时更新用户曝光记录。
获取热门页列表: 这个服务是用户点击热门页，以及在热门页中浏览文章刷新下来过程中进行触发，当该服务触发的时候，依然会判断新用户和老用户
- 如果是新用户，需要从离线存储好的公共冷启动模板中为该用户生成一份热门页列表，然后获取，选择指定数目文章推荐，和上面一样，去曝光，生成最终推荐列表，更新曝光记录。
- 如果是老用户，从离线存储好的该用户热门列表中读取，选择指定数目文章推荐，去曝光，生成最终推荐列表，更新曝光记录。

代码在 recprocess下的online.py下

def get_hot_list(self, user_id):
        """热门页列表结果"""
        hot_list_key_prefix = "user_id_hot_list:"
        hot_list_user_key = hot_list_key_prefix + str(user_id)

        user_exposure_prefix = "user_exposure:"
        user_exposure_key = user_exposure_prefix + str(user_id)

        # 当数据库中没有这个用户的数据，就从热门列表中拷贝一份 
        if self.reclist_redis_db.exists(hot_list_user_key) == 0: # 存在返回1，不存在返回0
            print("copy a hot_list for {}".format(hot_list_user_key))
            # 给当前用户重新生成一个hot页推荐列表， 也就是把hot_list里面的列表复制一份给当前user， key换成user_id
            self.reclist_redis_db.zunionstore(hot_list_user_key, ["hot_list"])

        # 一页默认10个item, 但这里候选20条，因为有可能有的在推荐页曝光过
        article_num = 200

        # 返回的是一个news_id列表   zrevrange排序分值从大到小
        candiate_id_list = self.reclist_redis_db.zrevrange(hot_list_user_key, 0, article_num-1)

        if len(candiate_id_list) > 0:
            # 根据news_id获取新闻的具体内容，并返回一个列表，列表中的元素是按照顺序展示的新闻信息字典
            news_info_list = []
            selected_news = []   # 记录真正被选了的
            cou = 0

            # 曝光列表
            print("self.reclist_redis_db.exists(key)",self.exposure_redis_db.exists(user_exposure_key))
            if self.exposure_redis_db.exists(user_exposure_key) > 0:
                exposure_list = self.exposure_redis_db.smembers(user_exposure_key)
                news_expose_list = set(map(lambda x: x.split(':')[0], exposure_list))
            else:
                news_expose_list = set()

            for i in range(len(candiate_id_list)):
                candiate = candiate_id_list[i]
                news_id = candiate.split('_')[1]

                # 去重曝光过的，包括在推荐页以及hot页
                if news_id in news_expose_list:
                    continue

                # TODO 有些新闻可能获取不到静态的信息，这里应该有什么bug
                # bug 原因是，json.loads() redis中的数据会报错，需要对redis中的数据进行处理
                # 可以在物料处理的时候过滤一遍，json无法load的新闻
                try:
                    news_info_dict = self.get_news_detail(news_id)
                except Exception as e:
                    with open("/home/recsys/news_rec_server/logs/news_bad_cases.log", "a+") as f:
                        f.write(news_id + "\n")
                        print("there are not news detail info for {}".format(news_id))
                    continue
                # 需要确认一下前端接收的json，key需要是单引号还是双引号
                news_info_list.append(news_info_dict)
                news_expose_list.add(news_id)
                # 注意，原数的key中是包含了类别信息的
                selected_news.append(candiate)
                cou += 1
                if cou == 10:
                    break
            
            if len(selected_news) > 0:
                # 手动删除读取出来的缓存结果, 这个很关键, 返回被删除的元素数量，用来检测是否被真的被删除了
                removed_num = self.reclist_redis_db.zrem(hot_list_user_key, *selected_news)
                print("the numbers of be removed:", removed_num)

            # 曝光重新落表
            self._save_user_exposure(user_id,news_expose_list)
            return news_info_list 
        else:
            #TODO 临时这么做，这么做不太好
            self.reclist_redis_db.zunionstore(hot_list_user_key, ["hot_list"])
            print("copy a hot_list for {}".format(hot_list_user_key))
            # 如果是把所有内容都刷完了再重新拷贝的数据，还得记得把今天的曝光数据给清除了
            self.exposure_redis_db.delete(user_exposure_key)
            return  self.get_hot_list(user_id)

zxc123qwer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale组队学习——推荐系统Task05 用户倒排索引表的构建

以下学习笔记来自Datawhale组队学习的推荐系统课程，项目地址：https://github.com/datawhalechina/fun-rec当我们了解了新闻物料的构建以及前后端交互的基础之后，剩下的就是去了解推荐流程在当前项目中是怎么实现的了，另外，以下内容主要是看的项目里docs下的md文件来的，实际代码有一些更改，不过大体逻辑应该是一样的。倒排索引一个未经处理的数据库中，一般是以文档ID作为索引，以文档内容作为记录。而倒排索引简单来说就是将单词或记录作为索引，将文档ID作为记录，这样
复制链接

扫一扫