基于画像推荐系统设计（离线+实时）

最新推荐文章于 2023-11-27 19:18:49 发布

☞空白页

最新推荐文章于 2023-11-27 19:18:49 发布

阅读量442

点赞数

文章标签：推荐系统用户画像

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44441757/article/details/118302872

版权

本文介绍了如何构建基于用户画像和文章画像的推荐系统，涵盖离线文章画像构建（TFIDF、TEXTRANK计算）、用户画像建立（用户行为处理、权重计算）、召回和排序策略，以及实时计算在推荐业务中的应用，旨在实现个性化推荐和用户冷启动问题的解决方案。

摘要由CSDN通过智能技术生成

目录

一、架构设计
二、内容画像
- 离线文章画像构建
- TFIDF计算
- TEXTRANK计算
- 文章画像结果计算
- 离线增量文章画像计算
- Word2Vec与文章相似度
三、用户画像
- 3.1 为什么要进行用户画像构建
- 3.2 用户画像标签建立
- 用户行为处理
- 用户画像标签权重计算
- 用户画像标签权重计算算法
- 3.3 用户画像增量更新
四、召回和排序
4.1 离线召回
- 召回表设计和召回方式
- 召回表设计
- 模型召回
- 内容召回
- 4.2 离线排序模型训练
- 离线排序模型-CTR预估
- 点击率预测
- 特征服务中心
五、实时计算
- 实时计算业务的作用
- 实时日志分析处理
- 实时召回集实现
- 热门和新文章召回
六、推荐业务流的实现和ABTest

导读

利用数仓用户埋点的点击行为、浏览行为、收藏行为等建立用户画像和文章画像，结合机器学习等相关算法，找出用户画像和文章画像的关系，达到千人千面的推荐效果。

一、系统框架

使用lambda大数据数仓实时和离线计算架构，利用用户的点击行为、浏览行为、收藏行为等建立用户画像和文章画像的关系，通过机器学习推荐算法进行推荐。

架构流程：

基础数据层
- 业务数据（用户基础信息、文章基本信息）和用户行为日志数据（用户行为日志埋点信息）
- 业务批量存储在HDFS上用以做离线分析
数据处理层
- 基础计算（基于离线和实时数据，对各类基础数据计算成用户画像、文章画像）
- 召回和排序
- 召回（使用算法筛选出用户感兴趣的文章候选集合）
- 排序（点击率预估模型、特征处理、模型评价）
推荐业务层（对外提供rpc接口实现推荐业务接入，用户可不断下拉刷新）

二、文章画像

文章的画像主要就是文章的标签化，根据内容定性的制定一系列的标签，主要是提取出文章的相关分类词、关键词和主题词。
用户画像主要是用户的喜好程度，用户喜欢看的内容就可以当做用户喜好的标签，就是在用户画像过程中加上文章喜好这一类。

离线画像构建存到hbase，业务数据使用sqoop从业务表导到hive中。
发现

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。