基于画像推荐系统设计(离线+实时)

本文介绍了如何构建基于用户画像和文章画像的推荐系统,涵盖离线文章画像构建(TFIDF、TEXTRANK计算)、用户画像建立(用户行为处理、权重计算)、召回和排序策略,以及实时计算在推荐业务中的应用,旨在实现个性化推荐和用户冷启动问题的解决方案。
摘要由CSDN通过智能技术生成

目录

  • 一、架构设计

  • 二、内容画像

    •   离线文章画像构建

    •   TFIDF计算

    •   TEXTRANK计算

    •   文章画像结果计算

    •   离线增量文章画像计算

    •   Word2Vec与文章相似度

  • 三、用户画像

    • 3.1 为什么要进行用户画像构建

    • 3.2 用户画像标签建立

    •        用户行为处理

    •        用户画像标签权重计算

    •        用户画像标签权重计算算法

    • 3.3 用户画像增量更新

  • 四、召回和排序

  •       4.1 离线召回

    •         召回表设计和召回方式

    •         召回表设计

    •         模型召回

    •         内容召回

    • 4.2 离线排序模型训练

    •         离线排序模型-CTR预估

    •         点击率预测

    •         特征服务中心

  • 五、实时计算

    • 实时计算业务的作用

    • 实时日志分析处理

    • 实时召回集实现

    • 热门和新文章召回

  • 六、推荐业务流的实现和ABTest

导读

利用数仓用户埋点的点击行为、浏览行为、收藏行为等建立用户画像和文章画像,结合机器学习等相关算法,找出用户画像和文章画像的关系,达到千人千面的推荐效果。

一、系统框架

使用lambda大数据数仓实时和离线计算架构,利用用户的点击行为、浏览行为、收藏行为等建立用户画像和文章画像的关系,通过机器学习推荐算法进行推荐。

架构流程:
图片

  1. 基础数据层
    - 业务数据(用户基础信息、文章基本信息)和用户行为日志数据(用户行为日志埋点信息)
    - 业务批量存储在HDFS上用以做离线分析

  2. 数据处理层
    - 基础计算(基于离线和实时数据,对各类基础数据计算成用户画像、文章画像)
    - 召回和排序
    - 召回(使用算法筛选出用户感兴趣的文章候选集合)
    - 排序(点击率预估模型、特征处理、模型评价)

  3. 推荐业务层(对外提供rpc接口实现推荐业务接入,用户可不断下拉刷新)

二、文章画像

文章的画像主要就是文章的标签化,根据内容定性的制定一系列的标签,主要是提取出文章的相关分类词、关键词和主题词。
用户画像主要是用户的喜好程度,用户喜欢看的内容就可以当做用户喜好的标签,就是在用户画像过程中加上文章喜好这一类。

离线画像构建存到hbase,业务数据使用sqoop从业务表导到hive中。
发现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值