目录
-
一、架构设计
-
二、内容画像
-
离线文章画像构建
-
TFIDF计算
-
TEXTRANK计算
-
文章画像结果计算
-
离线增量文章画像计算
-
Word2Vec与文章相似度
-
-
三、用户画像
-
3.1 为什么要进行用户画像构建
-
3.2 用户画像标签建立
-
用户行为处理
-
用户画像标签权重计算
-
用户画像标签权重计算算法
-
3.3 用户画像增量更新
-
-
四、召回和排序
-
4.1 离线召回
-
召回表设计和召回方式
-
召回表设计
-
模型召回
-
内容召回
-
4.2 离线排序模型训练
-
离线排序模型-CTR预估
-
点击率预测
-
特征服务中心
-
-
五、实时计算
-
实时计算业务的作用
-
实时日志分析处理
-
实时召回集实现
-
热门和新文章召回
-
-
六、推荐业务流的实现和ABTest
导读
利用数仓用户埋点的点击行为、浏览行为、收藏行为等建立用户画像和文章画像,结合机器学习等相关算法,找出用户画像和文章画像的关系,达到千人千面的推荐效果。
一、系统框架
使用lambda大数据数仓实时和离线计算架构,利用用户的点击行为、浏览行为、收藏行为等建立用户画像和文章画像的关系,通过机器学习推荐算法进行推荐。
架构流程:
-
基础数据层
- 业务数据(用户基础信息、文章基本信息)和用户行为日志数据(用户行为日志埋点信息)
- 业务批量存储在HDFS上用以做离线分析 -
数据处理层
- 基础计算(基于离线和实时数据,对各类基础数据计算成用户画像、文章画像)
- 召回和排序
- 召回(使用算法筛选出用户感兴趣的文章候选集合)
- 排序(点击率预估模型、特征处理、模型评价) -
推荐业务层(对外提供rpc接口实现推荐业务接入,用户可不断下拉刷新)
二、文章画像
文章的画像主要就是文章的标签化,根据内容定性的制定一系列的标签,主要是提取出文章的相关分类词、关键词和主题词。
用户画像主要是用户的喜好程度,用户喜欢看的内容就可以当做用户喜好的标签,就是在用户画像过程中加上文章喜好这一类。
离线画像构建存到hbase,业务数据使用sqoop从业务表导到hive中。
发现