用户画像基础之数据架构

最新推荐文章于 2024-09-27 08:01:14 发布

电光闪烁

最新推荐文章于 2024-09-27 08:01:14 发布

阅读量1.3k

点赞数 1

分类专栏： # 用户画像文章标签：用户画像用户标签

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang_shibiao/article/details/122650521

版权

用户画像专栏收录该内容

25 篇文章 27 订阅

订阅专栏

目录

0. 相关文章链接

1. 数据架构

注：此博文为根据赵宏田老师的用户画像·方法论与工程化解决方案一书读后笔记而来，仅供学习使用

0. 相关文章链接

用户画像文章汇总

1. 数据架构

在整个工程化方案中，系统依赖的基础设施包括Spark、Hive、 HBase、Airflow、MySQL、Redis、Elasticsearch。除去基础设施外，系统主体还包括Spark Streaming、ETL、产品端3个重要组成部分。如下图所示：

在上图下方虚线框中为常见的数据仓库ETL加工流程，也就是将每日的业务数据、日志数据、埋点数据等经过ETL过程，加工到数据仓库对应的ODS层、DW层、DM层中。

中间的虚线框即为用户画像建模的主要环节，用户画像不是产生数据的源头，而是对基于数据仓库ODS层、DW层、DM层中与用户相关数据的二次建模加工。在ETL过程中将用户标签计算结果写入Hive，由于不同数据库有不同的应用场景，后续需要进一步将数据同步到MySQL、 HBase、Elasticsearch等数据库中。

Hive：存储用户标签计算结果、用户人群计算结果、用户特征库计算结果。
MySQL：存储标签元数据，监控相关数据，导出到业务系统的数据。
HBase：存储线上接口实时调用类数据。
Elasticserch：支持海量数据的实时查询分析，用于存储用户人群计算、用户群透视分析所需的用户标签数据（由于用户人群计算、用户群透视分析的条件转化成的SQL语句多条件嵌套较为复杂，使用Impala执行也需花费大量时间）。

用户标签数据在Hive中加工完成后，部分标签通过Sqoop同步到MySQL数据库，提供用于BI报表展示的数据、多维透视分析数据、圈人服务数据；另一部分标签同步到HBase数据库用于产品的线上个性化推荐。

注：再次声明，此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来，仅供学习使用

注：其他相关文章链接由此进 -> 用户画像文章汇总

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

电光闪烁 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。