闲聊用户画像的存储

最新推荐文章于 2022-09-27 12:56:28 发布

木东居士

最新推荐文章于 2022-09-27 12:56:28 发布

阅读量2.1k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaodedong/article/details/104604243

版权

本文探讨了用户画像存储的挑战，包括频繁的标签增删和更新频率问题。分析了横表（Hive）在标签增多时的存储问题，如计算延迟和存储稀疏。提出了竖表作为解决方案，但指出竖表在多标签查询上的不足。建议采用横表+竖表的组合方式，利用Hive进行计算，Hbase进行高效查询，并用ES构建宽表。总结了存储策略的选择，强调数据驱动思维的重要性。

摘要由CSDN通过智能技术生成

0x00 前言

随便聊一下用户画像的存储。

现在的用户画像，动不动就是几千几万个标签，标签一多就出现了一些需要克服的难题，比如下面两个：

如何解决频繁新增和删除标签的场景
如何解决不同标签更新时间和频率不同的问题

0x01 数据模型设计

从个人角度来讲，在大数据领域接触比较多的的存储引擎有这几个：Hive（Hdfs）、Hbase、ES。这也会是我们在选择存储系统中几个主要的备选方案。

优缺点就不再分析了。我们切入正题：数据模型该怎么设计？

一、横表

以Hive为例，我们最常用的就是横表，也就是一个 key，跟上它的所有标签。比如下面是一个简单的横表。

用户ID	性别	年龄	学历	职业	月薪	月消费能力
001	男	28	本科	程序员	10k-20k	1k-2k
002	女	23	大专	销售	不详	100-200

那么用横表有什么问题吗？有的，其实也就是前言里面提到的：

由于用户的标签会非常多，而且随着用户画像的深入，会有很多细分领域的标签，这就意味着标签的数量会随时增加&#

最低0.47元/天解锁文章

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。