hive两拼接字段对比，涉及到的拼接字段拼接顺序问题

最新推荐文章于 2022-11-07 14:14:44 发布

--曹曹--

最新推荐文章于 2022-11-07 14:14:44 发布

阅读量1.2w

点赞数 2

分类专栏： sql类 hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45504407/article/details/106997782

版权

背景：将用户宽表重构，其中指标包含收藏数、转发数等内容，需要把每天全量数据展示出来，又因全量数据量太大()，将每天的新更新的数据单独写入一张表，存redis。思路：1、需求包含有类似情形的好几个指标，如：1、3、7、30、45天收藏数、转发数等；2、将有相似情形的指标做一张中间表，将涉及维度1、3、7、30、45天的指标拼接为1个字段，从而不用再写冗杂的数据逻辑，如：之前的写法：每一个维度指标都会出具一个字段collect_work_1dayall_forwarduserwork_3d

摘要由CSDN通过智能技术生成

背景：将用户宽表重构，其中指标包含收藏数、转发数等内容，需要把每天全量数据展示出来，又因全量数据量太大()，将每天的新更新的数据单独写入一张表，存redis。

思路：1、需求包含有类似情形的好几个指标，如：1、3、7、30、45天收藏数、转发数等；
2、将有相似情形的指标做一张中间表，将涉及维度1、3、7、30、45天的指标拼接为1个字段，从而不用再写冗杂的数据逻辑，如：

之前的写法：每一个维度指标都会出具一个字段

collect_work_1day	all_forwarduserwork_3day
111	222

改变后的写法：包含所有类似行为收藏、转发等

behavior_content
all_forwarduserwork=7:1;30:1&collect_work=7:28;30:28&listen_work=30:3;7:3

发现问题：到上一步结束全部输出到全量表后(以下叫a表)，着手准备更新到每天新增或修改的数据的表内(以下叫b表)，至此，会发现输出到b表的数据量特别大(690万左右)，推断表内有大量重复数据，排查后发现，拼接字段behavior_content中由于拼接顺序随机，导致很多数

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive两拼接字段对比，涉及到的拼接字段拼接顺序问题

背景：将用户宽表重构，其中指标包含收藏数、转发数等内容，需要把每天全量数据展示出来，又因全量数据量太大()，将每天的新更新的数据单独写入一张表，存redis。思路：1、需求包含有类似情形的好几个指标，如：1、3、7、30、45天收藏数、转发数等；2、将有相似情形的指标做一张中间表，将涉及维度1、3、7、30、45天的指标拼接为1个字段，从而不用再写冗杂的数据逻辑，如：之前的写法：每一个维度指标都会出具一个字段collect_work_1dayall_forwarduserwork_3d
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。