数据仓库-IP段关联计算优化-从优化原理到优化手段一一道来

最新推荐文章于 2024-03-15 08:59:17 发布

高阳很捷迅

最新推荐文章于 2024-03-15 08:59:17 发布

阅读量1.1k

点赞数 1

分类专栏：数据分析文章标签：数据仓库大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43805705/article/details/127305654

版权

为什么要优化？

营销活动指标体系需要用日志数据进行多维度分析，其中一个维度就是通过IP段获取到用户的所属地域进行分析，但IP段与其它字段的映射方式不同，IP段是一个范围，关联时是一对多关系，在资源集中使用时段，1万左右的数据量的耗时可达一小时以上，严重影响指标的及时性，所以要进行优化，来解决任务耗时高的问题

优化手段

1 减少参与计算的数据量

当前IP表中记录总数为 772845 条，但中国所使用的IP段仅有 91374 条，因此在统计时计，限制 country_name = '中国'，能够有效的减少任务执行时间；

2 任务层面优化

数据仓库的计算引擎是MR，下面简单介绍下MapReduce计算模型

MapReduce计算模型

MapReduce是作为计算引擎出现的，在处理超大规模的数据集上，MapReduce性能可观，通过分布式计算，将大规模数据计算任务分解，MapReduce计算模型是由Map任务和Reduce任务组成，各自承担不同的功能

优化原理

思路：通过增加Map任务的数量，提高任务计算速度

通常来讲，表的一个分区就对应物理存储（HDFS）的一个文件（上图中的block块），也就对应一个Map任务；

这次优化就是通过构建表的二级、三级分区来增加物理存储文件的数量，从而间接的增加Map任务数量，让Map并行计算少量的数据，达到优化目的

二级分区：ip_category，将start_ip（起始IP）和end_ip（结束IP）按照固定范围划分，分区值A、B、C、D、E

三级分区：ip_seg1，取s

最低0.47元/天解锁文章

高阳很捷迅

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。