为什么要分区
分区可以大大提升hive的性能,这里就要提到数仓的分层
第一层 ODS层
原始数据层,存储原始收集的数据
第二层 DWD层
数仓明细层,里面做的是转换和分析,里面包含部分的数据清洗的过程
第三层DWS层
数仓服务层,对外业务的处理,如维度转代理键、身份证清洗、会员注册来源清晰、字段合并、空值处理、脏数据处理、IP清晰转换等;
第四层ADS层
最终业务层
静态分区
(适合做增量表,数据量大)
建一个user表,里面三个字段,id,name,birth,还有一个sex字段,用来分区,初步的想法是,分成男人和女人
hive> create table user(
> id string,
>

本文探讨了Hive分区对于提升性能的重要性,并按照数仓的ODS、DWD、DWS和ADS四层结构进行了介绍。重点讲解了静态分区在处理大量数据时的实现方式,通过示例展示了如何避免错误并正确导入数据。同时,介绍了动态分区适用于数据量小的全量导入场景,其灵活性使得分区创建更为便捷。
最低0.47元/天 解锁文章
1822

被折叠的 条评论
为什么被折叠?



