分布式文件存储系统
文章平均质量分 93
SC放牛娃
这个作者很懒,什么都没留下…
展开
-
Hive进阶
ELT是将etl的开发流程进行了调整,使用采集工具采集数据,将数据直接写入hdfs,清洗转化过程可以使用hiveSQL在数仓中执行。资源全部给一个计算任务使用,但是当计算任务中的某个map或reduce计算完成后,可以将自身资源释放掉给其他计算任务使用。2-split切割后的数据传递给对应的map进行处理,会对数据转为kv (张三,1) (张三,1),(李四,1)随着分析需求的改变,数仓中的数据也在不断变化,随着时间推移,统计的字段计算数据也在发生变化。reduce的个数默认是一个;原创 2024-04-15 18:13:48 · 1163 阅读 · 1 评论 -
分布式文件存储系统
分布式文件存储系统原创 2024-04-14 19:27:50 · 915 阅读 · 1 评论