基于分区内合并小文件处理
数据治理同学已经砸门了
数据治理同学已经砸门了,说每次任务单独的分区会产生大量小文件,基于此类问题,我们定出方案。方案如下:
生产脚本为代码:
spark-submit \
--master yarn \
--deploy-mode cluster \
--executor-memory= 25G \
--executor-cores=6 \
--num-executors=100 \
-- class 此处为JAR包中全类名 case: cn.didi.dwd.leader