基于分区合并小文件处理

最新推荐文章于 2024-07-28 16:45:11 发布

滴滴三里屯VIP

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量311

点赞数

分类专栏：数仓文章标签：大数据

本文链接：https://blog.csdn.net/weixin_45284133/article/details/118553361

版权

面对数据治理中因任务分区产生的大量小文件问题，提出了一个解决方案。通过编写优化脚本，每日定时执行，实现分区内小文件的合并，以提升存储和处理效率。

摘要由CSDN通过智能技术生成

基于分区内合并小文件处理

数据治理同学已经砸门了

数据治理同学已经砸门了，说每次任务单独的分区会产生大量小文件，基于此类问题，我们定出方案。方案如下：
生产脚本为代码：

spark-submit \
--master yarn \
--deploy-mode cluster \
--executor-memory= 25G \
--executor-cores=6 \
--num-executors=100 \
-- class 此处为JAR包中全类名 case: cn.didi.dwd.leader

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

滴滴三里屯VIP

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
基于分区合并小文件处理

基于分区内合并小文件处理数据治理同学已经砸门了数据治理同学已经砸门了，说每次任务单独的分区会产生大量小文件，基于此类问题，我们定出方案。方案如下：生产脚本为代码：spark-submit \--master yarn \--deploy-mode cluster \--executor-memory= 25G \--executor-cores=6 \--num-executors=100 \-- class 此处为JAR包中全类名 case: cn.didi.dwd.leader.Ex
复制链接

扫一扫