减少spark job jar包的大小

针对Spark Job生成的大型jar包问题,本文介绍了jar瘦身的方法。通过缓存spark-assembly到HDFS并修改pom文件,将spark相关依赖改为provided,成功将150M的jar减小到20M,同时保持了job的正常运行。
摘要由CSDN通过智能技术生成

利用java写spark job,工程结构为maven,每次生成的jar都比较大。
spark job 包过大带来以下缺点:打包时间长、jar包上传慢、job启动比较慢。
本文介绍jar包瘦身方法:
观察臃肿的jar包,发现大部分都是spark相关的jar比较大,因此打包时去掉即可。

  • 首先,缓存spark-assembly 包到hdfs,方法见本文
  • 然后, 修改代码工程的pom文件,将spark相关的dependencyscope 修改为 provided 例如:
    一下依赖都可改为修改为provided (默认为compile)

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值