减少spark job jar包的大小

利用java写spark job,工程结构为maven,每次生成的jar都比较大。
spark job 包过大带来以下缺点:打包时间长、jar包上传慢、job启动比较慢。
本文介绍jar包瘦身方法:
观察臃肿的jar包,发现大部分都是spark相关的jar比较大,因此打包时去掉即可。

  • 首先,缓存spark-assembly 包到hdfs,方法见本文
  • 然后, 修改代码工程的pom文件,将spark相关的dependencyscope 修改为 provided 例如:
    一下依赖都可改为修改为provided (默认为compile)

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要将 IDEA Spark 代码打jar ,需要以下依赖和插件: 1. Maven 插件:用来构建项目和打jar ; 2. Spark Core 依赖:Spark 的核心依赖,必须要有; 3. 其他 Spark 依赖:如果你使用了 Spark SQL、Spark Streaming 等组件,还需要添加相应的依赖; 4. 日志依赖:建议添加日志依赖,以便于调试和排查问题。 以下是一个示例的 pom.xml 文件,你可以根据自己的需要进行修改: ```xml <project> <modelVersion>4.0.0</modelVersion> <groupId>com.example.spark</groupId> <artifactId>my-spark-job</artifactId> <version>1.0-SNAPSHOT</version> <properties> <spark.version>3.1.2</spark.version> </properties> <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_${scala.version}</artifactId> <version>${spark.version}</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_${scala.version}</artifactId> <version>${spark.version}</version> </dependency> <!-- 其他 Spark 依赖 --> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.7.25</version> </dependency> </dependencies> <build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <version>3.8.1</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-assembly-plugin</artifactId> <version>3.3.0</version> <configuration> <archive> <manifest> <mainClass>com.example.spark.MySparkJob</mainClass> </manifest> </archive> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs> </configuration> <executions> <execution> <id>make-assembly</id> <phase>package</phase> <goals> <goal>single</goal> </goals> </execution> </executions> </plugin> </plugins> </build> </project> ``` 这个示例 pom.xml 文件含了 Spark Core、Spark SQL 和 slf4j-log4j12 三个依赖,使用了 Maven Compiler 插件和 Maven Assembly 插件来构建项目和打jar 。注意,这里的 mainClass 需要替换为你自己的 Spark 作业的入口类。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值