3种方式帮你完成J2EE业务系统根据taskID启动对应spark应用

本文介绍了使用Java程序根据taskID启动Spark应用的三种方法:1) 通过本地shell脚本,2) 调用远程机器上的shell脚本,3) 直接在Spark代码中提交任务到YARN。每种方式都有其优缺点,例如本地shell脚本简单但需要在所有服务器上部署,而直接在代码中提交任务则需要配置HADOOP_HOME环境变量。
摘要由CSDN通过智能技术生成

1. 根据taskID启动对应spark应用的方式

1.1 调用本地的shell脚步来启动spark的应用

Java程序中调用本地的shell脚步来启动spark的应用
shell脚步中是spark-submit的命令

  • 优点:简单
  • 缺点:
    • 需要将shell脚本放到所有可能执行的服务器上
    • spark应用的jar文件和spark的环境(spark-submit脚本和相关的lib)需要放到可能只需的服务器上

1.2 调用远程机器上的shell脚本执行spark-submit命令

Java程序调用远程机器上的shell脚本执行spark-submit命令(通过ssh)

  • 优点:简单、jar和shell以及环境不需要放到太多的机器上
  • 缺点:如果放置spark应用jar文件的机器宕机的话,需要考虑容错的机制

1.3 直接在Spark代码中进行任务提交到yarn

这种方式在windows上运行可能出错,linux上不不会,需要配置HADOOP_HOME环境变量

  1. 需要将yarn-site.xml放置到应用的classpath环境中(给定yarn的资源管理的IP地址和端口号)
  2. 在构建spark应用的时候,需要在SparkConf对象中给定一些相关属性
    val conf = new SparkConf()
    .setMaster(“yarn-cluster”)
    .setAppName(“xxxxx”)
    .setJars(“spark应用jar文件在当前机器上所在路径”)

2. 演示

2.1 Java代码调用本地shell

public class ProcessTest {
   
    public static void main(String[] args) {
   
        String path = "/home/spark/bin/test.sh";
        String execCmd = "sh " + path + " " + args[0];

        try {
   
            Process process = Runtime.getRuntime
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值