Java整合Storm使用代码提交远程集群执行

29 篇文章 1 订阅
26 篇文章 2 订阅

上次我们通过微小修改https://blog.csdn.net/xxkalychen/article/details/117045413,实现了本地jar包上传到远程Storm集群执行。Strom还提供直接在本地代码执行提交到远程集群执行的方法。我们还是在上次的小例子上做一点点修改。

只需要修改主类MyTopology即可。

package com.chris.storm.topology;

import com.chris.storm.bolt.CountBolt;
import com.chris.storm.bolt.LineBolt;
import com.chris.storm.bolt.PrintBolt;
import com.chris.storm.spout.DataSourceSpout;
import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.StormSubmitter;
import org.apache.storm.topology.TopologyBuilder;

import java.util.Collections;

/**
 * @author Chris Chan
 * Create on 2021/5/19 9:42
 * Use for:
 * Explain:
 */
public class MyTopology {
    public static void main(String[] args) throws Exception {
        new MyTopology().execute(args);
    }

    private void execute(String[] args) throws Exception {
        //拓扑构造器
        TopologyBuilder builder = new TopologyBuilder();

        //设置流水线数据源spout
        builder.setSpout("data", new DataSourceSpout(), 1);
        //设置流水线的各个处理环节bolt shuffleGrouping对应上一环节的id
        builder.setBolt("line", new LineBolt(), 2).shuffleGrouping("data");
        //shuffleGrouping的各参数就是绑定的streamId
        builder.setBolt("print", new PrintBolt(), 2).shuffleGrouping("line", "print");
        builder.setBolt("count", new CountBolt(), 2).shuffleGrouping("line", "count");

        //提交到本地
        //submitToLocal(builder);

        //提交到远程集群 运行时后面跟着的第一个参数设置为Topology名称
        //submitToRemote(builder, args[0]);

        //通过代码提交到远程集群 运行时后面跟着的第一个参数设置为Topology名称
        submitToRemoteByCode(builder, args[0]);

    }

    /**
     * 通过代码提交到远程集群
     *
     * @param builder
     * @param topologyName
     */
    private void submitToRemoteByCode(TopologyBuilder builder, String topologyName) throws Exception {
        //配置
        Config config = new Config();
        config.put(Config.NIMBUS_SEEDS, Collections.singletonList("192.168.0.54"));
        config.put(Config.NIMBUS_THRIFT_PORT, 6627);
        config.put(Config.STORM_ZOOKEEPER_SERVERS, Collections.singletonList("192.168.0.54"));
        config.put(Config.STORM_ZOOKEEPER_PORT, 2181);
        config.put(Config.TASK_HEARTBEAT_FREQUENCY_SECS, 10000);
        config.setDebug(false);
        config.setNumAckers(3);
        config.setMaxTaskParallelism(20);

        //assembly模式打包的本机jar包路径
        String jarLocalPath = "G:\\gitee\\StudyRoom\\StudyIn2021\\May\\Java\\storm-demo-20210519\\target\\storm-demo-20210519-1.0.0-SNAPSHOT-jar-with-dependencies.jar";
        System.setProperty("storm.jar", jarLocalPath);
        StormSubmitter.submitTopologyAs(topologyName, config, builder.createTopology(), null, null, "root");
    }

    /**
     * 提交到远程集群
     *
     * @param builder
     * @param topologyName
     */
    private void submitToRemote(TopologyBuilder builder, String topologyName) throws Exception {
        //配置
        Config config = new Config();
        config.setDebug(false);
        config.setNumAckers(3);
        config.setMaxTaskParallelism(20);

        StormSubmitter.submitTopologyAs(topologyName, config, builder.createTopology(), null, null, "root");
    }

    /**
     * 提交到本地环境
     *
     * @param builder
     * @throws Exception
     */
    private void submitToLocal(TopologyBuilder builder) throws Exception {
        //配置
        Config config = new Config();
        config.setDebug(false);
        config.setNumAckers(3);
        config.setMaxTaskParallelism(20);

        //本地提交
        LocalCluster cluster = new LocalCluster.Builder().build();
        cluster.submitTopology("test_topo", config, builder.createTopology());
    }
}

同样,为了不同的调试方式共存,我增加了一个封装方法,尽量最少修改。

配置文件要指明远程Storm服务器的相关信息,包括host,zookeeper端口等。这些在执行本地代码提交时是必须的。

jarLocalPath是执行打包后完整jar包的绝对路径,可以先打包后再替换掉。"storm.jar"这个应该是固定写法。

执行测试之前,需要到Edit Configurations...中修改启动设置,在参数栏中增加一个参数chris-topology-code,这是我们动态设置的拓扑名称。

另外,我们还需要在pom中去掉storm-core的作用域设置,因为本地运行代码时需要这个包的。

运行。先删除索引。

这表示提交完成。

这就是成功了。

注意:这其中有个小细节,就是strom-core的作用域问题,我尝试在打包和运行时都不加作用域,能过成功打包,也能够成功运行,UI上能看到Topology存活,但是ElasticSearch有索引没数据,日志中没有找到错误信息,估计是在执行strom运算时遇到包冲突的问题。

如果都加上provided作用域,打包成功没问题,本地运行报错。

所以经测试最后总结:打包需要加上provided作用域,以避免和服务器的包冲突,本地运行则不能设置这个作用域。Over。

这个小例程几经修改,关于提交服务器调试基本就OK了。后面我将尝试修改数据源Spout,我们现在的测试都是使用本地模拟数据,生产中不会这么使用,应该有一个外部数据源不断输入数据,我们就等待就好了,来一批就处理一批,这才是流式处理的模型。后面我将尝试使用socket输入数据,通过消息中间件输入数据的方式来进行进一步测试。

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值