Java整合Storm任务分流

最新推荐文章于 2022-07-03 09:49:39 发布

宝华的小岛

最新推荐文章于 2022-07-03 09:49:39 发布

阅读量394

点赞数

分类专栏： Java 大数据技术文章标签： storm elasticsearch es

本文链接：https://blog.csdn.net/xxkalychen/article/details/117021471

版权

Java 同时被 3 个专栏收录

74 篇文章 1 订阅

订阅专栏

技术

29 篇文章 1 订阅

订阅专栏

大数据

26 篇文章 2 订阅

订阅专栏

Storm以流水线的模式处理流式数据，每一个环节完成一条逻辑需求中的一个阶段性任务。但是我们的需求不止一个，并不一定处于一条逻辑线，甚至经过几次处理环节之后就没有什么共同点了，这就需要我们将任务处理环节划分开多个分支，每一种需求又会在各自的分支以流水线的模式处理下去。

基于上次我们修改过的小例子https://blog.csdn.net/xxkalychen/article/details/117019970?spm=1001.2014.3001.5501，我们在处理完文字行之后，一方面在后台打印，一方面写入ElasticSearch。我们架设这两个分支各自还需要多次处理，于是我们将在line处理之后进行分流。

我们就在原程序上做一点修改。

一、复制PrintBolt，取名CountBolt。删除掉后台打印的逻辑。

package com.chris.storm.bolt;

import com.chris.storm.model.WordPkg;
import com.chris.storm.utils.ElasticSearchUtil;
import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.tuple.Tuple;

import java.util.Map;

/**
 * @author Chris Chan
 * Create on 2021/5/19 9:44
 * Use for:
 * Explain:
 */
public class CountBolt extends BaseRichBolt {
    //在ElasticSearch中创建的索引名称
    public static final String INDEX_NAME = "storm_word";

    static {
        ElasticSearchUtil.createIndex(INDEX_NAME);
    }

    @Override
    public void prepare(Map<String, Object> map, TopologyContext topologyContext, OutputCollector outputCollector) {
        ElasticSearchUtil.createIndex(INDEX_NAME);
    }

    @Override
    public void execute(Tuple tuple) {
        String word = tuple.getStringByField("word");

        //输出到ElasticSearch
        ElasticSearchUtil.add(new WordPkg(word), INDEX_NAME);

    }

    /**
     * 这是流水线上的终点，不需要在发给下一环，所以无须再定义元组字段
     *
     * @param outputFieldsDeclarer
     */
    @Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {

    }
}

二、将原来的PrintBolt删除掉写入ElasticSearch的逻辑

package com.chris.storm.bolt;

import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.tuple.Tuple;

import java.util.Map;

/**
 * @author Chris Chan
 * Create on 2021/5/19 9:44
 * Use for:
 * Explain:
 */
public class PrintBolt extends BaseRichBolt {

    @Override
    public void prepare(Map<String, Object> map, TopologyContext topologyContext, OutputCollector outputCollector) {

    }

    @Override
    public void execute(Tuple tuple) {
        String word = tuple.getStringByField("word");
        //控制台输出
        System.out.printf("%s: %s\n", "接收到单词", word);

    }

    /**
     * 这是流水线上的终点，不需要在发给下一环，所以无须再定义元组字段
     *
     * @param outputFieldsDeclarer
     */
    @Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {

    }
}

三、修改LineBolt，我们需要为不同的bolt收集数据及定义元组字段

package com.chris.storm.bolt;

import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Tuple;
import org.apache.storm.tuple.Values;

import java.util.Arrays;
import java.util.Map;

/**
 * @author Chris Chan
 * Create on 2021/5/19 9:44
 * Use for:
 * Explain:
 */
public class LineBolt extends BaseRichBolt {
    //bolt数据收集器
    private OutputCollector collector;

    /**
     * 初始化操作
     *
     * @param map
     * @param topologyContext
     * @param outputCollector
     */
    @Override
    public void prepare(Map<String, Object> map, TopologyContext topologyContext, OutputCollector outputCollector) {
        this.collector = outputCollector;
    }

    /**
     * 处理数据
     *
     * @param tuple
     */
    @Override
    public void execute(Tuple tuple) {
        //再上一个流水线spout中我们把一行行数据放在元组中的line字段，在这里我们把它读取出来
        String line = tuple.getStringByField("line");
        //根据数据特性，用空格进行分割
        String[] words = line.split(" ");
        //过滤掉空数据，然后发送给下一个bolt进行处理 面向多任务分支需要定义streamId
        Arrays.stream(words).filter(word -> !"".equals(word.trim())).forEach(word -> this.collector.emit("print", new Values(word)));
        Arrays.stream(words).filter(word -> !"".equals(word.trim())).forEach(word -> this.collector.emit("count", new Values(word)));
    }

    /**
     * 定义输出数据元组字段
     *
     * @param outputFieldsDeclarer
     */
    @Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
        //我们把拆分后的单词放到元组中名为word的字段中 多任务分支需要定义streamId
        outputFieldsDeclarer.declareStream("print", new Fields("word"));
        outputFieldsDeclarer.declareStream("count", new Fields("word"));
    }
}

四、修改主程序。我们要添加CountBolt，还要绑定streamId。

package com.chris.storm.topology;

import com.chris.storm.bolt.CountBolt;
import com.chris.storm.bolt.LineBolt;
import com.chris.storm.bolt.PrintBolt;
import com.chris.storm.spout.DataSourceSpout;
import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.topology.TopologyBuilder;

/**
 * @author Chris Chan
 * Create on 2021/5/19 9:42
 * Use for:
 * Explain:
 */
public class MyTopology {
    public static void main(String[] args) throws Exception {
        new MyTopology().execute(args);
    }

    private void execute(String[] args) throws Exception {
        //拓扑构造器
        TopologyBuilder builder = new TopologyBuilder();

        //设置流水线数据源spout
        builder.setSpout("data", new DataSourceSpout(), 1);
        //设置流水线的各个处理环节bolt shuffleGrouping对应上一环节的id
        builder.setBolt("line", new LineBolt(), 2).shuffleGrouping("data");
        //shuffleGrouping的各参数就是绑定的streamId
        builder.setBolt("print", new PrintBolt(), 2).shuffleGrouping("line", "print");
        builder.setBolt("count", new CountBolt(), 2).shuffleGrouping("line", "count");

        //配置
        Config config = new Config();
        config.setDebug(false);
        config.setNumAckers(3);
        config.setMaxTaskParallelism(20);

        //本地提交
        LocalCluster cluster = new LocalCluster.Builder().build();
        cluster.submitTopology("test_topo", config, builder.createTopology());

    }
}

五、运行测试。把ElasticSearch中相应的索引删除掉在测试最好。

运行结果，控制台有输出。