Storm以流水线的模式处理流式数据,每一个环节完成一条逻辑需求中的一个阶段性任务。但是我们的需求不止一个,并不一定处于一条逻辑线,甚至经过几次处理环节之后就没有什么共同点了,这就需要我们将任务处理环节划分开多个分支,每一种需求又会在各自的分支以流水线的模式处理下去。
基于上次我们修改过的小例子https://blog.csdn.net/xxkalychen/article/details/117019970?spm=1001.2014.3001.5501,我们在处理完文字行之后,一方面在后台打印,一方面写入ElasticSearch。我们架设这两个分支各自还需要多次处理,于是我们将在line处理之后进行分流。
我们就在原程序上做一点修改。
一、复制PrintBolt,取名CountBolt。删除掉后台打印的逻辑。
package com.chris.storm.bolt;
import com.chris.storm.model.WordPkg;
import com.chris.storm.utils.ElasticSearchUtil;
import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.tuple.Tuple;
import java.util.Map;
/**
* @author Chris Chan
* Create on 2021/5/19 9:44
* Use for:
* Explain:
*/
public class CountBolt extends BaseRichBolt {
//在ElasticSearch中创建的索引名称
public static final String INDEX_NAME = "storm_word";
static {
ElasticSearchUtil.createIndex(INDEX_NAME);
}
@Override
public void prepare(Map<String, Object> map, TopologyContext topologyContext, OutputCollector outputCollector) {
ElasticSearchUtil.createIndex(INDEX_NAME);
}
@Override
public void execute(Tuple tuple) {
String word = tuple.getStringByField("word");
//输出到ElasticSearch
ElasticSearchUtil.add(new WordPkg(word), INDEX_NAME);
}
/**
* 这是流水线上的终点,不需要在发给下一环,所以无须再定义元组字段
*
* @param outputFieldsDeclarer
*/
@Override
public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
}
}
二、将原来的PrintBolt删除掉写入ElasticSearch的逻辑
package com.chris.storm.bolt;
import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.tuple.Tuple;
import java.util.Map;
/**
* @author Chris Chan
* Create on 2021/5/19 9:44
* Use for:
* Explain:
*/
public class PrintBolt extends BaseRichBolt {
@Override
public void prepare(Map<String, Object> map, TopologyContext topologyContext, OutputCollector outputCollector) {
}
@Override
public void execute(Tuple tuple) {
String word = tuple.getStringByField("word");
//控制台输出
System.out.printf("%s: %s\n", "接收到单词", word);
}
/**
* 这是流水线上的终点,不需要在发给下一环,所以无须再定义元组字段
*
* @param outputFieldsDeclarer
*/
@Override
public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
}
}
三、修改LineBolt,我们需要为不同的bolt收集数据及定义元组字段
package com.chris.storm.bolt;
import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Tuple;
import org.apache.storm.tuple.Values;
import java.util.Arrays;
import java.util.Map;
/**
* @author Chris Chan
* Create on 2021/5/19 9:44
* Use for:
* Explain:
*/
public class LineBolt extends BaseRichBolt {
//bolt数据收集器
private OutputCollector collector;
/**
* 初始化操作
*
* @param map
* @param topologyContext
* @param outputCollector
*/
@Override
public void prepare(Map<String, Object> map, TopologyContext topologyContext, OutputCollector outputCollector) {
this.collector = outputCollector;
}
/**
* 处理数据
*
* @param tuple
*/
@Override
public void execute(Tuple tuple) {
//再上一个流水线spout中我们把一行行数据放在元组中的line字段,在这里我们把它读取出来
String line = tuple.getStringByField("line");
//根据数据特性,用空格进行分割
String[] words = line.split(" ");
//过滤掉空数据,然后发送给下一个bolt进行处理 面向多任务分支需要定义streamId
Arrays.stream(words).filter(word -> !"".equals(word.trim())).forEach(word -> this.collector.emit("print", new Values(word)));
Arrays.stream(words).filter(word -> !"".equals(word.trim())).forEach(word -> this.collector.emit("count", new Values(word)));
}
/**
* 定义输出数据元组字段
*
* @param outputFieldsDeclarer
*/
@Override
public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
//我们把拆分后的单词放到元组中名为word的字段中 多任务分支需要定义streamId
outputFieldsDeclarer.declareStream("print", new Fields("word"));
outputFieldsDeclarer.declareStream("count", new Fields("word"));
}
}
四、修改主程序。我们要添加CountBolt,还要绑定streamId。
package com.chris.storm.topology;
import com.chris.storm.bolt.CountBolt;
import com.chris.storm.bolt.LineBolt;
import com.chris.storm.bolt.PrintBolt;
import com.chris.storm.spout.DataSourceSpout;
import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.topology.TopologyBuilder;
/**
* @author Chris Chan
* Create on 2021/5/19 9:42
* Use for:
* Explain:
*/
public class MyTopology {
public static void main(String[] args) throws Exception {
new MyTopology().execute(args);
}
private void execute(String[] args) throws Exception {
//拓扑构造器
TopologyBuilder builder = new TopologyBuilder();
//设置流水线数据源spout
builder.setSpout("data", new DataSourceSpout(), 1);
//设置流水线的各个处理环节bolt shuffleGrouping对应上一环节的id
builder.setBolt("line", new LineBolt(), 2).shuffleGrouping("data");
//shuffleGrouping的各参数就是绑定的streamId
builder.setBolt("print", new PrintBolt(), 2).shuffleGrouping("line", "print");
builder.setBolt("count", new CountBolt(), 2).shuffleGrouping("line", "count");
//配置
Config config = new Config();
config.setDebug(false);
config.setNumAckers(3);
config.setMaxTaskParallelism(20);
//本地提交
LocalCluster cluster = new LocalCluster.Builder().build();
cluster.submitTopology("test_topo", config, builder.createTopology());
}
}
五、运行测试。把ElasticSearch中相应的索引删除掉在测试最好。
运行结果,控制台有输出。
ElasticSearch也有数据。