storm-stream
2121SC@SDUSC
数据流(Streams)简介
数据流(Streams)是 Storm 中最核心的抽象概念。一个数据流指的是在分布式环境中并行创建、处理的一组元组(tuple)的无界序列。数据流可以由一种能够表述数据流中元组的域(fields)的模式来定义。在默认情况下,元组(tuple)包含有整型(Integer)数字、长整型(Long)数字、短整型(Short)数字、字节(Byte)、双精度浮点数(Double)、单精度浮点数(Float)、布尔值以及字节数组等基本类型对象,也可以通过定义可序列化的对象来实现自定义的元组类型。
在声明数据流的时候需要给数据流定义一个有效的 id。不过,由于在实际应用中使用最多的还是单一数据流的 Spout 与 Bolt,这种场景下不需要使用 id 来区分数据流,因此可以直接使用 OutputFieldsDeclarer来定义“无 id”的数据流。实际上,系统默认会给这种数据流定义一个名为“default”的 id。
stream源码分析
public class Stream<T> {
protected static final Fields KEY = new Fields("key");
protected static final Fields VALUE = new Fields("value");
protected static final Fields KEY_VALUE = new Fields("key", "value");
private static final Logger LOG = LoggerFactory.getLogger(Stream.class);
// 流构建器
protected final StreamBuilder streamBuilder;
// 当前节点
protected final Node node;
// 节点输出的流
idstream(s) that this stream represents
protected final String stream;
Stream(StreamBuilder streamBuilder, Node node) {
this(streamBuilder, node, node.getOutputStreams().iterator().next());
}
private Stream(StreamBuilder streamBuilder, Node node, String stream) {
this.streamBuilder = streamBuilder;
this.node = node;
this.stream = stream;
}
返回一个流,该流由匹配给定筛选器的元素组成。
@param predicate应用于每个元素以确定是否应该包含它的谓词,并返回新的流
public Stream<T> filter(Predicate<? super T> predicate) {
return new Stream<>(streamBuilder, addProcessorNode(new FilterProcessor<>(predicate), VALUE, true));
}
返回一个由将给定的映射函数应用到该流的值的结果组成的流。
@param function一个映射函数,将被应用到这个流中的每个值。
返回新的流
public <R> Stream<R> map(Function<? super T, ? extends R> function) {
return new Stream<>(streamBuilder, addProcessorNode(new MapProcessor<>(function), VALUE));
}
通过对这个流的每个值应用{@link PairFunction}来返回一个键值对流。
@param function映射函数将被应用到这个流中的每个值
@param 键类型
@param 值类型
@返回新的键值对流
public <K, V> PairStream<K, V> mapToPair(PairFunction<? super T, ? extends K, ? extends V> function) {
return new PairStream<>(streamBuilder, addProcessorN