flink当中的打标签过滤函数split
简介:在执行flink时,我们经常遇到过滤出某种数据类型,或者将数据打好标签分类,实时运算我们就会遇到flink的split算子
优势:快!比filter算子快的多,split算子打好标签只启动一个task就可完成查询,而filter算子要启动多个task进行运算,实时查询没有人希望在等待所以split算子是最高效的算子
public class SplitDemo {
public static void main(String[] args) throws Exception{
//创建一个flink的上下文执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
//为了方便实验我们用fromElements的函数模拟端口中输入的数字
DataStreamSource<Integer> ids = env.fromElements(1, 2, 3, 4, 54, 56, 7, 34, 56, 56);
//.split(new OutputSelector<>)是flink当中过滤打标签的手法
SplitStream<Integer> splited = ids.split(new OutputSelector<Integer>() {
@Override
public Iterable<String> select(Integer line) {
//创建一个容器用来装打好标签的数据
ArrayList<String> kong = new ArrayList<>();
if (line % 2 == 0) {
//打标签
kong.add("oshu");
} else {
//打标签
kong.add("jishu");
}
//返回装好标签的容器
return kong;
}
});
//将打好的标签打印出了,和过滤相比启动的task更少,运行效率更快
DataStream<Integer> oshu = splited.select("oshu");
DataStream<Integer> jishu = splited.select("jishu");
oshu.print("此数据为偶数:");
jishu.print("此数据为奇数:");
env.execute("kaishi");
打印台呈现:
log4j:WARN No appenders could be found for logger (org.apache.flink.api.java.ClosureCleaner).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
此数据为奇数::2> 1
此数据为奇数::3> 3
此数据为奇数::4> 7
此数据为偶数::3> 2
此数据为偶数::3> 34
此数据为偶数::2> 56
此数据为偶数::4> 4
此数据为偶数::4> 56
此数据为偶数::1> 54
此数据为偶数::1> 56
Process finished with exit code 0
}
}