Flink本地安装
非常简单,点击这里下载之后解压即可
Flink流计算DEMO
通过一个简单的流计算demo来感性的认识一下Flink。
项目创建
Flink提供了Maven的模板原型,我们可以直接使用如下命令创建Flink项目。
mvn archetype:generate
-DarchetypeGroupId=org.apache.flink
-DarchetypeArtifactId=flink-quickstart-java
-DarchetypeVersion=1.7.1
具体步骤是
- 定位到项目根目录
- 输入命令,然后等待执行结果(如图)
- 按照提示定义groupId和artifactId
- 构建成功导入Idea(结果如图)
StreamingJob给出了一个Flink流处理程序(Streaming)的骨架实现
BatchJob给出了Flink批处理程序的骨架实现
此致,项目创建完成。
代码书写
/**
* @author qingh.yxb
* @since 2019/2/19
*/
public class WordCount {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<Tuple2<String, Integer>> dataStream = env
.socketTextStream("127.0.0.1", 9999)
.flatMap(new Splitter())
.keyBy(0)
.timeWindow(Time.seconds(5))
.sum(1);
dataStream.print();
env.execute("Window WordCount");
}
public static class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception {
for (String word: sentence.split(" ")) {
out.collect(new Tuple2<String, Integer>(word, 1));
}
}
}
}
Api简单说明
只是对Demo涉及到的api做一个简单的概述,暂时不做深入讨论
- StreamExecutionEnvironment.getExecutionEnvironment():得到一个Flink的执行上下文环境,集群状态下返回一个集群可用的执行环境
- StreamExecutionEnvironment .socketTextStream(“localhost”, 9999):获取一个基于socket的预定义数据源
- DataStream.flatMap:输入1个元素,输出0个、1个或多个元素
- DataStream.keyby:按照key进行分组,返回KeyedStream
- KeyedStream.timeWindow : Flink支持的窗口函数,返回WindowedStream
- WindowedStream.sum : 聚合函数,根据key作聚合操作,返回SingleOutputStreamOperator
理解上诉api之后,demo的含义也就很直观了~
获取到一个数据源,对字符串按照空格进行切分,每隔五秒通过key做一个聚合并输出,无非就是我们了解的Map&Reduce。
数据源模拟
通过netcat启动一个socket server,启动参数为
nc -l -n 127.0.0.1 -p 9999
不断向控制台写入数据,充当简单数据源
效果展示
数据写入效果图
流计算结果图
写在最后
噢耶~一个简单的流计算demo完结!后续有时间会考虑把系统的学到的Flink的内容分主次含前置的一点一点记录下来,比如Flink的架构,任务提交的执行方式以及Flink的各个级别的操作api,自身的内存管理,如何支持高可用(HA)等等,加油!