Flink各种API概念,从官网 https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/api_concepts.html#supported-data-types 翻译理解过来的,有不同的地方请参考官网文档。
有界数据和无界数据:
- 有界数据:批处理数据
- 无界数据:流处理数据
一、DataSet和DataStream
- 都是不可变的
- 批处理:DataSet
- 流处理:DataStream
二、Flink编程模型
- 获取执行环境
- 获取数据
- transformation
- 指定结果的输出
- 触发执行
三、延迟执行
只有触发了execute()操作之后,程序里的各种操作才会执行。否则不会执行程序里的算子操作。
四、指定key
一些转换,join、groupBy、keyBy等,需要定义key来进行计算。还有一些算子,reduce、groupReduce、Aggregate、Windows,在聚合之前也需要指定一个key。
这里的key不是键值对中的key,而是一个虚拟的,作用在函数上。
在DataSet 中是groupBy,在DataStream中是keyBy
key定义的方式有:
- 指定位置:如果指定的位置是一个tuple,那么会把整个tuple作为key。(如果要指定tuple里的某个字段,可以用指定字段的方式)
- 指定字段名称:Java中需要写一个class,scala需要写一个case class
- key选择器函数
五、转换函数
六、Flink支持的数据类型
- Java Tuple和scala case class
- Java pojos
- 基本数据类型
- 常规类
- values
- hadoop writables
- 指定类型