Flink 基础API概念

Flink各种API概念,从官网 https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/api_concepts.html#supported-data-types 翻译理解过来的,有不同的地方请参考官网文档。

有界数据和无界数据:

  • 有界数据:批处理数据
  • 无界数据:流处理数据

一、DataSet和DataStream

  • 都是不可变的
  • 批处理:DataSet
  • 流处理:DataStream

二、Flink编程模型

  1. 获取执行环境
  2. 获取数据
  3. transformation
  4. 指定结果的输出
  5. 触发执行

三、延迟执行

    只有触发了execute()操作之后,程序里的各种操作才会执行。否则不会执行程序里的算子操作。

四、指定key

      一些转换,join、groupBy、keyBy等,需要定义key来进行计算。还有一些算子,reduce、groupReduce、Aggregate、Windows,在聚合之前也需要指定一个key。
      这里的key不是键值对中的key,而是一个虚拟的,作用在函数上。
      在DataSet 中是groupBy,在DataStream中是keyBy
key定义的方式有:

  • 指定位置:如果指定的位置是一个tuple,那么会把整个tuple作为key。(如果要指定tuple里的某个字段,可以用指定字段的方式)
  • 指定字段名称:Java中需要写一个class,scala需要写一个case class
  • key选择器函数

五、转换函数

六、Flink支持的数据类型

  • Java Tuple和scala case class
  • Java pojos
  • 基本数据类型
  • 常规类
  • values
  • hadoop writables
  • 指定类型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值