Flink 基础API概念

最新推荐文章于 2024-05-20 14:30:11 发布

ylqdh

最新推荐文章于 2024-05-20 14:30:11 发布

阅读量100

点赞数

分类专栏： BigData 文章标签： flink

本文链接：https://blog.csdn.net/weixin_43802014/article/details/103871217

版权

BigData 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Flink各种API概念，从官网 https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/api_concepts.html#supported-data-types 翻译理解过来的，有不同的地方请参考官网文档。

有界数据和无界数据：

有界数据：批处理数据
无界数据：流处理数据

一、DataSet和DataStream

都是不可变的
批处理：DataSet
流处理：DataStream

二、Flink编程模型

获取执行环境
获取数据
transformation
指定结果的输出
触发执行

三、延迟执行

    只有触发了execute()操作之后，程序里的各种操作才会执行。否则不会执行程序里的算子操作。

四、指定key

一些转换，join、groupBy、keyBy等，需要定义key来进行计算。还有一些算子，reduce、groupReduce、Aggregate、Windows，在聚合之前也需要指定一个key。
这里的key不是键值对中的key，而是一个虚拟的，作用在函数上。
在DataSet 中是groupBy，在DataStream中是keyBy
key定义的方式有：