一、什么是Flink?
1.概念
Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。
2.处理有界和无界数据
无界流有起点但没有定义的终点。无界流必须持续处理,即事件在被摄取后必须立即处理。处理无界数据通常需要以特定顺序(例如事件发生的顺序)摄取事件,以便能够推断结果的完整性。
有界流有定义的开始和结束。可以在执行任何计算之前摄取所有数据来处理有界流。处理有界流不需要有序摄取,因为有界数据集始终可以排序。有界流的处理也称作批处理。
二、什么是Flink Kubernetes Operator?
Flink Kubernetes Operator 充当控制平面来管理 Apache Flink 应用程序的完整部署生命周期。尽管 Flink 的原生 Kubernetes 集成已经允许您在运行的 Kubernetes(k8s) 集群上直接部署 Flink 应用程序,但自定义资源和操作员模式也已成为 Kubernetes 原生部署体验的核心。
Flink Kubernetes Operator 旨在承担管理 Flink 部署的人类操作员的职责。人类操作员对 Flink 部署应该如何运行、如何启动集群、如何部署作业、如何升级作业以及出现问题时如何反应有着深入的了解。操作者的主要目标是这些活动的自动化,这无法仅通过 Flink 原生集成來实现。
三、什么是Flink表存储?
Flink Table Store 是 Flink 中为流处理和批处理构建动态表的统一存储,支持高速数据摄取和及时的数据查询。表格存储提供以下核心能力:
支持大数据集的存储,并允许以批处理和流模式读取/写入。
支持流式查询,延迟最短可达毫秒。
支持批量/OLAP 查询,延迟最小至秒級。
默认支持增量快照进行流消费。因此用户无需自行组合不同的管道。