flink架构及原理

最新推荐文章于 2024-04-27 23:04:42 发布

wejboke626

最新推荐文章于 2024-04-27 23:04:42 发布

阅读量4.7k

点赞数

分类专栏：个人文章标签： flink 大数据

本文链接：https://blog.csdn.net/wejboke626/article/details/116099300

版权

本文主要介绍内容

一、flink分层架构
二、flink系统架构
三、flink任务部署流程
- 3.1、flink任务yarn部署流程
四、flink任务执行流程及原理
五、checkpoint原理

一、flink分层架构

在这里插入图片描述

高级API层：包含机器学习及Flink SQL API等库。对批处理和流处理进行了统一。
API层：主要包含 Flink 的流处理API 和批处理API
执行引擎：Flink 的执行处理，Flink 的执行引擎基于流处理实现。
资源层：Flink 任务执行的物理资源，主要有本地（JVM） , 集群（yarn），云端（GCE/EC2）等，flink1.11以上版本也支持k8s部署。

二、flink系统架构

在这里插入图片描述
Client：Flink Client 用于与JobManger建立连接，进行Flink 任务的提交。Client会将Flink任务组装为一个 JobGraph并进行提交。一个JobGraph是一个flink dataflow，其中包含了一个Flink程序的：JobID、Job名称、配置信息、一组JobVertex等。
JobManger：Flink系统协调者，负责接收job任务并调度job的多个task执行。同时负责job信息的收集和管理TaskManger。
TaskManger：负责执行计算的Worker，同时进行所在节点的资源管理（包括内存，cup，网络），启动时向JobManger汇报资源信息

三、flink任务部署流程

flink目前支持本地，yarn，k8s等多种部署方案。

3.1、flink任务yarn部署流程

在这里插入图片描述
flink yarn client 负责与yarn RM 进行通信及资源申请
jobManger 和taskManger 分别申请Container 资源运行各自的进程。
jobManger 和yarn AM 属于同一个Container中，从而 yarn AM 可进行申请Container及调度TaskManger
HDFS 用于数据的存储，如checkpoints, savepoints 等数据