Flink源码分析(1)Flink Per-Job启动流程分析

ByteLab

已于 2024-03-15 07:09:58 修改

阅读量604

点赞数 7

分类专栏： Flink源码(面向过程版) 文章标签： flink 大数据

于 2024-03-09 18:13:20 首次发布

GawynKing

本文链接：https://blog.csdn.net/wen811651208/article/details/136588321

版权

深入学习Apache Flink提交流程的源码对于理解和优化Flink应用程序至关重要。源码阅读将揭示Flink运行时系统的内部工作原理，包括作业提交、调度、任务执行等关键流程。通过深入源码，你将更好地理解Flink的执行模型、任务调度策略和容错机制。这种深度理解有助于解决性能问题、调优应用程序，并在特定场景下优化资源利用率。此外，学习Flink提交流程的源码还有助于扩展Flink，定制化特定功能，以满足个性化需求。总的来说，源码学习是成为Flink高级用户和贡献者的关键一步，为构建高效、稳定的流处理应用奠定基础。本文Flink源码分析基于软件版本flink-1.16.0。

Flink源码分析让我们从flink per job启动脚本开始，如下：
```
./bin/flink run \
-t yarn-per-job \
--detached ./examples/streaming/WorldCount.jar
```
根据启动任务，首先会进入shell脚本./bin/flink中执行;

让我们跟踪调用过程：

......
# get flink config
. "$bin"/config.sh
......
# Add HADOOP_CLASSPATH to allow the usage of Hadoop file systems
exec "${JAVA_RUN}" ...... org.apache.flink.client.cli.CliFrontend "$@"
......

根据shell脚本内容可知，紧接着调用了org.apache.flink.client.cli.CliFrontend.main执行flink任务，同时将shell参数原样传递给Flink程序;

下面让我们一起看看org.apache.flink.client.cli.CliFrontend：

......
// 1. find the configuration directory，发现配置目录
final String configurationDirecto

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ByteLab

关注关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Flink源码解析：yarn-per-job模式解析、yarn提交过程解析、大数据

2301_79366435的博客

09-02

412

同时，通过对yarn提交过程的详细解析，我们能够掌握作业的提交和执行流程，从而更好地使用Flink进行大数据处理。TaskManager会从ResourceManager获取分配给它的资源，并根据Flink应用程序的配置文件初始化，然后开始执行作业的任务。在提交作业之前，需要准备作业的相关资源，其中包括作业的可执行Jar包、配置文件等。（2）ApplicationMaster：在一个容器中启动的YARN应用程序的主进程，负责与ResourceManager协调资源、处理作业的启动和监控等工作。

Flink源码浅析：Yarn-per-job模式解析——从脚本到主类

ByteHackerX的博客

09-17

157

Yarn-per-job模式是Flink在Yarn上运行的一种模式，它允许每个作业在Yarn集群上独立运行。在上面的脚本中，我们首先定义了一些变量，如FLINK_HOME用于指定Flink的安装目录，JOB_JAR用于指定待提交的作业Jar包路径，JOB_CLASS用于指定待执行的主类名称，YARN_SESSION_NAME用于指定Yarn会话的名称。在上面的主类中，我们首先创建了一个ExecutionEnvironment对象，它是Flink中执行作业的入口点。希望本文对您有所帮助！

参与评论您还未登录，请先登录后发表或查看评论

Flink源码解析（1）job启动，从JM到TM过程详解

weixin_51981189的博客

03-15

1295

注：ActorRef就是actor的引用，封装好了actor下面是jm和tm在通讯上的概念图：RpcGateway关注其5个实现类：Dispatcher、ResourceManager、JobMaster、MetricQueryService、TaskExecutor。

Flink Yarn Per Job - 启动AM

hyunbar的博客

08-02

508

高可用配置：重试次数，默认2次（DEFAULT_RM_AM_MAX_ATTEMPTS=2）。用来上传：用户jar包、flink的依赖、flink的配置文件。2.0 用来上传：用户jar包、flink的依赖、flink的配置文件。10.0 将之前封装的 Map（AM的环境信息、类路径），设置到容器里。// 上传Flink的配置文件 - flink-conf.yaml。2.0 Yarn应用的文件上传器：FS、对应的HDFS路径。将之前封装的 Map（AM的环境信息、类路径），设置到容器里。...

flink深入研究(06) flink的程序启动过程---01 flink的Graph

weixin_39935887的博客

12-19

737

真正开始运行代码的是execute函数，这个函数会根据环境上下文采取不同的行为，这个我们后面会详细讲解，我们先来看看flink的架构，下图是结构图 flink架构图当 Flink 集群启动后，首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager，JobManager 再调度任务到各个 TaskManager 去执行，然后 ...

Flink Yarn Per Job - 启动TM，向RM注册，RM分配solt

hyunbar的博客

08-04

508

通过Rpc服务，启动 TaskExecutor，找它的 onStart()方法。开始注册，注册成功之后，调用 onRegistrationSuccess()分配完之后，通知 TaskManager提供 slot给 JobMaster。终端的启动，实际上是由自身网关（RpcServer）来启动的。根据 RM的命令，分配taskmanager上的slot。连接上job，向JobManager提供 slot。TaskManager 提供slot。创建和注册新的这些 slot。启动TaskManager。.

Flink Yarn Per Job - 创建启动Dispatcher RM JobManager

hyunbar的博客

08-02

533

创建和启动 Dispatcher => dispatcher会创建和启动JobMaster。创建调度器，创建的时候把 JobGraph转换成 ExecutionGraph。创建Yarn的ResourceManager的客户端，并且初始化和启动。创建yarn的 NodeManager的客户端，并且初始化和启动。创建接收前端Rest请求的节点，web页面提交的应用。创建 Yarn模式的 ResourceManager。创建和启动 JobManager里的组件。如果不存在执⾏图，就创建⼀个新的执⾏图。...

Flink源码分析(3)Flink-Per-job Yarn集群启动前期准备源码分析

最新发布

道可道非常道

04-25

754

这段代码在启动ApplicationMaster之前做了各种检查，包括用户权限、内存、路径、yarn队列等等，在检查条件通过后通过。发现createClusterDescriptor方法是一个抽象方法，因为本文追踪Per-Job模式，所以由。在startAppMaster对启动应用设计的环境信息、配置信息和依赖信息和安全信息等进行了详细的配置，其中。Yarn集群描述器封装了yarn运行的基本配置信息，返回赋值到clusterDescriptor。向yarn提交任务；是启动AM的入口类，继续追踪。

Flink源码浅析: YARN-per-job模式解析——JobMaster启动YarnJobClusterEntrypoint

2301_79366435的博客

09-02

196

本文中，我们通过对Flink源代码的分析，深入探讨了YARN-per-job模式下的JobMaster启动和YarnJobClusterEntrypoint的实现。YARN-per-job模式是Flink在YARN上运行的一种模式，它允许每个Flink作业在YARN上启动一个独立的YARN应用。该类负责解析命令行参数、初始化和启动YARN应用程序。在本文中，我们将深入探讨Flink中的YARN-per-job模式，重点关注JobMaster的启动和YarnJobClusterEntrypoint的实现。

Flink执行过程

qq_42456324的博客

06-07

4143

Flink执行流程

yanqi_vip

04-13

186

一、方式一：Per job方式 ### --- 方式一：Per job方式 ~~~ 直接在YARN上提交运行Flink作业(Run a Flink job on YARN) 二、Per job启动流程三、Per job方式启动实例 ### --- 启动一个应用实例 ~~~ # 启动一个实例 [root@hadoop01 ~]# cd /opt/...

Flink 部署模式，session 、pre job、aplication三种主要模式

xuye0606的博客

08-11

6432

长久以来，在YARN集群中部署Flink作业有两种模式，即Session Mode和Per-Job Mode，而在Flink 1.11版本中，又引入了第三种全新的模式：Application Mode。本文先回顾两种传统模式的做法与存在的问题，再简要介绍Application Mode。传统部署模式 Session模式 Session模式是预分配资源的，也就是提前根据指定的资源参数初始化一个Flink集群，并常驻在YARN系统中，拥有固定数量的JobManager和TaskManager（注意JobMa

flink per-job模式启动命令参数详解

m0_58820420的博客

04-19

3776

注意如果进行了换行 \ 符号要带上

Flink任务运行的详细步骤：从入门到精通

u013558123的博客

03-29

1245

Flink 是一个高性能的流处理框架，适用于各种实时数据处理场景。通过本文的介绍，您应该已经了解了 Flink 任务运行的详细步骤。在实际应用中，Flink 可以帮助您更好地管理实时数据，提高数据处理能力和效率。无论您是数据处理的新手还是有一定经验的开发者，都应该掌握 Flink 的使用，以便在项目中发挥其强大的功能。希望本文的内容能对您有所帮助，让您的数据处理之路更加顺畅！

Flink的Yarn-Per-Job提交指令

热门推荐

mp9105的博客

05-18

1万+

Flink的yarn-per-job提交 0.运行环境 Flink版本：Flink 1.13.0 集群环境：CDH6.3.2 新版本的Flink可以通过-t参数提交统一格式的任务，日常工作中通常使用Per-Job On Yarn模式提交任务主要描述该部分的提交流程 1.提交任务提交任务主要是通过./bin/flink run -t yarn-per-job完成常用的提交指令如下 ./bin/flink run \ # 指定yarn的Per-job模式，-t等价于-Dexecution.target -

Flink部署模式介绍(session,per-job,application)

陈小哥cw

06-13

4669

在一些应用场景中，对于集群资源分配和占用的方式，可能会有特定的需求。 Flink 为各种场景提供了不同的部署模式，主要有以下三种：它们的区别主要在于：集群的生命周期以及资源的分配方式；以及应用的 main 方法到底在哪里执行——客户端（Client）还是 JobManager。接下来我们就做一个展开说明。会话模式其实最符合常规思维。我们需要先启动一个集群，保持一个会话，在这个会话中通过客户端提交作业，如图所示。集群启动时所有资源就都已经确定，所以所有提交的作业会竞争集群中的资源。这样的好

3.Flink-On-Yarn开发使用\原理\Session会话模式\Per-Job模式

涂作权的博客

07-06

2065

本文来自：Flink1.12-2021黑马程序员贺岁视频3.Flink-On-Yarn开发使用 3.1.原理 3.2.两种模式 3.2.1.Session会话模式 3.2.2.Per-Job模式 3.3.操作 3.4.测试 3.4.1.Session会话模式 3.4.2.PerJob模式为什么使用flink on yarn ? 在实际开发中，使用Flink时，更多的使用方式是Flink On Yarn模式，原因如下：具体步骤：准备Flink程序jar和配置 0：提交 1：上传任务/依赖jar,配置到hdf

flink on yarn-per job源码解析、flink on k8s介绍

weixin_51981189的博客

03-28

1219

YARN per job模式下用户程序在Client端被执行，Client端即执行flink shell命令的执行节点。Client端主要工作就是将用户写的代码转换为JobGraph，向YARN提交应用以执行JobGraph。PipelineExecutor（YarnJobClusterExecutor）将StreamGraph转换为JobGraphClusterDescriptor（YarnClusterDescriptor）通过YARN部署flink集群以执行JobGraph。

flink per-job 超时

09-28

Flink中的per-job超时是指在作业执行过程中超过特定时间限制时，Flink会自动终止作业的执行。这个限制时间可以在flink-conf.yaml配置文件中设置。 per-job超时可以很好地保护作业免受无限执行的风险，尤其是当作业...