Flink源码解析(1)job启动,从JM到TM过程详解

本文详细介绍了Flink的网络传输模型,重点解析了RpcGateway、RpcEndpoint、RpcService、RpcServer以及TaskManager的角色和功能。JobManager的启动流程包括JobGraph的提交、JobManagerRunner的创建和JobMaster服务的启动。TaskManager是执行任务和数据交换的工作节点,通过Task slots进行资源管理。Flink的RPC通信机制保证了客户端与服务端的交互。文章还概述了JobGraph提交的整体流程,从客户端提交到JobMaster开始调度执行。
摘要由CSDN通过智能技术生成

网络传输模型

首先在看之前,回顾一下akka模型:

Flink通讯模型—Akka与Actor模型-CSDN博客

注:ActorRef就是actor的引用,封装好了actor

下面是jm和tm在通讯上的概念图:

RpcGateway

不理解网关的作用,可以先移步看这里:网关_百度百科 (baidu.com)

但是这里的gateway准确来说不是网关,是一个代理的接口, 实现它才可以访问这个组件,所以gateway是真正的代理,你想去访问就得实现它。

  1. 用于定义RPC协议,是客户端和服务端沟通的桥梁。
  2. 服务端实现了RPC协议,即实现了接口中定义的方法,做具体的业务逻辑处理
  3. 客户端实现了RPC协议,客户端是Proxy生成的代理对象,将对RpcGateway接口方法的调用转为Akka的消息发送。
  4. 关注其5个子接口:DispatcherGateway、ResourceManagerGateway、JobMasterGateway、MetricQueryServiceGateway、TaskExecutorGateway。

RpcEndpoint

  1. RPC服务端的抽象,实现了该接口即为Rpc服务端,是Akka中Actor的封装。
  2. Actor收到ActorRef发送的消息(消息被封装为RpcInvocation对象),会通过RpcInvocation对象中的方法、参数等信息以反射的方式调用RpcGateway接口对应的方法。
  3. 关注其5个实现类:Dispatcher、ResourceManager、JobMaster、MetricQueryService、TaskExecutor。其中Dispatcher、ResourceManager、JobMaster是JobManager进程中的Rpc服务,TaskExecutor是TaskManager进程中的Rpc服务,MetricQueryService在JobManager和TaskManager进程中都有。

其中五个最重要的接口的介绍:

  1. Dispatcher:
    • 作用: a、可以跨作业运行,它为应用提交提供了REST接口。 b、当一个应用(作业)被提交执行时,Dispatcher负责接收客户端提交的JobGraph对象,并启动一个新的JobMaster组件并将应用提交给它。 c、Dispatcher他会启动一个WebUi,用来方便地展示和监控作业执行的信息。
  2. ResourceManager:
    • 作用: 管理集群中的资源。ResourceManager 负责监控集群中的可用资源,并根据需要分配资源给作业。它协调 TaskManager 的启动和关闭,以及资源的分配和释放。
  3. JobMaster:
    • 作用: 对作业进行管理和调度。JobMaster 是每个作业的主节点,负责协调作业的执行过程。它与 ResourceManager 通信以获取资源,并与 TaskExecutor 通信以启动、管理和监控作业的任务。JobMaster 中的核心组件是 Scheduler,无论是作业的生命周期管理、作业的状态维护,还是任务的调度以及出错恢复,都是由 Schedule 来负责的。
  4. MetricQueryService:
    • 作用: 提供度量指标的查询服务。MetricQueryService 允许用户查询作业和任务的度量信息,例如吞吐量、延迟、状态大小等。它是用于监控和管理作业性能的重要组件。
  5. TaskExecutor:
    • 作用: 在 TaskManager 上执行作业任务。TaskExecutor 负责执行 TaskManager 上的任务,并与 JobMaster 通信以接收作业的任务和指令。它管理任务的执行状态、资源分配和失败处理。

RpcService

  1. 是 RpcEndpoint 的运行时环境,是Akka中ActorSystem的封装
  2. 一个ActorSystem系统中有多个Actor,同样在Flink中一个RpcService中有多个RpcEndpoint,即多个Rpc服务。
  3. Flink中RpcService也有多套,JobManager和TaskManager进程中都有两套RpcService。
  4. RpcService 提供了启动Rpc服务(startServer)、停止Rpc服务(stopServer)、连接远端Rpc服务等方法
  5. 实现类是AkkaRpcService,内有属性ActorSystem actorSystem,Map<ActorRef, RpcEndpoint> actors。

RpcServer

是Rpc服务端自身的代理对象,设计上是供服务端调用自身非Rpc方法。

了解完flink通讯模型的基本接口概念,接下来回顾一下flink的基本架构图:

客户端不是运行时和程序执行的一部分,但用于准备数据流并将其发送到JobManager。之后,客户端可以断开连接(分离模式 detached mode),或者保持连接以接收进度报告(附加模式 attached mode)。客户机可以作为触发执行的Java/Scala程序的一部分运行,也可以在命令行使用./bin/flink run...开启进程中运行。

JobManager和taskmanager可以以各种方式启动:作为独立集群直接在机器上启动,或者在容器中启动,或者由YARN或Mesos等资源框架管理。TaskManagers连接到JobManagers,宣布它们是可用的,并分配工

  • 23
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

后季暖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值