yarn
文章平均质量分 97
麦兜和小可的舅舅
Hadoop Engineer
Email: vico.wu1989@gmail.com
展开
-
Yarn LogAggregationService的日志收集失败导致的NodeManager OOM和启动失败
NodeManager因为OOM问题无法正常启动,我们发现是NodeManager在启动时会加载StateStore中的Application而StateStore中Application过多导致。进一步,我们看到StateStore中Application过多是Log Aggregation失效导致。本文详细记录事故处理过程,代码层面分析NodeManager recover和Log Aggregation的基本原理。原创 2024-07-25 11:28:54 · 933 阅读 · 0 评论 -
Hadoop 基于protobuf 的RPC的客户端实现原理
基于protobuf的RPC engine,必须在服务器端和客户端都完成了初始化之后,才能开始通信。那么,客户端是如何基于预先定义的protobuf协议,来与远程的基于相同的protobuf协议的服务端进行通信的呢?原创 2017-05-15 18:13:43 · 4002 阅读 · 0 评论 -
Hadoop的心脏:中央异步调度器AsyncDispatcher代码和设计解析
Hadoop中涉及到大量复杂的、交互的事件处理、状态转换,同时,而且对实时性和效率提出了极高的要求。AsyncDispatcher是Hadoop的调度器,无论是RPC事件调度还是一些普通组件的事件调度都共用AsyncDispatcher。基于事件的异步调度方,极大提高了运行效率,抽象了不同场景的事件调度。本文从代码层面讲解AsyncDispatcher的实现,让读者理解AsyncDispatcher的工作原理。原创 2017-07-21 12:07:23 · 2479 阅读 · 0 评论 -
Hadoop RPC Server基于Reactor模式和Java NIO 的架构和原理
Hadoop RPC Server基于java NIO实现了一个高并发、高稳定性的网络层。本文分析了Hadoop RPC Server在NIO层面的处理逻辑,包括Listener、Reader、Handler、Responder等各个Reactor角色以及请求和响应在它们之间的传递。我们详细分析了一个基于Protobuf RPC的头信息的解析过程,解释了Server端收到请求到将请求交付给业务进行处理的逻辑。原创 2017-08-14 20:38:39 · 2597 阅读 · 2 评论 -
YARN ApplicationMaster与ResourceManager之间基于applicationmaster_protocol.proto协议的allocate()接口源码解析
YARN ApplicationMaster与ResourceManager之间的通信接口使用applicationmaster_protocol.proto协议进行,负责注册应用、为应用分配资源等核心任务,协议中最核心的是allocate()接口,负责资源申请、释放、抢占、心跳等核心任务,本文对该接口从代码层面进行全面和深入解析,相信有助于读者对Yarn的资源分配有更深入的认识原创 2017-07-14 11:07:36 · 7987 阅读 · 0 评论 -
Yarn FairScheduler 的资源预留机制导致的一次宕机事故分析
Yarn为了保证大应用不被小应用饿死,当某台服务器无法满足大应用资源需求,会在服务器上为这个请求预留资源直到满足需求,预留期间资源空闲但不被分配。资源预留使用不当将导致整个Yarn集群资源分配停止,因此必须小心配置。本文描述我所遇到的资源预留导致Yarn全集群停止服务的一次经历,然后从代码和原理上对资源预留机制进行详细的讲解。原创 2017-12-14 10:03:58 · 6933 阅读 · 5 评论 -
Yarn资源请求处理和资源分配原理解析
目录概述FairScheduler的资源调度原理和代码FairScheduler的调度概览两种调度时机-心跳调度和持续调度开始进行资源调度判断这个application是否适合在这个节点上分配资源运行YARN请求资源时的locality和relaxility限定资源分配assignContainerParent节点调用FSParentQueueassignContainer原创 2017-12-14 09:57:31 · 18273 阅读 · 12 评论 -
Yarn ResourceManager进行主从切换时发生脑裂原因分析
Brain Split 事故时间先后顺序:ResourceManager同zookeeper通信,发生异常:2018-10-19 09:17:49,981 INFO org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore: Error storing info for AMRMTokenSecretMana...原创 2018-10-22 20:02:00 · 2998 阅读 · 0 评论