Hadoop_Yarn学习笔记

Hadoop_Yarn学习笔记

1.什么是Yarn?

  • Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序
  • Yarn基础架构
    • 在这里插入图片描述

    • 主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-372wjg2C-1647175251860)(Hadoop生态圈之MapReduce.assets/1647171384517.png)]

    • ResourceManager(RM)主要作用:

      • 处理客户端请求
      • 监控NodeManager
      • 启动或监控Application
      • 资源的分配和调度
    • NodeManager(NM)主要作用

      • 管理单个节点上的资源
      • 处理来自ResourceManager的命令
      • 处理来自ApplicationMaster的命令
    • ApplicationMaster(AM)作用

      • 为应用程序申请资源并分配内部的任务
      • 任务的监控与容错
    • Container

      • Container是Yarn中的资源抽象,它封装了某个节点的多维度资源,如COU、内存、磁盘、网络等
  • Yarn工作机制

在这里插入图片描述

  • MR程序提交到客户端所在节点
  • YarnRunner向ResourceManager申请一个Application
  • RM将该程序的资源返回给YarnRunner
  • 该程序将运行所需资源提交到HDFS上
  • 程序资源提交完毕之后,申请运行mrAppMaster
  • RM将用户的请求初始化为一个Task任务
  • 该NodeManager创建容器Container,并产生MRAAppmaster
  • Container从HDFS上拷贝资源到本地
  • MRAppmaster向RM申请运行MapTask资源
  • RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分配到任务并创建容器
  • MR向两个接收任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序
  • MrAppMaster等所有的MapTask运行完毕之后,向RM申请容器,运行ReduceTask。
  • ReduceTask向MapTask获取相应分区的数据
  • 程序运行完毕之后,MR会向RM申请注销自己

2.Yarn调度器和调度算法

目前,Hadoop作业调度主要有三种:FIFO,容量(Capacity Scheduler)和公平(Fair Scheduler)

  • 先进先出(FIFO)

    • FIFO调度器(First In First Out):单队列,根据提交作业的先后顺序,先来先服务。
    • 优点:简单易懂
    • 缺点:不支持多队列,生产环境很少用
  • 容量调度器(Capacity Scheduler)

    • 容量调度器特点

      • 多队列:每个队列可配置一定的资源量,每个队列采用FIFO调度资源

      • 容量保证:管理员可以为每个队列设置资源最低保证和资源使用上限

      • 灵活性:如果一个队列中的资源有剩余,可以暂时共享给哪些资源的队列,而一旦该队列有新的应用程序提交,则其他队列借调的资源会归还该队列

      • 多租户:

        支持多用户共享集群和多应用程序同时运行

        为了防止同一个用户的作业独占队列中的资源,该调度器会对同一个用户提交的作业所占的资源进行限定

    • 容量调度器资源分配算法

在这里插入图片描述

  • 公平调度器(Fair Scheduler)

    • 公平调度器特点

      • 与容量调度器相同点

        • 多队列:支持多队列工作
        • 容量保证:管理员可以为每一个队列设置资源最低保证和资源使用上线
        • 灵活性:如果一个队列中的资源有剩余,可以暂时共享给哪些哪些需要资源的队列,而一旦该队列有新的应用程序提交,则其他队列借调的资源会归还给该队列
        • 多租户:支持多用户共享集群和多应用程序同时运行,为了防止同一个用户的作业独占队列中的资源,该调度器会对同一个用户提交的作业所占资源进行限定。
      • 与容量调度器不同点

        • 核心调度策略不同
          容量调度器:优先选择资源利用率低的队列

          公平调度器:优先选择对资源的缺额比例大的

        • 每个队列可以单独设置资源分配方式
          容量调度器:FIFO、DRF

          公平调度器:FIFO、FAIR、DRF

      • 什么是缺额?

        • 公平调度器设计目标是:在时间尺度上,所有作业获得公平的资源。某一时刻一个作业应获资源和实际获取资源的差距叫“缺额”
        • 公平调度器会优先为缺额大的作业分配资源
  • 公平调度器队列资源分配方式

    • FIFO策略:公平调度器每个队列资源分配策略如果选择FIFO的话,就相当于容量调度器

    • Fair策略:是一种基于最大最小公平算法实现的资源多路复用方式,默认情况下,每个队列内部采用该方式分配资源。意味着,如果一个队列中有两个应用程序同时运行,则每个应用程序可得到二分之一的资源。如果三个应用程序同时运行,则每个应用程序可以得到三分之一的资源

    • 具体分配流程和容量调度器一样:

      • 选择队列
      • 选择作业
      • 选择容器

      以上三步,每一步都是按照公平策略分配资源

      实际最小资源份额:mindshare = Min(资源需求量,配置的最小资源)
      是否饥饿:isNeedy = 资源使用量 < mindshare(实际最小资源份额)
      资源分配比:minShareRatio = 资源使用量 / Max(mindshare, 1)
      资源使用权重比:useToWeightRatio = 资源使用量 / 权重
      
  • 公平调度器资源分配算法

    • 队列资源分配
      在这里插入图片描述

    • 作业资源分配

    • DRF策略

      • DRF(Dominant Resource Fairness),我们之前说的资源,都是单一标准,例如考虑内存(也是Yarn默认的情况)但是很多时候我们资源有很多种,例如内存,CPU,网络宽带等,这样我们很难衡量两个应用应该分配的资源比例
      • 那么在YARN中,我们用DRF来决定如何调度:假设集群一共有100 CPU和10T 内存,而应用A需要(2 CPU, 300GB),应用B需要(6 CPU,100GB)。
        则两个应用分别需要A(2%CPU, 3%内存)和B(6%CPU, 1%内存)的资源,这就意味着A是内存主导的, B是
        CPU主导的,针对这种情况,我们可以选择DRF策略对不同应用进行不同资源(CPU和内存)的一个不同比
        例的限制。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值