Hadoop
文章平均质量分 68
yoolili
这个作者很懒,什么都没留下…
展开
-
Hadoop Yarn工作机制
Yarn(yet another resource negotiator 另一种资源协调者) 核心思想:资源的管理和Job的调度/监控进行分离 Yarn产生的原因 比较:Hadoop v1.0 大量的数据提交给Job Tracker,JT需要协调无数的DN,导致JT可能成为性能瓶颈 假设用户提交了6个job,每个job需要1g内存,且数据都在DN2上,但是DN2只有4g内存,所以只有job1-4在DN2上运行,job5、6在等待,而DN1和DN3的资源没有使用。 为了减少Job Tracker的性能原创 2021-01-05 15:17:25 · 173 阅读 · 0 评论 -
Hadoop ResourceManager资源调度器
FIFO队列 容量调度器(Capacity Scheduler)(Yarn默认使用) 支持多个队列,每个队列可分配一定的资源量,每个队列采用FIFO策略 对同一用户提交的作业所占资源量进行限定 有一个队列专门运行小任务(专门设置一个小队列会预先占用一定资源,会导致大任务的执行时间落后于FIFO调度器的时间) 将应用放置在哪个队列中,取决于应用本身(可以修改)。 队列属性、数量均可以修改 公平调度器(Fair Scheduler) 不需要预先占用一定的系统资源,Fair调度器会为所有运..原创 2021-01-05 15:15:26 · 183 阅读 · 0 评论 -
Hadoop MapReduce工作流程
## MapReduce框架 ![image-20201021160744505](https://gitee.com/chenglm/lmpics/raw/master/img/20201021160744.png) ## Block块、切片、MapTask的关系 1. BlockSize在hadoop2.x为128M 2. split切片为逻辑概念,默认SplitSize = BlockSize,也可以自行设置 3. 一个job在Map阶段的并行度由job提交时的切片数量决定 4. 切片时,针对每原创 2021-01-05 15:13:02 · 250 阅读 · 0 评论 -
Hadoop 任务推测执行
推测执行机制 发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务,同时运行。谁先运行完,则采用谁的结果。 推测执行任务的前提条件 每个Task只能有一个备份任务 当前Job已完成的Task必须不小于0.05(5%) 开启推测执行参数设置。mapred-site.xml文件中默认是打开的。 不能启动推测执行的情况 任务间存在严重的负载倾斜; 特殊任务,比如任务向数据库中写数据。 推测执行算法原理 estimateEndTime = estima原创 2021-01-05 15:08:34 · 249 阅读 · 0 评论