2017年12月_Jiawen_

12月

翻译好记性不如烂笔头---hadoop的shuffle和sort过程

MapReduce确保每个reducer的输入都是按键排序的，系统执行排序的过程称为shuffle。在map端，map函数开始产生输出时，并不是直接写入到磁盘，而是利用缓冲的方式写到内存并出于效率的考虑进行预排序，具体过程：每个map任务都有一个环形内存缓冲区用于存储任务输出，该缓冲区默认大小为100m，可以通过io.sort.mb属性调整该值，一旦缓冲达到阈值io.sort.spill.pe

2017-12-29 10:48:29 624

翻译好记性不如烂笔头---hadoop的作业调度

早期的hadoop 使用非常简单的方法调度用户作业：按照作业的提交顺序，使用FIFO调度算法来运行作业。典型情况下，每个作业都会使用整个集群，但是这样作业需要等待直到轮到自己运行。不久后，增加了设置作业优先级的功能，可以通过设置mapred.job.priority属性或者jobclient的setjobpriority()方法来设置作业的优先级，在这两种方法中可以选择VERY-HIGH,HIGH

2017-12-28 19:41:08 239

翻译好记性不如烂笔头---YARN作业运行机制

YARN将jobtracker的职能进行了划分，划分了两个独立的守护进程：管理集群上资源使用的资源管理器ResourceManager，管理集群上运行任务生命周期的应用管理器ApplicationMaster。基本思路是：AM与RM协商集群的计算资源：容器Container，在容器上运行特定应用程序的进程。容器由集群节点上运行的集群管理器NodeManager监视，以确保应用程序使用的资源不会超过

2017-12-27 21:56:42 253

翻译好记性不如烂笔头---MapReduce1作业运行机制

学习hadoop先从搞懂作业运行机制开始，不看懂运行机制总感觉MapReduce的执行是一件很神秘的事情，现在来解开她的神秘面纱，本想自己看看书就算了，但是记忆力真的是个好东西，然而我却没有。。。只好把看到的内容记下来，也好留下更深的印象。另外，本文内容摘抄自《hadoop权威指南第3版》。 jobtracker接收到对其的submitjob()方法的调用后，会把此调用放入一个内部队列中，交由作

2017-12-26 09:32:01 268 1

原创分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子

共三台服务器，安装的Redhat7系统，Redhat7命令与常用的Linux命令稍有不同。第一次写博客，记录过程方便自己的同时方便他人，直接开始正题，环境搭建过程如下。一、安装Redhat7.1系统1.用光盘安装，服务器开启后启动过程中按del键进入BIOS，在boot菜单中将boot priority的CD/ROM选项设置为1st，具体做法是选中CD/ROM选项并按shift+键。 2.安装设置

2017-12-18 14:54:54 687 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

翻译 好记性不如烂笔头---hadoop的shuffle和sort过程

翻译 好记性不如烂笔头---hadoop的作业调度

翻译 好记性不如烂笔头---YARN作业运行机制

翻译 好记性不如烂笔头---MapReduce1作业运行机制

原创 分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子

空空如也

空空如也

翻译好记性不如烂笔头---hadoop的shuffle和sort过程

翻译好记性不如烂笔头---hadoop的作业调度

翻译好记性不如烂笔头---YARN作业运行机制

翻译好记性不如烂笔头---MapReduce1作业运行机制

原创分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子