- 博客(5)
- 收藏
- 关注
翻译 好记性不如烂笔头---hadoop的shuffle和sort过程
MapReduce确保每个reducer的输入都是按键排序的,系统执行排序的过程称为shuffle。 在map端,map函数开始产生输出时,并不是直接写入到磁盘,而是利用缓冲的方式写到内存并出于效率的考虑进行预排序,具体过程:每个map任务都有一个环形内存缓冲区用于存储任务输出,该缓冲区默认大小为100m,可以通过io.sort.mb属性调整该值,一旦缓冲达到阈值io.sort.spill.pe
2017-12-29 10:48:29 624
翻译 好记性不如烂笔头---hadoop的作业调度
早期的hadoop 使用非常简单的方法调度用户作业:按照作业的提交顺序,使用FIFO调度算法来运行作业。典型情况下,每个作业都会使用整个集群,但是这样作业需要等待直到轮到自己运行。不久后,增加了设置作业优先级的功能,可以通过设置mapred.job.priority属性或者jobclient的setjobpriority()方法来设置作业的优先级,在这两种方法中可以选择VERY-HIGH,HIGH
2017-12-28 19:41:08 239
翻译 好记性不如烂笔头---YARN作业运行机制
YARN将jobtracker的职能进行了划分,划分了两个独立的守护进程:管理集群上资源使用的资源管理器ResourceManager,管理集群上运行任务生命周期的应用管理器ApplicationMaster。基本思路是:AM与RM协商集群的计算资源:容器Container,在容器上运行特定应用程序的进程。容器由集群节点上运行的集群管理器NodeManager监视,以确保应用程序使用的资源不会超过
2017-12-27 21:56:42 253
翻译 好记性不如烂笔头---MapReduce1作业运行机制
学习hadoop先从搞懂作业运行机制开始,不看懂运行机制总感觉MapReduce的执行是一件很神秘的事情,现在来解开她的神秘面纱,本想自己看看书就算了,但是记忆力真的是个好东西,然而我却没有。。。只好把看到的内容记下来,也好留下更深的印象。另外,本文内容摘抄自《hadoop权威指南第3版》。 jobtracker接收到对其的submitjob()方法的调用后,会把此调用放入一个内部队列中,交由作
2017-12-26 09:32:01 268 1
原创 分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子
共三台服务器,安装的Redhat7系统,Redhat7命令与常用的Linux命令稍有不同。第一次写博客,记录过程方便自己的同时方便他人,直接开始正题,环境搭建过程如下。一、安装Redhat7.1系统1.用光盘安装,服务器开启后启动过程中按del键进入BIOS,在boot菜单中将boot priority的CD/ROM选项设置为1st,具体做法是选中CD/ROM选项并按shift+键。 2.安装设置
2017-12-18 14:54:54 687 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人