自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

翻译 好记性不如烂笔头---hadoop的shuffle和sort过程

MapReduce确保每个reducer的输入都是按键排序的,系统执行排序的过程称为shuffle。  在map端,map函数开始产生输出时,并不是直接写入到磁盘,而是利用缓冲的方式写到内存并出于效率的考虑进行预排序,具体过程:每个map任务都有一个环形内存缓冲区用于存储任务输出,该缓冲区默认大小为100m,可以通过io.sort.mb属性调整该值,一旦缓冲达到阈值io.sort.spill.pe

2017-12-29 10:48:29 624

翻译 好记性不如烂笔头---hadoop的作业调度

早期的hadoop 使用非常简单的方法调度用户作业:按照作业的提交顺序,使用FIFO调度算法来运行作业。典型情况下,每个作业都会使用整个集群,但是这样作业需要等待直到轮到自己运行。不久后,增加了设置作业优先级的功能,可以通过设置mapred.job.priority属性或者jobclient的setjobpriority()方法来设置作业的优先级,在这两种方法中可以选择VERY-HIGH,HIGH

2017-12-28 19:41:08 239

翻译 好记性不如烂笔头---YARN作业运行机制

YARN将jobtracker的职能进行了划分,划分了两个独立的守护进程:管理集群上资源使用的资源管理器ResourceManager,管理集群上运行任务生命周期的应用管理器ApplicationMaster。基本思路是:AM与RM协商集群的计算资源:容器Container,在容器上运行特定应用程序的进程。容器由集群节点上运行的集群管理器NodeManager监视,以确保应用程序使用的资源不会超过

2017-12-27 21:56:42 253

翻译 好记性不如烂笔头---MapReduce1作业运行机制

学习hadoop先从搞懂作业运行机制开始,不看懂运行机制总感觉MapReduce的执行是一件很神秘的事情,现在来解开她的神秘面纱,本想自己看看书就算了,但是记忆力真的是个好东西,然而我却没有。。。只好把看到的内容记下来,也好留下更深的印象。另外,本文内容摘抄自《hadoop权威指南第3版》。 jobtracker接收到对其的submitjob()方法的调用后,会把此调用放入一个内部队列中,交由作

2017-12-26 09:32:01 268 1

原创 分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子

共三台服务器,安装的Redhat7系统,Redhat7命令与常用的Linux命令稍有不同。第一次写博客,记录过程方便自己的同时方便他人,直接开始正题,环境搭建过程如下。一、安装Redhat7.1系统1.用光盘安装,服务器开启后启动过程中按del键进入BIOS,在boot菜单中将boot priority的CD/ROM选项设置为1st,具体做法是选中CD/ROM选项并按shift+键。 2.安装设置

2017-12-18 14:54:54 687 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除