hadoop
文章平均质量分 77
上杉绘梨衣-
少年听雨歌楼上,红烛昏罗帐,壮年听雨客舟中,江阔云低,断雁叫西风。
而今听雨僧庐下,鬓已星星也,悲欢离合总无情,一任阶前,点滴到天明。
展开
-
Hadoop数据操作系统中YARN全解析
“ Hadoop 2.0引入YARN,大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的?Hulu又有哪些成功实践可以分享? 为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许多个应用程序运行在一个集群中,并将资源按需分配给它们,这大大提高了资源转载 2017-03-20 15:53:24 · 634 阅读 · 0 评论 -
Hadoop DistributedCache使用方法及原理
概览DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存文件(text, archives, jars and so on)文件的默认访问协议为(hdfs://). DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前。文件在每个Job中只会被拷贝一次,缓存的归档文件会被在Slave节点中解压原创 2017-08-05 15:02:37 · 1751 阅读 · 0 评论 -
Hadoop中的Context使用
简要截取:本篇博客以经典的wordcount程序为例来说明context的用法: 直接上代码:package MapReduce;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;impo原创 2017-08-04 15:24:51 · 3751 阅读 · 0 评论 -
Hadoop中mapred.child.java.opds参数意义
最近发现Hadoop Job集群的load非常高,最后发现是mapred.child.Java.opts设置过大导致的,我们当初设置为-Xmx5120导致TaskTracker上内存资源耗尽,进而开始不断swap磁盘上数据,load升高在执行一个Task的时候,首先会根据JobConf中设定的JVM参数写入一个taskjvm.sh文件中,然后调用Linux命令 bin/bash -原创 2017-08-04 10:44:53 · 3953 阅读 · 0 评论 -
Hadoop: hadoop.job.ugi
如果Hadoop用户标识不同于客户机上的用户账号,可以通过hadoop.job.ugi属性来显式设定Hadoop用户名和组名。用户名和组名之间有半角逗号隔开例如:1preston,diecotrs,inventors其中preston为用户名,diecotrs和inventor为组名。原创 2017-08-04 09:49:57 · 6561 阅读 · 1 评论 -
Hadoop中MapReduce中的counter的意义
MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析下这些默认Counter的含义,方便大家观察job结果。 我的分析是基于Ha转载 2017-08-03 18:08:09 · 1014 阅读 · 0 评论 -
Hadoop中 MapReduce中InputSplit的分析
前言MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。Job提交原创 2017-08-03 15:12:27 · 1791 阅读 · 0 评论 -
Hadoop的一些基本介绍 jps
问题导读:1.job的本质是什么?2.任务的本质是什么?3.文件系统的Namespace由谁来管理,Namespace的作用是什么?4.Namespace 镜像文件(Namespaceimage)和操作日志文件(editlog)文件的作用是什么?5.Namenode记录着每个文件中各个块所在的数据节点的位置信息,但是他并不持久化存储这些信息,为什么?6.客户端读写某个数据时原创 2017-07-31 11:28:25 · 808 阅读 · 0 评论 -
HADOOP框架的理解
HADOOP框架简介原创 2017-03-26 16:28:05 · 771 阅读 · 0 评论 -
关于Hadoop任务的学习
其实之前只是会配置环境,对详细细节甚至具体的编程真心不太了解,上网搜到了比较好的资源在此mark一下,准备后续学习http://www.cnblogs.com/esingchan/p/3917252.html原创 2018-01-15 17:43:00 · 252 阅读 · 0 评论