- 博客(5)
- 收藏
- 关注
原创 《Hadoop权威指南》知识点整理5
《Hadoop权威指南》知识点整理5 MapReduce部分 MapReduce特性_计数器 计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计 内置计数器分组:MapReduce任务计数器、文件系统计数器、FileInputFormat计数器、FileOutputFormat计数器、作业计数器 任务计数器:采集任务的相关信息,每个作业的所有任务的结果会被聚集起来。任务计数器由其关联任务维护,并定期发送给application master。 MAP_INPUT_RECORDS(m
2020-05-29 12:34:38 121
原创 《Hadoop权威指南》知识点整理4
《Hadoop权威指南》知识点整理4 MapReduce部分 MapReduce的类型与格式_MapReduce类型 reduce函数的输入类型必须与map函数的输出类型相同 partition函数对中间结果的键值对(map输出)进行处理,并且返回一个分区索引,分区由键单独决定(值被忽略) map:(K1, V1) => list(K2, V2) reduce:(K2, list(V2)) => list(K3, V3) 默认的partitioner是HashPartitione
2020-05-27 16:22:23 187
原创 《Hadoop权威指南》知识点整理3
《Hadoop权威指南》知识点整理3 MapReduce部分 MapReduce工作机制_作业运行机制 Hadoop运行MapReduce作业的工作原理 (1) Job创建实例,通过waitForCompletion()每秒轮询作业进度 (2) 向ResourceManager请求一个新应用ID,用于MapReduce作业ID (3) 将运行作业所需要的资源复制到一个以作业ID命名的目录下的共享文件系统中 (4) 调用ResourceManager的submitApplication()方法提交作业 (
2020-05-26 16:39:02 132
原创 《Hadoop权威指南》知识点整理2
《Hadoop权威指南》知识点整理2 MapReduce部分 MapReduce应用开发_配置 一个Configuration类的实例代表配置属性极其取值的一个集合,属性由String类型来命名,而值的类型任意,Configuration从使用简单结构名值对(name-value)的XML文件中读取其属性值。后添加到资源文件的属性会覆盖之前定义的属性。 <!-- 配置文件 configuration-1.xml --> <?xml version="1.0"?> <c
2020-05-25 18:57:58 153
原创 《Hadoop权威指南》知识点整理1
《Hadoop权威指南》知识点整理1 Hadoop部分 一、YARN_调度 YARN调度器:FIFO调度器、容量调度器、公平调度器 YARN-FIFO调度器:简单易懂,无需配置不适合共享集群,大应用会占用集群全部资源 YARN-容量调度器:允许多组织共享一个Hadoop集群,每个组织存在专门队列,每个队列可用一定资源,队列内使用FIFO调度策略,容量调度器会将空余资源分给资源不足的队列(弹性队列),通过设置最大容量限制避免弹性队列过多侵占其他队列的资源。容量调度器预留专门队列保证小作业快速启动,降低集群利
2020-05-25 12:57:05 151
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人