mapreduce
z_xiaozhuT
学习是个孤独的过程。
展开
-
MapReduce计算模型的深入剖析
这次用MapReduce计算模型做一个二次排序,发现一些问题,记录下来。源文件数据格式如下: id timestamp10001 2017082111550110001 2017082111550210001 2017082111550310002 2017082111550410001 2017082111550510001原创 2017-08-21 15:21:22 · 369 阅读 · 0 评论 -
hadoop之yarn的资源分配详解
在学习Hadoop YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系,它是否能像Linux Container那样为任务提供一个隔离环境?它代表计算资源,还是仅仅是一个任务处理进程?本文将尝试介绍Container这一概念。转载 2017-09-27 13:07:24 · 1585 阅读 · 0 评论 -
深入浅出数据仓库中SQL性能优化之Hive篇
摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,转载 2017-12-15 19:00:56 · 337 阅读 · 0 评论 -
关于mapreduce 几个参数的解释
一、mapreduce.map.java.opts、mapreduce.reduce.java.opts 以map任务为例,Container其实就是在执行一个脚本文件,而脚本文件中,会执行一个 Java 的子进程,这个子进程就是真正的 Map Task,mapreduce.map.java.opts 其实就是启动 JVM 虚拟机时,传递给虚拟机的启动参数,而默认值 -Xmx200m 表示这...转载 2018-05-25 10:38:53 · 11807 阅读 · 2 评论 -
mapreduce参数调优
废话不说直接来一张图如下: 从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源; Mapper数太小,并发度过小,Job执行时间过长,无...转载 2018-09-03 20:02:48 · 1833 阅读 · 0 评论