![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 79
zhouxucando
这个作者很懒,什么都没留下…
展开
-
Hadoop 的WordCount
之前花了点时间玩spark, 现在开始学一下hadoop前面花了几天时间搭建Hadoop环境和开发环境, 具体就不多说了, 今天开始了第一个Map/Reduce程序, 经典的wordcount。使用的Hadoop版本是2.6.3, 所以我会用最新的API, 大部分都是在org.apache.hadoop.mapreduce这个包下面的。 (mapred是老的api)我的...原创 2016-08-30 19:41:33 · 97 阅读 · 0 评论 -
Hadoop的Map端sort, partition, combiner以及Group
Mapreduce在执行的时候首先会解析成KV键值对传送到Map方法里面, 在Mapper类的run里面有这么一段代码:[code="java"]while (context.nextKeyValue()) { map(context.getCurrentKey(), context.getCurrentValue(), context); }[/cod...2016-09-05 15:15:54 · 433 阅读 · 0 评论 -
Hadoop MapReduce Job执行过程源码跟踪
前面一片文章写了MR怎么写, 然后添加的主要功能怎么用, 像partitioner, combiner等, 这周看了一下MR执行的时候Job提交以及Task运行的过程, 记录一下整个源码执行步骤, 量太大就不写详细了, 只是一步一步跟踪下去, 具体是在做什么就稍微解释一下, 跟多还是要靠自己看上下文理解了, 首先Job是通过job.waitForCompletion(true) 来提交的, 里面是...2016-09-07 15:07:09 · 259 阅读 · 0 评论 -
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (上)
参考了一篇文章, 才看懂了Yarnrunner的整个流程:http://blog.csdn.net/caodaoxi/article/details/12970993网上很多文章写的不是很清楚, 有些到AM的启动的时候就错了, 结合最近俩星期看的Yarnrunner部分的源码 我把我的理解写下来, 打算分三部分上: SubmitJob到schduler为ApplicationMas...2016-09-24 16:46:45 · 379 阅读 · 0 评论 -
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (中)
继续上一篇文章, 那时候AM Allocation已经生成, 就等着NM 的心跳来找到有资源的NM, 再去启动, 那么假设一个NM 心跳, 然后走的就是RMNodeImpl的状态机的RMNodeEventType.STATUS_UPDATE事件, 看一下事件定义:[code="java"] private static final StateMachineFactory stateMac...原创 2016-09-27 13:25:42 · 377 阅读 · 0 评论 -
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析(下)
中间隔了国庆, 好不容易才看明白了MRAppMaster如何启动其他container以及如何在NodeManager上面运行Task的。上回写到了AM启动到最后其实是运行的MRAppMaster的main方法, 那么我们就从这里开始看他是如何启动其他container的, 首先看一下main方法:[code="java"] public static void main(Stri...原创 2016-10-11 13:53:11 · 404 阅读 · 0 评论 -
YARNRunner的运行原理总结
之前看了那么些源码, 大致对整个Yarn的运行过程有了一个了解, 总结一下首先每个Yarn集群都有一个Resource Manager 以及若干个NodeManagerResource Manager主要有两个对象, 一个就是Scheduler, 还有一个就是Applications Manager ASMScheduler有FIFO和Fair等, 主要作用就是根据Node...原创 2016-10-25 17:52:27 · 895 阅读 · 0 评论 -
kafka + flume + hdfs + zookeeper + spark 测试环境搭建
最近由于项目需要, 搭建了一个类似线上环境的处理流数据的环境用的是CDH 版本5.9.xhdfs组成: 2 namenode HA, 6 datanodekafka: 3 台kafka serverzookeeper: 3台flume: 1台spark: 6台 每台32G内存数据流程是有远端终端向我们数据处理服务器(Gengo)发送, 再由Gengo向kaf...原创 2017-07-20 11:28:28 · 363 阅读 · 0 评论