
hadoop
xuehuagongzi000
这个作者很懒,什么都没留下…
展开
-
hadoop namenode HA 高可用概念和切换NameNode
上图,加入zookeper集群,当nn主节点挂掉,通过zk自动将nn副本升级为主节点。为了提供快速故障转移,备用节点还必须具有关于群集中块的位置的最新信息。为了实现这一点,DataNode配置了所有NameNode的位置,并向NN发送块位置信息和心跳。如图中的jn集群。当Active节点执行任何名称空间修改时,它会将修改记录持久地记录到大多数这些JN中。待机节点能够从JN读取编辑,并且不...转载 2020-03-21 21:59:53 · 745 阅读 · 0 评论 -
MapReduce之数据组织模式
分区:默认情况下一个分区对应一个reducer,也就是有几个分区就会有几个part-0,part-1,part-2...的输出结果在hdfs上排序:有三次,每个maper的中间结果是有序的(走两遍排序),每个reducer合并完mapper的中间结果后是有序的(每个分区再走一遍排序)二次排序的案例1、输入数据4 15 16 47 44 15 16 47 44 1...原创 2018-11-15 23:55:53 · 383 阅读 · 0 评论 -
MapReduce之过滤模式
job、context、setup()和cleanup()的使用1、在main中job配置参数job.getConfiguration().set("num","3");2、在setup()使用context取得参数值public void setup(Context context){ number= Integer.parseInt(context.getConfi...原创 2018-11-15 23:47:00 · 701 阅读 · 0 评论 -
MapReduce之概要模式2
求平均数和使用MapReduce的自带的计数方法求平均数主要是是用了Combiner,然后在mapper端统计了匹配和不匹配的数目,最后在控制台输出Combiner主要是在map阶段结束以后,对每个分区来说,可以分为不同的组,某个组有几条数据走combiner方法,却不影响最终的统计结果,这叫做满足结合律和交换律。即对一个分区来说,可以进行随意分组,组之间可以进行结合。1、自定义Wri...原创 2018-11-15 23:39:28 · 160 阅读 · 0 评论 -
mapreduce之概要模式
最大值、最小值并求和注意事项:(1)、自己定义一个输出类型MinMaxCountTuple 。(2)、使用Combiner提前聚合。1、自定义Writeable注意:(1)、定义private成员变量,写get和set方法(2)、写read和write方法,和toString方法(也就是输出的格式)package MaxMinCount;import org.ap...原创 2018-11-15 23:18:06 · 306 阅读 · 0 评论 -
intellij idea 本地调试mapreduce案例
1、首先在hadoop官网上下载hadoop到本地(不需要进行环境变量的配置,仅仅只用下载hadoop的包即可)。2、打开intellij idea创建一个空项目,并且将源码粘贴进去,如图2、这时可以看见代码中的许多类是无法识别的,别急。接下来打开project structure,在左侧找到modules3、点击下方箭头天假jar或目录4、将刚才下载的hadoop目...转载 2019-05-29 18:05:50 · 2612 阅读 · 0 评论 -
hadoop之hive查找udf函数以及对应的类名
1、which hive/opt/hadoop/hive/bin/hivewhich命令是查找命令是否存在,以及命令的存放位置在哪儿。which指令会在环境变量$PATH设置的目录里查找符合条件的文件。2、cd /opt/hadoop/hive/confless hive-site.xml 查找jdbc mysql -hdmhivemetarw.db2.so...原创 2019-01-04 16:37:10 · 2140 阅读 · 0 评论 -
intellij idea本地开发调试hadoop的方法
转载请注明出处: http://blog.csdn.net/programmer_wei/article/details/45286749我的intellij idea版本是14,hadoop版本2.6,使用《hadoop权威指南》的天气统计源码作为示例。下面附上源码,数据集在http://hadoopbook.com/code.html可以下载1901和1902两年数据:[java] view ...转载 2018-05-21 16:24:21 · 6290 阅读 · 0 评论 -
Hive udf函数的使用
1 、编写UDF类以简单的处理单个字段的UDF函数为例,开发自定义UDF函数需要继承’org.apache.hadoop.hive.ql.exec.UDF’类. 可以通过Maven添加,pom文件中加入(版本号跟Hive版本一致即可):<dependency> <groupId>org.apache.hive</groupId> <artifact...转载 2018-03-26 22:02:42 · 2471 阅读 · 0 评论 -
hadoop之从数据流向角度分析MapReduce流程
从数据流向角度分析MapReduce流程JobTracker:负责任务的调度和集群资源监控TaskTracker:负责汇报心跳和任务的执行1、inputMapReduce计算框架首先会用InputFormat类的子类FileInputFormat类将作为输入的HDFS上的文件切分形成输入分片(InputSplit),每个InputSplit将作为一个Map任务的输入,再将Input...原创 2017-08-06 00:08:31 · 880 阅读 · 0 评论 -
hadoop之HDFS总结
1.1认识HDFS当数据集的大小超过单台计算机的存储能力时,有必要将其进行分区并存储在若干台单独的计算机上。而通过网络来进行管理的跨多台计算机存储的文件系统称为分布式文件系统。该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通的文件系统更为复杂,比如容忍节点故障且不丢失任何数据等。1.1.1HDFS的优缺点优点:(1)适合存储超大文件:存储在Hadoop分布式文件系统的文件...原创 2017-08-04 11:58:22 · 522 阅读 · 0 评论