![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop体系
兰亭已醉
这个作者很懒,什么都没留下…
展开
-
HDFS总结
1. 设计思想 目的: 实现海量数据存储 设计思想: 1)切块存储:避免namenode压力过大 2)备份存储:避免节点压力过大宕机导致文件丢失 2. 架构 主从架构: namenode: 1)存储元数据 2)接收客户端的读写请求 datanode: 1)存储文件 2)处理客户端读写请求 secondarynamenode: 1)备份主节点,在主节点宕机时进行数据恢复保证集群正常运行 ...原创 2019-02-20 15:07:10 · 175 阅读 · 0 评论 -
MR总结
并行度 maptask并行度 切片机制 1)切片定义在InputFormat类中的getSplit()方法 maxsize、blocksize、minsize 2)FileInputFormat中默认的切片机制: 128m切,当一个文件的最后一个切片最大可以切成122m*1.1大小 并发数影响因素 运行节点的硬件 运行任务的类型:CPU密集/IO密集 运行人物的数据量 reduc...原创 2019-02-20 15:52:23 · 159 阅读 · 0 评论 -
YARN架构设计
一.设计思想 1.hadoop1.0的旧架构及缺陷 最初的hadoop1模型中并没有yarn,一个 Hadoop 集群可分解为两个抽象实体:MapReduce 计算引擎和分布式文件系统。当一个客户端向一个 Hadoop 集群发出一个请求时,此请求由 JobTracker 管理。JobTracker 与 NameNode 联合将任务分发到离它所处理的数据尽可能近的位置。然后JobTracker 将...原创 2019-06-13 17:03:06 · 224 阅读 · 0 评论 -
mapreduce常见案例
常见案例 1.二次排序 2.共同好友 3.点击流分析模型 案例一1:二次排序 原始数据 目标数据 代码 –Map/Reduce不需要改变,主要是SortComparator通过继承WritableComparator类,重写了compare方法,改变了hadoop默认的排序规则。 步骤1.建立对象存储数据,继承WritableComparable,添加序列化、反序列化、比较器 package...原创 2019-06-14 10:10:21 · 4406 阅读 · 0 评论