Hadoop
文章平均质量分 58
Hadoop的安装等
不会敲代码的小力
OvO
自己做的一些笔记便于自己回顾
展开
-
Hadoop基本介绍(4)
MapMap的输出到内存Reduce数据读取Map到reduce内存角度宏观流程Map到reduce处理流程角度宏观步骤Shuffle阶段如何能够让Map执行效率最高如何能够让Reduce执行效率最高 Map的输出到内存 Map的输出先写入环形缓冲区(默认大小100M-可以认为调整)(可以再输出的同时写入数据),当缓冲区内的数据达到阈值(默认0.8-可以人为调整)时, 对数据进行flash。flash 出去的数据的数量达到一定量(默认4个)时,进行数据的合并 Reduce数据读取 Reduce 主动原创 2020-08-10 19:49:50 · 3202 阅读 · 0 评论 -
Hadoop基本介绍(3)
MapReduce计算框架MapReduce计算框架并行计算框架Hadoop为什么比传统技术方案快MapReduce核心思想偏移量hadoop数据类型MapReduce计算任务的步骤Shuffle阶段的Partition分区算法Split的逻辑切分 MapReduce计算框架 是指实现某项任务或某项工作从开始到结束的计算过程或流的结构 并行计算框架 一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算 Hadoop为什么比传统技术方案快 1、分布式存储 2、分布式并行计算原创 2020-08-10 17:09:34 · 2903 阅读 · 0 评论 -
Hadoop基本介绍(2)
Hadoop基本介绍2HDFS 特性HDFS缺点:HDFS高级命令HDFS安全模式Fsimage EditsFsimage Edits作用:查看Fsimage EditsSecondaryNamenode工作原理前提:目标:意义:什么时候进行文件拷贝合并 HDFS 特性 1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别数据。 2、高容错性:节点丢失,系统依然可用,数据保存多个副本,副本丢失后自动恢复。 可构建在廉价(与小型机大型机比)的机器上,实现线性扩展(随着节点数量的增加,集群的存原创 2020-08-07 23:09:49 · 3795 阅读 · 0 评论 -
Hadoop基本介绍(1)
Hadoop基本介绍hadoop 的组成部分HDFS辅助管理者:SecondaryNameNode工作者:DataNodeMapReduceYarnHDFS 副本存放机制第一份第二份第三个Namenode作用DataNode作用RPC remote procedure callHDFS数据写入流程(重点)HDFS数据读取流程(重点)HDFS数据完整性HDFS适用场景 hadoop 的组成部分 HDFS 管理者:NameNode 作用:负责管理,管理集群内各个节点。 负责管理整个文件系统的元数据(指的是数据的原创 2020-08-07 18:20:13 · 4722 阅读 · 0 评论