hadoop
小初心
初心常在...
展开
-
HDFS架构和HA集群的简单理解
一.简述HDFS架构HDFS是Hadoop分布式文件系统, 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode.HDFS架构图二.HDFS架构中的角色1.HDFS Client:客户端a.文件切分文件上传 HDFS 的时候,Client 将文件切分成 一个一个...原创 2019-04-10 18:28:40 · 939 阅读 · 2 评论 -
对HDFS的读流程和写流程的理解
一.HDFS写文件流程图二.HDFS写文件流程(1)调用客户端的对象DISTRIBUTEDFILESYSTEM()的CREATE方法;(2)DISTRIBUTEDFILESYSTEM会发起对NAMENODE的一个RPC连接,请求创建一个文件,。NAMENODE会执行各种各样的检查,确保要创建的文件不存在,并且客户端有创建文件的权限。如果检查通过,NAMENODE会创建一个文件(在EDITS...原创 2019-04-11 17:14:47 · 253 阅读 · 0 评论 -
MAPREDUCE相关知识点总结
一.mapreduce的特点可以让你的应用在集群中可靠的容错的并行处理TB级别的数据二.分布式计算框架三.mapreduce流程图四.mapreduce的工作流程1、输入文件分片,每一片都由一个MapTask来处理2、Map输出的中间结果会先放在内存缓冲区中,这个缓冲区的大小默认是100M,当缓冲区中的内容达到80%时(80M)会将缓冲区的内容写到磁盘上。也就是说,一个map会输出...原创 2019-04-15 08:49:17 · 825 阅读 · 0 评论 -
yarn的作用以及执行流程
一.什么是yarnYARN 是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、 NodeManager(NM)、ApplicationMaster(AM)。 ResourceManager 负责所有资源的监控、分配和管理; ApplicationMaster 负责每一个具体应用程序的调度和协调; NodeManager 负责每一个节点的维护。 对于所有的 ...原创 2019-04-17 08:39:04 · 10260 阅读 · 1 评论