HDFS是Hadoop大数据生态系统的底层核心提供了大数据分布式存储的支持。HDFS的优点很多,其中的简单的文件模型里的“一次写入多次读取”就是HDFS写数据流时用了这个模式 。
这里也说一下,在HDFS中,名称节点(NameNode)负责管理分布式文件系统的命令空间(Name space),保存了两个核心的数据结构Fslamge(元数据镜像)和EditLog(记录了所有针对文件的创立,删除,重命名等操作)。
数据节点(DataNode)是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据调度来进行数据的存储和检索,并且向名称节点(NameNode)定期发送自己所存储的块的列表。
1.客户端通过调用,分布式文件系统对象中的Create()创建一个文件,文件系统会调用RPC调用的名称节点中的文件系统命名空间创建一个新文件。
2.名称节点通过多种验证,确保请求客户端拥有有创建文件的权限,新的文件不存在文件系统中,当所有的验证通过时,名称节点就会创建一个新文件的记录。
3.客户端调用文件系统数据输出流的Write()函数,向对应的文件写入数据。
4.当客户端开始写入数据时,分布式文件系统会将文件分割成包,然后放入一个内容“数据队列”中,数据流系统会将这些小的文件放入数据流中,返回的数据节点形成了一个“管道”,假设这里的副本有3个,那么这个管道中就会有3个数据节点将文件包以流的方式传给队列中的第一个数据节点。第一个数据节点会存储这个包,然后将它推送到第二个数据节点,依次重复操作,直到完成“数据流管道”中的最后一个数据节点。
5.分布式文件系统同时也会保存一个包的内部队列,用来等待“管道”中的数据节点返回确认信息,这个队列被称为“确认队列”。只有当所有管道中的数据节点都返回写入成功的信息后,才会从队列中删除。
6.当客户端成功完成数据写入的操作后,调用文件系统数据输出流的Close()方法,将所有的数据块写入数据流管道中的数据节点,并等待确认返回成功,最后通过名称节点完成写入。