HAPDOOP DISTRIBUTED FILE SYSTEM(hadoop分布式文件系统)
client:读写数据的发起者,将文件拆分。
datanode:数据存储,数量巨大。
namenode:唯一的领导者,协调和把控所有的的请求。
hdfs存储数据:客户端负责把数据拆分,发送给datanode,并把存储块数告诉datanode;datanode以流水线的方式存储数据(第一个datanode收到数据以后把数据传给第二个datanode,第二个datanode重复第一个datanode的工作);datanode存储完数据以后把信息告诉给namenode,namenode再把存储地址告知客户端。
什么是hdfs流式的数据访问:一次写入,多次读取。
hdfs并不适合小文件存储:一个datanode的容量是固定的,如果只用它来存储小文件,那么对datanode的占用就会很大。这有点跟linux以inode方式存储文件相似,如果inode用来存储小文件,inode消耗过大(准确说inode用完),就会导致内存没用完,但是已经无发存储数据。