一、hdfs架构图
1.存储时,要将文件切块存储
2.引入管理角色namenode,专门用来管理文件块信息,管理整个分布式文件系统的元数据信息。元数据指的是:一个文件多大;一个文件被切成几块;每个文件快多大;每个文件块存储在哪个datanode上
3.namenode的另一职责是管理整个集群的状态,比如datanode是否宕机。通过RPC心跳机制
4.为了避免namenode单点故障,需要引入备用节点,比如SNN机制
5.为了解决数据存储的可靠性,引入副本冗余机制。一般采用3副本策略。
副本数量不宜过多,因为副本越多,整个集群的磁盘利用率越低