HDFS是什么?
HDFS是分布式文件系统,即:Distributed File System,加上Hadoop,即HDFS;
解决了海量数据无法单机储存的问题
为什么要用HDFS?
随着数据量越来越大,存储所有的数据已经无法在一台机器上完成,所以就会将数据分配到不同的机器上进行储存,可是这样就会出现不方便管理和维护的问题,所以,我们就希望有一个系统可以将这些分布在不同操作服务器上的数据进行统一管理,这就有了分布式文件系统既(HDFS)!
优点:
高容错性,安全性;
数据存储在不同的机器中,并且每个数据默认存储3个副本(存储在不同的机器中),当集群中的某个数据块的副本由于某种原因(宕机,磁盘损坏等)丢失以后,HDFS会自动恢复!
扩展性;
HDFS的存储能力可以通过添加机器来扩容,并且极易横向扩容 ,整个集群中所有机器的存储能力就是HDFS的存储能力
可存储海量数据;
缺点:
1不适合低延迟的数据访问
2不适合储存大量的小数据文件
3不支持并发写,文件的随机修改
注意:HDFS文件系统适合一次写入多次读取的数据操作!主要用于存储数据
系统架构(主从模式)
namenode(主节点)功能:
- 接受datanode的注册,分配集群id
- 管理监控datanode的存储数据副本复制
- 管理数据存储信息称为(元数据)
- 提供一个虚拟的客户端访问目录
- 接受客户端的请求
datanode(从节点)
- 注册 汇报数据存储情况
- 接受副本复制工作
- 真正存储数据的节点
- 真正处理客户端的读写请求
Secondary namenode
管理元数据