目录
hadoop分布式文件存储系统,用来解决海量数据的存储问题
HDFS的组成------核心配置文件:hdfs-site.xml、core-site.xml
NameNode:负责整个HDFS集群的管理(比如监控DataNode的运行状态、调度DataNode去处理数据);存储元数据(包含数据的基本信息,有两个重要文件:fsimage, editsfsimage, edits)
- core-site.xml中:
-
- fs.defaultFS-------用于指定NameNode的地址;
- hadoop.tmp.dir----指定HDFS集群中相关文件存储的目录
- hdfs-site.xml中:
-
- dfs.namenode.name.dir------明确指定NameNode的镜像文件和日志文件等应该在什么路径下,如果不配置,则默认在hadoop.tmp.dir配置的目录的dfs/name下
- dfs.namenode.http-address---------(0.0.0.0:50070)用来配置NameNode的外部访问端口号
DataNode:负责整个集群的数据存储(数据就是以文件存储的),底层是以block块去存储数据的,一个block块默认128M
- hdfs-site.xml:
- dfs.replication------配置block块的副本数,默认是3
- dfs.namenode.heartbeat.recheck-interval-------NameNode检测DataNode状态的间隔时间,默认是5分钟,单位是ms
- dfs.heartbeat.interval--------NameNode和DataNode的心跳时间,默认是3秒
- dfs.datanode.data.dir-------用来指定DataNode中存储的block块的存放在Linux上的路径,默认在hadoop.tmp.dir/dfs/data目录下
- dfs.namenode.datanode.registration.ip-hostname-check---