HDFS介绍:
HDFS为了做到可靠性创建了多份数据块的复制,并将它们放置在服务器群的计算节点中,MapReduce就可以在它们所在的节点上处理这些数据了
NameNode DataNode
存储单元数据 存储文件内容
元数据保存在内存中 文件内容保存在磁盘
HDFS为了做到可靠性创建了多份数据块的复制,并将它们放置在服务器群的计算节点中,MapReduce就可以在它们所在的节点上处理这些数据了
NameNode DataNode
存储单元数据 存储文件内容
元数据保存在内存中 文件内容保存在磁盘
保存文件,block,datanode之间的映射关系 维护了block id到datanode本地文件的映射关系
HDFS运行机制:
.一个名字节点(NameNode)和多个数据(DataNode)节点
.数据复制(冗余机制)
--存放的位置(机架感知策略)
.故障检测
--数据节点
心跳包(检测是否宕机)
块报告(安全模式下检测)
数据完整性检测(校验和比较)
--名字节点(日志文件,镜像文件)
.空间收回机制
HDFS命令:
.Shell命令
LS,|sr
Mkdir,rm,cp,
Chmod chown
Cat,mv,put,get,tail
HDFS缺点:
-低延迟数据访问
.比如毫秒级
.低延迟与高吞吐率
-小文件存取
.占用NameNode大量内存
.寻道时间超过读取时间
-并发写入、文件随机修改
.一个文件只能有一个写者
.仅支持append